You are on page 1of 166

Istorija i filozofija prirodnih nauka i tehnologije

UVOD U STATISTIČKE
METODE ISTRAŽIVANJA
SNEŽANA KIRIN

Statistički način mišljenja jednog će dana za svakodnevni život građana


postati jednako neophodan kao znanje čitanja i pisanja
Herbert George Wells (1866-1946)
POJAM I PREDMET
IZUČAVANJA
• Reč statistika potiče od latinske reči status-
stanje
• Predmet proučavanja su masovne, a ne
pojedinačne pojave.
• Na razvoj statistike su značajno uticali razvoj
teorije verovatnoće, a u današnje vreme
računari i softveri za statistiku.
ZAŠTO PROUČAVATI
STATISTIKU?
• U današnjem informacionom dobu svet je pun
podataka.
• Postalo je pravilo da moramo usvajati i vrednovati
znatne količine podataka (na čije dobijanje se troše
ogromne količine novca) ako želimo dobiti kvalitetan
uvid u tekući razvoj događaja.
• Podacima se mora dati smisao.
• Poslovne odluke se donose u okruženju u kome
donosioci odluka nisu sigurni u ponašanje bitnih
faktora u budućnosti.
Izbor obeležja -
ETAPE U PROCESU iskustvenog
karaktera
STATISTIČKOG
ZAKLJUČIVANJA
Određivanje uzorka

Sistematično
sređivanje dobijenih
vrednosti iz uzorka

Obrada podataka

Tumačenje rezultata
PODELA STATISTIKE: DESKRIPTIVNA I
INFERENCIJALNA STATISTIKA
DESKRIPTIVNA STATISTIKA:
• Bavi se opisivanjem prikupljenih podataka dobijenih prilikom ispitivanja
ili merenja.
• Sređivanje i sažimanje podataka kako bi bili što pregledniji.
(npr. Grafički prikaz, aritmetička sredina, standardna devijacija)

INFERENCIJALNA STATISTIKA:
• Služi analizi uzoraka i pronalaženju pravilnosti ili razlika unutar ili među
uzorcima.
• Omogućuje stvaranje zaključaka (npr. da li se smeju generalizovati
zaključci iz konkretnog uzorka na celu populaciju).
(npr. hipoteza, otkrivanje veza među promenljivim, modeliranje odnosa ili
sličnih postupaka poput analize varijanse, faktorske analize... )
PODELA STATISTIKE

VRSTE STATISTIKE

DESKRIPTIVNA INFERENCIJALNA

grafički prikazi
analiza relativnim brojevima
srednje vrednosti
procena karakteristika
mere disperzije
testiranje hipoteza
mere asimetrije i zaobljenosti
međuzavisnost pojava
analiza vremenskih serija
UZORKOVANJE
Teme
• Promenlјive (kvalitativne;
kvantitativne:diskretne,
kontinualne)
• Skale za merenje
(nominalne, ordinalne,
intervalne i „ratio“) Različite populacije iz grupe ljudi

• „Jačina“ istraživanja
• Proces uzorkovanja
• Tipovi uzorkovanja
• Greške uzorkovanja
Odnos populacije i uzorka
POPULACIJA-STATISTIČKI SKUP
Populaciju (statistički skup) čine jedinice (stvari, osobe, poduzeća,
proizvodi i sl.) čija su svojstva predmet istraživanja statističkom
metodom

STATISTIČKI
SKUP

KONAČAN BESKONAČAN REALAN HIPOTETIČAN

PREBROJIV NEPREBROJIV
Definisanje statističkog skupa

Pojmovno Prostorno Vremenski

• Podatak je statistički izmereni kvalitativni ili kvantitativni


atribut po kom su statističke jedinice u skupu slične, a ujedno se
međusobno razlikuju.
Takav atribut (svojstvo) nazivamo statističkim obeležjem.
Varijable (promenljive)
U statistici se varijabla definiše sa karakteristikama:
• Variabla je atribut koji opisuje osobu, mesto, stvar ili ideju.
• Vrednost variable može varirati od jednog subjekta do drugog.
SKALE MERENJA

MERNE
SKALE

Nominalna Ordinarna Intervalna „Ratio” Vremenska


KVALITATIVNE I KVANTITATIVNE
VARIABLE diskretne
Kvantitativne

kontinuirane
Variable možemo klasifikovati:
Varijable

Kvalitativne
• kvalitativne (kategorijske) ili
• kvantitativne (numeričke).

• Kvalitativne promenljive uzimaju vrednosti koje predstavljaju imena ili


oznake. Na primer, boja lopte (npr. crvena, zelena, plava) ili rasa pasa (npr.
doga, ovčar, terijer) predstavljaju primere kvalitativnih ili kategorijskih
variabli.
• Kvantitativne variable su numeričke. One predstavljaju merljivu količinu.
Na primer, kada govorimo o naseljenosti grada, mi govorimo o broju ljudi u
gradu - merljiv atribut grada.
• U algebarskim jednačinama, kvantitativne variable su prezentovane
simbolima (na pr. x, y, ili z).
SKALE MERENJA:
NOMINALNA SKALA MERENJA
• Nominalna skala merenja jedino zadovolјava svojstvo
identifikacije.
• Vrednosti dodelјene promenlјive predstavlјaju opisnu
kategoriju, ali nema nikakve numeričke vrednosti u vezi sa
veličinom.
• Primeri: pol je primer promenlјive koja se meri na nominalnoj
skali. Pojedinci mogu biti klasifikovani kao "muško" ili
"žensko", ali nijedna vrednost ne predstavlјa više ili manje "rod"
od drugog. Religija i politička pripadnost su takodje primeri
varijabli koje se obično mere na nominalnoj skali.

12
ORDINALNA (REDNA) SKALA
MERENJA

• Ordinalna skala ima dva svojstva: identitet i veličinu. Svaka


vrednost u rednoj skali ima jedinstveno značenje i ima uređena
odnos prema svakoj drugoj vrednosti.
• Primer redne skale je rezultat trke Formule 1 gde dobijamo
identitet i redno mesto učesnika u trci. U ovoj skali se zna ko je
ispred koga (ali ne i za koliko, 100m ili 2 kilometra).

13
INTERVALNA SKALA MERENJA
• Intervalna skala merenja ima svojstva: identitet, veličina i jednaki
intervali.
• Primer intervalne skale je Celzijusova skala za merenje temperature.
Skala se sastoji od jednakih temperaturnih jedinica, tako da je razlika
između 40 i 50 stepeni Celzijusa jednaka razlici između 50 i 60
stepeni Celzijusa.
• Sa intervalnom skalom se ne zna samo da li su različite vrednosti veće
ili manje, već se i takođe zna i koliko su one veće ili manje. Na
primer, pretpostavimo da je u ponedeljak bilo 15 stepeni Celzijusa, a u
utorak 25 stepeni. Zna se, ne samo da je u utorak bilo toplije, zna se da
je bilo 10 stepeni toplije.
• Pored toga, nula ne predstavlјa apsolutnu najnižu vrednost. Umesto
toga, to je tačka na skali sa brojevima iznad i ispod nje (na primer, -10
stepeni Celzijusa).

14
„RATIO“ SKALA
(SKALA MERENJE RAZMERE)
• „Ratio“ skala nosi ime po činjenici da je merenje procena odnosa
između veličine kontinuirane količine i jedinične veličine iste vrste
(Michell, 1997, 1999). Skala odnosa poseduje smislenu
(jedinstvenu i ne-proizvolјnu) nultu vrednost.
• „Ratio“ skala zadovolјava sve četiri svojstva merenja: identitet,
veličinu, jednake intervale i apsolutna nula.
• Primer „Ratio“ skale je težina objekta. Svaka vrednost na skali
težine ima jedinstveno značenje, težine se mogu redno prikazati,
jedinične težine na skali su jednake, a tu je apsolutna nula.
• Apsolutna nula je svojstvo skale težine jer predmeti u mirovanju
mogu biti u bestežinskom stanju, ali oni ne mogu imati negativan
težinu.

15
SKALE MERENJA

Nominalna
Identitet (deskriptivna
kategorija)
Ordinalna
Identitet i jačina

Intervalna
Identitet, jačina i jednaki
intervali
„Ratio“ skala
Identitet, jačina, jednaki intervali
i apsolutna nula

16
JEDNODIMENZIONI I
DVODIMENZIONI PODACI
• Jednodimenzioni podaci. Kada se sprovede studija koja posmatra
samo jednu promenlјivu, kaže se da se radi sa univariatnim
podacima.
• Primer: sprovodi se anketa za procenu prosečne potrošnje goriva
različitih automobila. Pošto se radi samo o jednoj promenlјivoj
(zapremini), smatra se da se radi sa univariatnim podacima.
• Dvodimenzioni podaci. Kada se sprovodi studija koja istražuje
odnos između dve varijable, radi se sa bivariatnim podacima.
• Na primer, pretpostavimo da se sprovodi studija sa ciljem da se
odredi odnos između težine vozila i potrošnje goriva. Pošto se radi
sa dve promenlјive ( težina i zapremina), kaže se da se radi sa
bivarijatnim podacima.

17
Populacija

UZORKOVANJE Uzorkovanje Zaključivanje

• Teorija uzorkovanja proučava Uzorak

odnos između neke populacije i


uzorka izvučenog iz nje.
• Takve informacije se zatim
koriste za procenu parametara
kao što su srednja vrednost
populacije i varijansa.

18
DEFINICIJA PROBLEMA
• Uspešna statistička praksa se zasniva na fokusiranoj
definiciji problema. U uzorkovanju, to podrazumeva
definisanje populacije iz koje se uzorak uzima.
• Populacija se može definisati kao skup svih lјudi ili
artikala sa karakteristikom koja se želi razumeti. Zato
što u praksi veoma retko ima dovolјno vremena ili
novca da se prikupe informacije iz svih ili svega u
populaciji, cilј postaje pronalaženje reprezentativnog
uzorka (ili podskup) od te populacije.
• Uzorkovanje se, kao deo statističke prakse, bavi
izborom podskupa pojedinaca iz populacije da se dobije
neko znanje o celoj populaciji, a posebno za potrebe
izrade prognoze na osnovu statističkog zaklјučivanja.

19
OKVIR UZORKA

• Obično se okvir uzorka postavlja tako da se može


identifikovati svaki element i uklјučiti u uzorak.
• Najjednostavniji tip okvira je spisak elemenata
populacije (poželјno je cele populacije) sa
odgovarajućim kontakt informacijama.

20
POPULACIJA I UZORAK

• Merljivo svojstvo populacije, kao srednja vrednost ili


standardna devijacija se zovu parametri populacije, ali
merljive karakteristike uzorka se zovu statistike.
• Srednja vrednost populacije se označava sa μ; a srednja vrednost
uzorka sa .
• Formula za standardnu devijaciju populacije je različita od
formule za standardnu devijaciju uzorka.

21
TIPOVI UZORKOVANJA

• Probabilističko uzorkovanje
• Uzorkovanje metodom slučajnog izbora
• Sistematično uzorkovanje
• Stratificirano uzorkovanje
• Probabilističko uzorkovanje proporcionalno veličini
• Uzorkovanje klastera

22
PROBABILISTIČKO UZORKOVANJE
• Probabilističko uzorkovanje je takvo uzimanje uzorka pri
kome svaka jedinica u populaciji ima šansu (veću od nule) da
bude uzeta u uzorak i ta verovatnoća može da se tačno odredi.
• Ovaj način uzorkovanja je bilo koji metod koji koristi neki oblik
slučajnog izbora.
• Da bi imali slučajadn metod selekcije, potrebno je da se podesi
proces ili postupak tsko da se osigura da različite jedinice
populacije imaju jednake verovatnoće da budu izabrane.
• Ljudi su dugo pokušavali da generišu razne oblike slučajnog
izbora, kao što su branje imena iz šešira, ili birajući najkraću
slamku. Ovih dana se koriste kompjuteri kao mehanizam za
generisanje slučajnih brojeva i kao osnov za metodu slučajnog
izbora.
23
PROBABILITISTIČKO
UZORKOVANJE
• Kada svaki element u populaciji ima istu verovatnoću
selekcije, kaže se da je u pitanju "dizajn sa jednakom
verovatnoćom selekcije“ (sve izabrane jedinice imaju istu težinu).
• Verovatnoća uzorkovanja obuhvata: princip slučajnog uzorka,
sistematično uzorkovanja, stratifikovano uzorkovanje,
uzorkovanje sa verovatnoćom proporcionalnoj veličini
uzimanja uzorka, i klaster uzorkovanje.
• Ovi različiti načini primene verovatnoće uzorkovanja imaju dve
zajedničke stvari:
• Svaki element ima poznatu verovatnoću (veću od 0) i
• Uklјučuje slučajni izbor u nekom trenutku.

24
UZORKOVANJE METODOM
SLUČAJNOG IZBORA
• Uzorkovanje metodom slučajnog izbora je metod
uzorkovanja koji ima sledeća svojstva:
• Populacija se sastoji od N objekata.
• Uzorak se sastoji od n objekata.
• Svi mogući uzorci od n objekata su jednako verovatni.
Glavna prednost prostog uzorkovanja na slučajan način je da
garantuje da je izabran uzorak reprezentativan za populaciju. To
obezbeđuje validnost statističkog zaključivanja.

25
UZORKOVANJE METODOM SLUČAJNOG
IZBORA - NEDOSTACI
• Princip slučajnog uzorka može biti ranjiv na greške uzorkovanja,
jer slučajnost selekcije može dovesti do toga da neki uzorak ne
odražava sastav populacije.
• Na primer, jednostavan slučajni uzorak od deset lјudi iz neke
zemlјe će u proseku imati pet muškaraca i pet žena, ali je
verovatno da dosta pojedinačnih uzoraka imaju veći/manji broj
muškaraca/žena od 5. U cilju prevazilaženja ovog problema
koriste se sistematsko uzorkovanje i stratifikacija.
• Princip slučajnog uzorka takođe može biti glomazan i naporan
kada se radi uzorkovanje od neobično velike populacije.
• U nekim slučajevima, istraživači su zainteresovani za
istraživačkih pitanja specifična za podgrupe populacije.

26
SISTEMATIČNO UZORKOVANJE

• Sistematično uzorkovanje se sprovodi tako što se elementi


populacije biraju u određenim intervalima po utvrđenoj šemi.
• Sistematično uzorkovanje uključuje slučajan početak i nastavlja
izborom svakog sledećeg k-tog elementa. Ovde je, broj jedinica u
uzorku, k=(veličina populacije/veličina uzorka). Važno je da
početna tačka nije prva na listi, već se slučajno bira. Jednostavan
primer je biranje svakog 10-tog imena u telefonskom imeniku .
• Sve dok je početna tačka slučajna , stematično uzorkovanje je tip
probabiliti uzorkovanja.

27
UZORKOVANJE STRATIFIKACIJOM
• Kada stanovništva obuhvata različite kategorije, one
se mogu organizovati po tim kategorijama u odvojene
"slojeve".
• Svaki sloj je tada odabran kao samostalna sub-
populacija, od kojih pojedini elementi mogu biti
nasumično odabrani. Postoji nekoliko potencijalnih
prednosti slojevitog uzorkovanja.
Uzorkovanje proporcionalno veličini
• Uzorkovanje čija je verovatnoća proporcionalna
veličini se izvodi tako da je verovatnoća izbora svakog
elementa proporcionalna njegovoj veličini.

28
KLASTER UZORKOVANJE
Ponekad je po ceni efektivnije grupisati elemente u groupe
(’klastere') po geografskom principu ili periodu vremena.
(Skoro svi uzorci su u nekom smislu ’klasterisani' u vremenu –
mada se to retko uzima u obzir u toku analize)

Populacija

Grad
Nivo klastera

Blok 1 Blok 2 Blok 3

Zgrada 1 Zgrada 2

Elementarni nivo
29
DESKRIPTIVNA
STATISTIKA
Pojam deskriptivne statistike

• Važna primena deskriptivne statistike je da sumira


sakupljene podatke na jasan i razumljiv način.
• Deskriptivna statistika se primenjuje da opiše osnovna
svojstva podataka koji se analiziraju.
• Zajedno sa jednostavnim grafičkim prikazom/analizom, ona
daje i osnovnu kvantitativnu analizu podataka.

31
MERA CENTRALNE
TENDENCIJE
Fundamentalni zadatak u velikom broju statističkih analiza je
određivanje lokacije i varijabilnosti skupa podataka.
SREDNJA VREDNOST
•Glavna deskriptivna (opisna) kvantitativna vrednost izvedena iz
podataka uzorka je sredina, koja predstavlja aritmetički prosek
podataka uzorka. Ona se koristi kao najpouzdanija pojedinačna
mera vrednosti tipičnog člana uzorka.
𝑿
• Sredina populacije, 𝝁 =
𝑵
𝒙
• Sredina uzorka 𝑿= =
𝒏
gde
o ΣX je suma svih obeležja populacije.
o N je broj obeležja populacije.
o Σx je suma obeležja uzorka i n je broj obeležja u
uzorku.
Kada statističari govore o sredini populacije koriste grčko
slovo μ . Kada govore o sredini uzorka koriste oznaku 𝑋 .
MEDIJANA

•Ako uzorak sadrži nekoliko vrednosti koje su toliko velike ili


toliko male da imaju iskrivljujući efekat na vrednost sredine, on
se može predstaviti tačnije korišćenjem medijane – vrednosti
koja sve vrednosti uzorka deli na dve jednake polovine.
•Postupak određivanja mediane posmatrana obeležja se
poređaju od najmanje do najveće vrednosti. Za neparan broj
opservacija, mediana je srednja vrednost. Za paran broj
opservacija mediana je sredina dve srednje vrednosti :
•NEPARAN BROJ OPAŽANJA:
MEDIANA=(N + 1)/2
• PARAN BROJ OPAŽANJA:
MEDIANA= [(N/2) + ((N/2) +1)]/2
MOD
•Mod je vrednost koja se najčešće pojavljuje u skupu
podataka.
PRIMER 1
•Pretpostavimo da imamo uzorak od 5-oro dece i
merimo njihovu visinu. Izmerene visine su:
100 cm, 100 cm, 130 cm, 140 cm i 150 cm.
Vrednost mediane je 130 cm; jer imamo 5
posmatranja, a 130 cm je srednja visina;
Srednja visina = (100 + 100 + 130 + 140 + 150)/5 =
620/5 = 124 cm
Mod=100 cm (dva puta)
Sredina nasuprot mediani

•Svaka od njih ima prednosti i nedostatke:


•Medijana može biti bolji pokazatelj tipične
vrednosti u slučaju kada imamo ekstremne
izuzetke.
•Međutim, kada imamo veliki uzorak koji ne
uključuje izuzetke, srednja vrednost pokazuje
bolju meru centralne tendencije.
PRIMER 2

•Ilustracija: Pretpostavimo da posmatramo


uzorak od 10 porodica i zanima nas tipični
prihod porodice. Devet porodica imaju prihod
između 50.000 and 100.000 din; ali deseta ima
mesečni prihod od 1.000.000 din. Deseta
porodica je ekstremna vrednost (izuzetak). Ako
mi procenjujemo prihod tipičnog domaćinstva
onda će srednja vrednost znatno premašivati
prihod tipičnog domaćinstva, a medijana neće.
MERENJE DISPERZIJE
• Količine najčešće korišćene za merenje rasipanja
(disperzije) vrednosti oko njihove sredine su varijansa σ2
i njen kvadratni koren, standardna devijacija σ.

• Varijansa se izračunava određivanjem sredine, njenim


oduzimanjem od svake vrednosti u uzorku (što daje
odstupanje-devijaciju uzoraka), a potom nalaženjem
proseka kvadrata ovih odstupanja.
VARIJANSA
•U populaciji, variansa je srednje kvadratno odstupanje od sredine
populacije definisana formulom :
σ2 = Σ ( Xi - μ )2 / N

2
gde je Σ variansa populacije, μ je srednja vrednost populacije, X i je
i-ti element populacije i N je broj elemenata populacije.
•Varijansa uzorka se definiše nešto drugačijom formulom:

s2 = Σ ( xi - 𝒙 )2 / ( n - 1 )

gde je s varijansa uzorka, 𝑥 je sredina uzorka, 𝑥 𝑖 je i-ti element iz


uzorka i n je broj elemenata u uzorku. Formula za varijansu uzorka
može da se posmatra kao nepristrasna procena varijanse pop ulacije.
STANDARDNA DEVIJACIJA
•Standardna devijacija populacije je kvadratni koren iz
varianse:
(𝑥𝑖 −𝑥)2
𝜎 = 𝜎2 =
𝑁
2
gde je σ standardna devijacija populacije, σ je varijansa
populacije, μ je srednja vrednost populacije, 𝑥𝑖 je i-ti
elemenat populacije i N je broj elemenata u populaciji.
Standardna devijacija uzorka je:
(𝑥 − 𝑥 )2
𝑖
𝜎 = 𝑠2 =
𝑛−1
2
gde je s - standardna devijacija, s je variansa uzorka, 𝑥 je
sredina uzorka, 𝑥𝑖 je i-ti element uzorka i n je broj
elemenata u uzorku.
SREDNJA VREDNOST I
STANDARDNA DEVIJACIJA
• Sredina i standardna devijacija uzorka koriste se kao
procene odgovarajućih karakteristika celokupne
grupe iz koje je uzorak izvučen.
GRAFIČKI PRIKAZ KUMULATIVNE
FREKVENCIJE

• Grafički prikaz kumulativne frekvencije je način da se


se prikažu kumulativne informacije grafički. On
prikazuje broj, procenat ili proporciju elemenata
posmatranog skupa koja je manja ili jednaka nekoj
vrednosti.

• Primer: U skupu podataka kumulativna frekvencija


za vrednost x je ukupan broj zbirova koji su manji ili
jednaki x. Slika na sledećem slajdu ilustruje razliku
između frekvencije i kumulativne frekvencije. Oba
grafa pokazuju zbirove testa za 300 studenata.
PRIMER 3

• Visine kolona levog grafa, pokazuju frekvenciju - broj


studenata u svakoj grupi po rezultatu u testiranju. Npr.,
oko 30 studenata je dobilo između 51 i 60 poena na
testu.
• Visine kolona desnog grafa pokazuju kumulativnu
frekvenciju – broj studenata do svakog zbira poena koji
se posmatra. On pokazuje da je 30 studenata dobilo na
testu do 50 poena; 60 studenata je dobilo rezultat do 60
poena; 120 studenata je dobilo rezultat do 70poena itd.
APSOLUTNA NASUPROT RELATIVNOJ
FREKVENCIJI
• Frekvencija se može
meriti apsolutnim ili
relativnim brojevima
• (proporcija-gornji
graf ili procenat-
donji graf).
DISKRETNA PROMENLJIVA-
VARIJANSA
Za diskretnu varijablu X varijansa je data izrazom:

 
k
E ( X   ) 2   2   ( xi   ) 2 p ( xi )
i 1

k
   x p ( xi )  
2 2
i
2

i 1
KONTINUALNE PROMENLJIVE
• Ovde graf prikazuje
kumulativni graf kontinualne
promenljive na X osi
Odredjivanje mediane:
• Posmatra se linija koja ide od
Y ose za 50%. Ta linija seče
krivu nad X osom (vrednost
zbira testa) za vrednost 73. To
znači da je polovina studenata
dobila rezultat testa do 73
poena i polovina najmanje 73
poena.
• Prema tome, mediana je 73.
DESCRIPTIVNE STATISTIČKE ANALIZE
•Descriptivne statističke analize predstavljaju skup metoda koji se
koriste za prikaz i opis osnovnih karakteristika statističkog skupa.

Određivanje osnovnih statističkih indikatora uključuje:

1. Grupisanje i sortiranje podataka.


2. Prikaz statistika.
3. Određivanje osnovnih indikatora statističkih serija.

• Grupisanje podataka se vrši prema vrednosti ili modalitetu koji se


istražuje.
• Prikazivanje statističkih serija može biti urađeno na dva načina:
• tabelarno.
• grafički.
SIMETRIJA I SPLJOŠTENOST
(SKEWNESS AND KURTOSIS)
•„Skewness“ je mera simetrije ili, preciznije, nedostatak
simetrije. Distribucija skupa podataka je simetrična ako izgleda
isto levo i desno od centralne vrednosti.
•Kurtosis je mera da li su podaci oštrije ili spljoštenije
raspoređeni u odnosu na normalnu distribuciju.
• To znači da skup podataka kod koga je kurtosis veliki ima
značajan “pik” blizu srednje vrednosti, naglo opadajući i ima „duge
repove“.
• Skup podataka sa malim kurtosisom ima ravan vrh blizu sredine.
(Uniformna distribucija je ekstreman slučaj).
SKEWNESS
•Za skup podataka Y1. Y2. .... YN, formula for
skewness je:
𝑛 3
𝑖=1 𝑖(𝑌 − 𝑌 )
𝑠𝑘𝑒𝑤𝑛𝑒𝑠𝑠 =
(𝑁 − 1)𝑠 3
gde je 𝑌 srednja vrednost, s je the standardna devijacija i N je broj
elemenata.
• Skewness za normalnu distribuciju je nula i svaki simetričan skup
podataka ima skewness blizu nule.
• Negativne vrednosti za skewness ukazuju podatke koji su
„iskrivljeni“ na levo, a pozitivne vrednosti za skewness ukazuje da
su podaci „iskrivljeni“ na desno.
• Iskrivljenost na levo znači da je levi rep duži u odnosu na desni.
Slično, iskrivljenost na desno znači da je desni rep relativno duži u
odnosu na levi.
KURTOSIS
𝑛
− 𝑌 )4
𝑖=1(𝑌𝑖
𝑘𝑢𝑟𝑡𝑜𝑠𝑖𝑠 =
(𝑁 − 1)𝑠 4

Gde je 𝑌 srednja vrednost, s je standardna devijacija i N je


broj podataka. Kurtosis za standardnu normalnu distribuciju
je 3. Iz tog razloga, neki analitičari koriste sledeću
definiciju za kurtosis :
𝑛 4
𝑖=1(𝑌𝑖 −𝑌 )
𝑘𝑢𝑟𝑡𝑜𝑠𝑖𝑠 = -3
(𝑁−1)𝑠4
KURTOSIS

•Ta definicija se koristi sa ciljem da označi da


standardna normalna distribucija ima kurtosis
nula.
•U tom slučaju pozitivan kurtosis ukazuje
distribuciju sa „pikom“, a negativan kurtosis
ukazuje da se radi o ravnijoj distribuciji.
PRIMERI ZA SKEWNESS I KURTOSIS:
SKEWNESS
Primer 4-tabela

Broj ispita (X) Broj studenata (fi)


0-2 10
3-5 20
6-8 15
9-11 12

posmatrano svojstvo Frekvencija (fi),


X- kvalitativna strana kvantitativna strana tabele
TIPOVI GRAFOVA:

•Grafovi se obično dele na:


• Skater (Scatter)
• Stubičasti (Bar)
• Linijski (Line diagram)
•“Pita- graf“ (Pie chart)
SKATER GRAF
Number of students
25

20

15

Number of students

10

0
0 2 4 6 8 10 12

Number of exams
Bar dijagram
Broj studenata (fi)
25

20

15

Number of students (fi)

10

0
0-2 3-5 6-8 9-11
U Excelu
Broj ispita Broj studenata Number of exam Number of students
1 10
4 20 Mean 5,5 Mean 14,25
7 15 Standard Error 1,936491673 Standard Error 2,174664725
10 12 Median 5,5 Median 13,5
Mode #N/A Mode #N/A
Standard Deviation
3,872983346 Standard Deviation 4,34932945
Sample Variance 15 Sample Variance 18,91666667
Kurtosis -1,2 Kurtosis -0,036561936
Skewness 0 Skewness 0,829536957
Range 9 Range 10
Minimum 1 Minimum 10
Maximum 10 Maximum 20
Sum 22 Sum 57
Count 4 Count 4

59
PRIMER5

Broj turista (u Broj turista


Mesec hiljadama) (u hiljadama)
Januar 20
Februar 18 January
February
Mart 21 March
April
April 35 May

Maj 40 June
July
Jun 95 August
September
Jul 75 October

Avgust 78 November
December
Septembar 41
Octobar 45
Novembar 34
Decembar 18
LINIJSKI DIJAGRAM

Broj turista (u hiljadama)


100

90

80

70

60

50

Number of tourists (in thousands)


40

30

20

10

0
POLARNI DIJAGRAM (TIP LINIJSKOG
DIJAGRAMA)
January
100
December 90 February
80
70
60
November 50 March

40
30
20
10
October 0 April Series1

September May

August June

July
„PITA“ GRAF
PRIMER: SREDNJA VREDNOST (EXCEL)
Broj turista
Mesec (u hiljadama) • Srednja vrednost= (∑xi)/n
Januar 20
Februar 18 =520/12= 43.3
Mart 21
April 35 Srednja vrednost =
Maj 40
Jun 95 Average(b2:b12)=43.3
Jul 75
Avgust 78 Minimum=min(b2:b12)=18
Septembar 41
Oktobar 45 Maximum=max(b2:b12)=92
Novembar 34
Decembar 18 Range=Maximum-minimum
Sum 520
The mean 43,33333333 =77
The mean 43,33333333
Histogram in Excel:

65
Output

66
PRIMER: MEDIANA
Number of tourists
Months (in thousands)
December 18 Sortira vrednosti
February 18 prema veličini
January 20
March 21
November 34 Mediana=
April 35
May 40 (f6+f7)/2=(35*40)/2
September 41 =37.5
October 45
July 75
August 78
June 95
VARIANSA I STANDARDNA DEVIJACIJA
Broj turista Variance=
(Xi-Xaverage)**2
Mesec (u hiljadama) Sum(Xi-Xsr)**2/(n-1)
Januar 20 544,4444444
Februar 18 641,7777778
Or
Mart 21 498,7777778 Excel function
April 35 69,44444444 Var(x1:x12)=
Maj 40 11,11111111
670.606
Jun 95 2669,444444
Jul 75 1002,777778 StDev=SQRT(Varian
Avgust 78 1201,777778 ce)
Septembar 41 5,444444444 or
Oktobar 45 2,777777778
Novembar 34 87,11111111
Excel function:
Decembar 18 641,7777778 STDEV(x1:x12)=
Sum 520 7376,666667 25.89606265
The mean 43,33333333
The mean 43,33333333
Variance 670,6060606
StDev 25,89606265
EXCEL REZULTATI ZA PRIMER 5:
DATA ANALYSIS. DESCRIPTIVE STATISTIC
Number of tourists Number of tourists (in thousands)
Months (in thousands)
Mean 43.33333333
January 20
Standard Error 7.47554937
February 18 Median 37.5
March 21 Mode 18
April 35 Standard Deviation 25.89606265
May 40 Sample Variance 670.6060606
June 95 Kurtosis -0.193982443
July 75 Skewness 0.964520362
August 78 Range 77
September 41 Minimum 18
October 45 Maximum 95
Sum 520
November 34
Count 12
December 18
Confidence Level(95,0%) 16.45357323
SKEWNESS AND KURTOSIS (IN EXCEL)

Skewness = SKEW(B2:B13)= 0.964520362

Pozitivna vrednost za skewness ukazuje da su podaci zakrivljeni


udesno.

Kurtosis = Kurt(B2:B13)= -0.193982443


Prema drugoj definiciji (normalna distribucija ima=0 negativni
kurtosis ukazuje „zaravljenu" distribuciju.)

Standard error = StdDev/Sqrt(12)= 25.89606264678/ 3.46410161

= 7.4755493700355
Raspodele verovatnoće
Raspodele
verovatnoće

Raspodela diskretne Raspodela kontinuirane


verovatnoće verovatnoće

Binomna Normalna

Poisson-ova Uniformna

Hipergeometrijska Eksponencijalna

71
DISKRETNE SLUČAJNE PROMENLJIVE
Slučajne promenljive (promenljiva koja poprima numeričke vrednosti
određene ishodima slučajnog eksperimenta)
Teme:
• Očekivana vrednost diskretne slučajne promenljive
• Varijansa
• Binomna distribucija
• Poasonova distribucija
• Kovarijansa i korelacija
NORMALNA RASPODELA
Normalna gustina raspodele verovatnoće:
1 1 x 2
f ( x) 
(  )
e 2

 2
Normalna raspodela je
potpuno određena sa:
Način zadavanja: μ -srednja vrednost
σ -standardna devijacija
N(μ, σ2)


OSOBINE NORMALNE RASPODELE

• zvonastog” oblika

• simetrična

• unimodalna

• asimptotska

• srednja vrednost, medijana i


mod su jednaki

Raspodelu definišu srednja


vrednost, µ, i standardna devijacija,
σ.
Srednja vrednost definiše centar, a
standardna devijacija širinu.
OSOBINE NORMALNE RASPODELE

Standardna devijacija je rastojanje


od srednje vrednosti do tačke gde
kriva menja oblik od konkavne na
dole u konkavnu na gore
IZGLED NORMALNIH RASPODELA

Promenom parametara μ i σ, dobijaju se različite normalne raspodele


PRIMERI PODATAKA SA
NORMALNOM RASPODELOM
• očekivani životni vek ljudi u populaciji
• visina
• težina
• visina plata
• broj pacijenata na koji propisani lek deluje
• podaci iz proizvodnje
• IQ
• dr.
GRAFIK NORMALNE RASPODELE
STANDARDIZOVANO ODSTUPANJE
(Z-SCORE)
• z-score je razlika između posmatrane vrednosti i
srednje vrednosti podeljena sa standardnom
devijacijom
𝑿−𝑿
𝒛=
𝝈
• To je odstupanje posmatrane vrednosti od srednje
vrednosti izraženo u broju standardnih devijacija
• Na primer: ako je z = 2, vrednost X je udaljena 2
standardne devijacije od srednje vrednosti 𝑋.
Ako je -3,0 > z-score > 3,0
vrednost z-score se smatra ekstremnom
STANDARDIZOVANO
ODSTUPANJE , Z-SCORE
Primer: Prosečan unos proteina 77 g/dan, standardna devijacija, Sd =
8 g, N = 500
Gde se nalazi osoba koja unosi 93 g/dan ?

93  77 16
z  2
8 8
Osoba koja unosi 93 g/dan ima vrednost koja je za 2 Sd veća od
prosečnog unosa proteina

Negativan z-score znači da je vrednost manja od srednje


vrednosti
STANDARDIZOVANA NORMALNA
RASPODELA
• z-score je normalno distribuiran sa srednjom vrednošću
0 i standardnom devijacijom 1
• standardizovana normalna raspodela

= 0 standardizovana
normalna kriva
=1 ≠0
≠ 1

• standardizovana normalna kriva je simetrična oko nule


• najveći deo površine ispod krive leži izmedju -3z i 3z
• površina ispod standardne normalne krive je 1
• krajevi krive se asimptotski približavaju x-osi
PRIMER

Ako je varijabla x normalno distribuirana sa srednjom


vrednošću μ = 5 i standardnom devijacijom σ = 2,
z vrednost za x = 6,2 je

x   6,2  5
z   0,6
 2

Ovo znači da se vrednost x = 6,2 nalazi 0,6 standardnih


devijacija (0,6 inkrementa od 2 jedinice) iznad srednje
vrednosti
PRIMER

x   6,2  5
z   0,6
 2

Normalna raspodela
Standardizovana
normalna raspodela

σ=2 σz = 1

6,2 x 0,6 z

μ=5 μz = 0
PRIMER

x   2,5  5 x   7,5  5
z   1,25 z   1,25
 2  2

Standardizovana
Normalna raspodela
normalna raspodela

σ=2 σz = 1

2,5 7,5 x -1,25 1,25 z


μ=5 μz = 0
NALAŽENJE VEROVATNOĆE

Verovatnoća je P c  X  d   ?
površina ispod krive!

f(x)

c d x
VEROVATNOĆA KAO
POVRŠINA ISPOD KRIVE
Ukupna površina ispod krive je 1,0
Raspodela je simetrična

f(x) P(  x  μ)  0,5 P(μ  x  )  0,5

0,5 0,5

μ x
P(  x  )  1,0
TABELA STANDARDIZOVANE NORMALNE RASPODELE

• Tablica standardizovane normalne raspodele daje


verovatnoću, odnosno površinu za vrednosti manje od
željene vrednosti z (od - ∞ do z)

primer:
P(z < 2,00) = 0,9772 0.9772

0 2,00 z
TABELA STANDARDNE NORMALNE
RASPODELE

U kolonama su vrednosti z na
drugom decimalnom mestu

Z 0,00 0,01 0,02 …

U redovima su vrednosti 0,0


z do prvog decimalnog 0,1
mesta . Verovatnoća/površina za
. vrednosti manje z manje od
. željene vrednosti z
2,0 0,9772

2.0
P(z < 2,00) = 0,9772
VAŽNE POVRŠINE ISPOD KRIVE

Površina između -1z i +1z = 0,6826 = 68,3%


Verovatnoća da se varijabla x nađe u granicama jedne
standardne devijacije ili -1z i +1z je 68,3%
P = 0,6826 = 68,3%
VAŽNE POVRŠINE ISPOD KRIVE
U rasponu μ ± σ je
• 68,3% površine ispod krive, odnosno
• 68,3% svih vrednosti

f(x)

σ σ

x
μ-1σ μ μ+1σ
68,26%
VAŽNE POVRŠINE ISPOD KRIVE

Površina između -2z i +2z = Površina između -3z i +3z =


0,9544 = 95,4% 0,9974 = 99,7%

Verovatnoća da se varijabla x Verovatnoća da se varijabla x


nađe u granicama -2z i +2z : nađe u granicama -3z i +3z :
P = 0,9544 = 95,4% P = 0,9974 = 99,7%
VAŽNE POVRŠINE ISPOD KRIVE
 U rasponu μ ± 2σ je  U rasponu μ ± 3σ je
 95,4% površine ispod  99,7% površine ispod
krive krive
 95,4% svih vrednosti  99,7% svih vrednosti

2σ 2σ 3σ 3σ
x x
μ-2σ μ μ+2σ μ-3σ μ μ+3σ

95.44% 99.73%
DISTRIBUCIJE UZORAKA
Za odnos standardne devijacije osnovnog skupa i standardne
devijacije distribucije uzoraka važi izraz:

x 
n
Navedena relacija o odnosu standardne devijacije distribucije
uzoraka i standardne devijacije osnovnog skupa važi za
beskonačne osnovne skupove i za konačne skupove s
ponavljanjem.
Izraz za standardnu grešku procene aritmetičke sredine za
konačne skupove je:
 N n
x  
n N 1
TEORIJA MALIH UZORAKA

• Često se koristi činjenica da se uzorci veličine N>30,


nazivaju velikim, a distribucija velikog broja statistika je
aproksimativno normalna i približavanje normalnoj
distribuciji je bolje kako N raste.
• Za uzorke veličine N<30, koji se smatraju malim, ta
aproksimacija nije dobra i sve je lošija kako se N
smanjuje i zbog toga se mora napraviti modifikacija
normalne distribucije.
• Proučavanje distribucija malih uzoraka se naziva teorija
malih uzoraka.
STUDENTOVA T-RASPODELA
• U verovatnoći i statistici, Studentova t-raspodela (ili jednostavno t-
distribucija) sa (n-1) stepeni slobode , t𝛼(n-1), je neprekidna raspodela
verovatnoća koja nastaje kada se procenjuje srednja vrednost
normalno distribuirane populacije u situacijama gde je uzorak mali i
standardna devijacija populacije, σ, je nepoznata.
• Ako σ = s, t = Z, T distribucija postaje normalna raspodela. Kao N
raste, Studentova distribucija se približava normalnoj raspodeli.
• Studentova raspodela se može izvesti transformacijom Studentove
𝒙−𝝁
z-raspodele koristeći 𝒛 ≡ i zatim definisanjem 𝒕 ≡ 𝒛 𝒏 − 𝟏
𝒔
• t-raspodela je simetrična i u obliku zvona, kao normalna
distribucija, ali ima veće „repove“, što znači da je više sklona da
proizvodi vrednosti koje padaju daleko od svog proseka. To je čini
korisnim za razumevanje statističkog ponašanje pojedinih vrsta
odnosa slučajnih veličina, u kojima su varijacije u imeniocu veće i
može se desiti da se pojave ekstremne vrednosti u slučajevima kada
imenilac pada blizu nule.
PRIMENA STUDENTOVE RASPODELE
Studentova raspodela igra važnu ulogu u nizu široko korišćenih statističkih
analiza:
• za procenu statističke značajnosti razlike između srednjih vrednosti dva
uzorka,
• za konstrukcija intervala pouzdanosti za testiranje razliku između
srednjih vrednosti dve populacije, i u analizama linearne regresije.
PROCENA PARAMETARA
OSNOVNOG SKUPA
• Procenjivanje nepoznatih parametara osnovnog skupa zasniva se na
podacima koji predstavljaju slučajan uzorak i na izračunavanju
odgovarajuće statistike uzorka.
• Parametri se mogu proceniti brojem i intervalom.
• Izračunata vrednost statistike uzorka je procena parametra brojem, a
procena intervalom se sastoji u određivanju granica raspona varijacije u
kojem se prema nekom kriteriju očekuje da će biti vrijednost nepoznatog
parametra.
PROCENA PARAMETARA
OSNOVNOG SKUPA
• Interval procene aritmetičke sredine se određuje kao
interval vrednosti oko aritmetičke sredine uzorka.
• Širina ovog intervala zavisi od pouzdanosti procene i
oblika sampling distribucije aritmetičkih sredina
uzoraka.
• Sampling-distribucija aritmetičkih sredina uzoraka
određene veličine ima normalan oblik (Centralna
granična teorema).
Px  z1 2   x    x  z1 2   x   1   
PROCENA PARAMETARA
OSNOVNOG SKUPA
• Standardna greška procene aritmetičke sredine je funkcija
veličine uzorka. Za poznatu vrednost standardne devijacije
osnovnog skupa, ona iznosi  x .  n
• U praksi uglavnom nije poznata standardna devijacija
osnovnog skupa, već se ona procenjuje pomoću standardne
devijacije uzorka.
Izraz za nepristrasnu procenu varijanse je:

n

 ix  x  2

S2  i 1

n 1
PROCENA PARAMETARA OSNOVNOG SKUPA
Procenjena vrednost standardne greške je
x
Sx  S n t
Sx
• Standardizovana vrednost t ima oblik tzv. Studentove ili T-
distribucije sa (n-1) stepena slobode.
Za velike uzorke sampling distribucija se može aproksimirati
normalnom distribucijom

P( x  z1 2  S x    x  z1 2  S x )  (1   )

P( x  t ( 2;n1)  S x    x  t ( 2;n 1)  S x )  (1   )


SREDNJE VREDNOSTI
UZORAKA I POPULACIJE
Ako posmatramo sve moguće uzorke veličine n iz populacije od N
jedinica i ako za svaki uzorak izračunamo srednju vrednost i
posmatramo distribuciju tako dobijenih srednjih vrednosti.
𝑘
𝑋1 + 𝑋2 + ⋯ . 𝑋𝑘 𝑖=1 𝑋𝑖
𝑋= =
𝑘 𝑘
Može se pokazati da je aritmetička sredina te distribucije (sredina
uzoraa) jednaka aritmetičkoj sredini osnovnog skupa
𝟏 𝒌
𝑿= 𝒊=𝟏 𝑿𝒊 =µ
𝒌
CENTRALNA GRANIČNA TEOREMA

Neka je X1, X2, … , Xn slučajan uzorak uzet iz


proizvoljne distribucije sa srednjom vrednošću μ i
varijansom σ2
Ako n „ide“ u beskonačnost, distribucija uzoraka oblika
𝑿−𝝁
𝝈
𝒏

konvergira ka N(0,1) distribuciji.


KONCEPCIJA TESTIRANJA HIPOTEZA

• Nulta i alternativna hipoteza


• Testiranje sredine normalne distribucije u slučaju poznate varijanse
populacije
• Interpretacija vrednosti verovatnoće ili p-vrednosti
• Testiranje sredine normalne distribucije u slučaju nepoznate varijanse
• Testiranje hipoteza proporcijskog udela u
• populaciji (veliki uzorak)
• Primeri
NULTA I ALTERNATIVNA HIPOTEZA
• Kod svakog problema koji se razmatra, obično se mogu pojednostavlјeno
formulisati dve suprotstavlјene tvrdnje (hipoteze):
• Nulta hipoteza, označuje se sa H0, i
• Alternativna hipoteza, označena sa H1.
• Ove dve konkurentske tvrdnje( hipoteze) se međutim ne tretiraju ravnopravno,
već se: posebna pažnja posvećuje nultoj hipotezi.
• Uobičajena je situacija: Eksperiment se sprovodi u pokušaju da se opovrgne ili
odbaci određenu nultu hipotezu tako da se njoj daje prioritet u smislu da se ona
ne može odbaciti ukoliko dokazi protiv nje nisu dovolјno jaki.
Na primer,
H0: nema razlike u ukusu između normalnog i Diet Coca Cole
H1: postoji razlika.
• Ako je jedna od dva tvrdnje "jednostavnija" njoj se obično daje prioritet, tako da
se "komplikovanija" teorija ne usvaja ukoliko nema dovolјno dokaza protiv
jednostavnije.
• Na primer, "jednostavnija" je tvrdnja da nema razlike u ukusu između obične i
dijet Coca Cole i tvrdnje da postoji razlika.
VRSTE HIPOTEZA
Možemo reći da postoje 2 vrste hipoteza:

1.Hipoteze koje se odnose na raspodele obeležja nazivaju se neparametarske


hipoteze
paramerarske hipoteze odnose na karakteristične parametre populacije
kao što su očekivana vrednost i varijansa.

Primer:
Ako naprimer bacamo kocku 1000 puta i ako se 6 pojavi 185 puta ,
parametarska hipoteza bi bila da je
1
p
6
neparametarska hipoteza bi bila da se verovatnoće pojave određenog broja
raspoređuju po binomnoj raspodeli
1
p  , n  1000, k  185,
6
n
Pn ,k , p    p k 1  p 
nk

k 
PARAMETARSKE I NEPARAMETARSKE
HIPOTEZE
Primer parametarske hipoteze:
• H0: očekivana vrednost visine deset godina starih dečaka u srpskoj
populaciji nije drugačija od očekivane vrednosti visine deset godina
starih devojčica.
• H1: postoji razlika u očekivanoj vrednosti visine deset godina starih
dečaka i devojčica u srpskoj populaciji.
Primer neparametarske hipoteze:
• H0: Visina deset godina starih dečaka je normalno distribuirana u
srpskoj populacijii.
• H1:Visina deset godina starih dečaka nije normalno distribuirana u
srpskoj populacijii.
ISHOD TESTIRANJA HIPOTEZA
Ho, polazna-nulta i H1, suprotna- alternativna.
• Hipoteza može da bude pogrešna i tačna.
• Zato se postavljene hipoteze podvrgavaju se statističkom proveravanju , testiranju,
verifikaciji, pomoću koga se donose odluke, da li sa određenom verovatnoćom,
hipoteze se prihvataju ili odbacuju.
• Savremenu teoriju verifikacije dali su Nejman i Pirson (1928,1933 )
Ishod testiranja hipoteza može biti:
1. "Odbaci H0 u korist H1(kao posledicu eksperimenta na uzorku i prihvatamo
H1) ili
2. „ Ne odbaci H0“ (jer nema dokaza protiv nje).

Primer:
• Ako je proizvodjač lansirao na tržište nov proizvod, on mora da dokaže da je
njegov proizvod bolji od postojećih.
• Polazna hipoteza Ho je da je novi proizvod najbolji, i da bi dokazao tu hipotezu, on
mora da obori suprotnu, alternativnu H1, da su stari proizvodi bolji od novog.
POSTUPAK TESTIRANJA HIPOTEZA
• Postupak testiranja hipoteza o vrednosti nekog parametra
osnovnog skupa sprovodi se prema precizno definisanoj
proceduri. Koraci u tom postupku su:
1. formulacija statističke hipoteze;
2. izbor statistike testa i određivanje njenog oblika
distribucije;
3. određivanje nivoa značajnosti testa;
4. definisanje pravila na osnovu kog se odlučuje o
prihvaćanju ili odbacivanju hipoteze;
5. izbor slučajnog uzorka određene veličine i izračunavanje
statistike testa;
6. donošenje odluke o prihvaćanju ili odbacivanju
hipoteze.
POSTUPAK TESTIRANJA HIPOTEZA
• Nulta i alternativna hipoteza predstavljaju dve precizne,
međusobno isključive tvrdnje o vrednosti nekog parametra
osnovnog skupa.
dvosmerni test H 0 :   0 H1 :   0

jednosmerni, test na gornju granicu H 0 :   0 H1 :   0

jednosmerni, test na donju granicu H 0 :   0 H1 :    0


POSTUPAK TESTIRANJA HIPOTEZA

• Statistika testa ili test-statistika je kriterijum na osnovu kog se


sprovodi testiranje.
• Kod testiranja pretpostavki o vrednosti parametara osnovnog
skupa, statistika testa je nepristrasna procena parametra ili neka
transformacija te procene.
• Statistika testa je slučajna varijabla koja poprima određeni oblik
distribucije verovatnoće.
• Za primer varijable aritmetičke sredine uzorka važi pravilo o
normalnom obliku distribucije ~ N*,

 , 
0
2
x

* Centralna granična teorema


TESTIRANJE HIPOTEZA

Njena standardizovana vrednost X  0


Z
x
za velike uzorke ima oblik jedinične normalne distribucije Z ~ N(0,1), a
za male uzorke standardizovana varijabla
X  0
T
x

ima oblik T-distribucije za (n-1) stepeni slobode.


TESTIRANJE HIPOTEZA
Dvosmerni test

Z ~ N (0,1)

(1 - α )
α/2 α/2
-z 0 +z
Područje odbacivanja Područje prihvaćanja Područje odbacivanja
TESTIRANJE HIPOTEZA
Jednosmerni test na donju granicu Jednosmerni test na gornju granicu

Z ~ N (0 , 1) Z ~ N (0 , 1)

1-α
1-α

α α
-z 0
0 z
Područje odbacivanja Područje prihvaćanja Područje prihvaćanja Područje odbacivanja
TESTIRANJE HIPOTEZA
• Sledeći korak kod testiranja hipoteze je izbor slučajnog
uzorka odgovarajuće veličine.
• Za uzorak se vrše potrebni obračuni i izračunava
vrednost statistike testa.
• Koristeći uzorak, izračunava se standardna greška, broj
stepeni slobode, test statistika, i P-vrednost povezana sa
test statistikom.

• Donošenje odluke :
• Ako je statistika testa iz područja prihvaćanja nulte
hipoteze, nulta hipoteza se prihvata kao moguća, a
alternativna hipoteza se odbacuje.
• U protivnom, kada je vrednost statistike testa iz područja
odbacivanja hipoteze, prihvatiće se alternativna hipoteza.
P-VREDNOST
• Pretpostavimo da sprovedemo eksperiment u kojem su izmerene
srednje vrednosti u dva uzorka koje su različite. Kako se može biti
siguran o pretpostavljenoj srednjoj vrednosti populacije?
• Postoje dve mogućnosti:
• Populacija ima različitu srednju vrednost.
• Populacije ima isti srednju vrijednost, a dobijena razlika je poslediva
slučajnog uzorkovanja.
• P vrednost je verovatnoća u rasponu od nula do 1
• U praksi se dobijena P-vrednost iz uzorka poredi sa stvarnim
nivoom značajnosti našeg testa (0,05, 0,01…) i, ako je manja,
dobijena razlika je značajna. (ako je naša p-vrednost "p <0.05“ to
znači da će nulta hipoteza biti odbijena na nivou značajnosti od
5%).
• Praktično: upoređuje se P-vrednost na nivou značajnosti, i odbacuje
nultu hipotezu kada je P-vrednost manja u odnosu na nivo
značajnosti.
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA
• Testiranje hipoteze o pretpostavljenoj vrednosti aritmetičke sredine
osnovnog skupa sprovodi se na osnovu slučajnog uzorka veličine n
jedinica.
• Statistika testa je aritmetička sredina uzoraka koja predstavlja slučajnu
varijablu.
• Varijabla aritmetičkih sredina uzoraka, odnosno njena
standardizovana vrednost, može imati oblik normalne distribucije ili
T-distribucije.
• U zavisnosti od oblika distribucije, testiranje hipoteza o aritmetičkoj
sredini osnovnog skupa sprovodi se pomoću z-testa ili t-testa.
Postupak testiranja hipoteze počinje postavljanjem nulte i alternativne
hipoteze.
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA
Postavka hipoteze za dvosmerni test
H 0 :   0 H1 :   0

Postavka hipoteze za jednosmerni test na gornju granicu

H 0 :   0 H1 :   0

Postavka hipoteze za jednosmerni test na donju granicu

H 0 :   0 H1 :   0
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA
• Test statistika je varijabla aritmetičkih sredina uzoraka koja ima
normalnu distribuciju~ 𝑵(𝝁𝟎, 𝝈𝑿 𝟐 ), ili standardizovana varijabla
sredina uzoraka, 𝑋
𝑿−𝝁𝟎
koja ima jedinični normalni oblik distribucije, 𝒁 =
𝝈𝑿

Z ~ N(0.1).
Pravilo odlučivanja o prihvaćanju ili odbacivanju nulte hipoteze se
postavlja u zavisnosti od oblika hipoteze i nivoa značajnosti testa 𝛼 .
TESTIRANJE HIPOTEZA O ARITMETIČKOJ
SREDINI OSNOVNOG SKUPA

• Pravila odlučivanja kada je područje prihvaćanja nulte hipoteze dato


u mernim jedinicama obeležja su:
• Kod dvostranog testa nulta hipoteza se prihvata, na nivou značajnosti
𝛼, ako je aritmetička sredina uzorka 𝒙 iz intervala (c1,c2), gde je
c1   0  z1 / 2  S x c2   0  z1 / 2  S x

• Kod jednostranog testa na gornju granicu nulta hipoteza se prihvaća kada


je aritmetička sredina uzorka iz intervala (-∞,c2), gde je c2   0  z1 S x
• Kod jednostranog testa na donju granicu nulta hipoteza se prihvaća kada
je aritmetička sredina uzorka iz intervala (c1 , +∞,), gde je c1   0  z1 S x
PRAVILA ODLUČIVANJA O TESTIRANJU HIPOTEZA O
ARITMETIČKOJ SREDINI OSNOVNOG SKUPA

Pravila odlučivanja o prihvaćanju ili odbacivanju nulte hipoteze kada


je područje prihvaćanja dato u standardizovanim jedinicama su:
Kod dvostranog testa nulta hipoteza se prihvaća, na nivou
značajnosti 𝛼 , kada je empirijska z-vrednost po apsolutnoj
vrednosti manja od tablične z vrednosti za vrednost funkcije
distribucije
z  z1 / 2

Nulta hipoteza kod jednostranih testova na gornju granicu se


prihvaća kada je
z  z1
Nulta hipoteza kod jednostranih testova na donju granicu se
prihvaća kada je
z  z1
POSTUPAK TESTIRANJA HIPOTEZA
• Sa unapred zadatom verovatnoćom ( na primer 0,95) se može odrediti kritični
interval, npr. (-k, +k) i proveriti da li izračunata vrednost pripada tom
intervalu.
• U slučaju da pripada se zaključuje da odstupanja imaju slučajan karakter i
nema razloga za odbacivanjem nulte hipoteze
• Za verovatnoću od 0,95, prag značajnosti je 0,05 , a to znači da postoji 5%
rizika da se napravi greška tj. da posmatrana vrednosti ne pripada
izračunatom intervalu i da nulta hipoteza nije tačna. (To znači da su ostupanja
od početne hipoteze značajna.)

BITNO:
Treba odrediti kritičnu vrednost k.
(Kako odrediti k? Gde povući granicu između slučajnih i značajnih odstupanja??)
TESTIRANJE CENTRALNE TENDENCIJE-
DVOSTRANI TEST
H 0 :   0 H1 :   0


P X k  
Ukoliko je  k , k  dobijamo oblast prihvatanja nulte hipoteze, interval

 H0 
2   1 2
kriticna k k kriticna oblast
oblast oblast prihva tan ja H o oblast odbacivanja H o
TESTIRANJE CENTRALNE
TENDENCIJE- JEDNOSTRANI TEST
Jednostrani i test:

 P X  k  
  1
k kriticna oblast
oblast prihva tan ja Ho oblast odbacivanja H o

P X  k  
   1
k
kriticna oblast
oblast prihva tan ja H o
oblast odbacivanja H o
GREŠKE TESTIRANJA HIPOTEZA

• Greške prvog tipa, greške nastaju kada nultu hipotezu


odbacimo, a tačna je i prihvatimo alternativnu hipotezu.

• Greške drugog tipa, greške nastaje kada nultu hipotezu ne


obacimo, a pogrešna je.
GREŠKE TESTIRANJA HIPOTEZA

Odluka

Odbaciti H0 Ne odbaciti H0

Prava odluka, testiranjem


Greška I vrste, testiranjem
H0 se prihvata uz
H0 se odbacuje uz
H0 verovatnoću (1−𝛼)
verovatnoću 𝛼

Istina Dobra odluka, testiranjem


H0 se odbacuje uz
verovatnoću (1−𝛽) Greška II vrste, 𝛽,
H1 (ova verovatnoća se zove testiranjem H0 se prihvata
''jačina testa'' ili ''moć
testa'')
TESTIRANJE HIPOTEZE H0(µ=µ0)
ako je σ poznato
• U slučaju testiranja nulte hipoteze H0 protiv alternativne
hipoteze H1, ako slučajna promenljiva ima normalnu
 
raspodelu , a disperzija je poznata, važi P X  z  
• Ako slučajna promenljiva nema normalnu raspodelu,
uvodimo statistiku X  0
Z

n
koja ima normalnu standardnu, N(0,1) raspodelu, gde je
𝑿- aritmetička sredina dobijena na osnovu uzorka,
µ0- predpostavnjena vrednost sredine populacije,
σ - standardno odstupanje populacije i n je obim uzorka.
TESTIRANJE HIPOTEZA: SREDNJE VREDNOSTI
• Testovi mogu biti dvosmerni kada testiramo hipotezu da je
srednja vrednost jednaka nekoj pretpostavljenoj vrednosti,
H0(μ= μ0) nasuprot hipoteze H1(μ≠μ0)
• Kritična oblast prihvatanja nulte hipoteze je na osnovu zadatog
praga značajnosti :

 
 k   X  0 k  0 
P 0
  
    
 
Oblast prihvatanja  n n n 
[-z, z] P z  Z  z   

a oblast odbacivanja ,
 ,  z   z,  
PRAG ZNAČAJNOSTI-
DVOSTRANI TEST

Za verovatnoću 𝛼, prag značajnosti, se obično uzimaju


vrednosti 0,01 i 0,05, a za izračunavanje se koriste
tablice normalne raspodele.

 H0 
2   1 2
kriticna z z kriticna oblast za H 0
oblast oblast odbacivanja
PRAG ZNAČAJNOSTI-
JEDNOSTRANI TEST

X  0
 Z
  1 
n
z kriticna oblast za H 0
oblast neprihva tan ja
PZ  z  



z
kriticna oblast za H 0
oblast neprihva ta anja
PZ  z  
PRIMER:

• Za doziranje nekog leka se zna se da ima


normalnu raspodelu N(μ,9). Uzet je uzorak
od n= 10 pacijenata i na osnovu dobijenih
podataka dobijena je srednja vrednost doze
od 24,3gr.
• Sa pragom značajnosti od 5% testirati
hipotezu za matematičko očekivanje doze od
24gr nasuprot altetnativnog matematičkog
očekivanja doze od 26gr.
PRIMER-REŠENJE
X : N   ,9  , X  24,3
N(μ, σ2):   3; n  10;   0, 05
H 0    24  ; H1    26 

Oblast prihvatanja:
H0 0, 05
  0,95 0,316
z  1, 64 kriticna oblast za H 0
3,16 𝑃 𝑍 <𝑧 =1−𝛼

z=z0.95=1,64

𝑋 − 𝜇 24,3 − 24
𝜎 = 3
= 0,316
𝑛 10

0,316<1,64
Zaključak: Ne odbacujemo H0
PRIMER
Iz populacije sa obeležjem X za koje se zna da je odstupanje 300, ne zna se
raspodela, uzet je uzorak oblika 99856 i na osnovu njega je dobijena srednja
vrednost 24,3. Sa nivoom značajnosti od 5% testirati hipotezu
H0(μ=24)
prema alternativnim hipotezama
1. H1(μ>24)
2. H1(μ<24)
3. H1(μ≠24)
REŠENJE ZA 1: preko odredjivanja oblasti prihvatanja
H 0    24  H1    24 
X : N   ,300  , X  24,3 𝑋 − 𝜇0
𝑍= 𝜎
  9; n  99856;   0, 05
𝑛
H 0    24  ; H1    24 
Oblast prihvatanja:
𝑃 𝑍 <𝑧 =1−𝛼
z=z0.95=1,64
H0 0, 05
  0,95 Kritična vrednost k:
𝑘 − 24
X  24,3 z  1, 64 kriticna oblast za H 0
= z0.95 = 1,64 ⇒ 𝑘 = 25,26
300
99856

Zaključak: Ne odbacujemo H0
Rešenje za 1- preko kritične vrednosti, Z:
H 0    24  H1    24 

X  0 24,3  24
X : N   ,300  , X  24,3   1,56
 300
  9; n  99856;   0, 05
n 99856
H 0    24  ; H1    24  z  z0,95  1, 64
1,56  1, 64

H0 0, 05
  0,95
Z  1,56 z  1, 64 kriticna oblast za H 0

Zaključak: Ne odbacujemo H0
Rešenje za 2:
H 0    24  H1    24 

X : N   ,300  , X  24,3 X  0 24,3  24


  1,56
  9; n  99856;   0, 05  300
H 0    24  ; H1    24  n 99856
z  z0,05  1, 64
1, 64  1,56
0, 05 H0
  0,95
z  1, 64 Z  1,56
kriticna oblast za H 0

Zaključak: Ne odbacujemo H0
Rešenje za 3:

H 0    24  H1    24 

X  0
X : N   ,300  , X  24,3 Z

  9; n  99856;   0, 05
n
H 0    24  ; H1    24 
oblast prihva ta anja
P  Z  z   0,95
z  z0,95  1,96
24,5  24

 0,52   1,96;1,96 
 H0 300
2   1 2
99856
kriticna z z kriticna oblast za H 0
oblast oblast odbacivanja
hipotezu Ho ne odbacujemo.
TESTIRANJE HIPOTEZE H0(μ= μ0) AKO SLUČAJNA PROMENLJIVA
IMA NORMALNU RASPODELU, A DISPERZIJA JE NEPOZNATA

Postupak je sličan slučaju kod normalne raspodele, samo se sada koristi


statistika X 
T  0
s
n

gde je S standardno odstupanje uzorka, a slučajna promenljiva X ima


studentovu t(n-1) raspodelu.
Dvostrana kritična oblast za nultu hipotezu bila bi T  t , a dobija se
na osnovu veze
 
P T  t 

gde se t izračunava iz tablica za studentovu raspodelu.


PRIMER:

Mašina proizvodi kuglice prečnika debljine 0,5cm. Da bi proverili da li


kuglice imaju prečnik propisane debljine uzima se uzorak od 10 kuglica.
Ako je aritmetička sredina uzorka 0,53cm i uzoračko standardno
odstupanje 0,03cm, testirati hipotezu da mašina proizvodi kuglice
propisanog prečnika sa pragom značajnosti 0,05.
Rešenje:
H0: µ=0,5
H1: µ≠0,5 𝑋 −𝜇 0 𝑋 −𝜇 0
< −𝑧𝛼/2 ili > 𝑧𝛼/2
𝜎/ 𝑛 𝜎/ 𝑛

X : t  n  1  t0,95  9   2, 26
s  0, 03, n  10, X  0,53
H 0    0,5  ; H1    0,53 H1    0,5 
REŠENJE preko
odredjivanja kritične oblasti:

k=0,52,
prihvatljiv interval je
(-0,52<T<+0,52)

Zaključak:
Kako je 0,53 >0,52 odbacujemo nultu hipotezu.
REŠENJE preko
odredjivanja t- vrednosti:
Oblast prihvatanja hipoteze Ho
 
 X  k  0, 5 
P  k  T  k   1    P  0
   1 
 s 0, 03 
 10 
 n
 
 k  0, 5 
P T    0, 95, t0,95  9   2, 26
 0, 03 
 
 10 
 2, 26; 2, 26 
0, 53  0, 5
∉  2, 26; 2, 26 
 3,16 
0, 03
10
Nultu hipotezu odbacujemo.
REŠENJE preko
odredjivanja t -vrednosti:

H 0    0,5 ; H1    0,5
 
 X  k  0, 5 
P T  k     P  0
   1 
 s 0, 03 
 
 n 10 
t0,95  9   1,833
t  1,833
X  0
 3,16
s
n
hipotezu odbacujemo.
PRIMER
• Prosečan broj grešaka u radu jedne mašine je 8. Posle intervencije na mašini moguće
je da dođe do povećanja broja grešaka.
• Zadatak: Utvrditi da li je došlo do povećanja broja grešaka.

REŠENJE:
Da bi se to utvrdilo izvršeno je 100 merenja i dobijeni su sledeći rezultati:

Broj 0-10 10-20 20-30 30-40 >40


grešaka

Broj 60 20 10 5 5
merenja
REŠENJE:

Na osnovu zadate tablice izračuna se


X  12,5 s 2  128, 7  s  11,35
t raspodela
n  100;   0, 01;
H o    8  H1    8  Izračunavanje t-vrednosti za 99
stepeni slobode za 𝛼=9,01 za
t0.99  99   2,36 jednostranu gornju granicu:
12,5  8 t-vrednost (desni deo)= 2,36
T  3,94  2,36
11,35
100

Hipoteza Ho se odbacuje
PRIMER:

U uzorku od 3000 bacanja novčića dobijeno je 1578 grbova. Verovatnoća dobijanja


grba je 0,5 i taj podatak uzimamo kao nultu hipotezu, a podatak da će se dobiti više
grbova uzima se kao alternativna hipoteza. Testirati nultu hipotezu sa pragom
značajnosti od 0,01.
H 0  p  0,5 , H1  p  0,5
Slučajna promenljiva X predstavlja broj dobijenih grbova, sa binomnom raspodelom,
koja se aproksimira normalnom raspodelm.
Iz uslova zadatka dobijamo da je

p  0,5; n  3000;   np  1500;   npq  750;   0,01


REŠENJE:

Potrebno je odrediti kritičnu vrednost k za nultu hipotezu, i ona u ovom


primeru treba da bude veća od 1500, što odgovara verovatnoći od 0,5
grbova. Tada ako je broj izračunatih grbova veći od k, odbacujemo hipotezu,
inače je prihvatamo.
Ako bi koristili jednostrani test u našem primeru kritična oblast bila bi
P  X  k   1  P  X  k   0, 01  P  X  k   0,99
 X  X k  1500   k  1500 
P    0,99      0,99 
 npq   
 750  750
k  1500 H0
 2,32  k  1564 I
750 99% 1%
1500 k  1564 1578

Kako je dobijena vrednost 1578>1564, izračunata vrednost pripada kritičnoj


oblasti i odbacujemo nultu hipotezu .
REŠENJE (II NAČIN):
H0
99% I
1%
1500 k  1564 1578

• Ovaj primer mogao se rešiti i na drugi način, samo izračunavanjem praga


značajnosti. Takva izračunavanja imaju određene prednosti jer se
kvantitativno može odrediti koliko nulta hipoteza protivreči hipotezi .
• Sada u izračunavanju ćemo koristiti dvostrani test i za razliku od
predhodnog izračunavanja odrediti oblast prihvatanja nulte hipoteze.
T=(1564-1500)/sqrt(750)=2,84, t-vrednost za dvostrani test sa pragom
značajnosti 0,01= 2,62.
2,84>2,62 što znači da odbacujemo nultu hipotezu.
REGRESIONA ANALIZA
UVOD
• Regresiona analiza se koristi da proceni vezu
između nezavisne i zavisne varijable (promenljive).
• Nakon analize, regresiona statistika može da se
koristi da predvidi zavisnu variablu kada je
nezavisna variabla poznata.
• Regresija prevazilazi korelacionu analizu
dodavanjem predikcije.

148
REGRESIJA NA INTUITIVNOM NIVOU
• Ljudi koriste regresiju na intuitivnom nivou svaki dan:
• U poslu,dobro obučen čovek se smatra finansijski
uspešnijim.
• Majka zna da više šećera u hrani njenog deteta rezultira
većim nivoom energije.
• Lakoća buđenja ujutru zavisi od toga koliko kasno smo
sinoć legli da spavamo.
• Kvantitativna regresija dodaje preciznost razvojem
matematičke formule koja može biti korištena za
predviđanje.

149
PRIMER
• Istraživač u medicini može koristiti težinu
(nezavisna promenljiva) da predvidi najbolju dozu
za nov lek (zavisna promenljiva).
• Korisnost regresione analize je određivanje formule
koja najbolje odražava vezu između dve
promenljive.
• Onda se može koristiti tako dobijena formula da se
predvide vrednosti zavisne promenljive kada je
jedino nezavisna promenljiva poznata.
• Doktor može prepisati odgovarajuću dozu baziranu
na težini pacijenta.

150
REGRESIONA LINIJA
Regresiona linija (poznata kao linija najmanjih kvadrata) je
crtež očekivane vrednosti zavisne variable za sve vrednosti
nezavisne variable.
Tehnički, to je linija koja "minimizira kvadratna odstupanja".
Regresiona linija je ona koja najbolje uklapa (fituje) podatke
na „scaterplotu“.

151
LINEARNA REGRESIJA- MODEL
VEZE
• Linearna regresija pokušava da modelira vezu između dve variable
provlačenjem linearne jednačine kroz posmatranepodatke. Jedna
variabla se smatra nezavisnom, a druga zavisnom.
• Na primer, modelar može želeti da uspostavi vezu težina i visina učenika
koristeći linearni regresioni model. Pre pokušaja da „provuče“ linearnu
funkciju (model) kroz posmatrane podatke prvo mora utvrditi da li
uopšte postoji uzajamna povezanost posmatranih variabli.

152
VEZA IZMEĐU DVE VARIABLE

• „Scatterplot“ može biti od koristi u određivanju jačine veze između dve


variable.
• Ako se pokaže da nema povezanosti između nezavisne i zavisne
promenljive (t.j., scatterplot ne pokazuje ni rastući ni opadajući trend),
onda primena linearnog regresionog modela neće biti moguća.

153
VEZA IZMEĐU DVE VARIABLE-PRIMER
„Scatterplot“

Visina Težina
175 70
190 87
189 95
179 80
172 69
186 84
168 65
177 75
180 80
LINEARNA REGRESIJA
• Koristeći regresionu jednačinu, zavisna variabla može biti predviđena preko
nezavisne variable.
• Nagib regresione linije (b) je definisan kao porast zavisne promenjive
podeljen sa porastom nezavisne promenljive x.
• (a) je tačka gde regresiona linija seče y osu.
• Nagib u odnosu na x osu i presek sa y osom su inkorporirani u regresionu
jednačinu.
• Presek sa y osom se obično naziva konstanta, a nagib koeficijent. Pošto
regresioni model obično nije perfektan prediktor, moramo odrediti i izraz za
grešku jednačine.

155
REGRESIONA JEDNAČINA
Regresiona analiza neke populacije je korisna za teorijska razmatranja, ali u praksi
postoji model za procenu koji se dobija iz raspoloživih podataka. Pretpostavimo da
imamo n parova pomatranja (x1, y1) (x2, y2), ... (xn, yn). Želimo odrediti pravu liniju

𝒀 = 𝒂 + 𝒃𝒙
koja će se najbolje uklopiti u date vrednosti.
Da bismo to uradili moramo odrediti koeficijente a i b tako da suma kvadrata razlika
stvarnih i procenjenih vrednosti bude minomalna:

𝑆𝑆𝐸 = 𝑒𝑖 2 = (𝑦𝑖 − 𝑦𝑖 )2

U regresionoj jednačini, y je uvek zavisna variabla i x je uvek nezavisna variable. Data su


tri ekvivalentna načina da se matematički opiše linearni regresioni model.
y = intercept + (slope * x) + error
y = constant + (coefficient *x) + error
y = a + bx + e

156
REGRESIONA JEDNAČINA
Regresiona jednačina je y = a + bx +ε

Postoji nekoliko načina da se izračuna nagib b:


𝑛
𝑖=1(𝑥𝑖 −𝑋)(𝑦𝑖 −𝑌 ) 𝐶𝑜𝑣(𝑥,𝑦)
𝑏= 𝑛 (𝑥 −𝑋)2 = ili praktično
𝑖=1 𝑖 𝑠𝑥 2

𝑵 𝑿𝒀 − ( 𝑿)( 𝒀)
y  a bx
𝒃= 𝟐
(𝑵 𝑿𝟐 − ( 𝑿) )
𝑌−𝑏 𝑥
Intercept 𝑎=


𝑁
where xy  N x y
x i y su variable.
b
 x  N x 
b = nagib regresione linije
a = presek regresione linije i y ose. 2 2
N,N = broj elemenata

a  y bx
157
ODSTUPANJA

SST-totalna suma kvadrata odstupanja y od srednje vrednosti y


SSR-Suma kvadrata odstupanja srednje vrednosti za y i regresione
vrednosti za y
SSE –Suma kvadrata greške
SST=SSR + SSE

158
KOEFICIJENT UKLAPANJA REGRESIONE
LINIJE

Procentualna varijacija y je rezultat varijacije x.


Koeficijenat uklapanja je
Objašnjive razlike

Totalne razlike

0<=r2<=1

159
PRIMERI ZA R2

160
PRIMER 1
Odrediti linearnu regresiju

X Y
60 3.1
61 3.6
62 3.8
63 4
65 4.1

Da bismo odredili regresionu jednačinu, moramo naći nagib, intercept i uvrstiti ih u regresionu
jednačinu..

161
𝑵 𝑿𝒀 − ( 𝑿)( 𝒀)
𝒃= 𝟐
(𝑵 𝑿𝟐 − ( 𝑿) )
REŠENJE
2
Korak 1: Izračunati broj podataka.Korak 3: Naći ΣX, ΣY, ΣXY, ΣX .
ΣX = 311
N=5 ΣY = 18.6
ΣXY = 1159.7 Intercept(a) = (ΣY - b(ΣX)) / N
Korak 2: Naći XY, X2 ΣX2 = 19359
Pogledaj tabelu Korak 4: Zameniti vrednosti u datu formulu za nagib.
Nagib(b) = (NΣXY - (ΣX)(ΣY)) / (NΣX2 - (ΣX)2)
= ((5)*(1159.7)-(311)*(18.6))/((5)*(19359)-(311)2)
X Value Y Value X*X X*Y = (5798.5 - 5784.6)/(96795 - 96721)
60 3,1 3600 186 = 13.9/74
61 3,6 3721 219,6 = 0.19
62 3,8 3844 235,6
63 4 3969 252
Korak 5: Sada zameniti vrednosti u formulu za
65 4,1 4225 266,5 intercept a.
311 18,6 19359 1159,7 Intercept(a) = (ΣY - b(ΣX)) / N
= (18.6 - 0.19(311))/5
= (18.6 - 59.09)/5
b=0,19 = -40.49/5
a=-8,098 = -8.098
Korak 6: Na kraju zameniti dobijene vrednosti u formulu regresione linije:
Y=-8,098+0,19X
Regression Equation (y) = a + bx = -8.098 + 0.19x.

162
163
164
165
HVALA NA PAŽNJI!

You might also like