Professional Documents
Culture Documents
Udžbenik - Beba Mutavdžić I Emilija Nikolić Đorić
Udžbenik - Beba Mutavdžić I Emilija Nikolić Đorić
1954
POLJOPRIVREDNI FAKULTET
STATISTIKA
STATISTIKA
Dr Beba Mutavdžić
Mr Emilija Nikolić Đorić
Mr Emilija Nikolić Đorić
Dr Beba Mutavdžić
1
1954
Edicija osnovni udžbenik
Godina osnivanja
1954.
Urednik
Dr Dejan Janković,vanredni profesor
Direktor Departmana za ekonomiku poljoprivrede i sociologiju sela
Poljoprivredni fakultet u Novom Sadu,
Univerzitet u Novom Sadu
Recenzenti
Dr Zagorka Lozanov-Crvenković, redovni profesor
Prirodno-matematički fakultet Novi Sad, Univerzitet u Novom Sadu
Dr Radojka Maletić, redovni profesor
Poljoprivredni fakultet Beograd, Univerzitet u Beogradu
Izdavač
Poljoprivredni fakultet Novi Sad,Univerzitet u Novom Sadu
Zabranjeno preštampavanje i fotokopiranje. Sva prava zadržava izdavač.
Štampa:
Štampanje odobrila Komisija za izdavačku delatnost i Naučno-nastavno veće
Poljoprivrednog fakulteta u Novom Sadu.
Tiraž: 20 primeraka
Prelom teksta: Ljubiša Aleksić
Fotografija na koricama: Boža Ivanović (http://www.bozaivanovic.com/)
STATISTIKA
(za smer veterinarska medicina)
2
PREDGOVOR
Ova knjiga je udžbenik za predmet „Statistika”, koji se proučava na prvoj godini smera
Veterinarska medicina Poljoprivrednog fakulteta, Univerziteta u Novom Sadu. Sadržaj
udžbenika u skladu je sa aktuelnim akreditovanim programom za navedeni predmet i na-
vedeni smer. Knjiga nije namenjena samo za studente smera Veterinarska medicina, kao
osnovni udžbenik, već s obzirom da je vezana za osnove statistike, može biti korišćena i
od strane studenata drugih smerova Poljoprivrednog fakulteta, Univerziteta u Novom
Sadu.
Knjiga se sastoji iz šest poglavlja, koje čine strukturnu i sadržajnu celinu, koja je u skladu
sa akreditovanim programom.
Prvo poglavlje predstavlja Uvod u kome se govori o pojmu i značaju statistike i u okviru
koga su definisani osnovni statistički pojmovi (statistički skup, jedinice i obeležja
posmatranja, vrste statističkih serija).
Drugo poglavlje je Deskriptivna statistika, u okviru kog se govori o uređivanju i gra-
fičkom predstavljanju statističkih podataka, kao i o osnovnim statističkim pokazateljima
(pokazatelji srednje vrednosti, varijabiliteta i oblika).
Treće poglavlje knjige odnosi se na Teorijske distribucije, gde su najpre dati osnovni
pojmovi verovatnoće, a zatim najčešće korišćene prekidne i neprekidne teorijske distri-
bucije.
Četvrto poglavlje se odnosi na Inferencijalnu statistiku, gde je opisan metod uzorka u
istraživačkom radu, kao i distribucija sredina uzoraka, a naveden je i metod ocena na
osnovu uzoraka.
Peto poglavlje obuhvata Testiranje statističkih hipoteza, a metodološki su opisani i odgo-
varajućim primerima ilustrovani neki osnovni testovi aritmetičkih sredina i proporcija.
Šesto poglavlje je Regresiona i korelaciona analiza, u okviru koje je opisana prosta line-
arna regresija i navedene ocene i testovi parametara linearne regresije.
Autori se nadaju da će ova knjiga omogućiti studentima upoznavanje sa upotrebom sa-
vremenih statističkih metoda u rešavanju problema koji su u domenu poljoprivrednih i
bioloških nauka, odnosno konkretno problema iz oblastii veterinarske medicine. Ideja
autora je da se studenti upoznaju sa deskriptivnim metodama, kao i metodama analize
rezultata ogleda.
Koristeći ovu knjigu studenti treba da steknu sposobnost za upotrebu statističkih metoda i
njihovu primenu u oblasti svog interesovanja. Stečene sposobnosti upotrebe i adekvatnog
korišćenja statistike i njenih metoda omogućiće studentima uspešno rešavanje problema u
daljem radu i sticanju obrazovanja.
Zahvaljujemo se svima koji su na direktan ili indirektan način pomogli izradu ove knjige,
a naročito recenzentima: prof. dr Zagorki Lozanov-Crvenković i prof. dr Radojki Maletić
i na korisnim sugestijama. Za tehničko uređenje knjige zahvaljujemo se Ljubiši Aleksiću.
Novi Sad AUTORI
20.09.2018.
3
4
SADRZAJ
PREDGOVOR ..................................................................................................................... 3
1. UVOD ........................................................................................................................ 7
1.1. Pojam i značaj statistike .................................................................................... 7
1.2. Osnovni statistički pojmovi .............................................................................. 8
1.2.1. Statistički skup......................................................................................... 8
1.2.2. Jedinice i obeležja posmatranja ............................................................... 8
1.2.3. Vrste statističkih serija ............................................................................ 9
Kontrolna pitanja ...................................................................................................... 10
2. DESKRIPTIVNA STATISTIKA ............................................................................. 11
2.1. Formiranje distribucije frekvencija ................................................................. 11
2.2. Grafičko prikazivanje statističkih podataka .................................................... 14
2.3. Pokazatelji centralne tendencije ...................................................................... 17
2.3.1. Aritmetička sredina ............................................................................... 17
2.3.2. Medijana ................................................................................................ 19
2.3.3. Modus .................................................................................................... 19
2.3.4. Odnos između aritmetičke sredine, medijane i modusa ........................ 20
2.4. Pokazatelji varijacije ....................................................................................... 22
2.4.1. Interval (razmak) varijacije - I ............................................................. 22
2.4.2. Srednje apsolutno odstupanje - SO...................................................... 23
2.4.3. Standardna devijacija - σ i varijansa - σ2 ............................................... 23
2.4.4. Koeficijent varijacije - V ....................................................................... 25
2.4.5. Standardizovano odstupanje - Z .......................................................... 26
2.5. Pokazatelji oblika distribucije ......................................................................... 27
Kontrolna pitanja ...................................................................................................... 29
3. TEORIJSKE DISTRIBUCIJE .................................................................................. 30
3.1. Osnovni pojmovi verovatnoće ........................................................................ 30
3.2. Prekidne teorijske distribucije......................................................................... 32
3.2.1. Binomna distribucija ............................................................................. 32
3.2.2. Poasonova distribucija ........................................................................... 34
3.3. Neprekidne teorijske distribucije .................................................................... 35
3.3.1. Normalna distribucija ............................................................................ 35
3.3.2. Studentova – t distribucija ..................................................................... 39
3.3.3. Fišerova – F distribucija ........................................................................ 41
Kontrolna pitanja ...................................................................................................... 43
4. INFERENCIJALNA STATISTIKA ........................................................................ 44
4.1. Metod uzorka u istraživačkom radu ................................................................ 44
4.2. Distribucija sredina uzoraka ........................................................................... 45
5
4.3. Ocene na osnovu uzorka ................................................................................. 47
4.3.1. Izračunavanje standardne greške aritmetičke sredine ........................... 48
4.3.2. Interval poverenja za ocenu nepoznate sredine osnovnog skupa .......... 49
4.3.3. Interval poverenja za ocenu nepoznate proporcije osnovnog skupa ..... 52
Kontrolna pitanja ...................................................................................................... 54
5. Testiranje statističkih hipoteza ................................................................................. 55
5.1. Testovi aritmetičkih sredina ............................................................................ 56
5.1.1. Test značajnosti jedne sredine ............................................................... 56
5.1.2. Test značajnosti razlike dve sredine ...................................................... 60
5.2. Testovi proporcija ........................................................................................... 64
5.2.1. Testirnje hipoteze o proporciji osnovnog skupa .................................... 64
5.2.2. Test značajnosti razlike dve proporcije ................................................. 66
5.3. Analiza varijanse (ANOVA) ........................................................................... 67
5.3.1. Analiza varijanse potpuno slučajnog rasporeda (prostog slučajnog
rasporeda) .............................................................................................. 68
Kontrolna pitanja ...................................................................................................... 77
6. REGRESIONA I KORELACIONA ANALIZA ...................................................... 78
PRILOZI ............................................................................................................................ 89
LITERATURA .................................................................................................................. 95
INDEKS POJMOVA ......................................................................................................... 97
6
1. UVOD
7
Inferencijalna statistika pruža osnovu za predviđanje i procenu, kako bi se doneli
zaključci o celokupnoj populaciji na osnovu podataka dobijenih merenjima sprovedenim
na uzorku.
8
Obeležja jedinica posmatranja mogu biti:
• kvalitativna (atributivna, kategorijalna)
• kvantitativna (numerička)
Kvalitativna obeležja su osobine koje se uočavaju na jedinicama posmatranja, ali se ne
mogu meriti već se opisno iskazuju, odnosno ne mogu uzeti numeričke vrednosti već se
klasifikuje u dve ili više kategorija.
Kvantitativna, odnosno numerička obeležja su osobine koje se uočavaju na jedinicama
posmatranja, mogu se meriti i brojčano iskazati.
Numerička obeležja delimo na:
- prekidna (diskretna, diskontinuirana)
- neprekidna (kontinuirana)
Prekidna obeležja su numerička obeležja koja uzimaju samo određene vrednosti sa brojne
prave i rezultat su prebrojavanja.
Neprekidna obeležja su numerička obeležja koja mogu uzeti bilo koju vrednost sa brojne
prave i rezultat su merenja.
9
Kontrolna pitanja
1. Kako se definiše statistika kao naučni metod?
2. Kako se deli statistika?
3. Šta obuhvata deskriptivna statistika?
4. Šta se podrazumeva pod inferencijalnom statistikom?
5. Šta je osnovni skup ili populacija?
6. Šta je uzorak?
7. Šta je promenljiva, obeležje ili varijabla?
8. Kako se dele obeležja jedinica posmatranja?
9. Kako se dele numerička obeležja?
10. Navesti vrste statističkih serija.
10
2. DESKRIPTIVNA STATISTIKA
11
gde su Χ max i Χ min najveća i najmanja vrednost obeležja u seriji.
Na osnovu apsolutne frekvencije mogu se izračunati relativne frekvencije (pi ) i
kumulativne frekvencije (Fi ).
Relativna frekvencija (struktura) se dobija kao količnik apsolutne frekvencije svake
vrednosti obeležja i ukupnog broja jedinica posmatranja.
fi
=
pi = ( i 1,..., k ) .
N
Na osnovu izračunatih relativnih frekvencija može se iskazati učešće pojedinih vrednosti
obeležja ( s i ) u ukupnom broju jedinica posmatranja u procentima
s i = p i ⋅ 100 (%).
i
= =
Fir ∑ p j ( i 1,..., k ).
j=1
12
Rešenje:
Sistematizovana serija broja nazimica po domaćinstvu je:
1 1 2 2 2 3 3 3 3 3
4 4 5 5 5 5 5 6 6 6
7 7 7 8 8 9 9 9 10 10
13
Primer za neprekidno obeležje:
Data je mlečnost kod 20 ispitivanih krava ( lit.):
10,1 12,5 18,0 18,1 19,5 17,1 15,0 13,5 14,3 12,0
13,1 15,9 14,8 16,1 16,0 19,0 15,7 17,7 16,9 13,5
Rešenje:
Sistematizovana serija
10,1 12,0 12,5 13,1 13,5 13,5 14,3 14,8 15,0 15,7
15,9 16,0 16,1 16,9 17,1 17,7 18,0 18,1 19,0 19,5
14
Za negrupisane podatke kao grafički prikaz koristimo dijagram stablo-list (stem and
leaf). Kod ovog grafičkog prikaza svaki podatak delimo na stablo i na list. Ako su u seriji
decimalni brojevi, stablo čine celobrojne vrednosti, a list vrednosti decimal. Ukoliko su
vrednosti serije podataka dvocifreni brojevi, stablo čine cifre desetica, a listove cifre
jedinica.
Prvo se formira stablo u koloni a zatim se formiranom stablu pridružuju listovi u redo-
vima.
Primer
Na osnovu podataka o dnevnoj mlečnosti kod 20 ispitivanih krava ( lit.) formiran je
dijagram stablo-list. Stablo čini ceo deo podataka, dok list čine decimale.
Dijagram stablo-list
Za negrupisane podatke kao grafički prikaz može se koristiti i tačkasti dijagram (dot
plot). Da bi se vrednosti obeležja uredile u ne opadajući niz na X osu se nanose različite
vrednosti obeležja, a pojavljivanje svake vrednosti obeležja se označava tačkom.
Primer
15
Primer
Histogram distribucije frekvencija mlečnosti kod 20 ispitivanih krava ( lit.)
Poligon je izlomljena linija koja spaja tačke čije su koordinate vrednosti obeležja ili
sredine grupnih intervala i odgovarajuće frekvencije.
Primer
Poligon distribucije frekvencija broja nazimica po domaćinstvu
6
4
Broj domaćinstava
0
0 1 2 3 4 5 6 7 8 9 10 11
Broj nazimica
16
2.3. Pokazatelji centralne tendencije
Pokazatelji centralne tendencije (srednje, prosečne vrednosti) predstavljaju vrednosti koje
kvantifikuju tendenciju podataka u seriji prema njihovom ,,centru’’, odnosno sredini.
Pokazatelj centralne tendencije je reprezentativna vrednost koja po datim merilima zame-
njuje sve vrednosti obeležja u datoj seriji. Karakteriše statistički skup i kao informacija
može da zameni niz svih vrednosti serije.
U pokazatelje centralne tendencije ubrajaju se:
- Aritmetička sredina
- Geometrijska sredina
- Harmonijska sredina
- Medijana
- Modus
Prema načinu utvrđivanja navedeni pokazatelji centralne tendencije dele se u dve grupe:
1. izračunate srednje vrednosti - aritmetička , geometrijska i harmonijska sredina
2. položajne, pozicione srednje vrednosti - medijana i modus
Izračunate srednje vrednosti su vrednosti koje se izračunavaju na osnovu svih vrednosti
posmatranog obeležja, odnosno svih podataka u posmatranoj seriji.
Položajne, odnosno pozicione srednje vrednosti su vrednosti koje se izračunavaju izbo-
rom konkretne vrednosti obeležja prema položaju koji zauzima u posmatranoj seriji poda-
taka.
Pokazatelji centralne tendencije, odnosno srednje vrednosti su apsolutni pokazatelji, nji-
hova vrednost se iskazuje u jedinicama mere u kojima je iskazano i posmatrano obeležje.
17
sredina dobija se na osnovu zbira vrednosti obeležja jedinica posmatranja koje su
ponderisane odgovarajućim frekvencijama.
Ponderisana aritmetička sredina osnovnog skupa izračunava se na osnovu izraza:
k
∑ fi Xi
f1X1 + f 2 X 2 + ... + f k X k µ = i =1k
µ= ili .
f1 + f 2 + ... + f k ∑ fi
i =1
Za podatke uzorka ponderisana aritmetička sredina izračunava se na osnovu izraza:
k
f1X1 + f 2 X 2 + ... + f k X k ∑ fi Xi
X= ili X = i =1k .
f1 + f 2 + ... + f k
∑ if
i =1
2.3.3. Modus
Modus je najučestalija vrednost obeležja u nekoj seriji podataka. Modalna vrednost se
može utvrditi ako u seriji podataka postoje barem dve jednake vrednosti obeležja.
Ako u seriji podataka postoji samo jedna vrednost obeležja čija je frekvencija veća od
ostalih vrednosti, kažemo da je ta serija unimodalna. Neka serija podataka može biti
bimodalna (ima dva modusa) ili može imati tri modalne vrednosti.
Kod unimodalne intervalne serije distribucije frekvencija približna vrednost modusa je:
d1
Mo =
L+ ⋅i
d1 + d 2
19
gde je:
L – donja granica modalnog intervala
d1 – razlika frekvencija modalnog i njemu prethodnog intervala
d2 – razlika frekvencija modalnog i njemu narednog intervala
i – veličina grupnog interval.
7
Rešenje: ∑ Xi
2,5 + 1,5 + 2, 2 + 1, 7 + 2, 0 + 1,9 + 1,5 13,3
X =1=
= i = = 1,9 mg / l
7 7 7
Rešenje:
10 2690
∑ Xi = 2690 n = 10 =X = 269 kg
i =1 10
X: 230 260 260 260 260 270 280 280 290 300
Χ10 + Χ10
+1 X5 + X 6 260 + 270
n = 10 =Me 2 = 2 = = 265 kg
2 2 2
M o = 260 kg
Grupni Kumulativ
intervali X f fX
F
10,01-12 11 2 22 2
12,01-14 13 4 52 6
14,01-16 15 6 90 12
16,01-18 17 5 85 17
18,01-20 19 3 57 20
Zbir 20 306
21
∑ fi Xi 306
=
X = = 15,3 lit.
∑ fi 20
N
2 − Fmed −1 10 − 6
Μe = L + ⋅ i = 14 + ⋅ 2 = 15,33 lit.
f med 6
d1 ( 6 − 4)
Μo = L + ⋅ i = 14 + ⋅ 2 = 15,33 lit.
d1 + d 2 ( 6 − 4 ) + ( 6 − 5)
22
Nedostatak intervala varijacije je u tome što isključivo zavisi od ekstremnih vrednosti u
seriji i ne daje uvid u raspored ostalih vrednosti obeležja unutar serije.
23
Za negrupisane podatke osnovnog skupa standardna devijacija se izračunava na sledeći
način:
N
∑ ( Χi − µ )
2
σ = i =1 .
Ν
Standardna devijacija može da se izračuna i direktno iz podataka osnovnog skupa na
osnovu izraza:
2
N
N ∑ Xi
∑ Xi −
2 i =1
Ν
σ = i =1 .
Ν
Σf i ( Χ i − µ )
2
- na bazi odstupanja vrednosti obeležja od proseka σ=
Σf i
Σfi Χi2 −
( Σf i Χ i ) 2
- izračunavanje direktno iz podataka σ= Ν
Ν
Na osnovu podataka iz uzorka koji su dati kao distribucija frekvencija, standardna devi-
jacija se ocenjuje na sledeći način:
Σf i ( Χ i − Χ )
2
Σfi Χi2 −
( Σf i Χ i )
2
S= S= n
n −1 n −1
Kvadrat standardne devijacije predstavlja varijansu (disperziju).. Varijansa takođe može
da se izračuna za podatke osnovnog skupa ili da se oceni iz podataka uzorka na isti način
kao i standardna devijacija.
Za izračunavanje varijanse kod negrupisanih podataka osnovnog skupa koriste se sledeći
izrazi: 2
N
N N ∑ Χi
2 i =1
∑ ( Xi − µ )
2
∑ Χi −
Ν
σ2 =i =1 σ2 =i =1 ⇒ σ = σ2
Ν Ν
24
Ocenjena varijansa na osnovu negrupisanih podataka iz uzorka utvrđuje se na sledeći
način: 2
n
n ∑ Χi
∑ ( Χi − Χ )
2 n
2 i =1
2 i =1 ∑ Χi −
S = S2 = i =1
n
⇒ S = S2
n −1 n −1
Osobine varijanse
- Varijansa je pokazatelj varijacije izražen kvadratima jedinice mere posmatranog
obeležja. U slučaju da kvadrat jedinice nema interpretaciju uz izračunatu vrednost
varijanse se ne stavlja jedinica mere.
- Ako su sve vrednosti obeležja u nekoj seriji međusobno jednake varijansa i
standardna devijacija su jednake nuli.
- Ako svim vrednostima obeležja u nekoj seriji dodamo ili oduzmemo konstantu
varijansa novih vrednosti obeležja se ne menja.
Χi' =Χi ± C ⇒ σ2 ' =
σ2X (i =
1,..., N)
Xi i
- Ako sve vrednosti obeležja u nekoj seriji pomnožimo konstantom, varijansa novih
vrednosti obeležja biće jednaka proizvodu kvadrata konstante i prethodno
izračunate varijanse.
Χi' = C ⋅ Χi ⇒ σ2=
' C2 ⋅ σ2X =
(i 1,..., N)
Xi i
25
Ako su poznati podaci na osnovu uzorka koeficijent varijacije je:
S
V= ⋅ 100 ( % ) .
X
Koeficijent varijacije koristimo za upoređivanje varijabiliteta dve ili više serija čije
vrednosti obeležja su iskazane u različitim jedinicama mere, ali i za upoređivanje
varijabiliteta serija koje imaju iste jedinice mere ali značajno različite aritmetičke sredine.
X−X
X X−X X−X (X − X ) 2 X2 Z=
S
26
Rešenje:
Uz pretpostavku da se podaci odnose na uzorak:
1. Interval varijacije =I X max − X min = 4,6 – 3,9=0,7 kg
2. Srednje apsolutno odstupanje
5 5
∑ Xi ∑ Xi − X
21,5 1,0
X i =1= = 4,3 kg
= S=
o
i =1 = = 0, 2 kg
5 5 5 5
3. Varijansa
∑ (X − X)
5 2
X2 −
(∑ X) 2
4. Srandardna devijacija =S S2
= = 0, 2739 kg
0,075kg
S 0, 2739
5. Koeficijent varijacije V= ⋅ 100(%) V= ⋅ 100(%) = 6,37%
X 4,3
X−X
6. Standardizovano odstupanje - Z Z=
S
∑ Zi
5
2 ( ∑ Z )2
∑Z −
= =1
Z i= 0 S2Z= 5 = 4= 1.
5 4 4
27
Za izračunavanje koeficijenata asimetričnosti i spljoštenosti koriste se centralni momenti
2-og, 3-eg i 4-og reda. Ako su podaci u datoj seriji negrupisani potrebni centralni moment
izračunavaju se na sledeći način:
Σ ( Χ − µ) Σ ( Χ − µ)
3 4
Σ ( Χ − µ)
2
µ2 = i µ 2 =σ 2 µ3 = i µ4 = i
Ν Ν Ν
Ako su podaci u seriji dati kao distribucija frekvencija za izračunavanje 2-og, 3-eg i 4-og
centralnog momenta koriste se izrazi:
Σf ( Χ − µ ) Σf ( Χ − µ )
3 4
Σf ( Χ − µ )
2
µ2 = i i µ3 = i i µ4 = i i
Σf i Σf i Σf i
µ2
Kao pokazatelj asimetričnosti distribucije izračunava se I Pirsonov koeficijent: β1 = 3 .
µ32
µ
Kao pokazatelj spljoštenosti izračunava se II Pirsonov koeficijent: β2 = 42 .
µ2
µ3
Koeficijent asimetričnosti je kvadratni koren I Pirsonovog koeficijenta α3 = β1 = 3 ,
σ
dok se koeficijent spljoštenosti, odnosno II Pirsonov koeficijent može iskazati kao
µ
α 4 =β2 = 4 .
µ22
28
Kontrolna pitanja
1. Definisati distribuciju frekvencija.
2. Definisati relativnu frekvenciju.
3. Navesti šta je kumulativna frekvencija i vrste kumulativa.
4. Objasniti grafički prikaz stablo-list.
5. Šta je histogram i kada se koristi.
6. Šta je poligon i kada sekoristi.
7. Definisati aritmetičku sredinu i navesti njene osobine.
8. Definisati pozicione srednje vrednosti.
9. Navesti pokazatelje varijabiliteta i njihovu podelu.
10. Navesti pokazatelje oblika i tumačenje njihovih izračunatih vrednosti.
29
3. TEORIJSKE DISTRIBUCIJE
m(A) 3
P(A)= = = 0,5.
n 6
Statistička definicija verovatnoće - verovatnoća događaja A je granična vrednost
relativne frekvencije događaja A u n eksperimenata kada n neograničeno raste.
f
P(A) = lim
n →∞ n
Da bi se odredila verovatnoća događaja potrebno je ponavljati eksperiment veliki broj
puta pod istim uslovima. Ovako definisana verovatnoća je zasnovana na iskustvu i naziva
se verovatnoća aposteriori ili statistička verovatnoća.
30
U slučaju da nije moguće da se izračuna verovatnoća, ona se ocenjuje relativnom
frekvencijom:
f
P(A) =
n
Relativne frekvencije nisu verovatnoće već su aproksimacije verovatnoće. Ako se ekspe-
riment ponavlja veliki broj puta ove aproksimacije verovatnoće nekog ishoda teže vero-
vatnoćama ishoda na osnovu zakona velikih brojeva.
31
promenljivu može se definisati zakon verovatnoće (zakon raspodele) i funkcija raspo-
dele.
Distribucije koje su formirane grupisanjem opažanja ili elemenata skupa prema nekom
obeležju su empirijske (originalne, opažene) distribucije.
Nasuprot empirijskim distribucijama postoje distribucije koje se mogu očekivati u skladu
s iskustvom ili na osnovu nekih pretpostavki to su teorijske distribucije.
Pojmu obeležja kod empiriskih distribucija odgovara pojam slučajna promenljiva kod
teorijskih distribucija.
Određivanju relativnih frekvencija kod empirijskih distribucija frekvencija prethodi
prebrojavanje opseviranih vrednosti obeležja tj. određivanje apsolutnih frekvencija.
Pojmu relativna frekvencija kod teorijskih distribucija odgovara pojam verovatnoća.
Verovatnoće se izračunavaju kao određene funkcije vrednosti slučajne promenljive.
Svaka teorijska distribucija ima svoj zakon verovatnoće po kom su distribuirane vrednosti
slučajne varijable X. Osim funkcije verovatnoće, teorijske distribucije imaju: funkciju
raspodele, matematičko očekivanje, varijansu, koeficijent asimetrije i koeficijent
spljoštenosti. Funkcija raspodele se definiše kao kumulativna verovatnoća slučajne
promenljive F ( x )= P ( Χ ≤ x ) i uvek je 0 ≤ F ( x ) ≤ 1 . Funkcija raspodele odgovara pojmu
kumulacije structure kod empirijskih distribucija.
Teorijske distribucije su osnova inferencijalne statistike.
n
p (i ) = ⋅ p i q n −i
i
32
gde je:
n – broj modaliteta obeležja umanjen za 1
p – verovatnoća '' uspeha'‘
q – verovatnoća '' neuspeha'‘
- Aritmetička sredina Χ BD = np
- Modus np − q ≤ M o = k ≤ np + p
β1 =
(q − p)
2
- Koeficijent asimetričnosti
npq
1 − 6pq
- Koeficijent spljoštenosti β2 = 3 +
npq
Kod binomne raspodele varijansa je uvek manja od aritmetičke sredine. Binomna raspo-
dela može da ima jedan modus ako (n+1)p nije ceo broj, ili dva modusa ukoliko je (n+1)p
ceo broj: M10 = np − q = (n + 1)p − 1, M 02 = np + p = (n + 1)p.
U slučaju da je p=q=0,5 binomna distribucija je simetrična, ako je q>p binomna distri-
bucija je pozitivno, dok je za q<p negativno asimetrična. U zavisnosti od vrednosti
parametra p, može da bude iste spljoštenosti, izdužena ili spljoštena u poređenju sa
normalnom distribucijom. Ako broj ponavljanja n neograničeno raste, binomna distribu-
cija teži standardizovanoj normalnoj raspodeli.
Binomna distribucija ima čestu primenu u statistici u opisivanju mogućeg broja slučajeva
pojavljivanja događaja u nizu ponavljanja eksperimenta. Primenjuje se i u statističkom
zaključivanju o raspodeli proporcije uzorka.
Binomna distribucija se koristi u kontroli kvaliteta robe i kontroli proizvodnog procesa.
Pored toga ima široku primenu u biološkim istraživanjima, posebno u genetici.
Primer
Odrediti raspodelu slučajne promenljive X: broj ženskih teladi u tri uzastopna teljenja.
Pretpostavlja se da se u svakom teljenju dobija jedno tele i da su oba pola podjednako
verovatna. Izračunati očekivanu vrednost, modus, varijansu, prvi i drugi Pirsonov koefi-
cijent.
Rešenje:
X je slučajna promenljiva koja ima binomnu raspodelu B(3,0,5).
3 0 3
p(0) =
⋅ 0,5 0,5 =0,1250
0
33
3 1 2
p(1) =
⋅ 0,5 0,5 =0,3750
1
3 2 1
p(2) =⋅
0,5 0,5 = 0,3750
2
3 3 0
p(3) =
⋅ 0,5 0,5 =0,1250
3
Χ BD =⋅
3 0,5 =1,5
M10 = np − q = 3 ⋅ 0,5 − 0,5 =1 M 02 = np + p = 3 ⋅ 0,5 + 0,5 = 2 σ2BD =⋅
3 0,5 ⋅ 0,5 =0, 75
1 − 6 ⋅ 0,5 ⋅ 0,5
β1 = 0 β2 = 3 + = 2,33.
0,75
- Aritmetička sredina Χ PD =
m
- Varijansa σ2PD =
m
34
- Standardna devijacija σPD =m
- Modus m − 1 ≤ Mo = k ≤ m
1
- Koeficijent asimetričnosti β1 =
m
1
- Koeficijent spljoštenosti β2 = 3 +
m
Kod Poasonove raspodele aritmetička sredina i varijansa su jednake. U slučaju da
parametar m nije ceo broj Poasonova raspodela ima jedan modus, dok u slučaju da je m
ceo broj ima dva modusa M1o = m − 1 i M o2 =
m. Poasonova raspodela je pozitivno asime-
trična i izdužena u poređenju sa normalnom raspodelom.
Poasonova distribucija je granični oblik binomne distribucije. Kada se broj eksperimenata
u Bernulijevom procesu povećava, javlja se problem izračunavanja verovatnoće da
varijabla X uzme određenu vrednost prema formuli za binomnu distribuciju. Za binomnu
distribuciju verovatnoće se mogu aproksimirati Poasonovom formulom ako je vero-
vatnoća nastupanja nekog događaja p mala, ako je n veliko i ako m = n ⋅ p < 10.
Primer
Poznato je da je 2% miševa obolelo od kancera. Izračunati verovatnoću da u uzorku od
100 miševa više od jednog miša ima kancer.
Rešenje:
Broj obolelih miševa ima binomnu raspodelu B(100, 0,02). Kako je verovatnoća obo-
ljenja mala (p=0,020), n veliko (n=100) i m =
100 ⋅ 0,02 =
2 < 10 binomna raspodela se mo-
že aproksimirati Poasonovom raspodelom P(2).
P(X > 1) = 1 − p0 − p1 = 1 − e−2 − 2 ⋅ e−2 = 1 − 0,1353 − 0, 2707 = 0,5940.
35
Pierre de Laplace Carl Friedrich Gauss
(1749–1827) (1777–1855)
Normalna distribucija je neprekidna teorijska distribucija. Neprekidna slučajna promen-
ljiva ima normalnu raspodelu ako je X ∈ ( −∞, +∞ ) i ako je zakon verovatnoće (funkcija
gustine verovatnoće): 2
1 x −µ
1 −
=
f (x) ⋅ e 2 σ .
σ 2π
Zakon verovatnoće normalne distribucije zavisi od dva parametra i to od aritmetičke
sredine µ i od standardne devijacije σ. Standardna normalna distribucija ima aritmetičku
sredinu 0 i standardnu devijaciju 1.
Normalna distribucija je grafički predstavljena kontinuiranom zaobljenom krivom koja u
odnosu na X osu ima zvonasti oblik.
36
Osobine normalne raspodele:
- Površina koju kriva zaklapa sa X-osom predstavlja zbir verovatnoća i iznosi 1.
- Simetrična je u odnosu na vrednost x = µ tako da je
P(X <=
µ) P(X >=
µ) 0,5.
- Maksimum funkcije gustine verovatnoće je u tački µ .
- Aritmetička sredina, modus i medijana se poklapaju i imaju vrednost µ .
- Prvi Pirsonov koeficijent je β1 =0, dok je drugi Pirsonov koeficijent β2 =3.
37
2. Ako je X standardna normalna distribucija:
P(-1,5<X<2,5)=P(-1,5<X<0)+P(0<X<2,5)=P(0<X<1,5)+ P(0<X<2,5)=
=0,4332+0,4938=0,9270
38
3.3.2. Studentova – t distribucija
Ovu neprekidnu distribuciju definisao je William Gosset 1908. godine. Gosset je bio
engleski hemičar i statističar, zaposlen u Ginisovoj kompaniji za proizvodnju piva i svoje
naučne radove potpisivao je pseudonimom „Student”, pa se ova distribucija naziva i
Studentova t- distribucija.
39
Student-ove raspodele za različite stepene slobode
40
Studentova raspodela r=5 i α =0,05 .
41
Kako je definisana kao količnik dve sume kvadrata F-distribucija je uvek nenegativna.
Minimalna vrednost Fišerove distribucije je nula. Ukoliko vrednost slučajne pomenljive
X teži beskonačnosti, Fišerova distribucija asimptotski teži nuli. Fišerova distribucija je
izrazito asimetrična u desno, a sa porastom stepeni slobode, odnosno veličine uzoraka,
teži ka simetričnosti.
Fišerova distribucija ima široku primenu, a najčešće se koristi kod testiranja jednakosti
dve varijanse i kod testiranja razlika tri ili više aritmetičkih sredina, odnosno u primeni
metoda analize varijanse.
Tablice F-distribucije su formirane za različite pragove značajnosti =
α P(X > Fr1,r2 ;α ).
Najčešće se koriste tablice za α=0,05 i α=0,01. U tablicama su brojevi u zaglavlju
vrednosti prvog stepena slobode r1 , dok su brojevi u predkoloni vrednosti drugog stepena
slobode. Tako npr. za stepene slobode 3 i 16 i α=0,05 tablična vrednost je 3,24 i označava
vrednost na X osi tako da je P(X > 3, 24) = 0,05.
42
Kontrolna pitanja
1. Kako definišemo empirijske, a kako teorijske distribucije?
2. Kako se dele teorijske distribucije?
3. Navesti neke od prekidnih teorijskih distribucija.
4. Navesti neke od neprekidnih teorijskih distribucija.
5. Navesti karakteristike Binomne distribucije.
6. Navesti karakteristike Poasonove distribucije.
7. Navesti karakteristike Normalne distribucije.
8. Navesti karakteristike Studentove distribucije.
9. Navesti karakteristike Fišerove distribucije.
10. Kada se u statističkoj inferenciji koriste tablične vrednosti Normalne, a kada ta-
blične vrednosti Studentove distribucije?
43
4. INFERENCIJALNA STATISTIKA
44
pojavi u uzorku više puta. Uzorak bez ponavljanja podrazumeva da jedna jedinica osnov-
nog skupa može da se pojavi u uzorku samo jednom.
Izbor jedinica iz populacije u uzorak može se izvesti pomoću tablice slučajnih brojeva,
tehnikom lutrijskog izbora ili uz pomoć računara.
Sistematski uzorak – je uzorak kod koga se jedinice iz osnovnog skupa biraju jednakim
intervalima vremena, prostora ili poretka (vakcinicanje dece određene godine starosti,
nagrada za svakog stotog kupca nekog proizvoda, itd.).
Stratifikovani i klaster uzorak – su uzorci koji se dobijaju kada se osnovni skup
(populacija) podeli na stratume ili klastere, nakon čega se slučajno biraju jedinice iz sva-
kog stratuma, odnosno iz svakog klastera. Stratifikovani uzorak se bira u slučaju kada su
varijacije unutar stratuma male u odnosu na varijacije između stratuma, a klaster uzorak u
suprotnom slučaju.
Razlikujemo stratifikovani uzorak sa proporcionalnim rasporedom i disproporcionalni
stratifikovani uzorak.
- uzorci sa ponavljanjem k = Nn
N N! Ν ( N − 1)( N − 2 ) ⋅ ....... ( N − n + 1)
- uzorci bez ponavljanja =k = =
n n!( N − n )! n!
45
Aritmetička sredina distribucije sredina uzoraka jednaka je aritmetičkoj sredini osnovnog
skupa:
Χ = µ.
Varijansa distribucije sredina uzoraka izračunava se na osnovu izraza:
k
∑ ( Χi − µ )
2
σ2 =i =1
Χ k
Ako je poznata vrednost varijanse osnovnog skupa varijansa distribucije aritmetičkih
sredina uzoraka u slučaju prostih slučajnih uzoraka bez ponavljanja jednaka je:
σ2 N − n
σ2 = ⋅
Χ n N −1
gde je:
σ2 – varijansa osnovnog skupa,
n – veličina uzorka, a
N−n
– korektivni faktor.
N −1
σ Χ =i =1 .
k
Ako su poznate varijansa ili standardna devijacija osnovnog skupa standardna greška
aritmetičke sredine jednaka je u slučaju uzoraka bez ponavljanja :
σ N−n
σ Χ= ⋅ ,
n N −1
odnosno u slučaju uzorka s ponavljanjem:
σ
σΧ = .
n
46
4.3. Ocene na osnovu uzorka
U praktičnom radu, u svrhu donošenja zaključaka o karakteristikama osnovnog skupa,
uzima se samo jedan uzorak dovoljne veličine, na osnovu kog ocenjujemo, odnosno
procenjujemo nepoznate parametre osnovnog skupa. Ocena parametara osnovnog skupa
primenjuje se u sledećim slučajevima:
- kada je nepoznata veličina osnovnog skupa, odnosno ukupan broj jedinica N
- kada se ne mogu utvrditi sve vrednosti obeležja osnovnog skupa
- kada je osnovni skup beskonačan
Vrednosti izračunate na osnovu uzorka nisu tačne, prave vrednosti, već su to približne
vrednosti, odnosno ocene odgovarajućih parametara osnovnog skupa. Vrednosti nekog
parametra izračunate na osnovu uzorka su tačkaste ocene parametara osnovnog skupa.
Ocena nepoznatog parametra osnovnog skupa biće tačnija, odnosno bliža pravoj
vrednosti, što je uzorak veći i što je varijabilitet pojave koju analiziramo manji. Ukoliko
pojava koju analiziramo ne bi varirala tada bi na primer ocenjena vrednost aritmetičke
sredine iz uzorka od samo jedne vrednosti obeležja predstavljala tačnu vrednost sredine
osnovnog skupa. Kako pojave koje u praktičnom radu analiziramo pokazuju veći ili manji
varijabilitet, tačkaste ocene iz uzorka nisu dovoljne da bi se ocenila vrednost nepoznatog
parametra osnovnog skupa, već se u obzir mora uzeti i standardna greška kao pokazatelj
varijabiliteta. Tačnije za ocenu nepoznatih parametara osnovnog skupa na osnovu uzorka,
koriste se intervalne ocene koje u obzir uzimaju i varijabilitet posmatrane pojave.
U teoriji ocenjivanja se razlikuju pojmovi ocenitelj i ocena. Ocenitelj je funkcija uzorka
(statistika) dok je ocena izračunata vrednost ocenitelja na osnovu izabranog uzorka.
Ocenitelj je slučajna promenljiva, dok je ocena konstanta.
Ocena parametara osnovnog skupa na osnovu uzorka, zasnovana je na teoriji da je
poželjno da ocenitelj poseduje neka statistička teorijska svojstva. Svojstva koja je
poželjno da ima ocenitelj su nepristrasnost, konzistentnost, efikasnost i egzostivnost.
Nepristrasnost: ocenitelj parametara je nepristrasan kada je njegova očekivana vrednost
jednaka parametru osnovnog skupa. Aritmetička sredina iz uzorka je nepristrasan
ocenitelj aritmetičke sredine osnovnog skupa, jer je E ( Χ ) =µ.
n
2
∑ (Xi − X)
Ocenitelj S2* = i =1 nije nepristrasan ocenitelj varijanse osnovnog skupa.
n
Varijansa ocenjena na osnovu uzorka postaće nepristrasan ocenitelj varijanse osnovnog
skupa ako delilac u sledećem izrazu budu stepeni slobode n-1:
n 2*
E
n − 1
( )
S = E S2 = σ2 .
47
Konzistentnost: za ocenitelj iz uzorka se kaže da konzistentno ocenjuje parametar
osnovnog skupa, ako ukoliko n teži beskonačnosti, ocenitelj iz uzorka teži vrednosti
parametra osnovnog skupa uz verovatnoću 1. Ako je ocenitelj iz uzorka konzistentan, sa
povećanjem veličine uzorka njegova vrednost se približava vrednosti parametra osnovnog
skupa. Da bi ocenitelj bio konzistentan, nije neophodno da je nepristrasan. Tako su S2 i
S2* konzistentni ocenitelji varijanse osnovnog skupa σ2 .
Efikasnost: parametar osnovnog skupa može da se oceni na različite načine. Nepristrasan
ocenitelj tog parametra je efikasniji kada je njegova vrednost približnija pravoj vrednosti
parametra osnovnog skupa tj. kada ima manji varijabilitet. Relativna efikasnost se izra-
žava odnosom varijansi ocenitelja i to odnosom manje varijanse ocenitelja prema većoj.
Primer: Aritmetička sredina i medijana su nepristrasne ocene aritmetičke sredine osnov-
nog skupa. Ukoliko se pretpostavi da je osnovni skup normalno raspoređen, aritmetička
sredina je efikasniji ocenitelj jer relativna efikasnost ova dva ocenitelja
σ2 / σ2M = 0,64 < 1.
X e
Egzostivnost: ocenjeni parametar je egzostivan ako sadrži sva potrebna obaveštenja o
parametru osnovnog skupa. Da bi jedan ocenitelj iz uzorka bio egzostivan on treba da je
funkcija parametra osnovnog skupa. Egzostivni ocenitelji su aritmetička sredina i pro-
porcija uzorka.
Svi navedeni principi ocene parametara su poželjne ali ne i neophodne osobine ocenitelja.
48
Kod distribucije frekvencija za ocenu standardne greške aritmetičke sredine koriste se
izrazi:
Σf i ( Χ i − Χ )
2
N−n Σfi Χi2 −
( Σf i Χ i ) 2
=SΧ ⋅ N−n
n ( n − 1) N =SΧ n ⋅
n ( n − 1) N
49
Proizvod tablične vrednosti i standardne greške ili njene ocene u izrazu za (1 − α) ⋅ 100(%)
interval poverenja naziva se marginalna greška ili greška uzorka i predstavlja procenu
odstojanja vrednosti parametra od njegove ocene.
Redni broj X X2
1 25,2 635,04
2 23,1 533,61
3 20,8 432,64
4 18,9 357,21
5 24,5 600,25
6 20,5 420,25
7 26,2 686,44
8 28,6 817,96
9 23,2 538,24
10 24,0 576,00
⅀ 235,0 5597,64
∑ X 235,0 σ 3
a)=
X = = 23,5 (kPa). σX= = = 0,949 (kPa).
n 10 n 10
Kako je poznata varijansa osnovnog skupa interval poverenja ima oblik:
X − Zα ⋅ σ X < μ < X + Z α ⋅σ X
Ako je pouzdanost intervala 95%, α = 0,05 i Z0,05 = 1,96, sledi da je interval
poverenja:
23,5 − 1,96 ⋅ 0,949 < µ < 23,5 + 1,96 ⋅ 0,949
21,64 < µ < 25,36 (kPa)
b)= ∑ X 235,0
X = = 23,5 (kPa)
n 10
2
−
( ∑ X)
2
5597,64 −
( 235 )
2
∑X
=sX = n = 10 0,914 (kPa)
n(n − 1) 10 (10 − 1)
50
95% interval poverenja u slučaju da varijansa osnovnog skupa nije poznata je:
X − t n −1; α ⋅ s X < µ < X + t n −1; α ⋅ s X
Zamenom aritmetičke sredine uzorka, ocene standardne greške i tablične vrednosti
t 9;0,05 = 2, 262 sledi:
Broj Broj
krava domaćinstava
Xi fi fi Xi fi Xi2
0 2 0 0
1 3 3 3
2 10 20 40
3 15 45 135
4 11 44 176
5 9 45 225
⅀ 50 157 579
=
X
∑=
fX 157
= 3,14 (krava/domaćinstvu).
∑f 50
2 ( ∑ fX )2 579 −
(157 )2
∑ fX − N−n − 50
=sX n ⋅= 50 ⋅ 1000
= 0,1826 (krava/domaćinstvu).
n(n − 1) N 50 ( 50 − 1) 1000
51
Kako je n>30 može da se koristi i oblik intervala:
X − Zα ⋅ s X < µ < X + Zα ⋅ s X .
52
N−n
Kod uzorka sa ponavljanjem ili u slučaju velikog osnovnog skupa gde je ≈ 1:
N
ˆˆ
pq
Sp̂ = .
n
Ako je uzorak dovoljno veliki može se na osnovu proporcije iz uzorka i njene standardne
greške odrediti interval poverenja u kome se očekuje da će se uz određenu verovatnoću
nalaziti nepoznata proporcija osnovnog skupa.
Ako se ocena nepoznate proporcije osnovnog skupa izvodi na osnovu velikog uzorka
(n>30) i ako važe nejednakosti np > 5 i n(1 − p) > 5 interval poverenja ima sledeći
oblik:
pˆ − Ζα ⋅ Spˆ < p < pˆ + Ζα ⋅ Spˆ .
Oblik intervala poverenja sledi iz činjenice da pod navedenim uslovima p̂ ima približno
2 p ⋅ (1 − p)
normalnu raspodelu sa parametrima µ=
p̂ np i σ=
p̂
.
n
U slučaju malog uzorka p̂ ima binomnu raspodelu, tako da se navedeni interval poverenja
ne može primeniti.
Na osnovu utvrđenog intervala poverenja može se oceniti i total osnovnog skupa na
osnovu sledećeg izraza:
N ⋅ L1 < Np < N ⋅ L 2 .
Total osnovnog skupa za proporciju daje informaciju o broju jedinica osnovnog skupa
koje imaju posmatranu, odnosno traženu karakteristiku.
n=50 a= 35
a 35
p̂= = = 0,7 qˆ =1 − pˆ =0,3
n 50
53
Kontrolna pitanja
1.
Šta je uzorak?
2.
Kako se postiže reprezentativnost uzorka?
3.
Navesti neke planove uzoraka.
Kako glasi centralna granična teorema?
4.
5.
Koja svojstva je poželjno da poseduje ocenitelj iz uzorka?
Navedite dve vrste statističkog ocenjivanja i njihove karakteristike.
6.
Zašto se intervalna ocena koristi više od tačkaste?
7.
Zašto je veličina uzorka značajna u statističkom ocenjivanju?
8.
Na osnovu kojih elemenata se ocenjuje nepoznata aritmetička sredina osnovnog
9.
skupa na osnovu uzorka?
10. Na osnovu kojih elemenata se ocenjuje nepoznata proporcija osnovnog skupa na
osnovu uzorka?
54
5. Testiranje statističkih hipoteza
55
Postupak statističkog testiranja sastoji se iz više etapa (faza). Postupak testiranja obuhvata
tri faze:
1. Formulisanje polazne pretpostavke – nulte hipoteze.
2. Postupak provere postavljene hipoteze.
3. Zaključak o postavljenoj hipotezi .
U zavisnosti od načina na koji je formulisana alternativna hipoteza u postupku testiranja
moguće je primeniti tri vrste testa: dvostrani, gornji jednostrani i donji jednostrani test.
Predmet statističkog testiranja mogu biti različiti parametri, a najčešće su to aritmetička
sredina i proporcija.
56
Za donošenje zaključka o prihvatanju ili odbacivanju nulte hipoteze u ovom slučaju
koriste se tablice normalne distribucije bez obzira na veličinu uzorka na osnovu kog se
testiranje izvodi. Zaključak se najčešče donosi na pragu značajnosti 0,05 ili 0,01. Kod
praga značajnosti 0,05 kritična vrednost u tablici normalne distribucije je 1,96, a za prag
značajnosti 0,01 kritična vrednost je 2,58. Na osnovu toga, ako je apsolutna vrednost
izračunatog količnika Z jednaka ili veća od navedenih kritičnih vrednosti ima osnova za
odbacivanje nulte hipoteze kao tačne i prihvatanje alternativne hipoteze. Nasuprot tome,
ako je apsolutna vrednost izračunatog količnika Z manja od kritičnih vrednosti nulta
hipoteza se može prihvatiti. To ne znači da je nulta hipoteza tačna, već samo da dokazi
protiv nulte hipoteze nisu dovoljno jaki. Formulacija prihvata se nulta hipoteza znači da
rezultati uzorka podržavaju nultu hipotezu i da se ona ne može odbaciti.
Istu hipotezu možemo proveriti i izračunavanjem intervala poverenja:
X − zα σX < µ < X + zα σX .
Na ovaj način se utvrđuje interval u okviru koga je očekivana vrednost osnovnog skupa.
Ukoliko se očekivana vrednost nalazi unutar granica utvrđenog intervala poverenja nulta
hipoteza se može prihvatiti, a ukoliko je očekivana vrednost izvan granica utvrđenog
intervala nulta hipoteza se odbacuje.
Napomena: Kako je test statistika Z funkcija uzorka (X1,X2.....,Xn) ona je slučajna pro-
menljiva. Vrednost test statistike izračunata na osnovu jednog uzorka (x1,x2.....,xn) je broj.
Primer
Prosečna visina grebena jedne rase konja iznosi 175 cm, dok je varijansa σ2 =7,5 cm2. Na
jednoj ergeli koja ima 100 konja merenjem je ustanovljena visina grebena 173 cm. Da li
se aritmetička sredina uzorka statistički značajno razlikuje od aritmetičke sredine
osnovnog skupa?
Rešenje:
=
Pretpostavlja se da su parametri osnovnog skupa: µ0 175 cm
= i σ 2 7,5.
Na osnovu uzorka veličine n=100 izračunata je aritmetička sredina X = 173 cm.
Testira se H 0 : µ =175 cm protiv H1 : µ ≠ 175 cm.
I način:
σ 7,5 X − µ0 173 − 175
σX= = = 0, 2739 cm Z= = = −7,30**
n 100 σX 0, 2739
II način:
(1 − α) ⋅ 100% poverenja za nepoznatu aritmetičku sredinu osnovnog skupa je:
X − Zα σ X < µ < X + Zα σ X .
57
95% interval poverenja za prosečnu visinu grebena je:
α =0,05 173 − 1,96 ⋅ 0, 2739 < µ < 173 + 1,96 ⋅ 0, 2739 cm
172, 463 < µ < 173,537 cm
µ0= 175 ∉ (172, 46, 157,54 ) ⇒ H1
58
Ukoliko hipotetička vrednost µ0 pripada (1 − α) ⋅ 100% intervalu poverenja prihvata se
nulta hipoteza na pragu značajnosti α , a u slučaju da ne pripada prihvata se alternativna
hipoteza.
µ0 ∈ ( L1 ,L 2 ) ⇒ H 0
µ0 ∉ ( L1 ,L 2 ) ⇒ H1.
Primer:
Na osnovu rasporeda krava prema mlečnosti (l) datom u tabeli, može li se prihvatiti nulta
hipoteza da je prosečna mlečnost po kravi 20 (l)?
I način:
2
−
( ∑ fX )
2
4644 −
( 288 )
2
∑ fX
∑ fX 288 n 20
=
X = = 14,=4 (l) SX = = 1,1434 (l)
∑f 20 n(n − 1) 20 ( 20 − 1)
X − µ0 14, 4 − 20
t= = = −4,898**
Sx 1,1434
n = ∑f t0,05(19)=2,093 t0,01(19)=2,861
t = 4,898 > 2,093 ⇒ H1
t = 4,898 > 2,861 ⇒ H1
59
5.1.2. Test značajnosti razlike dve sredine
U praktičnom radu često se izvodi eksperiment sa dva tretmana. Pri tome se proverava da
li su prosečne vrednosti osnovnih skupova jednake odnosno da li je µ1 =µ2. Provera
jednakosti sredina osnovnih skupova izvodi se na osnovu dva slučajna uzorka. Ovaj test
naziva se test značajnosti razlike dve sredine, a zasniva se na upoređivanju dve
aritmetičke sredine iz dva uzorka koji mogu biti nezavisni ili zavisni.
60
Ukoliko granice izračunatog intervala uključuju nulu ima osnova za prihvatanje nulte
hipoteze, u suprotnom ako nula ne pripada granicama utvrđenog intervala odbacuje se
nulta a prihvata altermnativna hipoteza.
Primer:
Ishranom dve ogledne grupe od po 45 svinja iste rase obrocima različitih sastava ostva-
ren je prosečan dnevni prirast od 695 gr i 745 gr. Varijanse posmatranog obeležja su
1932 i 2144. Ispitati da li ishrana različitog sastava dovodi do razlika u prosečnom
dnevnom prirastu svinja.
n1 = 45 n 2 = 45
H 0 : µ1 =µ 2
Χ1 =695 gr Χ2 =745 gr H1 : µ1 ≠ µ 2
σ12 =1932 σ22 =2144
0 ∉ ( −68,65, −31,35 ) ⇒ H1
α =0,01
( 695 − 745) − 2,58 ⋅ 9,517 < µ1 − µ2 < ( 695 − 745) + 2,58 ⋅ 9,517
−74,55 < µ1 − µ 2 < −25,45 (g)
0 ∉ ( −74,55, −25,45 ) ⇒ H1
Testiranje značajnosti razlike dve aritmetičke sredine u slučaju kada nisu poznate
varijanse osnovnih skupova
Pretpostavljajući da su nepoznate varijanse osnovnih skupova jednake (homogene) tj.
σ12 =σ22 =σ2 , standardna greška razlike aritmetičkih sredina dva nezavisna slučajna
uzoraka je:
1 1
σ(X −X ) =σ2 + .
1 2
n1 n 2
61
Test kriterijum je oblika:
Χ1 − Χ 2
t= ,
(
S Χ −Χ
1 2 )
i zasniva se na tome da se nepoznate varijanse osnovnih skupova zamenjuju njihovim
ocenama na osnovu uzoraka. Utvrđena vrednost količnika t upoređuje se sa kritičnim
vrednostima t-distribucije za [(n1-1) +(n2-1)] stepeni slobode.
Izračunavanje ocenjene standardne greške razlike dve sredine uslovljeno je veličinom
uzoraka na osnovu kojih se ocena izvodi.
Ako su uzorci sa nejednakim brojem jedinica n1 ≠ n 2 izračunavanje se izvodi na sledeći
način:
1 1
S Χ −Χ& = S12+ 2 ⋅ + .
( 1 2) n1 n 2
2 ⋅ S12+ 2
S Χ −Χ =
( 1 2) n
U oba slučaja da bi se dobila vrednost ocenjene standardne greške dve sredine najpre se
izračunava združena varijansa s12+ 2 koja je ocena nepoznate varijanse σ2 . Združena
varijansa se može izračunati na dva načina:
1. na bazi odstupanja vrednosti obeležja od proseka
2. direktno iz podataka
Na osnovu toga združenu varijansu, ako su podaci u uzorcima negrupisani, možemo
utvrditi na sledeće načine:
2 ( ΣΧ1i ) ( ΣΧ 2i )
2 2
2
Σ ( Χ1i − Χ1 ) + Σ ( Χ 2i − Χ 2 )
2 2 ΣΧ1i − + ΣΧ 2i −
2 n1 n2
S1+ 2 = 2
S1+ 2 =
n1 + n 2 − 2 n1 + n 2 − 2
Ako su podaci u uzorcima dati kao distribucija frekvencija, združena varijansa se
izračunava pomoću sledećih izraza:
2
Σf1i Χ1i −
( Σf1i Χ1i )
2
2
+ Σf 2i Χ 2i −
( Σf 2i Χ 2i )
2
Σf1i ( Χ1i − Χ1 ) + Σf 2i ( Χ 2i − Χ 2 )
2 2
2 2 n1 n2
S1+ 2 = S1+ 2 =
n1 + n 2 − 2 n1 + n 2 − 2
Kod grupisanih podataka u uzorcima treba imati u vidu da veličina uzoraka predstavlja
sumu frekvencija, odnosno: Σf1= n1 i Σf 2= n 2 .
Združena varijansa može da se izrazi kao ponderisana aritmetička sredina ocena varijansi
osnovnih skupova na osnovu uzoraka:
(n1 − 1) ⋅ S12 + (n 2 − 1) ⋅ S22
S12+ 2 = .
n1 + n 2 − 2
Apsolutna izračunata vrednost količnika t upoređuje se sa kritičnim vrednostima iz tablica
Studentove distribucije za [(n1-1) +(n2-1)] stepeni slobode i različite pragove značajnosti,
obično 5% i 1%. Ukoliko je apsolutna vrednost izračunatog količnika manja od
odgovarajućih kritičnih vrednosti ima osnova za prihvatanje nulte hipoteze. U suprotnom
vrednost količnika veća ili jednaka od odgovarajućih kritičnih vrednosti rezultira
62
prihvatanjem alternativne hipoteze. Za donošenje zaključka o postavljenoj hipotezi
vrednost količnika t može se uporediti i sa kritičnim vrednostima iz tablica ND ako je
n1 + n 2 − 2 >30.
Primer:
Pri ispitivanju uticaja dve vrste hrane u ishrani junadi postavljen je ogled sa dve grupe
grla, čiji su rezultati dati u tabeli. Utvrditi da li različita ishrana utiče na prosečan dnevni
prirast grla.
Rasa A Rasa B
f1 Χ1 f2 Χ 2 f1 Χ12 f 2 Χ 22
Prirast Broj grla Prirast Broj grla
X1 f1 X2 f2
Σf1Χ1 55,75
H 0 : µ1 =µ 2 =
Χ1 = = 1,394 kg
n1 40
H1 : µ1 ≠ µ 2 Σf 2 Χ 2 61
Χ2= = = 1,356 kg
n2 45
Σf1Χ1i2 −
( Σf1Χ1i )2 + Σf
Χ 2
−
( Σf 2 Χ 2i ) 2
( 55,75 )
2
( 61)
2
2 2i 77,72 − + 82,73 −
n1 n2 40 45
S12+ 2 = = 0,00072
n1 + n 2 − 2 40 + 45 − 2
1 1 1 1
S Χ −Χ& = S12+ 2 ⋅ +
( 1 2)
n1 n 2 ( 1=
S Χ −Χ
2)
0,00072 ⋅ += 0,006 kg
40 45
Χ1 − Χ 2 1,394 − 1,356
=t = = 6,333**
(
S Χ −Χ
1
0,006
2 )
63
Kako je t83 ≈ N(0,1) koriste se kritične vrednosti Ζ0,05 =
1,96 i Ζ0,01 =
2,58.
t > Ζ0,05 ⇒ H1
t > Ζ0,01 ⇒ H1
64
Proveru hipoteze o značajnosti jedne proporcije možemo izvesti i izračunavanjem
intervala poverenja koji je u slučaju da je n veliko i np>5 i nq>5:
pˆ − Zα ⋅ Spˆ < p < pˆ + Zα ⋅ Spˆ
Ukoliko pretpostavljena vrednost proporcije osnovnog skupa pripada granicama
utvrđenog interval ima osnova za prihvatanje nulte hipoteze kao tačne.
Primer:
U uzorku od 164 grla jedne rase goveda sa dužinom trupa ispod 160 cm bilo je 52 grla.
Može li se doneti zaključak da je kod posmatrane rase učešće grla sa dužinom trupa ispod
160 cm 40 %?
n = 164
H 0 : p = 0, 4
a = 52
H1 : p ≠ 0, 4
p0 = 0, 4
ˆˆ
pq 0,317 ⋅ 0,683
a 52 =
Sp̂ = = 0,036
p̂= = = 0,317 n 164
n 164
q̂ =
1 − 0,317 = p̂ − p 0,317 − 0, 4
0,683 Z= = = −2,306*
Sp̂ 0,036
Z > Ζ0,05 ⇒ H1
Z < Ζ0,01 ⇒ H 0
α =0, 01
ˆ − Ζ0,01 ⋅ Spˆ < p < p
p ˆ + Ζ0,01 ⋅ Spˆ
0, 317 − 2, 58 ⋅ 0, 036 < p < 0, 317 + 2, 58 ⋅ 0, 036
0, 224 < p < 0, 410
0, 4 ∈ ( 0, 224, 0, 410 ) ⇒ H 0
65
5.2.2. Test značajnosti razlike dve proporcije
Pri testitaranju značajnosti razlike dve proporcije iz dva nezavisna uzorka u slučaju
dvostranog tepolazi se od sledeće nulte i alternativne hipoteze: H 0 : p1 = p 2 , H1 : p1 ≠ p 2 .
Ukoliko su veliki uzorci i ispunjeno n1p1 > 5, n1q1 > 5, n 2 p 2 > 5, n 2q 2 > 5, polazna
hipoteza proverava se izračunavanjem sledećeg količnika:
pˆ 1 − pˆ 2
Ζ= .
S( pˆ −pˆ )
1 2
Da bi se došlo do vrednosti količnika na osnovu kog će se proveriti polazna pretpostavka,
treba prvo utvrditi ocenjene vrednosti proporcija uzoraka, kao i standardnu grešku razlike
dve proporcije. Ocenjene proporcije iz uzoraka dobijaju se na osnovu sledećih izraza:
a1 a2
= pˆ 1 = ; pˆ 2 .
n1 n2
Ocenjena standardna greška razlike dve proporcije iz uzoraka može se izračunati
primenom dva izraza:
2 ⋅ pq 1 1
S( pˆ −pˆ ) = S=
( 1 2)
ˆ
p − ˆ
p pq + .
1 2 n1 + n 2 n1 n 2
Da bi se izračunala standardna greška prvo se izračunava prosečna proporcija na osnovu
dva uzorka: pˆ 1n1 + pˆ 2 n 2 a1 + a 2
= p = ; p q = 1 − p.
n1 + n 2 n1 + n 2
Izračunati količnik Z upoređuje se sa kritičnim vrednostima iz tablica normalne distri-
bucije. Ako je izračunata vrednost količnika manja od odgovarajućih kritičnih vrednosti
iz tablice ima osnova da se prihvati polazna, odnosno nulta hipoteza i zaključi da je
posmatrana karakteristika podjednako zastupljena u osnovnim skupovima iz kojih su
izabrani uzorci.
Testiranje ove hipoteze možemo izvesti i izračunavanjem intervala poverenja. Nulta
hipoteza se može prihvatiti kao tačna ukoliko granice izračunatog intervala uključuju 0 i
suprotno ako 0 ne pripada granicama izračunatog intervala odbacuje se nulta i prihvata
alternativna hipoteza.
( pˆ1 − pˆ 2 ) − Ζα ⋅ S( pˆ −pˆ ) < p1 − p2 < ( pˆ1 − pˆ 2 ) + Ζα ⋅ S( pˆ −pˆ )
1 2 1 2
0 ∈ ( L1 , L 2 ) ⇒ H 0
0 ∉ ( L1 , L 2 ) ⇒ H1
Primer:
U uzorcima od po 110 grla, goveda dve rase obolela grla učestvuju sa 6 % i 13 %.
Utvrditi da li je otpornost dve posmatrane rase goveda prema ispitivanoj bolesti ista.
n1 = 110 H 0 : p1 = p 2
p̂1 = 0, 06 H1 : p1 ≠ p 2
n 2 = 110 pˆ − pˆ 2
Ζ= 1 .
p̂ 2 = 0,13 S( pˆ −pˆ )
1 2
1 1 1 1
S( pˆ −pˆ = pq + = 0, 095 ⋅ 0,905 ⋅ + = 0, 0396
1 2)
n1 n 2 110 110
2 ⋅ pq 2 ⋅ 0,095 ⋅ 0,905
=
S( pˆ −pˆ ) = = 0,028
1 2 n1 + n 2 110 + 110
67
5.3.1. Analiza varijanse potpuno slučajnog rasporeda (prostog slučajnog
rasporeda)
U analizi varijanse potpuno slučajnog rasporeda polazimo od k uzoraka (tretmana) i
izračunavamo njihove aritmetičke sredine. Aritmetička sredina svakog od k uzoraka
definisana je na sledeći način: ni
Σ Χij
j=1
Χ i• =
ni
gde je:
ni – broj jedinica u uzorku
Xij – vrednost obeležja j-te jedinice i-tog tretmana
Pored aritmetičke sredine svakog od k uzoraka, izračunava se i opšta sredina svih N
jedinica iz svih uzoraka definisana sledećim izrazom:
k ni
Σ Σ Χij k
=i 1 =j 1 T
= Χ•• = N = Σ ni
k N i =1
Σ ni
i =1
Zbir vrednosti obeležja svih N jedinica se naziva total i označava T.
Ako su svi uzorci jednake veličine , odnosno sa jednakim brojem ponavljanja (n) ukupan
broj jedinica u analizi varijanse (N) može se iskazati na sledeći način:
=
n n=
1 n= = nk
2 .....
N= n ⋅ k
Varijabilitet koji nastaje primenom odabranih k tretmana na N jedinica, u analizi
varijanse iskazuje se na osnovu odstupanja svake individualne vrednosti obeležja od opšte
sredine:
( )
Χij − Χ•• = ( Χi• − Χ•• ) + Χij − Χi• ( )
Ako se navedeni izraz kvadrira dobijaju se odgovarajuće sume kvadrata:
k ni k ni
( ) ( )
k
= Σ ( Χi• − Χ•• ) + Σ Σ Χ ij − Χ i•
2 2 2
Σ Σ Χij − Χ••
=i 1 =j 1 =i 1 =i 1 =j 1
=
Q QT + Q P
k ni
( )
2
Σ Σ Χij − Χ•• - Suma kvradrata totala Q
=i 1 =j 1
k
Σ ( Χi• − Χ•• )
2
- Suma kvadrata tretmana QT, (suma kvadrata između grupa; suma
i =1 kvadrata objašnjene varijacije)
k ni
( )
2
Σ Σ Χij − Χi• - Suma kvadrata pogreške QP (suma kvadrata unutar grupa; suma
=i 1 =j 1 kvadrata neobjašnjene varijacije)
Na osnovu definisanih suma kvadrata proverava se polazna hipoteza u primeni metoda
analize varijanse. Polazna pretpostavka u analizi varijanse potpuno slučajnog rasporeda
glasi:
H 0 : µ1 =µ 2 =µ3 =.... =µ k
68
Alternativna hipoteza definisana je na sledeći način:
H1 : ∃(i, j) i ≠ j µi ≠ µ j 1 ≤ i ≤ k, 1 ≤ i ≤ k.
Nultom hipotezom se tvrdi da su aritmetičke sredine k-osnovnih skupova jednake, dok je
tvrđenje alternativne hipoteze da postoji bar jedan par aritmetičkih sredina koji se
razlikuje.
Polazna hipoteza proverava se izvođenjem F testa. Za izvođenje ovog testa formira se
tabela analize varijanse.
Total N-1 Q
69
Sredine suma kvadrata, odnosno varijanse izračunavaju se kao količnik suma kvadrata i
odgovarajućih stepeni slobode.
Q
Varijansa tretmana jednaka je : ST2 = T
k −1
QP
Varijansa pogreške jednaka je: S2P =
N−k
(
S Χ −Χ
) - ocena standardne greške razlike dve aritmetičke sredine.
i j
Ako su tretmani primenjeni na jednakom broju jedinica, odnosno ako je reč o jednakom
broju ponavljanja kod svakog ispitivanog tretmana, ocena standardne greške razlike dve
sredine izračunava se na osnovu varijanse pogreške iz tabele analize varijanse primenom
sledećeg izraza:
n=
i n=
j n
2 ⋅ S2p
S Χ −Χ =
( i j ) n
Ukoliko su ispitivani tretmani primenjivani na nejednakom broju ponavljanja to treba
uzeti u obzir prilikom izračunavanja ocene standardne greške razlike dve sredine, pa se
ona u ovom slučaju izračunava na sledeći način:
1 1
S Χ −Χ = S2p ⋅ +
( i j ) ni n j
Izračunati količnik t upoređuje se sa kritičnim vrednostima iz tablica Studentove
distribucije očitanim za prag značajnosti α i stepen slobode pogreške (N-k). Apsolutna
vrednost količnika t manja od kritičnih vrednosti iz tablica podrazumeva prihvatanje nulte
hipoteze o jednakom dejstvu dva ispitivana tretmana. U suprotnom ako je vrednost
količnika veća od kritičnih vrednosti prihvata se alternativna hipoteza i zaključuje da
između dva posmatrana tretmana postoje statistički značajne razlike u dejstvu na
eksperimentalne jedinice.
71
Tretman Χi Χi − Χ D Χi − Χ C Χi − Χ B
Interval 2 3 4 ..... k
Kritična vrednost
U tabeli u prvom redu upisuju mogući intervali na osnovu broja posmatranih tretmana.
Zatim se očitavaju kritične vrednosti iz tablica za višestruki test intervala za date pragove
značajnosti α i stepene slobode pogreške iz tabele analize varijanse i to za svaki interval
idući od 2, 3, 4,.....k, koje se upisuju u drugi red tabele. Očitane i upisane kritične
vrednosti množe se sa izračunatom ocenom standardne greške aritmetike sredine, a
proizvod predstavlja vrednost najmanjeg značajnog intervala i njega upisujemo u treći red
tabele.
72
Sa najmanje značajnim intervalima upoređujemo razlike aritmetičkih sredina tretmana.
Aritmetičke sredine tretmana rangiraju se u pomoćnoj tabeli u horizontalnom nizu od
minimalne do maksimalne vrednosti.
Na primer: da je u analizi varijanse primenjeno četiri tretmana A, B, C i D.
Najveću prosečnu vrednost ima tretman A, pa tretman B, zatim tretman C i najmanju
vrednost sredine tretman D.
Tretman D C B A
min . . . . . max
Χi ΧD ΧC ΧB ΧA
ΧA − ΧD ΧB − ΧD ΧC − Χ D
Χ A − ΧC Χ B − ΧC
ΧA − ΧB
Najveća kritična vrednost se koristi kod poređenja aritmetičkih sredina između kojih je k-
1(3) intervala, Χ A − Χ D . Prva manja kritična vrednost se koristi kod poređenja sredina
između kojih je k-2(2) intervala, a to su poređenja Χ A − Χ C i Χ B − Χ D . Najmanja
kritična vrednost za poređenje sredina između kojih je 1 interval. U navedenom primeru
to su poređenja: Χ A − Χ B , Χ B − Χ C i Χ C − Χ D .
Kako su t-test i NZR test ekvivalentni, njihovom primenom se dolazi do istog zaključka.
Ukoliko broj ponavljanja tretmana nije isti, primenjuje se t-test. U slučaju jednakog broja
tretmana, zbog preglednijeg prikazivanja rezultata, češće se primenjuje NZR (eng. LSD)
test. Ako je veliki broj poređenja ova dva testa nisu objektivna jer je verovatnoća da se
pogrešno zaključi da je razlika dva tretmana statistički značajna veća od izabranog praga
značajnosti α. U tom slučaju se preporučuje višestruki intervalni test.
Primer: Na osnovu podataka dobijenih u eksperimentu po planu potpuno slučajnog
rasporeda, ispitati da li postoji statistički značajna razlika u prosečnoj dnevnoj mlečnosti
simentalskih krava u zavisnosti od načina ishrane u toku laktacije od 306 dana. Uporediti
značajnost razlike parova tretmana primenom t – testa, NZR testa i višestrukog
intervalnog testa.
Način ishrane
Krava I II III
1 8,3 6,1 9,6
2 10,2 9,1 12,0
3 10,5 10,1 13,8
4 11,7 10,5 14,2
5 12,3 10,8 15,1
Ti 53,0 46,5 64,7 164,20
Prosek 10,6 9,3 12,94
73
k = 3, n = 5, N = 5 ⋅ 3 = 15
H 0 : µ I =µ II =µ III
H1 : ∃(i, j) µi ≠ µ j (i ≠ j, i, j =I, II, III)
Total 14 77,2773
k ni
Q = Σ Σ Χ ij 2 − C = 8,32 + 6,12 + 9,6 2 + ........ + 15,12 − C
i =1 j =1
2
k ni
Σ Σ Χij
i= 1 =j 1 164, 22
=C = = 1797, 4427
N 15
k ni
Q = Σ Σ Χ ij 2 − C = 1874,72 − 1797,4427 = 77,2773
i =1 j =1
n1 = n2 = .... = nk
k
Σ Ti2
532 + 46,5 2 + 64,7 2
QT = i =1 −C = − 1797,4427 = 34,0253
n 5
QP = Q − QT = 77,2773 − 34,0253 = 43,252
Q 34,0253 2= QP 43,252
ST2 = T = = 17,01227 SP = = 3,6043
k −1 2 N −k 12
ST2 17,0127 F2,12;0,05 =3,88 F > F0,05 ⇒ H1
F= = = 4,72*
2 3,6043
SP F2,12;0,01 =6,93 F < F0,01 ⇒ H 0
t – test
H 0 : µi =µ j Χi − Χ j
k ( k − 1) 3 ⋅ ( 3 − 1) t=
H1 : µi ≠ µ j = = 3
2 2 ( i j)
S Χ −Χ
2 ⋅ S2p 2 ⋅ 3,6043
S Χ= = = 1,2
( −Χi j ) n 5
Χ I − Χ II 10,6 − 9,3 t 12;0,05 = 2,179
=t1 = = 1,08
(
S Χ −Χ
i j )
1, 2
t 12;0,01 = 3, 055
74
Χ I − Χ II 10,6 − 12,94 t < t N −K;α ⇒ H 0
t2 = = = −1,95
(
S Χ −Χ
i
1, 2
j ) t > t N −K;α ⇒ H1
t12;0,05 = 2,179
2 ⋅ S2p 2 ⋅ 3,6043
= = = 1, 2 t12;0,05 = 3,055
SΧ
(−Χ i j ) n 5
NZR 0,05= 2,179 ⋅ 1, 2= 2,615
NZR 0,01= 3,055 ⋅ 1, 2= 3,666
Tretman Χi Χi − Χ II Χi − Χ I
I 10,6 1,3
II 9,3
S2p 3,6043
=
SΧ = = 0,849
n 5
α = 0,05 α = 0,01
Interval 2 3 Interval 2 3
3,08 · 0,849 = 2,615 3,23· 0, 849 = 2,742 4,32 · 0,849 =3,668 4,55 · 0,849 = 3,863
75
Tretman II I III
Χi 9,3 10,6 12,94
76
Kontrolna pitanja
1. Definisati nultu i alternativnu hipotezu.
2. Definisati grešku tipa I i grešku tipa II .
3. Navesti faze testiranja.
4. Navesti osnovne testove aritmetičkih sredina.
5. Navesti osnovne testove proporcija.
6. Kada se prilikom testiranja izvodi Z test?
7. Kada se prilikom testiranja izvodi t test?
8. Kada se primenjuje analiza varijanse?
9. Koji test se izvodi u osnovi analize varijanse? Koja hipoteza se ovim testom
proverava?
10. Navesti testove za testiranje značajnosti razlika parova tretmana.
77
6. REGRESIONA I KORELACIONA ANALIZA
78
promene zavisno promenljive. Jedan jedinstven model ne može uvek da zadovolji sve
zahteve pa se u nekom ispitivanju koristi više mogućih modela.
Specifikacija modela podrazumeva matematičku formulaciju uticaja i veza odabranih ne-
zavisno promenljivih na zavisno promenljivu pojavu. Teorija oblasti primene i statistička
teorija mogu sugerisati određeni oblik matematičke zavisnosti među posmatranim pro-
menljivim. Kao kriterijumi u izboru adekvatnog modela koriste se ranija iskustva iz anali-
zirane oblasti, rezultati ocenjenog modela, odnosno njegova prilagođenost podacima, kao
i težnja da model bude što jednostavniji.
U daljem izlaganju će biti razmatrana regresija sa jednom nezavisnom promenljivom.
Da bi se sagledala međuzavisnost između promenljivih, potrebno je raspolagati parovima
promenljivih izmerenih na n jedinica slučajnog uzorka, kao što je dato nizom:
Xi : X1,X2,X3,...,Xi,...,Xn
Yi : Y1,Y2,Y3,...,Yi,...,Yn (i = 1,2,...n)
Ako nezavisno promenljiva X uslovljava veličinu zavisno promenljive Y, tada se radi o
regresiji.
Ako se ispituje međuzavisnost dve promenljive, tada se radi o korelaciji.
Cilj regresione analize je da omogući sagledavanje očekivane vrednosti zavisno promen-
ljive na osnovu date nezavisno promenljive. Regresija se sagledava na osnovu jednačine
regresije i standardne greške regresije.
Cilj korelacione analize je sagledavanje jačine veze između dve promenljive. Korelacija
se sagledava na osnovu koeficijenta korelacije i koeficijenta determinacije.
Regresionu i korelacionu analizu korisno je započeti analizom dijagrama rasturanja. Dija-
gram rasturanja se formira u pravouglom koordinatnom sistemu, gde se na apscisnu osu
nanose vrednosti nezavisno promenljive X, a na ordinatnu osu vrednosti zavisno promen-
ljive Y. Na dijagram se unose tačke sa koordinatima (XiYi), i = 1,2,...n. Ove tačke mogu
biti raspoređene (rasute) prema određenoj zakonitosti. Dijagram rasturanja sadrži onoliko
tačaka koliko je zastupljeno parova vrednosti promenljivih. Dijagram rasturanja omogu-
ćuje utvrđivanje zavisnosti ili veze između promenljivih, kao i sagledavanje karaktera te
veze (linearna, krivolinijska).
79
a) Prosta linearna regresija
Najjednostavniji oblik regresije je prosta linearna regresija pomoću koje se sagledava
uticaj jedne nezavisno promenljive na zavisno promenljivu. Linearna regresija je iskazana
funkcijom koja glasi:
Υˆ i = a + bΧi (i = 1,2,...,n)
gde je:
80
Parametar a predstavlja prosečni početni nivo zavisno promenljive Y, odnosno, on
pokazuje vrednost zavisno promenljive u tački preseka linije regresije i ordinatne ose.
Parametar b ili koeficijent regresije pokazuje prosečnu promenu zavisno promenljive Y
za jedinicu promene nezavisno promenljive X. Kod rastuće regresije parametar b ima
pozitivnu vrednost (b>0), a kod opadajuće regresije ima negativnu vrednost (b<0). Para-
metar a se iskazuje u jedinicama mere zavisno promenljive Y, dok se parameter b
iskazuje u jedinicama koje su količnik jedinica zavisno i nezavisno promenljive.
Računski postupak u izračunavanju parametara regresionog modela zasnovan je na meto-
du najmanjih kvadrata i sastoji se u rešenju sistema normalnih jednačina. U praktičnom
radu primenjuju se sledeći radni postupci za izračunavanje parametara a i b:
Σ(Xi − X)(Yi − Y)
b=
Σ(Xi − X)2 a= Y − bX
(ΣXi )((ΣYi )
Σ Xi Yi −
b= n
( ΣX i ) 2
Σ Xi 2 −
n
81
Napomena: Vrednost koeficijenta korelacije nije dovoljna da se zaključi da li je veza
promenljivih linearna. Vrednost koeficijenta korelacije može biti bliska ±1 i u slučaju
nelinearne veze ili u slučaju da jedan ili više parova tačaka odstupa u odnosu na ostale
podatke. Dijagram rasturanja pomaže u pravilnom tumačenju veze promenljivih.
U praktičnom radu najčešće se utvrđuje koeficijent linearne korelacije (r) koji se
izračunava primenom obrasca:
(Σ Xi )((Σ Yi )
Σ(Xi − X)(Yi − Y) Σ X Y
i i −
= n
r= r
Σ(Xi − X)2 Σ(Yi − Y) 2 Σ X 2 − ( ΣX ) 2 / n Σ Y 2 − ( ΣY ) 2 / n
i i i i
Korelaciona analiza se dopunjuje utvrđivanjem i interpretacijom koeficijenta
determinacije. Koeficijent determinacije (r2) predstavlja kvadrat koeficijenta korelacije i
najčešće se iskazuje u procentima. Ovaj koeficijent se kreće u intervalu [ 0,1] ili [ 0,100%].
Interpretacija ovog koeficijenta ukazuje da je koeficijent determinacije pokazatelj udela
uticaja odabrane nezavisno promenljive X na varijabilnost zavisno promenljive Y,
uzimajući da je ukupna varijabilnost zavisno promenljiva Y jedan (100%).
Na osnovu izračunatog koeficijenta determinacije može se iskazati i koeficijent
alijenacije, odnosno koeficijent nedeterminacije (k2). Koeficijent nedeterminacije
pokazuje uticaj ostalih neispitivanih nezavisno promenljivih na varijabilnost zavisno
promenljive Y, uzimajući da je ukupna varijabilnost zavisno promenljiva Y jedan
(100%).
82
b) Ocena i testiranje parametara linearne regresije
Ocena parametara linearne regresije podrazumeva određivanje intervala poverenja za
koeficijent regresije osnovnog skupa β čija je ocena iz uzorka parametar b.
Interval poverenja ima sledeći oblik:
b − t n −2;α ⋅ Sb < β < b + t n −2;α ⋅ Sb .
gde je:
Sb – ocena standardne greške koeficijenta regresije
Standardna greška koeficijenta regresije izračunava se na osnovu varijanse ocenjenog
modela na sledeći način:
( )
2
Se2 ∑ Υ i − Υˆ i
Sb = Se2 =
∑ ( Χi − Χ )
2
n−2
Regresiona analiza se upotpunjuje izvođenjem inferencije o parametrima regresije. Pri
tome se najveća pažnja posvećuje testiranju značajnosti koeficijenta regresije b. Polazna
hipoteza glasi H0 : β = 0, a alternativna H1 : β ≠ 0.
Provera polazne hipoteze izvodi se pomoću t – testa:
b−0 b
=t =
Sb Sb
Izračunata vrednost t koja se upoređuje sa kritičnom tabličnom vrednošću, t n −2;α (iz Ta-
blica Studentove distribucije) ukazuje da li je t–test statistički značajan. Ukoliko je
t izr ≥ t n −2;α , nulta hipoteza se odbacuje i zaključuje se da je vrednost koeficijenta b
statistički značajna na pragu značajnosti α, odnosno, da postoji statistički značajan uticaj
nezavisno promenljive X na zavisno promenljivu Y. Ukoliko je t izr < t n −2;α nulta
hipoteza se prihvata i zaključuje se da vrednost koeficijenta b nije statistički značajna,
odnosno, da ne postoji statistički značajan uticaj nezavisno promenljive X na zavisno
promenljivu Y.
Testiranje značajnosti koeficijenta linearne korelacije r može se izvesti tako što se
vrednost rizr upoređuje sa odgovarajućom tabličnom vrednošću (iz Tablica po Snedecor -
u). Polazna hipoteza glasi H0 : ρ = 0, a alternativna H1 : ρ ≠ 0. Ukoliko je rizr ≥ rn −2;α
nulta hipoteza se odbacuje, što znači da je linearna povezanost između dve promenljive
statistički značajna. U suprotnom ako je je rizr < rn −2;α nulta hipoteza se prihvata pa je
zaključak da linearna veza između dve posmatrane promenljive nije statistički značajna.
Polazna hipoteza za testiranje značajnosti koeficijenta linearne korelacije može se
proveriti i izračunavanjem odgovarajućeg količnika na sledeći način:
- u slučaju velikog uzorka (n>30)
r
Z=
Sr
gde je:
r – ocena koeficijenta korelacije osnovnog skupa na osnovu uzorka
Sr – ocena standardne greške koeficijenta korelacije na osnovu uzorka.
83
Standardna greška koeficijenta korelacije na osnovu velikog uzorka izračunava se na
sledeći način:
1
Sr =
n
1 − r2
Sr = .
n−2
Za donošenje zaključka o polaznoj hipotezi izračunati količnik se upoređuje sa tabličnim
vrednostima Studentove distribucije t n −2;α .
Ako je rizr < t n −2;α polazna hipoteza se prihvata i donosi zaključak da linearna veza
između dve posmatrane promenljive nije statistički značajna, a ukoliko je rizr ≥ t n −2;α
nulta hipoteza se odbacuje, što znači da je linearna povezanost između dve promenljive
statistički značajna.
Primer: Na osnovu podataka o težini nazimica kod pripusta i broja oprašene prasadi
formirati dijagram rasturanja, oceniti parametre u jednačini linearne regresije, izračunati
standardnu grešku regresije, izračunati koeficijente korelacije, determinacije i alijenacije i
oceniti broj oprašene prasadi kada je težina nazimica 100 kilograma. Testirati statističku
značajnost ocenjenog koeficijenta regresije i koeficijenta korelacije.
84
Dijagram rasturanja i ocenjeni model linearne regresije
y = 1,6243+0,0783*x
10,0
9,5
9,0
Broj prasadi
8,5
8,0
7,5
7,0
70 75 80 85 90 95 100
Tezina nazimica
Υˆ i = a + bXi
=b
(
Σ Χi − Χ Υ i − Υ 28,66
= = 0,0783
)( )
( )
2 365,88
Σ Χi − Χ
Υ
ˆ= 1,61 + 0,078Χ
i i
Ocenjene vrednosti regresije
Υˆ =
1 1,61 + 0,0783 ⋅ 75
= 7, 48
Υ
ˆ = 1,61 + 0,0783 ⋅ 78 = 7,72
2
Υ
ˆ = 1,61 + 0,0783 ⋅ 95 = 9,05
8
( )
2
Σ Υi − Υ
ˆ
i 0,1492
=Se = = 0,158
n−2 6
Koeficijente korelacije
85
=r
( =
)(
Σ Χi − Χ Υ i − Υ ) 28,66
= 0,969
365,88 ⋅ 2,39
( ) ( )
2 2
Σ Χi − Χ Σ Υ i − Υ
Koeficijent determinacije
r2
= ( 0,969
= )2 = 93,9%
0,939
Koeficijent alijenacije
k 2 0,061
= = 6,1%
Ocenjeni broj oprašene prasadi kada je težina nazimica 100 kilograma
Υ
ˆ 100 = 1,61 + 0,0783 ⋅ 100 = 9,44 ≈ 9 prasadi.
II način izračunavanja
Xi Yi XY X2 Y2
ΣΧΥ −
( ΣΧ )( ΣΥ ) 5706,1 −
( 683) ⋅ ( 66,5)
r = n = 8 0,969
( ΣΧ )2 ⋅ ΣΥ 2 − ( ΣΥ )2 2 2
( 683) ⋅ 555,17 − ( 66,5)
ΣΧ 2 − 58677 −
n n 8 8
86
t 6;0,05 = 2, 447 t 6;0,01 = 3,707
t izr = 9, 434 > 2, 447 ⇒ H1
t izr = 9, 434 > 3,707 ⇒ H1.
0,0783 – 2,447·0,0083<β<0,0783+2,447·0,0083
0,058<β<0,0986
0 ∉ (0, 058, 0, 0986) ⇒ H1
α =0,01
0,0783 –3,707·0,0083<β<0,0783+3,707·0,0083
0,04753<β<0,10907
H 0 : ρ =0
1 − r2 1 − 0,939
H1 : ρ ≠ 0. =Sr = = 0,10083
n−2 8−2
r 0,969
=
t 6;0,05 2,=
447 t 6;0,01 3,707 =
t = = 9,61**
Sr 0,10083
Može da se zaključi da je linearna međuzavisnost težine nazimica i broja oprašene prasadi
visoko statistički značajna.
87
Kontrolna pitanja
1. Šta je cilj primene regresione analize?
2. Šta je cilj primene korelacione analize?
3. Na osnovu čega se sagledava regresiona analiza?
4. Na osnovu čega se sagledava korelaciona analiza?
5. Kako se formira dijagram rasturanja i koja mu je svrha?
6. Šta pokazuje koeficijent pravca regresije?
7. Definisati koeficijent korelacije.
8. Definisati koeficijent determinacije.
9. Na koji način se proverava značajnost ocenjenog koeficijenta regresije?
10. Na koji način se proverava značajnost ocenjenog koeficijenta korelacije?
88
PRILOZI
89
90
91
92
93
94
LITERATURA
1. Aho, K. A., Foundational and Applied Statisstics for Biologist Using R, CRC Press,
Taylor & Francis Group, 2014.
2. Bruce, P.C., Bruce, A. G., Practical Statistics for Data Scientists, O’Reilly Media,
Inc., USA, 2016.
3. Čobanović, K., Primeri za vežbanje iz statistike, Poljoprivredni fakultet Novi Sad,
1991.
4. Daniel, W. W., Cross, C. L., Biostatistics, A Foundation for Analysis in the Health
Sciences, Tenth Edition, Wiley, 2013.
5. Dumičić, K., Bahovec, V., Čižmešija, M., Kurnoga Živadinović, N., Čeh Časni, A.,
Jakšić, S., Palić, I., Sorić, P., Žmuk, B., Poslovna statistika, Dumičić, K., Bahovec,
V. (ur.), Element d.o.o., Zagreb, 2011.
6. Darlington, B.R., Hayes,F.A., Regression Analysis and Linear Models, Ebook, The
Guilford Press, New York, London, 2017.
7. Diggle, P.J., Chetwynd, A. G., Statistics and Scientific Method, An Introduction for
Students and Researchers, Oxford University Press, Inc., New York, 2011.
8. Hadživuković, S., Statistika, Privredni pregled Beograd, 1989.
9. Hadživuković, S., Statistički metodi, Drugo prošireno izdanje, Poljoprivredni fakul-
tet, Novi Sad,1991.
10. Jazbec, A., Osnove statistike, Šumarski fakultet, Zagreb, 2008.
11. Kaps, M., Lamberson, W.R., Biostatistics for Animal Science, Third edition, CABI
Publishing, UK, 2017.
12. Le, C. T., Eberly, L. E., Introductory Biostatistics, John Wiley & Sons, Inc., New
Jersey, 2016.
13. Lozanov-Crvenković, Z., Statistika, PMF Novi Sad, 2012.
14. Maletić, R., Statistika, Poljoprivredni fakultet, Beograd-Zemun, 2005.
15. Mann, P. S., Uvod u Statistiku, Ekonomski fakultet, Beograd, 2009.
16. Pagano, R.R., Understanding Statistics, Tenth Edition, Wadsworth, Cengage Learn-
ing, 2013.
17. Petrie, A., Watson, P., Statistics for Veterinary and Animal Science, Third edition,
Wiley Blackwell, John Wiley & Sons, Ltd., Publication, 2013.
18. Petz, B., Kolesarić, V., Ivanec, D., Petzova statistika, Osnovne statističke metode za
nematematičare, Naklada Slap, Jastrebarsko, 2012.
19. Rao, G. N., Statistics for Agricultural Sciences, Second Edition, BS Publications,
Hyderabad, 2007.
20. Riffenburgh, H.R., Statistics in Medicine, Third Edition, Elsevier, 2012.
21. Sokolovska, V., Deskriptivna Statistika, Univerzitet u Novom Sadu, Centar za pri-
menjenu statistiku, Novi Sad, 2013.
95
22. Stanković, J., Ralević, N., Ljubanović-Ralević, I., Statistika sa primenama u poljo-
privredi, Mladost Biro, Beograd, 2002.
23. Vasilj, Đ., Biometrika i eksperimentiranje u bilinogojsvu, Hrvatsko agronomsko
društvo, Zagreb, 2000.
24. Weiss, A. N., Introductory Statistics, 9th Edition, Addison-Wesley, 2012.
25. Wilcox, R. R., Understanding and Applying Basic Statistical Methods Using R, John
Wiley & Sons, Inc., Hoboken, New Jersey, 2017.
26. Zar, J.H., Biostatistical Analysis, 5th Edition, Pearson Education, Ltd. London,
2010.
27. Žižić, M., Lovrić, M., Pavličić, D., Metodi statističke analize, Šesnesto izdanje,
Centar za izdavačku delatnost Ekonomskog fakulteta, Beograd, 2006.
96
INDEKS POJMOVA
97
Metode za izbor jedinica uzorka, 44 Promenljiva, 8, 10, 31–33, 36–41, 47, 49,
Modus, 17, 19–21, 33, 35, 37, 40 57, 78–84
Negrupisani podaci, 9, 11, 15, 17, 19–28, Proporcija, 33, 48, 52–54, 56, 64–67, 77
48, 50, 62 Prosta linearna regresija, 80, 84, 85
Neintervalna distribucija frekvencija, Prost slučajni uzorak, 44– 46, 48, 51–53,
11–13, 21, 22 56, 58, 60, 68
Neparametarska statistika, 52 Regresiona analiza, 78, 79, 83, 88
Neparametarski testovi, 55 Regresioni model, 78, 81
Neprekidna obeležja, 9, 14 Relativna frekvencija, 12, 13, 14, 29–32
Neprekidna slučajna promenljiva, 31, 36 Reprezentativni uzorak, 44, 54
Neprekidna teorijska distribucija, 35, 36, Senzitivnost testa, 55
39, 41, 43 Simetričnost distribucije, 20, 33
Nepristrasnost, 47 Sistematski slučajni uzorak, 44, 45
Nezavisno promenljiva, 78–83 Slučajni događaj, 30, 31
Normalna ili Gausova distribucija, 35, 36, Slučajno promenljiva, 31–33, 36–42, 47,
37, 38, 39, 40, 43, 49, 57, 60, 66, 84 49, 57
Nulta hipoteza, 55–66, 69–72, 77, 83, 84 Specifikacija modela, 79
Obeležja jedinica posmatranja, 8–10, 18 Srednje apsolutno odstupanje, 22, 23, 27
Oblik distribucije, 27, 35, 40, 55 Standardizovana slučajna promenljiva, 37
Ocena parametara osnovnog skupa, 46, Standardizovano odstupanje, 22, 26, 27
47, 48 Standardna greška aritmetičke sredine,
Ocenitelj, 47, 48, 54 46–49, 60–62, 71, 72
Očekivana vrednost, 33, 37–39, 47, 57, Standardna greška koeficijenta korelacije,
79, 80 83–85
Osnovni skup, 8, 10, 17, 18, 23–27, 35, Standardna greška koeficijenta regresije,
39, 40, 44–58, 60–62, 64–67, 69, 83 83–85
Parametar b ili koeficijent regresije, 80, Standardna greška proporcije, 52, 53
81, 83, 84, 88 Standardna greška razlike dve proporcije,
Parametarski testovi, 55 66, 67
Parametri regresije, 80, 81, 83, 85 Standardna greška regresije, 79, 81
Poasonova distribucija, 34, 35, 43 Standardna devijacija, 22–26, 33, 35–37,
Pokazatelji centralne tendencije, 17, 22 39, 40, 46–49, 58, 60
Pokazatelji varijacije, 22, 23, 25, 26, 29, Standardno odstupanje, 22, 26, 27
47 Statistička definicija verovatnoće, 30
Poligon, 15, 16, 29 Statistička serija, 9, 10, 11, 15
Pozicione srednje vrednosti, 17, 29 Statistički skup, 8, 17
Prag značajnosti, 42, 49, 55, 57–62, Stepeni slobode, 39–42, 47, 58, 62, 63,
70–73, 83, 84 69–72, 74
Prekidna obeležja, 9, 12, 34 Stratifikovani slučajni uzorak, 44, 45
Prekidne teorijske distribucije, 32, 43 Studentova t- distribucija, 39, 40, 43, 49,
Prihvatanje alternativne hipoteze, 57, 58, 58, 62, 71, 83, 84
60, 63 Subjektivna verovatnoća, 31
Prihvatanje nulte hipoteze, 57, 61–63, 65 Suma kvadrata, 42, 68, 69, 74
98
Suma kvadrata totala, 69 t-količnik, 39, 58, 59, 62, 63, 70, 71
Suma kvadrata tretmana, 68, 69 Total osnovnog skupa, 49, 53
Suma kvadrata pogreške, 68 Uzorak, 8, 10, 17, 18, 23–27, 33, 35,
t- test, 59, 73 39–58, 60–62, 64–68, 79, 83, 84
Tabela analize varijanse, 69, 71, 72 Uzorci bez ponavljanja, 44–46, 48,
51–53, 58
Tačkasti dijagram, 15
Uzorci sa ponavljanjem, 44–46, 48, 53,
Teorija verovatnoće, 7, 30, 44
58
Teorijske distribucije, 30, 32, 34–36, 41,
Varijansa, 22–27, 32–35, 40–42, 45–51,
43, 44
56–58, 60–62, 67–74, 77, 83
Testiranje statističkih hipoteza, 40,
Varijansa pogreške, 70
55–58, 63, 65, 66, 70
Varijansa tretmana, 70
Test najmanje značajne razlike - NZR
test, 70, 71, 73, 75 Veliki uzorak, 44, 48, 49, 53, 58, 64, 83,
84
Test statistika, 56, 57
Veličina osnovnog skupa, 8, 45, 47, 48
Test značajnosti jedne proporcije, 64
Višestruki test intervala – Dankanov test,
Test značajnosti jedne sredine, 49, 56–58,
70, 72, 73
77
Z količnik, 57, 60, 64, 66, 84
Test značajnosti razlike dve proporcije,
64, 66 Zakon verovatnoće, 32, 36
Test značajnosti razlike dve sredine, 56, Zavisno promenljiva, 70–83
60, 61 Združena varijansa, 62
Testovi parova tretmana, 70, 73, 77
Testovi proporcija, 64, 66, 77
99
CIP – Каталогизација у публикацији
Библиотека Матице српске
ISSN 0
COBISS.SR-ID 1
100
Dr Beba Mutavdžić
1954
Mr Emilija Nikolić Đorić STATISTIKA