You are on page 1of 104

UNIVERZITET U NOVOM SADU

1954
POLJOPRIVREDNI FAKULTET
STATISTIKA

STATISTIKA
Dr Beba Mutavdžić
Mr Emilija Nikolić Đorić
Mr Emilija Nikolić Đorić
Dr Beba Mutavdžić

1
1954
Edicija osnovni udžbenik

Osnivač i izdavač edicije


Univerzitet u Novom Sadu
Poljoprivredni fakultet
Trg Dositeja Obradovića br.8, Novi Sad

Godina osnivanja
1954.

Glavni i odgovorni urednik edicije


Dr Nedeljko Tica, redovni profesor
Dekan Poljoprivrednog fakulteta u Novom Sadu

Članovi komisije za izdavačku delatnost


Dr Ljiljana Nešić, redovni profesor, predsednik
Dr Milica Rajić, redovni profesor, član
Dr Nada Plavša, vanredni profesor, član
Dr Branislav Vlahović, redovni profesor, član
Autori:
Dr Beba Mutavdžić
Mr Emilija Nikolić-Đorić

Glavni i odgovorni urednik edicije


Dr Nedeljko Tica, redovni profesor
Dekan Poljoprivrednog fakulteta u Novom Sadu

Urednik
Dr Dejan Janković,vanredni profesor
Direktor Departmana za ekonomiku poljoprivrede i sociologiju sela
Poljoprivredni fakultet u Novom Sadu,
Univerzitet u Novom Sadu

Recenzenti
Dr Zagorka Lozanov-Crvenković, redovni profesor
Prirodno-matematički fakultet Novi Sad, Univerzitet u Novom Sadu
Dr Radojka Maletić, redovni profesor
Poljoprivredni fakultet Beograd, Univerzitet u Beogradu

Izdavač
Poljoprivredni fakultet Novi Sad,Univerzitet u Novom Sadu
Zabranjeno preštampavanje i fotokopiranje. Sva prava zadržava izdavač.
Štampa:
Štampanje odobrila Komisija za izdavačku delatnost i Naučno-nastavno veće
Poljoprivrednog fakulteta u Novom Sadu.
Tiraž: 20 primeraka
Prelom teksta: Ljubiša Aleksić
Fotografija na koricama: Boža Ivanović (http://www.bozaivanovic.com/)

Mesto i godina štampanja: Novi Sad, 2018.


Dr Beba Mutavdžić Mr Emilija Nikolić-Đorić

STATISTIKA
(za smer veterinarska medicina)

Novi Sad, 2018.


STATISTIKA (za smer veterinarska medicina)

2
PREDGOVOR

Ova knjiga je udžbenik za predmet „Statistika”, koji se proučava na prvoj godini smera
Veterinarska medicina Poljoprivrednog fakulteta, Univerziteta u Novom Sadu. Sadržaj
udžbenika u skladu je sa aktuelnim akreditovanim programom za navedeni predmet i na-
vedeni smer. Knjiga nije namenjena samo za studente smera Veterinarska medicina, kao
osnovni udžbenik, već s obzirom da je vezana za osnove statistike, može biti korišćena i
od strane studenata drugih smerova Poljoprivrednog fakulteta, Univerziteta u Novom
Sadu.
Knjiga se sastoji iz šest poglavlja, koje čine strukturnu i sadržajnu celinu, koja je u skladu
sa akreditovanim programom.
Prvo poglavlje predstavlja Uvod u kome se govori o pojmu i značaju statistike i u okviru
koga su definisani osnovni statistički pojmovi (statistički skup, jedinice i obeležja
posmatranja, vrste statističkih serija).
Drugo poglavlje je Deskriptivna statistika, u okviru kog se govori o uređivanju i gra-
fičkom predstavljanju statističkih podataka, kao i o osnovnim statističkim pokazateljima
(pokazatelji srednje vrednosti, varijabiliteta i oblika).
Treće poglavlje knjige odnosi se na Teorijske distribucije, gde su najpre dati osnovni
pojmovi verovatnoće, a zatim najčešće korišćene prekidne i neprekidne teorijske distri-
bucije.
Četvrto poglavlje se odnosi na Inferencijalnu statistiku, gde je opisan metod uzorka u
istraživačkom radu, kao i distribucija sredina uzoraka, a naveden je i metod ocena na
osnovu uzoraka.
Peto poglavlje obuhvata Testiranje statističkih hipoteza, a metodološki su opisani i odgo-
varajućim primerima ilustrovani neki osnovni testovi aritmetičkih sredina i proporcija.
Šesto poglavlje je Regresiona i korelaciona analiza, u okviru koje je opisana prosta line-
arna regresija i navedene ocene i testovi parametara linearne regresije.
Autori se nadaju da će ova knjiga omogućiti studentima upoznavanje sa upotrebom sa-
vremenih statističkih metoda u rešavanju problema koji su u domenu poljoprivrednih i
bioloških nauka, odnosno konkretno problema iz oblastii veterinarske medicine. Ideja
autora je da se studenti upoznaju sa deskriptivnim metodama, kao i metodama analize
rezultata ogleda.
Koristeći ovu knjigu studenti treba da steknu sposobnost za upotrebu statističkih metoda i
njihovu primenu u oblasti svog interesovanja. Stečene sposobnosti upotrebe i adekvatnog
korišćenja statistike i njenih metoda omogućiće studentima uspešno rešavanje problema u
daljem radu i sticanju obrazovanja.
Zahvaljujemo se svima koji su na direktan ili indirektan način pomogli izradu ove knjige,
a naročito recenzentima: prof. dr Zagorki Lozanov-Crvenković i prof. dr Radojki Maletić
i na korisnim sugestijama. Za tehničko uređenje knjige zahvaljujemo se Ljubiši Aleksiću.
Novi Sad AUTORI
20.09.2018.

3
4
SADRZAJ

PREDGOVOR ..................................................................................................................... 3
1. UVOD ........................................................................................................................ 7
1.1. Pojam i značaj statistike .................................................................................... 7
1.2. Osnovni statistički pojmovi .............................................................................. 8
1.2.1. Statistički skup......................................................................................... 8
1.2.2. Jedinice i obeležja posmatranja ............................................................... 8
1.2.3. Vrste statističkih serija ............................................................................ 9
Kontrolna pitanja ...................................................................................................... 10
2. DESKRIPTIVNA STATISTIKA ............................................................................. 11
2.1. Formiranje distribucije frekvencija ................................................................. 11
2.2. Grafičko prikazivanje statističkih podataka .................................................... 14
2.3. Pokazatelji centralne tendencije ...................................................................... 17
2.3.1. Aritmetička sredina ............................................................................... 17
2.3.2. Medijana ................................................................................................ 19
2.3.3. Modus .................................................................................................... 19
2.3.4. Odnos između aritmetičke sredine, medijane i modusa ........................ 20
2.4. Pokazatelji varijacije ....................................................................................... 22
2.4.1. Interval (razmak) varijacije - I ............................................................. 22
2.4.2. Srednje apsolutno odstupanje - SO...................................................... 23
2.4.3. Standardna devijacija - σ i varijansa - σ2 ............................................... 23
2.4.4. Koeficijent varijacije - V ....................................................................... 25
2.4.5. Standardizovano odstupanje - Z .......................................................... 26
2.5. Pokazatelji oblika distribucije ......................................................................... 27
Kontrolna pitanja ...................................................................................................... 29
3. TEORIJSKE DISTRIBUCIJE .................................................................................. 30
3.1. Osnovni pojmovi verovatnoće ........................................................................ 30
3.2. Prekidne teorijske distribucije......................................................................... 32
3.2.1. Binomna distribucija ............................................................................. 32
3.2.2. Poasonova distribucija ........................................................................... 34
3.3. Neprekidne teorijske distribucije .................................................................... 35
3.3.1. Normalna distribucija ............................................................................ 35
3.3.2. Studentova – t distribucija ..................................................................... 39
3.3.3. Fišerova – F distribucija ........................................................................ 41
Kontrolna pitanja ...................................................................................................... 43
4. INFERENCIJALNA STATISTIKA ........................................................................ 44
4.1. Metod uzorka u istraživačkom radu ................................................................ 44
4.2. Distribucija sredina uzoraka ........................................................................... 45

5
4.3. Ocene na osnovu uzorka ................................................................................. 47
4.3.1. Izračunavanje standardne greške aritmetičke sredine ........................... 48
4.3.2. Interval poverenja za ocenu nepoznate sredine osnovnog skupa .......... 49
4.3.3. Interval poverenja za ocenu nepoznate proporcije osnovnog skupa ..... 52
Kontrolna pitanja ...................................................................................................... 54
5. Testiranje statističkih hipoteza ................................................................................. 55
5.1. Testovi aritmetičkih sredina ............................................................................ 56
5.1.1. Test značajnosti jedne sredine ............................................................... 56
5.1.2. Test značajnosti razlike dve sredine ...................................................... 60
5.2. Testovi proporcija ........................................................................................... 64
5.2.1. Testirnje hipoteze o proporciji osnovnog skupa .................................... 64
5.2.2. Test značajnosti razlike dve proporcije ................................................. 66
5.3. Analiza varijanse (ANOVA) ........................................................................... 67
5.3.1. Analiza varijanse potpuno slučajnog rasporeda (prostog slučajnog
rasporeda) .............................................................................................. 68
Kontrolna pitanja ...................................................................................................... 77
6. REGRESIONA I KORELACIONA ANALIZA ...................................................... 78
PRILOZI ............................................................................................................................ 89
LITERATURA .................................................................................................................. 95
INDEKS POJMOVA ......................................................................................................... 97

6
1. UVOD

1.1. Pojam i značaj statistike


Statistika je danas sastavni deo aktivnosti naučnih, obrazovnih, privrednih i drugih insti-
tucija.
Statistika je naučni metod koji se koristi za prikupljanje, prikazivanje, analizu i tumačenje
različitih vrsta podataka. Statistika je skup metoda koje doprinose da se dođe do vero-
dostojnih zaključaka i odluka u uslovima neizvesnosti.
Statistika se odnosila na skup numeričkih podataka o stanju posmatrane pojave. Poreklo
reči statistika vodi od latinske reči status – stanje, kao i status – država.
Prvi put reč statistika se pojavljuje u prvoj polovini XVIII veka u radovima Gotfrida
Ačenvala, profesora Univerziteta u Getingenu zbog čega se smatra ocem statistike.
Jedna od osnovnih karakteristika poslovnog okruženja danas u bilo kojoj oblasti su brze i
brojne promene, koje prati i velika količina podataka s kojima se svakodnevno susre-
ćemo. Poznavanje izvora i kvaliteta podataka, njihovih karakteristika i pravilno tumačenje
karakteristika su od izuzetne vaznosti u svrhu dobijanja kvalitetnih informacija na osnovu
kojih će se donositi adekvatne odluke. Ako se do podataka dolazi poštujući određene
planske, ili zakonski propisane preporuke prikupljeni podaci smatraju se statističkim pa je
s toga njihovo pretvaranje u informacije moguće upotrebom statističkih metoda. Svrha
primene statističkih metoda je donošenje zaključaka o karakteristikama posmatranih
pojava, ispitivanje različitih pretpostavki, procena karakterističnih veličina, predviđanje
stanja i nivoa pojava, i dr.
Statistika nam omogućava da tumačimo podatke sa razumevanjem, da dobijemo odgo-
vore na značajna pitanja i da donesemo pouzdane zaključke i odluke zasnovane na nume-
ričkim dokazima. Istu svrhu ima i primena statističkih metoda u oblasti veterinarske
medicine. Analiza rezultata genetičkih ispitivanja, izvođenje i analiza epidemioloških pra-
ćenja, dizajn i analiza kliničkih istraživanja, planiranje eksperimenata i dr. samo su neki
od slučajeva koji podrazumevaju primenu statističkih metoda u veterinarskoj medicini.
Statistika ima dva aspekta: teorijski i primenjeni.
Teorijska ili matematička statistika bavi se razvojem, izvođenjem i dokazivanjem teo-
rema, formula, pravila i zakona, odnosno usavršavanjem novih metoda. Teorija verova-
tnoće je fundamentalna oblast na kojoj je zasnovana matematička statistika.
Primenjena statistika podrazumeva primenu novih metoda, teorema, formula, pravila i
zakona u rešavanju realnih problema.
Statistiku delimo na:
- deskriptivnu statistiku i
- inferencijalnu (analitičku) statistiku
Deskriptivna statistika obuhvata metode prikupljanja, sređivanja i prikazivanja podataka
na jasan i razumljiv način, kao i izračunavanja statističkih parametara. Deskriptivna sta-
tistika uključuje grafičke i numeričke procedure za prikazivanje i analizu podataka.

7
Inferencijalna statistika pruža osnovu za predviđanje i procenu, kako bi se doneli
zaključci o celokupnoj populaciji na osnovu podataka dobijenih merenjima sprovedenim
na uzorku.

1.2. Osnovni statistički pojmovi


Predmet izistraživanja savremene statistike su masovne pojave koje pokazuju varijabilitet
od jednog do drugog slučaja njihovog pojavljivanja. Na varijabilitet pojave utiče veliki
broj faktora, pri čemu svaki od faktora može uticati individualno ili može imati združeni
uticaj sa drugim faktorima. U okviru različitih naučnih disciplina varijabilitet posmatranih
pojava se analizira primenom adekvatne statističke metodologije. Primenom odgovaraju-
će metodologije stiče se uvid u ponašanje ispitivanih pojava, uočava njihova povezanost
sa drugim varijabilnim pojavama, uočavaju tendencije u njihovom razvoju ili predviđanje
njihovih budućih vrednosti. Primena statističke metodologije zahteva pre svega poznava-
nje statističke terminologije i poznavanje i razumevanje principa statističke analize

1.2.1. Statistički skup


Statistički skup predstavlja skup jedinica na osnovu kojih se ispituje jedno ili više svojsta-
va (varijabli, obeležja, osobina, karakteristika), koja su od jedinice do jedinice promen-
ljiva.
Prema obimu statistički skupovi se dele na konačne i beskonačne. Statistički skupovi
takođe mogu realni i zamišljeni (hipotetički).
Osnovni skup (populacija, ciljna populacija) je skup podataka svih jedinica (elemenata)
posmatranja čije karakteristike ispitujemo. Za definisanje osnovnog skupa (populacije)
treba da bude poznata svrha, odnosno cilj analize. Osnovni skupovi se definišu pojmovno,
prostorno i vremenski.
Pojmovnom definicijom skupa utvrđuje se pripadnost skupu s obzirom na pojam jedinice.
Prostornom definicijom označava se prostor kom pripadaju sve jedinice osnovnog skupa.
Vremenskom definicijom određuje se vremenski interval ili vremenska tačka za koju su
vezane sve jedinice skupa.
Broj jedinica osnovnog skupa naziva se veličina ili obim osnovnog skupa.
Uzorak je deo osnovnog skupa koji je izabran u svrhu izvođenja statističke analize.

1.2.2. Jedinice i obeležja posmatranja


Jedinica posmatranja osnovnog skupa ili uzorka je određeni subjekat ili objekat o kojem
se prikupljaju podaci (informacije), odnosno na kojem se određena pojava statistički
posmatra. Jedinice statističkog skupa su pojedinačni slučajevi iz kojih se statistički skup
sastoji, treba da budu istovrsne ali ne i istovetne. Cilj posmatranja jedinica statističkog
skupa je ispitivanje diferenciranosti (različitosti) njihovih karakteristika (odlika, osobina,
obeležja) i kvantitativno izražavanje uočenih različitosti.
Promenljiva (obeležje ili varijabla) je osobina koja se proučava ili istražuje i koja podra-
zumeva različite vrednosti po jedinicama posmatranja.
Opservacija ili podatak je vrednost promenljive koja se odnosi na jednu jedinicu posma-
tranja.

8
Obeležja jedinica posmatranja mogu biti:
• kvalitativna (atributivna, kategorijalna)
• kvantitativna (numerička)
Kvalitativna obeležja su osobine koje se uočavaju na jedinicama posmatranja, ali se ne
mogu meriti već se opisno iskazuju, odnosno ne mogu uzeti numeričke vrednosti već se
klasifikuje u dve ili više kategorija.
Kvantitativna, odnosno numerička obeležja su osobine koje se uočavaju na jedinicama
posmatranja, mogu se meriti i brojčano iskazati.
Numerička obeležja delimo na:
- prekidna (diskretna, diskontinuirana)
- neprekidna (kontinuirana)
Prekidna obeležja su numerička obeležja koja uzimaju samo određene vrednosti sa brojne
prave i rezultat su prebrojavanja.
Neprekidna obeležja su numerička obeležja koja mogu uzeti bilo koju vrednost sa brojne
prave i rezultat su merenja.

1.2.3. Vrste statističkih serija


Statisički podaci su po pravilu mnogobrojni pa nije moguće direktno donositi zaključke o
obeležjima koja se analiziraju.
Podaci zapisani redosledom kojim se prikupljaju pre nego što se urede po veličini ili
grupišu nazivaju se negrupisani podaci.
Iz tog razloga se u prvom koraku statističke analize pristupa uređivanju podataka, a svrha
uređivanja je da omogući uočavanje osnovnih karakteristika analizirane pojave.
Uređivanjem statističkih podataka nastaju statistički nizovi, odnosno statističke serije.
Skupovi podataka sređuju se i prikazuju u vidu tabela i grafikona.
Radi bolje preglednosti, pogotovo ako je broj prikupljenih podataka veliki, podaci se
grupišu u klase ili grupe i određuje se broj podataka u svakoj klasi odnosno grupi.
Prilikom grupisanja podataka osnovni problem je utvrđivanje kriterijuma na osnovu koga
će svi podaci biti svrstani u jednorodne grupe, koje će biti osnova dalje statističke analize.
Na ovaj način se dobijaju različite vrste statističkih serija.
Grupisanje podataka može biti geografsko, vremensko, atributivno, numeričko.
Geografsko grupisanje može se izvesti na osnovu administrativno-teritorijalne podele
zemlje ili prema nekom drugom geografskom kriterijumu (na primer, planinski i
ravničarski krajevi). Ovako dobijeni nizovi podataka nazivaju se geografske serije
podataka.
Vremensko grupisanje podataka može biti intervalno i momentno. Na ovaj način se
dobijaju vremenske serije podataka. Intervalnim grupisanjem pojava se neprekidno prati i
registruje. Momentnim grupisanjem dobijaju se podaci koji su rezultat posmatranja
pojave u određenom momentu vremena.
Grupisanjem sakupljenih podataka po atributivnim obeležjima dobijaju se atributivne
serije podataka.
Grupisanjem podataka po numeričkom obeležju nastaju numeričke serije podataka.

9
Kontrolna pitanja
1. Kako se definiše statistika kao naučni metod?
2. Kako se deli statistika?
3. Šta obuhvata deskriptivna statistika?
4. Šta se podrazumeva pod inferencijalnom statistikom?
5. Šta je osnovni skup ili populacija?
6. Šta je uzorak?
7. Šta je promenljiva, obeležje ili varijabla?
8. Kako se dele obeležja jedinica posmatranja?
9. Kako se dele numerička obeležja?
10. Navesti vrste statističkih serija.

10
2. DESKRIPTIVNA STATISTIKA

2.1. Formiranje distribucije frekvencija


Već je prethodno navedeno da je numerička statistička serija niz podataka o obeležju koje
se meri na određenom broju jedinica posmatranja i iskazuje brojčano. Uobičajeno je da se
brojčane vrednosti izmerene na jedinicama posmatranja beleže onim redosledom kako se
do njih dolazi. Na osnovu takvog niza podataka teško je doneti bilo kakav zaključak o
predmetu istraživanja. Da bi se dobio pregledniji uvid u karakteristike analizirane pojave
na osnovu izmerenih numeričkih vrednosti, prvi zadatak je da se utvrđenje vrednosti
sistematizuju po nekom redu i prikažu u nekoj prikladnoj formi.
Podaci zapisani redosledom kojim se prikupljaju pre nego što se urede po veličini ili
grupišu nazivaju se negrupisani podaci.
Radi bolje preglednosti, pogotovo ako je njihov broj veliki, podaci se grupišu u klase ili
grupe i određuje se broj podataka u svakoj klasi odnosno grupi. Grupisani numerički
podaci nazivaju se distribucije frekvencija.
Distribucija frekvencija predstavlja tabelarno prikazivanje podataka, gde podatke
grupišemo u dve kolone tako da su u prvoj koloni navedene sve različite vrednosti
obeležja, a u drugoj koloni broj jedinica navedene vrednosti obeležja. Različite vrednosti
obeležja se nazivaju modaliteti obeležja.
Distribucija frekvencija za numeričke podatke sadrži dva niza podataka: vrednosti
obeležja, prikazane pojedinačnim vrednostima ili grupnim intervalima i njima
odgovarajući broj jedinica posmatranja.
Na osnovu toga kako je iskazana vrednost obeležja razlikujemo dve vrste distribucije
frekvencija:
1. neintervalne – kod kojih je vrednost obeležja tačno navedena pojedinačna vrednost
2. intervalne – kod kojih je vrednost obeležja interval koji sadrži dve ili više
pojedinačnih vrednosti.
Broj ponavljanja svake navedene vrednosti obeležja ili grupe (intervala) obeležja naziva
se apsolutna frekvencija (fi ) .
Apsolutna frekvencija pokazuje koliko jedinica posmatranog skupa ima određeni
modalitet obeležja.
Na ovaj način se dobija distribucija ili raspodela frekvencija.
Kada obeležje ima veliki broj različitih vrednosti one se grupišu u unapred određene
intervale. Broj i veličina (širina) intervala zavise od broja podataka ( N ) i od prirode
samog obeležja.
Broj grupnih intervala (k) može se izračunati na osnovu izraza (Sturgesovo pravilo):
k = 1 + 3,332 log N.
Na osnovu broja intervala izračunava se širina intervala ( i ):
Χ max − Χ min
i= ,
k

11
gde su Χ max i Χ min najveća i najmanja vrednost obeležja u seriji.
Na osnovu apsolutne frekvencije mogu se izračunati relativne frekvencije (pi ) i
kumulativne frekvencije (Fi ).
Relativna frekvencija (struktura) se dobija kao količnik apsolutne frekvencije svake
vrednosti obeležja i ukupnog broja jedinica posmatranja.
fi
=
pi = ( i 1,..., k ) .
N
Na osnovu izračunatih relativnih frekvencija može se iskazati učešće pojedinih vrednosti
obeležja ( s i ) u ukupnom broju jedinica posmatranja u procentima

s i = p i ⋅ 100 (%).

Za određene ciljeve analize potrebno je numeričke serije podataka kumulirati tako da se


dobije numerička kumulativna serija, odnosno kumulativna frekvencija. Kumulativna
frekvencija određene vrednosti obeležja dobija se sabiranjem apsolutnih frekvencija svih
prethodnih obeležja i apsolutne frekvencije tog obeležja
i
= =
Fi ∑ f j ( i 1,..., k ).
j=1

U zavisnosti od toga da li sabiranje apsolutnih frekvencija počinjemo od prve ili od


poslednje vrednosti obeležja razlikuju se kumulacija ispod i kumulacija iznad.
Pomoću kumulativnih frekvencija lakše se uočava koliki je ukupan broj jedinica posma-
tranja ispod ili iznad određene vrednosti obeležja.
Mogu se utvrditi i kumulativne relativne frekvencije na osnovu izraza:

i
= =
Fir ∑ p j ( i 1,..., k ).
j=1

Primer za prekidno obeležje:


Broj nazimica po domaćinstvu bio je sledeći:
1 5 3 7 9 2 4 3 5 8
3 7 5 9 10 4 6 5 3 10
1 6 8 9 3 5 2 2 7 6

a) formirati neintervalnu distribuciju frekvencija


b) formirati intervalnu distribuciju frekvencija ako je i = 2
c) izračunati relativne frekvencije (strukturu)
d) formirati kumulativnu distribuciju frekvencija i kumulaciju strukture.

12
Rešenje:
Sistematizovana serija broja nazimica po domaćinstvu je:
1 1 2 2 2 3 3 3 3 3
4 4 5 5 5 5 5 6 6 6
7 7 7 8 8 9 9 9 10 10

a) Neintervalna distribucija frekvencija


Broj Broj
nazimica domaćinstava
Xi fi
1 2
2 3
3 5
4 2
5 5
6 3
7 3
8 2
9 3
10 2
Σ 30

Intervalna distribucija frekvencije ako je i = 2 (b), relativne frekvencije (struktura) (c),


kumulativna distribucija frekvencija i kumulacija strukture (d), prikazane su u tabeli:
Broj Broj Relativna Kumulacija Kumulacija
nazimica domaćininstava frekvencija strukture
(struktura)
Xi fi pi Ispod Iznad Ispod Iznad
si
1 – 2 5 5/30=0,17 5 30 17% 100%
17%
3 – 4 7 7/30=0,23 12 25 40% 83%
23%
5 – 6 8 8/30=0,26 20 18 66% 60%
26%
7 – 8 5 5/30=0,17 25 10 83% 34%
17%
9 – 10 5 5/30=0,17 30 5 100% 17%
17%
Σ 30 Σ 1,00
100%

13
Primer za neprekidno obeležje:
Data je mlečnost kod 20 ispitivanih krava ( lit.):
10,1 12,5 18,0 18,1 19,5 17,1 15,0 13,5 14,3 12,0
13,1 15,9 14,8 16,1 16,0 19,0 15,7 17,7 16,9 13,5

a) formirati intervalnu distribuciju frekvencija ako je i = 2


b) izračunati relativne frekvencije (strukturu)
c) formirati kumulativnu distribuciju frekvencija i kumulaciju strukture.

Rešenje:
Sistematizovana serija

10,1 12,0 12,5 13,1 13,5 13,5 14,3 14,8 15,0 15,7
15,9 16,0 16,1 16,9 17,1 17,7 18,0 18,1 19,0 19,5

Intervalna distribucija frekvencije ako je i = 2 (a), relativne frekvencije (struktura) (b),


kumulativna distribucija frekvencija i kumulacija strukture (c), prikazane su u tabeli:
Mlečnost Broj Relativna Kumulacija Kumulacija
krava frekvencija strukture
(struktura)
Xi fi pi si Ispod Iznad Ispod Iznad
10,01-12,00 2 2/20=0,10 10% 2 20 0,10 1,00
12,01-14,00 4 4/20=0,20 20% 6 18 0,30 0,90
14,01-16,00 6 6/20=0,30 30% 12 14 0,60 0,70
16,01-18,00 5 5/20=0,25 25% 17 8 0,85 0,40
18,01-20,00 3 3/20=0,15 15% 20 3 1,00 0,15
Σ 20 Σ 1,00 100%

2.2. Grafičko prikazivanje statističkih podataka


Statistički podaci se prikazuju pomoću tabela i grafikona. Grafički način prikazivanja
podataka omogućava bolje uočavanje bitnih karakteristika neke serije podataka. Grafikoni
mogu biti različitog oblika zavisno od prirode podataka i cilja analize.
Koji grafikon treba koristiti?
• Zavisi od tipa podataka
• Zavisi od toga šta želi da se prikaže
• Zavisi od raspoloživog statističkog softvera

14
Za negrupisane podatke kao grafički prikaz koristimo dijagram stablo-list (stem and
leaf). Kod ovog grafičkog prikaza svaki podatak delimo na stablo i na list. Ako su u seriji
decimalni brojevi, stablo čine celobrojne vrednosti, a list vrednosti decimal. Ukoliko su
vrednosti serije podataka dvocifreni brojevi, stablo čine cifre desetica, a listove cifre
jedinica.
Prvo se formira stablo u koloni a zatim se formiranom stablu pridružuju listovi u redo-
vima.

Primer
Na osnovu podataka o dnevnoj mlečnosti kod 20 ispitivanih krava ( lit.) formiran je
dijagram stablo-list. Stablo čini ceo deo podataka, dok list čine decimale.
Dijagram stablo-list

Za negrupisane podatke kao grafički prikaz može se koristiti i tačkasti dijagram (dot
plot). Da bi se vrednosti obeležja uredile u ne opadajući niz na X osu se nanose različite
vrednosti obeležja, a pojavljivanje svake vrednosti obeležja se označava tačkom.

Primer

Tačkasti dijagram broja nazimica po domaćinstvu

Za grafičko prikazivanje numeričkih statističkih serija, odnosno distribucija frekvencija


najčešće se koriste histogram i poligon frekvencija.
Histogram čine pravougaonici čija je osnovica jednaka veličini grupnog intervala, a
visina odgovara frekvenciji grupnog interval.

15
Primer
Histogram distribucije frekvencija mlečnosti kod 20 ispitivanih krava ( lit.)

Poligon je izlomljena linija koja spaja tačke čije su koordinate vrednosti obeležja ili
sredine grupnih intervala i odgovarajuće frekvencije.

Primer
Poligon distribucije frekvencija broja nazimica po domaćinstvu
6

4
Broj domaćinstava

0
0 1 2 3 4 5 6 7 8 9 10 11
Broj nazimica

16
2.3. Pokazatelji centralne tendencije
Pokazatelji centralne tendencije (srednje, prosečne vrednosti) predstavljaju vrednosti koje
kvantifikuju tendenciju podataka u seriji prema njihovom ,,centru’’, odnosno sredini.
Pokazatelj centralne tendencije je reprezentativna vrednost koja po datim merilima zame-
njuje sve vrednosti obeležja u datoj seriji. Karakteriše statistički skup i kao informacija
može da zameni niz svih vrednosti serije.
U pokazatelje centralne tendencije ubrajaju se:
- Aritmetička sredina
- Geometrijska sredina
- Harmonijska sredina
- Medijana
- Modus
Prema načinu utvrđivanja navedeni pokazatelji centralne tendencije dele se u dve grupe:
1. izračunate srednje vrednosti - aritmetička , geometrijska i harmonijska sredina
2. položajne, pozicione srednje vrednosti - medijana i modus
Izračunate srednje vrednosti su vrednosti koje se izračunavaju na osnovu svih vrednosti
posmatranog obeležja, odnosno svih podataka u posmatranoj seriji.
Položajne, odnosno pozicione srednje vrednosti su vrednosti koje se izračunavaju izbo-
rom konkretne vrednosti obeležja prema položaju koji zauzima u posmatranoj seriji poda-
taka.
Pokazatelji centralne tendencije, odnosno srednje vrednosti su apsolutni pokazatelji, nji-
hova vrednost se iskazuje u jedinicama mere u kojima je iskazano i posmatrano obeležje.

2.3.1. Aritmetička sredina


Aritmetička sredina je najčešće upotrebljivani pokazatelj srednje vrednosti. Razlikuje se
izračunavanje proste i ponderisane aritmetičke sredine. Prosta aritmetička sredina se
utvrđuje na osnovu negrupisanih numeričkih podataka, a ponderisana kada su podaci
grupisani u distribuciju frekvencija. Aritmetikča sredina se može izračunavati za podatke
osnovnog skupa ili za podatke uzorka.
Prosta aritmetička sredina izračunava se kada se sve vrednosti jedinica jednog posma-
tranog skupa saberu i taj zbir podeli brojem tih jedinica. Aritmetička sredina za podatke
osnovnog skupa označava se sa µ i izračunava se na osnovu sledećeg izraza:
N
X + X 2 + ... + X N ili ∑ Xi
µ= 1
N µ = i =1 .
N
Aritmetička sredina izračunata za podatke uzorka obeležava se sa X a izračunava se na
osnovu izraza:
n
X1 + X 2 + ... + X n ili ∑ Xi
X=
n X = i =1 .
n
Ukoliko su podaci za analizu dati kao grupisani, odnosno ako imamo distribuciju
frekvencija tada izračunavamo ponderisanu aritmetičku sredinu. Ponderisana aritmetička

17
sredina dobija se na osnovu zbira vrednosti obeležja jedinica posmatranja koje su
ponderisane odgovarajućim frekvencijama.
Ponderisana aritmetička sredina osnovnog skupa izračunava se na osnovu izraza:
k
∑ fi Xi
f1X1 + f 2 X 2 + ... + f k X k µ = i =1k
µ= ili .
f1 + f 2 + ... + f k ∑ fi
i =1
Za podatke uzorka ponderisana aritmetička sredina izračunava se na osnovu izraza:
k
f1X1 + f 2 X 2 + ... + f k X k ∑ fi Xi
X= ili X = i =1k .
f1 + f 2 + ... + f k
∑ if
i =1

Osobine aritmetičke sredine


1. U njenom izračunavanju učestvuju sve vrednosti obeležja u seriji.
2. Aritmetička sredina se nalazi između ekstremnih vrednosti obeležja, odnosno veća
je od najmanje vrednosti obeležja, a manja je od najveće vrednosti obeležja u nekoj
seriji
X min ≤ X ≤ X max .

3. Ako su sve vrednosti obeležja međusobno jednake aritmetička sredina je jednaka


toj vrednosti.
4. Ako se svakoj vrednosti obeležja doda ili oduzme konstanta, aritmetička sredina se
povećava ili smanjuje za tu konstantu.
X"i = Xi + C (i = 1,...,n) ⇒ Χ" = Χ + c
X"i = Xi − C (i = 1,...,n) ⇒ Χ" = Χ − c
5. Ako se svaka vrednost obeležja pomnoži ili podeli konstantom, aritmetička sredina
je jednaka proizvodu, odnosno količniku aritmetičke sredine i te konstante.
X"i = Xi ⋅ C ⇒ Χ" = Χ ⋅ c (i = 1,...,n)
Xi X
X"i
= Χ"
⇒= =
(i 1,...,n)
C C
6. Suma odstupanja svih vrednosti obeležja od njihove aritmetičke sredine jednaka je
nuli. n
∑ ( Χi − Χ ) =0 (za negrupisane podatke)
i =1
k
∑ fi ( Χi − Χ ) =0 (za grupisane podatke)
i =1

7. Suma kvadrata odstupanja vrednosti obeležja od njihove aritmetičke sredine je ma-


nja je od sume kvadrata odstupanja obeležja od bilo koje druge vrednosti a ( a ≠ X ).
n n
∑ ( Χi − Χ ) < ∑ ( Χi − a )
2 2
=i 1 =i 1
k k
2
∑ fi Χi − Χ < ∑ fi ( ) ( Χi − a )2
=i 1 =i 1
18
2.3.2. Medijana
Medijana je ona vrednost obeležja koja sređenu seriju podataka deli na dva jednaka dela.
Utvrđivanju medijane za negrupisane podatke treba da prethodi sistematizacija, odnosno
rangiranje podataka po njihovoj veličini. Kod serije negrupisanih podataka razlikuje se
utvrđivanje medijane za serije sa neparnim brojem podataka i za serije sa parnim brojem
podataka.
Ako je broj negrupisanih podataka u seriji neparan medijana je jednaka središnjoj
vrednosti serije i utvrđuje se na osnovu sledećeg izraza:
M e = Χ N +1
2
Ako je broj negrupisanih podataka u seriji paran medijana je jednaka aritmetičkoj sredini
dva središnja člana.
ΧN + ΧN
+1
Me = 2 2
2
Kod grupisanih podataka (distribucija frekvencija) medijana je ona vrednost obeležja koja
zajedno sa prethodnim vrednostima sadrži bar polovinu elemenata posmatrane serije.
Utvrđivanju medijane kod distribucija frekvencija prethodi kumuliranje frekvencija.
Ako su podaci grupisani kao intervalna distribucija frekvencija sa jednakim grupnim
intervalima, medijanu izračunavamo primenom korigovane formule:
N 
 2 − Fmed −1 
Μe = L +  ⋅i
 f med 
 
gde je:
L – donja granica medijalnog intervala
N/2 – polovina elemenata posmatrane serije
Fmed −1 -– kumulativna vrednost intervala koji prethodi medijalnom intervalu
fmed – apsolutna frekvencija medijalnog intervala
i – veličina grupnog intervala

2.3.3. Modus
Modus je najučestalija vrednost obeležja u nekoj seriji podataka. Modalna vrednost se
može utvrditi ako u seriji podataka postoje barem dve jednake vrednosti obeležja.
Ako u seriji podataka postoji samo jedna vrednost obeležja čija je frekvencija veća od
ostalih vrednosti, kažemo da je ta serija unimodalna. Neka serija podataka može biti
bimodalna (ima dva modusa) ili može imati tri modalne vrednosti.
Kod unimodalne intervalne serije distribucije frekvencija približna vrednost modusa je:

 d1 
Mo =
L+ ⋅i
 d1 + d 2 

19
gde je:
L – donja granica modalnog intervala
d1 – razlika frekvencija modalnog i njemu prethodnog intervala
d2 – razlika frekvencija modalnog i njemu narednog intervala
i – veličina grupnog interval.

2.3.4. Odnos između aritmetičke sredine, medijane i modusa


U slučaju da je distribucija frekvencija simetrična aritmetička sredina, modus i medijana
se poklapaju
X = Mo = Me.
Iz poklapanja ova tri pokazatelja ne mora da sledi simetričnost distribucije. Potrebno je da
se na osnovu grafičkog prikaza distribucije ili pokazatelja asimetrije izvrši dodatno
ispitivanje.
U slučaju unimodalnih distribucija tj. distribucija koje imaju jedan modus, ako je modus
po vrednosti veći od medijane i aritmetičke sredine serija je negativno asimetrična ili
asimetrična ulevo.
Ako je aritmetička sredina vrednost veća od vrednosti medijane i modusa serija je
pozitivno asimetrična ili asimetrična udesno.

X > Me > Mo M0 > Me > X

Primer za neparan broj negrupisanih podatka:


Merenjem sadržaja gvožđa u mleku 7 krmača (mg/l) dobijene su vrednosti:
X: 2,5 1,5 2,2 1,7 2,0 1,9 1,5.
Izračunati aritmetičku sredinu, modus i medijanu.

7
Rešenje: ∑ Xi
2,5 + 1,5 + 2, 2 + 1, 7 + 2, 0 + 1,9 + 1,5 13,3
X =1=
= i = = 1,9 mg / l
7 7 7

1,5 1,5 1,7 1,9 2,0 2,2 2,5


n=7 M=
e X 7=
+1 X=
4 1,9 mg / l M o = 1,5 mg / l.
2
20
Primer za paran broj negrupisanih podatka:
Dati su podaci o telesnoj masi (kg) 10 teladi: X : 260 260 230 280 290 280 260 270
260 300
Izračunati aritmetičku sredinu, modus i medijanu

Rešenje:
10 2690
∑ Xi = 2690 n = 10 =X = 269 kg
i =1 10
X: 230 260 260 260 260 270 280 280 290 300
Χ10 + Χ10
+1 X5 + X 6 260 + 270
n = 10 =Me 2 = 2 = = 265 kg
2 2 2
M o = 260 kg

Primer za neintervalnu distribuciju frekvencija:


Na osnovu podataka o masi prasadi pri odbijanju (kg) izračunati aritmetičku sredinu,
modus i medijanu:
Masa Broj Kumulativ ∑ fX 524
=
X = = 13,1 kg
prasadi prasadi ispod ∑f 40
pri f fX
odbijanju
X Χ 40 + Χ 40
+1 X 20 + X 21 13 + 13
10 5 50 5 =
Me 2 =
2 = = 13 kg
12 10 120 15 2 2 2
13 15 195 30
15 7 105 37 f max =15 ⇒ M o =13 kg
18 3 54 40
Zbir 40 524

Primer za intervalnu distribuciju frekvencija:


Na osnovu podataka o dnevnoj mlečnosti (l) 20 ispitivanih krava izračunati aritmetičku
sredinu, modus i medijanu:

Grupni Kumulativ
intervali X f fX
F
10,01-12 11 2 22 2
12,01-14 13 4 52 6
14,01-16 15 6 90 12
16,01-18 17 5 85 17
18,01-20 19 3 57 20
Zbir 20 306

21
∑ fi Xi 306
=
X = = 15,3 lit.
∑ fi 20

N 
 2 − Fmed −1   10 − 6 
Μe = L +   ⋅ i = 14 +   ⋅ 2 = 15,33 lit.
 f med   6 
 

 d1   ( 6 − 4) 
Μo = L +   ⋅ i = 14 +   ⋅ 2 = 15,33 lit.
 d1 + d 2   ( 6 − 4 ) + ( 6 − 5) 

2.4. Pokazatelji varijacije


Da bi se potpunije sagledale karakteristike posmatrane serije podataka pored pokazatelja
centralne tendencije utvrđuju se i pokazatelji varijacije (varijabiliteta ili disperzije). Dve
serije podataka često mogu imati iste vrednosti nekog od pokazatelja centralne tendencije,
a da istovremeno njihove individualne vrednosti obeležja budu dosta različite, odnosno
varijacija između vrednosti obeležja jedne serije može biti veća ili manja od varijacije
vrednosti obeležja u drugoj seriji. Ako se u obzir ne bi uzela razlika u varijabilitetu moglo
bi se pogrešno zaključiti da je posmatrana karakteristika u obe serije ista. Zbog toga je
značajno da se utvrdi i varijabilitet posmatrane serije.
U pokazatelje varijacije spadaju:
- Interval (razmak) varijacije - I
- Srednje apsolutno odstupanje - SO
- Standardna devijacija - σ
- Varijansa - σ2
- Koeficijent varijacije - V
- Standardizovano odstupanje - Z
Neki od navedenih pokazatelja varijacije su apsolutni pokazatelji, dok neki predstavljaju
relativne pokazatelje varijabiliteta. Pokazatelji varijacije čija vrednost se iskazuje u jedi-
nicama mere posmatranog obeležja, odnosno apsolutni pokazatelji su interval (razmak)
varijacije, srednje apsolutno odstupanje, standardna devijacija i varijansa. Relativni poka-
zatelji varijabiliteta, čija vrednost se ne iskazuje u jedinicama mere posmatranog obeležja
su koeficijent varijacije i standardizovano odstupanje.

2.4.1. Interval (razmak) varijacije - I


Kao najjednostavniji pokazatelj varijacije koristi se interval varijacije. Predstavlja razliku
ekstremnih vrednosti obeležja u nekoj seriji. Kod negrupisanih podataka i kod neinter-
valne serije distribucije frekvencija interval varijacije je razlika maksimalne i minimalne
vrednosti obeležja u seriji.
I = Χ max − Χ min .
Kod intervalne distribucije frekvencija interval varijacije predstavlja razliku gornje
granice poslednjeg i donje granice prvog grupnog intervala.

22
Nedostatak intervala varijacije je u tome što isključivo zavisi od ekstremnih vrednosti u
seriji i ne daje uvid u raspored ostalih vrednosti obeležja unutar serije.

2.4.2. Srednje apsolutno odstupanje - SO


Pokazatelj varijacije koji se nešto češće upotrebljava od intervala varijacije je srednje
apsolutno odstupanje. Srednje apsolutno odstupanje se utvrđuje kao količnik zbira apso-
lutnih vrednosti odstupanja individualnih vrednosti obeležja od njihovog proseka i nji-
hovog broja. Srednje apsolutno odstupanje numeričkog obeležja izmerenog na jedinicama
osnovnog skupa izračunava se prema:
N
∑ Xi − µ
SO = i =1
gde je:
N
Xi – individualna vrednost obeležja
µ – aritmetička sredina posmatranog obeležja
N – broj jedinica osnovnog skupa.
Za serije negrupisanih vrednosti obeležja u slučaju uzorka srednje apsolutno odstupanje
se izračunava na sledeći način:
n
∑ Xi − X
SO = i =1
n
Kada su podaci dati kao distribucija frekvencija srednje apsolutno odstupanje se u slučaju
osnovnog skupa izračunava prema formuli:
k k
∑ i i
f X − µ ∑ fi Xi − µ
= = SO i = 1 =i 1 .
k N
∑ fi
i =1
U slučaju uzorka primenjuje se formula:
k k
∑ fi Xi − X ∑ fi Xi − X
=
= 1 =i 1
SO i= .
k n
∑ fi
i =1

2.4.3. Standardna devijacija - σ i varijansa - σ2


Kao pokazatelj varijabiliteta naviše se upotrebljava standardna devijacija. Standardna
devijacija je kvadratni koren iz sredine kvadrata odstupanja vrednosti obeležja od
aritmetičke sredine. Vrednost standardne devijacije pokazuje koliko su blizu grupisane
vrednosti obeležja oko aritmetičke sredine.

23
Za negrupisane podatke osnovnog skupa standardna devijacija se izračunava na sledeći
način:
N
∑ ( Χi − µ )
2

σ = i =1 .
Ν
Standardna devijacija može da se izračuna i direktno iz podataka osnovnog skupa na
osnovu izraza:
2
N 
N  ∑ Xi 
∑ Xi −  
2 i =1
Ν
σ = i =1 .
Ν

Ako se analiziraju podaci iz uzorka tada se izračunava ocenjena standardna devijacija. U


slučaju kada su podaci u uzorku dati kao negrupisane vrednosti standardna devijacija se
može oceniti na osnovu sledećih izraza:
2
 n 
n  ∑ Χi 
∑ ( Χi − Χ )
2 n
∑ Χi −  
2 i =1
S = i =1 n
n −1 S = i =1
n −1

Za grupisane podatke osnovnog skupa (kod distribucije frekvencija) standardna devijacija


se može izračunati na sledeći način:

Σf i ( Χ i − µ )
2
- na bazi odstupanja vrednosti obeležja od proseka σ=
Σf i

Σfi Χi2 −
( Σf i Χ i ) 2
- izračunavanje direktno iz podataka σ= Ν
Ν

Na osnovu podataka iz uzorka koji su dati kao distribucija frekvencija, standardna devi-
jacija se ocenjuje na sledeći način:

Σf i ( Χ i − Χ )
2
Σfi Χi2 −
( Σf i Χ i )
2

S= S= n
n −1 n −1
Kvadrat standardne devijacije predstavlja varijansu (disperziju).. Varijansa takođe može
da se izračuna za podatke osnovnog skupa ili da se oceni iz podataka uzorka na isti način
kao i standardna devijacija.
Za izračunavanje varijanse kod negrupisanih podataka osnovnog skupa koriste se sledeći
izrazi: 2
N 
N N  ∑ Χi 
2  i =1 
∑ ( Xi − µ )
2
∑ Χi −
Ν
σ2 =i =1 σ2 =i =1 ⇒ σ = σ2
Ν Ν

24
Ocenjena varijansa na osnovu negrupisanih podataka iz uzorka utvrđuje se na sledeći
način: 2
 n 
n  ∑ Χi 
∑ ( Χi − Χ )
2 n
2  i =1 
2 i =1 ∑ Χi −
S = S2 = i =1
n
⇒ S = S2
n −1 n −1

Kod distribucije frekvencija varijansa se izračunava na osnovu izraza:


( Σf i Χ i ) 2
∑ f ( Χ − µ) Σfi Χi2 −
2
σ2 = i i 2
σ = Ν
Σf i Ν

Ako se ocenjuje varijansa na osnovu grupisanih podataka iz uzorka koriste se sledeći


izrazi: 2
( Σf i Χ i )
Σf i ( Χ i − Χ ) Σfi Χi2 −
2
S2 = S2 = n .
Σf i n −1

Osobine varijanse
- Varijansa je pokazatelj varijacije izražen kvadratima jedinice mere posmatranog
obeležja. U slučaju da kvadrat jedinice nema interpretaciju uz izračunatu vrednost
varijanse se ne stavlja jedinica mere.
- Ako su sve vrednosti obeležja u nekoj seriji međusobno jednake varijansa i
standardna devijacija su jednake nuli.
- Ako svim vrednostima obeležja u nekoj seriji dodamo ili oduzmemo konstantu
varijansa novih vrednosti obeležja se ne menja.
Χi' =Χi ± C ⇒ σ2 ' =
σ2X (i =
1,..., N)
Xi i

- Ako sve vrednosti obeležja u nekoj seriji pomnožimo konstantom, varijansa novih
vrednosti obeležja biće jednaka proizvodu kvadrata konstante i prethodno
izračunate varijanse.
Χi' = C ⋅ Χi ⇒ σ2=
' C2 ⋅ σ2X =
(i 1,..., N)
Xi i

Napomena: Navedene osobine varijanse važe i za ocenu varijanse S2 .

2.4.4. Koeficijent varijacije - V


Prethodno definisani pokazatelji varijacije zavise od jedinica mere u kojima su dati
posmatrani podaci, odnosno to su apsolutni pokazatelji. Prilikom upoređenja varijabiliteta
više serija izraženih u različitim jedinicama mere, ukoliko bi se ovi pokazatelji posmatrali
može doći do pogrešnog zaključka. Da bi se to izbeglo izračunava se relativni pokazatelj,
od kojih se najčešće primenjuje koeficijent varijacije.
Koeficijent varijacije u slučaju osnovnog skupa izračunavamo na osnovu sledećeg izraza:
σ
V= ⋅ 100 ( % ) .
µ

25
Ako su poznati podaci na osnovu uzorka koeficijent varijacije je:
S
V= ⋅ 100 ( % ) .
X
Koeficijent varijacije koristimo za upoređivanje varijabiliteta dve ili više serija čije
vrednosti obeležja su iskazane u različitim jedinicama mere, ali i za upoređivanje
varijabiliteta serija koje imaju iste jedinice mere ali značajno različite aritmetičke sredine.

2.4.5. Standardizovano odstupanje - Z


Standardizovano odstupanje je mera udaljenosti pojedinih vrednosti obeležja od
aritmetičke sredine iskazana u odnosu na standardnu devijaciju. Standardizovano
odstupanje je takođe relativni pokazatelj disperzije obeležja. Njegova vrednost se u
slučaju osnovnog skupa izračunava na sledeći način:
Χi − µ
=Zi = ( i 1,..., N ) .
σ

U slučaju da su dati podaci uzorka standardizovano odstupanje je:


Χi − X
=Zi = ( i 1,..., n ) .
S

Za razliku od ostalih pokazatelja varijacije, standardizovano odstupanje pokazuje varija-


bilitet pojedinačnih vrednosti obeležja.
Vrednost standardizovanog odstupanja može biti pozitivna ili negativna vrednost u
zavisnosti da li je vrednost obeležja veća ili manja od aritmetičke sredine. Udaljenost
vrednosti obeležja od aritmetičke sredine je iskazana brojem standardnih devijacija obe-
ležja. Tako npr. Zi = 1,5 pokazuje da je vrednost i-te vrednosti obeležja veća od aritme-
tičke sredine za 1,5 standardnu devijaciju, dok vrednost Zi = −2 pokazuje da je vrednost
manja od aritmetičke sredine za 2 standardne devijacije.
Aritmetička sredina standardizovanog obeležja je uvek 0, varijansa i standardna devijacija
su uvek 1.

Primer za negrupisane podatke:


Telesna masa jagnjadi (kg) pri jagnjenju je bila: 3,9 4,2 4,3 4,5 4,6. Izračunati poka-
zatelje varijabiliteta obeležja. Izračunati aritmetičku sredinu i varijansu standardizovanog
obeležja.

X−X
X X−X X−X (X − X ) 2 X2 Z=
S

3,9 -0,4 0,4 0,16 15,21 -1,4604


4,2 -0,1 0,1 0,01 17,64 -0,3651
4,3 0,0 0,0 0,00 18,49 0,0000
4,5 0,2 0,2 0,04 20,25 0,7302
4,6 0,3 0,3 0,09 21,16 1,0953
21,5 0,0 1,0 0,30 92,75 0,0000

26
Rešenje:
Uz pretpostavku da se podaci odnose na uzorak:
1. Interval varijacije =I X max − X min = 4,6 – 3,9=0,7 kg
2. Srednje apsolutno odstupanje
5 5
∑ Xi ∑ Xi − X
21,5 1,0
X i =1= = 4,3 kg
= S=
o
i =1 = = 0, 2 kg
5 5 5 5
3. Varijansa

∑ (X − X)
5 2
X2 −
(∑ X) 2

0,3 ∑ 92,75 − 92, 45


S2 i =1
= = = 0,075
= kg S2 = 5 = 0,075 kg
4 4 4 4

4. Srandardna devijacija =S S2
= = 0, 2739 kg
0,075kg

S 0, 2739
5. Koeficijent varijacije V= ⋅ 100(%) V= ⋅ 100(%) = 6,37%
X 4,3

X−X
6. Standardizovano odstupanje - Z Z=
S

∑ Zi
5
2 ( ∑ Z )2
∑Z −
= =1
Z i= 0 S2Z= 5 = 4= 1.
5 4 4

2.5. Pokazatelji oblika distribucije


Oblik distribucije podrazumeva sagledavanje dve karakteristike a to su asimetričnost i
spljoštenost. Najčešće korišćeni pokazatelji ovih karakteristika distribucije su:
- Koeficijent asimetričnosti – I Pirsonov koeficijent β1

- Koeficijent spljoštenosti – II Pirsonov koeficijent β2


Za izračunavanje ovih koeficijenata potrebno je prvo da se izračunaju centralni momenti.
Pod centralnim momentom k-tog reda – podrazumeva se sredina sume odstupanja vre-
dnosti obeležja od aritmetičke sredine stepenovana na k-ti stepen.
Za negrupisane podatke u slučaju osnovnog skupa centralni momenti se izračunavaju na
osnovu izraza:
Σ ( Χi − µ )
k
=µk = k 0,1, 2,3, 4,......
Ν

Za distribucije frekvencija primenjuje se izraz:


Σf i ( Χ i − µ )
k
=µk = k 0,1, 2,3, 4,......
Σf i

27
Za izračunavanje koeficijenata asimetričnosti i spljoštenosti koriste se centralni momenti
2-og, 3-eg i 4-og reda. Ako su podaci u datoj seriji negrupisani potrebni centralni moment
izračunavaju se na sledeći način:
Σ ( Χ − µ) Σ ( Χ − µ)
3 4
Σ ( Χ − µ)
2
µ2 = i µ 2 =σ 2 µ3 = i µ4 = i
Ν Ν Ν

Ako su podaci u seriji dati kao distribucija frekvencija za izračunavanje 2-og, 3-eg i 4-og
centralnog momenta koriste se izrazi:
Σf ( Χ − µ ) Σf ( Χ − µ )
3 4
Σf ( Χ − µ )
2
µ2 = i i µ3 = i i µ4 = i i
Σf i Σf i Σf i
µ2
Kao pokazatelj asimetričnosti distribucije izračunava se I Pirsonov koeficijent: β1 = 3 .
µ32
µ
Kao pokazatelj spljoštenosti izračunava se II Pirsonov koeficijent: β2 = 42 .
µ2
µ3
Koeficijent asimetričnosti je kvadratni koren I Pirsonovog koeficijenta α3 = β1 = 3 ,
σ
dok se koeficijent spljoštenosti, odnosno II Pirsonov koeficijent može iskazati kao
µ
α 4 =β2 = 4 .
µ22

Kod simetričnih raspodela je µ3 =0 odakle sledi β1 =0 i α3 =0.


Ukoliko je vrednost β1 veća od nule raspodela je asimetrična. Predznak 3-eg centralnog
momenta u ovom slučaju pokazuje da li je reč o pozitivnoj ili o negativnoj asimetričnosti.
Za razliku od I Pirsonovog koeficijenta koji ukazuje samo na prisustvo asimetričnosti, na
osnovu vrednosti koeficijenta asimetričnosti se može utvrditi da li je asimetrija pozitivna
ili negativna.
Pored toga, na osnovu vrednosti koeficijenta asimetričnosti, može da se utvrdi jačina
asimetrije.
Tako ako je α3 < 0.1 nema asimetrije, 0.1 ≤ α3 < 0.25 asimetrija je mala, 0.25 ≤ α3 < 0.5
asimetrija je srednje veličine i α3 ≥ 0.5 asimetrija je jaka.
Ako je vrednost koeficijenta spljoštenosti β2 =3 , kažemo da raspodela ima istu spljoštenost
kao teorijska normalna raspodela. Kada je β2 > 3 , za raspodelu kažemo da je izdužena u
odnosu na normalnu raspodelu, a kada je β2 < 3, raspodela je spljoštena u odnosu na
normalnu raspodelu.

28
Kontrolna pitanja
1. Definisati distribuciju frekvencija.
2. Definisati relativnu frekvenciju.
3. Navesti šta je kumulativna frekvencija i vrste kumulativa.
4. Objasniti grafički prikaz stablo-list.
5. Šta je histogram i kada se koristi.
6. Šta je poligon i kada sekoristi.
7. Definisati aritmetičku sredinu i navesti njene osobine.
8. Definisati pozicione srednje vrednosti.
9. Navesti pokazatelje varijabiliteta i njihovu podelu.
10. Navesti pokazatelje oblika i tumačenje njihovih izračunatih vrednosti.

29
3. TEORIJSKE DISTRIBUCIJE

3.1. Osnovni pojmovi verovatnoće


Statistička teorija je zasnovana na teoriji verovatnoće. Teorija verovatnoće je grana mate-
matike koja se bavi analizom slučajnih pojava. Rezultati posmatranja ili eksperimenta
nazivaju se elementarni događaji. Skup koji sadrži sve elementarne događaje naziva se
prostor elementarnih događaja.
Slučajni događaj je podskup skupa (prostora) elementarnih događaja. Slučajni događaji se
obeležavaju velikim slovima latinice: A, B, C, D... ili A1, A2, A3,...
Slučajni događaj A sadrži one elementarne događaje kojima se definiše događaj A.
Svakom događaju A odgovara suprotan događaj Ā (non A) koji se ostvaruje onda kada se
ne ostvari događaj A.
Verovatnoća slučajnog događaja je izraz mogućnosti javljanja tog događaja. Verovatnoća
se iskazuje brojem koji varira od 0 – za nemoguć događaj do 1- za siguran događaj.
Utvrđivanje verovatnoće zavisi od polazne teorije verovatnoće.
Klasična definicija verovatnoće - verovatnoća događaja A je odnos broja elementarnih
događaja koji sačinjavaju događaj A i broja svih mogućih elementarnih događaja.
m(A)
P(A) =
n
Klasična definicija je zasnovana na pretpostavci da su svi elementarni događaji
podjednako mogući tj. polazi od pretpostavke simetričnosti (homogen novčić, homogena
kocka). Po ovoj definiciji pojam verovatnoće je apstraktno zasnovan i ne zavisi od
iskustva. Zato se ovako uvedena verovatnoća naziva verovatnoća a priori.

Primer klasične definicije


Eksperiment se sastoji u bacanju homogene kocke. Odredite prostor elementarnih
događaja i slučajan događaj A : dobijen je paran broj. Izračunati verovatnoću događaja A.
Prostor elementarnih događaja je:

m(A) 3
P(A)= = = 0,5.
n 6
Statistička definicija verovatnoće - verovatnoća događaja A je granična vrednost
relativne frekvencije događaja A u n eksperimenata kada n neograničeno raste.
f
P(A) = lim
n →∞ n
Da bi se odredila verovatnoća događaja potrebno je ponavljati eksperiment veliki broj
puta pod istim uslovima. Ovako definisana verovatnoća je zasnovana na iskustvu i naziva
se verovatnoća aposteriori ili statistička verovatnoća.

30
U slučaju da nije moguće da se izračuna verovatnoća, ona se ocenjuje relativnom
frekvencijom:
f
P(A) =
n
Relativne frekvencije nisu verovatnoće već su aproksimacije verovatnoće. Ako se ekspe-
riment ponavlja veliki broj puta ove aproksimacije verovatnoće nekog ishoda teže vero-
vatnoćama ishoda na osnovu zakona velikih brojeva.

Primer statističke definicije


Ukoliko se broj bacanja homogenog novčića uvećava, relativna frekvencija likova teži
vrednosti 0,5. Statističar Karl Pearson je bacao novčić 24000 puta i dobio 12012 likova,
tj. relativnu frekvenciju 0,5005.
Relativna frekvencija likova ukoliko je broj ponavljanja 10-10000

Subjektivna verovatnoća je verovatnoća dodeljena nekom događaju na osnovu subjekti-


vne procene, informacije, iskustva i verovanja.
Bez obzira koja definicija verovatnoće se primenjuje, zbir verovatnoća svih elementarnih
događaja je 1.
Radi lakše analize u oblasti verovatnoće, poželjno je da sve elementarne događaje izra-
žavamo pomoću realnih brojeva, koji će samim tim sadržavati i informaciju o verovatnoći
pojavljivanja elementarnih događaja koje predstavljaju.
Jednodimenzionalna slučajna promenljiva je funkcija koja svaki elementarni događaj
statističkog eksperimenta preslikava u jedan realan broj, kome se pridružuje verovatnoća
jednaka zbiru verovatnoća pojavljivanja svih elementarnih događaja koji se u njega
slikaju. Slučajna promenljiva može biti diskretna i neprekidna.
Diskretna (prekidna) slučajna promenljiva je slučajna promenljiva koja uzima kona-
čan broj vrednosti ili prebrojivo beskonačan broj vrednosti.
Neprekidna slučajna promenljiva je slučajna promenljiva koja može da uzme bilo koju
vrednost iz jednog ili više intervala. Neprekidna slučajna promenljiva ima neprebrojivo
mnogo vrednosti.
Kvantitativna karakteristika slučajnog događaja naziva se slučajna promenljiva. Svaki
elementarni događaj iz prostora S preslikava se u vrednost sa brojne prave. Prvi korak u
definisanju slučajne promenljive je definisanje prostora elementarnih događaja S, odno-
sno definisanje i ispisivanje svih mogućih elementarnih događaja. Za svaku slučajno

31
promenljivu može se definisati zakon verovatnoće (zakon raspodele) i funkcija raspo-
dele.
Distribucije koje su formirane grupisanjem opažanja ili elemenata skupa prema nekom
obeležju su empirijske (originalne, opažene) distribucije.
Nasuprot empirijskim distribucijama postoje distribucije koje se mogu očekivati u skladu
s iskustvom ili na osnovu nekih pretpostavki to su teorijske distribucije.
Pojmu obeležja kod empiriskih distribucija odgovara pojam slučajna promenljiva kod
teorijskih distribucija.
Određivanju relativnih frekvencija kod empirijskih distribucija frekvencija prethodi
prebrojavanje opseviranih vrednosti obeležja tj. određivanje apsolutnih frekvencija.
Pojmu relativna frekvencija kod teorijskih distribucija odgovara pojam verovatnoća.
Verovatnoće se izračunavaju kao određene funkcije vrednosti slučajne promenljive.
Svaka teorijska distribucija ima svoj zakon verovatnoće po kom su distribuirane vrednosti
slučajne varijable X. Osim funkcije verovatnoće, teorijske distribucije imaju: funkciju
raspodele, matematičko očekivanje, varijansu, koeficijent asimetrije i koeficijent
spljoštenosti. Funkcija raspodele se definiše kao kumulativna verovatnoća slučajne
promenljive F ( x )= P ( Χ ≤ x ) i uvek je 0 ≤ F ( x ) ≤ 1 . Funkcija raspodele odgovara pojmu
kumulacije structure kod empirijskih distribucija.
Teorijske distribucije su osnova inferencijalne statistike.

3.2. Prekidne teorijske distribucije

3.2.1. Binomna distribucija


Binomna distribucija je jedna od najvažnijih prekidnih teorijskih distribucija. U osnovi
binomne distribucije su sukcesivni događaji koji imaju dva ishoda.
Binomna distribucija je definisana preko Bernulijevog eksperimenta.
Bernulijev eksperiment je slučajni eksperiment koji ima sledeće karakteristike:
1. eksperiment ima dva ishoda, '' uspeh'' i '' neuspeh''
2. u svakom ponavljanju eksperimenta verovatnoća ishoda '' uspeh'' je p i ne menja se
od eksperimenta do eksperimenta. Verovatnoća ishoda '' neuspeh'' jednaka je q=1-p.
3. eksperimenti su nezavisni
4. ishod svakog eksperimenta ili procesa je slučajan.
Broj ''uspeha'' u n ponavljanja Bernulijevog eksperimenta je slučajna promenljiva X koja
ima binomnu raspodelu. Kako je broj ''uspeha'' svaki ceo broj u intervalu od 0 do n,
vrednosti slučajne promenljive koja ima binomnu raspodelu su X : 0, 1, 2, 3, ....n. Broj
modaliteta slučajne promenljive je n+1.
Verovatnoća P(X=i) za i=0,..., n data je izrazom:

n
p (i ) =   ⋅ p i q n −i
i

32
gde je:
n – broj modaliteta obeležja umanjen za 1
p – verovatnoća '' uspeha'‘
q – verovatnoća '' neuspeha'‘

Binomna distribucija zavisi od dva parametra n i p i može da se označi sa B(n,p).


Vrednosti osnovnih pokazatelja su:

- Aritmetička sredina Χ BD = np

- Varijansa σ 2BD = npq

- Standardna devijacija σ BD = npq

- Modus np − q ≤ M o = k ≤ np + p

β1 =
(q − p)
2

- Koeficijent asimetričnosti
npq
1 − 6pq
- Koeficijent spljoštenosti β2 = 3 +
npq

Kod binomne raspodele varijansa je uvek manja od aritmetičke sredine. Binomna raspo-
dela može da ima jedan modus ako (n+1)p nije ceo broj, ili dva modusa ukoliko je (n+1)p
ceo broj: M10 = np − q = (n + 1)p − 1, M 02 = np + p = (n + 1)p.
U slučaju da je p=q=0,5 binomna distribucija je simetrična, ako je q>p binomna distri-
bucija je pozitivno, dok je za q<p negativno asimetrična. U zavisnosti od vrednosti
parametra p, može da bude iste spljoštenosti, izdužena ili spljoštena u poređenju sa
normalnom distribucijom. Ako broj ponavljanja n neograničeno raste, binomna distribu-
cija teži standardizovanoj normalnoj raspodeli.
Binomna distribucija ima čestu primenu u statistici u opisivanju mogućeg broja slučajeva
pojavljivanja događaja u nizu ponavljanja eksperimenta. Primenjuje se i u statističkom
zaključivanju o raspodeli proporcije uzorka.
Binomna distribucija se koristi u kontroli kvaliteta robe i kontroli proizvodnog procesa.
Pored toga ima široku primenu u biološkim istraživanjima, posebno u genetici.

Primer
Odrediti raspodelu slučajne promenljive X: broj ženskih teladi u tri uzastopna teljenja.
Pretpostavlja se da se u svakom teljenju dobija jedno tele i da su oba pola podjednako
verovatna. Izračunati očekivanu vrednost, modus, varijansu, prvi i drugi Pirsonov koefi-
cijent.

Rešenje:
X je slučajna promenljiva koja ima binomnu raspodelu B(3,0,5).
 3 0 3
p(0) =
  ⋅ 0,5 0,5 =0,1250
0

33
 3 1 2
p(1) =
  ⋅ 0,5 0,5 =0,3750
 
1
 3 2 1
p(2) =⋅
  0,5 0,5 = 0,3750
 
2
 3 3 0
p(3) =
  ⋅ 0,5 0,5 =0,1250
 3
Χ BD =⋅
3 0,5 =1,5
M10 = np − q = 3 ⋅ 0,5 − 0,5 =1 M 02 = np + p = 3 ⋅ 0,5 + 0,5 = 2 σ2BD =⋅
3 0,5 ⋅ 0,5 =0, 75   
1 − 6 ⋅ 0,5 ⋅ 0,5
β1 = 0 β2 = 3 + = 2,33.
0,75

3.2.2. Poasonova distribucija


Poasonovu distribuciju je definisao francuski matematičar Siméon Denis Poisson 1837.
godine.
Poasonova distribucija je u primeni od prve polovine 19. veka i to kao veoma značajna u
nekim specifičnim istraživanjima. Poasonova raspodela se često naziva zakon malih bro-
jeva i model je za raspodelu događaja koji se retko pojavljuju sa konstantnom vero-
vatnoćom. Poasonova distribucija se primenjuje u kontroli kvaliteta robe ili neispravnih
proizvoda u proizvodnim procesima određene veličine, ispitivanjima saobraćajnih udesa,
kontroli pristizanja prevoznih sredstava u stanice, itd. U biološkim istraživanjima
primenjuje se u modeliranju broja mutacija gena, broju retkih životinja na određenoj
teritoriji, broju mikroorganizama na mikroskopskom polju, broju retkih oboljenja.
Sva ova ispitivanja imaju zajedničku karakteristiku da se registruju kao prekidne vari-
jable.
Poasonova distribucija je teorijska distribucija koja se odnosi na prekidna obeležja.
Vrednost obeležja X su celi nenegativni brojevi 0, 1, 2, 3, ....n,....
Verovatnoće Poasonove distribucije zavise od jednog parametra i to je parametar m.
Parametar m u distribuciji prosečan broj nastupanja nekog događaja u određenom vre-
menskom intervalu, jedinici površine ili zapremine.
Verovatnoće Poasonove distribucije date su izrazom:
−m mi
p=
(i ) e ⋅
i!
gde je:
e – je Ojlerov broj (Napierova konstanta) osnova prirodnog logaritma e ≈ 2,71828
m – je pozitivan broj, parametar Poasonove distribucije
Vrednosti osnovnih pokazatelja Poasonove distribucije su:

- Aritmetička sredina Χ PD =
m

- Varijansa σ2PD =
m

34
- Standardna devijacija σPD =m

- Modus m − 1 ≤ Mo = k ≤ m
1
- Koeficijent asimetričnosti β1 =
m
1
- Koeficijent spljoštenosti β2 = 3 +
m
Kod Poasonove raspodele aritmetička sredina i varijansa su jednake. U slučaju da
parametar m nije ceo broj Poasonova raspodela ima jedan modus, dok u slučaju da je m
ceo broj ima dva modusa M1o = m − 1 i M o2 =
m. Poasonova raspodela je pozitivno asime-
trična i izdužena u poređenju sa normalnom raspodelom.
Poasonova distribucija je granični oblik binomne distribucije. Kada se broj eksperimenata
u Bernulijevom procesu povećava, javlja se problem izračunavanja verovatnoće da
varijabla X uzme određenu vrednost prema formuli za binomnu distribuciju. Za binomnu
distribuciju verovatnoće se mogu aproksimirati Poasonovom formulom ako je vero-
vatnoća nastupanja nekog događaja p mala, ako je n veliko i ako m = n ⋅ p < 10.

Primer
Poznato je da je 2% miševa obolelo od kancera. Izračunati verovatnoću da u uzorku od
100 miševa više od jednog miša ima kancer.

Rešenje:
Broj obolelih miševa ima binomnu raspodelu B(100, 0,02). Kako je verovatnoća obo-
ljenja mala (p=0,020), n veliko (n=100) i m =
100 ⋅ 0,02 =
2 < 10 binomna raspodela se mo-
že aproksimirati Poasonovom raspodelom P(2).
P(X > 1) = 1 − p0 − p1 = 1 − e−2 − 2 ⋅ e−2 = 1 − 0,1353 − 0, 2707 = 0,5940.

3.3. Neprekidne teorijske distribucije

3.3.1. Normalna distribucija


Najvažniji model teorijske distribucije verovatnoće je normalna ili Gausova distribucija.
Značaj ovog oblika distribucije u statističkoj teoriji i statističkim istraživanjima se ogleda
u tome što se mnoge empirijske pojave modeliraju normalnom distribucijom. Normalna
distribucija ima značajnu primenu u statističkoj inferenciji. Parametarska statistika je za-
snovana na pretpostavci da osnovni skup kome pripada uzorak ima normalnu distribuciju.
Normalni raspored je prvi otkrio 1733. godine Abraham de Moivre kao granični oblik bi-
nomne distribucije, tj. posmatrajući šta se događa sa binomnom distribucijom kada broj
eksperimenata beskonačno raste.
U drugoj polovini XVIII. veka ovaj oblik distribucije je proučavao i francuski matema-
tičar Laplas. Gaus (1809) i Laplas (1812) su izučavajući greške merenja uveli normalnu
distribuciju. Gaus je pisao o karakteristikama i primenama normalne raspodele u
modeliranju slučajnih grešaka merenja u astronomiji, tako da se zbog ovog doprinosa
normalna raspodela naziva i Gausova raspodela.

35
Pierre de Laplace Carl Friedrich Gauss
(1749–1827) (1777–1855)
Normalna distribucija je neprekidna teorijska distribucija. Neprekidna slučajna promen-
ljiva ima normalnu raspodelu ako je X ∈ ( −∞, +∞ ) i ako je zakon verovatnoće (funkcija
gustine verovatnoće): 2
1  x −µ 
1 −  
=
f (x) ⋅ e 2 σ  .
σ 2π
Zakon verovatnoće normalne distribucije zavisi od dva parametra i to od aritmetičke
sredine µ i od standardne devijacije σ. Standardna normalna distribucija ima aritmetičku
sredinu 0 i standardnu devijaciju 1.
Normalna distribucija je grafički predstavljena kontinuiranom zaobljenom krivom koja u
odnosu na X osu ima zvonasti oblik.

Funkcije gustine normalne raspodele za različite vrednosti µ i σ.

36
Osobine normalne raspodele:
- Površina koju kriva zaklapa sa X-osom predstavlja zbir verovatnoća i iznosi 1.
- Simetrična je u odnosu na vrednost x = µ tako da je
P(X <=
µ) P(X >=
µ) 0,5.
- Maksimum funkcije gustine verovatnoće je u tački µ .
- Aritmetička sredina, modus i medijana se poklapaju i imaju vrednost µ .
- Prvi Pirsonov koeficijent je β1 =0, dok je drugi Pirsonov koeficijent β2 =3.

- Ukoliko X → ±∞ funkcija f (X) → 0.


- Da bi se izračunala verovatnoća P(a<X<b) slučajne promenljive X koja ima stan-
dardnu normalnu distribuciju koriste se tablice normalne distribucije. U tablicama
su prikazane verovatnoće Ф(а)=P(0<X<a).
Ako slučajna promenljiva X nema standardnu normalnu distribuciju, to znači da njena
očekivana vrednost nije 0 ili da standardna devijacija nije 1.
U tom slučaju, da bi se mogle koristiti statističke tablice, potrebno je prvo izvršiti
transformaciju (standardizacija) slučajne promenljive X u standardizovanu slučajnu
promenljivu Z. To se radi putem izraza:
1 2
1 − z
Z=
Χ−µ f=
(z) ⋅e 2
σ 2π
Primer
1. Ako je X standardna normalna distribucija na osnovu tablica sledi P(0<X<2)=
0,4772.

37
2. Ako je X standardna normalna distribucija:
P(-1,5<X<2,5)=P(-1,5<X<0)+P(0<X<2,5)=P(0<X<1,5)+ P(0<X<2,5)=
=0,4332+0,4938=0,9270

3. Data je slučajna promenljiva X koja ima normalnu raspodelu čija je očekivana


vrednost 12 i standardna devijacija 2.
 8 − 12 X − 12 9 − 12 
P(8 < X < 9) = P  < <  = P(−2 < Z < −1,5) = P(1.5 < Z < 2) = 0, 4772 − 0, 4332 = 0,044.
 2 2 2 

38
3.3.2. Studentova – t distribucija
Ovu neprekidnu distribuciju definisao je William Gosset 1908. godine. Gosset je bio
engleski hemičar i statističar, zaposlen u Ginisovoj kompaniji za proizvodnju piva i svoje
naučne radove potpisivao je pseudonimom „Student”, pa se ova distribucija naziva i
Studentova t- distribucija.

William Sealey Gosset


(1876 – 1937)

Studentova distribucija se odnosi na slučajno promenljivu t koja predstavlja transfor-


misano obeležje dato izrazom:
Χ−µ
t=

gde je:
Χ - aritmetička sredina uzorka
µ - očekivana vrednost (sredina osnovnog skupa)
SΧ - ocenjena standardna greška aritmetičke sredine

Ocenjena standardna greška aritmetičke sredine dobija se na osnovu ocenjene standardne


devijacije osnovnog skupa S , primenom izraza:
Σ ( Χi − Χ )
2
S
SΧ = S=
n n −1
Količnik t ima Studentovu raspodelu ukoliko se pretpostavi da obeležje X ima normalnu
raspodelu nezavisno od veličine uzorka, ili ukoliko je veličina uzorka veća od 30.
Parametar koji definiše Studentovu distribuciju je stepen slobode r, koji je r = n-1. Sa
porastom stepeni slobode (r) Studentova distribucija se po svojim karakteristikama pri-
bližava standardnoj normalnoj distribuciji. Ukoliko je r=30, razlika između Studentove i
normalne distribucije je neznatna.

39
Student-ove raspodele za različite stepene slobode

Neke od karakteristika t-distribucije su:


• funkcija gustine verovatnoće zavisi od jednog parametra koji se naziva stepen
slobode;
• ima sličan oblik kao standardna normalna distribucija samo što je šira i položenija
tj. ima veću verovatnoću ekstremnih vrednosti – deblje repove;
• kako raste broj stepeni slobode oblikom je sve sličnija standardnoj normalnoj
raspodeli;
• primenjuje se u izračunavanju intervala pouzdanosti i testiranju hipoteza o razlici
između dva uzorka ukoliko obeležje ima normalnu raspodelu i varijanse osnovnih
skupova nisu poznate.
Osnovni pokazatelji t – distribucije su:

- Aritmetička sredina Χ tD= 0, r > 1.


r
- Varijansa σ2tD
= , r > 2.
r−2
r
- Standardna devijacija σ tD =
r−2
- Modus Mo = 0
6
- Pirsonovi koeficijenti β1 =0 β2 = 3 + , r > 4.
r−4
U tablicama Studentove distribucije date su vrednosti slučajne promenljive X za datu
vrednost stepena slobode r i vrednost=
α P( X > t n −1;α ). Tako ako je r=5,
=α 0,05,
= t 5;0,05 2,571.

40
Studentova raspodela r=5 i α =0,05 .

3.3.3. Fišerova – F distribucija


Fišerova (Fišer – Snedekorova) distribucija pripada grupi neprekidnih teorijskih
distribucija. Dobila je ime po poznatom engleskom statističaru i genetičaru Ronald Fišeru
koji definisao 1924. godine.

Sir Ronald Aylmer Fisher


(1890 – 1962)
Slučajna promenljiva F definisana je kao količnik ocenjenih varijansi dva nezavisna
slučajna uzoraka čije su veličine n1 i n 2 :
Σ ( Χ1i − Χ1 )
2
Σ ( Χ 2i − Χ 2 )
2
S12 2
F= S1 = 2
S2 =
S22 n1 − 1 n2 −1
Fišerova distribucija zavisi od dva parametra, odnosno dva stepena slobode r1 i r2.
r=
1 n1 − 1 r=
2 n2 −1

41
Kako je definisana kao količnik dve sume kvadrata F-distribucija je uvek nenegativna.
Minimalna vrednost Fišerove distribucije je nula. Ukoliko vrednost slučajne pomenljive
X teži beskonačnosti, Fišerova distribucija asimptotski teži nuli. Fišerova distribucija je
izrazito asimetrična u desno, a sa porastom stepeni slobode, odnosno veličine uzoraka,
teži ka simetričnosti.
Fišerova distribucija ima široku primenu, a najčešće se koristi kod testiranja jednakosti
dve varijanse i kod testiranja razlika tri ili više aritmetičkih sredina, odnosno u primeni
metoda analize varijanse.
Tablice F-distribucije su formirane za različite pragove značajnosti =
α P(X > Fr1,r2 ;α ).
Najčešće se koriste tablice za α=0,05 i α=0,01. U tablicama su brojevi u zaglavlju
vrednosti prvog stepena slobode r1 , dok su brojevi u predkoloni vrednosti drugog stepena
slobode. Tako npr. za stepene slobode 3 i 16 i α=0,05 tablična vrednost je 3,24 i označava
vrednost na X osi tako da je P(X > 3, 24) = 0,05.

F-distribucija za različite stepene slobode

42
Kontrolna pitanja
1. Kako definišemo empirijske, a kako teorijske distribucije?
2. Kako se dele teorijske distribucije?
3. Navesti neke od prekidnih teorijskih distribucija.
4. Navesti neke od neprekidnih teorijskih distribucija.
5. Navesti karakteristike Binomne distribucije.
6. Navesti karakteristike Poasonove distribucije.
7. Navesti karakteristike Normalne distribucije.
8. Navesti karakteristike Studentove distribucije.
9. Navesti karakteristike Fišerove distribucije.
10. Kada se u statističkoj inferenciji koriste tablične vrednosti Normalne, a kada ta-
blične vrednosti Studentove distribucije?

43
4. INFERENCIJALNA STATISTIKA

U različitim situacijama često se dešava da treba doneti neke zaključke o osnovnom


skupu, odnosno populaciji a da pri tom nemamo na raspolaganju sve njihove podatke.
Deo statistike koji se bavi donošenjem zaključaka o osnovnom skupu na osnovu dela
njegovih jedinica naziva se Inferencijalna statistika.
Ispitivanje dela nekog skupa radi ocene karakteristika celokupnog skupa izvodi se meto-
dom uzorka. Na osnovu analize jedinica uzorka procenjuje se vrednost parametra osnov-
nog skupa. Osnovni skup često ispoljava karakteristike koje su približne karakteristikama
neke od teorijskih distribucija. Ako se zna kojoj teorijskoj distribuciji se podaci najbolje
prilagođavaju i ako se uzme uzorak iz takve mase,onda se lakše dolazi do zaključaka o
samom osnovnom skupu.

4.1. Metod uzorka u istraživačkom radu


Uzorak je deo osnovnog skupa koji je izabran u svrhu izvođenja statističke analize.
Statistička teorija uzoraka deli se na teoriju malog i teoriju velikog uzorka, pri čemu kao
osnova za podelu služi broj jedinica u uzorku. Malim uzorkom smatra se uzorak veličine
do trideset jedinica, a uzorak čija je veličina veća od trideset jedinica smatra se velikim
uzorkom.
Uzorak koji u najvećoj meri odražava karakteristike osnovnog skupa naziva se repre-
zentativni uzorak. Reprezentativnost uzorka postiže se pravilnim postavljanjem plana
uzorka i pravilnim načinom izbora jedinica u uzorak.
Metode za izbor jedinica uzorka možemo podeliti na:
• metode izbora na osnovu verovatnoće i
• metode izbora bez primene verovatnoće.
Metode izbora na osnovu verovatnoće podrazumevaju da se primeni postupak izbora koji
ne favorizuje ni jednu jedinicu posebno, odnosno da sve jedinice imaju unapred poznatu
verovatnoću da budu izabrane u uzorak. Primenom ovih metoda dobijaju se sledeći
planovi uzorka:
• prost slučajni uzorak
• sistematski slučajni uzorak
• stratifikovani slučajni uzorak
• klaster slučajni uzorak
Metode izbora bez primene verovatnoće zasnovane su na postupcima izbora jedinica koji
ne zavise od teorije verovatnoće. Na ovaj način se dobijaju uzorci formirani na osnovu
slobodne procene istraživača ili na osnovu svrhe istraživanja.
Prost slučajni uzorak – je uzorak koji se dobija tako što sve jedinice osnovnog skupa
imaju istu verovatnoću da budu izabrane u uzorak, pri čemu izbor jedne ne utiče na izbor
ostalih jedinica. Prost slučajni uzorak može biti izabran sa ili bez ponavljanja (vraćanja).
Uzorak sa ponavljanjem podrazumeva da jedna jedinica osnovnog skupa može da se

44
pojavi u uzorku više puta. Uzorak bez ponavljanja podrazumeva da jedna jedinica osnov-
nog skupa može da se pojavi u uzorku samo jednom.
Izbor jedinica iz populacije u uzorak može se izvesti pomoću tablice slučajnih brojeva,
tehnikom lutrijskog izbora ili uz pomoć računara.
Sistematski uzorak – je uzorak kod koga se jedinice iz osnovnog skupa biraju jednakim
intervalima vremena, prostora ili poretka (vakcinicanje dece određene godine starosti,
nagrada za svakog stotog kupca nekog proizvoda, itd.).
Stratifikovani i klaster uzorak – su uzorci koji se dobijaju kada se osnovni skup
(populacija) podeli na stratume ili klastere, nakon čega se slučajno biraju jedinice iz sva-
kog stratuma, odnosno iz svakog klastera. Stratifikovani uzorak se bira u slučaju kada su
varijacije unutar stratuma male u odnosu na varijacije između stratuma, a klaster uzorak u
suprotnom slučaju.
Razlikujemo stratifikovani uzorak sa proporcionalnim rasporedom i disproporcionalni
stratifikovani uzorak.

4.2. Distribucija sredina uzoraka


Svaki parametar uzorka ima svoju distribuciju. Poznavanje karakteristika te distribucije
doprinosi boljem razumevanju ocena i testova na osnovu uzorka.
Polazeći od osnovnog skupa od N jedinica, ako izaberemo jedan prost slučajan uzorak od
n jedinica na osnovu njega se može izvesti ocena nepoznatih parametara osnovnog skupa.
Ako se pretpostavi da se iz osnovnog skupa izaberu svi mogući uzorci čiji je broj k i
izračunaju njihove aritmetičke sredine na osnovu njih se može formirati distribucija
frekvencija aritmetičkih sredina.
Broj uzoraka veličine n jedinica koji može da se dobije iz jednog osnovnog skupa
veličine N jedinica utvrđuje se na osnovu sledećih izraza:

- uzorci sa ponavljanjem k = Nn
 N N! Ν ( N − 1)( N − 2 ) ⋅ ....... ( N − n + 1)
- uzorci bez ponavljanja =k =  =
 n  n!( N − n )! n!

Distribucija aritmetičkih sredina prostih slučajnih uzoraka veličine n ima normalan


raspored ukoliko osnovni skup ima normalan raspored, bez obzira na veličinu uzorka.
Kada osnovni skup ima raspored proizvoljnog oblika sa aritmetičkom sredinom μ i
varijansom σ2, raspored aritmetičkih sredina svih prostih slučajnih uzoraka teži
normalnom rasporedu ukoliko veličina uzorka n → ∞. Ovo je jedna od najznačajnijih
teorema u statistici – centralna granična teorema.
Za distribuciju sredina uzoraka mogu se izračunati i njeni pokazatelji. Aritmetička sredina
distribucije sredina uzoraka izračunava se na sledeći način:
k
∑ Χi
Χ = i =1 ,
k
gde su Χi (i=1,…,k) aritmetičke sredine uzoraka a k broj uzoraka.

45
Aritmetička sredina distribucije sredina uzoraka jednaka je aritmetičkoj sredini osnovnog
skupa:
Χ = µ.
Varijansa distribucije sredina uzoraka izračunava se na osnovu izraza:
k
∑ ( Χi − µ )
2

σ2 =i =1
Χ k
Ako je poznata vrednost varijanse osnovnog skupa varijansa distribucije aritmetičkih
sredina uzoraka u slučaju prostih slučajnih uzoraka bez ponavljanja jednaka je:
σ2 N − n
σ2 = ⋅
Χ n N −1
gde je:
σ2 – varijansa osnovnog skupa,
n – veličina uzorka, a
N−n
– korektivni faktor.
N −1

Ako su primenjeni prosti slučajni uzorci sa ponavljanjem, varijansa aritmetičkih sredina


uzoraka je: 2
σ
σ2 = .
Χ n
Varijansa distribucije sredina uzoraka je manja po vrednosti od varijanse osnovnog
skupa. Sa povećanjem veličine uzorka (n) vrednost varijanse distribucije sredina uzoraka
se smanjuje i teži nuli. Što je veća veličina uzorka bolje i preciznije se može oceniti
parametar osnovnog skupa.
N−n
Kako je < 1, n > 1, varijansa aritmetičkih sredina uzoraka bez ponavljanja je manja
N −1
od varijanse aritmetičkih sredina uzoraka sa ponavljanjem. U slučaju da je N veliko u
N−n
poređenju sa n, ≈ 1.
N −1
Standardna devijacija distribucije aritmetičkih sredina uzoraka naziva se standardna
greška aritmetičke sredine a utvrđuje se na osnovu izraza:
k
∑ ( Χi − µ )
2

σ Χ =i =1 .
k
Ako su poznate varijansa ili standardna devijacija osnovnog skupa standardna greška
aritmetičke sredine jednaka je u slučaju uzoraka bez ponavljanja :
σ N−n
σ Χ= ⋅ ,
n N −1
odnosno u slučaju uzorka s ponavljanjem:
σ
σΧ = .
n

46
4.3. Ocene na osnovu uzorka
U praktičnom radu, u svrhu donošenja zaključaka o karakteristikama osnovnog skupa,
uzima se samo jedan uzorak dovoljne veličine, na osnovu kog ocenjujemo, odnosno
procenjujemo nepoznate parametre osnovnog skupa. Ocena parametara osnovnog skupa
primenjuje se u sledećim slučajevima:
- kada je nepoznata veličina osnovnog skupa, odnosno ukupan broj jedinica N
- kada se ne mogu utvrditi sve vrednosti obeležja osnovnog skupa
- kada je osnovni skup beskonačan

Parametar Osnovni skup Ocena na osnovu uzorka


Aritmetička sredina µ �
X
Standardna devijacija σ S
Varijansa σ2 S2
Standardna greška aritmetilke sredine σx� Sx�

Vrednosti izračunate na osnovu uzorka nisu tačne, prave vrednosti, već su to približne
vrednosti, odnosno ocene odgovarajućih parametara osnovnog skupa. Vrednosti nekog
parametra izračunate na osnovu uzorka su tačkaste ocene parametara osnovnog skupa.
Ocena nepoznatog parametra osnovnog skupa biće tačnija, odnosno bliža pravoj
vrednosti, što je uzorak veći i što je varijabilitet pojave koju analiziramo manji. Ukoliko
pojava koju analiziramo ne bi varirala tada bi na primer ocenjena vrednost aritmetičke
sredine iz uzorka od samo jedne vrednosti obeležja predstavljala tačnu vrednost sredine
osnovnog skupa. Kako pojave koje u praktičnom radu analiziramo pokazuju veći ili manji
varijabilitet, tačkaste ocene iz uzorka nisu dovoljne da bi se ocenila vrednost nepoznatog
parametra osnovnog skupa, već se u obzir mora uzeti i standardna greška kao pokazatelj
varijabiliteta. Tačnije za ocenu nepoznatih parametara osnovnog skupa na osnovu uzorka,
koriste se intervalne ocene koje u obzir uzimaju i varijabilitet posmatrane pojave.
U teoriji ocenjivanja se razlikuju pojmovi ocenitelj i ocena. Ocenitelj je funkcija uzorka
(statistika) dok je ocena izračunata vrednost ocenitelja na osnovu izabranog uzorka.
Ocenitelj je slučajna promenljiva, dok je ocena konstanta.
Ocena parametara osnovnog skupa na osnovu uzorka, zasnovana je na teoriji da je
poželjno da ocenitelj poseduje neka statistička teorijska svojstva. Svojstva koja je
poželjno da ima ocenitelj su nepristrasnost, konzistentnost, efikasnost i egzostivnost.
Nepristrasnost: ocenitelj parametara je nepristrasan kada je njegova očekivana vrednost
jednaka parametru osnovnog skupa. Aritmetička sredina iz uzorka je nepristrasan
ocenitelj aritmetičke sredine osnovnog skupa, jer je E ( Χ ) =µ.
n
2
∑ (Xi − X)
Ocenitelj S2* = i =1 nije nepristrasan ocenitelj varijanse osnovnog skupa.
n
Varijansa ocenjena na osnovu uzorka postaće nepristrasan ocenitelj varijanse osnovnog
skupa ako delilac u sledećem izrazu budu stepeni slobode n-1:
 n 2* 
E
 n − 1 
( )
S  = E S2 = σ2 .

47
Konzistentnost: za ocenitelj iz uzorka se kaže da konzistentno ocenjuje parametar
osnovnog skupa, ako ukoliko n teži beskonačnosti, ocenitelj iz uzorka teži vrednosti
parametra osnovnog skupa uz verovatnoću 1. Ako je ocenitelj iz uzorka konzistentan, sa
povećanjem veličine uzorka njegova vrednost se približava vrednosti parametra osnovnog
skupa. Da bi ocenitelj bio konzistentan, nije neophodno da je nepristrasan. Tako su S2 i
S2* konzistentni ocenitelji varijanse osnovnog skupa σ2 .
Efikasnost: parametar osnovnog skupa može da se oceni na različite načine. Nepristrasan
ocenitelj tog parametra je efikasniji kada je njegova vrednost približnija pravoj vrednosti
parametra osnovnog skupa tj. kada ima manji varijabilitet. Relativna efikasnost se izra-
žava odnosom varijansi ocenitelja i to odnosom manje varijanse ocenitelja prema većoj.
Primer: Aritmetička sredina i medijana su nepristrasne ocene aritmetičke sredine osnov-
nog skupa. Ukoliko se pretpostavi da je osnovni skup normalno raspoređen, aritmetička
sredina je efikasniji ocenitelj jer relativna efikasnost ova dva ocenitelja
σ2 / σ2M = 0,64 < 1.
X e
Egzostivnost: ocenjeni parametar je egzostivan ako sadrži sva potrebna obaveštenja o
parametru osnovnog skupa. Da bi jedan ocenitelj iz uzorka bio egzostivan on treba da je
funkcija parametra osnovnog skupa. Egzostivni ocenitelji su aritmetička sredina i pro-
porcija uzorka.
Svi navedeni principi ocene parametara su poželjne ali ne i neophodne osobine ocenitelja.

4.3.1. Izračunavanje standardne greške aritmetičke sredine


Standardna greška aritmetičke sredine, ako je poznat varijabilitet osnovnog skupa (ako su
poznate vrednosti standardne devijacije ili varijanse) može se izračunati na osnovu
sledećeg izraza:
σ N−n
σ Χ= ⋅
N−n n N −1
gde je N − 1 je korektivni faktor koji se koristi ako je poznata veličina osnovnog skupa
N i ako se primenjuje uzorak bez ponavljanja (bez vraćanja).
Ako je uzorak uzet iz velikog osnovnog skupa ili beskonačnog osnovnog skupa stan-
dardna greška aritmetičke sredine svodi se na izraz:
σ
σΧ =
n
S obzirom da su standardna devijacija i varijansa osnovnog skupa najčešće nepoznate
zamenjuju se ocenom iz uzorka, odnosno ocenjenom standardnom devijacijom ili
varijansom. Na osnovu izračunate ocenjene standardne devijacije ili varijanse izračunava
se ocenjena standardna greška aritmetičke sredine na osnovu sledećih izraza u zavisnosti
da li je primenjen prost slučajan uzorak bez ili sa ponavljanjem:
S N−n S
S=
Χ ⋅ SΧ = .
n N n

Standardna greška aritmetičke sredine može da se izračuna i direktno iz podataka uzorka


na osnovu radnih formula. Za negrupisane podatke ocenjena standardna greška aritm-
etičke sredine utvrđuje se na sledeći način:
( ΣΧi ) 2
Σ ( Χi − Χ )
2
N−n ΣΧi2 −
= ⋅ n N−n
SΧ =SΧ ⋅ .
n ( n − 1) N n ( n − 1) N

48
Kod distribucije frekvencija za ocenu standardne greške aritmetičke sredine koriste se
izrazi:

Σf i ( Χ i − Χ )
2
N−n Σfi Χi2 −
( Σf i Χ i ) 2
=SΧ ⋅ N−n
n ( n − 1) N =SΧ n ⋅
n ( n − 1) N

Standardna greška aritmetičke sredine nalazi primenu u izračunavanju intervala poverenja


za nepoznatu sredinu osnovnog skupa, kao i kod testa značajnosti jedne sredine.

4.3.2. Interval poverenja za ocenu nepoznate sredine osnovnog skupa


Interval poverenja (pouzdanosti) nekog nepoznatog parametra osnovnog skupa je interval
u kome se sa određenom sigurnošću nalazi parametar osnovnog skup. U praktičnom radu
interval poverenja se najčešče utvrđije na bazi 95 % ili 99 %, što znači da je mogućnost
pogreške 5 %, odnosno 1 %. Mogućnost pogreške datog intervala naziva se prag
značajnosti, a obeležava se kao α=0,05 ili α=0,01. To bi praktično značilo da od 100
intervala poverenja koje utvrdimo na osnovu 100 različitih uzoraka izabranih iz osnovnog
skupa, njih 95, odnosno 99 sadrži pravu vrednost parametra osnovnog skupa, dok 5,
odnosno 1 neće sadržati pravu vrednost posmatranog parametra.
U slučaju poznatih vrednosti standardne devijacije ili varijanse osnovnog skupa, interval
poverenja za ocenu nepoznate aritmetičke sredine osnovnog skupa ima sledeći oblik:
Χ − Ζα ⋅ σ Χ < µ < Χ + Ζα ⋅ σ Χ ,

gde je Ζα vrednost koja se određuje iz uslova da se slučajna promenljiva Ζ koja ima


standardizovanu normalnu raspodelu nalazi u intervalu ±Ζα sa verovatnoćom 1− α . To se
može izraziti:
P(−Ζα < Z < Zα ) = 1 − α.
U slučaju da varijansa osnovnog skupa nije poznata interval poverenja ima sledeći oblik:
Χ − t n −1;α ⋅ SΧ < µ < Χ + t n −1;α ⋅ SΧ ,
gde se t n −1;α koja se određuje iz uslova da se slučajna promenljiva t koja ima t-
distribuciju nalazi u intervalu ± t n −1;α sa verovatnoćom 1− α .

P(− t n −1;α < t < t n −1;α ) = 1 − α.

U slučaju velikog uzorka t-distribucija se može aproksimirati standardizovanom


normalnom distribucijom, tako da je (1 − α) ⋅ 100(%) interval poverenja za µ približno:
Χ − Zα ⋅ SΧ < µ < Χ + Zα ⋅ SΧ .
U praktičnim primenama se smatra da je uzorak veličine n>30 veliki uzorak i tada može
da se koristi naveden oblik intervala poverenja ukoliko varijansa osnovnog skupa nije
poznata.
Svaki interval poverenja ima svoju donju (L1) i svoju gornju granicu (L2).
Na osnovu ocenjenog intervala poverenja može se oceniti i total osnovnog skupa na
osnovu sledećeg izraza:
N ⋅ L1 < Nµ < N ⋅ L 2

49
Proizvod tablične vrednosti i standardne greške ili njene ocene u izrazu za (1 − α) ⋅ 100(%)
interval poverenja naziva se marginalna greška ili greška uzorka i predstavlja procenu
odstojanja vrednosti parametra od njegove ocene.

Primer interval poverenja za negrupisane podatke:


Dati su podaci o sistolnom krvnom pritisku (kPa) 10 konja. Odrediti 95 % interval
poverenja za sistolni pritisak u osnovnom skupu ako je:
a) σ =3 b) σ nije poznata vrednost

Redni broj X X2
1 25,2 635,04
2 23,1 533,61
3 20,8 432,64
4 18,9 357,21
5 24,5 600,25
6 20,5 420,25
7 26,2 686,44
8 28,6 817,96
9 23,2 538,24
10 24,0 576,00
⅀ 235,0 5597,64

∑ X 235,0 σ 3
a)=
X = = 23,5 (kPa). σX= = = 0,949 (kPa).
n 10 n 10
Kako je poznata varijansa osnovnog skupa interval poverenja ima oblik:
X − Zα ⋅ σ X < μ < X + Z α ⋅σ X
Ako je pouzdanost intervala 95%, α = 0,05 i Z0,05 = 1,96, sledi da je interval
poverenja:
23,5 − 1,96 ⋅ 0,949 < µ < 23,5 + 1,96 ⋅ 0,949
21,64 < µ < 25,36 (kPa)

b)= ∑ X 235,0
X = = 23,5 (kPa)
n 10

2

( ∑ X)
2
5597,64 −
( 235 )
2
∑X
=sX = n = 10 0,914 (kPa)
n(n − 1) 10 (10 − 1)

50
95% interval poverenja u slučaju da varijansa osnovnog skupa nije poznata je:
X − t n −1; α ⋅ s X < µ < X + t n −1; α ⋅ s X
Zamenom aritmetičke sredine uzorka, ocene standardne greške i tablične vrednosti
t 9;0,05 = 2, 262 sledi:

23,5 − 2, 262 ⋅ 0,914 < µ < 3,5 + 2, 262 ⋅ 0,914(kPa),

21, 43 < µ < 25,57 (kPa).

Primer interval poverenja za grupisane podatke (distribucije frekvencija):


Da bi se procenio prosečan broj krava po domaćinstvu u jednoj opštini koja ima N=1000
domaćinstava izabran je prost slučajan uzorak bez ponavljanja od 50 domaćinstava i
dobijeni su rezultati dati u tabeli. Izračunati 99 % interval poverenja za prosečan i ukupan
broj krava u osnovnom skupu.

Broj Broj
krava domaćinstava
Xi fi fi Xi fi Xi2
0 2 0 0
1 3 3 3
2 10 20 40
3 15 45 135
4 11 44 176
5 9 45 225
⅀ 50 157 579

=
X
∑=
fX 157
= 3,14 (krava/domaćinstvu).
∑f 50

2 ( ∑ fX )2 579 −
(157 )2
∑ fX − N−n − 50
=sX n ⋅= 50 ⋅ 1000
= 0,1826 (krava/domaćinstvu).
n(n − 1) N 50 ( 50 − 1) 1000

Kako varijansa osnovnog skupa nije poznata:


X − t n −1; α ⋅ s X < µ < X + t n −1; α ⋅ s X
Tablična vrednost za 99% interval poverenja je t 49;0,01 ≈ t 50;0,01 =
2,678, a interval je:

3,14 − 2,678 ⋅ 0,1826 < µ < 3,14 + 2,678 ⋅ 0,1826 (krava/domaćinstvu)

2,65 < µ < 3,63 (krave/domaćinstvu).


Ukupan broj krava je:
NL1 < Nµ < NL 2
1000 ⋅ 2,65 < Nµ < 1000 ⋅ 3,63
2650 < Nµ < 3630

51
Kako je n>30 može da se koristi i oblik intervala:
X − Zα ⋅ s X < µ < X + Zα ⋅ s X .

Kako je tablična vrednost Z0,01=2,58, 99% interval poverenja je:


3,14 − 2,58 ⋅ 0,1826 < µ < 3,14 + 2,58 ⋅ 0,1826 (krava/domaćinstvu)
2,67 < µ < 3,61 (krave/domaćinstvu).
2670 < Nµ < 3610 (krava).
Napomena: Navedene formule za interval poverenja za nepoznatu aritmetičku sredinu
osnovnog skupa mogu da se koriste kod malih uzoraka ( n ≤ 30) ukoliko se pretpostavi da
obeležje ima normalnu raspodelu ili kod velikih uzoraka ( n > 30) bez pretpostavke o
raspodeli. Ako je uzorak mali i narušena pretpostavka o normalnoj raspodeli primenjuju
se metode neparametarske statistike.

4.3.3. Interval poverenja za ocenu nepoznate proporcije osnovnog skupa


Proporcija je specifičan način izražavanja neke karakteristike (nekog svojstva) u
osnovnom skupu ili u uzorku (udeo neispravnih proizvoda u ukupnom broju proizvoda,
broj žena u ukupnom broju stanovnika, udeo bolesnih životinja u ukupnom broju
životinja itd.). Vrednost proporcije pokazuje relativni udeo posmatrane karakteristike u
osnovnom skupu. Proporcija osnovnog skupa označava se sa p a utvrđuje se kao odnos
broja jedinica koje poseduju željenu karakteristiku (osobinu) i ukupnog broja jedinica u
osnovnom skupu:
A
p=
N
gde je :
A - broj jedinica osnovnog skupa koje poseduju traženu karakteristiku
N - ukupan broj jedinica u osnovnom skupu
Relativni udeo jedinica koje ne poseduju neku karakteristiku u osnovnom skupu
obeležava se sa q , a predstavlja odnos broja jedinica osnovnog skupa koje ne poseduju
traženu karakteristiku (B) i ukupnog broja jedinica osnovnog skupa (N):
B
q=
N
Na osnovu toga proizilazi sledeće: p+q=
1 q = 1 − p.
S obzirom da je proporcija osnovnog skupa obično nepoznata ocenjujemo je na osnovu
uzorka. Proporcija izračunata na osnovu uzorka je ocena proporcije osnovnog skupa.
Proporcija ocenjena iz uzorka označava se kao p̂ , a izračunava se na sledeći način:
a
p̂ = q̂ = 1 − p̂
n
Ocenjena standardna greška proporcije jednaka je u slučaju prostog slučajnog uzorka bez
ponavljanja:
ˆˆ N−n
pq
=
Sp̂ ⋅ .
n N

52
N−n
Kod uzorka sa ponavljanjem ili u slučaju velikog osnovnog skupa gde je ≈ 1:
N
ˆˆ
pq
Sp̂ = .
n
Ako je uzorak dovoljno veliki može se na osnovu proporcije iz uzorka i njene standardne
greške odrediti interval poverenja u kome se očekuje da će se uz određenu verovatnoću
nalaziti nepoznata proporcija osnovnog skupa.
Ako se ocena nepoznate proporcije osnovnog skupa izvodi na osnovu velikog uzorka
(n>30) i ako važe nejednakosti np > 5 i n(1 − p) > 5 interval poverenja ima sledeći
oblik:
pˆ − Ζα ⋅ Spˆ < p < pˆ + Ζα ⋅ Spˆ .
Oblik intervala poverenja sledi iz činjenice da pod navedenim uslovima p̂ ima približno
2 p ⋅ (1 − p)
normalnu raspodelu sa parametrima µ=
p̂ np i σ=

.
n
U slučaju malog uzorka p̂ ima binomnu raspodelu, tako da se navedeni interval poverenja
ne može primeniti.
Na osnovu utvrđenog intervala poverenja može se oceniti i total osnovnog skupa na
osnovu sledećeg izraza:
N ⋅ L1 < Np < N ⋅ L 2 .
Total osnovnog skupa za proporciju daje informaciju o broju jedinica osnovnog skupa
koje imaju posmatranu, odnosno traženu karakteristiku.

Primer interval poverenja za ocenu nepoznate proporcije osnovnog skupa:


Da bi se procenila zastupljenost domaćinstava koja imaju bar 3 krave, kao i njihov
ukupan broj u jednoj opštini koja ima N= 1000 domaćinstava izabran je prost slučajan
uzorak bez ponavljanja od 50 domaćinstava i dobijeni su rezultati dati u tabeli. Izračunati
99 % interval poverenja za proporciju i ukupan broj domaćinstava koja imaju bar 3 krave
u osnovnom skupu.

Broj Broj ˆˆ N−n


pq 0,7 ⋅ 0,3 1000 − 50
Sp̂ = ⋅ = ⋅ =0,0632
krava domaćinstava n N 50 1000
Xi fi pˆ − Ζα ⋅ Spˆ < p < pˆ + Ζα ⋅ Spˆ
0 2
1 3 0,7 − 2,58 ⋅ 0,0632 < p < 0,7 + 2,58 ⋅ 0,0632
2 10 0,537 < p < 0,863
3 15 N ⋅ L1 < Np < N ⋅ L 2
4 11
1000 ⋅ 0,537 < Np < 1000 ⋅ 0,863
5 9
⅀ 50 537 < Np < 863

n=50 a= 35
a 35
p̂= = = 0,7 qˆ =1 − pˆ =0,3
n 50

53
Kontrolna pitanja
1.
Šta je uzorak?
2.
Kako se postiže reprezentativnost uzorka?
3.
Navesti neke planove uzoraka.
Kako glasi centralna granična teorema?
4.
5.
Koja svojstva je poželjno da poseduje ocenitelj iz uzorka?
Navedite dve vrste statističkog ocenjivanja i njihove karakteristike.
6.
Zašto se intervalna ocena koristi više od tačkaste?
7.
Zašto je veličina uzorka značajna u statističkom ocenjivanju?
8.
Na osnovu kojih elemenata se ocenjuje nepoznata aritmetička sredina osnovnog
9.
skupa na osnovu uzorka?
10. Na osnovu kojih elemenata se ocenjuje nepoznata proporcija osnovnog skupa na
osnovu uzorka?

54
5. Testiranje statističkih hipoteza

Pod hipotezom se podrazumeva naučna pretpostavka zasnovana na poznatim činjenicama


radi izvođenja nekog zaključka. Postupkom testiranja u statističkom zaključivanju prove-
ravamo pretpostavku o probabilističkom modelu koji generiše podatke. U parametarskoj
statistici se proveravaju pretpostavke o vrednostima parametara osnovnog skupa. Koriste-
ći podatke iz uzorka utvrđujemo da li se tvrđenje prihvata ili ne.
Postupak ili pravilo kojim se donosi odluka o prihvatanju ili neprihvatanju tvrđenja o
vrednostima parametara osnovnog skupa na osnovu podataka iz slučajnog uzorka naziva
se testiranje statističkih hipoteza.
Statistički testovi se dele na parametarske i neparametarske. Parametarski testovi polaze
od datog oblika i karakteristika distribucije numeričkog obeležja u osnovnom skupu.
Za primenu neparametarskih testova nije potrebno dati oblik distribucije numeričkog
obeležja, a primenjivi su i kod kvalitativnih obeležja.
Testiranje podrazumeva postupak provere određene pretpostavke koju zovemo nulta
hipoteza.
Nulta hipoteza je tvrđenje o nekom parametru osnovnog skupa koje se smatra istinitim
sve dok se ne dokaže suprotno.
Alternativna hipoteza je tvrđenje o nekom parametru osnovnog skupa koje će biti isti-
nito ako je nulta hipoteza netačna.
Prilikom testiranja hipoteza treba uzeti u obzir da je postupak testiranja zasnovan na
uzorku, a da biranje uzorka podleže pravilima slučajnosti. To podrazumeva da se može
desiti da na osnovu dva izabrana uzorka zaključci o istoj tvrdnji budu suprotni. Prilikom
testiranja nulte hipoteze (Ho), protiv alternativne hipoteze (H1) mogu nastati dve greške.
Greška tipa I nastaje kada se odbaci istinita – tačna nulta hipoteza. Verovatnoća javljanja
ove greške predstavlja nivo (prag) značajnosti i označava se sa α. Verovatnoća (1-α) je
verovatnoća ne odbacivanja nulte hipoteze kada je ona tačna i naziva se senzitivnost testa.
Greška tipa II se javlja kada se neistinita – netačna nulta hipoteza prihvati. Verovatnoća
javljanja greške tipa II označava se sa β. Vrednost (1-β) naziva se jačina (snaga, moć)
testa ili specifičnost testa i predstavlja verovatnoću da se ne javi greška tipa II.
Greške I i II vrste
Stvarno stanje
Odluka: H 0 je tačna H 0 je pogrešna
Odbacivanje H 0 POGREŠAN ZAKLJUČAK TAČAN ZAKLJUČAK
P(H1 | H 0 ) = α P(H1 | H1 ) = 1 − β
Greška I vrste JAČINA TESTA
Ne odbacivanje H 0 TAČAN ZAKLJUČAK POGREŠAN ZAKLJUČAK
P(H 0 | H 0 ) = 1 − α P(H 0 | H1 ) = β
POVERENJE Greška II vrste

55
Postupak statističkog testiranja sastoji se iz više etapa (faza). Postupak testiranja obuhvata
tri faze:
1. Formulisanje polazne pretpostavke – nulte hipoteze.
2. Postupak provere postavljene hipoteze.
3. Zaključak o postavljenoj hipotezi .
U zavisnosti od načina na koji je formulisana alternativna hipoteza u postupku testiranja
moguće je primeniti tri vrste testa: dvostrani, gornji jednostrani i donji jednostrani test.
Predmet statističkog testiranja mogu biti različiti parametri, a najčešće su to aritmetička
sredina i proporcija.

5.1. Testovi aritmetičkih sredina


Postoje sledeći osnovni testovi za testiranja aritmetičkih sredina:
1. Upoređivanje aritmetičke sredine uzorka sa aritmetičkom sredinom osnovnog skupa
ili sa nekom hipotetičkom vrednošću – test značajnosti jedne sredine
2. Upoređivanje dve aritmetičke sredine iz dva nezavisna uzorka – test značajnosti
razlike dve sredine
3. Upoređivanje više od dve sredine iz više od dva uzorka – metod analize varijanse

5.1.1. Test značajnosti jedne sredine


Test značajnosti jedne sredine je testiranje nulte hipoteze o jednakosti aritmetičke sredine
uzorka sa hipotetičkom vrednosti aritmetičke sredine osnovnog skupa, ili sa nekom dru-
gom teorijskom vrednošću. Ovaj test može se izvesti u slučaju kada je poznat varijabilitet
osnovnog skupa i u slučaju kada se ceo postupak testiranja zasniva jedino na rezultatima
uzorka, odnosno kada nije poznat varijabilitet osnovnog skupa, već se ocenjuje na osnovu
uzorka.

Testiranje nulte hipoteze o nepoznatoj aritmetičkoj sredini osnovnog skupa µ na


osnovu prostog slučajnog uzorka u slučaju da je poznata varijansa osnovnog skupa
Prilikom provere neke pretpostavke, u prvoj fazi testiranja formulišemo dve suprot-
stavljene hipoteze, nultu i alternativnu. Nulta hipoteza u ovom slučaju je da je nepoznata
aritmetička sredina osnovnog skupa µ jednaka pretpostavljenoj (hipotetičkoj) vrednosti
µo. Alternativna hipoteza nasuprot nultoj pretpostavlja da nepoznata aritmetička sredina
osnovnog skupa nije jednaka µo. U slučaju dvostranog testa nulta i alternativna hipoteza
su: H 0 : µ = µ 0 H 1 : µ ≠ µ 0 . Kod jednostranog testa nulta hipoteza se odnosi na gornju
granicu nepoznate aritmetičke sredine: H 0 : µ ≤ µ0 H1 : µ > µ0 ili na donju granicu:
H 0 : µ ≥ µ0 H1 : µ < µ0 .
Provera postavljene nulte hipoteza izvodi se izračunavanjem odgovarajuće test statistike:
X−µ σ
Z= σ =
σ
X n
X
Pretpostavljajući nultu hipotezu Z-statistika ima standardizovanu normalnu raspodelu
N(0,1) .

56
Za donošenje zaključka o prihvatanju ili odbacivanju nulte hipoteze u ovom slučaju
koriste se tablice normalne distribucije bez obzira na veličinu uzorka na osnovu kog se
testiranje izvodi. Zaključak se najčešče donosi na pragu značajnosti 0,05 ili 0,01. Kod
praga značajnosti 0,05 kritična vrednost u tablici normalne distribucije je 1,96, a za prag
značajnosti 0,01 kritična vrednost je 2,58. Na osnovu toga, ako je apsolutna vrednost
izračunatog količnika Z jednaka ili veća od navedenih kritičnih vrednosti ima osnova za
odbacivanje nulte hipoteze kao tačne i prihvatanje alternativne hipoteze. Nasuprot tome,
ako je apsolutna vrednost izračunatog količnika Z manja od kritičnih vrednosti nulta
hipoteza se može prihvatiti. To ne znači da je nulta hipoteza tačna, već samo da dokazi
protiv nulte hipoteze nisu dovoljno jaki. Formulacija prihvata se nulta hipoteza znači da
rezultati uzorka podržavaju nultu hipotezu i da se ona ne može odbaciti.
Istu hipotezu možemo proveriti i izračunavanjem intervala poverenja:
X − zα σX < µ < X + zα σX .
Na ovaj način se utvrđuje interval u okviru koga je očekivana vrednost osnovnog skupa.
Ukoliko se očekivana vrednost nalazi unutar granica utvrđenog intervala poverenja nulta
hipoteza se može prihvatiti, a ukoliko je očekivana vrednost izvan granica utvrđenog
intervala nulta hipoteza se odbacuje.
Napomena: Kako je test statistika Z funkcija uzorka (X1,X2.....,Xn) ona je slučajna pro-
menljiva. Vrednost test statistike izračunata na osnovu jednog uzorka (x1,x2.....,xn) je broj.

Primer
Prosečna visina grebena jedne rase konja iznosi 175 cm, dok je varijansa σ2 =7,5 cm2. Na
jednoj ergeli koja ima 100 konja merenjem je ustanovljena visina grebena 173 cm. Da li
se aritmetička sredina uzorka statistički značajno razlikuje od aritmetičke sredine
osnovnog skupa?

Rešenje:
=
Pretpostavlja se da su parametri osnovnog skupa: µ0 175 cm
= i σ 2 7,5.
Na osnovu uzorka veličine n=100 izračunata je aritmetička sredina X = 173 cm.
Testira se H 0 : µ =175 cm protiv H1 : µ ≠ 175 cm.

I način:
σ 7,5 X − µ0 173 − 175
σX= = = 0, 2739 cm Z= = = −7,30**
n 100 σX 0, 2739

Kako je Z > 1,96 ⇒ H1 i Z > 2,58 ⇒ H1 , odbacuje se nulta hipoteza na pragovima


značajnosti α=0,05 ili α=0,01. To znači da se aritmetička sredina uzorka statistički visoko
značajno razlikuje od pretpostavljene aritmetičke sredine osnovnog skupa, odnosno da
uzorak ne pripada osnovnom skupu čija je aritmetička sredina 175 cm.

II način:
(1 − α) ⋅ 100% poverenja za nepoznatu aritmetičku sredinu osnovnog skupa je:

X − Zα σ X < µ < X + Zα σ X .

57
95% interval poverenja za prosečnu visinu grebena je:
α =0,05 173 − 1,96 ⋅ 0, 2739 < µ < 173 + 1,96 ⋅ 0, 2739 cm
172, 463 < µ < 173,537 cm
µ0= 175 ∉ (172, 46, 157,54 ) ⇒ H1

99% interval poverenja za prosečnu visinu grebena je


α =0,01 173 − 2,58 ⋅ 0, 2739 < µ < 173 + 2,58 ⋅ 0, 2739 cm
172, 293 < µ < 173,707 cm
µ0 ∉ (172, 29,173,71) ⇒ H1
Kako pretpostavljena vrednost aritmetičke sredine ne pripada 95% i 99% intervalu pove-
renja, nulta hipoteza se odbacuje na pragovima značajnosti 5% i 1% tj. prihvata se
alternativna hipoteza.

Testiranje nulte hipoteze o nepoznatoj aritmetičkoj sredini osnovnog skupa µ na


osnovu prostog slučajnog uzorka u slučaju da nije poznata varijansa osnovnog
skupa
U slučaju kada nisu poznate vrednosti standardne devijacije ili varijanse osnovnog skupa,
polazna hipoteza se proverava izračunavanjem t-količnika.
H0 : µ = µ0 H1 : µ ≠ µ 0
Χ−µ
t= ,

gde je u zavisnosti da li je slučajan uzorak bez ili sa ponavljanjem:
S N−n ili SΧ =
S
S=
Χ ⋅ .
n N n

Pretpostavljajući nultu hipotezu t-količnik ima t (Studentovu) raspodelu sa (n-1) stepena


slobode.
Apsolutna vrednost izračunatog količnika t upoređuje se sa kritičnom vrednošću t-
distribucije. Kritična vrednost t n −1;α zadovoljava uslov da je P( t > t n −1;α ) =
α i dobija se
korišćenjem tablica t-distribucije. Ako se provera hipoteze izvodi na osnovu velikog
uzorka (n>30) izračunati količnik t ima približno standardizovanu normalnu raspodelu,
tako da mogu da se koriste i tablice N(0,1) distribucije. Ako je apsolutna vrednost
izračunatog količnika t jednaka ili veća od kritične vrednosti t n −1;α ima osnova za odba-
civanje nulte hipoteze i prihvatanje alternativne hipoteze. Nasuprot tome, ako je apsolutna
vrednost izračunatog količnika t manja od kritične vrednosti nulta hipoteza se može
prihvatiti.
Testiranje hipoteze o značajnosti jedne sredine u slučaju nepoznatih parametara osnovnog
skupa, može da se izvede i izračunavanjem odgovarajućeg intervala poverenja.
Χ − t n −1;α ⋅ SΧ < µ < Χ + t n −1;α ⋅ SΧ ,

koji se, u slučaju velikog uzorka (n>30) može aproksimirati sa:


Χ − z α ⋅ SΧ < µ < Χ + z α ⋅ SΧ .

58
Ukoliko hipotetička vrednost µ0 pripada (1 − α) ⋅ 100% intervalu poverenja prihvata se
nulta hipoteza na pragu značajnosti α , a u slučaju da ne pripada prihvata se alternativna
hipoteza.
µ0 ∈ ( L1 ,L 2 ) ⇒ H 0
µ0 ∉ ( L1 ,L 2 ) ⇒ H1.
Primer:
Na osnovu rasporeda krava prema mlečnosti (l) datom u tabeli, može li se prihvatiti nulta
hipoteza da je prosečna mlečnost po kravi 20 (l)?

Mlečnost(l) Broj krava fX fX2


6 2 12 72
10 5 50 500
14 6 84 1176
19 4 76 1444
22 3 66 1452
⅀ 20 288 4644
Testira se H 0 : µ =20 (l)
H1 : µ ≠ 20 (l).

I način:

2

( ∑ fX )
2
4644 −
( 288 )
2
∑ fX
∑ fX 288 n 20
=
X = = 14,=4 (l) SX = = 1,1434 (l)
∑f 20 n(n − 1) 20 ( 20 − 1)

X − µ0 14, 4 − 20
t= = = −4,898**
Sx 1,1434
n = ∑f t0,05(19)=2,093 t0,01(19)=2,861
t = 4,898 > 2,093 ⇒ H1
t = 4,898 > 2,861 ⇒ H1

Kako je apsolutna vrednost t-količnika veća od obe kritične vrednosti na pragovima


značajnosti 5% i 1%, nulta hipoteza se odbacuje tj. prihvata alternativna. To znači da je t-
test kriterijum visoko statistički značajan. Prema tome ne može da se prihvati nulta
hipoteza da je mlečnost po kravi 20(l).

II način: Χ − t n −1;α ⋅ SΧ < µ < Χ + t n −1;α ⋅ SΧ


α =0,05 14, 4 − 2, 093 ⋅ 1,1434 < µ < 14, 4 + 2, 093 ⋅ 1,1434
12,007 < µ < 16,793(l)
20 ∉ (12,007,16,793) ⇒ H1
α =0,01 14, 4 − 2,861 ⋅ 1,1434 < µ < 14, 4 + 2,861 ⋅ 1,1434
11,129 < µ < 17,671(l)
20 ∉ (11,129,17,671) ⇒ H1

59
5.1.2. Test značajnosti razlike dve sredine
U praktičnom radu često se izvodi eksperiment sa dva tretmana. Pri tome se proverava da
li su prosečne vrednosti osnovnih skupova jednake odnosno da li je µ1 =µ2. Provera
jednakosti sredina osnovnih skupova izvodi se na osnovu dva slučajna uzorka. Ovaj test
naziva se test značajnosti razlike dve sredine, a zasniva se na upoređivanju dve
aritmetičke sredine iz dva uzorka koji mogu biti nezavisni ili zavisni.

Zaključivanje o jednakosti aritmetičkih sredina dva osnovna skupa na osnovu


nezavisnih prostih slučajnih uzoraka
Kod ovog vida testiranja polazna pretpostavka glasi: H 0 : µ1 =µ 2. Dakle polazi se od
pretpostavke da u uticaju dva ispitivana tretmana na eksperimentalne jedinice uzoraka
nema statistički značajne razlike. Suprotna pretpostavka, odnosno alternativna hipoteza
kod ovog testa glasi:
H1 : µ1 ≠ µ 2 , što znači da se podrazumeva da je uticaj ispitivanih tretmana statistički
značajno različit.
Za proveru ove hipoteze takođe postoje dva slučaja:
1. kada su poznate standardne devijacije ili varijanse osnovnih skupova
2. kada nisu poznate standardne devijacije ili varijanse osnovnih skupova već ih
ocenjujemo na osnovu uzoraka

Testiranje značajnosti razlike dve aritmetičke sredine u slučaju kada su poznate


varijanse osnovnih skupova
Kod prvog slučaja kada su poznate varijanse osnovnih skupova nulta hipoteza se prove-
rava izračunavanjem količnika Z. Da bi se izveo test u ovom slučaju, potrebno je najpre
izračunati standardnu grešku razlike aritmetičkih sredina uzoraka na osnovu sledećeg
izraza:
σ2 σ2
σ(X −X ) = 1 + 2 ,
1 2 n1 n 2

gde su σ12 i σ22 varijanse osnovnih skupova, a n1 i n 2 veličine uzoraka.


Na osnovu prosečnih vrednosti utvrđenih na osnovu uzoraka i na osnovu izračunate
standardne greške dobija se vrednost količnika:
Χ1 − Χ 2
Ζ= .
σ Χ −Χ
( 1 2 )
U svrhu donošenja zaključka o postavljenoj hipotezi izračunata vrednost količnika se
upoređuje sa odgovarajućim kritičnim vrednostima iz tablice normalne distribucije, naj-
češće za pragove značajnosti 5% i 1%.. Ako je apsolutna vrednost izračunatog količnika
Z jednaka ili veća od kritičnih vrednosti ima osnova za odbacivanje nulte hipoteze i
prihvatanje alternativne hipoteze.
Provera hipoteze o značajnosti razlike dve sredine može da se izvede i izračunavanjem
odgovarajućeg (1 − α) ⋅ 100% intervala poverenja.
( Χ1 − Χ 2 ) − Ζα ⋅ σ( Χ1−Χ2 ) < µ1 − µ2 < ( Χ1 − Χ 2 ) + Ζα ⋅ σ( Χ1−Χ2 )
Nulta hipoteza H 0 : µ1 =µ 2 je ekvivalentna tvrđenju H 0 : µ1 − µ 2 = 0.

60
Ukoliko granice izračunatog intervala uključuju nulu ima osnova za prihvatanje nulte
hipoteze, u suprotnom ako nula ne pripada granicama utvrđenog intervala odbacuje se
nulta a prihvata altermnativna hipoteza.

Primer:
Ishranom dve ogledne grupe od po 45 svinja iste rase obrocima različitih sastava ostva-
ren je prosečan dnevni prirast od 695 gr i 745 gr. Varijanse posmatranog obeležja su
1932 i 2144. Ispitati da li ishrana različitog sastava dovodi do razlika u prosečnom
dnevnom prirastu svinja.
n1 = 45 n 2 = 45
H 0 : µ1 =µ 2
Χ1 =695 gr Χ2 =745 gr H1 : µ1 ≠ µ 2
σ12 =1932 σ22 =2144

σ12 σ22 695 − 745


σ(X −X ) = + =
1932 2144
+ = 9,517 Ζ= = −5,254**
1 2 n1 n 2 45 45 9,517
Ζ 0, 05 = 1,96 =
Ζ 5, 25 > 2,58 ⇒ H1
Ζ 0, 01 = 2,58 =
Ζ 5, 25 > 1,96 ⇒ H1

Kako se nulta hipoteza odbacuje na pragovima značajnosti 5% i 1%, može da se zaključi


da postoji statistički visoko značajna razlika u prosečnom dnevnom prirastu svinja u
zavisnosti od sastava obroka.

Provera hipoteze primenom intervala poverenja:


α =0,05
( Χ1 − Χ 2 ) − Ζα ⋅ σ( Χ1−Χ2 ) < µ1 − µ2 < ( Χ1 − Χ 2 ) + Ζα ⋅ σ( Χ1−Χ2 )
( 695 − 745) − 1,96 ⋅ 9,517 < µ1 − µ2 < ( 695 − 745) + 1,96 ⋅ 9,517(g)
−68,65 < µ1 − µ 2 < −31,35 (g)

0 ∉ ( −68,65, −31,35 ) ⇒ H1
α =0,01

( 695 − 745) − 2,58 ⋅ 9,517 < µ1 − µ2 < ( 695 − 745) + 2,58 ⋅ 9,517
−74,55 < µ1 − µ 2 < −25,45 (g)

0 ∉ ( −74,55, −25,45 ) ⇒ H1
Testiranje značajnosti razlike dve aritmetičke sredine u slučaju kada nisu poznate
varijanse osnovnih skupova
Pretpostavljajući da su nepoznate varijanse osnovnih skupova jednake (homogene) tj.
σ12 =σ22 =σ2 , standardna greška razlike aritmetičkih sredina dva nezavisna slučajna
uzoraka je:
 1 1 
σ(X −X ) =σ2  + .
1 2
 n1 n 2 

61
Test kriterijum je oblika:
Χ1 − Χ 2
t= ,
(
S Χ −Χ
1 2 )
i zasniva se na tome da se nepoznate varijanse osnovnih skupova zamenjuju njihovim
ocenama na osnovu uzoraka. Utvrđena vrednost količnika t upoređuje se sa kritičnim
vrednostima t-distribucije za [(n1-1) +(n2-1)] stepeni slobode.
Izračunavanje ocenjene standardne greške razlike dve sredine uslovljeno je veličinom
uzoraka na osnovu kojih se ocena izvodi.
Ako su uzorci sa nejednakim brojem jedinica n1 ≠ n 2 izračunavanje se izvodi na sledeći
način:
 1 1 
S Χ −Χ& = S12+ 2 ⋅  + .
( 1 2)  n1 n 2 

Ako su uzorci sa jednakim brojem jedinica n= 2 n koristi se sledeći izraz:


1 n=

2 ⋅ S12+ 2
S Χ −Χ =
( 1 2) n
U oba slučaja da bi se dobila vrednost ocenjene standardne greške dve sredine najpre se
izračunava združena varijansa s12+ 2 koja je ocena nepoznate varijanse σ2 . Združena
varijansa se može izračunati na dva načina:
1. na bazi odstupanja vrednosti obeležja od proseka
2. direktno iz podataka
Na osnovu toga združenu varijansu, ako su podaci u uzorcima negrupisani, možemo
utvrditi na sledeće načine:
2 ( ΣΧ1i ) ( ΣΧ 2i )
2 2
2
Σ ( Χ1i − Χ1 ) + Σ ( Χ 2i − Χ 2 )
2 2 ΣΧ1i − + ΣΧ 2i −
2 n1 n2
S1+ 2 = 2
S1+ 2 =
n1 + n 2 − 2 n1 + n 2 − 2
Ako su podaci u uzorcima dati kao distribucija frekvencija, združena varijansa se
izračunava pomoću sledećih izraza:
2
Σf1i Χ1i −
( Σf1i Χ1i )
2
2
+ Σf 2i Χ 2i −
( Σf 2i Χ 2i )
2

Σf1i ( Χ1i − Χ1 ) + Σf 2i ( Χ 2i − Χ 2 )
2 2
2 2 n1 n2
S1+ 2 = S1+ 2 =
n1 + n 2 − 2 n1 + n 2 − 2
Kod grupisanih podataka u uzorcima treba imati u vidu da veličina uzoraka predstavlja
sumu frekvencija, odnosno: Σf1= n1 i Σf 2= n 2 .
Združena varijansa može da se izrazi kao ponderisana aritmetička sredina ocena varijansi
osnovnih skupova na osnovu uzoraka:
(n1 − 1) ⋅ S12 + (n 2 − 1) ⋅ S22
S12+ 2 = .
n1 + n 2 − 2
Apsolutna izračunata vrednost količnika t upoređuje se sa kritičnim vrednostima iz tablica
Studentove distribucije za [(n1-1) +(n2-1)] stepeni slobode i različite pragove značajnosti,
obično 5% i 1%. Ukoliko je apsolutna vrednost izračunatog količnika manja od
odgovarajućih kritičnih vrednosti ima osnova za prihvatanje nulte hipoteze. U suprotnom
vrednost količnika veća ili jednaka od odgovarajućih kritičnih vrednosti rezultira

62
prihvatanjem alternativne hipoteze. Za donošenje zaključka o postavljenoj hipotezi
vrednost količnika t može se uporediti i sa kritičnim vrednostima iz tablica ND ako je
n1 + n 2 − 2 >30.

Testiranje postavljene nulte hipoteze i u ovom slučaju možemo izvesti izračunavanjem


odgovarajućeg intervala poverenja:

( Χ1 − Χ 2 ) − t n1+n 2 −2;α ⋅ S( Χ1−Χ2 ) < µ1 − µ2 < ( Χ1 − Χ 2 ) + t n1+n 2 −2;α ⋅ S( Χ1−Χ2 ) .


Ako je stepen slobode n1 + n 2 − 2 >30, t n + n − 2;α ≈ N(0,1), tako da može da se primeni
1 2
formula:
( Χ1 − Χ 2 ) − Ζα ⋅ S( Χ1−Χ2 ) < µ1 − µ2 < ( Χ1 − Χ 2 ) + Ζα ⋅ S( Χ1−Χ2 ) .
Osnov za prihvatanje nulte hipoteze je da nula pripada granicama izračunatog intervala.

Primer:
Pri ispitivanju uticaja dve vrste hrane u ishrani junadi postavljen je ogled sa dve grupe
grla, čiji su rezultati dati u tabeli. Utvrditi da li različita ishrana utiče na prosečan dnevni
prirast grla.

Rasa A Rasa B
f1 Χ1 f2 Χ 2 f1 Χ12 f 2 Χ 22
Prirast Broj grla Prirast Broj grla
X1 f1 X2 f2

1,40 4 1,31 7 5,60 9,17 7,84 12,01


1,38 5 1,37 4 6,90 5,48 9,52 7,51
1,41 11 1,39 15 15,51 20,85 21,87 28,98
1,35 3 1,33 10 4,05 13,30 5,47 17,69
1,42 8 1,35 4 11,36 5,40 16,13 7,29
1,37 9 1,36 5 12,33 6,80 16,89 9,25

40 45 55,75 61,00 77,72 82,73

Σf1Χ1 55,75
H 0 : µ1 =µ 2 =
Χ1 = = 1,394 kg
n1 40
H1 : µ1 ≠ µ 2 Σf 2 Χ 2 61
Χ2= = = 1,356 kg
n2 45

Σf1Χ1i2 −
( Σf1Χ1i )2 + Σf
Χ 2

( Σf 2 Χ 2i ) 2
( 55,75 )
2
( 61)
2
2 2i 77,72 − + 82,73 −
n1 n2 40 45
S12+ 2 = = 0,00072
n1 + n 2 − 2 40 + 45 − 2

 1 1   1 1 
S Χ −Χ& = S12+ 2 ⋅  +
( 1 2) 
 n1 n 2  ( 1=
S Χ −Χ
2)
0,00072 ⋅  +=  0,006 kg
 40 45 
Χ1 − Χ 2 1,394 − 1,356
=t = = 6,333**
(
S Χ −Χ
1
0,006
2 )
63
Kako je t83 ≈ N(0,1) koriste se kritične vrednosti Ζ0,05 =
1,96 i Ζ0,01 =
2,58.
t > Ζ0,05 ⇒ H1
t > Ζ0,01 ⇒ H1

Provera hipoteze putem intervala poverenja:


n1 + n 2 − 2 > 30
α =0,05
( Χ1 − Χ 2 ) − Ζα ⋅ S( Χ1−Χ2 ) < µ1 − µ2 < ( Χ1 − Χ 2 ) + Ζα ⋅ S( Χ1−Χ2 )
(1,394 − 1,356 ) − 1,96 ⋅ 0,006 < µ1 − µ 2 < (1,394 − 1,356 ) + 1,96 ⋅ 0,006
0,026 < µ1 − µ 2 < 0,05.
0 ∉ ( 0,026,0,05 ) ⇒ H1
α =0,01
(1,394 − 1,356 ) − 2,58 ⋅ 0,006 < µ1 − µ 2 < (1,394 − 1,356 ) + 2,58 ⋅ 0,006
0,023 < µ1 − µ 2 < 0,053
0 ∉ ( 0,023,0,054 ) ⇒ H1

5.2. Testovi proporcija


Kod testiranja proporcija imamo dva osnovna vida testiranja:
1. kada upoređujeno proporciju iz uzorka sa pretpostavljenom proporcijom osnovnog
skupa ili sa nekom teorijskom vrednošću – test značajnosti jedne proporcije
2. kada upoređujemo dve proporcije iz dva nezavisna uzorka- test značajnosti razlike
dve proporcije.

5.2.1. Testirnje hipoteze o proporciji osnovnog skupa


Pri testiranju jednakosti proporcije uzorka sa pretpostavljenom proporcijom osnovnog
skupa polazi se od sledeće nulte i alternativne hipoteze:
H 0 : p = p0
H1 : p ≠ p0 .
Za proveru nulte hipoteze izračunava se količnik Z :
p̂ − p
Z= .
Sp̂

Pretpostavljajući nultu hipotezu Z količnik ima približno standardnu normalnu raspodelu


ako se testiranje izvodi na osnovu velikog uzorka i ako je ispunjeno np>5 i nq>5. U tom
slučaju izračunati količnik upoređujemo sa vrednostima iz tablice ND. Osnov za
odbacivanje nulte hipoteze je vrednost izračunatog količnika veća ili jednaka kritičnim
vrednostima iz odgovarajućih tablica.
U slučaju malog uzorka u testiranju se koristi činjenica da p̂ ima binomnu raspodelu.

64
Proveru hipoteze o značajnosti jedne proporcije možemo izvesti i izračunavanjem
intervala poverenja koji je u slučaju da je n veliko i np>5 i nq>5:
pˆ − Zα ⋅ Spˆ < p < pˆ + Zα ⋅ Spˆ
Ukoliko pretpostavljena vrednost proporcije osnovnog skupa pripada granicama
utvrđenog interval ima osnova za prihvatanje nulte hipoteze kao tačne.

Primer:
U uzorku od 164 grla jedne rase goveda sa dužinom trupa ispod 160 cm bilo je 52 grla.
Može li se doneti zaključak da je kod posmatrane rase učešće grla sa dužinom trupa ispod
160 cm 40 %?
n = 164
H 0 : p = 0, 4
a = 52
H1 : p ≠ 0, 4
p0 = 0, 4
ˆˆ
pq 0,317 ⋅ 0,683
a 52 =
Sp̂ = = 0,036
p̂= = = 0,317 n 164
n 164
q̂ =
1 − 0,317 = p̂ − p 0,317 − 0, 4
0,683 Z= = = −2,306*
Sp̂ 0,036

Z > Ζ0,05 ⇒ H1
Z < Ζ0,01 ⇒ H 0

Može da se zaključi da se proporcija grla sa dužinom ispod 160 cm u osnovnom skupu iz


koga je izabran uzorak statistički značajno, ali ne i visoko značajno, razlikuje od
pretpostavljene vrednosti 40%.

Testiranje hipoteze izračunavanjem intervala poverenja:


α =0, 05
ˆ − Ζ 0,05 ⋅ Spˆ < p < p
p ˆ + Ζ 0,05 ⋅ Spˆ
0, 317 − 1, 96 ⋅ 0, 036 < p < 0, 317 + 1, 96 ⋅ 0, 036
0, 246 < p < 0, 388
0, 4 ∉ ( 0, 246, 0, 388 ) ⇒ H1

α =0, 01
ˆ − Ζ0,01 ⋅ Spˆ < p < p
p ˆ + Ζ0,01 ⋅ Spˆ
0, 317 − 2, 58 ⋅ 0, 036 < p < 0, 317 + 2, 58 ⋅ 0, 036
0, 224 < p < 0, 410
0, 4 ∈ ( 0, 224, 0, 410 ) ⇒ H 0

65
5.2.2. Test značajnosti razlike dve proporcije
Pri testitaranju značajnosti razlike dve proporcije iz dva nezavisna uzorka u slučaju
dvostranog tepolazi se od sledeće nulte i alternativne hipoteze: H 0 : p1 = p 2 , H1 : p1 ≠ p 2 .

Ukoliko su veliki uzorci i ispunjeno n1p1 > 5, n1q1 > 5, n 2 p 2 > 5, n 2q 2 > 5, polazna
hipoteza proverava se izračunavanjem sledećeg količnika:
pˆ 1 − pˆ 2
Ζ= .
S( pˆ −pˆ )
1 2
Da bi se došlo do vrednosti količnika na osnovu kog će se proveriti polazna pretpostavka,
treba prvo utvrditi ocenjene vrednosti proporcija uzoraka, kao i standardnu grešku razlike
dve proporcije. Ocenjene proporcije iz uzoraka dobijaju se na osnovu sledećih izraza:
a1 a2
= pˆ 1 = ; pˆ 2 .
n1 n2
Ocenjena standardna greška razlike dve proporcije iz uzoraka može se izračunati
primenom dva izraza:
2 ⋅ pq  1 1 
S( pˆ −pˆ ) = S=
( 1 2)
ˆ
p − ˆ
p pq  + .
1 2 n1 + n 2  n1 n 2 
Da bi se izračunala standardna greška prvo se izračunava prosečna proporcija na osnovu
dva uzorka: pˆ 1n1 + pˆ 2 n 2 a1 + a 2
= p = ; p q = 1 − p.
n1 + n 2 n1 + n 2
Izračunati količnik Z upoređuje se sa kritičnim vrednostima iz tablica normalne distri-
bucije. Ako je izračunata vrednost količnika manja od odgovarajućih kritičnih vrednosti
iz tablice ima osnova da se prihvati polazna, odnosno nulta hipoteza i zaključi da je
posmatrana karakteristika podjednako zastupljena u osnovnim skupovima iz kojih su
izabrani uzorci.
Testiranje ove hipoteze možemo izvesti i izračunavanjem intervala poverenja. Nulta
hipoteza se može prihvatiti kao tačna ukoliko granice izračunatog intervala uključuju 0 i
suprotno ako 0 ne pripada granicama izračunatog intervala odbacuje se nulta i prihvata
alternativna hipoteza.
( pˆ1 − pˆ 2 ) − Ζα ⋅ S( pˆ −pˆ ) < p1 − p2 < ( pˆ1 − pˆ 2 ) + Ζα ⋅ S( pˆ −pˆ )
1 2 1 2

0 ∈ ( L1 , L 2 ) ⇒ H 0
0 ∉ ( L1 , L 2 ) ⇒ H1
Primer:
U uzorcima od po 110 grla, goveda dve rase obolela grla učestvuju sa 6 % i 13 %.
Utvrditi da li je otpornost dve posmatrane rase goveda prema ispitivanoj bolesti ista.

n1 = 110 H 0 : p1 = p 2
p̂1 = 0, 06 H1 : p1 ≠ p 2
n 2 = 110 pˆ − pˆ 2
Ζ= 1 .
p̂ 2 = 0,13 S( pˆ −pˆ )
1 2

pˆ 1n1 + pˆ 2 n 2 0,06 ⋅ 110 + 0,13 ⋅ 110


=p = = 0,095 q =1 − p =0,905
n1 + n 2 110 + 110
66
I način izračunavanja ocenjene standardne greške razlike dve proporcije:

 1 1   1 1 
S( pˆ −pˆ = pq  + = 0, 095 ⋅ 0,905 ⋅  + = 0, 0396
1 2)
 n1 n 2   110 110 

0,06 − 0,13 Ζ 0, 05 = 1,96 Z = 1,77 < 1,96 ⇒ H 0


Ζ= = −1,768
0,0396 Ζ 0, 01 = 2,58
Proporcije obolelih grla dve posmatrane rase goveda se statistički značajno ne razlikuje.

Provera hipoteze na osnovu intervala poverenja:


α =0, 05
( pˆ 1 − pˆ 2 ) − Ζα ⋅ S( pˆ1−pˆ 2 ) < p1 − p 2 < ( pˆ 1 − pˆ 2 ) + Ζα ⋅ S( pˆ1−pˆ 2 )
( 0, 06 − 0,13) − 1, 96 ⋅ 0, 0396 < p1 − p 2 < ( 0, 06 − 0,13) + 1, 96 ⋅ 0, 0396
−0,148 < p1 − p 2 < 0, 008
0 ∈ ( −0,148, 0, 008 ) ⇒ H 0

II način izračunavanja ocenjene standardne greške razlike dve proporcije:

2 ⋅ pq 2 ⋅ 0,095 ⋅ 0,905
=
S( pˆ −pˆ ) = = 0,028
1 2 n1 + n 2 110 + 110

0,06 − 0,13 Ζ 0, 05 = 1,96 Ζ > Ζ0,05 ⇒ H1


Ζ= = −2,5*
0,028 Ζ 0, 01 = 2,58 Ζ < Ζ0,01 ⇒ H 0

Provera hipoteze na osnovu intervala poverenja:


α =0, 05
( pˆ 1 − pˆ 2 ) − Ζα ⋅ S( pˆ1−pˆ 2 ) < p1 − p 2 < ( pˆ 1 − pˆ 2 ) + Ζα ⋅ S( pˆ1−pˆ 2 )
( 0, 06 − 0,13) − 1, 96 ⋅ 0, 028 < p1 − p 2 < ( 0, 06 − 0,13) + 1, 96 ⋅ 0, 028
−0,125 < p1 − p 2 < −0, 015
0 ∉ ( L1 , L 2 ) ⇒ H1

5.3. Analiza varijanse (ANOVA)


U istraživačkom radu često se proverava postojanje razlika između više od dve arit-
metičkih sredina istog ili različitih osnovnih skupova. Statistički postupak kod ovakvih
istraživanja poznat je pod nazivom analiza varijanse (ANOVA). Statističar i genetičar
Ronald Fišer je uveo termin 1918. i razvio metod analize varijanse 1925. godine.
Analiza varijanse se sastoji u ispitivanju varijabiliteta aritmetičkih sredina iz više slučajno
odabranih uzoraka, pri čemu se ukupan varijabilitet (ukupna varijansa) razdvaja na
sastavne delove, odnosno na varijabilitet koji nastaje usled uticaja primenjenih tretmana i
na slučajan varijabilitet.

67
5.3.1. Analiza varijanse potpuno slučajnog rasporeda (prostog slučajnog
rasporeda)
U analizi varijanse potpuno slučajnog rasporeda polazimo od k uzoraka (tretmana) i
izračunavamo njihove aritmetičke sredine. Aritmetička sredina svakog od k uzoraka
definisana je na sledeći način: ni
Σ Χij
j=1
Χ i• =
ni
gde je:
ni – broj jedinica u uzorku
Xij – vrednost obeležja j-te jedinice i-tog tretmana
Pored aritmetičke sredine svakog od k uzoraka, izračunava se i opšta sredina svih N
jedinica iz svih uzoraka definisana sledećim izrazom:
k ni
Σ Σ Χij k
=i 1 =j 1 T
= Χ•• = N = Σ ni
k N i =1
Σ ni
i =1
Zbir vrednosti obeležja svih N jedinica se naziva total i označava T.
Ako su svi uzorci jednake veličine , odnosno sa jednakim brojem ponavljanja (n) ukupan
broj jedinica u analizi varijanse (N) može se iskazati na sledeći način:
=
n n=
1 n= = nk
2 .....
N= n ⋅ k
Varijabilitet koji nastaje primenom odabranih k tretmana na N jedinica, u analizi
varijanse iskazuje se na osnovu odstupanja svake individualne vrednosti obeležja od opšte
sredine:
( )
Χij − Χ•• = ( Χi• − Χ•• ) + Χij − Χi• ( )
Ako se navedeni izraz kvadrira dobijaju se odgovarajuće sume kvadrata:
k ni k ni
( ) ( )
k
= Σ ( Χi• − Χ•• ) + Σ Σ Χ ij − Χ i•
2 2 2
Σ Σ Χij − Χ••
=i 1 =j 1 =i 1 =i 1 =j 1
=
Q QT + Q P

k ni
( )
2
Σ Σ Χij − Χ•• - Suma kvradrata totala Q
=i 1 =j 1
k
Σ ( Χi• − Χ•• )
2
- Suma kvadrata tretmana QT, (suma kvadrata između grupa; suma
i =1 kvadrata objašnjene varijacije)
k ni
( )
2
Σ Σ Χij − Χi• - Suma kvadrata pogreške QP (suma kvadrata unutar grupa; suma
=i 1 =j 1 kvadrata neobjašnjene varijacije)
Na osnovu definisanih suma kvadrata proverava se polazna hipoteza u primeni metoda
analize varijanse. Polazna pretpostavka u analizi varijanse potpuno slučajnog rasporeda
glasi:
H 0 : µ1 =µ 2 =µ3 =.... =µ k

68
Alternativna hipoteza definisana je na sledeći način:
H1 : ∃(i, j) i ≠ j µi ≠ µ j 1 ≤ i ≤ k, 1 ≤ i ≤ k.
Nultom hipotezom se tvrdi da su aritmetičke sredine k-osnovnih skupova jednake, dok je
tvrđenje alternativne hipoteze da postoji bar jedan par aritmetičkih sredina koji se
razlikuje.
Polazna hipoteza proverava se izvođenjem F testa. Za izvođenje ovog testa formira se
tabela analize varijanse.

Izvori Stepeni Sume Sredine F - tablično


F- odnos
varijacije slobode kvadrata suma kvadrata
(varijanse) 0,05 0,01

Tretmani k-1 QT ST2 ST2/SP2 r1=k-1 r2=N-k

Pogreška N-k QP SP2

Total N-1 Q

Sume kvadrata se u praktičnom radu izračunavaju se primenom sledećih radnih formula:


k ni 2
Q = Σ Σ Χij2 − C  k ni 
=i 1 =j 1  Σ Σ Χij 
=i 1 =j 1
C – je korektivni faktor koji se izračunava kao: C= 
N
k ni T2
Ako se uvede da je Σ Σ Χij =T , korektivni factor se može iskazati kao C = .
=i 1 =j 1 N
U praktičnom radu kao sledeća izračunava se suma kvadrata tretmana QT. U opštem
slučaju ukoliko su tretmani primenjeni na različitom broju jedinica, QT se izračunava na
sledeći način:
2
 ni  k T2
ΣΧ 
k j=1 ij ni QT = Σ i − C.
QT = Σ  −C Σ Χij =Ti i =1 n i
i =1 ni j=1

Ako su tretmani sa jednakim brojem ponavljanja QT se izračunava na sledeći način:


n=1 n= = n=
2 .... k n k
2 n Σ Ti2
 n 
k
Σ Χij =Ti = i =1 −C
Σ  Σ Χij  j=1
QT
=i 1 =j 1  −C n
=QT
n
Na osnovu izračunate sume kvadrata totala i sume kvadrata tretmana dolazi se do
vrednosti sume kvadrta pogreške:
Q P= Q − QT

69
Sredine suma kvadrata, odnosno varijanse izračunavaju se kao količnik suma kvadrata i
odgovarajućih stepeni slobode.
Q
Varijansa tretmana jednaka je : ST2 = T
k −1
QP
Varijansa pogreške jednaka je: S2P =
N−k

Za proveru polazne pretpostavke izračunava se F odnos koji je količnik izračunatih


varijansi i uvek je vrednost veća od nule.
S2
F = T2
SP
U svrhu donošenja zaključka o polaznoj pretpostavci F količnik upoređujemo sa kritičnim
vrednostima iz tablica Fišerove distribucije, koje se očitavaju za prag značajnosti α i
stepene slobode r1 i r2. Ukoliko je vrednost izračunatog količnika F manja od kritičnih
vrednosti iz tablica nulta hipoteza se može prihvatiti kao tačna. Prihvatanje polazne
hipoteze ukazuje da između primenjenih tretmana ne postoje statistički značajne razlike u
dejstvu tretmana na eksperimentalne jedinice i time se analiza varijanse završava.
Nasuprot tome, ukoliko je vrednost izračunatog količnika F veća od kritičnih vrednosti iz
tablica, odbacuje se nulta i prihvata alternativna hipoteza kao tačna. Ako se polazna
hipoteza ne prihvati, već se utvrdi postojanje značajnih ili vrlo značajnih razlika između
bilo koja dva primenjena tretmana, analiza varijanse se dalje nastavlja, da bi se utvrdilo
između kojih tretmana postoje statistički značajne razlike. U nastavku analize varijanse
primenjuju se testovi parova tretmana, na osnovu kojih se utvrđuje između kojih tretmana
postoje značajne ili vrlo značajne razlike.
Za testiranje razlika između sredina tretmana najčešće koristimo sledeće testove:
- t – test
- test najmanje značajne razlike – NZR test
- višestruki test intervala – Dankanov test.
Primenom ovih testova moguće je izvesti više upoređenja između aritmetičkih sredina
tretmana. Broj mogućih upoređenja uslovljen je brojem ispitivanih tretmana, a može se
odrediti na osnovu sledećeg izraza:
k ( k − 1)
2
5.3.1.1. t – test
Polazna i alternativna hipoteza kod ovog testiranja glase:
H 0 : µi =µ j
H1 : µi ≠ µ j
(i < j), 1 ≤ i ≤ k, 1 ≤ j ≤ k.
Za izvođenje ovog testa i proveru postavljene hipoteze utvrđuje se količnik t:
Χi − Χ j
t=
(
S Χ −Χ
i j )
70
gde su:
Χi , Χ j - aritmetičke sredine ispitivanih tretmana

(
S Χ −Χ
) - ocena standardne greške razlike dve aritmetičke sredine.
i j

Ako su tretmani primenjeni na jednakom broju jedinica, odnosno ako je reč o jednakom
broju ponavljanja kod svakog ispitivanog tretmana, ocena standardne greške razlike dve
sredine izračunava se na osnovu varijanse pogreške iz tabele analize varijanse primenom
sledećeg izraza:
n=
i n=
j n

2 ⋅ S2p
S Χ −Χ =
( i j ) n
Ukoliko su ispitivani tretmani primenjivani na nejednakom broju ponavljanja to treba
uzeti u obzir prilikom izračunavanja ocene standardne greške razlike dve sredine, pa se
ona u ovom slučaju izračunava na sledeći način:

1 1 
S Χ −Χ = S2p ⋅  + 
( i j )  ni n j 
 
Izračunati količnik t upoređuje se sa kritičnim vrednostima iz tablica Studentove
distribucije očitanim za prag značajnosti α i stepen slobode pogreške (N-k). Apsolutna
vrednost količnika t manja od kritičnih vrednosti iz tablica podrazumeva prihvatanje nulte
hipoteze o jednakom dejstvu dva ispitivana tretmana. U suprotnom ako je vrednost
količnika veća od kritičnih vrednosti prihvata se alternativna hipoteza i zaključuje da
između dva posmatrana tretmana postoje statistički značajne razlike u dejstvu na
eksperimentalne jedinice.

5.3.1.2. Test najmanje značajne razlike – NZR test


Polazna i alternativna hipoteza kod testa najmanje značajne razlike glase:
H 0 : µi =µ j
H1 : µi ≠ µ j
(i < j), 1 ≤ i ≤ k, 1 ≤ j ≤ k.
Za izvođenje NZR testa prvo se izračunavaju najmanje značajne razlike:
= t N −k;α ⋅ S Χ −Χ
NZR α ( i j )
Zatim se kod ovog testa formira pomoćna tabela gde se u prvoj koloni, aritmetičke
sredine tretmana uređene prema veličini u vertikalnom nizu od maksimalne do minimalne
vrednosti.
U sledeće kolone se unose razlike aritmetičkih sredina tretmana, koje su uvek pozitivne
vrednosti. Razlike sredina tretmana upoređuju se sa izračunatim najmanje značajnim
razlikama.
Na primer: Ako je u analizi varijanse primenjeno četiri tretmana A, B, C i D.
Najveću prosečnu vrednost ima tretman A, pa tretman B, zatim tretman C i najmanju
vrednost sredine tretman D. Tabela za NZR test bi imala sledeći izgled:

71
Tretman Χi Χi − Χ D Χi − Χ C Χi − Χ B

A max ΧA ‫٭‬ ‫٭‬ ‫٭‬


B . ΧB ‫٭‬ ‫٭‬
C . ΧC ‫٭‬
D min ΧD

Pravilo odlučivanja je:


Χi − Χ j < NZR α ⇒ H o
Χi − Χ j ≥ NZR α ⇒ H1

5.3.1.3. Višestruki test intervala – Dankanov test


Nulta i alternativna hipoteza su i kod višestrukog testa intervala formulisane na isti način
kao i kod prethodna dva testa:
H 0 : µi =µ j
H1 : µi ≠ µ j
Izvođenju ovog testa prethodi izračunavanje ocene standardne greške aritmetičke sredine
na osnovu varijanse pogreške iz tabele analize varijanse kao i na osnovu broja
ponavljanja u tretmanima:
S2p
SΧ = .
n
Pretpostavka za primenu ovog testa je jednak broj ponavljanja kod svakog ispitivanog
tretmana.
Formiraju se zatim dve tabele za dva praga značajnosti (α = 0,05 i α= 0,01) sledećeg
oblika:

Interval 2 3 4 ..... k

Kritična vrednost

Najmanje značajni interval

U tabeli u prvom redu upisuju mogući intervali na osnovu broja posmatranih tretmana.
Zatim se očitavaju kritične vrednosti iz tablica za višestruki test intervala za date pragove
značajnosti α i stepene slobode pogreške iz tabele analize varijanse i to za svaki interval
idući od 2, 3, 4,.....k, koje se upisuju u drugi red tabele. Očitane i upisane kritične
vrednosti množe se sa izračunatom ocenom standardne greške aritmetike sredine, a
proizvod predstavlja vrednost najmanjeg značajnog intervala i njega upisujemo u treći red
tabele.

72
Sa najmanje značajnim intervalima upoređujemo razlike aritmetičkih sredina tretmana.
Aritmetičke sredine tretmana rangiraju se u pomoćnoj tabeli u horizontalnom nizu od
minimalne do maksimalne vrednosti.
Na primer: da je u analizi varijanse primenjeno četiri tretmana A, B, C i D.
Najveću prosečnu vrednost ima tretman A, pa tretman B, zatim tretman C i najmanju
vrednost sredine tretman D.

Tretman D C B A
min . . . . . max

Χi ΧD ΧC ΧB ΧA

ΧA − ΧD ΧB − ΧD ΧC − Χ D
Χ A − ΧC Χ B − ΧC
ΧA − ΧB
Najveća kritična vrednost se koristi kod poređenja aritmetičkih sredina između kojih je k-
1(3) intervala, Χ A − Χ D . Prva manja kritična vrednost se koristi kod poređenja sredina
između kojih je k-2(2) intervala, a to su poređenja Χ A − Χ C i Χ B − Χ D . Najmanja
kritična vrednost za poređenje sredina između kojih je 1 interval. U navedenom primeru
to su poređenja: Χ A − Χ B , Χ B − Χ C i Χ C − Χ D .
Kako su t-test i NZR test ekvivalentni, njihovom primenom se dolazi do istog zaključka.
Ukoliko broj ponavljanja tretmana nije isti, primenjuje se t-test. U slučaju jednakog broja
tretmana, zbog preglednijeg prikazivanja rezultata, češće se primenjuje NZR (eng. LSD)
test. Ako je veliki broj poređenja ova dva testa nisu objektivna jer je verovatnoća da se
pogrešno zaključi da je razlika dva tretmana statistički značajna veća od izabranog praga
značajnosti α. U tom slučaju se preporučuje višestruki intervalni test.
Primer: Na osnovu podataka dobijenih u eksperimentu po planu potpuno slučajnog
rasporeda, ispitati da li postoji statistički značajna razlika u prosečnoj dnevnoj mlečnosti
simentalskih krava u zavisnosti od načina ishrane u toku laktacije od 306 dana. Uporediti
značajnost razlike parova tretmana primenom t – testa, NZR testa i višestrukog
intervalnog testa.

Način ishrane
Krava I II III
1 8,3 6,1 9,6
2 10,2 9,1 12,0
3 10,5 10,1 13,8
4 11,7 10,5 14,2
5 12,3 10,8 15,1
Ti 53,0 46,5 64,7 164,20
Prosek 10,6 9,3 12,94

73
k = 3, n = 5, N = 5 ⋅ 3 = 15
H 0 : µ I =µ II =µ III
H1 : ∃(i, j) µi ≠ µ j (i ≠ j, i, j =I, II, III)

Izvori Stepeni Sume Sredine F - tablično


F- odnos
varijacije slobode kvadrata suma kvadrata
(varijanse) 0,05 0,01

Tretmani 2 34,0253 17,01227 4,72* 3,88 6,93

Pogreška 12 43,252 3,6043

Total 14 77,2773

k ni
Q = Σ Σ Χ ij 2 − C = 8,32 + 6,12 + 9,6 2 + ........ + 15,12 − C
i =1 j =1
2
 k ni 
 Σ Σ Χij 
i= 1 =j 1 164, 22
=C  = = 1797, 4427
N 15
k ni
Q = Σ Σ Χ ij 2 − C = 1874,72 − 1797,4427 = 77,2773
i =1 j =1
n1 = n2 = .... = nk
k
Σ Ti2
532 + 46,5 2 + 64,7 2
QT = i =1 −C = − 1797,4427 = 34,0253
n 5
QP = Q − QT = 77,2773 − 34,0253 = 43,252

Q 34,0253 2= QP 43,252
ST2 = T = = 17,01227 SP = = 3,6043
k −1 2 N −k 12
ST2 17,0127 F2,12;0,05 =3,88 F > F0,05 ⇒ H1
F= = = 4,72*
2 3,6043
SP F2,12;0,01 =6,93 F < F0,01 ⇒ H 0

t – test
H 0 : µi =µ j Χi − Χ j
k ( k − 1) 3 ⋅ ( 3 − 1) t=
H1 : µi ≠ µ j = = 3
2 2 ( i j)
S Χ −Χ

2 ⋅ S2p 2 ⋅ 3,6043
S Χ= = = 1,2
( −Χi j ) n 5
Χ I − Χ II 10,6 − 9,3 t 12;0,05 = 2,179
=t1 = = 1,08
(
S Χ −Χ
i j )
1, 2
t 12;0,01 = 3, 055

74
Χ I − Χ II 10,6 − 12,94 t < t N −K;α ⇒ H 0
t2 = = = −1,95
(
S Χ −Χ
i
1, 2
j ) t > t N −K;α ⇒ H1

Χ II − Χ III 9,3 − 12,94


t3 = = = −3,03*
(
S Χ −Χ
i
1, 2
j )
NZR test
=
NZR α t N − k;α ⋅ S( Χ −Χ )
i j

t12;0,05 = 2,179
2 ⋅ S2p 2 ⋅ 3,6043
= = = 1, 2 t12;0,05 = 3,055

(−Χ i j ) n 5
NZR 0,05= 2,179 ⋅ 1, 2= 2,615
NZR 0,01= 3,055 ⋅ 1, 2= 3,666

Tretman Χi Χi − Χ II Χi − Χ I

III 12,94 3,64* 2,34

I 10,6 1,3

II 9,3

Višestruki test intervala – Dankanov test


H 0 : µi =µ j
H1 : µi ≠ µ j

S2p 3,6043
=
SΧ = = 0,849
n 5
α = 0,05 α = 0,01

Interval 2 3 Interval 2 3

Kritična vrednost 4,32 4,55 Kritična vrednost 3,08 3,23

Najmanje značajni 3,668 3,863 Najmanje značajni 2,615 2,742


interval interval

3,08 · 0,849 = 2,615 3,23· 0, 849 = 2,742 4,32 · 0,849 =3,668 4,55 · 0,849 = 3,863

75
Tretman II I III
Χi 9,3 10,6 12,94

Χ III −= 9,3 3,64* > 2,742


Χ II 12,94 −=
Χ III − Χ
= II 12,94 − 9,3
= 3,64 < 3,863
Χ III − =
Χ I 12,94 − 10,6
= 2,34 < 2,615
Χ I − Χ II= 10,6 − 9,3
= 1,3 < 2,615
Na osnovu rezultata F testa može da se zaključi da na pragu značajnosti 5% postoji
statistički značajna razlika u prosečnoj dnevnoj mlečnosti simentalskih krava u zavisnosti
od načina ishrane.
Sva tri primenjena testa za poređenje parova tretmana ukazuju da je na pragu značajnosti
5% statistički značajna razlika u prosečnoj dnevnoj mlečnosti između II i III načina
ishrane.

76
Kontrolna pitanja
1. Definisati nultu i alternativnu hipotezu.
2. Definisati grešku tipa I i grešku tipa II .
3. Navesti faze testiranja.
4. Navesti osnovne testove aritmetičkih sredina.
5. Navesti osnovne testove proporcija.
6. Kada se prilikom testiranja izvodi Z test?
7. Kada se prilikom testiranja izvodi t test?
8. Kada se primenjuje analiza varijanse?
9. Koji test se izvodi u osnovi analize varijanse? Koja hipoteza se ovim testom
proverava?
10. Navesti testove za testiranje značajnosti razlika parova tretmana.

77
6. REGRESIONA I KORELACIONA ANALIZA

Koncept korelacije i regresije je uveo engleski antropolog, geograf, genetičar, psiho-


metričar i statističar Galton 1888 godine.

Sir Francis Galton


(1822–1911)
Značajno mesto u metodama statističke analize pripada ispitivanju uticaja i zavisnosti
između promenljivih. Analiza može da se odnosi na dve ili više promenljivih za koje se
zna ili pretpostavlja da su u nekoj međusobnoj vezi. Na osnovu empirijskih podataka
moguće je međuzavisnosti promenljivih iskazati matematičkom funkcijom koja će iska-
zati prosečnu ili tzv. očekivanu zavisnost ili vezu. Ako se radi o dve promenljive od kojih
je jedna zavisna (Y), a druga nezavisna (X), relacija ovih promenljivih se može iskazati
funkcijom: Y = f(X) ako je veza funkcionalna (deterministička) ili Y = f(X) + ε, ako je
veza stohastička, gde je ε slučajna greška.
Zadatak regresione analize je da otkrije funkcionalni oblik - regresioni model, kome se
najviše približava kvantitativno slaganje varijacija posmatranih pojava, da pokaže kako se
zavisno promenljiva menja u odnosu na nezavisne promenljive i na osnovu stepena
slaganja njihovih varijacija omogući ocenu i predviđanje ponašanja zavisne promenljive.
Regresiona analiza se može definisati i kao ocena vrednosti zavisno promenljive na osno-
vu jedne ili više nezavisnih promenljivih.
U postupku primene regresione analize mogu se razlikovati tri faze i to: planiranje,
tehnika izračunavanja parametara ili razvitak modela i provera modela. Faza planiranja
podrazumeva jasno definisanje cilja istraživanja i definisanje promenljivih koje treba
uključiti u model. Da bi se jasno definisao cilj istraživanja potrebna je analiza prethodnih
istraživanja iz posmatrane oblasti, kao i diskusije sa kompetentnim licima koja su se bavi-
la istraživanjima iz posmatrane oblasti. Drugo važno pitanje u fazi planiranja jeste pitanje
izbora promenljivih koje treba uključiti u analizu. To podrazumeva specifikaciju zavisno i
nezavisno promenljivih kao i određivanje njihovog broja.
Nakon definisanja zavisno promenljive i nezavisno promenljivih pristupa se izboru mo-
dela. Izbor modela određen je pre svega ciljem istraživanja, ali i samim podacima na
kojima se zasniva analiza. Izabrani model treba da što bolje prikaže ponašanje zavisno
promenljive pojave u zavisnosti od posmatranih činilaca, odnosno od odabranih nezavi-
sno promenljivih. Takođe model treba da bude osnova na kojoj će se moći predvideti

78
promene zavisno promenljive. Jedan jedinstven model ne može uvek da zadovolji sve
zahteve pa se u nekom ispitivanju koristi više mogućih modela.
Specifikacija modela podrazumeva matematičku formulaciju uticaja i veza odabranih ne-
zavisno promenljivih na zavisno promenljivu pojavu. Teorija oblasti primene i statistička
teorija mogu sugerisati određeni oblik matematičke zavisnosti među posmatranim pro-
menljivim. Kao kriterijumi u izboru adekvatnog modela koriste se ranija iskustva iz anali-
zirane oblasti, rezultati ocenjenog modela, odnosno njegova prilagođenost podacima, kao
i težnja da model bude što jednostavniji.
U daljem izlaganju će biti razmatrana regresija sa jednom nezavisnom promenljivom.
Da bi se sagledala međuzavisnost između promenljivih, potrebno je raspolagati parovima
promenljivih izmerenih na n jedinica slučajnog uzorka, kao što je dato nizom:
Xi : X1,X2,X3,...,Xi,...,Xn
Yi : Y1,Y2,Y3,...,Yi,...,Yn (i = 1,2,...n)
Ako nezavisno promenljiva X uslovljava veličinu zavisno promenljive Y, tada se radi o
regresiji.
Ako se ispituje međuzavisnost dve promenljive, tada se radi o korelaciji.
Cilj regresione analize je da omogući sagledavanje očekivane vrednosti zavisno promen-
ljive na osnovu date nezavisno promenljive. Regresija se sagledava na osnovu jednačine
regresije i standardne greške regresije.
Cilj korelacione analize je sagledavanje jačine veze između dve promenljive. Korelacija
se sagledava na osnovu koeficijenta korelacije i koeficijenta determinacije.
Regresionu i korelacionu analizu korisno je započeti analizom dijagrama rasturanja. Dija-
gram rasturanja se formira u pravouglom koordinatnom sistemu, gde se na apscisnu osu
nanose vrednosti nezavisno promenljive X, a na ordinatnu osu vrednosti zavisno promen-
ljive Y. Na dijagram se unose tačke sa koordinatima (XiYi), i = 1,2,...n. Ove tačke mogu
biti raspoređene (rasute) prema određenoj zakonitosti. Dijagram rasturanja sadrži onoliko
tačaka koliko je zastupljeno parova vrednosti promenljivih. Dijagram rasturanja omogu-
ćuje utvrđivanje zavisnosti ili veze između promenljivih, kao i sagledavanje karaktera te
veze (linearna, krivolinijska).

79
a) Prosta linearna regresija
Najjednostavniji oblik regresije je prosta linearna regresija pomoću koje se sagledava
uticaj jedne nezavisno promenljive na zavisno promenljivu. Linearna regresija je iskazana
funkcijom koja glasi:
Υˆ i = a + bΧi (i = 1,2,...,n)
gde je:

- Υ̂i je ocenjena ili očekivana vrednost zavisno promenljive Yi


- Xi je nezavisno promenljiva
- а i b su parametri regresije.

80
Parametar a predstavlja prosečni početni nivo zavisno promenljive Y, odnosno, on
pokazuje vrednost zavisno promenljive u tački preseka linije regresije i ordinatne ose.
Parametar b ili koeficijent regresije pokazuje prosečnu promenu zavisno promenljive Y
za jedinicu promene nezavisno promenljive X. Kod rastuće regresije parametar b ima
pozitivnu vrednost (b>0), a kod opadajuće regresije ima negativnu vrednost (b<0). Para-
metar a se iskazuje u jedinicama mere zavisno promenljive Y, dok se parameter b
iskazuje u jedinicama koje su količnik jedinica zavisno i nezavisno promenljive.
Računski postupak u izračunavanju parametara regresionog modela zasnovan je na meto-
du najmanjih kvadrata i sastoji se u rešenju sistema normalnih jednačina. U praktičnom
radu primenjuju se sledeći radni postupci za izračunavanje parametara a i b:
Σ(Xi − X)(Yi − Y)
b=
Σ(Xi − X)2 a= Y − bX

(ΣXi )((ΣYi )
Σ Xi Yi −
b= n
( ΣX i ) 2
Σ Xi 2 −
n

Standardna greška regresije je pokazatelj disperzije individualnih vrednosti zavisno pro-


menljive Y od linije regresije. U praktičnom radu utvrđuje se ocenjena standardna greška
regresije primenom sledećeg obrasca:
ˆ )2
Σ(Yi − Yi
Se = i
n−2
Standardna greška regresije je pokazatelj prosečnog odstupanja ili varijacije originalnih
vrednosti zavisno promenljive Y u odnosu na njihove ocenjene vrednosti (linija regre-
sije). Standardna greška regresije iskazuje se u jedinicama mere zavisno promenljive Y.
U ispitivanju korelacije između dve promenljive takođe se pristupa formiranju dijagrama
rasturanja na osnovu kojeg se sagledava postojanje veze između dve promenljive, kao i
oblik te veze (linearna, krivolinijska, itd.).
Koeficijent linearne korelacije (prost ili Pirsonov koeficijent korelacije) je pokazatelj
kvantitativnog slaganja dve promenljive. Koeficijent linearne korelacije je relativni
pokazatelj korelacije, nezavisan od jedinica mere promenljivih X i Y. Vrednost ovog
koeficijenta se kreće u intervalu [ −1,1]. Kod pozitivne korelacije koeficijent korelacije se
kreće u intervalu ( 0,1] , a kod negativne korelacije u interval [ −1,0 ) . Koeficijent korelacije
je 1 ukoliko je veza X, Y funkcionalna (deterministička) i to pozitivno linearna, dok je
vrednost -1 u slučaju funkcionalne negativno linearne veze. Ako je veza stohastička,
vrednosti koeficijenta korelacije bliske 1 ukazuju na pozitivnu, dok vrednosti bliske -1
ukazuju na negativnu linearnu vezu. Ukoliko je vrednost koeficijenta korelacije bliska
nuli može se samo zaključiti da veza promenljivih nije linearna. Dijagram rasturanja
pokazuje da li postoji nelinearna veza promenljivih ili ne postoji veza.

81
Napomena: Vrednost koeficijenta korelacije nije dovoljna da se zaključi da li je veza
promenljivih linearna. Vrednost koeficijenta korelacije može biti bliska ±1 i u slučaju
nelinearne veze ili u slučaju da jedan ili više parova tačaka odstupa u odnosu na ostale
podatke. Dijagram rasturanja pomaže u pravilnom tumačenju veze promenljivih.
U praktičnom radu najčešće se utvrđuje koeficijent linearne korelacije (r) koji se
izračunava primenom obrasca:
(Σ Xi )((Σ Yi )
Σ(Xi − X)(Yi − Y) Σ X Y
i i −
= n
r= r
Σ(Xi − X)2 Σ(Yi − Y) 2  Σ X 2 − ( ΣX ) 2 / n   Σ Y 2 − ( ΣY ) 2 / n 
 i i   i i

Korelaciona analiza se dopunjuje utvrđivanjem i interpretacijom koeficijenta
determinacije. Koeficijent determinacije (r2) predstavlja kvadrat koeficijenta korelacije i
najčešće se iskazuje u procentima. Ovaj koeficijent se kreće u intervalu [ 0,1] ili [ 0,100%].
Interpretacija ovog koeficijenta ukazuje da je koeficijent determinacije pokazatelj udela
uticaja odabrane nezavisno promenljive X na varijabilnost zavisno promenljive Y,
uzimajući da je ukupna varijabilnost zavisno promenljiva Y jedan (100%).
Na osnovu izračunatog koeficijenta determinacije može se iskazati i koeficijent
alijenacije, odnosno koeficijent nedeterminacije (k2). Koeficijent nedeterminacije
pokazuje uticaj ostalih neispitivanih nezavisno promenljivih na varijabilnost zavisno
promenljive Y, uzimajući da je ukupna varijabilnost zavisno promenljiva Y jedan
(100%).

82
b) Ocena i testiranje parametara linearne regresije
Ocena parametara linearne regresije podrazumeva određivanje intervala poverenja za
koeficijent regresije osnovnog skupa β čija je ocena iz uzorka parametar b.
Interval poverenja ima sledeći oblik:
b − t n −2;α ⋅ Sb < β < b + t n −2;α ⋅ Sb .
gde je:
Sb – ocena standardne greške koeficijenta regresije
Standardna greška koeficijenta regresije izračunava se na osnovu varijanse ocenjenog
modela na sledeći način:
( )
2
Se2 ∑ Υ i − Υˆ i
Sb = Se2 =
∑ ( Χi − Χ )
2
n−2
Regresiona analiza se upotpunjuje izvođenjem inferencije o parametrima regresije. Pri
tome se najveća pažnja posvećuje testiranju značajnosti koeficijenta regresije b. Polazna
hipoteza glasi H0 : β = 0, a alternativna H1 : β ≠ 0.
Provera polazne hipoteze izvodi se pomoću t – testa:
b−0 b
=t =
Sb Sb
Izračunata vrednost t koja se upoređuje sa kritičnom tabličnom vrednošću, t n −2;α (iz Ta-
blica Studentove distribucije) ukazuje da li je t–test statistički značajan. Ukoliko je
t izr ≥ t n −2;α , nulta hipoteza se odbacuje i zaključuje se da je vrednost koeficijenta b
statistički značajna na pragu značajnosti α, odnosno, da postoji statistički značajan uticaj
nezavisno promenljive X na zavisno promenljivu Y. Ukoliko je t izr < t n −2;α nulta
hipoteza se prihvata i zaključuje se da vrednost koeficijenta b nije statistički značajna,
odnosno, da ne postoji statistički značajan uticaj nezavisno promenljive X na zavisno
promenljivu Y.
Testiranje značajnosti koeficijenta linearne korelacije r može se izvesti tako što se
vrednost rizr upoređuje sa odgovarajućom tabličnom vrednošću (iz Tablica po Snedecor -
u). Polazna hipoteza glasi H0 : ρ = 0, a alternativna H1 : ρ ≠ 0. Ukoliko je rizr ≥ rn −2;α
nulta hipoteza se odbacuje, što znači da je linearna povezanost između dve promenljive
statistički značajna. U suprotnom ako je je rizr < rn −2;α nulta hipoteza se prihvata pa je
zaključak da linearna veza između dve posmatrane promenljive nije statistički značajna.
Polazna hipoteza za testiranje značajnosti koeficijenta linearne korelacije može se
proveriti i izračunavanjem odgovarajućeg količnika na sledeći način:
- u slučaju velikog uzorka (n>30)
r
Z=
Sr
gde je:
r – ocena koeficijenta korelacije osnovnog skupa na osnovu uzorka
Sr – ocena standardne greške koeficijenta korelacije na osnovu uzorka.

83
Standardna greška koeficijenta korelacije na osnovu velikog uzorka izračunava se na
sledeći način:
1
Sr =
n

Apsolutna vrednost izračunatog količnika Z upoređuje se sa odgovarajućom tabličnom


vrednosti iz tablica Normalne distribucije. Ako je Zizr ≥ Zα polazna hipoteza se odba-
cuje, a ukoliko je Zizr < Zα hipoteza se prihvata na pragu značajnosti α.
- u slučaju malog uzorka (n< 30) test kriterijum je:
r
t=
Sr
Standardna greška koeficijenta korelacije na osnovu malog uzorka izračunava se na
sledeći način:

1 − r2
Sr = .
n−2
Za donošenje zaključka o polaznoj hipotezi izračunati količnik se upoređuje sa tabličnim
vrednostima Studentove distribucije t n −2;α .

Ako je rizr < t n −2;α polazna hipoteza se prihvata i donosi zaključak da linearna veza
između dve posmatrane promenljive nije statistički značajna, a ukoliko je rizr ≥ t n −2;α
nulta hipoteza se odbacuje, što znači da je linearna povezanost između dve promenljive
statistički značajna.
Primer: Na osnovu podataka o težini nazimica kod pripusta i broja oprašene prasadi
formirati dijagram rasturanja, oceniti parametre u jednačini linearne regresije, izračunati
standardnu grešku regresije, izračunati koeficijente korelacije, determinacije i alijenacije i
oceniti broj oprašene prasadi kada je težina nazimica 100 kilograma. Testirati statističku
značajnost ocenjenog koeficijenta regresije i koeficijenta korelacije.

Težina Broj Χi − Χ Υi − Υ ( Χi − Χ )( Υi − Υ ) ( Xi − Χ )2 (Υi − Υ )2 Υ̂ Υ i − Υˆ i


( Υi − Υˆ i )
2
nazimi prasadi
ca (X) (Y)

75 7,6 -10,4 -0,7 7,28 108,16 0,49 7,48 0,12 0,0144


78 7,5 -7,4 -0,8 5,92 54,76 0,64 7,72 -0,22 0,0484
80 7,9 -5,4 -0,4 2,16 29,16 0,16 7,87 0,03 0,0009
85 8,3 -0,4 0 0 0,16 0 8,27 0,03 0,0009
87 8,7 1,6 0,4 0,64 2,56 0,16 8,42 0,28 0,0784
90 8,6 4,6 0,3 1,38 21,16 0,09 8,66 -0,06 0,0036
93 8,9 7,6 0,6 4,56 57,76 0,36 8,89 0,01 0,0001
95 9,0 9,6 0,7 6,72 92,16 0,49 9,05 -0,05 0,0025
683 66,5 0 0 28,66 365,88 2,39 66,5 0 0,1492

84
Dijagram rasturanja i ocenjeni model linearne regresije
y = 1,6243+0,0783*x
10,0

9,5

9,0
Broj prasadi

8,5

8,0

7,5

7,0
70 75 80 85 90 95 100

Tezina nazimica

Ocena parametara regresije

Υˆ i = a + bXi

=b
(
Σ Χi − Χ Υ i − Υ 28,66
= = 0,0783
)( )
( )
2 365,88
Σ Χi − Χ

a = Υ − b Χ = 8,3 − 0, 0783 ⋅ 85, 4 = 1, 61


Jednačina linearne regresije

Υ
ˆ= 1,61 + 0,078Χ
i i
Ocenjene vrednosti regresije
Υˆ =
1 1,61 + 0,0783 ⋅ 75
= 7, 48

Υ
ˆ = 1,61 + 0,0783 ⋅ 78 = 7,72
2

Υ
ˆ = 1,61 + 0,0783 ⋅ 95 = 9,05
8

Standardna greška regresije

( )
2
Σ Υi − Υ
ˆ
i 0,1492
=Se = = 0,158
n−2 6
Koeficijente korelacije

85
=r
( =
)(
Σ Χi − Χ Υ i − Υ ) 28,66
= 0,969
365,88 ⋅ 2,39
( ) ( )
2 2
Σ Χi − Χ Σ Υ i − Υ

Koeficijent determinacije

r2
= ( 0,969
= )2 = 93,9%
0,939

Koeficijent alijenacije
k 2 0,061
= = 6,1%
Ocenjeni broj oprašene prasadi kada je težina nazimica 100 kilograma
Υ
ˆ 100 = 1,61 + 0,0783 ⋅ 100 = 9,44 ≈ 9 prasadi.

II način izračunavanja
Xi Yi XY X2 Y2

75 7,6 570,0 5625 57,76


78 7,5 585,0 6084 56,25
80 7,9 632,0 6400 62,41
85 8,3 705,5 7225 68,89
87 8,7 756,9 7569 75,69
90 8,6 774,0 8100 73,96
93 8,9 827,7 8649 79,21
95 9,0 855,0 9025 81,00
683 66,5 5706,1 58677 555,17
(ΣΧ)(ΣΥ ) (683) ⋅ (66,5)
ΣΧΥ − 5706,1 −
=b = n = 8 0,0783
2 ( ΣΧ ) ( 683)
2 2
ΣΧ − 58677 −
n 8

ΣΧΥ −
( ΣΧ )( ΣΥ ) 5706,1 −
( 683) ⋅ ( 66,5)
r = n = 8 0,969
 ( ΣΧ )2  ⋅ ΣΥ 2 − ( ΣΥ )2   2  2
( 683)  ⋅ 555,17 − ( 66,5) 
ΣΧ 2 − 58677 −
 n   n   8   8 
       

Testiranje statističke značajnosti koeficijenta b


H o : β =0 Se2 ( 0,158) 2
=Sb = = 0,0083
H1 : β ≠ 0
( )
2 365,88
∑ Χi − Χ
b − β b 0,0783
=t = = = 9, 434**
Sb Sb 0,0083

86
t 6;0,05 = 2, 447 t 6;0,01 = 3,707
t izr = 9, 434 > 2, 447 ⇒ H1
t izr = 9, 434 > 3,707 ⇒ H1.

Intervali poverenja za parameter β


α =0,05
b − t n − 2;α ⋅ Sb < β < b + t n − 2;α ⋅ Sb

0,0783 – 2,447·0,0083<β<0,0783+2,447·0,0083
0,058<β<0,0986
0 ∉ (0, 058, 0, 0986) ⇒ H1
α =0,01
0,0783 –3,707·0,0083<β<0,0783+3,707·0,0083
0,04753<β<0,10907

0 ∉ (0, 04753, 0,10907) ⇒ H1

Na osnovu rezultata t-testa kao i formiranog interval poverenja može da se zaključi da


težina nazimica kod pripusta ima visoko statistički značajan uticaj na broj oprašene
prasadi.

Testiranje koeficijenta korelacije

H 0 : ρ =0
1 − r2 1 − 0,939
H1 : ρ ≠ 0. =Sr = = 0,10083
n−2 8−2

r 0,969
=
t 6;0,05 2,=
447 t 6;0,01 3,707 =
t = = 9,61**
Sr 0,10083
Može da se zaključi da je linearna međuzavisnost težine nazimica i broja oprašene prasadi
visoko statistički značajna.

87
Kontrolna pitanja
1. Šta je cilj primene regresione analize?
2. Šta je cilj primene korelacione analize?
3. Na osnovu čega se sagledava regresiona analiza?
4. Na osnovu čega se sagledava korelaciona analiza?
5. Kako se formira dijagram rasturanja i koja mu je svrha?
6. Šta pokazuje koeficijent pravca regresije?
7. Definisati koeficijent korelacije.
8. Definisati koeficijent determinacije.
9. Na koji način se proverava značajnost ocenjenog koeficijenta regresije?
10. Na koji način se proverava značajnost ocenjenog koeficijenta korelacije?

88
PRILOZI

89
90
91
92
93
94
LITERATURA

1. Aho, K. A., Foundational and Applied Statisstics for Biologist Using R, CRC Press,
Taylor & Francis Group, 2014.
2. Bruce, P.C., Bruce, A. G., Practical Statistics for Data Scientists, O’Reilly Media,
Inc., USA, 2016.
3. Čobanović, K., Primeri za vežbanje iz statistike, Poljoprivredni fakultet Novi Sad,
1991.
4. Daniel, W. W., Cross, C. L., Biostatistics, A Foundation for Analysis in the Health
Sciences, Tenth Edition, Wiley, 2013.
5. Dumičić, K., Bahovec, V., Čižmešija, M., Kurnoga Živadinović, N., Čeh Časni, A.,
Jakšić, S., Palić, I., Sorić, P., Žmuk, B., Poslovna statistika, Dumičić, K., Bahovec,
V. (ur.), Element d.o.o., Zagreb, 2011.
6. Darlington, B.R., Hayes,F.A., Regression Analysis and Linear Models, Ebook, The
Guilford Press, New York, London, 2017.
7. Diggle, P.J., Chetwynd, A. G., Statistics and Scientific Method, An Introduction for
Students and Researchers, Oxford University Press, Inc., New York, 2011.
8. Hadživuković, S., Statistika, Privredni pregled Beograd, 1989.
9. Hadživuković, S., Statistički metodi, Drugo prošireno izdanje, Poljoprivredni fakul-
tet, Novi Sad,1991.
10. Jazbec, A., Osnove statistike, Šumarski fakultet, Zagreb, 2008.
11. Kaps, M., Lamberson, W.R., Biostatistics for Animal Science, Third edition, CABI
Publishing, UK, 2017.
12. Le, C. T., Eberly, L. E., Introductory Biostatistics, John Wiley & Sons, Inc., New
Jersey, 2016.
13. Lozanov-Crvenković, Z., Statistika, PMF Novi Sad, 2012.
14. Maletić, R., Statistika, Poljoprivredni fakultet, Beograd-Zemun, 2005.
15. Mann, P. S., Uvod u Statistiku, Ekonomski fakultet, Beograd, 2009.
16. Pagano, R.R., Understanding Statistics, Tenth Edition, Wadsworth, Cengage Learn-
ing, 2013.
17. Petrie, A., Watson, P., Statistics for Veterinary and Animal Science, Third edition,
Wiley Blackwell, John Wiley & Sons, Ltd., Publication, 2013.
18. Petz, B., Kolesarić, V., Ivanec, D., Petzova statistika, Osnovne statističke metode za
nematematičare, Naklada Slap, Jastrebarsko, 2012.
19. Rao, G. N., Statistics for Agricultural Sciences, Second Edition, BS Publications,
Hyderabad, 2007.
20. Riffenburgh, H.R., Statistics in Medicine, Third Edition, Elsevier, 2012.
21. Sokolovska, V., Deskriptivna Statistika, Univerzitet u Novom Sadu, Centar za pri-
menjenu statistiku, Novi Sad, 2013.

95
22. Stanković, J., Ralević, N., Ljubanović-Ralević, I., Statistika sa primenama u poljo-
privredi, Mladost Biro, Beograd, 2002.
23. Vasilj, Đ., Biometrika i eksperimentiranje u bilinogojsvu, Hrvatsko agronomsko
društvo, Zagreb, 2000.
24. Weiss, A. N., Introductory Statistics, 9th Edition, Addison-Wesley, 2012.
25. Wilcox, R. R., Understanding and Applying Basic Statistical Methods Using R, John
Wiley & Sons, Inc., Hoboken, New Jersey, 2017.
26. Zar, J.H., Biostatistical Analysis, 5th Edition, Pearson Education, Ltd. London,
2010.
27. Žižić, M., Lovrić, M., Pavličić, D., Metodi statističke analize, Šesnesto izdanje,
Centar za izdavačku delatnost Ekonomskog fakulteta, Beograd, 2006.

96
INDEKS POJMOVA

Alternativna hipoteza, 55–60, 64, 66, Harmonijska sredina, 17


69– 72, 77, 83 Histogram, 15, 16, 29
Analiza varijanse potpuno slučajnog Inferencijalna statistika, 7, 8, 10, 32, 44
rasporeda, 68 Interval poverenja, 49–53, 57–61, 63–67,
Apsolutna frekvencija, 11, 12, 19, 32 83, 87
Aritmetička sredina, 17–21, 23, 24, 26, Interval varijacije, 22, 23, 27
27, 29, 33–37, 39, 40, 42, 45–49, 51, Intervalna distribucija frekvencija, 11, 12,
52, 56–58, 60–62, 67–73, 77 13, 14, 19, 21, 22
Bernulijev eksperiment, 32, 35 Izračunate srednje vrednosti, 17
Binomna distribucija, 32, 33, 35, 43, 53, Jačina testa, 55
64
Jedinica posmatranja, 8–12, 18, 22
Broj ponavljanja tretmana, 72, 73
Jednačina regresije, 79, 84, 85
Centralna granična teorema, 45, 54
Jednostrani test, 56
Centralni moment, 27, 28
Klasična definicija verovatnoće, 30
Dijagram rasturanja, 79, 81, 82, 84, 85,
88 Klaster slučajni uzorak, 44, 45
Dijagram stablo-list, 15 Koeficijent alijenacije, 82, 84, 86
Diskretna (prekidna) slučajna Koeficijent asimetričnosti, 27, 28, 32, 33,
promenljiva, 31 35
Distribucija frekvencije, 11–17, 19–25, Koeficijent determinacije, 79, 82, 86, 88
27–29, 49, 51, 62 Koeficijent korelacije, 79, 81–85, 87, 88
Distribucija sredine uzorka, 45, 46 Koeficijent nedeterminacije, 82
Dvostrani test, 56 Koeficijent spljoštenosti, 27, 28, 32, 33,
Efikasnost, 47, 48 35
Egzostivnost, 47, 48 Koeficijent varijacije, 22, 25–27
Elementarni događaj, 30, 31 Koeficijent regresije (vidi Parametar b ili
koeficijent regresije)
Empirijske (originalne, opažene)
distribucije, 32, 35, 43 Konzistentnost, 47, 48
Fišerova distribucija, 41, 42, 43, 70 Korektivni faktor, 46, 48, 69
F test, 69 Korelaciona analiza, 78, 79, 82, 88
Funkcija raspodele, 32 Kritična vrednost, 57–60, 62–64, 66,
70–73, 75, 83
Geometrijska sredina, 17
Kumulativna frekvencija, 12, 29
Grafičko prikazivanje, grafički prikaz, 14,
15, 20, 29, 36 Kvalitativna obeležja, 9, 55
Greška tipa I, 55, 77 Kvantitativna obeležja, 8, 9
Greška tipa II, 55, 77 Mali uzorak, 44, 53, 64, 84
Grupisani podaci, 9, 11, 17, 19, 24, 25, Medijana, 17, 19–21, 37, 48
51, 62 Marginalna greška ili greška uzorka, 50
Grupni interval, 11, 15, 16, 19–22 Metod analize varijanse, 42, 56, 67, 68

97
Metode za izbor jedinica uzorka, 44 Promenljiva, 8, 10, 31–33, 36–41, 47, 49,
Modus, 17, 19–21, 33, 35, 37, 40 57, 78–84
Negrupisani podaci, 9, 11, 15, 17, 19–28, Proporcija, 33, 48, 52–54, 56, 64–67, 77
48, 50, 62 Prosta linearna regresija, 80, 84, 85
Neintervalna distribucija frekvencija, Prost slučajni uzorak, 44– 46, 48, 51–53,
11–13, 21, 22 56, 58, 60, 68
Neparametarska statistika, 52 Regresiona analiza, 78, 79, 83, 88
Neparametarski testovi, 55 Regresioni model, 78, 81
Neprekidna obeležja, 9, 14 Relativna frekvencija, 12, 13, 14, 29–32
Neprekidna slučajna promenljiva, 31, 36 Reprezentativni uzorak, 44, 54
Neprekidna teorijska distribucija, 35, 36, Senzitivnost testa, 55
39, 41, 43 Simetričnost distribucije, 20, 33
Nepristrasnost, 47 Sistematski slučajni uzorak, 44, 45
Nezavisno promenljiva, 78–83 Slučajni događaj, 30, 31
Normalna ili Gausova distribucija, 35, 36, Slučajno promenljiva, 31–33, 36–42, 47,
37, 38, 39, 40, 43, 49, 57, 60, 66, 84 49, 57
Nulta hipoteza, 55–66, 69–72, 77, 83, 84 Specifikacija modela, 79
Obeležja jedinica posmatranja, 8–10, 18 Srednje apsolutno odstupanje, 22, 23, 27
Oblik distribucije, 27, 35, 40, 55 Standardizovana slučajna promenljiva, 37
Ocena parametara osnovnog skupa, 46, Standardizovano odstupanje, 22, 26, 27
47, 48 Standardna greška aritmetičke sredine,
Ocenitelj, 47, 48, 54 46–49, 60–62, 71, 72
Očekivana vrednost, 33, 37–39, 47, 57, Standardna greška koeficijenta korelacije,
79, 80 83–85
Osnovni skup, 8, 10, 17, 18, 23–27, 35, Standardna greška koeficijenta regresije,
39, 40, 44–58, 60–62, 64–67, 69, 83 83–85
Parametar b ili koeficijent regresije, 80, Standardna greška proporcije, 52, 53
81, 83, 84, 88 Standardna greška razlike dve proporcije,
Parametarski testovi, 55 66, 67
Parametri regresije, 80, 81, 83, 85 Standardna greška regresije, 79, 81
Poasonova distribucija, 34, 35, 43 Standardna devijacija, 22–26, 33, 35–37,
Pokazatelji centralne tendencije, 17, 22 39, 40, 46–49, 58, 60
Pokazatelji varijacije, 22, 23, 25, 26, 29, Standardno odstupanje, 22, 26, 27
47 Statistička definicija verovatnoće, 30
Poligon, 15, 16, 29 Statistička serija, 9, 10, 11, 15
Pozicione srednje vrednosti, 17, 29 Statistički skup, 8, 17
Prag značajnosti, 42, 49, 55, 57–62, Stepeni slobode, 39–42, 47, 58, 62, 63,
70–73, 83, 84 69–72, 74
Prekidna obeležja, 9, 12, 34 Stratifikovani slučajni uzorak, 44, 45
Prekidne teorijske distribucije, 32, 43 Studentova t- distribucija, 39, 40, 43, 49,
Prihvatanje alternativne hipoteze, 57, 58, 58, 62, 71, 83, 84
60, 63 Subjektivna verovatnoća, 31
Prihvatanje nulte hipoteze, 57, 61–63, 65 Suma kvadrata, 42, 68, 69, 74

98
Suma kvadrata totala, 69 t-količnik, 39, 58, 59, 62, 63, 70, 71
Suma kvadrata tretmana, 68, 69 Total osnovnog skupa, 49, 53
Suma kvadrata pogreške, 68 Uzorak, 8, 10, 17, 18, 23–27, 33, 35,
t- test, 59, 73 39–58, 60–62, 64–68, 79, 83, 84
Tabela analize varijanse, 69, 71, 72 Uzorci bez ponavljanja, 44–46, 48,
51–53, 58
Tačkasti dijagram, 15
Uzorci sa ponavljanjem, 44–46, 48, 53,
Teorija verovatnoće, 7, 30, 44
58
Teorijske distribucije, 30, 32, 34–36, 41,
Varijansa, 22–27, 32–35, 40–42, 45–51,
43, 44
56–58, 60–62, 67–74, 77, 83
Testiranje statističkih hipoteza, 40,
Varijansa pogreške, 70
55–58, 63, 65, 66, 70
Varijansa tretmana, 70
Test najmanje značajne razlike - NZR
test, 70, 71, 73, 75 Veliki uzorak, 44, 48, 49, 53, 58, 64, 83,
84
Test statistika, 56, 57
Veličina osnovnog skupa, 8, 45, 47, 48
Test značajnosti jedne proporcije, 64
Višestruki test intervala – Dankanov test,
Test značajnosti jedne sredine, 49, 56–58,
70, 72, 73
77
Z količnik, 57, 60, 64, 66, 84
Test značajnosti razlike dve proporcije,
64, 66 Zakon verovatnoće, 32, 36
Test značajnosti razlike dve sredine, 56, Zavisno promenljiva, 70–83
60, 61 Združena varijansa, 62
Testovi parova tretmana, 70, 73, 77
Testovi proporcija, 64, 66, 77

99
CIP – Каталогизација у публикацији
Библиотека Матице српске

ISSN 0

COBISS.SR-ID 1

100
Dr Beba Mutavdžić

1954
Mr Emilija Nikolić Đorić STATISTIKA

You might also like