STATISTIKA

smajilovic@gmail.com

w

w

w

.m

at e

m

11. oktobar 2010.

at ik

Mirnes Smajilovi´ c

a. c

om

.b a

Mirnes Smajilovi´ c

Statistika

O skripti
Ova skripta djelimiˇno (a moˇda i potpuno) prati predavanja iz Statistike na Prirodnoc z matematiˇkom fakultetu Univerziteta u Tuzli, odsjek Matematika. c Zadrˇavam pravo da ova skripta ima ˇtamparskih greˇaka, kao i matematiˇkih greˇaka iz z s s c s razloga jer je ovo radna i nepregledana verzija iste. U cilju da poboljˇamo ovu skriptu iz s Statistike, na sve nenamjerne propuste moˇete ukazati putem e-maila smajilovic@gmail.com. z

Dozvoljeno je ˇtampanje. s Pravo na objavljivanje skripte ima samo portal Matematika.com.ba. Svako drugo objavljivanje zahtjeva dozvolu autora.

w

w

w

.m

at e

m

at ik

a. c
http://matematika.com.ba 1 Radna verzija

om

.b a

Sadrˇaj z
1 Uvod u matematiˇku statistiku c 1.1 Pojam i predmet matematiˇke statistike . . . . . . . . . . . . . . . . . c 1.2 Osnovne etape statistiˇkih ispitivanja . . . . . . . . . . . . . . . . . . . c 1.3 Prikazivanje statistiˇkih podataka. Raspodjela obiljeˇja . . . . . . . . c z 1.4 Srednje vrijednosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Disperzija i druge mjere odstupanja . . . . . . . . . . . . . . . . . . . 1.6 Momenti. Mjere asimetrije i spljoˇtenosti . . . . . . . . . . . . . . . . s 1.7 Neke vaˇnije raspodjele u mat. statistici: gama i beta raspodjela . . . z 1.8 Neke vaˇnije raspodjele u mat. statistici: χ2 - raspodjela . . . . . . . . z 1.9 Neke vaˇnije raspodjele u mat. statistici: Studentova ili tn raspodjela . z 1.10 Neke vaˇnije raspodjele u mat. statistici: F raspodjela . . . . . . . . . z 3 3 5 6 9 12 13 14 16 18 21 22 22 24 26 28 29 31 33 35 36 37 37 39 41 43 45 49

3 Testiranje parametarskih hipoteza 3.1 Pojam parametarske hipoteze, Kritiˇna oblast. Vrste greˇaka . . . . . . . . c s 3.2 Testiranje hipoteze o matematiˇkom oˇekivanju kada je poznata disperzija . c c 3.3 Testiranje hipoteze o matematiˇkom oˇekivanju kada nije poznata disperzija c c 3.4 Testiranje hipoteze o jednakosti matematiˇkog oˇekivanja . . . . . . . . . . c c 3.5 Testiranje hipoteze o disperziji . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Testiranje hipoteze o vjerovatno´i . . . . . . . . . . . . . . . . . . . . . . . . c

w

w

2 Ocjenjivanje parametara raspodjele 2.1 Nepristranost, stabilnost i efikasnost ocjene . . . . . . . . . . . . . . . . . . . . 2.2 Taˇkaste ocjene parametra. Metoda momenata . . . . . . . . . . . . . . . . . . c 2.3 Metoda maksimalne vjerodostojnosti . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Intervalne ocjene parametara . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Interval povjerenja za mat. oˇekivanje kada je poznata disperzija . . . . c 2.4.2 Interval povjerenja za mat. oˇekivanje kada nije poznata disperzija . . . c 2.4.3 Interval povjerenja za disperziju kada je poznato mat. oˇekivanje . . . . c 2.4.4 Interval povjerenja za disperziju kada nije poznato mat. oˇekivanje . . . c 2.4.5 Interval povjerenja za nepoznatu vjerovatno´u p kod binomne raspodjele c

w

.m

at e

m

at ik

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

a. c

om

.b a

. . . . . .

. . . . . .

4 Testiranje neparametarskih hipoteza 51 4.1 Pojam neparametarske hipoteze . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.2 χ2 -test za verifikaciju hipoteze o raspodjeli obiljeˇja . . . . . . . . . . . . . . . 52 z 2 -test za verifikaciju hipoteze o nezavisnosti dvaju obiljeˇja . . . . . . . . . . . 53 4.3 χ z

2

Glava 1

Uvod u matematiˇku statistiku c

Rijeˇ statistika dolazi od latinske rijeˇi status=stanje i prvobitno je predstavljala skup izvjesnih c c podataka numeriˇkih karakteristika koji se odnose na stanje posmatrane pojave, posebno na c stanje u drˇavi. z U staroj Kini i starom Egiptu popisivani su vojni i poreski obaveznici i njihova imovina. Organizovano statistiˇko popisivanje u starom Rimu je predstavljalo tzv. “cenzus” koji se c sastojao u prebrojavanju stanovniˇtva i popisu njihove imovine, obiˇno svake pete godine. s c Krajem 18. i poˇetkom 19. st. u nekim zemljama organizuju se posebne statistiˇke sluˇbe c c z sa ciljem sakupljanja i sredivanja raznovrsnih podataka o stanju u druˇtvu i privredi. s Isticanjem zahtjeva za matematiˇkom obradom tih podataka i otkrivanjem zakonitosti posc matranih pojava dovodi do potrebe razvoja matematiˇke statsitike kao posebne matematiˇke c c discipline. Na razvoj matematiˇke statistike naroˇito podsticajno su djelovali rezultati teorije vjerovatno´e. c c c U danaˇnje vrijeme, na razvoj matematiˇke statistike snaˇno djeluje savremena raˇunarska s c z c tehnika. Primjena raˇunara omogu´ava brzu obradu velikog broja prikupljenih podataka. c c Predmet prouˇavanja matematiˇke statistike su masovne pojave. Dakle, izuˇavaju se c c c masovne pojave, a ne pojedinaˇni sluˇajevi. Pojedinaˇni sluˇajevi mogu pokazivati manja ili c c c c ve´a odstupanja od prosjeˇnog ili tipiˇnog. c c c c Medutim, sve pojave posmatrane u velikom broju sluˇajeva pokazuju izvjesnu pravilnost u ponaˇanju, izvjesnu tendenciju u ispoljavanju sliˇnosti. Te pravilnosti su interesantne za s c statisiku. Opˇte zakonitosti se ispoljavaju u masi. s Najmanja odstupanja od prosjeˇnog ili tipiˇnog pokazuju pojave koje se javljaju pod utic c cajem malog broja faktora. Nazovimo takve pojave elementarnim. Odnosi izmedu elementarnih pojava i uzroˇnih faktora su od strogo determinisanih do skoro determinisanih. c Primjer 1.1.1 Poviˇen krvni pritisak najˇeˇ´e je uzrok infarkta i zbog toga je veoma znaˇajno s c sc c kontrolisati ga. Poznato je da krvni pritisak zavisi od godina ˇivota. z Pretpostavimo da ˇelimo saznati vrijednost krvnog pritiska kod zdravih ljudi. Potpunu inz formaciju nikada ne moˇemo saznati s obzirom na: broj stanovnika, potrebno vrijeme mjerenja, z mogu´e promjene u toku mjerenja, nejasan kriterijum kod “zdravih ljudi” itd. c Zbog toga, ispitivanje se izvodi na jednom podskupu ljudi. Izbor tog podskupa, tzv. uzorka, iz skupa svih ljudi, npr. cijele drˇave ili populacije (generalni skup) treba da zadoz volji izvjesne uslove. Nestrogo govore´i, a taˇno, zakljuˇak koji izvedemo na osnovu uzorka c c c treba s velikom pouzdanoˇ´u da vaˇi za ˇitavu populaciju. Kaˇe se: uzorak treba da bude sc z c z

w

w

w

.m

at e

m

at ik
3

a. c

om

.b a

1.1

Pojam i predmet matematiˇke statistike c

Mirnes Smajilovi´ c

Statistika

reprezentativan, tj. da ispitivana predstava o odredenoj pojavi bude saglasna sa cijelom populacijom. Ispitivanje pojave na cijeloj populaciji, po pravilu nije mogu´e. Ako bi broj elemenata u c uzorku bio mali, kaˇe se: obim uzorka mali. Tada ne bismo bili sigurni da dobijeni rezultati nisu z posljedica puke sluˇajnosti ili nemamo razloga da vjerujemo da se opˇta zakonitost ispoljila c s na tako malom broju sluˇajeva. c Dakle, obim uzorka treba da bude dovoljno velik. Obim uzorka treba da bude takav da se u razumnom vremenskom periodu mogu izvrˇiti navedena ispitivanja. s Praksa je pokazala, da obim uzorka nije dovoljan za reprezentativnost. U prethodnom primjeru, ako bi uzeli veliki broj muˇkaraca, to ne bi bilo dovoljno da zakljuˇak prenesemo na s c cijelu populaciju. ˇ Primjer 1.1.2 Zeli se provjeriti efikasnost novog lijeka L za lijeˇenje od bolesti B. Radi toga, c lijek se daje jednoj grupi pacijenata, inaˇe dobrovoljaca, i registruje se efekat primjene tog c lijeka. Ako je lijeˇenje bilo uspjeˇno u 99% sluˇajeva, da li treba dozvoliti upotrebu tog lijeka? c s c Na osnovu ovog podatka, ne bi se trebala dozvoliti upotreba lijeka. Moˇemo re´i da matematiˇka statistika prouˇava populacije ili generalne skupove, ˇiji z c c c c elementi pored svoje raznolikosti, posjeduju i izvjesne sliˇnosti. Zajedniˇka osobina ili karakc c teristika, obiljeˇje populacije varira od jednog do drugog elementa populacije, ali se u masi, z tj. cijeloj populaciji iskazuje kao pravilnost ili zakonitost. U primjeru 1.1.1 obiljeˇje je krvni pritisak. z

w

w

Kod jedne populacije moˇemo istovremeno posmatrati i viˇe obiljeˇja, i onda se postavlja z s z pitanje njihove meduzavisnosti.

w

.m

plave oˇe c zelene oˇi c crne oˇi c

-

1 2 3

at e

Obiljeˇja ´emo oznaˇavati sa X, Y, Z . . . sa ili bez indexa. Obiljeˇja mogu biti nuz c c z meriˇkog ili atributivnog (opisnog) karaktera. Obiljeˇje atributivnog karaktera ponekad je c z potrebno zapisati u obliku obiljeˇja numeriˇkog karaktera. Npr., z c

m

at ik

a. c

om

.b a

http://matematika.com.ba

4

Radna verzija

Mirnes Smajilovi´ c

Statistika

1.2

Osnovne etape statistiˇkih ispitivanja c

Prouˇavanje pojava i procesa na osnovu uzorka predstavlja statistiˇki eksperiment, planirano c c posmatranje odredenih obiljeˇja date populacije koja su znaˇajna za prouˇavanu pojavu ili z c c proces. 1. Izbor tih obiljeˇja predstavlja prvu etapu ili poˇetnu fazu prouˇavanja. Taj izbor je z c c iskustvenog karaktera i, razumije se, zbog izvjesne subjektivnosti mogu´e su poˇetne ili c c inicijalne greˇke. One mogu uticati na donoˇenje pogreˇnog zakljuˇka i kad je rasudivanje s s s c ispravno. 2. Druga etapa je statistiˇko posmatranje ili snimanje, i sastoji se u registrovanju obiljeˇja c z X. Kratko reˇeno, druga etapa je uzimanje ili izvlaˇenje uzorka. c c Dugo vremena se mislilo da obim uzorka treba biti unaprijed fiksiran. Npr. obim uzorka je n, a poznato je da je obim populacije N . U posljednje vrijeme obim uzorka se ne fiksira unaprijed. Postupa se npr. ovako: prvo se prouˇi n1 elemenata populacije i onda se procjenjuje da li na osnovu ovog ispitivanja moˇemo c z donijeti konaˇan zakljuˇak ili ispitivanje treba produˇiti. Ako treba produˇiti, onda treba c c z z uzeti n2 elemenata i nastaviti na isti naˇin. c Ova shema ispitivanja se primjenjuje najˇeˇ´e u teku´oj kontroli kvaliteta proizvoda. c sc c Osnovni zahtjevi u prikupljanju podataka su: istinitost, taˇnost, urednost i potpunost. c U zavisnoti od prirode pojave, postoje dva osnovna statistiˇka pristupa: c

2. registrovanje vrijednosti posmatranog obiljeˇja po redoslijedu pojavljivanja. z Jedna od metoda je tzv. popisna metoda (npr. popis stanovniˇtva, i pri tom popisu s mogu se snimati razna obiljeˇja). Jedan od naˇina je tzv. izvjeˇtajna metoda (provodi se z c s putem obrazaca). Primjer 1.2.1 Neka treba utvrditi koliko je prosjeˇni dˇeparac studenta PMF u Tuzli. Neka c z iz izvjesnih razloga nije mogu´e svakom studentu postaviti to pitanje. Onda se bira odredeni c broj tih studenata. Kako ´emo izvrˇiti biranje tih studenata? c s Neka su studenti numerisani brojevima od 1 do 500. Neka je obim uzorka n = 50. Biranje moˇemo izvrˇiti koriˇtenjem tablica sluˇajnih brojeva. z s s c 3. Tre´a etapa je sistemsko sredivanje dobijenih vrijednosti uzorka. c ˇ 4. Cetvrta etapa je obrada podataka (rezultata). 5. Peta etapa je tumaˇenje dobijenih rezultata. c

w

w

w

.m

at e

m

1. registrovanje vrijednosti posmatranog obiljeˇja svih elemenata uzorka u taˇno odredenom z c trenutku,

at ik

a. c

om

.b a

http://matematika.com.ba

5

Radna verzija

Mirnes Smajilovi´ c

Statistika

1.3

Prikazivanje statistiˇkih podataka. Raspodjela obiljeˇja c z

ˇ c Primjer 1.3.1 Zele´i da saznamo neˇto o potroˇnji benzina na 100 predenih km automobila s s izvjesnog tipa, na sluˇajan naˇin je odabrano 10 vlasnika takvih automobila. Na pitanje o c c prosjeˇnoj potroˇnji, dobili smo odgovore: c s 7.5, 8.1, 7.9, 7.5, 8.2, 7.4, 8.0, 7.4, 7.5, 7.9. Zbog malog obima uzorka ne moramo potpuno biti sigurni u predstavu o prosjeˇnoj potroˇnji. c s Odgovori u rastu´em poretku: c 7.4, 7.4, 7.5, 7.5, 7.5, 7.9, 7.9, 8.0, 8.1, 8.2. Neka je X potroˇnja benzina (prosjeˇna na 100 km). s c

xi
ni n

7.4
2 10

at ik
7.5
3 10

gdje je n obim uzorka. Ovaj naˇin prikazivanja podataka je jedna statistiˇka tabela. c c Posmatrajmo sljede´u tabelu: c 7.9
2 10

a. c
8.0
1 10

xi su konkretne vrijednosti obiljeˇja X, a ni su apsolutne frekvencije. z Jasno je da mora biti n = n1 + n2 + · · · + nk

at e

Vrijednosti ni = pi su relativne frekvencije. n Jasno je da mora da vaˇi z

w

Veliˇinu c

.m

p1 + p2 + · · · + pk =

nazivamo varijacioni raspon (razmak, interval). Varijacioni raspon se, kada to nije dato, podijeli na klase. Duˇina klase (podintervala) se bira tako da bi se prostije i jasnije uoˇio z c karakter promjena obiljeˇja X. Broj klasa se bira shodno sljede´em uputstvu empirijskog z c karaktera.

w

w

Obim uzorka - n 40-60 60-100 100-200 200-500 viˇe od 500 s

m

n1 n2 nk n + + ··· + = = 1. n n n n

R = max xi − min xi

Broj klasa - k 6-8 7-10 9-12 12-17 21

Broj klasa k se odreduje i na sljede´i naˇin: k = [log2 n] + 1. c c Ve´a preglednost dobijenih sredenih podataka se postiˇe pomo´u poligona i histograma c z c apsolutnih, odnosno relativnih frekvencija. Poligon apsolutnih frekvencija je izlomljena linija koja spaja taˇke (x1 , n1 ), (x2 , n2 ), . . . , (xk , nk ), c gdje su xi varijante (realizacije) uzorka, a ni odgovaraju´e apsolutne frekvencije. c Poligon relativnih frekvencija je izlomljena linija koja spaja taˇke (x1 , p1 ), (x2 , p2 ), . . . , (xk , pk ), c gdje su xi varijante (realizacije) uzorka, a pi odgovaraju´e relativne frekvencije. c http://matematika.com.ba 6 Radna verzija

om
8.1
1 10

8.2
1 10

.b a

xi ni

7.4 2

7.5 3

7.9 2

8.0 1

8.1 1

8.2 1

Mirnes Smajilovi´ c

Statistika

Primjer 1.3.2 Dat je sljede´i uzorak: c xi ni Konstruisati: a) poligon apsolutnih frekvencija, b) poligon relativnih frekvencija. Obim uzorka je n = 2 + 3 + 5 + 4 + 4 + 2 = 20. ni 5 4 3 2 1 0 0 1 1 2 2 3 3 5 4 4 5 4 6 2

at ik
2

a. c m
3 4 5 6 7 xi Slika 1.1: Poligon apsolutnih frekvencija

xi
ni n 2 20

w

w

0.25 0.20 0.15 0.10 0.05 0 0 1 2 3 4 5 6 7 Slika 1.2: Poligon relativnih frekvencija Primjer 1.3.3 Dat je sljede´i uzorak sl. p. X: c Ii ni (1,5) 10 (5,9) 20 (9,13) 50 (13,17) 12 (17,21) 8

w

1 = 0.1

.m

Tablica relativnih frekvencija je:
3 20

at e

2 = 0.15

5 20

3 = 0.25

4 20

4 = 0.2

om
4 20

pi

gdje je Ii interval u kome se xi (varijanta, realizacija) pojavljuje ni puta. Konstruisati: http://matematika.com.ba 7 Radna verzija

.b a
5 = 0.2
2 20

6 = 0.1

xi

Mirnes Smajilovi´ c

Statistika

a) histogram apsolutnih frekvencija, b) histogram relativnih frekvencija. Rjeˇenje s Obim uzorka je n = 10 + 20 + 50 + 12 + 8 = 100. Duˇine h intervala Ii su jednake, h = 4. z a) Histogram apsolutnih frekvencija konstruiˇemo tako ˇto nad intervalima Ii kons s struiˇemo pravougaonike osnovice h i visina koje su jednake ni . s h Tablica za histogram apsolutnih frekvencija je: Ii
ni h ni h

(1,5) 2.5

(5,9) 5

(9,13) 12.5

(13,17) 3

(17,21) 2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

b) Histogram relativnih frekvencija konstruiˇemo tako ˇto nad intervalima Ii kons s struiˇemo pravougaonike osnovice h i visina koje su jednake pi . s h Tablica relativnih frekvencija je:

w

w

w

.m

13 12 11 10 9 8 7 6 5 4 3 2 1 0

at e

m

at ik

a. c

om
xi Slika 1.3: Histogram apsolutnih frekvencija Ii pi (1,5) 0.1 (5,9) 0.2 (9,13) 0.5 (13,17) 0.12 (17,21) 0.08 Ii
pi h

Tablica za histogram relativnih frekvencija je: (1,5) 0.025 (5,9) 0.05 (9,13) 0.125 (13,17) 0.03 (17,21) 0.02

Statistiˇki podaci se mogu prikazivati i na druge naˇine, a to zavisi od prirode i namjene c c podataka. Razne geometrijske figure se mogu koristiti za prikaz podataka, npr. kruˇnica z (kruˇni prikaz). z

.b a
8 Radna verzija

http://matematika.com.ba

Mirnes Smajilovi´ c
pi h

Statistika

0.125 0.100 0.075 0.050 0.025 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 xi Slika 1.4: Histogram relativnih frekvencija

1.4

Srednje vrijednosti

X: pri ˇemu je c
i

p(xi ) = 1.

w

Obiljeˇja neprekidnog tipa zadaju se funkcijom gustine ili funkcijom raspodjele. z Najˇeˇ´e nemamo potpunu informaciju, a nije rijedak sluˇaj kada nam potpuna informacija c sc c nije potrebna, nego nam je potrebna neka odredena karakteristika numeriˇkog tipa. Jedna od c najvaˇnijih numeriˇkih karakteristika obiljeˇja je srednja vrijednost. Srednja vrijednost na z c z neki naˇin reprezentuje ˇitav skup i omogu´ava izvjesno poredenje populacija. c c c Najˇeˇ´e upotrebljavana srednja vrijednost je aritmetiˇka sredina. Srednja vrijednost c sc c se oznaˇava sa xn : c ¯ k 1 1 xn = (x1 + x2 + · · · + xn ) = ¯ n i xi . n n

.m

at e

m

at ik
2, 3, 4, 5, 7, 8, 9.

Neka su podaci uzorka posmatranog obiljeˇja uredeni po veliˇini: z c x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn . Medijana uzorka je ona vrijednost obiljeˇja koja se nalazi u sredini: z Me = xk+1 , 1 2 (xk + xk+1 ), n = 2k + 1 . n = 2k

Primjer 1.4.1 Na´i medijanu uzorka: 5, 4, 8, 3, 7, 2, 9. c Rjeˇenje s Uredimo podatke po veliˇini: c Kako imamo neparan broj podataka, n = 7, medijana je M e = 5. c Primjer 1.4.2 Na´i medijanu uzorka: 18.3, 20.6, 19.3, 22.4, 20.2, 18.8, 19.7, 20.0. http://matematika.com.ba 9 Radna verzija

w

Medijana

w

a. c
i=1

x1 x2 ... p(x1 ) p(x2 ) . . .

om

Potpunu informaciju o posmatranom obiljeˇju izvjesne populacije daje njena raspodjela. Raspodz jela obiljeˇja diskretnog tipa daje se sljede´om shemom: z c

.b a

Mirnes Smajilovi´ c

Statistika

Rjeˇenje s Uredimo podatke po veliniˇini: c 18.3, 18.8, 19.3, 19.7, 20.0, 20.2, 20.6, 22.4. Kako imamo paran broj podataka, n = 8, medijana je 1 1 M e = (x4 + x5 ) = (19.7 + 20.0) = 19.85. 2 2 Neka su podaci uzorka x1 , x2 , . . . , xk zadati u rastu´em poretku, sa odgovaraju´im frekvenc c cijama n1 , n2 , . . . , nk , pri ˇemu je n1 + n2 + · · · + nk = n. c Ako formiramo sljede´e sume: c n1 , n1 + n2 , n1 + n2 + n3 , . . . sve dok se ne dode do sume frekvencija koje zadovoljavaju ovaj uslov: n n1 + n2 + · · · + ni ≤ ≤ n1 + n2 + · · · + ni + ni+1 2 onda medijana M e zadovoljava uslov: d d xi+1 − ≤ M e ≤ xi+1 + , 2 2 gdje je d = xi+1 − xi . Tada je

at e

Kod grupisanih podataka, x1 , x2 , . . . , xk predstavljaju sredine klasa, ˇto znaˇi da je s c d xi+1 − = L1 2 lijeva granica klase kojoj pripada medijana. Sada moˇemo pisati: z

m

Ako se koristi desna granica L2 , onda imamo:

w

.m

M e = L1 + d ·

at ik

M e = xi+1 −

d 2

+d·

a. c
(1000,1200) 20

n −(n1 +n2 +···+ni ) 2 ni+1

n −(n1 +n2 +···+ni ) 2 ni+1

Ii ni

w

Primjer 1.4.3 Na´i medijanu sljede´eg uzoka: c c (400,600) 3 (600,800) 5 (800,1000) 10 (1200,1400) 8 (1400,1600) 4

Rjeˇenje s Obim uzorka je: n = 3 + 5 + 10 + 20 + 8 + 4 = 50. Formirajmo sume: n1 + n2 = 3 + 5 = 8 n1 + n2 + n3 = 3 + 5 + 10 = 18 n1 + n2 + n3 + n4 = 3 + 5 + 10 + 20 = 38 Dakle, kako je i = 3, zakljuˇujemo da se medijana nalazi u 4 intervalu (1000, 1200), odakle je c L1 = 1000 i L2 = 1200. Duˇina klase je d = 1200 − 1000 = 200. z Medijana je: M e = L1 + d ·
n 2

w

M e = L2 − d ·

n −(n1 +n2 +···+ni ) 2 ni+1

− (n1 + n2 + · · · + ni ) 25 − 18 = 1000 + 200 · = 1070. ni+1 20

om
. . .

.b a
Radna verzija

http://matematika.com.ba

10

Mirnes Smajilovi´ c

Statistika

Moda
Moda uzorka je ona vrijednost u uzorku kojoj odgovara najve´a frekvencija. c Ako uzorak ima jednu modu, onda se kaˇe da je unimodalan, u suprotnom multimodalan. z Primjer 1.4.4 Na´i modu uzorka: 2, 2, 3, 5, 5, 5, 6, 6, 8, 9. c Rjeˇenje s xi ni 2 2 3 1 5 3 6 2 8 1 9 1

Vidimo da je najve´a frekvencija 3, pa je M o = 5. Ovaj uzorak je unimodalan. c

Rjeˇenje s xi ni 2 1 3 2

at ik
4 2 5 1 (30,40) 10

.m

Ako su podaci uzorka grupisani u klase, onda se polaze´i od klase sa najve´om frekvencijom c c (modalna klasa), moda odreduje na sljede´i naˇin: c c

at e

Ovaj uzorak ima dvije mode M o = 3 i M o = 4. Ovaj uzorak je multimodalan.

m
(20,30) 5

gdje je L1 - lijeva granica klase kojoj pripada M o, d - duˇina klase, z d1 - razlika frekvencija modalne i predmodalne klase, d2 - razlika frekvencija modalne i postmodalne klase. Primjer 1.4.7 Na´i modu uzorka: c Ii ni (10,20) 3 (40,50) 24 (50,60) 8

Rjeˇenje s Modalna klasa je (40, 50) pa je L1 = 40, d = 10, d1 = 24 − 10 = 14, d2 = 24 − 8 = 16, pa je M o = 40 + 10 · 14 14 14 = 40 + 10 · = 40 + = 44.66. 14 + 16 30 3

w

w

w

M o = L1 + d ·

a. c
6 1
d1 d1 +d2 .

Primjer 1.4.6 Na´i modu uzorka: 2, 3, 3, 4, 4, 5, 6. c

om
Radna verzija

Rjeˇenje s Ovaj uzorak nema modu.

http://matematika.com.ba

11

.b a

Primjer 1.4.5 Na´i modu uzorka: 2, 3, 4, 5, 6. c

Mirnes Smajilovi´ c

Statistika

1.5

Disperzija i druge mjere odstupanja
−2 −1
1 8 1 8

Primjer 1.5.1 Date su rapodjele obiljeˇja X i Y na sljede´i naˇin: z c c X: 0
1 2

1
1 8

2
1 8

,

Y :

−5
2 5

0
1 5

5
2 5

.

c c c c Ako izraˇunamo matematiˇka oˇekivanja, dobit ´emo E(X) = 0 i E(Y ) = 0. Dakle, dva razliˇita obiljeˇja mogu imati ista matematiˇka oˇekivanja. Tako su srednje vrijednosti obiljeˇja c z c c z X i Y jednake, ali se moˇe zapaziti da su vrijednosti obiljeˇja X viˇe grupisane oko centra z z s raspodjele, a vrijednosti obiljeˇja Y su rasturenije od centra raspodjele. Zato se uvode tzv. z pokazetelji rasturenosti ili disperzija. Za uzorak obiljeˇja X obima n, definisat ´emo disperziju uzorka na sljede´i naˇin: z c c c

i=1

Koje je pakovanje vjerodostojnije, tj. gdje je manje odstupanje od nominalne vrijednosti? Rjeˇenje s Aritmetiˇke sredine su x100 = 50, y100 = 100. Ako bi poredili aritmetiˇke sredine, ne bi dobili c ¯ ¯ c odgovor. Disperzije su D(X) = 3.96, D(Y ) = 7.68. Ako uporedimo disperzije, imamo D(X) < D(Y ) zakljuˇujemo da je prvo pakovanje, sa obiljeˇjem X, vjerodostojnije. c z Zakljuˇivanje na osnovu disperzije, ako su veliˇine raznorodne, ne bi bilo mogu´e. c c c Disperzija kao mjera ima smisla, ali kada su veliˇine istorodne. Stoga se uvodi relativna mjera, c koeficijent varijacije: KV = D(X) xn ¯

w

w

xi ni

w

45 3

.m

Primjer 1.5.3 Primje´eno je da postoje odstupanja od nominalnih vrijednosti pakovanja tableta c u flaˇice od 50 i 100 komada. Kontrolor je uzeo 100 flaˇica pakovanja po 50 tableta - obiljeˇje s s z X i 100 flaˇica pakovanja po 100 tableta - obiljeˇje Y , i dobio rezultate: s z 48 18 49 24 50 30 53 25 yi ni 96 17 98 12 99 16 100 28 104 27

at e

m

s2 = ¯5

1 (3.20 − 3.15)2 + (3.15 − 3.15)2 + (3.25 − 3.15)2 + (3.10 − 3.15)2 + (3.05 − 3.15)2 = 0.005. 5

at ik

Rjeˇenje s Obim uzorka je n = 5. Aritmetiˇka sredina je x5 = 1 (3.20 + 3.15 + 3.25 + 3.10 + 3.05) = 3.15. c ¯ 5 Disperzija je

a. c

Primjer 1.5.2 Izraˇunati disperziju uzorka obiljeˇja X, koje ima vrijednosti: 3.20, 3.15, 3.25, 3.10, 3.05. c z

om

odnosno, ovo je srednja vrijednost kvadrata odstupanja vrijednosti uzorka od sredine uzorka.

.b a

1 ¯2 D(X) = Sn = n

n

¯ (Xi − Xn )2 .

http://matematika.com.ba

12

Radna verzija

Mirnes Smajilovi´ c

Statistika

1.6

Momenti. Mjere asimetrije i spljoˇtenosti s

¯ ¯2 Srednja vrijednost Xn i disperzija Sn kao centar raspodjele i mjera rasturanja su vaˇne karakz teristike raspodjele obiljeˇja. Potrebno je uvesti joˇ neke karakteristike raspodjele obiljeˇja. z s z Prvo ´emo definisati momente viˇeg reda. c s Obiˇni moment m-tog reda je c xm = ¯n 1 n
n

xm = i
i=1

1 n

k

n i xm i
i=1

odnosno kao n-dimenzionalna sluˇajna promjenljiva (statistika) c

i=1

Centralni moment m-tog reda je µm 1 = n
n i=1

odnosno kao n-dimenzionalna sluˇajna promjenljiva (statistika) c

m
1 n KA =

at e

µm =

w

w

Da bismo mogli mjeriti asimetriˇnost, odnosno odstupanje raspodjele uzorka od simetriˇne c c raspodjele, uvodimo koeficijent asimetrije:

.m

¯2 Vidimo da je za m = 2, µ2 = Sn .

w

at ik
n i=1

(xi − xn ) ¯

m

¯ (Xi − Xn )m .

µ3 µ2
3/2

Klasifikacija asimetriˇnosti: c 1. 0 ≤ |KA | < 0.1, praktiˇno nema aismetrije (zanemarljiva), c 2. 0.1 ≤ |KA | < 0.25, mala asimetriˇnost, c 3. 0.25 ≤ |KA | < 0.5, srednja asimetriˇnost, c 4. 0.5 ≤ |KA |, vrlo izraˇena asimetriˇnost. z c Koeficijent spljoˇtenosti (ekscesa): s KE = µ4 − 3. µ2 2

Ako je KE > 0 onda je spljoˇtenost krive manja, a ako je KE < 0 onda je spljoˇtenost krive s s ve´a. c http://matematika.com.ba 13 Radna verzija

a. c
1 = n
k i=1

=

µ2 3 µ3 2

om
ni (xi − xn )m ¯ .

¯1 ¯ Vidimo da je za m = 1, Xn = Xn .

.b a

1 ¯m Xn = n

n

Xim .

Mirnes Smajilovi´ c

Statistika

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 −4 −3 −2 −1 0

KE > 0

KE = 0, N (0, 1) KE < 0 1 2 3 4 5

U mat. analizi prouˇavaju se gama i beta funkcije. Ove funkcije imaju znaˇajnu ulogu u c c primjenama matematike, pogotovo u mat. statistici. Definicija 1.7.1 Gama funkcija (Eulerova funkcija II vrste) je funkcija definisana sljede´im c integralom: Γ(p) =

m
∞ 0

at ik
tp−1 e−t dt,

w

1. Γ(p + 1) = pΓ(p); ako je p ∈ N, onda je Γ(p + 1) = p!

w

2. Γ

1 2

=

.m

Navedimo neke osobine gama funkcije:

at e

a. c

om
p > 0.
0

1.7

Neke vaˇnije raspodjele u mat. z raspodjela

statistici: gama i beta

.b a

2 1√ π 2

Slika 1.5: Koeficijent ekscesa

0

1 √ e−t dt = smjena: t = u2 , dt = 2udu = 2 t π sin pπ Γ(n + 1) n

e−u du =

π

3. Γ(p)Γ(1 − p) = 4. n < 0,

Definicija 1.7.2 Beta funkcija (Eulerova funkcija I vrste) je funkcija definisana sljede´im c integralom:
1

w
Γ(n) = B(p, q) =
0

tp−1 (1 − t)q−1 dt,

p > 0, q > 0.

Gama i beta funkcije su povezane sljede´om relacijom: c B(p, q) = Γ(p)Γ(q) . Γ(p + q) Radna verzija

http://matematika.com.ba

14

Mirnes Smajilovi´ c

Statistika

Definicija 1.7.3 Za sl. p. X kaˇemo da ima gama raspodjelu ako je z  0, f (x; p, λ) = λ  (λx)p−1 e−λx , Γ(p) p , λ x≤0 x > 0, p > 0, λ > 0

Osnovni parametri gama raspodjele su: E(X) =
∞ ∞ −∞

xf (x)dx =

σ 2 (X) = E[X − E(X)]2 = E(X 2 ) − [E(X)]2 =

p . λ2

E(X) = =

Osnovni parametri beta raposdjele su: E(X) =

m

p , p+q
1

at ik
σ 2 (X) = (p
1 p−1 λ .

z Definicija 1.7.4 Za sl. p. X kaˇemo da ima beta raspodjelu ako je  0, x≤0∨x≥1 f (x; p, q) = 1  xp−1 (1 − x)q−1 , 0 < x < 1, p > 0, q > 0 B(p, q)

a. c
pq + q)2 (p x
p−1 p+q−2 .

om

+ q + 1)

E(X) =

=

=

1 xp−1 (1 − x)q−1 dx = B(p, q) −∞ 0 0 Γ(p + 1)Γ(q) 1 1 1 Γ(p + 1 + q) xp (1 − x)q−1 dx = B(p + 1, q) = = Γ(p)Γ(q) B(p, q) 0 B(p, q) Γ(p + q) pΓ(p)Γ(p + q) p = . Γ(p)(p + q)Γ(p + q) p+q xf (x)dx = xf (x)dx =

Zadaci za vjeˇbu z 1. Pokazati da je moda gama raspodjele M o = 2. Pokazati da je moda beta raspodjele M o = 3. Izraˇunati medijanu gama raspodjele. c 4. Izraˇunati medijanu beta raspodjele. c

w

w

w

.m

at e

.b a
.

λ (λx)p−1 e−λx dx = |smjena: λx = t, λdx = dt| = Γ(p) −∞ 0 0 ∞ ∞ 1 1 pΓ(p) p t λ p−1 −t dt t e = tp e−t dt = Γ(p + 1) = = . λ Γ(p) λ λΓ(p) 0 λΓ(p) λΓ(p) λ 0 xf (x)dx = xf (x)dx = x

http://matematika.com.ba

15

Radna verzija

Mirnes Smajilovi´ c

Statistika

1.8

Neke vaˇnije raspodjele u mat. statistici: χ2 - raspodjela z

Jedan od najvaˇnijih zadataka u mat. statistici je ispitivanje saglasnosti statistiˇke raspodjele z c sa pretpostavljenom teorijskom raspodjelom. Izbor teorijske raspodjele, dakle raspodjele za koju pretpostavljamo da je odgovaraju´e obiljeˇje raspodijeljeno upravo po toj raspodjeli, je c z ˇisto iskustvenog karaktera, a to znaˇi da su mogu´e greˇke zbog subjektivnosti onoga koji to c c c s bira. Te poˇetne greˇke sigurno utiˇu na vjerodostojnost izvedenih zakljuˇaka. c s c c Definicija 1.8.1 Raspodjela definisana funkcijom gustine  0, x≤0 , x>0

naziva se χ2 - raspodjela sa n stepeni slobode. Oznaˇavat ´emo je sa χ2 ili χ2 (n). c c n Broj n moˇe biti bilo koji pozitivan broj, ali je najznaˇajnije kada je n prirodan broj. z c Skicirat ´emo grafik gustine za neke vrijednosti broja n. c

0.5 0.4 0.3 0.2 0.1 0 n=2

.m

at e

n=6 n = 10 n = 15

w

Za ve´i broj stepeni slobode, χ2 raspodjela se pribliˇava normalnoj raspodjeli. c z
∞ −∞ ∞ 0

w

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Slika 1.6: Grafik funkcije gustine χ2 raspodjele

w

m

at ik

a. c
E(χ2 ) = n xf (x)dx = x = y, 2

n

om
x

.b a
1 Γ
n 2 0

1 f (x) =  n/2 2 Γ

n 2

x

n −1 2

e

−x 2

x

1 2n/2 Γ

n 2

x 2 −1 e− 2 dx =

n

x 2 −x n e 2 dx 22

n

= |s : = 2 Γ
n 2

dx = 2dy| 2 Γ
n 2

y 2 e−y dy =

Γ

0

2 n n n +1 = n · 2 ·Γ 2 =n 2 Γ 2

http://matematika.com.ba

16

Radna verzija

Mirnes Smajilovi´ c

Statistika

E[(χ2 )2 ] n

=

∞ −∞

x f (x)dx =
0

2

1 x n/2 2 Γ
2

= |s : = = 4 Γ Γ
n 2

x = y, 2

n

n 2

x

n −1 2

e

−x 2

dx =

2 Γ
n 2 0

x 2 +1 − x e 2 dx n 2 2 +1

n

dx = 2dy| 4 Γ
n 2

y 2 +1 e−y dy =

Γ

0

n 4 n n +2 = +1 ·Γ +1 · 2 2 2 Γ n 2

4
n 2

·

n+2 n n · ·Γ = n(n + 2) 2 2 2

Za primjenu χ2 -raspodjele, znaˇajne su sljede´e teoreme: c c

w

w

w

.m

at e

m

at ik

Teorema 1.8.2 Neka sluˇajna promjenljiva X ima χ2 -raspodjelu sa n stepeni slobode. Tada c X −n ima normalnu raspodjelu N (0, 1). sluˇajna promjenljiva √ c 2n

a. c

Teorema 1.8.1 Neka nezavisne sluˇajne promjenljive X1 , X2 , . . . , Xn imaju normalnu raspodc 2 2 2 jelu N (0, 1). Tada sluˇajna promjenljiva X = X1 + X2 + · · · + Xn ima χ2 -raspodjelu sa n c stepeni slobode.

om

.b a
Radna verzija

χ2 -raspodjela se ponaˇa kao normalna raspodjela N (n, 2n), za n ≥ 30 . s

σ 2 (χ2 ) = E[(χ2 )2 ] − [E(χ2 )]2 = n(n + 2) − n = n2 − 2n − n2 = 2n. n n n

http://matematika.com.ba

17

Mirnes Smajilovi´ c

Statistika

1.9

Neke vaˇnije raspodjele u mat. statistici: Studentova ili tn z raspodjela

Neka nezavisne sluˇajne promjeljive X1 , X2 , . . . , Xn imaju normalnu raspodjelu N (m, σ 2 ). c Kao ˇto je poznato, sl. p. s Z= ima normalnu raspodjelu N (0, 1). ¯ E(Xn ) = E ¯ σ (Xn ) = σ 2
2

¯ Xn − m
σ √ n

,

1 ¯ Xn = n

n

Xi
i=1

1 n 1 n

n

Xi
i=1 n

=

1 E n

n

Xi
i=1 n

(nezav. sl. p.)

=

1 n

n

E(Xi ) =
i=1

1 n · m = m. n 1 σ2 n · σ2 = . n2 n

Xi
i=1

1 = 2 σ2 n

Xi
i=1

(nezav. sl. p.)

=

1 n

Ako nije poznata disperzija σ 2 onda se koristi sljede´a ocjena za disperziju: c ¯∗2 Sn = 1 n−1

i=1

Definicija 1.9.1 Raspodjela definisana funkcijom gustine Γ n+ 1 2 f (x) = √ · nπ Γ n 2

m

at ik
1 2

naziva se Studentova ili tn raspodjela. Ako je n ∈ N onda imamo Studentovu raspodjelu sa n stepeni slobode. Navedimo neke osobine Studentove raspodjele.

• f (x) > 0,

w

1. Za funkciju gustine f (x) vaˇi: z ∀x ∈ R,

• f (x) = f (−x) (grafik simetriˇan u odnosu na y osu). c
x→±∞

2. Apscisna osa je horizontalna asimptota, tj. x2 3. Kako je 1 + ≥ 1 to izraz n M o = 0. x2 1+ n
− n+1 2

w

w

.m

at e

x2 1+ n

a. c
¯ (Xi − Xn )2 .
− n+1 2

n

om
,

x ∈ R,

lim f (x) = 0.

dostiˇe maksimum za x = 0, dakle, moda je z

4. Zbog simetriˇnosti u odnosu na ordinatnu osu, imamo E(X) = 0, M e = 0 i svi momenti c neparnog reda su jednaki nuli. 5. Disperzija: σ 2 = n , n−2 n > 2. 3n2 , (n − 2)(n − 4) 18 n > 4.

6. Centralni moment ˇetvrtog reda: µ4 = c

.b a
σ 2 (Xi ) =
i=1

n

n>0

http://matematika.com.ba

Radna verzija

Mirnes Smajilovi´ c µ3 (µ2 )3/2 µ2 3 µ3 2

Statistika

7. Koeficijent asimetrije: KA = 8. Koeficijent ekscesa: KE = Oˇigledno je lim KE = 0. c
n→∞

=

= 0, n > 4.

n > 2.

6 µ4 −3= , n−4 µ2 2

0.4 0.3

N (0, 1)

0.1

Slika 1.7: Grafik funkcije gustine tn raspodjele

.m

at e

Dokaz Teorema se moˇe dokazati koriˇtenjem karakteristiˇnih funkcija, ali ´emo izvesti direktni dokaz. z s c c

m

Teorema 1.9.1 Studentova ili tn raspodjela teˇi normalnoj raspodjeli N (0, 1) kada n → ∞. z

at ik

w

Γ n+ 1 2 lim f (x) = lim √ · n→∞ n→∞ nπ Γ n 2

w

1 2

a. c

−4

−3

−2

−1

0

1

om
2
− n+1 2

.b a
n=2 3 4 5 x2 1+ n
n 2

0.2

n = 10

=

Γ 1 √ · lim n→∞ Γ 2π
x2 1 √ e− 2 2π

n 2 n 2

+ ·

w

1 2

· lim

n→∞

x2 1+ n
=e−
x2 2

−n 2

· lim

n→∞

x2 1+ n
=1

−1 2

=1

=

Kako je funkcija gusto´e normalne raspodjele c
(x−µ)2 1 f (x) = √ e− 2σ2 , σ 2π

σ > 0, µ ∈ R

dokaz teorema je zavrˇen. s Teorema 1.9.2 Neka nezavisne sluˇajne promjenljive Z i Y imaju redom raspodjele N (0, 1) c 2 . Tada sl. p. i χn Z T = , n = 1, 2, . . .
Y n

ima tn raspodjelu. http://matematika.com.ba 19 Radna verzija

Mirnes Smajilovi´ c

Statistika

Teorema 1.9.3 Neka su X1 , X2 , . . . , Xn nezavisne sluˇajne promjenljive sa normalnom raspodc 2 ). Tada sl. p. jelom N (m, σ ¯ Xn − m √ n−1 ¯ Sn ima tn−1 raspodjelu. Teorema 1.9.4 Neka su X1 , X2 , . . . , Xm i Y1 , Y2 , . . . , Yn nezavisne sluˇajne promjenljive i pri c 2 ), a Y (j = 1, n) imaju N (m , σ 2 ) raspodjelu. Tada sl. p. tome Xi (i = 1, m) imaju N (m1 , σ j 2 ¯ ¯ Xm − Yn − (m1 − m2 ) ¯2 ¯2 mS m + n S n m·n (m + n − 2) m+n

ima Studentovu raspodjelu s m + n − 2 stepeni slobode.

w

w

w

.m

at e

m

at ik

a. c
http://matematika.com.ba 20 Radna verzija

om

.b a

Mirnes Smajilovi´ c

Statistika

1.10

Neke vaˇnije raspodjele u mat. statistici: F raspodjela z
Γ Γ
m 2 m+n 2

Definicija 1.10.1 Raspodjela definisana funkcijom gustine fm,n (x) = Γ
n 2

· x 2 −1 · (1 + x)−

m

m+n 2

,

0<x<∞

naziva se Fisherova ili F raspodjela sa m i n stepeni slobode.

Osnovni parametri F raspodjele
Matematiˇko oˇekivanje c c E(X) = =
∞ −∞

xfm,n (x) =
0 m+n 2 ∞ n 2 0

x ·

Γ Γ
m 2

m+n 2

Γ Γ
m 2

=I

E(X) = Dakle,

Γ

m 2

Γ

n 2

·

at e

Γ

m+n 2

Γ

n 2

−1 Γ m +1 Γ n −1 · m ·Γ 2 2 2 = Γ m+n Γ m · n −1 ·Γ 2 2 2 E(X) = m , n−2 n > 2.

m

1 1−t −1 I = |s : =t⇒x= ⇒ dx = 2 , x = 0 ⇒ t = 1, x = ∞ ⇒ t = 0| 1+x t t m m m+n 0 1 1 m n 1 − t 2 m+n 1 (1 − t) 2 · t 2 = − · t 2 2 dt = dt = (1 − t) 2 · t 2 −2 dt m t t t 2 · t2 1 0 0 1 n Γ n −1 Γ m +1 m n m (Beta f-ja) 2 2 = B = t 2 −2 · (1 − t) 2 dt − 1, + 1 = 2 2 Γ m+n 0 2

at ik

a. c

om
n > 4.

Γ

x

m 2

1 1+x

m+n 2

.b a
m 2 n 2 −

Γ

n 2

· x 2 −1 · (1 + x)−

m

m+n 2

1

=

m . n−2

w

Vrijednost E(X 2 ) = te dobijamo

w

.m w
=

∞ 2 0 x fm,n (x)

raˇunamo na sliˇan naˇin kao E(X) i sa istom smjenom, c c c m(m + 2) . (n − 2)(n − 4)

E(X 2 ) =

Disperzija σ 2 (X) = E[[X − E(X)]2 ] = E(X 2 ) − [E(X)]2 = m(m + 2) m2 − (n − 2)(n − 4) (n − 2)2 m(m + 2)(n − 2) − m2 (n − 4) 2m(m + n − 2) = . 2 (n − 4) (n − 2) (n − 2)2 (n − 4) σ 2 (X) = Moda Mo = m−2 n · . n+2 m 21 Radna verzija 2m(m + n − 2) , (n − 2)2 (n − 4)

Dakle,

http://matematika.com.ba

Glava 2

Ocjenjivanje parametara raspodjele

Na´i emprijsku funkciju raspodjele i nacrtati njen gafik. c Rjeˇenje s Tablica apsolutnih frekvencija: X = xk nk Empirijska funkcija raspodjele:  0,   3  = 0.12,    25 7  = 0.28, Fn (x) = 25  17 = 0.68,  25   23  = 0.92,  25    1, 22 x<2 2≤x<3 3≤x<4 4≤x<5 5≤x<6 x≥6 2 3 3 4 4 10 5 6 6 2

w

Primjer 2.1.1 Iz populacije π izvuˇen je uzorak obima n = 25 i dobijene su vrijednosti c obiljeˇja X: z 2, 3, 3, 4, 4, 5, 6, 2, 3, 4, 4, 4, 4, 5, 5, 4, 4, 2, 5, 6, 5, 5, 4, 3, 4.

w

w

.m

Definicija 2.1.2 Za dati nezavisni uzorak obima n empirijska funkcija raspodjele definiˇe s se na sljede´i naˇin: c c k (∀x ∈ R) Fn (x) = n gdje je k broj elemenata iz uzorka koji nisu ve´i od x. c

at e

m

Potpunu informaciju o sluˇajnoj pojavi daje njena funkcija raspodjele ili funkcija gustine c u neprekidnom sluˇaju, a u diskretnom zakon raspodjele. c

at ik

Definicija 2.1.1 Skup od n nazavisnih sluˇajnih promjenljivih sa istom raspodjelom nazivamo c nezavisnim ili prostim uzorkom obima n iz te populacije.

a. c

Jedan od najvaˇnijih zadataka mat. statistike je nalaˇenje numeriˇkih karakteristika populacije z z c na osnovu uzorka, odnosno ocjenjivanje parametara raspodjele populacije na osnovu uzorka.

om

.b a

2.1

Osnovna pitanja ocjenjivanja parametara raspodjele populacije na osnovu uzorka: nepristranost, stabilnost i efikasnost ocjene

Mirnes Smajilovi´ c Fn (x) 1

Statistika

x −2 −1 0 1 2 3 4 5 6 Slika 2.1: Grafik empirijske funkcije raspodjele

w

Definicija 2.1.5 Statistika θ = θ(X1 , X2 , . . . , Xn ) je stabilna ocjena parametra θ ako je θ → θ,
P

w

w

Definicija 2.1.4 (Nepristrana statistika) Statistika θ = θ(X1 , X2 , . . . , Xn ) je nepristrana ili centrirana za ocjenu parametra θ ako je E(θ) = θ.

.m

Ako treba odrediti srednju vrijednost obiljeˇja X neke populacije, onda je prirodno uzeti z ¯ n = 1 (X1 + X2 + · · · + Xn ). Njena realizacija na nekom konkretnom veliˇinu (statistiku): X c n 1 nizu od n elemenata je xn = n (x1 + x2 + · · · + xn ). ¯

at e

m

Definicija 2.1.3 (Statistika) Svaka sluˇajna promjenljiva koja je funkcija samo od elemec nata uzorka θ = θ(X1 , X2 , . . . , Xn ) naziva se statistika.

Definicija 2.1.6 Ako su θ1 = θ1 (X1 , X2 , . . . , Xn ) i θ2 = θ2 (X1 , X2 , . . . , Xn ) dvije nepristrane ili centrirane ocjene parametra θ, i ako je σ 2 (θ1 ) < σ 2 (θ2 ), onda je θ1 efikasnija ocjena od ocjene θ2 .

at ik

n→∞ x∈R

lim sup |Fn (x) − F(x)| = 0.

a. c
n → ∞.

Teorema 2.1.1 (Glivenko-Cantelli) Neka je Fn (x) empirijska funkcija raspodjele dobijena na osnovu nezavisnog uzorka obima n iz populacije sa funkcijom raspodjele F(x). Tada s vjerovatno´om 1 vaˇi jednakost: c z

om

.b a
Radna verzija

http://matematika.com.ba

23

Mirnes Smajilovi´ c

Statistika

2.2

Taˇkaste ocjene parametra. Metoda momenata c

Neka je raspodjela obiljeˇja X populacije π data funkcijom raspodjele F(x; θ1 , θ2 , . . . , θk ) ili z funkcijom gustine f (x; θ1 , θ2 , . . . , θk ) ili zakonom raspodjele p(x; θ1 , θ2 , . . . , θk ) u diskretnom sluˇaju sa vrijednostima x ∈ {x1 , x2 , . . . , xn , . . . }, gdje su θ1 , θ2 , . . . , θk nepoznati parametri. c Na´i ocjene parametara θ1 , θ2 , . . . , θk na osnovu uzorka obima n : X1 , X2 , . . . , Xn znaˇi na´i c c c takve statistike, funkcije uzoraka θ1 = θ1 (X1 , X2 , . . . , Xn ) θ2 = θ2 (X1 , X2 , . . . , Xn ) . . . θk = θk (X1 , X2 , . . . , Xn )

ϑ1 = θ1 (x1 , x2 , . . . , xn ) ϑ2 = θ2 (x1 , x2 , . . . , xn ) . . .

koje predstavljaju ocjene nepoznatih parametara θ1 , θ2 , . . . , θk . Metodom momenata, statistike θ1 , θ2 , . . . , θk se dobijaju rjeˇavanjem sistema jednaˇina s c

gdje su αi (i = 1, k) momenti (bilo koji, npr. matematiˇko oˇekivanje, disperzija itd.), a ai c c (i = 1, k) odgovaraju´i uzoraˇki momenti (dakle, opet, npr. sredina uzorka, disperzija uzorka c c itd.). Dobijene ocjene su tzv. taˇkaste ocjene. c c c Suˇtina metode momenata je uporedivanje teorijskih momenata sa odgovaraju´im uzoraˇkim s momentima. Radi ispitivanja efikasnosti ocjena parametara, koristi se sljede´a nejednakost. Na osnovu c te nejednakosti utvrduje se koja je ocjena najefikasnija, odnosno koja ima najmanju disperziju. Donja granica disperzije svih nepristranih ocjena dobija se iz sljede´ih nejednakosti: c

w

w

w

.m

α2 (x; θ1 , θ2 , . . . , θk ) = a2 (x1 , x2 , . . . , xn ) . . .

αk (x; θ1 , θ2 , . . . , θk ) = ak (x1 , x2 , . . . , xn )

at e

α1 (x; θ1 , θ2 , . . . , θk ) = a1 (x1 , x2 , . . . , xn )

m

at ik

ϑk = θk (x1 , x2 , . . . , xn )

σ 2 (θ) = E[(θ − θ)2 ] ≥ σ 2 (θ) = E[(θ − θ)2 ] ≥

a. c
1

om

.b a
· pi (θ)

na osnovu kojih za odredene vrijednosti uzorka n : x1 , x2 , . . . , xn dobijamo numeriˇke vrijedc nosti

n

d ln pi (θ) 2 n ] i=1 [ dθ

(2.1) (2.2)

1 n
∞ ∂ ln f (x,θ) 2 ] ∂θ −∞ [

· f (x, θ) dx

Nejednakost je poznata kao Rao-Kramerova nejednakost.

http://matematika.com.ba

24

Radna verzija

Mirnes Smajilovi´ c

Statistika

Primjeri Primjer 2.2.1 Na osnovu uzorka obima n obiljeˇja X raspodijeljenog po Puasonovom zakonu, z tj. e−θ , x = 0, 1, . . . , 0 < θ < ∞, p(x; θ) = P (X = x) = θ x · x! na´i metodom momenata ocjenu nepoznatog parametra θ. Ako su u uzorku n = 100 regc istrovane vrijednosti xi ni na´i ocjenu parametra θ. c 0 36 1 38 2 18 3 6 4 2

E(X) =

x=0

x · p(x; θ) =
∞ x=0

x=0

om
x=1

x · θx ·

e−θ = e−θ x!

θx = e−θ (x − 1)!

.b a
n

Rjeˇenje s Matematiˇko oˇekivanje je c c

x=1

θ · θ x−1 (x − 1)!

x!

Na osnovu uzorka je (aritmetiˇka sredina) c x100 = ¯

w

.m

1 ¯ z Da li je statistika Xn = n n Xi nepristrana za ocjenu parametra θ, tj. da li vaˇi i=1 ¯ n ) = θ? Sluˇajne promjenljive X1 , X2 , . . . Xn su medusobno nezavisne i jednako raspodiE(X c jeljene, pa dobijamo:

at e

1 (0 · 36 + 1 · 38 + 2 · 18 + 3 · 6 + 4 · 2) = 1 100

m
1 n
n

at ik
n

=eθ

w

¯ E(Xn )

a. c
Xi = 1 n 1 E n
n

= θ · e−θ

θx

= θ · e−θ · eθ = θ.

= =

E 1 n

Xi
i=1

w

i=1

(nezav. sl. p.)

E(Xi ) =
i=1

θ=
i=1

1 · n · θ = θ. n

Dakle, moˇemo uzeti θ = 1, pa je z p(x; 1) = P (X = x) = 1x · e−1 e−1 = , x! x! x = 0, 1, . . . .

http://matematika.com.ba

25

Radna verzija

Mirnes Smajilovi´ c

Statistika

2.3

Metoda maksimalne vjerodostojnosti

Ideja metode maksimalne vjerodostojnosti je da se za ocjenu parametra uzme ona vrijednost za koju je vjerovatno´a realizacije dobijenog uzorka najve´a. c c Neka je raspodjela obiljeˇja X populacije π data funkcijom raspodjele F(x; θ1 , θ2 , . . . , θk ) ili z funkcijom gustine f (x; θ1 , θ2 , . . . , θk ) ili zakonom raspodjele p(x; θ1 , θ2 , . . . , θk ) u diskretnom sluˇaju sa vrijednostima x ∈ {x1 , x2 , . . . , xn , . . . }, gdje su θ1 , θ2 , . . . , θk nepoznati parametri. c Na´i ocjene parametara θ1 , θ2 , . . . , θk metodom maksimalne vjerodostojnosti zahtijeva uvodenje c pojma funkcije vjerodostojnosti :
n

L(x; θ) = L(x1 , x2 , . . . , xn ; θ1 , θ2 , . . . , θk ) =
i=1

f (xi ; θ1 , θ2 , . . . , θk )

(2.3)

Uslov maksimuma funkcije L(x; θ) je ∂L = 0, ∂θi

.m

w

w

predstavlja traˇene ocjene parametara, na osnovu kojih za odredene vrijednosti uzorka n : z x1 , x2 , . . . , xn dobijamo numeriˇke vrijednosti c ϑ1 = θ1 (x1 , x2 , . . . , xn ) ϑ2 = θ2 (x1 , x2 , . . . , xn ) . . . ϑk = θk (x1 , x2 , . . . , xn ) koje predstavljaju taˇkaste ocjene nepoznatih parametara θ1 , θ2 , . . . , θk . c

w

at e

(2.4) odnosno (2.5) predstavlja sistem k jednaˇina sa k nepoznatih. c jednaˇina vjerodostojnosti (2.4) odnosno (2.5), c θ1 = θ1 (X1 , X2 , . . . , Xn ) θ2 = θ2 (X1 , X2 , . . . , Xn ) . . . θk = θk (X1 , X2 , . . . , Xn )

m

ili, ˇto je isto i ponekad pogodnije (budu´i da se maksimumi tih dviju funkcija postiˇu u istoj s c z vrijednosti za θ) ∂ ln L = 0, i = 1, k (2.5) ∂θi

at ik

a. c

i = 1, k

om

.b a

gdje su x1 , x2 , . . . , xn vrijednosti sluˇajnog uzorka obima n. Ocjene nepoznatih parametara c (2.3) su funkcije uzorka (statistike) koje maksimiziraju funkciju vjerodostojnosti; to su takve funkcije da pojava tog uzorka bude najvjerovatnija.

(2.4)

Rjeˇavanje sistema s

http://matematika.com.ba

26

Radna verzija

Mirnes Smajilovi´ c

Statistika

Primjeri Primjer 2.3.1 Dat je uzorak n : x1 , x2 , . . . , xn iz populacije koja ima funkciju gustine f (x, θ) = θe−θx , x≥0

Metodom maksimalne vjerodostojnosti na´i ocjenu nepoznatog parametra θ. c Rjeˇenje s Funkcija vjerodostojnosti je
n n n

L(x; θ) = L(x1 , x2 , . . . , xn ; θ) =
i=1

f (xi ; θ) =
i=1

θe

−θxi

n i=1

e−θxi

n

ln L(x; θ) = n ln θ +
i=1

Izvod funkcije vjerodostojnosti je d ln L n = − dθ θ Jednaˇina vjerodostojnosti je c n − θ
n n

m
i=1

at ik
i=1

at e

xi = 0 ⇒ θ =

.m

odakle dobijamo traˇenu ocjenu (statistiku) z

w

θ = θ(X1 , X2 , . . . , Xn ) =

w

w

a. c
xi 1 1 n
n i=1 xi

1 n

om
1 = ¯ Xn n i=1 Xi 1 Radna verzija

(−θxi )

http://matematika.com.ba

27

.b a

Logaritam funkcije vjerodostojnosti je

Mirnes Smajilovi´ c

Statistika

2.4

Intervalne ocjene parametara

Neka je raspodjela obiljeˇja X populacije π data funkcijom raspodjele F(x; θ) ili funkciz jom gustine f (x; θ) ili zakonom raspodjele p(x; θ) u diskretnom sluˇaju sa vrijednostima c x ∈ {x1 , x2 , . . . , xn , . . . }, gdje je θ nepoznati parametar. Intervalno ocjenjivanje nepoznatog parametra θ na osnovu uzorka obima n : X1 , X2 , . . . , Xn sastoji se u nalaˇenju dviju statistika z θ(X1 , X2 , . . . , Xn ) i θ(X1 , X2 , . . . , Xn ) takvih da je za dato α, 0 < α < 1 P {θ(X1 , X2 , . . . , Xn ) < θ < θ(X1 , X2 , . . . , Xn } = 1 − α. Interval Iθ = (θ, θ) (2.7) je interval povjerenja ili interval pouzdanosti parametra θ s nivoom povjerenja ili pouzdanosti β = 1 − α. Interval (θ, θ) je sluˇajan interval, jer su mu krajnje taˇke sluˇajne. Zahtjev da duˇina c c c z intervala bude ˇto je mogu´e manja je opreˇan zahtjevu da nivo povjerenja β bude ˇto je s c c s mogu´e ve´i. Preciznija i pouzdanija ocjena se dobija pove´anjem obima uzorka. Vjerovatno´u c c c c pouzdanosti β moˇemo shvatiti na sljede´i naˇin: u velikoj seriji uzoraka obima n, 100β% z c c izraˇunatih numeriˇkih intervala ´e prekriti nepoznati parametar θ, koji je nesluˇajan, a u c c c c preostalih 100(1 − β)% sluˇajeva ne´e. c c Sam postupak nalaˇenja intervala pouzdanosti se moˇe opisati na sljede´i naˇin. Neka je z z c c poznata statistika U = U (X1 , X2 , . . . , Xn ; θ) (2.8) i neka su odredena dva broja u i u takva da je P {u < U = U (X1 , X2 , . . . , Xn ; θ) < u} = 1 − α = β Primjenom odgovaraju´ih ekvivalentnih transformacija nejednakost c (2.6)

at e

m

at ik

a. c

om

.b a

(2.9)

.m

transformiˇemo tako da dobijemo s

w

w

w

u < U = U (X1 , X2 , . . . , Xn ; θ) < u

(2.10)

U (X1 , X2 , . . . , Xn ; u) < θ < U (X1 , X2 , . . . , Xn ; u)

(2.11)

Stavljaju´i θ = U i θ = U dobijamo traˇeni interval. c z

http://matematika.com.ba

28

Radna verzija

Mirnes Smajilovi´ c

Statistika

2.4.1

Interval povjerenja za matematiˇko oˇekivanje normalne raspodjele c c kada je poznata disperzija

Neka je X ∼ N (m, σ 2 ) i neka je poznata disperzija σ 2 . Kao ˇto smo ranije vidjeli, uzoraˇka s c ¯ n je nepristran procjenitelj matematiˇkog oˇekivanja i Xn ∼ N (m, σ2 ). ¯ aritmetiˇka sredina X c c c n Neka je zadan α, 0 < α < 1 i β = 1 − α. Sluˇajna promjenljiva c Z= ¯ Xn − m
σ √ n

ima normalnu raspodjelu N (0, 1). Interval povjerenja ´emo odrediti iz uslova c P Odavde dobijamo, ¯ Xn − m
σ √ n

kao i odakle je

at e

m

P {−zβ < Z < zβ } = β 1+β . 2

Interval povjerenja je

w

.m

F(zβ ) − F(−zβ ) = F(zβ ) − 1 + F(zβ ) = 2F(zβ ) − 1 = β ⇒ F(zβ ) =

Krajevi ovog intervala su sluˇajne promjenljive koje se mijenjaju od uzorka do uzorka. c Duˇina intervala je konstantna i zavisi od obima uzorka n, ali centar tog intervala je sl. p. z ¯ Xn . Ako uzorak nije uzet iz normalne raspodjele, to za dovoljno veliko n dobijena ocjena vaˇi. z

w

w

Im =

σ ¯ σ ¯ Xn − zβ √ , Xn + zβ √ n n

at ik

σ σ ¯ < zβ ⇐⇒ −zβ √ < Xn − m < zβ √ n n σ σ σ σ ¯ ¯ ¯ ¯ ⇐⇒ −zβ √ − Xn < −m < zβ √ − Xn ⇐⇒ Xn − zβ √ < m < Xn + zβ √ n n n n

a. c

< zβ ⇐⇒ −zβ <

¯ Xn − m
σ √ n

om
.

.b a
Radna verzija

¯ Xn − m
σ √ n

< zβ

http://matematika.com.ba

29

Mirnes Smajilovi´ c

Statistika

Primjeri Primjer 2.4.1 Iz populacije s raspodjelom N (m, 100) izvuˇen je uzorak obima n = 100 i c izraˇunata sredina uzorka x100 = 20. Na´i 95% interval pouzdanosti za nepoznato mat. c ¯ c oˇekivanje populacije m. c Rjeˇenje s Iz ˇinjenice c F(zβ ) = dobijamo da je zβ = 1.96 Interval povjerenja je Im = σ σ xn − zβ √ , xn + zβ √ ¯ ¯ n n = 10 10 , 20 + 1.96 √ 20 − 1.96 √ 100 100

1+β = 0.975 2

w

w

w

.m

at e

m

at ik

a. c
http://matematika.com.ba 30 Radna verzija

om

.b a

= (18.04, 21.96).

Mirnes Smajilovi´ c

Statistika

2.4.2

Interval povjerenja za matematiˇko oˇekivanje normalne raspodjele c c kada nije poznata disperzija

Iskoristit ´emo ˇinjenicu da statistika c c tn−1 = ima tn−1 raspodjelu, pri ˇemu je c 1 ¯ Xn = n
n

¯ Xn − m √ n−1 ¯ Sn

Xi ,
i=1

1 ¯2 Sn = n

n i=1

¯ (Xi − Xn )2 .

Interval povjerenje odredujemo iz uslova P Odavde dobijamo, =β

w

w

w

Krajevi ovog intervala su sluˇajni kao i duˇina intervala. c z

.m

Im =

¯ ¯ Sn Sn ¯ ¯ Xn − tn−1;β · √ , Xn + tn−1;β · √ n−1 n−1

at e

Interval povjerenja je

m

¯ ¯ ¯ Xn − m √ Sn Sn ¯ < Xn − m < tn−1;β · √ n − 1 < tn−1;β ⇐⇒ −tn−1;β · √ ¯n S n−1 n−1 ¯n ¯n S S ¯ ¯ ⇐⇒ −tn−1;β · √ − Xn < −m < tn−1;β · √ − Xn n−1 n−1 ¯ ¯ Sn Sn ¯ ¯ ⇐⇒ Xn − tn−1;β · √ < m < Xn + tn−1;β · √ n−1 n−1

at ik

a. c

om

.b a
. Radna verzija

¯ Xn − m √ n − 1 < tn−1;β ¯ Sn

http://matematika.com.ba

31

Mirnes Smajilovi´ c

Statistika

Primjeri Primjer 2.4.2 Iz populacije s raspodjelom N (m, σ 2 ) izvuˇen je uzorak obima n = 10 i izraˇunata c c sredina x10 = 5.5 i disperzija s2 = 36 tog uzorka. Na´i intervalnu ocjenu parametra m s ¯ ¯10 c nivoom povjerenja β = 0.90. Rjeˇenje s Iz uslova P dobijamo: P {|tn | < tn−1;β } = β ⇐⇒ P {−tn−1;β < tn < tn−1;β } = β

¯ Xn − m √ n − 1 < tn−1;β ¯ Sn

Stepen slobode je 10 − 1 = 9, pa za β = 0.90 dobijamo da je t9;β = 1 + 0.90 = 0.95 2

Im =

w

w

w

.m

at e

m

6 6 5.5 − 1.833 · √ , 5.5 + 1.833 · √ 9 9

at ik

odakle je t9;β = 1.833, pa je interval povjerenja jednak

a. c
= (1.834, 9.166). Radna verzija

http://matematika.com.ba

32

om

.b a

⇐⇒ F(tn−1;β ) − F(−tn−1;β ) = β ⇐⇒ F(tn−1;β ) − 1 + F(tn−1;β ) = β 1+β ⇐⇒ F(tn−1;β ) = 2

Mirnes Smajilovi´ c

Statistika

2.4.3

Interval povjerenja za disperziju normalne raspodjele kada je poznato matematiˇko oˇekivanje c c

Iskoristit ´emo ˇinjenicu da statistika: c c ¯2 n Sn , σ2 1 ¯2 gdje je Sn = n
n i=1

(Xi − m)2

ima χ2 -raspodjelu sa (n − 1) stepeni slobode. Iz uslova P dobijamo P pa je interval povjerenja jednak Iσ 2 =
¯2 ¯2

¯2 n Sn >u σ2

= β.

0 < σ2 <

¯2 n Sn u

at e

m
1−β 2

at ik
u

S S Iz P nσ2n > u = β slijedi 1 − P nσ2n ≤ u = β pa je F(u) = 1 − β za n − 1 stepeni slobode. Dobijeni interval se zove jednostrani interval povjerenja. Lijeva granica tog intervala je fiksirana, a desna je sluˇajna. c

a. c
α 2

0,

¯2 n Sn u

w

w

.m

α 2

=

w

β u

Slika 2.2: Grafik funkcije gustine χ2 raspodjele Na slici su oznaˇene vrijednosti u i u koje imaju sljede´e znaˇenje. Povrˇina ispod krive c c c s na intervalu [0, u] iznosi 1−β , na intervalu [u, u] iznosi β i na intervalu [u, ∞] iznosi 1−β . 2 2 ˇ Zelimo na´i dvostrani interval povjerenja. Rjeˇenje ovog problema nije jednoznaˇno. Radi c s c odredenosti ¯ nS 2 P u < 2n < u = β σ uzmimo da je P (χ2 < u) = n−1 1−β α = 2 2 i P (χ2 > u) = n−1 1−β α = , 2 2 Radna verzija

http://matematika.com.ba

33

om
. =
1−β 2

.b a

Mirnes Smajilovi´ c

Statistika

tada je P

¯2 ¯2 n Sn n Sn < σ2 < u u

pa je 100β% dvostrani interval povjerenja jednak Iσ 2 = ¯2 ¯2 n Sn n Sn , u u .

¯2 c c Granice intervala su sluˇajne, jer imamo sluˇajnu promjenljivu Sn koja zavisi od uzorka do uzorka. Primjeri

Rjeˇenje s Odredimo prvo jednostrani interval povjerenja. Iz uslova P χ2 > u = 0.95 24

F(u) = 1 − 0.95 = 0.05 =⇒ u = 13.8

at e

Iσ 2 =

m
0,

pa je jednostrani interval povjerenja

.m

Odredimo dvostrani interval povjerenja. Iz uslova

dobijamo

w

w

w

P (χ2 < u) = 24

1 − 0.95 = 0.025 2

at ik
25 · 0.64 13.8

slijedi da je

a. c
= (0, 0.16). 1 − 0.95 = 0.025 2 = (0.406, 1.290). Radna verzija

i P (χ2 > u) = 24

F(u) = 0.025 =⇒ u = 12.4 1 − F(u) = 0.025 ⇐⇒ F(u) = 0.975 =⇒ u = 39.4

pa je dvostrani interval Iσ 2 = 25 · 0.64 25 · 0.64 , 39.4 12.4

http://matematika.com.ba

34

om

.b a

Primjer 2.4.3 Iz normalno raspodjeljene populacije izvuˇen je uzorak obima n = 25 i izraˇunata c c disperzija uzorka s2 = 0.64. Na´i jednostranu i dvostranu intervalnu ocjenu disperzije σ 2 s ¯n c pouzdanoˇ´u 95%. sc

Mirnes Smajilovi´ c

Statistika

2.4.4

Interval povjerenja za disperziju normalne raspodjele kada nije poznato matematiˇko oˇekivanje c c
n i=1 n

Kada nije poznato matematiˇko oˇekivanje, onda statistika c c 1 ¯2 Sn = n ¯ (Xi − Xn )2 , 1 ¯ gdje je Xn = n Xi ,
i=1

nije nepristrana ocjena za disperziju σ 2 . 1 ¯2 E(Sn ) = E n = E = E = E = E = E = Dakle, 1 n 1 n 1 n 1 n 1 n 1 n
n i=1 n i=1 n i=1 n i=1 n i=1 n i=1 n i=1

1 ¯ (Xi − Xn )2 = E n

n i=1

¯ (Xi − m + m − Xn )2
n i=1

1 ¯ [(Xi − m) − (Xn − m)]2 = E n (Xi − m)2 − 1 n
n i=1

¯ ¯ [(Xi − m)2 − 2(Xi − m)(Xn − m) + (Xn − m)2 ]

¯ 2(Xi − m)(Xn − m) +
n i=1 n

1 ¯ (Xi − m)2 − 2(Xn − m) n 1 ¯ (Xi − m)2 − 2(Xn − m) n

(Xi − m) +

a. c
i=1

at ik

Xi − n · m

om
n

m

¯ ¯ (Xi − m)2 − 2(Xn − m)2 + (Xn − m)2 = E

.b a
1 n
n i=1

¯ (Xn − m)2

1 ¯ · n · (Xn − m)2 n ¯ + (Xn − m)2 1 n
n i=1

¯ (Xi − m)2 − (Xn − m)2 σ2 n−1 2 = σ n n

at e
Iσ 2 =

¯ E[(Xi − m)2 ] − E[(Xn − m)2 ] =

1 n

i=1

¯ σ 2 − σ 2 (Xn ) = σ 2 −

n−1 2 σ = σ2 n ¯2 pa statistika Sn nije nepristrana ocjena disperzije σ 2 . Medutim, pristranost ´emo eliminisati c ako uzmemo n ∗2 ¯2 ¯ ¯n = n Sn = 1 (Xi − Xn )2 . S n−1 n−1 ¯2 E(Sn ) =

w

w

w

.m

i=1

Zaista, imamo ¯∗2 E(Sn ) = E Statistika n ¯2 n n n−1 2 ¯2 S = E(Sn ) = · σ = σ2 . n−1 n n−1 n−1 n

¯∗2 (n − 1)Sn σ2 ima χ2 -raspodjelu sa (n − 1) stepeni slobode. Sliˇno kao kada je poznato matematiˇko c c oˇekivanje, dobijamo jednostrani interval povjerenja c ¯∗2 (n − 1)Sn Iσ2 = 0, , u dok je dvostrani interval povjerenja jednak ¯∗2 ¯∗2 (n − 1)Sn (n − 1)Sn , u u .

http://matematika.com.ba

35

Radna verzija

Mirnes Smajilovi´ c

Statistika

2.4.5

Interval povjerenja za nepoznatu vjerovatno´u p kod binomne raspodc jele

c Neka se dogadaj A realizuje m puta u n nezavisnih opita, pri ˇemu je P (A) = p nepoznat parametar. Neka je Sn sl. p. koja uzima vrijednosti jednake broju realizacija dogadaja A. Tada je n m P (Sn = m) p (1 − p)n−m , m = 0, n. m Prema Moavr-Laplasovoj teoremi, sl. p. Sn koja ima binomnu raspodjelu, za dovoljno veliko n ima normalnu raspodjelu N (np, np(1 − p)), a sl. p. √Sn −np ima standardnu normalnu
np(1−p)

raspodjelu N (0, 1). Polaze´i od c

P

Sn − np

dobijamo interval povjerenja. Kako vrijedi Sn − np < zβ ⇐⇒ np(1 − p) dobijamo da je (Sn − np)2 2 < zβ np(1 − p) Sn − np np(1 − p)
2

2 < zβ ⇐⇒

2 2 2 2 2 2 ⇔ Sn − 2npSn + n2 p2 − npzβ + np2 zβ ⇔ (n2 + nzβ )p2 − (2nSn + nzβ )p + Sn < 0

Rjeˇenje s Polaze´i od c

w

Primjer 2.4.4 Na´i 95% interval povjerenja za p, ako je u uzorku obima n = 100 registrovano c 20 pojavljivanja obiljeˇja X. z

w

w

Primjeri

.m

Granice intervala povjerenja Ip su sluˇajne, kao i duˇina intervala. U 100β% sluˇajeva, paramc z c etar p pripada intervalu Ip .

at e

Rjeˇenje ove kvadratne nejednaˇine je interval Ip = (ˆ1 , p2 ) gdje su p1 i p2 (ˆ1 < p2 ) rjeˇenja s c p ˆ ˆ ˆ p ˆ s kvadratne jednaˇine c 2 2 2 (n2 + nzβ )p2 − (2nSn + nzβ )p + Sn = 0.

P dobijamo da je

m

Sn − np < zβ np(1 − p) F(zβ ) =

at ik

2 2 ⇔ (Sn − np)2 < np(1 − p)zβ ⇔ (Sn − np)2 − np(1 − p)zβ < 0

1+β . 2 Za β = 0.95 je zβ = 1.96, pa je odgovaraju´a kvadratna jednaˇina c c (1002 + 100 · 1.962 )p2 − (2 · 100 · 20 + 100 · 1.962 )p + 202 = 0 ili, poslije sredivanja, Rjeˇenja ove kvadratne jednaˇine su p1 = 0.1334 i p2 = 0.2888, pa je s c ˆ ˆ Ip = (0.1334, 0.2888). 10384.2p2 − 4384.16p + 400 = 0.

a. c

om

.b a

np(1 − p)

< zβ

(Sn − np)2 2 < zβ np(1 − p)

http://matematika.com.ba

36

Radna verzija

Glava 3

Testiranje parametarskih hipoteza

Kod donoˇenja zakljuˇaka o istinitosti hipoteze mogu´e su sljede´e greˇke: s c c c s

2. test ne odbacuje hipotezu H0 (odbacuje H1 ) kada je H0 netaˇna. Tada ˇinimo greˇku c c s drugog tipa ili greˇku druge vrste i oznaˇavat ´emo je sa β. s c c Vjerovatno´u α zovemo nivo ili prag znaˇajnosti, a 1−α zovemo koeficijent pouzdanosti c c ili povjerenja. ˆ Testiranje se zasniva na funkciji uzorka ili statistici oblika θ = f (X1 , X2 , . . . , Xn ; θ). Za dati uzorak ζ = (x1 , x2 , . . . , xn ) i nivo znaˇajnosti α odredujemo kritiˇnu oblast W iz uslova c c PH0 {ζ ∈ W } = α. (3.1)

Ako realizovana vrijednost uzorka pripada kritiˇnoj oblasti W , onda hipotezu H0 odbacuc jemo s rizikom α da smo je odbacili kao taˇnu i kaˇemo da uzorak protivrjeˇi hipotezi H0 . Ako c z c realizovana vrijednost ne pripada kritiˇnoj oblasti W , nemamo razloga da odbacimo hipotezu c H0 , kaˇe se da uzorak ne protivrjeˇi hipotezi H0 i ˇinimo greˇku z c c s PH1 {ζ ∈ W } = β. / 37

w

1. test odbacuje hipotezu H0 (ne odbacuje H1 ) kada je H0 taˇna. Tada ˇinimo greˇku c c s prvog tipa ili greˇku prve vrste i oznaˇavat ´emo je sa α, s c c

w

w

.m

Posmatra´emo hipoteze koje se odnose na parametre raspodjele obiljeˇja X i zva´emo c z c ih parametarske hipoteze, a odgovaraju´e testove parametarski testovi. Parametarska c hipoteza je prosta ako se odnosi na jednu odredenu vrijdnost θ0 testiranog parametra θ i oznaˇavat ´emo je sa H0 (θ = θ0 ) i zvati je nultom hipotezom. Ako hipoteza nije prosta, c c ona je sloˇena. Hipotezu koju suprostavljamo nultoj hipozeti H0 zva´emo suprotna ili alz c ternativna hipoteza i oznaˇavati je sa H1 . Alternativna hipoteza je ili prosta ili sloˇena. c z Prosta ima oblik H1 (θ = θ1 ), a sloˇena jedan od oblika: H1 (θ = θ0 ), H1 (θ < θ0 ), H1 (θ > θ0 ). z

at e

m

at ik

a. c

Svako tvrdenje koje se odnosi na raspodjelu sl. p. X (obiljeˇje X populacije π) zove se z statistiˇka hipoteza ili, kratko, hipoteza. Hipoteza je ili taˇna ili netaˇna. Verifikacija c c c istinitosti hipoteze je, po pravilu, nemogu´a ispitivanjem svih elemenata populacije. Kriteric jum verifikacije istinitosti hipoteze na osnovu uzorka zove se statistiˇki test ili, kratko, test. c Kriterijumi verifikacije istinitosti na osnovu uzorka daju mogu´nost da se donese zakljuˇak o c c istinitosti hipoteze s vjerovatno´ama koje su bliske jedinici da je doneˇeni zakljuˇak taˇan. c s c c

om

.b a

3.1

Pojam parametarske hipoteze, Kritiˇna oblast. Vrste greˇaka c s

Mirnes Smajilovi´ c

Statistika

Definicija 3.1.1 Funkcija M (θ) = M (W, θ) testa θ = θ0 ˇija je vrijednost u taˇki θ = θ1 c c jednaka vjerovatno´i da ´e testiranjem biti odbaˇena hipoteza H0 (θ = θ0 ) kada je θ = θ1 , zove c c c se funkcija mo´i testa. Dakle c M (θ) = M (W, θ) = P {ζ ∈ W | taˇna vrijednost parametra je θ} c i vaˇi z M (W, θ0 ) = α i M (W, θ1 ) = 1 − β.

Definicija 3.1.2 Funkcija L(θ) = L(W, θ) testa θ = θ0 ˇija je vrijednost u taˇki θ = θ1 c c jednaka vjerovatno´i da ´e testiranjem biti prihva´ena hipoteza H0 (θ = θ0 ) kada je θ = θ1 , c c c zove se funkcija operativne karakteristike ili OC funkcija testa. Dakle L(θ) = L(W, θ) = P {ζ ∈ W | taˇna vrijednost parametra je θ} / c i vaˇi z L(W, θ0 ) = 1 − α i sljede´a relacija c i L(W, θ1 ) = β

1 − β = 1 − PH1 {ζ ∈ W } = PH1 {ζ ∈ W } = max . /

at e

m

ili, ˇto je ekvivalentno, da bude mo´ kriterijuma maksimalna, tj. da bude s c (3.3)

w

w

w

.m

Takvu kritiˇnu oblast zovemo najboljom kritiˇnom oblaˇ´u, a test (kriterijum) nac c sc jmo´niji. c

at ik

U opˇtem sluˇaju, za dato α (3.1) kritiˇna oblast W nije jednoznaˇno odredena. Treba s c c c izabrati takvu kritiˇnu oblast W da bude vjerovatno´a greˇke druge vrste minimalna, tj. da c c s bude β = PH1 {ζ ∈ W } = min . / (3.2)

a. c

L(θ) = 1 − M (θ).

om
Radna verzija

http://matematika.com.ba

38

.b a

Mirnes Smajilovi´ c

Statistika

3.2

Testiranje hipoteze o matematiˇkom oˇekivanju kada je c c poznata disperzija

Neka treba testirati hipotezu H0 (m = m0 ) protiv hipoteze H1 (m = m0 ), na osnovu uzorka obima n : X1 , X2 , . . . , Xn obiljeˇja X koje ima normalnu raspodjelu N (m, σ 2 ), gdje je σ 2 z poznato, s pragom znaˇajnosti α. Nepristrani procjenitelj oˇekivanja je aritmetiˇka sredina c c c ¯ n = 1 (X1 + X2 + · · · + Xn ) koja ima normalnu raspodjelu N m, σ2 , pa je sl. p. uzorka X n n Z= ¯ Xn − m
σ √ n

∼ N (0, 1).

Ovu sl. p. ´emo koristiti kao statistiˇki test. c c

Kritiˇnu oblast odredujemo iz uslova c

at e

m
σ √ n

Slika 3.1: Oblast odbacivanja nulte hipoteze je osjenˇano podruˇje. Povrˇina ispod krive na c c s intervalu [−∞, −z1−α/2 ] iznosi α/2, na intervalu [−z1−α/2 , z1−α/2 ] iznosi 1 − α i na intervalu [z1−α/2 , ∞] iznosi α/2.

Neka je na osnovu uzorka dobijena vrijednost xn . ¯ |¯n −m0 | x Ako xn pripada kritiˇnoj oblasti, tj. ako je ¯ c ≥ z1−α/2 , onda hipotezu H0 (m = m0 ) σ √
n

odbacujemo sa rizikom α da smo je odbacili kao taˇnu. Kritiˇna oblast za realizovanu vrijedc c nost je W = [−∞, −z1−α/2 ] ∪ [z1−α/2 , ∞]. Ako xn ne pripada kritiˇnoj oblasti, tj. ako je ¯ c odbacimo hipotezu H0 (m = m0 ). Napomena: Iz
|¯n −m0 | x
σ √ n

w

Pravilo testiranja je:

w

w

gdje je z1−α/2 takvo da je F(z1−α/2 ) = 1 − α/2.

.m

PH0

¯ |Xn − m|

at ik

α/2 −z1−α/2

≥ z1−α/2

pa dobijamo oblast kritiˇnosti za xn : c ¯ W =

σ σ ≥ z1−α/2 dobijamo xn ≥ z1−α/2 √n + m0 ili xn ≤ m0 − z1−α/2 √n ¯ ¯

σ σ −∞, m0 − z1−α/2 √ ∪ m0 + z1−α/2 √ , ∞ n n

odnosno dobijamo interval kada nemamo razloga odbaciti hipotezu H0 (m = m0 ), tj. kada σ σ xn ∈ m0 − z1−α/2 √n , m0 + z1−α/2 √n . ¯ http://matematika.com.ba 39 Radna verzija

a. c
|¯n −m0 | x
σ √ n

om
α/2 z1−α/2 =α < z1−α/2 , onda nemamo razloga da

1−α

.b a

Mirnes Smajilovi´ c

Statistika

Primjer 3.2.1 Izvuˇen je uzorak obima n = 81 iz N (m, 16) i izraˇunata je srednja vrijednost c c tog uzorka x81 = 11. Na nivou znaˇajnosti α = 0.05 i α = 0.01 testirati hipotezu H0 (m = 10) ¯ c protiv alternativne hipoteze H1 (m = 10). Rjeˇenje s Iskoristit ´emo ˇinjenicu da c c Z=

¯ Xn − m
σ √ n

ima N (0, 1) raspodjelu. Registrovana vrijednost je xn − m ¯
σ √ n

=

11 − 10
4 9

= 2.25.

odakle je pa odbacujemo hipotezu H0 sa rizikom α = 0.05.

W = [−∞, −1.96] ∪ [1.96, ∞]

Za α = 0.01, kritiˇnu oblast odredujemo iz uslova c

m
σ √ n

PH0 odakle je

¯ |Xn − m|

at ik
≥ z0.995 = 0.01

w

w

w

pa zbog 2.25 ∈ W nemamo razloga da odbacimo hipotezu H0 . /

.m

at e

W = [−∞, −2.576] ∪ [2.576, ∞]

a. c

om
2.25 Radna verzija

PH0

¯ |Xn − m|
σ √ n

≥ z0.975

= 0.05

http://matematika.com.ba

40

.b a

Za α = 0.05, kritiˇnu oblast odredujemo iz uslova c

Mirnes Smajilovi´ c

Statistika

3.3

Testiranje hipoteze o matematiˇkom oˇekivanju kada nije c c poznata disperzija

Neka treba testirati hipotezu H0 (m = m0 ) protiv hipoteze H1 (m = m0 ), na osnovu uzorka obima n : X1 , X2 , . . . , Xn obiljeˇja X koje ima normalnu raspodjelu N (m, σ 2 ), gdje je σ 2 z nepoznato, s pragom znaˇajnosti α. Iskoristit ´emo ˇinjenicu da sl. p. c c c tn−1 = ima tn−1 raspodjelu, pri ˇemu je c 1 ¯ Xn = n
n

¯ Xn − m √ n−1 ¯ Sn
n i=1

Xi ,
i=1

1 ¯2 Sn = n

¯ (Xi − Xn )2 .

Ovu sl. p. ´emo koristiti kao statistiˇki test. c c

Kritiˇnu oblast odredujemo iz uslova c PH0 ¯ |Xn − m| √ n − 1 ≥ tn−1;1−α/2 ¯ Sn

w

.m

at e

Slika 3.2: Oblast odbacivanja nulte hipoteze je osjenˇano podruˇje. Povrˇina ispod krive na c c s intervalu [−∞, −tn−1;1−α/2 ] iznosi α/2, na intervalu [−tn−1;1−α/2 , tn−1;1−α/2 ] iznosi 1 − α i na intervalu [tn−1;1−α/2 , ∞] iznosi α/2.

m

α/2 −tn−1;1−α/2

at ik

a. c
α/2 tn−1;1−α/2 =α
|¯n −m0 | √ x n sn ¯

1−α

Pravilo testiranja je: Neka je na osnovu uzorka dobijena vrijednost xn . ¯
x −m √ Ako xn pripada kritiˇnoj oblasti, tj. ako je |¯nsn 0 | n − 1 ≥ tn−1;1−α/2 , onda hipotezu ¯ c ¯ H0 (m = m0 ) odbacujemo sa rizikom α da smo je odbacili kao taˇnu. Kritiˇna oblast za realic c zovanu vrijednost je W = [−∞, −tn−1;1−α/2 ] ∪ [tn−1;1−α/2 , ∞].

Ako xn ne pripada kritiˇnoj oblasti, tj. ako je ¯ c razloga da odbacimo hipotezu H0 (m = m0 ). Kritiˇna oblast za xn je: c ¯ W = −∞, m0 − √

w

gdje je tn−1;1−α/2 takvo da je F(tn−1;1−α/2 ) = 1 − α/2.

w

sn ¯ sn ¯ tn−1;1−α/2 ∪ m0 + √ tn−1;1−α/2 , ∞ . n−1 n−1 41 Radna verzija

http://matematika.com.ba

om
− 1 < tn−1;1−α/2 , onda nemamo

.b a

Mirnes Smajilovi´ c

Statistika

Primjeri Primjer 3.3.1 Rafinerija nafte ˇeli da proizvede benzin sa oktanskim brojem 98. Za vrijeme z probne proizvodnje, na sluˇajan naˇin uzeto je 10 uzoraka benzina i utvrdeno je da uzorci c c imaju oktanske brojeve 99.0, 97.2, 98.5, 96.9, 98.2, 97.9, 98.4, 97.8, 99.1, 98.3. Ako pretpostavimo da se oktanski brojevi pokoravaju normalnom zakonu raspodjele, da li se na 5% nivou znaˇajnosti moˇe tvrditi da je rafinerija postigla cilj, tj. da se razlike izmedu c z dobijenih rezultata i projektovanog oktanskog broja 98 mogu smatrati zanemarljivim. Rjeˇenje s Hipoteze su H0 (m = 98) i H1 (m = 98). Iz uzorka dobijamo x10 = ¯ 981.3 = 98.13, 10 s2 = ¯10 4.481 = 0.4481 =⇒ s10 = 0.6694 ¯ 10

Ako je hipoteza H0 (m = 98) taˇna, onda statistika c tn−1 =

Iz uslova

w

w

w

Kako vrijedi 0.5826 ∈ W , nemamo razloga da odbacimo hipotezu H0 , odnosno rafinerija je / postigla cilj.

.m

|¯n − m| √ x |98.13 − 98| √ 0.13 n−1= 9= · 3 = 0.5826. sn ¯ 0.6694 0.6694

at e

dobijamo kritiˇnu oblast W = (−∞, −2.262] ∪ [2.262, ∞). Realizovana vrijednost je jednaka c

m

PH0 {|t9 | ≥ t9;0.975 } = 0.05

at ik

ima tn−1 raspodjelu, ˇto je u naˇem sluˇaju t9 . s s c

a. c
Radna verzija

¯ Xn − m √ n−1 ¯ Sn

http://matematika.com.ba

42

om

.b a

Mirnes Smajilovi´ c

Statistika

3.4

Testiranje hipoteze o jednakosti matematiˇkog oˇekivanja c c

Posmatrajmo dva nezavisna uzorka n1 : X1 , X2 , . . . , Xn i n2 : Y1 , Y2 , . . . , Yn jednog istog obiljeˇja X iz normalne raspodjele N (m, σ 2 ). z Treba testirati hipotezu H0 (m1 = m2 ) protiv hipoteze H1 (m1 = m2 ) sa pragom znaˇajnosti c α. Iskoristit ´emo ˇinjenicu da sl. p., tj. statistika c c tn1 +n2 −2 = ¯ ¯ Xn1 − Xn2 n1 · n2 (n1 + n2 − 2) n1 + n2

¯2 ¯2 n 1 Sn1 + n 2 Sn2

α/2 −tn1 +n2 −2;1−α/2

at ik

Slika 3.3: Oblast odbacivanja nulte hipoteze je osjenˇano podruˇje. c c Kritiˇnu oblast odredujemo iz uslova c    |X − X |  ¯n ¯n n1 · n2 1 2 PH0 (n1 + n2 − 2) ≥ tn1 +n2 −2;1−α/2 = α  n S2 + n S2  n1 + n2 ¯ ¯ 2 n2 1 n1

Pravilo testiranja je: Neka je na osnovu uzorka dobijeno xn1 , xn2 , s2 , s2 . ¯ ¯ ¯1 ¯2 Ako xn1 − xn2 pripada kritiˇnoj oblasti, tj. ako je ¯ ¯ c |¯n1 − xn2 | x ¯ 2 + n s2 n 1 s n1 ¯ 2 ¯n2 n1 · n2 (n1 + n2 − 2) ≥ tn1 +n2 −2;1−α/2 n1 + n2

onda hipotezu H0 odbacujemo sa rizikom α da smo je odbacili kao taˇnu. Kritiˇna oblast za c c realizovanu vrijednost je: W = [−∞, −tn1 +n2 −2;1−α/2 ] ∪ [tn1 +n2 −2;1−α/2 , ∞]. Ako xn1 − xn2 ne pripada kritiˇnoj oblasti, onda nemamo razloga da odbacimo hipotezu H0 , ¯ ¯ c odnosno ako je: tn +n −2;1−α/2 n1 s2 1 + n2 s2 2 ¯n ¯n . |¯n1 − xn2 | < 1 2 x ¯ n1 ·n2 (n1 + n2 − 2) n1 +n2 http://matematika.com.ba 43 Radna verzija

w

gdje je tn1 +n2 −2;1−α/2 takvo da je F(tn1 +n2 −2;1−α/2 ) = 1 − α/2.

w

w

.m

at e

m

a. c
α/2 tn1 +n2 −2;1−α/2

1−α

om

.b a

ima Studentovu raspodjelu s n1 + n2 − 2 stepeni slobode. Ovu sl. p. ´emo koristiti kao c statistiˇki test. c

Mirnes Smajilovi´ c

Statistika

Primjeri Primjer 3.4.1 Na osnovu jednog uzorka obima n1 = 9 izraˇunata je srednja vrijednost xn1 = c ¯ 15 i disperzija s2 1 = 0.78 tog uzorka, a na osnovu drugog uzorka obima n2 = 16 izraˇunata ¯n c je srednja vrijednost xn2 = 14 i disperzija s2 2 = 1 tog uzorka. Na nivou znaˇajnosti α = 0.05 ¯ ¯n c testirati hipotezu H0 (m1 = m2 ) protiv alternativne hipoteze: a) H1 (m1 = m2 ), b) H1 (m1 > m2 ), c) H1 (m1 < m2 ). Rjeˇenje s Ako je hipoteza H0 (m1 = m2 ) taˇna, onda statistika c tn1 +n2 −2 = ¯ ¯ Xn1 − Xn2 n1 · n2 (n1 + n2 − 2) n1 + n2

a) Iz uslova

b) Iz uslova

.m

c) Iz uslova

w

w

dobijamo kritiˇnu oblast W = [1.714, ∞) c α = 0.05.

w

at e

dobijamo kritiˇnu oblast W = (−∞, −2.069] ∪ [2.069, ∞). Budu´i da 2.40 ∈ W odbacuc c jemo hipotezu H0 sa rizikom α = 0.05. PH0 {t23 ≥ t23;0.95 } = 0.05 2.40, pa odbacujemo hipotezu H0 sa rizikom

dobijamo kritiˇnu oblast W = (−∞, −1.714], pa zbog 2.40 ∈ W nemamo razloga da c / odbacimo hipotezu H0 .

m

PH0 {|t23 | ≥ t23;0.975 } = 0.05

PH0 {t23 ≤ t23;0.95 } = 0.05

at ik

15 − 14 9 · 0.78 + 16 · 1

9 · 16 (9 + 16 − 2) = 2.40. 9 + 15

a. c

ima Studentovu raspodjelu s n1 + n2 − 2 stepeni slobode, ˇto u naˇem sluˇaju daje t23 . Na s s c osnovu podataka iz uzorka dobijamo

om

¯2 ¯2 n 1 Sn1 + n 2 Sn2

.b a
Radna verzija

http://matematika.com.ba

44

Mirnes Smajilovi´ c

Statistika

3.5

Testiranje hipoteze o disperziji

Disperzija je mjera “rasturenosti” i zbog toga je bitan pokazatelj stabilnosti raznih sluˇajnih c pojava i procesa, taˇnosti mjernih instrumenata, itd. Najˇeˇ´a situacija je da se na osnovu c c sc sluˇajnog uzorka obima n : X1 , X2 , . . . , Xn obiljeˇja X provjeri da li je doˇlo do nekih bitnih c z s promjena. Iskoristit ´emo ˇinjenicu da sl. p., tj. statistika c c ¯2 n Sn σ2 ima χ2 - raspodjelu s n − 1 stepeni slobode. Ovu sl. p. ´emo koristiti kao statistiˇki test. c c
2 2 Testiranje hipoteze H0 (σ 2 = σ0 ) protiv hipoteze H1 (σ 2 > σ0 )

at e

1−α

w

Kritiˇnu oblast odredujemo iz uslova c PH0 odakle je W = χ2 n−1;1−α , ∞ . Pravilo testiranja je:
s Ako registrovana vrijednost n¯n pripada kritiˇnoj oblasti W , onda hipotezu H0 odbacuc 2 σ0 jemo sa rizikom α da smo je odbacili kao taˇnu. c
2

w

w

Slika 3.4: Grafik funkcije gustine χ2 raspodjele. Oblast odbacivanja nulte hipoteze je osjenˇano c podruˇje. c

.m

m

¯2 n Sn ≥ χ2 n−1;1−α σ2

at ik
α χ2 n−1;1−α =α

Ako

n¯2 sn 2 σ0

c ne pripada kritiˇnoj oblasti W , onda nemamo razloga da odbacimo hipotezu H0 .

a. c
http://matematika.com.ba 45 Radna verzija

om

2 2 Neka treba testirati hipotezu H0 (σ 2 = σ0 ) protiv hipoteze H1 (σ 2 > σ0 ), sa nivoom povjerenja α.

.b a

Mirnes Smajilovi´ c

Statistika

Primjeri Primjer 3.5.1 Odredeni tehnoloˇki proces se smatra “stabilnim”, ako disperzija nekog odredenog s kvantitativnog svojstva nije ve´a od 2, inaˇe je proces“nestabilan”. Ako je iz uzorka obima c c n = 25 dobijena disperzija s2 = 1.8, testirati hipotezu o “stabilnosti” ovog tehnoloˇkog procesa ¯n s 2 = 3, izraˇunati vjerovatno´u greˇke drugog na nivou znaˇajnosti α = 0.05. Ako je stvarno σ c c c s tipa. Rjeˇenje s Hipoteze su H0 σ 2 = 2 i H1 σ 2 > 2 . Kritiˇnu oblast odredujemo iz uslova c PH0 ¯2 n Sn ≥ χ2 24;0.95 σ2 =α

pa nemamo razloga da odbacimo hipotezu H0 . Iz uslova ¯2 25Sn = 36.4 2

dobijamo kritiˇnu vrijednost c

w

Vjerovatno´a greˇke drugog tipa, ako je taˇna hipoteza H1 σ 2 = 3 je jednaka: c s c ¯2 β = PH1 Sn < 2.912 = PH1 Iz tablica χ2 -raspodjele dobijamo 0.500 < PH1 χ2 < 24.3 < 0.750 24 i interpolacijom dobijamo traˇenu vjerovatno´u. z c Interpolacija: Iz tablica χ2 -raspodjele dobijamo taˇke A(x1 , y1 ) = (23.3, 0.500) i B = c (x2 , y2 ) = (28.2, 0.75). Treba odrediti taˇku M (24.3, y) koja leˇi na pravoj AB. c z 0.750 − 0.500 y2 − y1 (24.3 − 23.3) = 0.051 ⇔ y = 0.551. (x − x1 ) ⇔ y − 0.500 = x2 − x1 28.2 − 23.3 ¯2 n Sn 25 · 2.912 < 2 σ 3

w

w

2. Ako je s2 ≥ 2.912, onda hipotezu H0 odbacujemo. ¯n

.m

1. Ako je 0 ≤ s2 < 2.912 onda nemamo razloga da odbacimo hipotezu H0 , ¯n

at e

pa je pravilo testiranja:

m

2 · 36.4 ¯2 Sn = = 2.912 25

at ik

a. c
= PH1 χ2 < 24.3 24 Radna verzija

y − y1 =

Dakle, β = 0.551.

http://matematika.com.ba

46

om

25 · 1.8 n¯2 sn = 22.5 ∈ W / 2 = 2 σ0

.b a

odakle je W = [36.4, ∞). Registrovana vrijednost je

Mirnes Smajilovi´ c
2 2 Testiranje hipoteze H0 (σ 2 = σ0 ) protiv hipoteze H1 (σ 2 < σ0 )

Statistika

2 2 Neka treba testirati hipotezu H0 (σ 2 = σ0 ) protiv hipoteze H1 (σ 2 < σ0 ), sa nivoom povjerenja α.

α

1−α

odakle je Pravilo testiranja je:

Ako

ne pripada kritiˇnoj oblasti W , onda nemamo razloga da odbacimo hipotezu H0 . c

w

w

w

n¯2 sn 2 σ0

.m

s Ako registrovana vrijednost n¯n pripada kritiˇnoj oblasti W , onda hipotezu H0 odbacuc 2 σ0 jemo sa rizikom α da smo je odbacili kao taˇnu. c

at e

2

m

W = 0, χ2 n−1;α .

at ik

PH0

¯2 n Sn ≤ χ2 n−1;α σ2

a. c
=α Radna verzija

Kritiˇnu oblast odredujemo iz uslova c

http://matematika.com.ba

47

om

Slika 3.5: Grafik funkcije gustine χ2 raspodjele. Oblast odbacivanja nulte hipoteze je osjenˇano c podruˇje. c

.b a

χ2 n−1;α

Mirnes Smajilovi´ c
2 2 Testiranje hipoteze H0 (σ 2 = σ0 ) protiv hipoteze H1 (σ 2 = σ0 )

Statistika

2 2 Neka treba testirati hipotezu H0 (σ 2 = σ0 ) protiv hipoteze H1 (σ 2 = σ0 ), sa nivoom povjerenja α.

α1

α2

α 2

1−α
χ2 α n−1;
2

α 2

2

odakle je

Pravilo testiranja je:

w

.m

c Radi odredenosti, uzmimo da je α1 = α , odakle je α2 = α − α = α , pa dobijamo kritiˇnu 2 2 2 oblast: W = 0, χ2 α ∪ χ2 n−1; n−1;1− α , ∞ .

at e

m

2 W = 0, χ2 n−1;α1 ∪ χn−1;1−α2 , ∞ .

at ik
2

PH0

¯2 n Sn ≤ χ2 n−1;α1 σ2

+ PH0

¯2 n Sn ≥ χ2 n−1;1−α2 σ2

a. c
2

Kritiˇnu oblast odredujemo iz uslova c

Ako

n¯2 sn 2 σ0

w

ne pripada kritiˇnoj oblasti W , onda nemamo razloga da odbacimo hipotezu H0 . c

w

s Ako registrovana vrijednost n¯n pripada kritiˇnoj oblasti W , onda hipotezu H0 odbacuc 2 σ0 jemo sa rizikom α da smo je odbacili kao taˇnu. c

2

om

Slika 3.6: Grafik funkcije gustine χ2 raspodjele. Oblast odbacivanja nulte hipoteze je osjenˇano c podruˇje. c

.b a

χ2 n−1;1− α

= α1 + α2 = α

http://matematika.com.ba

48

Radna verzija

Mirnes Smajilovi´ c

Statistika

3.6

Testiranje hipoteze o vjerovatno´i: c H0 (p = p0 ) protiv H1(p = p0)

Neka treba testirati hipotezu H0 (p = p0 ) protiv H1 (p = p0 ) sa nivoom znaˇajnosti α. Neka c je H0 hipoteza da je vjerovatno´a realizacije nekog dogadaja ili pojave p = p0 , a vjerovatno´a c c nerealizacije q = 1 − p. Postupak je sljede´i. Uzima se uzorak obima n (n ≥ 30), i ustanovi se c koliko puta se realizuje posmatrani dogadaj ili pojava. Neka je to Sn puta. Kako vrijednost Sn varira od uzorka do uzorka, to Sn moˇemo posmatrati kao sluˇajnu promjenljivu koja ima z c binomnu raspodjelu B(n, p). Poznato je da sl. p. Sn ima asimptotski raspodjelu N (np, npq). Kritiˇnu oblast odredujemo iz uslova c PH0 |Sn − np| ≥ z1− α √ 2 npq =α

c odakle je, zbog simetriˇnosti normalne raspodjele u odnosu na ordinatnu osu, W = −∞, −z1− α ∪ z1− α , ∞ . 2 2

Iz jednakosti

w

Pravilo testiranja sada moˇemo izre´i na sljede´i naˇin: z c c c 1. Ako je Sn ≤ np0 − z1− α 2 jemo. √ √ np0 q0 ili Sn ≥ np0 + z1− α np0 q0 , onda hipotezu H0 odbacu2

√ √ 2. Ako je Sn ∈ (np0 −z1− α np0 q0 , np0 +z1− α np0 q0 ), onda nemamo razloga da odbacimo 2 2 hipotezu H0 .

w

w

dobijamo

.m

√ √ np0 − z1− α np0 q0 ≤ Sn ≤ np0 + z1− α np0 q0 . 2 2

at e

m

−np0 √ c 2. Ako registrovana vrijednost |Snnp0 q0 | ne pripada kritiˇnoj oblasti W , onda nemamo razloga da odbacimo hipotezu H0 (uzorak ne protivrjeˇi hipotezi H0 ). c

|Sn − np0 | ≤ z1− α √ 2 np0 q0

at ik

−np0 √ c 1. Ako registrovana vrijednost |Snnp0q0 | pripada kritiˇnoj oblasti W , onda hipotezu H0 odbacujemo sa rizikom α da smo je odbacili kao taˇnu (uzorak protivrjeˇi hipotezi H0 ). c c

a. c

Pravilo testiranja je:

om
Radna verzija

http://matematika.com.ba

49

.b a

Mirnes Smajilovi´ c

Statistika

Primjeri
Primjer 3.6.1 U 180 bacanja kocke 35 puta je pala ˇestica. Testirati na 5% nivou znaˇajnosti s c c c s hipotezu H0 p = 1 protiv alternativne hipoteze H1 p = 1 . Izraˇunati vjerovatno´u greˇke 6 6 1 drugog tipa, ako je taˇno H1 p = 4 . c Rjeˇenje s Kritiˇnu oblast odredujemo iz uslova c PH0 |Sn − np| ≥ z0.975 √ npq =α

odakle je W = (−∞, −1.96] ∪ [1.96, ∞). Registrovana vrijednost je 180 ·
1 6

·

5 6

2. Ako je Sn ∈ (20.2, 39.8), onda nemamo razloga da odbacimo hipotezu H0 .
1 Vjerovatno´a greˇke drugog tipa, ako je taˇna hipoteza H1 p = 4 je jednaka: c s c    20.2 − 180 · 1 1 1 Sn − 180 · 4 39.8 − 180 · 4 4 β = PH1 {20.2 < Sn < 39.8} = PH1 < <  180 · 1 · 3 3 1 180 · 1 · 4 180 · 4 · 3  4 4 4 4

Primjer 3.6.2 90% proizvoda jedne fabrike je ispravno. Novim tehnoloˇkim procesom se ˇeli s z dobiti ve´i procenat ispravnih proizvoda. Ako je u uzorku obima n = 100 na novi naˇin c c proizvedenih artikala registrovano 95 ispravnih, da li novi naˇin proizvodnje obezbjeduje ve´i c c procenat ispravnih proizvoda? Testiranje izvrˇiti na 5% nivou znaˇajnosti. s c Rjeˇenje s Hipoteze su H0 (p = 0.9) i H1 (p > 0.9). Kritiˇnu oblast odredujemo iz uslova c PH0 Sn − np ≥ z0.95 √ npq =α

odakle je W = [1.645, ∞). Registrovana vrijednost je Sn − np 95 − 100 · 0.9 =√ = 1.67 ∈ W √ npq 100 · 0.9 · 0.1 i hipotezu H0 (p = 0.9) odbacujemo sa rizikom α i prihvatamo alternativnu hipotezu, tj. novi naˇin proizvodnje pove´ava procenat ispravnih proizvoda. c c http://matematika.com.ba 50 Radna verzija

w

w

w

= 1 − F(0.90) − 1 + F(4.27) = F(4.27) − F(0.90) = 1 − 0.8159 = 0.1841.

∗ = PH1 {−4.27 < Sn < −0.90} = F(−90) − F(−4.27)

.m

at e

m

at ik

1. Ako je Sn ≤ 20.2 ili Sn ≥ 39.8, onda hipotezu H0 odbacujemo.

a. c

Pravilo testiranja je:

om

pa nemamo razloga da odbacimo hipotezu H0 .

.b a

|35 − 180 · 1 | 6

=1∈W /

Glava 4

Testiranje neparametarskih hipoteza

Mjera odstupanja funkcije Sn od F(x), pod pretpostavkom da je hipoteza taˇna, je neki c broj c takav da je: PH0 {|Sn (x) − F(x)| > c} = α. Iz ovog uslova se odreduje kritiˇna oblast W za dati nivo znaˇajnosti α. c c Najˇeˇ´e se koriste sljede´i testovi: c sc c 1. χ2 -test ili Pirsonov test, 2. λ-test ili test Kolmogorova.

w

Jedan od naˇina je grafiˇko predstavljanje i jedne i druge funkcije. Na osnovu tih c c grafika, moˇe se zakljuˇiti da li empirijska funkcija dobro aproksimira teorijsku funkciju ili ne. z c

w

w

Neka je Sn (x) empirijska funkcija raspodjele (kumulativna funkcija frekvencija) obiljeˇja z X dobijena na osnovu uzorka obima n i F(x) pretpostavljena, teorijska funkcija raspodjele istog obiljeˇa X. Zadatak je da provjerimo saglasnost izmedu ovih funkcija, a ona se moˇe z z provjeriti na razne naˇine. c

.m

at e

Ako se hipoteza odnosi na samu raspodjelu, a ne na parametre raspodjele, zvat ´emo c je neparametarska hipoteza, a test neparametarski test. Neparametarskim testom se ispituje saglasnost hipotetiˇke, teorijske raspodjele u cijeloj populaciji i empirijske raspodjele c frekvencija u uzorku koji je izvuˇen iz te populacije. c

m

at ik
51

a. c

Svako tvrdenje koje se odnosi na raspodjelu sl. p. X (obiljeˇje X populacije π) zove se z statistiˇka hipoteza ili, kratko, hipoteza. Hipoteza je ili taˇna ili netaˇna. Verifikacija c c c istinitosti hipoteze je, po pravilu, nemogu´a ispitivanjem svih elemenata populacije. Kriteric jum verifikacije istinitosti hipoteze na osnovu uzorka zove se statistiˇki test ili, kratko, test. c Kriterijumi verifikacije istinitosti na osnovu uzorka daju mogu´nost da se donese zakljuˇak o c c istinitosti hipoteze s vjerovatno´ama koje su bliske jedinici da je doneˇeni zakljuˇak taˇan. c s c c

om

.b a

4.1

Pojam neparametarske hipoteze

Mirnes Smajilovi´ c

Statistika

4.2

χ2 -test za verifikaciju hipoteze o raspodjeli obiljeˇja z

Neka treba verifikovati istinitost hipoteze H0 da je uzorak n : x1 , x2 , . . . , xn izvuˇen iz popc ulacije ˇije obiljeˇje X ima funkciju raspodjele F(x; θ1 , θ2 , . . . , θs ) (ili zakon raspodjele u c z diskretnom sluˇaju). Ocijenivˇi nepoznate parametre θ1 , θ2 , . . . , θs na osnovu uzorka, teorijska c s funkcija raspodjele F postaje potpuno odredena. Za verifikaciju hipoteze H0 o saglasnosti empirijske funkcije raspodjele sa pretpostavljenom, hipotetiˇkom funkcijom raspodjele F(x; θ1 , θ2 , . . . , θs ), Pirson je 1900 god. uveo χ2 -test c koji se zasniva na χ2 -raspodjeli. Podijelimo mogu´e vrijednosti sl. p. X (obiljeˇja X) u r disjunktnih intervala S1 , S2 , . . . , Sr . c z Neka je πk = PH0 {X ∈ Sk } , k = 1, r tada statistika χ2 r−1−s =
k=1 r

2 PH0 χ2 r−1−s ≥ χr−1−s;1−α = α

c odredujemo kritiˇnu oblast testa

Primjer 4.2.1 U 1000 bacanja novˇi´a grb je pao u 532 sluˇaja, a pismo u 468 sluˇajeva. cc c c Testirati homogenost ovog novˇi´a na 5% i 1% nivou znaˇajnosti. cc c Rjeˇenje s Raˇunski proces je dat sljede´om tabelom: c c Vrijednosti obiljeˇja z GRB PISMO nk 530 468 1000 πk 0.5 0.5 1 nπk 500 500 150 nk − nπk 32 -32 (nk − nπk )2 1024 1024
(nk −nπk )2 nπk

w

Podjela na intervale (klase) S1 , S2 , . . . , Sr treba da bude takva da je (∀k)(nk ≥ 5).

w

w

Ako registrovana vrijednost χ2 r−1−s pripada W onda odbacujemo hipotezu H0 sa rizikom α, a ako registrovana vrijednost χ2 r−1−s ne pripada W onda nemamo razloga da odbacimo hipotezu H0 .

.m

at e

m
W = χ2 r−1−s;1−α , ∞ .

at ik

Za dati nivo znaˇajnosti α iz uslova c

a. c

gdje je n obim uzorka, r broj intervala Sk , πk teorijske vjerovatno´e, nπk teorijske frekvencije c i nk uzoraˇke frekvencije intervala Sk , ima χ2 -raspodjelu sa (r − 1 − s) stepeni slobode. c

om

(nk − nπk )2 nπk

.b a

2.048 2.048 4.096

Broj stepeni slobode je r − 1 − s = 2 − 1 − 0 = 1, a realizovana vrijednost (izraˇunata tabelom) c je 4.096. Za α = 5% = 0.05, kritiˇnu oblast odredujemo iz uslova c PH0 χ2 ≥ χ2 1 1;0.95 = 0.05 http://matematika.com.ba 52 Radna verzija

Mirnes Smajilovi´ c

Statistika

odakle je W = [3.84, ∞), pa kako vrijedi 4.096 ∈ W , hipotezu H0 odbacujemo sa rizikom α = 0.05 da smo je odbacili kao taˇnu. c Za α = 1% = 0.01, kritiˇnu oblast odredujemo iz uslova c PH0 χ2 ≥ χ2 1 1;0.99 = 0.05 odakle je W = [6.63, ∞), pa kako vrijedi 4.096 ∈ W , nemamo razloga da odbacimo hipotezu / H0 .

4.3

χ2 -test za verifikaciju hipoteze o nezavisnosti dvaju obiljeˇja z

a. c

H HH Y y1 X HH H

y2 n12 n22 . . . nr2 n·2

... ... ... ... ... ...

ys n1s n2s . . . nrs n·s n1· n2· . . . nr· n

om
ni· = n·j = n =

χ2 -test se moˇe primjeniti za testiranje hipoteze H0 - da su dva obiljeˇja X i Y jedne popz z ulacije nezavisna protiv alternativne hipoteze H1 - da su ta dva obiljeˇja zavisna na nivou z znaˇajnosti α. Obiljeˇja X i Y ne moraju biti kvantitativnog karaktera. Neka su x1 , x2 , . . . , xr c z registrovane vrijednosti obiljeˇja X, a y1 , y2 , . . . , ys registrovane vrijednosti obiljeˇja Y , ˇto se z z s obiˇno predstavlja u obliku tzv. tabele kontingencije: c

at ik

x1 x2 . . . xr

n11 n21 . . . nr1 n·1

.b a
s

nij nij

j=1 r i=1 r

s

r

s

m

nij =
i=1 j=1 i=1

ni·
j=1

n·j

Uvedemo li oznake

tada je

w

Za dovoljno veliko n i pod pretpostavkom da je hipoteza H0 taˇna, statistika c
r s

w

w

.m

pij = P ({X = xi } ∧ {Y = yj }) ,

at e

pi· = P {X = xi },

p·j = P {Y = yj }

H0 : pij = pi· · p·j za sve parove (i, j),

H1 : pij = pi· · p·j bar za jedan par (i, j).
n ·n 2

χ2 (r−1)(s−1)

=n
i=1 j=1

nij − i·n ·j ni· · n·j

ima χ2 -raspodjelu sa (r − 1)(s − 1) stepeni slobode. Za dati nivo znaˇajnosti α iz uslova c
2 PH0 χ2 (r−1)(s−1) ≥ χ(r−1)(s−1);1−α = α

odredujemo kritiˇnu oblast testa c W = χ2 (r−1)(s−1);1−α , ∞ . Ako registrovana vrijednost χ2 (r−1)(s−1) pripada W onda odbacujemo hipotezu H0 sa rizikom α, a ako registrovana vrijednost χ2 (r−1)(s−1) ne pripada W onda nemamo razloga da odbacimo hipotezu H0 . http://matematika.com.ba 53 Radna verzija

Mirnes Smajilovi´ c

Statistika

Primjer 4.3.1 Kandidati za predsjednika jedne pokrajine su jedna ˇena i jedan muˇkarac. U z s sluˇajnom uzorku obima n = 1000 zabiljeˇeni su rezultati dati sljede´om tabelom kontingencije: c z c
XXX XXXKandidat ˇena z XX XXX Biraˇi c

muˇkarac s 270 250 520 490 510 1000

ˇene z muˇkarci s

220 260 480

Da li za α = 0.10 i α = 0.05 opredjeljenje biraˇa zavisi od pola kandidata. c Rjeˇenje s Hipoteze su:

Ako je H0 taˇna, onda statistika c
2 2

χ2 (2−1)(2−1) ima χ2 -raspodjelu. 1 Registrovana vrijednost je: χ
2

=n

i=1 j=1

= 100

w

w

Za α = 0.10 kritiˇna oblast je W = χ2 c 1;0.90 , ∞ = [2.71, ∞), pa kako vrijedi 3.704 ∈ W zakljuˇujemo da treba odbaciti hipotezu H0 , a za α = 0.05 kritiˇna oblast je W = χ2 c c 1;0.95 , ∞ = [3.84, ∞), pa kako vrijedi 3.704 ∈ W nemamo razloga da odbacimo hipotezu H0 . /

w

.m

= 0.982 + 0.944 + 0.907 + 0.871 = 3.704.

at e

220 − 480·490 1000 480 · 490

2

m

at ik
2 2

a. c

nij − i·n ·j ni· · n·j

om
n ·n 2

.b a
250 − 520·510 1000 + 520 · 510
2

H0 : opredjeljenje biraˇa ne zavisi od pola kandidata, c H1 : opredjeljenje biraˇa zavisi od pola kandidata. c

260 − 480·510 1000 + 480 · 510

270 − 520·490 1000 + 520 · 490

http://matematika.com.ba

54

Radna verzija

Sign up to vote on this title
UsefulNot useful