You are on page 1of 113

Vladica Stojanović Biljana Č.

Popović

MATEMATIČKA STATISTIKA
2
Sadržaj

1 ELEMENTI MATEMATIČKE STATISTIKE 5


1.1 Uvod u terminologiju . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Osnovni pojmovi Matematičke statistike . . . . . . . . 6
1.1.2 Prikazivanje statističkih podataka . . . . . . . . . . . 9
1.1.3 Važne raspodele Matematičke statistike . . . . . . . . 12
1.2 Statistike i njihove raspodele . . . . . . . . . . . . . . . . . . 15
1.2.1 Pojam statistike. Primeri važnih statistika . . . . . . . 16
1.2.2 Empirijska funkcija raspodele . . . . . . . . . . . . . . 19
1.2.3 Statistike poretka . . . . . . . . . . . . . . . . . . . . . 21
1.3 Zadaci za vežbu . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2 OCENE PARAMETARA 29
2.1 Tačkaste ocena parametara . . . . . . . . . . . . . . . . . . . 29
2.1.1 Definicija i osobine tačkastih ocena . . . . . . . . . . . 30
2.1.2 Nejednakost Rao-Kramera . . . . . . . . . . . . . . . . 32
2.1.3 Uniformno najefikasnije ocene. Kompletnost . . . . . 36
2.2 Neki metodi tačkastog ocenjivanja . . . . . . . . . . . . . . . 41
2.2.1 Metod maksimalne verodostojnosti . . . . . . . . . . . 41
2.2.2 Metod momenata . . . . . . . . . . . . . . . . . . . . . 44
2.3 Intervali poverenja . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4 Zadaci za vežbu . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3 TESTIRANJE STATISTIČKIH HIPOTEZA 63


3.1 Osnovni pojmovi . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Teorema Nejman-Pirsona i njene posledice . . . . . . . . . . . 66
3.2.1 Uniformno najmoćniji testovi . . . . . . . . . . . . . . 69
3.2.2 Test količnika verodostojnosti . . . . . . . . . . . . . . 71
3.3 Parametarski testovi . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Testiranje srednje vrednosti . . . . . . . . . . . . . . . 75

3
4

3.3.2 Testiranje parametra binomne raspodele . . . . . . . . 78


3.3.3 Testiranje disperzije . . . . . . . . . . . . . . . . . . . 79
3.4 Neparametarski testovi . . . . . . . . . . . . . . . . . . . . . . 81
3.4.1 Test Kolmogorov – Smirnova . . . . . . . . . . . . . . 81
3.4.2 Pirsonov χ2 test . . . . . . . . . . . . . . . . . . . . . 85
3.5 Zadaci za vežbu . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4 RGRESIJA & KORELACIJA 103


4.1 Pojam linearnog regresionog modela . . . . . . . . . . . . . . 103
4.2 Metod najmanjih kvadrata . . . . . . . . . . . . . . . . . . . 105
4.3 Koeficijenti korelacije i determinacije . . . . . . . . . . . . . . 107
4.4 Testiranje regresionih koeficijenata . . . . . . . . . . . . . . . 110

Literatura 113
Glava 1

ELEMENTI
MATEMATIČKE
STATISTIKE

Začeci statistike kao naučne discipline nastaju skoro istovremeno u Ne-


mačkoj i Engleskoj XVII veka. U to vreme statistika se, uglavnom, bavi
prikupljanjem i sistematizacijom podataka o stanovništvu i privredi, pa je
dugo smatrana naučnom metodom koja pripada skupu društvenih nauka.
Fundamentalnu osnovu za zasnivanje savremene statistike kao nauke, uopšte,
ali i njen buran razvoj kao teorijske discipline omogućen je, pre svega, razvo-
jem Teorije verovatnoća u prvoj polovini XX veka. Ona otvara širi prostor
razvoju statističke teorije, odnosno matematičkom, deduktivnom pristupu
u opisivanju (i dokazivanju) statističkih zakonitosti. Na ovaj način nastaje
Matematička statistika, primenjena matematička disciplina zasnovana na
osnovnim principima i rezultatima Teorije verovatnoća. Dakle, Matematičku
statistiku možemo, u velikoj meri, posmatrati kao naučnu oblast srodnu
Teoriji verovatnoća. Ipak, ona se danas samostalno razvija i daje osnov
za samostalno utvrd̄ivanje formalnih, egzaktnih principa nad kojima se us-
avršavaju nove primenjene statističke metode.
U ovom, uvodnom poglavlju izlažemo najpre neke osnovne pojmove ma-
tematičke statistike, kao i važnih raspodela koje se u njoj često javljaju.
Zatim, razmatramo i neke od tzv. statistika uzoraka, kao posebnih pres-
likavanja sa važnim implementacijama u ostalim oblastima teorijske, ali i
primenjene statistike.

5
6 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

1.1 Uvod u terminologiju

U ovom poglavlju izlažemo najpre neke osnovne pojmove statistike, kao


i načine na koje se statistički podaci ured̄uju i prikazuju na pregledan način.
Zatim, razmatramo neke od važnih raspodela koje se u njoj često javljaju.

1.1.1 Osnovni pojmovi Matematičke statistike

Osnovni cilj izučavanja Statistike jeste skup Ω koji nazivamo osnovni


skup ili populacija, a njegove elemente ω ∈ Ω statističkim jedinicama.
Statistički eksperiment se izvodi nad elementima ovog skupa na kojima se
posmatra jedno ili više zajedničkih svojstava. Dajemo sada preciznije defini-
cije ovih pojmova, zajedno sa nekim od njihovih ilustracija koje se često
javljaju u primenjenoj statistici.

Definicija 1.1.1. Populacija (osnovni skup) jeste skup elemenata čija


se odred̄ena zajednička osobina izučava statističkim metodima. Populaciju
simbolički obeležavamo sa Ω, a njene elemente sa ω ∈ Ω.

U statističkoj praksi, populacija predstavlja ukupnost svih objekata,


ljudi ili bića čije se osobine posmatraju. To mogu biti, na primer, pre-
duzeća, stanovi, proizvodi za ishranu, više škole i fakulteti, poljoprivredne
površine, zaposleni radnici, gradsko stanovništvo i slično. Skup Ω može
sačinjavati i dogad̄aji (proizvodnja, izvoz i uvoz robe, zaključeni brakovi)
čije se karakteristike posmatraju tokom vremena kada se oni realizuju.

Definicija 1.1.2. Obeležje X predstavlja zajedničku osobinu elemenata


populacije, koja se ispituje posebnim, statističkim metodima.

Obeležje može biti kvalitativno (atributivno) ili kvantitativno (nume-


ričko). Atributivna obeležja se izražavaju opisno, rečima. Ako je, na
primer, statistički skup stanovništvo jednog grada, regiona ili države, atribu-
tivna obeležja po kojima se jedinice tog skupa razlikuju su pol, zanimanje,
narodnost, pismenost, itd. S druge strane, obeležja koja se izražavaju
brojčano nazivaju se numerička obeležja. U skupu stanovništva njegove
jedinice se med̄u sobom razlikuju, recimo, po visini, telesnoj masi, godi-
nama starosti, visini ličnog dohotka itd. Sve ove karakteristike prikazuju se
numeričkim podacima i predstavljaju tipične primere numeričkih obeležja.
Za statističku obradu numerička obeležja su znatno pogodnija od atribu-
tivnih, pre svega zbog mogućnosti njihove jednostavnije matematičke obrade.
Uvod u terminologiju 7

Stoga, ne umanjujući opštost mi ćemo nadalje posmatrati isključivo nu-


merička obeležja, koja možemo formalno definisati funkcijom X : Ω → RX ,
gde je RX ⊆ R skup svih vrednosti modaliteta datog obeležja. Štaviše,
ako pretpostavimo da je na populaciji Ω zadata σ-algebra F i verovatnoća
P , onda za obeležje X, kao i za sve slučajne promenljive, pretpostavljamo
merljivost u odnosu na σ-algebru dogad̄aja F.
Dajemo sada jednu važnu podelu numeričkih obeležja, na osnovu nji-
hovog skupa vrednosti RX :
(a) Obeležje X koje uzima samo izolovane, diskontinuirane vrednosti
x1 , x2 , . . . nazivamo prekidnim (diskontinuiranim) obeležjem. Takva
obeležja su, na primer, veličina domaćinstava prema broju članova ili pre-
duzeća prema broju zaposlenih, broj prodatih automobila i slično. U ter-
minima Teorije verovatnoća, prekidno obeležje jeste slučajna promenljiva
diskretnog tipa o kojima smo govorili ranije.
(b) Neprekidna (kontinuirana) obeležja uzmaju vrednosti unutar
nekog brojevnog intervala. U neprekidna obeležja spadaju lični dohodak
radnika, visina studenata, starost stanovnika, itd. Kao stohastičke modele
takvih obeležja koristimo slučajne promenljive apsolutno–neprekidnog tipa.
Dakle, svako obeležje X predstavlja, formalno, slučajnu promenljivu,
pa će u potpunosti biti odred̄eno samo ako je poznata njegova raspodela.
Na taj način, odred̄ivanje raspodele obeležja jeste jedan od osnovnih prob-
lema kojima se bavi teorijska statistika. Najčešće, raspodela obeležja X nije
poznata, odnosno pripada tzv. familiji dopustivih raspodela, iz koje treba
napraviti pravi izbor na osnovu vrednosti nepoznatih parametara koji fi-
gurišu u toj raspodeli. Ove (nepoznate) parametre uobičajeno obeležavamo
sa θ ∈ Θ, gde je Θ tzv. dopustivi skup vrednosti parametra θ.
S tim u vezi reći ćemo da treba odrediti gustinu raspodele obeležja X,
koja najčešće zavisi od (nepoznatog) parametra θ ∈ Θ. Gustinu raspodele za
X tada zapisujemo sa f (x, θ), a odgovarajuću funkciju raspodele sa F (x, θ).
Pritom, obe oznake i termine koristimo, u uopštenom značenju, kako za
slučajne promenljive neprekidnog, tako i za slučajne promenljive diskretnog
tipa.

Primer 1.1.1. Pretpostavimo da je cilj statističkog istraživanja odred̄ivanje nepoznate


verovatnoće dogad̄aja A, koju označimo sa θ = P (A). U netrivijalnom slučaju, dopustivi
skup parametara je
Θ = {θ ∈ R : 0 < θ < 1},
dok obeležje X možemo interpretirati kao slučajnu promenljivu

1, ω ∈ A;
X(ω) =
0, ω ∈ / A.
8 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Dakle, X predstavlja indikator dogad̄aja A, odnosno slučajnu promenljivu sa binomnom


B (1, p) raspodelom. Gustinu raspodele za X tada možemo prikazati na sledeći način
 x
θ (1 − θ)1−x , x = 0, 1
f (x, θ) =
0, inače. ✷

Na kraju, dajemo još jedna važan pojam neophodan u skoro svakom


statističkom istraživanju. To je uzorak, reprezentativan deo populacije Ω, u
kojem se posmatrana pojava ispoljava približno isto kao i u celom skupu. Na
taj način, sve informacije o raspodeli datog obeležja dobijaju se isključivo na
osnovu izabranog uzorka. Stoga je važno da uzorak bude reprezentativan,
tj. da se na osnovu njega može doneti, sa odred̄enom tačnošću, pravilan
zaključak o raspodeli obeležja X. Formalnu definiciju uzorka možemo dati
na sledeći način.
Definicija 1.1.3. Uzorak je deo populacije na kome se posmatra vrednost
odred̄enog obeležja. Broj elemenata u uzorku se naziva obim uzorka.
Kako se pri izvod̄enju statističkog eksperimenta polazi od pretpostavke
da se tom prilikom realizuju neki slučajni dogad̄aji, odnosno da se ishod
eksperimenta može prikazati slučajnom promenljivom X, to i sam uzorak
možemo prikazati slučajnim veličinama. Ukoliko je eksperiment ponavljan
n puta, njegov ishod se predstavlja slučajnim vektorom

X = (X1 , X2 , . . . , Xn ),

pri čemu je, kao i kod obeležja X, za proučavanju ovog slučajnog vektora
poželjno poznavati njegovu raspodelu. U najjednostavnijem slučaju, kada su
sve komponente vektora X nezavisne slučajne veličine sa istom raspodelom
kao i obeležje X, vektor X nazivamo prostim slučajnim uzorkom.1
S druge strane, realizaciju vektora X po obavljenom eksperimentu opi-
saćemo vektorom
x = (x1 , x2 , . . . , xn ).
On, dakle, predstavlja realizovane vrednosti uzorka X, pa vektor x zovemo
realizovani uzorak. Verovatnoća realizacije uzorka x odred̄ena je raspode-
lom slučajnog vektora X. U slučaju prostog slučajnog uzorka, pri ranije uve-
denim oznakama, ovu raspodelu opisujemo zajedničkom gustinom vektora
X, tj. funkcijom oblika
n
Y
fX (x1 , . . . , xn ; θ) = f (xi ; θ). (1.1)
i=1
1
Nadalje, ukoliko nije drugačije naglašeno, posmatramo isključivo takve uzorke.
Uvod u terminologiju 9

Primer 1.1.2. Posmatrajmo opet realizaciju dogad̄aja A, nepoznate verovatnoće θ =


P (A). Za uzorak X obima n, primenom jednakosti (1.1), dobijamo sledeću raspodelu
verovatnoća njegove realizacije
n n
P n
P
Y xi n− xi
fX (x1 , . . . , xn ; θ) = θxi (1 − θ)1−xi = θi=1 (1 − θ) i=1 .✷
i=1

1.1.2 Prikazivanje statističkih podataka

Svako prikupljanje podataka o karakteristikama osnovnog skupa naziva


se statističko posmatranje. Ono može biti potpuno, ako se posmatra
na celoj populaciji Ω, ili delimično, ukoliko je njime obuhvaćen samo jedan,
reprezentativan deo, tj. uzorak. Tipičan primer potpunog statističkog pos-
matranja jeste popis, dok je rad sa uzorcima mnogo češći i koristi se u
situacijama kada nije moguće registrovati vrednost obeležja na celokupnoj
populaciji.
Nakon prikupljanja, podaci se radi preglednosti grupišu (sred̄uju) ra-
zličitim postupcima. Najčešće se koriste tabelarni i grafički prikazi,
gde se podaci, različitim postupcima, grupišu u tzv. serije podataka
(statističke serije). Ove serije obično su ured̄ene po hronologiji realizacije
date pojave, veličini opserviranih vrednosti i slično. U principu, prekidna
obeležja grupišu se po vrednostima modaliteta u tzv. dvodimenzionalne
tabele koje, pored vrednosti obeležja X, sadrže i frekvencije (učestanosti)
odgovarajućih modaliteta u seriji.

Primer 1.1.3. Pretpostavimo da su na ispitu iz Statistike 20 studenata koji su položili


ispit dobili sledeće ocene

6, 7, 6, 8, 7, 8, 8, 7, 6, 8, 9, 8, 8, 10, 6, 8, 7, 8, 7, 9.

Gore navedeni niz ocena možemo smatrati realizacijom obeležja

X : ”Ocena iz Statistike”.

Očito, X je prekidno obeležje sa skupom vrednosti RX = {6, 7, 8, 9, 10}. Grupisane vre-


dnosti ovog niza, zajedno sa apsolutnim i relativnim (procentualnim) frekvencijama mo-
daliteta (ocena) date su u tabeli 1.1. ✷

S druge strane, vrednosti modaliteta za obeležja neprekidnog tipa grupišu


se pomoću odgovarajućih grupnih intervala. Način njihovog formiranja
može biti razližit, mada se najčešće nastoji da svi intervali budu jednake
10 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Table 1.1: Grupisane vrednosti ocena studenata


P
Ocene (x) 6 7 8 9 10
Broj studenta
 (f) 4 5 8 2 1 20
f
Učešće n 100% 20 25 40 10 5 100

dužine. Njihov ukupan broj, označimo ga sa K, može se odrediti primenom


tzv. pravila Šturgesa:

K ≈ 1 + 3, 32 log N,

gde je N ukupan broj elemenata populacije. Zatim se odred̄uje širina inter-


vala po obrascu
xmax − xmin
i= ,
K
gde su xmax i xmax , redom najveća, odnosno najmanja vrednost obeležja X.
Kao ilustraciju prethodnog postupka, posmatrajmo sledeći
Primer 1.1.4. Na skupu od skup 30 ispitanika posmatrana je vrednost obeležja

Y : ”Visina ispitanika (u cm)”.

Na osnovu toga došlo se do sledećeg niza opserviranih podataka

165, 176, 180, 172, 181, 186, 185, 156, 190, 178, 160, 169, 178, 182, 191,
175, 176, 167, 183, 180, 195, 177, 162, 182, 204, 188, 175, 176, 178, 166,

odakle zaključujemo da visinu ispitanika treba posmatrati kao neprekidno obeležje. Pri-
menom Šturgesovog pravila, odredimo najpre ukupan broj intervalnih klasa

K ≈ 1 + 3, 32 log 30 ≈ 6.

Dakle, formiraćemo ukupno K = 6 intervalnih klasa dužine


xmax − xmin 204 − 156
i= = = 8.
K 6
Tada prethodni skup podataka možemo grupisati pomoću grupnih intervala kao u tabeli
1.2. ✷

Na kraju ovog odeljka, dajemo još par reči o grafičkom predstavljanju


ured̄enih serija statističkih podataka. Grupisani podaci se najpreglednije
prezentiraju grafičkim putem, nekim od statističkih dijagrama. U zavis-
nosti od tipa obeležja, navodimo neke od značajnih vrsta ovih dijagrama:
Prekidna obeležja:
Uvod u terminologiju 11

Table 1.2: Raspored ispitanika prema visini (u cm)

Visina Broj
ispitanika (x) ispitanika (f )
156–163 3
164–171 4
172–179 10
180–187 9
188–195 3
196P i više 1
30

• tačkasti dijagram (stimogram),


• štapičasti dijagram,
• linijski dijagram.
Nerekidna obeležja:
• histogram,
• linijski dijagram (poligon frekvencija).

Slika 1.1. Slika 1.2.

Na slici 1.1 prikazani su stimogram i štapičasti dijagram serije podataka


iz Primera 1.1.3, tj. dijagram raspodele studenata prema ocenama iz Statis-
tike. Slično, na slici 1.2 dat je histogram grupisanih podataka neprekidnog
obeležja iz Primera 1.1.4, odnosno raspodela ispitanika prema visini.
12 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

1.1.3 Važne raspodele Matematičke statistike

U ovom delu opisaćemo detaljnije neke od najvažnijih raspodela koje se


često koriste u statistici. Kao što ćemo videti, osnov za konstrukciju ovih
raspodela daje nam normalna raspodela o kojoj je dosta reči bilo ranije.

χ2 raspodela

Neka su X1 , . . . , Xn nezavisne slučajne promenljive sa N (0, 1) raspode-


lom. Za slučajnu promenljivu
n
X
χ2n = Xk2 (1.2)
k=1

kažemo da ima χ2 raspodelu (sa n stepeni slobode). Funkcija raspodele ove


slučajne promenljive glasi
Z Z − 12
n
P
x2k
def −n
Gn (y) = P {χ2n < y} = · · · (2π) 2 e k=1 dx1 · · · dxn ,
| {z }
n
P
x2k <y
k=1

odakle se diferenciranjem dobija analitički izraz za njenu gustinu


 n
 −1 − y
 y2 e 2
 , y ≥ 0;
gn (y) = G′n (y) =
n
2 2 Γ n2 .

 0, y < 0.

Na slici 5.3 prikazani


su grafici gustina χ2
raspodela za različite vre-
dnosti n ∈ N. Primetimo
da je tek za n ≥ 3 funkcija
gn (y) definisana u tački
y = 0. Na osnovu defini-
cije slučajne promenljive
χ2n takod̄e lako možemo
uočiti da je E(χ2n ) = n,
Slika 5.3. D(χ2n ) = 2n. S druge stra-
Uvod u terminologiju 13

ne, karakteristična funkcija za χ2n raspodelu, označimo je sa ϕn (t), dobija se


na sledeći način
n
Y Yn  Z +∞ 
1 itx2 −x2 /2
ϕn (t) = ϕX 2 (t) = √ e e dx
k=1
k
k=1
2π −∞
Yn  Z +∞ 
1 −x2
(1−2it)
= √ e 2 dx
k=1
2π −∞
Yn  Z +∞ 
1 1 −u2 /2

= √ √ e du , smena: u = x 1 − 2it
k=1
2π 1 − 2it −∞

= (1 − 2it)−n/2 .

Na osnovu ovog rezultata može se pokazati

Teorema 1.1.1. Ako su, za neko m, n ∈ N, slučajne promenljive χ2m i χ2n


nezavisne, onda je

(a) χ2m + χ2n = χ2m+n .

(b) χ2m − χ2n = χ2m−n , za m > n.

Dokaz. (a) Neka su ϕm (t) = (1 − 2it)−m/2 i ϕn (t) = (1 − 2it)−n/2 karak-


teristične funkcije za χ2n i χ2m , respektivno. Iz nezavisnosti ovih slučajnih
promenljivih i ranije dokazane jednakosti (??), zaključujemo da karakter-
istična funkcija za χ2m + χ2n glasi

ϕm (t) · ϕn (t) = (1 − 2it)−m/2 · (1 − 2it)−n/2 = (1 − 2it)−(m+n)/2 = ϕm+n (t).

Odavde, primenom Teoreme o jedinstvenosti ?? sledi tvrd̄enje ovog dela


teoreme.
(b) Dokazuje se slično kao pod (a).

Istaknimo još i to da se verovatnoće vezane za χ2 raspodelu, slično kao


kod normalne raspodele, daju tablično, za zadati broj ”stepena slobode”
n ∈ N i α ∈ (0, 1). Tada, u tablici 2 nalazimo vrednost χ2n,α takvu da je

P χ2n ≥ χ2n,α = α.
14 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Na slici 5.4 prikazan


je ovakav postupak
odred̄ivanja vrednosti
χ2n,α . Med̄utim, u tabli-
cama se broj stepena
slobode obično ne zadaje
za n ≥ 30, jer tada,
na osnovu centralne
granične teoreme, slučajna
Slika 5.4. promenljiva χ2n ima pri-
bližno N (n, 2n) raspodelu.

Stjudentova t raspodela

Posmatrajmo nezavisne slučajne promenljive Z : N (0, 1) i χ2n . Raspodela


slučajne promenljive
Z
tn = q
χ2n
n
naziva se Stjudentova (t) raspodela sa n ”stepeni slobode”. Odgo-
varajuću gustinu ove raspodele dobijamo iz transformacije
 z  r

 t = q  u
y z = t
n ⇐⇒ n ,

 u = y 
y = u
q
pri čemu je |I| = ny . Kako je, na osnovu ranije dobijenih gustina normalne
i χ2 raspodele, zajednička gustina slučajnog vektora (Z, χ2n ) data sa
n y
1 z2 y 2 −1 e− 2
f (z, y) = √ e− 2 · n ,
2π 2 2 Γ n2
to će gustina vektora (tn , U ) biti
 ru 
Hn (t, u) = f t , u · |I| .
n
Najzad, gustinu slučajne promenljive tn , u oznaci hn (t), dobijamo kao mar-
ginalnu gustinu od Hn (t, u), odnosno
Z +∞   − n+1
Γ n+1 2 t2 2
hn (t) = Hn (t, u)du = √ n
 1+ .
−∞ πn Γ 2 n
Statistike i njihove raspodele 15

Grafik funkcije hn (t)


dat je na slici 5.5, kao
i postupak tabličnog
nalaženja verovatnoća
koje se odnose na
Stjudentovu raspodelu.
Naime, za odred̄eni
broj stepeni slobode
n i zadatu vrednost
α ∈ (0, 1) u tablicama
se nalazi pozitivan broj
tn,α takav da
Slika 5.5.
P {|tn | ≥ tn,α} = α.

Primetimo, takod̄e, da slučajna promenljiva tn , kada n → ∞, aproksima-


tivno ima normalnu raspodelu, iako za k ≥ n momenti E(tkn ) ne postoje.
Specijalno, za n = 1 dobija se slučajna promenljiva čija je gustina

1
h1 (t) = .
π(1 + t2 )

Ovo je, kao što znamo, gustina slučajne promenljive sa Košijevom raspode-
lom.

1.2 Statistike i njihove raspodele

Vratimo se slučajnom uzorku, uopšte, i razmotrimo još neke važne po-


jmove vezane za njega. Neka je U slučajna promenljiva definisana kao
funkcija uzoračkih slučajnih promenljivih X1 , X2 , . . . , Xn , tj. neka je

U = Φ(X1 , X2 , . . . , Xn ).

Odred̄ivanje gustine raspodele ove slučajne promenljive na osnovu pozna-


vanja zajedničke gustine raspodele vektora slučajnih promenljivih

X = (X1 , X2 , . . . , Xn ),

u oznaci f (x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn ) ∈ Rn , jeste jedan od zadataka


statistike.
16 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

1.2.1 Pojam statistike. Primeri važnih statistika

Kao što smo već istakli, važan deo teorijske, matematičke statistike, ali i
statistike, uopšte, jesu funkcije uzorka koje možemo opisati na sledeći način.

Definicija 1.2.1. Neka je X = (X1 , . . . , Xn ) uzorak populacije sa obeležjem


X. Statistika je funkcija uzorka oblika U = Φ(X1 , . . . , Xn ) čiji analitički
izraz ne zavisi od nepoznatih parametara obeležja, tj. statistika je funkcija
od uzorka i poznatih konstanata.

Nadalje se može definisati nekoliko važnih statistika koje često koristimo


u daljem radu.

Sredina uzorka

Sasvim sigurno, najčešće korišćena statistika uzorka X = (X1 , . . . , Xn )


jeste njegova aritmetička sredina
n
1X
Xn = Xi , (1.3)
n
i=1

koju nazivamo sredinom uzorka X. Pritom, ako obeležje X kao svoje


osnovne parametre ima E(X) = µ i D(X) = σ 2 , onda će matematičko
očekivanje statistike X n biti
n
1X
E(X n ) = E(Xi ) = µ,
n
i=1

dok iz nezavisnosti slučajnih promenljivih Xi , i = 1, . . . , n sledi da sredina


uzorka ima disperziju
n
1 X σ2
D(X n ) = D(Xi ) = .
n2 n
i=1

Posebno je važan slučaj normalno raspodeljenog obeležja, jer tada važi

Teorema 1.2.1. Neka obeležje X uzorka X = (X 1 , . .2 ., Xn ) ima normalnu


N (µ.σ ) raspodelu. Tada sredina uzorka ima N µ, σn raspodelu.
2
Statistike i njihove raspodele 17

Dokaz. Označimo sa
  
ϕ(t) = E eitX , ϕn (t) = E eitX n

karakteristične funkcije slučajnih promenljivih X i X n , respektivno. Kako


je, po pretpostavci, X, X1 , . . . , Xn : N (µ, σ 2 ), to će karakteristična funkcija
ovih slučajnih promenljivih biti (videti primer ??)
σ 2 t2
ϕ(t) = e− 2
+itµ.

Primenom poznatih osobina karakterističnih funkcija, tada imamo da je


n
Y   n  2 2
n
(itXk )/n t − σ t2 + itµ σ 2 t2
ϕn (t) = e = ϕ = e 2n n = e− 2n +itµ .
n
k=1

Iz poslednje jednakosti i teoreme Levija o jedinstvenosti jasno sledi tvrd̄enje


teoreme.

Disperzija uzorka

Ovu statistiku definišemo izrazom


n n
2 1X 1X 2 2
Sn = (Xk − X n )2 = Xk − X n , (1.4)
n n
k=1 k=1

pri čemu, slično kao kod sredine uzorka X n , od posebnog interesa jeste
2
nalaženje raspodele za S n u slučaju normalne raspodele obeležja X, odnosno
uzoračkih komponenti Xk , k = 1, . . . , n. U tom slučaju pokazuje se da su
2
statistike X n i S n nezavisne2 , kao i da važi
Teorema 1.2.2. Ako obeležje X ima normalnu N (µ, σ 2 ) raspodelu, onda
2
nS n
(a) slučajna promenljiva ima χ2n−1 raspodelu;
σ2
Xn − µ √
(b) slučajna promenljiva n − 1 ima Stjudentovu tn−1 raspodelu.
Sn
2
Ova činjenica posledica je opštijeg tvrd̄enja koje se odnosi na linearne kombinacije
normalno raspodeljenih slučajnih promenljivih. Detalje o tome čitalac može naći, recimo,
u Merkle [9], strana 154.
18 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Dokaz. (a) Pod̄imo od izraza


n
X n
X
(Xk − µ)2 = (Xk − X n + X n − µ)2
k=1 k=1
n
X n
X
= (Xk − X n )2 + 2(X n − µ) (Xk − X n ) + n(X n − µ)2 .
k=1 k=1
(1.5)
Primetimo da na osnovu definicije sredine uzorka (1.3) važi jednakost
n
X n
X
(Xk − X n ) = Xk − nX n = nX n − nX n = 0,
k=1 k=1

pa jednakost (1.5), primenom (1.4), možemo napisati kao


n
X 2
(Xk − µ)2 = nS n + n(X n − µ)2 .
k=1

Odavde sledi da je
n   2  2
X Xk − µ 2 nS Xn − µ
= 2n + √ ,
σ2 σ σ/ n
k=1

pri čemu, po definiciji χ2 raspodele, važi


n    2
X Xk − µ 2 2 Xn − µ
= χn , √ = χ21 .
σ2 σ/ n
k=1

Najzad, na osnovu Teoreme 1.1.1 sledi tvrd̄enje ovog dela teoreme.


(b) Koristeći prethodni deo dokaza teoreme, odnosno činjenice da je
2
nS n Xn − µ
= χ2n−1 , √ : N (0, 1),
σ2 σ/ n
tvrd̄enje ovog dela teoreme sledi na osnovu definicije Stjudentove raspodele,
jer važi
Xn − µ

σ/ n Xn − µ √
tn−1 = s = n − 1.
nS
2 Sn
n
σ 2 (n − 1)
Statistike i njihove raspodele 19

1.2.2 Empirijska funkcija raspodele

Posebno ističemo još jednu važnu statistiku uzorka, koju ćemo često
koristiti u daljem radu.

Definicija 1.2.2. Empirijska funkcija raspodele uzorka X = (X1 , . . . , Xn )


je statistika
n
def 1 X
Fn (x) = I{Xk <x} , x ∈ R. (1.6)
n
k=1

Za realizovani uzorak x = (x1 , x2 , . . . , xn ) takav da važi poredak

xi1 ≤ xi2 ≤ · · · ≤ xin

statistika Fn (x), x ∈ R je monotono neopadajuća funkcija sa mogućim


skokovima u tačkama varijacionog niza3 (xi1 , . . . xin ), jer važi

 0, x < xi1 ;

k
Fn (x) = , xik ≤ x < xik+1 , k = 1, . . . , n − 1;

 n
1, x ≥ xin .

Slika 5.6. Grafik empirijske funkcije raspodele

Ukoliko su svi elementi u realizovanom uzorku različiti, skokovi su veličine


1/n (slika 5.6). Stoga, slučajna promenljiva Fn (x) je statistika čiji je kodomen
skup {0, 1/n, 2/n, . . . , (n−1)/n, 1} ili njegov pravi podskup sa verovatnoćama
   
k n
P Fn (x) = = (F (x))k (1 − F (x))n−k , k = 0, 1, . . . , n.
n k
3
Ovaj pojam detaljnije razmatramo u narednoj sekciji.
20 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Odavde sledi da slučajna promenljiva nFn (x), po definiciji, ima binomnu


B(n, p) raspodelu, sa parametrom p = F (x) = P {X < x}, x ∈ R. Pritom,
važi

Teorema 1.2.1. Za svako fiksirano x ∈ R važi konvergencija


s.i.
Fn (x) −→ F (x), n → ∞,

odnosno P Fn (x) → F (x) , n → ∞ = 1.

Dokaz. Statistiku Fn (x), na osnovu njene definicije, možemo posmatrati


kao aritmetičku sredinu indikatora


1, ω ∈ Ai
IAi (ω) =
0, ω ∈
6 Ai ,

gde je Ai = {ω | Xi (ω) < x}. S obzirom da je E(IAi ) = P (Ai ) = F (x), za


svako fiksirano x ∈ R, tvrd̄enje sledi na osnovu Borelovog zakona velikih
brojeva.

Konvergencija o kojoj je bilo reči u prethodnoj teoremi, ostvaruje se uni-


formno po x ∈ R. O tome govori tzv. centralna teorema matematičke
statistike. Jedan od njenih oblika je sledeći

Teorema 1.2.2 (Glivenko-Kanteli). Neka je F (x) funkcija raspodele obeležja


X i Fn (x), x ∈ R, empirijska funkcija raspodele uzorka obima n iz populacije
sa obeležjem X. Tada važi
 
P sup |Fn (x) − F (x)| →0 , n → ∞ = 1. (1.7)
x∈R

S tim u vezi, važno je istaći još jedan rezultat koji se odnosi na obeležja
apsolutno–neprekidnog tipa.

Teorema 1.2.3. Neka je F (x) funkcija raspodele, a Fn (x), x ∈ R, empiri-


jska funkcija raspodele na osnovu uzorka obima n iz populacije sa obeležjem
X. Ako je F (x) neprekidna funkcija, onda raspodela statistike

sup |Fn (x) − F (x)| (1.8)


x∈R

ne zavisi od funkcije F (x).


Statistike i njihove raspodele 21

Dokaz. Za funkciju F (x) definišimo preslikavanje

F −1 (y) = min{x | F (x) ≥ y}.

Tada, smenom promenljivih y = F (x), odnosno x = F −1 (y), jednakost (1.8)


možemo transformisati na sledeći način

sup |Fn (x) − F (x)| = sup Fn F −1 (y) − (y) .
x∈R y∈[0,1]

Na osnovu definicije empirijske funkcije raspodele imamo


n n
 1X 1X
Fn F −1 (y) = I{Xk <F −1 (y)} = I{F (Xk )<y} ,
n n
k=1 k=1

pri čemu je raspodela slučajnih promenljivih F (Xk ) uniformna na intervalu


[0, 1]. Zaista, za proizvoljno t ∈ R funkcija raspodele za F (X) je

P {F (X) < t} = P {X < F −1 (t)} = F F −1 (t) = t,

tj. važi X : U[0, 1]. Samim tim, raspodela statistike (1.8) zavisi samo od
raspodele slučajnih promenljivih Uk = F (Xk ) sa uniformnom raspodelom,
a ne i od raspodele obeležja X.

1.2.3 Statistike poretka

Neka je dat uzorak X = (X1 , X2 , . . . , Xn ) populacije čije obeležje X ima


zakon raspodele F (x, θ). Varijacioni niz Y = (Y1 , Y2 , . . . , Yn ) uzorka X čini
niz slučajnih promenljivih sačinjen od elemenata ovog uzorka za koji važi

Y1 ≤ Y2 ≤ . . . ≤ Yn .

Elemente niza Y nazivamo statistikama poretka, preciznije, slučajna pro-


menljiva Yk , k = 1, 2, . . . , n je k-ta statistika poretka.
Primetimo da su statistike poretka funkcije ”celog” uzorka, tj. statistike
u punom smislu reči. Naime, važi

Y1 = min {Xk }, Y2 = max min{Xk }, ..., Yn = max {Xk }.


1≤k≤n 1≤j≤n k6=j 1≤k≤n
22 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Dve ekstremalne vrednosti Y1 i Yn nazivaju se, redom, uzorački minimum


i uzorački maksimum. Njihova razlika Rn = Yn − Y1 naziva se raspon
uzorka. Takod̄e, pomoću statistika poretka definiše se medijana uzorka

 Yk ,
 n = 2k − 1;
M e(X) =
 Yk + Yk+1 , n = 2k.

2
Za realizovane vrednosti varijacionog niza Y koristi se isti termin varijaci-
oni niz, bez opasnosti od zabune, a označavaju se malim slovima

y1 ≤ y2 ≤ . . . ≤ yn .

S obzirom na to da su statistike poretka osnov za dobijanje izvesnog


broja ocena parametara raspodele, zadržaćemo se malo detaljnije na pro-
blemu odred̄ivanja njihovih raspodela. Označimo, stoga, sa Gk (x) funkciju
raspodele statistike poretka Yk , reda k = 1, 2, . . . , n. Ako raspodelu obeležja
X označimo kraće sa F (x), onda, na osnovu empirijske funkcije raspodele
(1.6), koju sada možemo napisati kao
n
1X
Fn (x) = I{Yk <x} ,
n
k=1

za svako x ∈ R imamo
 
k
Gk (x) = P {Yk < x} = P {Y1 < x, . . . , Yk < x} = P Fn (x) ≥ =
n
Xn n  
X n
= P {nFn (x) = i} = (F (x))i (1 − F (x))n−i .
i
i=k i=k

Primetimo da poslednja jednakost važi jer je, po definiciji empirijske


funkcije raspodele, nFn (x) : B(n, F (x)). Ukoliko je obeležje X apsolutno-
neprekidnog tipa sa gustinom f (x), na osnovu ovako dobijenih funkcija
raspodele statistika Yk , k = 1, . . . , n diferenciranjem lako nalazimo njihove
gustine raspodela
( n  
d Gk (x) X n
gk (x) = = i (F (x))i−1 (1 − F (x))n−i −
dx i
i=k
n−1   )
X n i n−i−1
− (n − i) (F (x)) (1 − F (x)) f (x) =
i
i=k
Statistike i njihove raspodele 23
( n  
X n−1
= nf (x) (F (x))i−1 (1 − F (x))n−i −
i−1
i=k
)
X
n−1
n−1

i n−i−1
− (F (x)) (1 − F (x)) =
i
i=k
 
n−1
= nf (x) (F (x))k−1 (1 − F (x))n−k .
k−1
Dakle, za svako k = 1, . . . , n gustina raspodele statistike Yk glasi
n!
gk (x) = (F (x))k−1 (1 − F (x))n−k f (x). (1.9)
(k − 1)!(n − k)!
U opštem slučaju, zajednička gustina slučajnog vektora Y može se opisati
na sledeći način.
Teorema 1.2.4. Neka je Y1 ≤ Y2 ≤ . . . ≤ Yn varijacioni niz dobijen
na osnovu uzorka X = (X1 , . . . , Xn ) obeležja X čija je gustina raspodele
f (x) neprekidna i strogo pozitivna za x ∈ (a, b). Tada je zajednička gustina
raspodele vektora Y = (Y1 , Y2 , . . . , Yn ):
 n
 n! Y f (y ), a < y ≤ . . . ≤ y < b

k 1 n
g(y1 , . . . , yn ) = (1.10)

 k=1
0, inače
Dokaz. Neka je I skup svih permutacija indeksnog skupa {1, 2, . . . , n} i
F (x) funkcija raspodele obeležja X. Funkcija raspodele za Y biće
GY (y1 , . . . , yn ) = P {Y1 < y1 , . . . , Yn < yn } =
X
= P {Xi1 < y1 , . . . , Xin < yn } =
(i1 ,...,in )∈I
X
= P {Xi1 < y1 } · · · P {Xin < yn } =
(i1 ,...,in )∈I
X n
Y
= F (y1 ) · · · F (yn ) = n! F (yk ).
(i1 ,...,in )∈I k=1

Gustinu vektora Y dobijamo diferenciranjem


∂ n GY (y1 , . . . , yn )
g(y1 , . . . , yn ) =
∂ y1 . . . ∂ yn
odakle se očito dobija (1.10).
24 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

1.3 Zadaci za vežbu

Zadatak 1.1. Anketiranjem 25 porodica dobijeni su sledeći podaci o broju članova


njihovih domaćinstava: 4, 3, 4, 2, 5, 4, 3, 2, 1, 4, 3, 4, 6, 4, 3, 4, 5, 2, 2, 4, 4, 3, 4, 7, 3.
(a) Grupisati podatke tabelarno i prikazati ih grafički.
(b) Odrediti sredinu i disperziju datog uzorka.

Rešenje:

(a) Grupisane vrednosti broja članova domaćinstava glase

Broj članova (xi ) Broj domaćinstava (fi )


1 1
2 4
3 6
4 10
5 iPviše 4
25

(b) Primenom formula (1.3) i (1.4) dobijamo aritmetičku sredinu i disperziju


datog uzorka. One, redom, glase
5
1 X 1 · 1 + 2 · 4 + 3 · 6 + 4 · 10 + 5 · 4
x25 = xi fi = = 3, 48,
25 i=1 25

odnosno
5
1 X 2 331
s225 = xi fi − x225 = − 3, 482 = 1, 13. ✷
25 i=1 25

Zadatak 1.2. U uzorku od 30 radnika nekog preduzeća utvrd̄ena su sledeća njihova


primanja (u 000 dinara):

36, 42, 38, 44, 50, 56, 52, 39, 41, 40, 28, 62, 45, 45, 37,
60, 38, 43, 35, 50, 46, 66, 70, 33, 42, 32, 54, 45, 36, 54.

Prikazati podatke tabelarno i grafički, a zatim naći sredinu datog uzorka.

Rešenje:

Grupisanje datih podataka izvršićemo pomoću grupnih intervala. Kako je


xmax = 70, xmin = 28 i N = 30, primenom pravila Šturgesa dobijamo ukupan
broj intervala
K ≈ 1 + 3, 32 log 30 ≈ 6,
Zadaci za vežbu 25

dok njihova širina iznosi


70 − 28
i= = 7.
6
Na taj način, grupisane vrednosti uzorka glase
Plata radnika (xi ) Broj radnikaa (fi )
28–34 3
35–41 9
42–48 8
49–55 5
56–62 3
63 P
i više 2
30
Najzad, slično kao u prethodnom zadatku, aritmetičku sredinu uzorka dobijamo na
sledeći način
31 · 3 + 38 · 9 + 45 · 8 + 52 · 5 + 59 · 3 + 66 · 2
x30 = = 45, 467,
30
pri čemu smo kao vrednosti obeležja uzeli sredine grupnih intervala. ✷

Zadatak 1.3. Neka je Fλ (x) funkcija raspodele za Puasonovu raspodelu sa para-


metrom λ > 0, a Gn (y) funkcija raspodele slučajne promenljive sa χ2n raspodelom.
Pokazati da je tada
1 − Fλ (n) = G2n+2 (2λ).
Rešenje:
Na osnovu definicije Puasonove raspodele imamo da je
n
X λk
Fλ (n) = e−λ ,
k!
k=0

dok, s druge strane, po definiciji χ2 raspodele važi


Z2λ
1
G2n+2 (2λ) = n+1 y n e−y/2 dy.
2 Γ(n + 1)
0

Ako u prethodnom integralu uvedemo smenu t = y/2, a zatim višestruko primenimo


parcijalnu integraciju, dobijamo
Zλ t=λ
1 n −t 1 n n−1 n−2

G2n+2 (2λ) = t e dt = −t − nt − n(n − 1)t − · · · − n! =
n! n!
0 t=0
n
X λk
= 1 − e−λ .✷
k!
k=0
26 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Zadatak 1.4. Neka je X = (X1 , . . . , Xn ) prost slučajan uzorak obeležja X. Odre-


diti sredinu i disperziju odgovarajućeg uzorka obeležja Y = aX + b, gde su a, b ∈ R
proizvoljne konstante.
Rešenje:
Uzorak za obeležje Y glasi Y = (Y1 , . . . , Yn ), gde je Yi = aXi + bi , i = 1, . . . , n.
Na osnovu formule (1.3) nalazimo sredinu uzorka Y:
n n n
!
1X 1X 1 X
Yn = Yi = (aXi + b) = a Xi + nb = aX n + b.
n i=1 n i=1 n i=1

Slično, primenom (1.4) dobija se disperzija istog uzorka


n n
1X 2 2 1X
Sy2 = Yi − Y n = (aXi + b)2 − (aX n + b)2 =
n i=1 n i=1
n
1X 2 2 2
= (a Xi + 2abXi + b2 ) − a2 X n − 2abX n − b2 =
n i=1
n
1X 2 2
= a2 Xi + 6 2abX n + 6 b2 − a2 X n − 6 2abX n − 6 b2 =
n i=1
n
!
2 1X 2 2 2
= a X − X n = a2 X n . ✷
n i=1 i

Zadatak 1.5. Za uzorak obeležja X uzeto je


P
xk (2, 4) (4, 6) (6, 8) (8, 10) (10, 12)
nk 1 2 4 1 2 10
Uzimajući za vrednosti obeležja X sredine intervala odrediti srednju vrednost, dis-
perziju i empirijsku funkciju raspodele datog uzorka.
Rešenje:
Prema formulama (1.3), (1.4), i (1.6) imamo
10
1 X 1
x10 = xk = (3 · 1 + 5 · 2 + 7 · 4 + 9 · 1 + 11 · 2) = 7, 2;
10 10
k=1
10
1 X 2 1 2 
s210 = xk − x210 = 3 · 1 + 52 · 2 + 72 · 4 + 92 · 1 + 112 · 2 − 7, 22 =
10 10
k=1
= 5, 96;


 0, x ≤ 3;



 0, 1, 3 < x ≤ 5;

0, 3, 5 < x ≤ 7;
F10 (x) =

 0, 7, 7 < x ≤ 9;



 0, 8, 9 < x ≤ 11;

1, x > 11. ✷
Zadaci za vežbu 27

Zadatak 1.6. Neka je (X1 , X2 ) prost slučajan uzorak obeležja X čija je gustina

2x, 0 < x < 1;
f (x) =
0, inače.

Naći raspodelu aritmetičke sredine X n ovog uzorka i verovatnoću P X n ≤ 12 .

Rešenje:

Slično kao u prethodnom poglavlju (videti, recimo, zadatak ??) možemo uvesti
transformaciju
( 
1
U = (X1 + X2 ) X1 = 2U − V
2 ⇐⇒ ,
V = X2 X2 = V

pri čemu je Jakobijan poslednje tranformacije |J | = 2. Zbog nezavisnosti X1 i X2 ,


slučajni vektor (U, V ) ima gustinu raspodele

f(U,V ) (u, v) = f (2u − v)f (v) |J | = 8(2u − v)v,

pri čemu je
 
0 ≤ 2u − v ≤ 1 v/2 ≤ u ≤ (v + 1)/2
⇐⇒
0≤v≤1 0 ≤ v ≤ 1.

Integracijom po v nalazimo marginalnu gustinu raspodele za U = X n :


 32


 u3 , za 0 ≤ u ≤ 1/2
3
fU (u) =


 − 32 u3 + 16u − 16 , za 1/2 ≤ u ≤ 1.
3 3
Odavde je, jasno,
  Z 1/2 u=1/2
1 8 4 1
P Xn ≤ = fU (u)du = u = .✷
2 0 3 6
u=0

Zadatak 1.7. Neka je (X1 , X2 , X3 ) uzorak obeležja X sa gustinom



5x4 , 0 < x < 1;
f (x) =
0, inače.

Naći funkciju raspodele i odgovarajuću gustinu raspodele verovatnoće statistike


Y = max{X1 , X2 .X3 }.

Rešenje:
28 Glava 1. ELEMENTI MATEMATIČKE STATISTIKE

Za funkciju raspodele FY slučajne promenljive Y imamo najpre

FY (y) = P {Y < y} = P {max{X1 , X2 , X3 } < y} =


= P {X1 < y ∧ X2 < y ∧ X3 < y} =
3
Y 3
Y
= P {Xi < y} = FXi (y),
i=1 i=1

gde je
 
 0,
Rx 4 x≤0  0, x≤0
5
FXi (x) = P {Xi < y} = 5t dt, 0 < x ≤ 1 = x , 0 <x≤1
 0 
1, x>1 1, x > 1.

Dakle, važi 
 0, y≤0
FY (y) = y 15 , 0 < y ≤ 1

1, y > 1,
a odavde diferenciranjem dobijamo odgovarajuću gustinu

15y 14 , 0 ≤ y ≤ 1
fY (y) =
0, inače.

NAPOMENA: Primetimo da smo do istog rezultata mogli doći direktnom pri-


menom jednakosti (1.9), stavivši n = k = 3. (Proverite i objasnite zašto!) ✷
Glava 2

OCENE PARAMETARA

Jedan od fundamentalnih problema matematičke statistike jeste ocenji-


vanje nepoznatog parametra raspodele obeležja, na osnovu realizacije uzorka.
Ako je X obeležje neke populacije, onda se izbor raspodele obeležja X
obično zasniva na odred̄ivanju (nepoznatog) parametra θ iz familije dopus-
tivih raspodela P = {Pθ | θ ∈ Θ}, odnosno iz familije funkcija raspodele
{F (x; θ) | θ ∈ Θ} ili gustina raspodele {f (x; θ) | θ ∈ Θ}. Ocene koje se u
tu svrhu koriste delimo, po svojoj prirodi, na dve osnovne klase: tačkaste i
intervalne ocene. Najviše vremena ovde posvećujemo prvoj klasi, tačkastih
ocena, koje posebno ispitujemo u pogledu njihovih najvažnijih osobina. Za-
tim, dajemo i neke praktične postupke odred̄ivanja ovih ocena. Na kraju,
u kratkim crtama opisaćemo i neke važnije konstrukcije intervalnih ocena
nepoznatih parametara.

2.1 Tačkaste ocena parametara

Kao što smo već istakli, osnovni zadatak matematičke statistike jeste
nalaženje raspodela odred̄enog obeležja. Ako se, na bilo koji način, može
pretpostaviti da posmatrano obeležje pripada nekoj od familija dopustivih
raspodela, onda se problem odred̄ivanja nepoznate raspodele za obeležje X
znatno pojednostavljuje, jer se svodi na odred̄ivanje tačne vrednosti parame-
tra θ. Naravno, statističkim metodima ne možemo naći tačnu vrednost za
θ, već nepoznati parametar ocenjujemo na osnovu uzorka. Tačkasto oce-
njivanje jeste jedan od osnovnih načina da se ”prava” vrednost nepoznatog
parametra odredi približno, sa odred̄enom tačnošću.

29
30 Glava 2. OCENE PARAMETARA

2.1.1 Definicija i osobine tačkastih ocena

Neka je dat uzorak X = (X1 , . . . , Xn ) iz populacije kod koje obeležje


X ima zakon raspodele F (x, θ) sa nepoznatim parametrom θ ∈ Θ. Metod
tačkastog ocenjivanja sastoji se u definisanju statistike

Yn = Φ(X), odnosno Yn = Φ(X1 , X2 , . . . , Xn ),

takve da za realizovani uzorak (x1 , x2 , . . . , xn ) broj y = φ(x1 , x2 , . . . , xn )


bude ”dobra” ocena za θ. Obično, ali ne uvek, skup vrednosti ocene Yn se
poklapa sa θ. Valjanost ocene utvrd̄uje se na osnovu odred̄enih kriterijuma
o kojima će nadalje biti reči.

Definicija 2.1.1. Statistika Yn = Φ(X) dobijena na osnovu uzorka X =


(X1 , X2 , . . . , Xn ) iz populacije sa obeležjem X, čija raspodela pripada fami-
liji dopustivih raspodela {f (x; θ) | θ ∈ Θ}, je nepristrasna ili centrirana
ocena parametra θ ako je njeno matematičko očekivanje jednako vrednosti
parametra θ, tj.
E(Yn ) = θ.
Primer 2.1.1. Neka je dat slučajni uzorak X = (X1 , X2 , . . . , Xn ) iz populacije sa obeležjem
X čija raspodela pripada familiji dopustivih raspodela {f (x, θ) | θ ∈ Θ} za koju je E(X) =
θ. Sredina uzorka
n
1X
Xn = Xi
n i=1
je nepristrasna ocena parametra θ, jer na osnovu poznatih osobina matematičkog očekivanja
važi
n
! n
! n n
1X 1 X 1X 1X 1
E(X n ) = E Xi = E Xi = EXi = EX = nθ = θ. ✷
n i=1 n i=1
n i=1
n i=1
n

Primer 2.1.2. Neka je dato obeležje X koje ima konačnu disperziju θ = D(X). Kao ocena
2
ovog parametra najčešće se koristi uzoračka disperzija S n . Ipak, ona nije nepristrasna
ocena za θ, jer u ovom slučaju imamo

2 1X
n  2
E(S n ) = E(Xi2 ) − E X n =
n i=1
n
!
2 1 X
= E(X ) − E Xi Xj =
n2 i,j=1
n
1 X 1 X
= E(X 2 ) − 2
E (Xi ) E (Xj ) − 2 E(Xi2 ) =
n i6=j n i=1
n−1  n−1
= E(X 2 ) − [E(X)]2 = D(X).
n n
Tačkaste ocena parametara 31

S druge strane, primetimo da je tzv. ”popravljena” disperzija


n
n e2 1 X 2
Sen2 = Sn = Xi − X n
n−1 n − 1 i=1

centrirana ocena za disperziju θ. ✷

Prethodni primer ukazuje na mogućnost zadavanja sledećeg, ”slabijeg”


svojstva ocena nepoznatog parametra.
Definicija 2.1.2. Statistika Yn = Φ(X1 , X2 , . . . , Xn ) na osnovu uzorka
X = (X1 , X2 , . . . , Xn ) iz populacije sa obeležjem X, čija raspodela pripada
familiji dopustivih raspodela {f (x, θ) | θ ∈ Θ} je asimptotski nepristrasna
ili asimptotski centrirana ocena parametra θ, ako važi
E(Yn ) −→ θ, n → ∞.
Primer 2.1.3. Kako je
2 n−1
E(S n ) = D(X) ,
n
zaključujemo da je disperzija uzorka asimptotski nepristrasna ocena disperzije obeležja.
2
U uzorcima većeg obima pristrasnost ocene S n je zanemarljiva. Med̄utim, kada je obim
uzorka mali, kao ocena za disperziju obeležja X uzima se popravljena disperzija uzorka
Sen2 . ✷

Još jedna od često korišćenih mera ”bliskosti” ocene i prave vrednosti


parametra jeste tzv. srednje–kvadratno odstupanje ocene Yn od prave
vrednosti parametra θ, definisano izrazom
E(Yn − θ)2 = E(Yn − E(Yn ) + E(Yn ) − θ)2 = D(Yn ) + b2n (θ).
Ovde je bn (θ) = E(Yn )−θ tzv. pomak (pomeraj) matematičkog očekivanja
ocene Yn . U slučaju da je ocena Yn nepristrasna važi bn (θ) = 0, pa srednje-
kvadratno odstupanje te ocene od prave vrednosti parametra θ predstavlja
disperzija statistike Yn . S tim u vezi, možemo sada definisati sledeći važan
pojam.
Definicija 2.1.3. Statistika Yn = Φ(X1 , X2 , . . . , Xn ) je najbolja (najefi-
kasnija) ocena parametra θ ako je nepristrasna i ako za bilo koju drugu
nepristrasnu ocenu Zn = Ψ(X1 , X2 , . . . , Xn ) važi
D(Yn ) ≤ D(Zn ).
Dakle, efikasnost nepristrasne ocene za parametar θ izražava se njenom
disperzijom, pa ova osobina predstavlja jedan od osnovnih načina za utvrd̄i-
vanje ”kvaliteta” takvih ocena. Upravo zato, ovom pojmu posvetićemo još
pažnje i u narednom delu izlaganja teorije ocena. Zasad, formulišimo još
jedan kriterijum koji odlikuje ”dobre” ocene nepoznatih parametara.
32 Glava 2. OCENE PARAMETARA

Definicija 2.1.4. Statistika Yn = Φ(X1 , X2 , . . . , Xn ) je postojana ocena


za θ ako ona konvergira u verovatnoći ka θ, tj. ako je
P
Yn −→ θ, n → ∞.

U slučaju da ova konvergencija važi skoro izvesno, tj.


s.i.
Yn −→ θ, n → ∞,

onda je ocena Yn strogo postojana.


Primer 2.1.4. Ako je E(X) = θ onda, na osnovu Hinčinovog zakona velikih brojeva,
n
1X P
Xn = Xk −→ θ, n → ∞.
n k=1

si
Štaviše, na osnovu zakona velikih brojeva Kolmogorova, sledi X n −→ θ kada n → ∞.
Dakle, sredina uzorka je (strogo) postojana ocena za matematičko očekivanje θ obeležja
X. ✷

2.1.2 Nejednakost Rao-Kramera

Kao što smo već istakli, stepen efikasnosti ocena nepoznatog parametra
meri se njihovom disperzijom. U nekim slučajevima moguće je naći tzv.
donju granicu efikasnosti nepristrasnih ocena. U tu svrhu, uvodimo najpre
definiciju tzv. regularne familije gustina raspodele za jednodimenzionalni
parametar.

Definicija 2.1.5. Neka je {f (x; θ) | θ ∈ Θ} familija dopustivih raspodela za


obeležje X neke populacije iz koje se uzima uzorak obima n. Kazaćemo da
je familija dopustivih raspodela f (x; θ) regularna ako važe sledeći uslovi
regularnosti:

(i) Θ je interval (ili ceo skup R);



(ii) Skup K = x ∈ R | f (x; θ) > 0 ne zavisi od θ;

(iii) Funkcija f (x; θ) je diferencijabilna po θ i važi


Z Z
∂ ∂f (x; θ)
f (x; θ)dx = dx, (2.1)
∂θ K K ∂θ
Tačkaste ocena parametara 33

odnosno, u diskretnom slučaju,


∂ X X ∂f (x; θ)
f (x; θ) = .
∂θ ∂θ
x∈K x∈K

Primetimo da se uslov regularnosti (2.1) može iskazati na više ekviva-


lentnih načina. Kako
R je na osnovu osobine normiranosti gustina f (x; θ)
ispunjena jednakost K f (x; θ)dx = 1, diferenciranjem dobijamo
Z Z
∂ ∂f (x; θ)
f (x; θ)dx = dx = 0. (2.2)
∂θ K K ∂θ

Štaviše, na osnovu jednakosti


∂ ln f (x; θ) 1 ∂f (x; θ)
= ·
∂θ f (x; θ) ∂θ

uslov (2.2) možemo napisati kao


Z
∂ ln f (x; θ)
f (x; θ) dx = 0,
K ∂θ
odnosno  
∂ ln f (X; θ)
E = 0. (2.3)
∂θ
Sada možemo dokazati osnovni rezultat ovog odeljka, poznatu Rao-Krame-
rovu nejednakost.
Teorema 2.1.1 (Rao-Cramér). Neka je X = (X1 , . . . , Xn ) uzorak iz po-
pulacije sa obeležjem X čija raspodela pripada regularnoj familiji dopustivih
raspodela {f (x; θ), θ ∈ Θ}, Θ ⊂ R i statistika Yn = Φ(X1 , . . . , Xn ) nepri-
strasna ocena parametra θ ∈ Θ, takva da je E(Yn2 ) < +∞. Tada, za svako
θ ∈ Θ važi
1
D(Yn ) ≥   .
∂ ln f (X; θ) 2
nE
∂θ
Dokaz. Dokaz izvodimo za apsolutno neprekidan slučaj, jer se u diskret-
nom slučaju razmatra analogno (znakove integrala treba zameniti sumama).
Zbog apsolutne neprekidnosti i nepristrasnosti statistike Yn imamo
Z n
Y
E(Yn ) = Φ(x1 , . . . , xn ) f (xi ; θ)dxi = θ,
Rn i=1
34 Glava 2. OCENE PARAMETARA

pa diferenciranjem po θ i primenom osobine regularnosti, dobijamo


Z n
X ∂f (xi ; θ)
Φ(x1 , . . . , xn ) f (x1 ; θ) · · · f (xi−1 ; θ) f (xi+1 ; θ) · · · f (xn ; θ)dxi
Rn ∂θ
i=1
Z n
X n
∂ ln f (xk ; θ) Y
= Φ(x1 , . . . , xn ) f (xi ; θ)dxi = 1.
Rn | {z } ∂θ
k=1 i=1
Yn | {z }
Zn

n
X ∂ ln f (xk ; θ)
Ako označimo Zn = , onda prethodnu jednakost možemo
∂θ
k=1
kraće napisati kao

E(Yn Zn ) = 1. (2.4)

S druge strane, slučajna promenljiva Zn , na osnovu osobine regularnosti


(2.2), ima sledeće osobine
n
X  
∂ ln f (Xk ; θ)
E(Zn ) = E = 0,
∂θ
k=1

n   Xn    
X ∂ ln f (Xk ; θ) ∂ ln f (Xk ; θ) 2 ∂ ln f (X; θ) 2
D(Zn ) = D = E = nE .
∂θ ∂θ ∂θ
k=1 k=1

Koristeći prethodne jednakosti, kao i osobine koeficijenta korelacije slučajnih


promenljivih Yn i Zn , imamo

def E(Yn Zn ) − E(Yn )E(Zn ) 1−0


ρ(Yn , Zn ) = =   ≤ 1,
D(Yn )D(Zn ) ∂ ln f (X; θ) 2
D(Yn )nE
∂θ

odnosno
1
D(Yn ) ≥  2 ,
∂ ln f (X; θ)
nE ∂θ

što je i trebalo dokazati.

Primetimo da važnu ulogu u definisanju Rao–Kramerove donje granice


ima izraz  
∂ ln f (X; θ) 2
In (θ) = nE
∂θ
Tačkaste ocena parametara 35

koji je u statističkoj literaturi poznat pod nazivom Fišerova količina in-


formacija. Imajući u vidu definiciju najbolje statistike za parametar, za-
ključujemo da je u regularnom slučaju to ona statistika čija disperzija dostiže
Rao-Kramerovu donju granicu. U tom slučaju možemo odrediti stepen
efikasnosti nepristrasnih ocena na sledeći način.
Definicija 2.1.6. Efikasnost nepristrasne ocene parametra raspodele u
regularnom slučaju jeste količnik Rao–Kramerove donje granice i disperzije
same ocene.
Definicija 2.1.7. Najefikasnija ocena za parametar θ regularne familije
dopustivih raspodela je nepristrasna ocena za θ čija je efikasnost jednaka
jedinici.
Primer 2.1.5. Dokazati da statistika X n predstavlja najefikasniju ocenu za parametar θ
Puasonove raspodele P(θ), na osnovu prostog slučajnog uzorka (X1 . . . , Xn ).
x
Rešenje: Familiju dopustivih raspodela možemo napisati kao f (x; θ) = e−θ θx! , gde je
x = 0, 1, 2 . . . i θ > 0. Kako je
∂ ln f (x; θ) x
ln f (x; θ) = −θ + x ln θ − ln x! =⇒ = −1 + ,
∂θ θ
to važi
  X ∞ 
!
x  −θ θx

X ∞
∂ ln f (X; θ) θx X θx−1
E = −1 + e = e−θ − + = 0.
∂θ k=0
θ x! k=0
x! k=1 (x − 1)!

Dakle, familija Puasonovih P(θ) raspodela zadovoljava uslov regularnosti (2.3). Slično,
imamo
 2 X∞  2 θ x
∂ ln f (X; θ) x
E = e−θ −1 =
∂θ k=0
θ x!
∞ ∞ ∞
!
−θ
X θx−2 X θx−1 X θx
= e x −2 + =
(x − 1)! (x − 1)! x!
k=1 k=1 k=0
∞ ∞
!
−θ
X θx−2 X θx−2 θ θ
= e + − 2e + e =
k=2
(x − 2)! k=1 (x − 1)!

!
−θ θ
X θx−2 θ
= e e + −e =
(x − 1)!
k=1

X
e −θ
θx−1 1
= = ,
θ (x − 1)! θ
k=1

pa donja granica Rao-Kramera u ovom slučaju glasi


1 θ
 2 = .
∂ ln f (X; θ) n
nE
∂θ
36 Glava 2. OCENE PARAMETARA

S druge strane, sredina uzorka X n je nepristrasna ocena za θ (pokazali smo ranije), pri
čemu u slučaju Puasonove raspodele važi
n
! n
1X 1 X 1 θ
D(X n ) = D Xk = 2 D(Xk ) = nθ = .
n k=1 n k=1 | {z } n2 n
θ

Znači, sredina uzorka dostiže donju granicu po Rao-Krameru, tj. zaista predstavlja naje-
fikasniju ocenu parametra θ. ✷

2.1.3 Uniformno najefikasnije ocene. Kompletnost

Efikasnost nepristrasnih ocena nekog parametra θ ranije smo definisali


pomoću disperzija tih ocena. Sada ta razmatranja proširujemo uvodeći opšti
skup nepristrasnih ocena H(θ), pri čemu dodatno pretpostavljamo da ne-
pristrasna ocena Y ∈ H(θ) ima konačan drugi moment. Na taj način je,
dakle, n o
H(θ) = Y | E(Y ) = θ ∧ E(Y 2 ) < +∞ .

Uočimo da za proizvoljne nepristrasne ocene Y1 , Y2 ∈ H i svako α ∈ (0, 1)


izraz Y = αY1 + (1 − α)Y2 predstavlja takod̄e nepristrasnu ocenu za θ, jer je

E(Y ) = α E(Y1 ) +(1 − α) E(Y2 ) = θ.


| {z } | {z }
θ θ

Dakle, skup H(θ) jeste


neprazan, konveksan skup
nepristrasnih ocena za θ (slika
6.1). Stoga na njemu, do-
datno, možemo uvesti normu
proizvoljne ocene Y ∈ H(θ)
na sledeći način1
p
Slika 6.1. kY kθ = E(Y 2 ).

Sada uvodimo još jedno važno svojstvo tačkastih ocena.


Definicija 2.1.8. Ocena Y ∈ H(θ) je uniformno najefikasnija (uni-
formno najbolja) ocena za θ ako za svaku ocenu Y1 ∈ H(θ) važi

D(Y ) ≤ D(Y1 ). (2.5)


Tačkaste ocena parametara 37

Kako je za svako Y, Y1 ∈ H(θ) ispunjena jednakost E(Y ) = E(Y1 ) = θ,


nejednakost (2.5) možemo transformisati kao
p q
E(Y 2 ) ≤ E(Y12 ) ⇐⇒ E(Y 2 ) ≤ E(Y12 ) ⇐⇒ kY k ≤ kY1 k .

Dakle, uniformno najbolja ocena2 ima najmanju normu u konveksnom skupu


nepristrasnih ocena za θ. Na osnovu poznate teoreme Funkcionalne analize
(o elementu sa najmanjom normom), tada važi
Teorema 2.1.2. Skup H(θ) nepristrasnih ocena za θ sadrži najviše jedan
element sa najmanjom normom, tj. postoji najviše jedna uniformno naje-
fikasnija nepristrasna ocena za θ.
Pre dalje detaljnije analize najboljih ocena za θ, uvodimo još jedan
”pomoćni” pojam koji koristimo u daljim razmatranjima.
Definicija 2.1.9. Neka su X, Y slučajne promenljive sa zajedničkom gusti-
nom raspodele f (x, y) i marginalnim gustinama fX (x) i fY (y), respektivno,
pri čemu je E |Y | < +∞. Uslovno matematičko očekivanje za Y , pri
uslovu X = x, definisano je izrazom
Z
E (Y |x) = yf (y|x)dy, (2.6)
R

f (x, y)
gde je f (y|x) = uslovna gustina raspodele slučajne promenljive Y u
fX (x)
odnosu na X.
Primetimo da, za razliku od ”običnog” očekivanja E(Y ), uslovno matema-
tičko očekivanje E(Y |X) predstavlja funkciju slučajne promenljive X. Zato
ćemo često pisati
def
U(X) = E(Y |X).
Ipak, slično kao kod ”običnog” matematičkog očekivanja, i ovde se mogu
pokazati sledeće osobine funkcije U(X).
Teorema 2.1.3. Neka su X, Y proizvoljne slučajne promenljive, pri čemu
je E(Y 2 ) < +∞. Tada važi
si
(i) E(Y + Z | X) = E(Y | X) + E(Z | X);
si
(ii) E(αY | X) = αE(Y | X), α ∈ R;
2
U daljem tekstu ove ocene zvaćemo, jednostavno, najboljim ocenama parametra θ.
38 Glava 2. OCENE PARAMETARA

si
(iii) |E(Y | X)| ≤ E (|Y | | X) ;
si 
(iv) [E(Y | X)]2 ≤ E Y 2 | X .

Narednu osobinu uslovnog matematičkog očekivanja formalno dokazu-


jemo.
Teorema 2.1.4. Pri ranije uvedenim pretpostavkama za slučajne promenljive
X, Y i funkciju U(X) važi jednakost
E [E(Y |X)] = E(Y ). (2.7)
Dokaz. Na osnovu definicije uslovnog matematičkog očekivanja (2.6) i Teo-
reme Fubinija3 o zameni poretka integracije u Lebegovom integralu, imamo
Z
def (2.6)
E [E(Y |X)] = E [U(X)] = U(x)fX (x)dx =
R
Z Z 
(2.6) f (x, y)
= y dy fX (x)dx =
R R fX (x)
Z Z 
= y f (x, y)dx dy =
R R
Z
def
= yfY (y)dy = E(Y ).
R

Sada izlažemo glavni rezultat ovog dela.


Teorema 2.1.5 (Rao-Blackwell). Neka su X i Y slučajne promenljive
takve da je E(Y 2 ) < +∞ i E(Y |X) = U(X). Tada je
D(U(X)) ≤ D(Y ). (2.8)
Dokaz. Koristeći definiciju disperzije, kao i prethodne rezultate ovog odeljka,
dobijamo sledeći niz jednakosti
D(U(X)) = E[U(X)]2 − [E(U(X))]2 = E [E(Y |X)]2 − [E(E(Y |X))]2 =
(2.7)  
= E [E(Y |X)]2 − [E(Y )]2 ≤ E E(Y 2 |X) − [E(Y )]2 =
(2.7) def
= E(Y 2 ) − [E(Y )]2 = D(Y ).

3
Videti, recimo, B. Mirković [10].
Tačkaste ocena parametara 39

Opisujemo sada još jedan od načina da se govori o valjanosti tačkaste


ocene za nepoznati parametar raspodele.
Definicija 2.1.10. Statistika Y1 = Φ1 (X1 , . . . , Xn ) je dovoljna statistika
za θ ako za bilo koji izbor n − 1 statistika
Y2 = Φ2 (X1 , . . . , Xn ), . . . , Yn = Φn (X1 , . . . , Xn ),
čiji je Jakobijan odgovarajuće transformacije J = 6 0, uslovna gustina raspo-
dele gu (y2 , . . . , yn |y1 ) slučajnih promenljivih Y2 , . . . , Yn pod uslovom Y1 = y1 ,
ne zavisi od parametra θ za bilo koju fiksiranu vrednost y1 .
U vezi sa dovoljnim statistikama dajemo, bez dokaza, tvrd̄enje koje daje
jednostavniji način za proveru dovoljnosti nekih statistika.
Teorema 2.1.6 (Fisher-Neyman). Neka je X = (X1 , . . . , Xn ) prost slučajan
uzorak iz populacije sa obeležjem X čija raspodele koja pripada familiji
dopustivih raspodela {f (x; θ) | θ ∈ Θ}. Statistika Y1 = Φ1 (X1 , . . . , Xn )
čija je gustina raspodele g1 (y1 ; θ) je dovoljna statistika za θ akko za svako
(x1 , . . . , xn ) ∈ Rn važi jednakost
f (x1 , x2 , . . . xn ; θ) = g1 [φ1 (x1 , x2 , . . . , xn ); θ] h(x1 , x2 , . . . , xn ), (2.9)
gde funkcija h : Rn → R ne zavisi od θ.
Uslove egzistencije najbolje ocene daje egzistencija dovoljne statistike
Y ∈ H(θ) i ranije pokazana nejednakost Rao-Blekvela.
Teorema 2.1.7. Ako postoji dovoljna statistika Y ∈ H(θ), onda je najbolja
ocena za θ funkcija te statistike, tj. oblika je U(Y ) = E(Z|Y ), gde je Z ∈
H(θ) proizvoljna nepristrasna ocena parametra θ.
Dokaz. Kako je Y dovoljna statistika za θ, uslovna gustina raspodele za Z
pod uslovom Y = y ne zavisi od θ, tako da je E(Z|Y = y) = U(y) funkcija
samo od y (a ne i od θ). Dakle, U(Y ) je statistika, pa prema teoremi 2.1.4
imamo
E[U(Y )] = E[E(Z|Y )] = E(Z) = θ,
dok je prema Rao-Blekvelovoj teoremi D(U(Y )) ≤ D(Z).

Ova posledica nam ukazuje na to da u traganju za najboljom ocenom


parametra θ, pažnju možemo da ograničimo na dovoljnu statistiku ako ona
postoji, jer polazeći od nje dolazimo do nepristrasne ocene za parametar
čija je disperzija manja od disperzije bilo koje druge nepristrasne ocene. Na
kraju, dajemo još jedan pojam koji koristimo da iskažemo važno svojstvo
dovoljnih statistika.
40 Glava 2. OCENE PARAMETARA

Definicija 2.1.11. Familija dopustivih raspodela {f (x; θ) | θ ∈ Θ} je ko-


mpletna familija ako za proizvoljnu Borelovu funkciju u(x) iz jednakosti
Z
u(x)f (x; θ)dx = 0
R

sledi, skoro sigurno, da je u(x) ≡ 0.


Napomena 2.1.1. U daljem radu ćemo, zbog jednostavnosti dokazivanja,
pretpostaviti da je u(x) neprekidna funkcija. Takod̄e, primetimo da uslov
kompletnosti možemo, kraće, napisati u obliku implikacije
si
E[u(X)] = 0 =⇒ u(X) ≡ 0,

gde je X obeležje čija raspodela pripada gore navedenoj familiji dopustivih


raspodela f (x; θ).
Primer 2.1.6. Neka raspodela obeležja X pripada familiji dopustivih raspodela
 x
θ (1 − θ)1−x , x = 0, 1
f (x; θ) = ,
0, inače

gde je 0 < θ < 1. Pretpostavimo, kao i u prethodnoj definiciji, da je E[u(X)] = 0 i da je


funkcija u(·) neprekidna. Tada je

0 = u(0)θ0 (1 − θ)1 + u(1)θ1 (1 − θ)0 = u(0) − θu(0) + u(1)θ = (u(1) − u(0))θ + u(0).

Izraz na desnoj strani jednakosti predstavlja linearnu funkciju po θ, koja je identički


jednaka nuli akko su joj odgovarajući koeficijenti jednaki nuli. Dakle, važi

u(0) = 0 ∧ u(1) − u(0) = 0,

odakle lako nalazimo da je u(0) = u(1) = 0. Znači, gore navedena familija raspodela jeste
kompletna. ✷

Na kraju, navodimo teoremu koja daje potrebne uslove za jedinstvenost


najbolje statistike za parametar, a koji se odnose na kompletne familije
dopustivih raaspodela.
Teorema 2.1.8 (Leman-Scheffé). Neka je X obeležje sa skupom dopus-
tivih raspodela {f (x; θ) | θ ∈ Θ}, Y = Φ(X1 , . . . , Xn ) dovoljna statistika za
parametar θ iz koje je uzet uzorak X = (X1 , . . . , Xn ) i neka je Z proizvoljna
nepristrasna ocena za θ. Ako je familija gustina raspodele statistike Y

{g(y; θ) | θ ∈ Θ} (2.10)

kompletna, onda je U(Y ) = E(Z|Y ) skoro sigurno jedinstvena najbolja


statistika za parametar θ.
Neki metodi tačkastog ocenjivanja 41

Dokaz. Na osnovu teoreme 2.1.7 statistika U(Y ) jeste najbolja ocena parme-
tra θ. Pretpostavimo sada, suprotno tvrd̄enju teoreme, da sem funkcije U(x)
postoji još neka funkcija V(x) takva da je V(Y ) ∈ H(θ) nepristrasna, uni-
formno najefikasnija ocena parametra θ. Tada je
E [U(Y ) − V(Y )] = E [U(Y )] − E [V(Y )] = θ − θ = 0.
Kako je (2.10) kompletna familija, to znači da je, skoro sigurno,
U(Y ) − V(Y ) = 0 ⇐⇒ U(Y ) = V(Y ).

Napomena 2.1.2. Ako je Y1 dovoljna statistika za parametar θ ∈ Θ, pri


čemu je familija funkcija gustina raspodele {g1 (y1 ; θ), θ ∈ Θ} kompletna,
reći ćemo da je, jednostavno, Y1 kompletna dovoljna statistika za θ.

2.2 Neki metodi tačkastog ocenjivanja

Ovde opisujemo neke od najčešće korišćenih efektivnih postupaka nala-


ženja tačkastih ocena nepoznatog parametra θ. Najviše pažnje posvetićemo
poznatom metodu maksimalne verodostojnosti, a zatim ćemo, u kratkim
crtama, opisati veoma jednostavan i lako primenljiv postupak poznat kao
metod momenata.

2.2.1 Metod maksimalne verodostojnosti

Metod maksimalne verodostojnosti (zvaćemo ga kraće i MV me-


tod), jete opšti metod za ocenjivanje nepoznatih parametara raspodele i
može se primenjivati (sa više ili manje uspeha) kod raznih familija raspodela i
proizvoljnih uzoraka, prostih ili ne. Ocene dobijene MV metodom ne moraju
imati sve teoretske atribute ”kvalitetnih” ocena. Tu, pre svega, mislimo
na osobinu nepristrasnosti koja u slučaju MV ocena često nije ispunjena.
Ipak, pokazuje se da su ovakve ocene, u slučaju velikih uzoraka, obično
najefikasnije.
Metod maksimalne verodostojnosti se primenjuje, kako za jednodimen-
zioni, tako i za višedimenzioni parametar. Ovde razmatramo najjedno-
stavniji slučaj MV ocenjivanja, kada je vrednost nepoznatog parametra
θ ∈ Θ ⊆ R.
42 Glava 2. OCENE PARAMETARA

Definicija 2.2.1. Neka je data familija dopustivih gustina raspodele

{f (x; θ), θ ∈ Θ}

obeležja X i uzorak X = (X1 , . . . , Xn ) sa zajedničkom gustinom raspodele


n
Y
f (x1 , . . . , xn ; θ) = f (xi ; θ)
i=1

iz populacije sa obeležjem X. Zajedničku gustinu možemo da posmatramo


kao funkciju parametra θ i u tom slučaju se ova funkcija zove funkcija
verodostojnosti i najčešće se označava sa

L(θ; x1 , . . . , xn ) = f (x1 , . . . , xn ; θ).

Funkciju verodostojnosti često ćemo označavati, zbog jednostavnosti,


samo sa L(θ). Ovakva oznaka opravdana je činjenicom da uzorak X u
slučaju njegove realizacije postaje ”običan” niz brojeva x = (x1 , . . . , xn ),
pa je tada jedina nepoznata vrednost sam parametar θ. U tom slučaju je
od interesa naći onu vrednost θ = θb za koju funkcija verodostojnosti dostiže
svoj maksimum.
Definicija 2.2.2. Ocena maksimalne verodostojnosti parametra θ ∈
Θ ⊆ R jeste statistika θb = Φ(X1 , . . . , Xn ) za koju se ostvaruje maksimum
funkcije L(θ) po θ ∈ Θ.
Dakle, ocena maksimalne verodostojnosti biće statistika θb = Φ(X1 , . . . , Xn )
takva da za proizvoljni realizovani uzorak x = (x1 , . . . , xn ) važi
b x1 , . . . , xn ) = max L(θ; x1 , . . . , xn ).
L(θ; (2.11)
θ∈Θ

Rešenje prethodne jednačine obično se odred̄uje logaritmovanjem funkcije


L(θ). Na taj način, dobijamo tzv. jednačinu verodostojnosti
n n
d ln L(θ) ∂ X X 1 ∂f (xi ; θ)
= ln f (xi ; θ) = · = 0. (2.12)
dθ ∂θ f (xi ; θ) ∂θ
i=1 i=1

Primetimo da je ovakav postupak matematički opravdan zbog monotonosti


funkcije ln x, tj. činjenicom da funkcije L(θ) i ln L(θ) imaju iste ekstreme.
Primer 2.2.1. Neka je dat prost slučajni uzorak (X1 , . . . , Xn ) iz populacije sa obeležjem
X čija raspodela pripada familiji Poissonovih raspodela (videti primer 2.1.5):
θx
f (x; θ) = e−θ , x = 0, 1, 2 . . . i θ > 0.
x!
Neki metodi tačkastog ocenjivanja 43

Kako je funkcija verodostojnosti


n
P
xi
θi=1
L(θ; x1 , . . . , xn ) = f (x1 ; θ) · · · f (xn ; θ) = e−nθ n ,
Y
xi !
i=1

to logaritmovanjem leve i desne strane imamo da je


n
! n
X X
ln L(θ) = −nθ + xi ln θ − ln xi !.
i=1 i=1

Sada, diferenciranjem po θ dobijamo jednačinu verodostojnosti


n
∂ ln L(θ) 1X
= −n + xi = 0,
∂θ θ i=1

odakle nalazimo ocenu maksimalne verodostojnosti θb = X n . Dakle, dobijena MV-ocena


jeste sredina uzorka, za koju smo već pokazali da je nepristrasna i najefikasnija ocena za
parametar θ. ✷

Primer 2.2.2. Neka je prost slučajni uzorak (X1 , . . . , Xn ) iz populacije sa obeležjem X


čija gustina pripada familiji dopustivih raspodela

1, θ − 12 ≤ x ≤ θ + 21
f (x; θ) =
0, inače.

Funkcija verodostojnosti je tada


n
Y 
1, θ − 12 ≤ xi ≤ θ + 1
2
L(θ) = f (xi ; θ) =
0, inače.
i=1

Očito, max L(θ) = 1 se ostvaruje ukoliko je xi ∈ θ − 12 , θ + 1
2
za svako i = 1, . . . , n.
Odavde nalazimo da je
1 1 1 1
θ− ≤ min{xi } ≤ max{xi } ≤ θ + ⇐⇒ max{xi } − ≤ θ ≤ min{xi } + ,
2 2 2 2
tj. funkcija L(θ) će imati maksimum za svako θb iz intervala (max{xi } − 21 , min{xi } + 12 ).

Prethodni primer ukazuje da ocena maksimalne verodostojnosti nije uvek


jedinstveno odred̄ena. Ipak, pri odred̄enim uslovima, pre svega u slučaju
egzistencije jedinstvenog rešenja jednačine verodostojnosti (2.12), ocena mak-
simalne verodostojnosti je strogo postojana ocena za parametar θ. O tome
svedoči naredno tvrd̄enje koje navodimo bez dokaza.

Teorema 2.2.1. Neka familija dopustivih raspodela {f (x; θ) | θ ∈ Θ} obeležja


X na skupu K = {x ∈ R | f (x, θ) > 0}, koji ne zavisi od θ, zadovoljava
sledeće uslove regularnosti:
44 Glava 2. OCENE PARAMETARA
Z Z
∂ ∂f (x; θ)
(i) f (x; θ)dx = dx;
∂θ K K ∂θ
Z Z
∂2 ∂ 2 f (x; θ)
(ii) f (x; θ)dx = dx.
∂θ 2 K K ∂θ 2

Ukoliko jednačina verodostojnosti (2.11) ima jedinstveno rešenje po θ, u oz-


naci θ = θbn , onda ocena θbn zadovoljava uslov stabilnosti
si
θbn −→ θ, n → ∞. ✷

Na kraju, dajemo važnu vezu MV-ocena sa dovoljnim statistikama, koje


smo definisali u prethodnom odeljku.

Teorema 2.2.2. Ako postoji jedinstvena dovoljna statistika Y = Φ(X) za


parametar θ na osnovu uzorka X = (X1 , . . . , Xn ) iz populacije sa obeležjem
X i ako, takod̄e, postoji ocena maksimalne verodostojnosti θb za parametar
θ, tada je θb funkcija od dovoljne statistike Y .

Dokaz. Neka je g(y; θ) gustina raspodele statistike Y . Tada je funkcija


verodostojnosti, prema Fišer-Nejmanovom kriterijumu,

L(θ; x1 , . . . , xn ) = g[φ(x1 , . . . , xn ); θ]h(x1 , . . . , xn ),

gde funkcija h(·) ne zavisi od θ. Dakle, svoj maksimum po θ funkcija vero-


dostojnosti ostvaruje samo preko funkcije g(·), odnosno φ(·). To znači da θb
jeste funkcija dovoljne statistike Y = Φ(X).

2.2.2 Metod momenata

Opisujemo sada još jedan metod tačkastog ocenjivanja parametara uve-


den od strane K. Pirsona. Reč je o tzv. metodu momenata koji se zasniva
na sledećim činjenicama i pretpostavkama.
Neka raspodela obeležja X pripada familiji dopustivih raspodela f (x, θ),
gde je x, θ ∈ R. Ako je E(X) = µ, onda se za obeležje X, kao i za svaku
slučajnu promenljivu, mogu definisati momenti
Z
def k
µk = E(X ) = xk f (x, θ)dx,
R
Neki metodi tačkastog ocenjivanja 45

odnosno centralni momenti


Z
def k
γk = E(X − µ) = (x − µ)k f (x, θ)dx,
R
reda k = 1, 2, . . . . Pretpostavimo, pritom da vrednosti µk , γk postoje i
konačne su, recimo, zaključno do reda r ∈ N. Njih nazivamo teoretskim
momentima (reda k), pri čemu je jasno da oni, kao i raspodela samog
obeležja X, u opštem slučaju zavise od parametra θ.
S druge strane, za uzorak (X1 , . . . , Xn ) iz populacije sa obeležjem X
može se definisati uzorački moment (reda k) kao statistika
n
def 1X k
µ
bk = Xi , k = 1, 2, . . . , r,
n
i=1

odnosno uzorački centralni moment (reda k) je statistika


n
1X
γk =
b (Xi − X n )k , k = 1, 2, . . . , r.
n
i=1
Tipičan primer uzoračkog momenta reda k = 1 jeste sredina uzorka, dok
je uzorački centralni moment reda k = 2 disperzija uzorka, koje smo već
pominjali ranije. Pritom, jasno je da postoji zavisnost uzoračkih momenata
ne samo od njihovog reda k, već i od obima uzorka n. Stoga ćemo za
označavanje ”običnog” i centralnog uzoračkog momenta reda k u daljem radu
koristiti oznake µnk i γnk , respektivno. Pritom, osnovna svojstva uzoračkih
momenata možemo iskazati sledećom činjenicom.
Teorema 2.2.3. Uzorački momenti reda k, dobijeni na osnovu uzorka X =
(X1 , . . . , Xn ), jesu nepristrasne i (strogo) postojane ocene teorijskih mome-
nata reda k odgovarajućeg obeležja X.
Dokaz. Prema prethodnim definicijama i oznakama, za svako k za koje
postoje teoretski momenti µk , važi
n
! n
1X k 1X 1
E(bµnk ) = E Xi = E(Xik ) = nµk = µk .
n n n
i=1 i=1

Dakle, uzorački moment µ


bnk jeste nepristrasna ocena za µk . Dalje, na os-
novu Zakona velikih brojeva Kolmogorova važi konvergencija
n
1 X k si
bnk =
µ Xi −→ µk , n → ∞,
n
i=1

pa je µ
bnk strogo postojana ocena za µk . Slično se pokazuje nepristrasnost i
postojanost centralnih momenata γbnk .
46 Glava 2. OCENE PARAMETARA

Prethodna teorema ukazuje na čiinjenicu da su, za dovoljno veliki uzorak


obima n, uzorački momenti µ bnk i b
γnk ”dobre” ocene teorijskih momenata
µk i γk . Na taj način, možemo smatrati da je, recimo, µk ≈ µbnk , pa ovim
”izjednačavanjem” momenata možemo naći odgovarajuće ocene za θ.

Primer 2.2.3. Neka je X obeležje sa Poissonovom P(θ) raspodelom. Kako je µ1 =


E(X) = θ i µ
b1 = X n , ocena za θ po metodu momenata jeste sredina uzorka, tj.

θb = X n .

Primetimo da se ova ocena ”poklapa” sa ranije dobijenom MV-ocenom ovog parametra.


2.3 Intervali poverenja

Kao i obično, pretpostavimo da obeležje X ima raspodelu koja pripada


familiji dopustivih raspodela {f (x; θ) | θ ∈ Θ}, kao i da je iz odgovarajuće
populacije uzet prost slučajan uzorak X = (X1 , . . . , Xn ). Postupak inter-
valnog ocenjivanja parametra θ svodi sa na to da se odrede dve statistike

θb1 = Φ1 (X1 , . . . , Xn ), θb2 = Φ2 (X1 , . . . , Xn ),

takve da je
P {θb1 ≤ θb2 } = 1 i P {θb1 ≤ θ ≤ θb2 } = β.

Ovde je β zadata verovatnoća koju nazivamo nivoom pouzdanosti, jer


predstavlja verovatnoću da slučajni interval [θb1 , θb2 ] sadrži nepoznati parame-
tar θ. Statistike θb1 i θb2 predstavljaju krajeve intervala [θb1 , θb2 ] koji nazivamo
intervalom poverenja (intervalom pouzdanosti) za θ.
Prilikom konstrukcije intervala poverenja prirodno je tražiti što ”uže”
intervale, u smislu da matematičko očekivanje njihove dužine E(θb2 − θb1 )
bude što je moguće manje. S druge strane, nastoji se da nivo poverenja β
bude što veći, tj. da rizik od pogrešnog ocenjivanja α = 1 − β bude što je
moguće manji. Izlaz iz ova dva, uglavnom oprečna zahteva, leži u povećanju
obima uzorka n. Pokazaćemo sada kako se odred̄uju intervali pouzdanosti
za neke konkretne parametre raspodele obeležja X.
Intervali poverenja 47

Intervali poverenja za matematičko očekivanje

Neka je dato obeležje X sa normalnom N (µ, σ 2 ) raspodelom i prost


slučajan uzorak X = (X
 1 , . 2. 
. , Xn ). Tada, kao što smo pokazali ranije, sredi-
σ
na uzorka X n ima N µ, n raspodelu. Ako pretpostavimo da je µ nepoz-
nat, a disperzija σ 2 poznat parametar, onda za zadati nivo pouzdanosti β
možemo odrediti vrednost zβ/2 takvu da je
 
Xn − µ

P √ ≤ zβ/2 = β.
σ/ n

Vrednost zβ/2 nalazimo iz Tablice 2, odnosno iz uslova F (zβ/2 ) = 1+β2 , gde


je F (z) funkcija raspodele slučajne promenljive sa standardnom normalnom
raspodelom. Kako je
   
Xn − µ σ

σ/√n ≤ zβ/2 = X n − µ ≤ zβ/2 √
n
 
σ σ
= −zβ/2 √ ≤ X n − µ ≤ zβ/2 √
n n
 
σ σ
= X n − zβ/2 √ ≤ µ ≤ X n + zβ/2 √ ,
n n

interval poverenja za µ je
 
σ σ
Iµ = X n − zβ/2 √ ; X n + zβ/2 √ . (2.13)
n n

Primetimo da širina ovog intervala iznosi 2zβ/2 √σn i nije slučajna veličina.
Takod̄e, vidi se kako se povećanjem obima uzorka n interval sužava, jer
njegova širina konvergira ka nuli.
Primer 2.3.1. U uzorku od 250 kupaca u samoposluzi srednja vrednost novca koji su
potrošili iznosi X = 720 dinara sa devijacijom σ = 20 dinara. Odrediti 95% interval
poverenja za prosečnu vrednost kupovine kupaca.
Rešenje: Ovde je β = 0, 95, pa treba najpre naći vrednost zβ/2 takvu da je

1+β
F (zβ/2 ) = = 0, 975.
2
Iz Tablice 2. nalazimo da je zβ/2 = 1, 96, pa prema (2.13) interval poverenja tada glasi
σ σ
X n − zβ/2 √ ≤ µ ≤ X n + zβ/2 √
n n
48 Glava 2. OCENE PARAMETARA

20 20
720 − 1, 96 · √ ≤ µ ≤ 720 − 1, 96 · √
250 250
717, 52 ≤ µ ≤ 722, 48.
Dakle, sa pouzdanošću od 95% tvrdimo da se prosečna vrednost kupovine kupaca nalazi
u intervalu od 717,52 do 722,48 dinara. △

Pretpostavimo sada da disperzija σ 2 nije poznata. Za odred̄ivanje inter-


vala poverenja matematičkog očekivanja µ tada koristimo statistiku

Xn − µ √
tn−1 = n − 1,
Sn
koja, kao što znamo, ima Stjudentovu raspodelu sa n − 1 stepeni slobode.
Iz Tablice 2. tada nalazimo vrednost tn−1;1−β takav da je

P {|tn−1 | ≤ tn−1;1−β } = β.

Znači, za zadati nivo poverenja β važi


 
Xn − µ√
P
n − 1 ≤ tn−1;1−β = β,
Sn
odakle dobijamo
 
Sn Sn
P X n − tn−1;1−β √ ≤ µ ≤ X n + tn−1;1−β √ = β.
n−1 n−1
Dakle, 100%β interval pouzdanosti za µ glasi
 
Sn Sn
Iµ = X n − tn−1;1−β √ ; X n + tn−1;1−β √ . (2.14)
n−1 n−1

U ovom slučaju dužina intervala je 2 tn−1;1−β √Sn−1


n
i predstavlja slučajnu
promenljivu, tj. varira od jednog do drugog realizovanog uzorka.

Intervali poverenja za nepoznatu verovatnoću

Pretpostavimo da nas kod svakog elementa neke populacije interesuje


realizacija dogad̄aja A čija je verovatnoća p = P (A) nepoznata. Kao obeležje
tada posmatramo indikator ovog dogad̄aja, tj. uzimamo da je X = IA , dok
prosečan broj realizacija u uzorku obima n registruje statistika
Sn
pb = ,
n
Intervali poverenja 49

gde je Sn slučajna promenljiva sa binomnom B(n; p) raspodelom. Za statis-


tiku pb očito važi uslov nepristrasnosti

E(b
p) = p,

dok je njena disperzija

1 p(1 − p)
D(b
p) = 2
D(Sn ) = .
n n

Na osnovu centralne granične teoreme, za dovoljno veliko n važi

pb − p Sn − np
Z∗ = q =p Ñ (0, 1).
p(1−p) np(1 − p)
n

Stoga, za zadati nivo pouzdanosti β možemo odrediti broj zβ/2 takav da je

 1+β
P |Z ∗ | ≤ zβ/2 = β, odnosno F (zβ/2 ) = .
2
Dakle, imamo da je, aproksimativno,
( )
S − np
n
P p ≤ zβ/2 = β,
np(1 − p)

odnosno  
(Sn − np)2 2
P ≤ zβ/2 = β.
np(1 − p)
Kako je
  n o
(Sn − np)2 2
≤ zβ/2 = (n2 + nzβ/2
2
)p2 − (2nSn + nzβ/2
2
)p + Sn2 ≤ 0 ,
np(1 − p)

nalazimo da je odgovarajući interval poverenja za p oblika

Ip = [b
p1 (Sn ); pb2 (Sn )] , (2.15)

gde su pb1 (Sn ) i pb2 (Sn ), redom, manji i veći koren jednačine

(n2 + nzβ/2
2
)p2 − (2nSn + nzβ/2
2
)p + Sn2 = 0. (2.16)
50 Glava 2. OCENE PARAMETARA

Primer 2.3.2. Unutar uzorka od 100 polaznika auto-škola u jednom gradu registrovano
je 32 žena. Sa pouzdanošću 0,99 oceniti učešće žena u svim auto-školama tog grada.
Rešenje: Kako je β = 0, 99, iz Tablice 2. nalazimo vrednost zβ/2 = 2, 58 takvu da je

1+β
F (zβ/2 ) = = 0, 995.
2
Zamenom ove vrednosti, kao i poznatih vrednosti n = 100, Sn = 32 u jednačinu (2.16),
dobijamo
10 655, 36p2 − 7 055, 36p + 1024 = 0.
Rešenja ove jednačine pb1 = 0, 2149, pb2 = 0, 4473 predstavljaju krajeve traženog intervala,
tj. sa pouzdanošću od 99% važi

0, 2149 ≤ p ≤ 0, 4473.

Dakle, tvrdimo da se učešće žena u auto-školama kreće u intervalu od 21,49% do 44,73%.


(Primetimo da je zbog visoke pouzdanosti dobijeni interval dosta širok i neprecizan.) ✷

Interval poverenja za disperziju

U odred̄ivanju intervala poverenja nepoznate disperzije σ 2 obeležja X sa


N (µ, σ 2 ) raspodelom koristimo ranije dokazanu činjenicu (teorema 1.2.2) da
je
2
nS n
= χ2n−1 . (2.17)
σ2
Pritom, ovde je od većeg značaja konstrukcija tzv. jednostranog inter-
vala, oblika [0, σ02 ], koji dobijamo na sledeći način.
Najpre za zadati nivo poverenja β ∈ (0, 1) odredimo u Tablici vrednost
χ2n−1,β takvu da je
P {χ2n−1 ≥ χ2n−1,β } = β.
Poslednju jednakost, na osnovu (2.17), transformišemo na sledeći način
( 2 ) ( 2
)
nS n 2 2 nS n
P ≥ χn−1,β = P σ ≤ 2 = β.
σ2 χn−1,β

Dakle, 100%β jednostrani interval pouzdanosti za disperziju σ 2 glasi


" 2
#
nS n
Iσ2 = 0; 2 .
χn−1,β
Zadaci za vežbu 51

Slično se dobija i dvostrani interval poverenja oblika (proverite sami


za vežbu): " #
2 2
nS n nS n
Iσ′ 2 = ; .
χ2n−1,(1−β)/2 χ2n−1,(1+β)/2

2.4 Zadaci za vežbu

Zadatak 2.1. Verovatnoća da proizvod bude neispravan je p. Proizvodi se prave


sve dok se prvi put ne pojavi neispravan proizvod. Na osnovu uzorka obima n,
metodom maksimalne verodostojnosti oceniti nepoznatu verovatnoću. Zatim, na
osnovu uzorka
xk 5 6 7 8 9 10
mk 10 12 11 9 7 6
izračunati ocenu za p.

Rešenje:

Obeležje X ima geometrijsku raspodelu, pa je funkcija verodostojnosti


n
Y  n n
P
xi −1 p xi
L(x1 , x2 , . . . , xn ) = (1 − p) p= (1 − p)
i=1 .
i=1
1−p

Iz uslova
∂L(x1 , x2 , . . . , xn )
= 0,
∂p
imamo
n
pb = P
n .
xi
i=1

Na osnovu uzorka dobija se


55
pb = .✷
392

Zadatak 2.2. Obeležje X ima raspodelu datu funkcijom gustine


 2 − 2 √x
a2 e , x>0
a
f (x) =
0, x ≤ 0.

Na osnovu uzorka obima n, metodom maksimalne verodostojnosti oceniti parame-


tar a. Ispitati zatim centriranost i efiksanost dobijene ocene.
52 Glava 2. OCENE PARAMETARA

Rešenje:

Funkcija verodostojnosti glasi


n √
P
2n − a2 k=1 xk
L(x1 , x2 , . . . , xn ; a) = e , xk ≥ 0, k = 1, . . . , n,
(a2 )n
odnosno, u logaritmovanom obliku
n
2 X√
ln L(x1 , x2 , . . . , xn ; a) = n ln 2 − 2n ln a − xk , xk > 0.
a
k=1

Na osnovu jednačine verodostojnosti


n
∂ ln L 2n 2 X√
=− + 2 xk = 0
∂a a a
k=1

dobija se odgovarajuća ocena


n
1 X√
a=
b xk .
n
k=1

Kako je
+∞
Z
√ 2 √ − 2 √x
E( X) = xe a dx = a,
a2
0
imamo !
1 X p 
n n
1 Xp
E(b
a) = E Xk = E Xk = a,
n n
k=1 k=1

pa je b
a centrirana ocena. Ispitajmo sada njenu efikasnost. Najpre imamo da je
2√
ln f (x; a) = ln 2 − 2 ln a − x,
a
odakle sledi
∂ ln f (x; a) 2 2√
= − + 2 x.
∂a a a
Fišerova količina informacija iznosi
 2 +∞
Z 
∂f (x; a) 2 2√ 2 − 2 √x 2n
nE = − + 2 x 2
e a dx = 2 ,
∂a a a a a
0

pa je donja granica efiksanosti po Rao-Krameru


1 a2
 2 = .
∂ ln f (X;a) 2n
nE ∂a
Zadaci za vežbu 53

Kako je
1 X p  √ 
n
1 a2
D(b
a) = 2 D Xk = 2 · n · D X = ,
n n 2n
k=1

zaključujemo da ocena b
a zaista predstavlja najefiksaniju ocenu za a. ✷

Zadatak 2.3. Obeležje X ima raspodelu odred̄enu gustinom



 α  c α+1
 , x>c
f (x) = c x


0, x≤c

gdje je α > 0. Na osnovu uzorka obima n metodom maksimalne verodostojnosti


oceniti parametar α i ispitati centriranost tako dobijene ocene.

Rešenje:

Funkcija verodostojnosti je
n
Y  α n Yn  α+1
c
L(x1 , x2 , . . . , xn ; α) = f (xi ) = ,
i=1
c i=1
xi

pa je
Xn
α c
ln L = n ln + (α + 1) ln .
c i=1
xi

Iz jednačine
Xn
∂ ln L n
= + n ln c − ln xi = 0
∂α α i=1

dobija se tražena ocena


n
α
b= P
n .
ln xci
i=1

Dalje, imamo
   
+∞
Z
 n   1  1
E(b 
α) = E  P  
= nE  P  =n fY (y)dy,
n  n  y
ln xci ln xci −∞
i=1 i=1

gde je
n
X Xi
Y = ln .
i=1
c
54 Glava 2. OCENE PARAMETARA

Ako označimo sa
Xi
Zi = ln , i = 1, . . . , n,
c
onda važi

fZi (z) = fXi (cez )(cez ) = αcα (cez )−(α+1) cez = αe−αz , z > 0.

Dakle,
y n−1
fY (y) = αn e−αy , y > 0,
(n − 1)!
pa dobijamo
+∞
Z
nαn 1 n−1 −αy nα
E(b
α) = y e dy = .
(n − 1)! y n−1
0

Znači, ocena α
b nije centrirana. ✷

Zadatak 2.4. Gustina slučajne promenljive X je


 λ
xλ+1
, x>1
f (x) =
0, x ≤ 1,

gdje je λ > 0. Na osnovu uzorka obima n oceniti parametar λ. Ispitati centriranost


tako dobijene ocene.

Rešenje:

Ako stavimo c = 1 i α = λ zadatak se svodi na 2.3. Dakle,

b= n b = nλ
λ n
P , E(λ) ,
n−1
ln xi
i=1

pa ocena nije centrirana. ✷

Zadatak 2.5. Ako su X1 , X2 , . . . , Xn nezavisne slučajne promenljive sa ekspone-


ncijalnom raspodelom i nepoznatim matematičkim očekivanjem a > 0, metodom
maksimalne verodostojnosti naći ocenu za a na osnovu uzorka X1 , X2 , . . . , Xn .

Rešenje:
Zadaci za vežbu 55

Važi  
1
Xi : E , i = 1, . . . , n,
a
pa je funkcija verodostojnosti
n
P
Yn xi
1 − xi 1 i=1
L(x1 , x2 , . . . , xn ; a) = e a = n e− a .
i=1
a a

Logaritmovani oblik ove funkcije glasi


n
P
xi
i=1
ln L(x1 , x2 , . . . , xn ; a) = −n ln a − ,
a
pa iz jednačine
n
P
xi
∂ ln L n i=1
=− + =0
∂a a a2
dobijamo
n
1X
a=
b xi . ✷
n i=1

Zadatak 2.6. Neka je (X1 , X2 , . . . , Xn ) nezavisan uzorak iz raspodele čija je gustina


( x
x2 e− λ
f (x) = 2λ3 , x>0
0, x ≤ 0,

gdje je λ > 0. Metodom maksimalne verodostojnosti naći ocenu za parametar λ.


Ispitati centriranost tako dobijene ocene.

Rešenje:

Kako je
n
P
Q
n 1
−λ xi
x2i e i=1

i=1
L(x1 , . . . , xn ; λ) = ,
2n λ3n
iz jednačine verodostojnosti
n
∂L(x1 , . . . , xn ; λ) 1 X 3n
= 2 xi − ,
∂λ λ i=1 λ

zaključujemo da je
X n
b= 1
λ xi .
3n i=1
56 Glava 2. OCENE PARAMETARA

Osim toga,
Z
+∞ x

b = 1 E(X) = 1 x2 e− λ x
E(λ) x dx = λ, ( smena = t),
3 3 2λ3 λ
0

pa je ocena centrirana. ✷

Zadatak 2.7. Neka je (X1 , X2 , . . . , Xn ) nezavisan uzorak iz raspodele čija je gustina


1 − x−a
f (x) = e b , x > a,
b
gde su a, b nepoznati parametri, a ∈ R, b > 0. Metodom maksimalne verodosto-
jnosti naći ocene za parametre a i b.

Rešenje:

Kako je
n
P
xi −na
1 i=1
L(x1 , x2 , . . . , xn ; a, b) = n e− b , xi > a,
b
imamo
P
n
xi − na
∂ ln L n ∂ ln L n i=1
= > 0, =− + .
∂a b ∂b b b2
Odavde dobijamo
P
n
xi
bb = −b i=1
a = min{xi }
b i a+ .✷
i n

Zadatak 2.8. Dat je uzorak iz N (µ, σ 2 ) raspodele:

2, 19, 0, 38, 1, 41, 0, 49, 1, 87, 0, 68, 0, 16, 0, 68, 0, 45, 0, 38.

Metodom maksimalne verodostojnosti oceniti µ i σ 2 . Izvesti odgovarajuće izraze i


primeniti ih na odgovarajuće brojevne vrednosti.

Rešenje:

Neka je (X1 , . . . , Xn ) uzorak iz normalne raspodele sa nepoznatim parametrima


µ i σ 2 . Funkcija verodostojnosti je tada
 Pn 2
2 1 1 i=1 (xi − µ)
L(µ, σ ) = n · n · exp − .
(2π) 2 (σ 2 ) 2 2σ 2
Zadaci za vežbu 57

Problem se svodi na odred̄ivanje maksimuma funkcije


n
n 1 X
l(µ, σ 2 ) = − ln σ 2 − 2 (xi − µ)2 , µ ∈ R, σ 2 > 0.
2 2σ i=1

Nalaženjem parcijalnih izvoda dobijamo


n
∂l 1 X
=− 2 (xi − µ) = 0,
∂µ σ i=1

n
∂l n 1 X
= − + (xi − µ)2 = 0.
∂σ 2 2σ 2 2(σ 2 )2 i=1

Rešenja ovog sistema jednačina su


 2
Xn Xn Xn
1 1 xi − 1
µ= xi , σ 2 = xj  .
n i=1 n i=1 n j=1

Funkcija l dostiže maksimum u navedenim vrednostima za µ i σ 2 . Primetimo da


funkcija l ne može imati minimum. Dakle, ocene maksimalne verodostojnosti na
osnovu uzorka (X1 , . . . , Xn ) su
n n
1X c2 = 1
X
µ
b= Xi , σ b)2 .
(Xi − µ
n i=1 n i=1

b = 0, 869, σ 2 = 0, 424. ✷
Za dati uzorak je µ

Zadatak 2.9. Na osnovu uzorka obima n metodom maksimalne verodostojnosti


odrediti parametre µ i σ 2 ako
(i) obeležje X ima normalnu raspodelu N (µ, 5),
(ii) obeležje X ima normalnu raspodelu N (10, σ 2 ).

Rešenje:

Sličnim postupkom kao u prethodnom zadatku dobijamo


n n
1X c2 =
X
µ
b= xi , σ (xi − 10)2 . ✷
n i=1 i=1
58 Glava 2. OCENE PARAMETARA

Zadatak 2.10. Gustina raspodele slučajne promenljive X je


1 −|x−a|
f (x, a) = e , x ∈ R, a ∈ R,
2
gdje je a nepoznati parametar. Iz populacije je izvučen uzorak obima 2.
(a) Metodom maksimalne verodostojnosti oceniti parametar a. Da li je dobijena
ocena jedinstvena ?
(b) Da li je ocena Y = X1 +X
2
2
centrirana za a ?
Rešenje:

(a) Imamo da je
1 −|x1 −a|−|x2 −a|
L(x1 , x2 ; a) =
e .
4
Funkcija L dostiže maksimum za one a za koje funkcija

g(a) = |x1 − a| + |x2 − a|, a ∈ R

dostiže minimum. Kako je



 x1 + x2 − 2a , a ≤ x1
g(a) = x2 − x1 , x1 < a ≤ x2

2a − x1 − x2 , x2 < a

imamo da je
a = λx1 + (1 − λ)x2 , λ ∈ [0, 1].
b
Dakle, dobijena ocena nije jedinstvena.
(b) Kako je  
X1 + X2
E =a
2
X1 +X2
ocena Y = 2 jeste centrirana. ✷
Zadatak 2.11. Iz obeležja sa raspodelom
 
−2 0 7
X: ,
θ/5 θ/5 1 − 2θ/5

gde je θ ∈ (0, 25 ) nepoznati parametar, izvučen je uzorak (0, −2, 7, −2). Naći ocenu
za θ koristeći metod momenata.

Rešenje:

16θ
Kako je E(X) = 7 − , izjednačavanjem momenata E(X) ≈ X n dobijamo
5
16θ 5
Xn ≈ 7 − , tj. θb = (7 − X n ).
5 16
Zadaci za vežbu 59

Na osnovu datog uzorka imamo


 
1 3 5 3 125
X 4 = (0 − 2 + 7 − 2) = , pa je θb = 7− = .✷
4 4 16 4 64

Zadatak 2.12. Ako je θ > 0 nepoznati parametar obeležja X : U(0, θ), koristeći
metod momenata naći ocenu za θ. Ispitati zatim centriranost i efikasnost dobijene
ocene, kao i kompletnost date familije dopustivih raspodela.

Rešenje:
 1
Kako je familija dopustivih raspodela f (x; θ) = θ, 0<x<θ
, to imamo
0, inače
da je

x θ
E(X) = dx = .
θ 2
0

Izjednačavanjem momenata E(X) ≈ X n dobijamo odgovarajuću ocenu θb = 2X n .


Pritom, lako se pokazuje da važi

b = θ, b = 4D(X n ) = 4 θ2
E(θ) D(θ) D(X) = .
n 3n
Dokažimo sada da je familija {f (x; θ) | θ > 0} kompletna. Neka je

1
E(u(X)) = u(x)dx = 0,
θ
0

gde je u(·) proizvoljna neprekidna funkcija. Poslednja jednakost je tačna akko je


Z θ
u(x)dx = 0,
0

pa ako nad̄emo izvod po gornjoj granici θ, (izvod parametarskog integrala) dobićemo


Z θ
u′θ (x)dx + θ′ · u(θ) − 0 = 0 ⇐⇒ u(θ) = 0, ∀ θ > 0.
0

Iz poslednje jednakosti sledi da je u(x) ≡ 0, za x > 0, pa je familija kompletna. ✷


Zadatak 2.13. Neka Sn ima binomnu raspodelu sa nepoznatim parametrom p.
Pokazati da za svako ε > 0 važi
  
Sn Sn 1
P p∈ − ε, +ε ≥1− .
n n 4nε2
Zatim, u slučaju da je n = 1 000 odrediti dužinu intervala poverenja kome sa
verovatnoćom 0,99 pripada parametar p.
60 Glava 2. OCENE PARAMETARA

Rešenje:

Data nejednakost sledi iz nejednakosti Čebišova


 
Sn p(1 − p)
P
− p ≤ ε ≥ 1 − ,
n nε2

kao i činjenice da funkcija ϕ(p) = p(1 − p) ima maksimum, koji je jednak 14 i koji
se dostiže za p = 12 .
1
Iz uslova 1 − 4nε 2 = 0, 99, za n = 1 000 dobijamo ε ≈ 0, 316. Dakle, dužina

intervala poverenja je 0, 632. ✷

Zadatak 2.14. Obeležje X ima normalnu N (µ, σ 2 ) raspodelu. Dat je uzorak


Ii [1, 3) [3, 5) [5, 7) [7, 9) [9, 11)
mi 14 20 30 24 12
(a) Odrediti 95% interval poverenja za matematičko očekivanje µ.
(b) Odrediti 95% dvostrani interval poverenja za nepoznatu varijansu σ 2 .

Rešenje:

(a) Aritmetička sredina uzorka je

1
x100 = (2 · 14 + 4 · 20 + 6 · 30 + 8 · 24 + 10 · 12) = 6,
100
dok je disperzija uzorka
1
s2100 = (4 · 14 + 16 · 20 + 36 · 30 + 64 · 24 + 100 · 12) − 36 = 5, 92,
100

odakle sledi da je s100 = 5, 92 = 2, 433. Interval poverenja je oblika
 
sn sn
xn − tn−1,α · √ ; xn + tn−1,α · √ ,
n−1 n−1

gde vrednost tn−1,α nalazimo iz tablica za Stjudentovu raspodelu, tj. iz n = 100 i


α = 0, 05 dobijamo t99;0,05 = 1, 96. Traženi interval je tada

[5, 521; 6, 479].

(b) Ovde je interval poverenja oblika


" #
ns2n ns2n
; ,
χ2n−1, 1−β χ2n−1, 1+β
2 2
Zadaci za vežbu 61

pri čemu iz tablice za χ2 raspodelu nalazimo

β = 0, 95, χ299;0,975 = 74, 22, χ299;0,025 = 129, 6.

Odavde se dobija odgovarajući interval

[4, 57; 7, 98]. ✷

Zadatak 2.15. Neka su X1 , . . . , X100 nezavisne slučajne promenljive sa istom


eksponencijanom raspodelom E(λ), gdje je λ > 0 nepoznati parametar. Koristeći
centralnu graničnu teoremu, odrediti 90% interval poverenja za λ ako je poznato
P
100
Xk = 120.
k=1

Rešenje:

1
1 1 b−
µ
Kako je E(X) = , D(X) = 2 , slučajna promenljiva λ ima približno
λ λ 1

λ n
N (0, 1) raspodelu. Za traženi interval se dobija [0, 69; 0, 97]. ✷
62 Glava 2. OCENE PARAMETARA
Glava 3

TESTIRANJE
STATISTIČKIH HIPOTEZA

U ovom poglavlju opisujemo poseban oblik statističkog zaključivanja čiji


je osnovni cilj provera neke pretpostavke (hipoteze) o karakteristikama os-
novnog skupa. Takve pretpostavke obično se odnose na raspodele obeležja,
u celini, odnosno na pojedine karakteristike raspodele obeležja, kao što su
parametri ili oblik raspodele. Ovde najpre dajemo neke od osnovnih po-
jmova i termina koji se koriste u formalnom zasnivanju statističkog testi-
ranja. Zatim opisujemo neke od važnijih rezultata ove teorije, pre svega
čuvenu teoremu Nejman-Pirsona, zajedno sa nekim posledicama koje na
osnovu nje proizilaze. Na kraju, detaljnije analiziramo dve osnovne klase
statističkih testova (parametarske i neparametarske) koji se najčešće koriste
u praktičnim statističkim istraživanjima.

3.1 Osnovni pojmovi

Uvedimo najpre na formalan način pojmove statističkih hipoteza i nji-


hovog testiranja.

Definicija 3.1.1. Svaka pretpostavka o karakteristikama osnovnog skupa,


iskazana u obliku tvrd̄enja o raspodeli (jednog ili više) obeležja, naziva se
statistička hipoteza.

Dakle, možemo reći da statistička hipoteza H jeste pretpostavka o tome


da obeležje X ima raspodelu koja pripada nekom podskupu skupa do-

63
64 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

pustivih raspodela. Ako, u terminima parametara raspodela, označimo


sa Θ skup svih vrednosti parametara θ koji odgovaraju skupu dopustivih
raspodela {f (x; θ) | θ ∈ Θ}, a sa Λ ⊂ Θ odgovarajući podskup koji se odnosi
na datu statističku hipotezu H, ovu hipotezu zapisujemo sa H(θ ∈ Λ).
Hipoteza H je prosta ako je Λ = {θ0 }, u protivnom je složena. Uobiča-
jeno, u praksi se najčešće uoči jedna polazna hipoteza koja se naziva nulta
hipoteza i označava sa H0 (θ ∈ Λ). Njoj suprotna hipoteza naziva se alter-
nativna hipoteza i označava sa H1 (θ ∈ Λc ), gde je Λc = Θ \ Λ. U principu,
za nultu hipotezu se uzima ona hipoteza koja se lakše proverava (verifikuje)
datim statističkim testom.
Definicija 3.1.2. Postupak provere (verifikacije) hipoteze H0 , na osnovu
realizovanog uzorka x = (x1 , . . . , xn ), naziva se statistički test.
Testiranja hipoteze, u statističkom smislu, znači da se validnost nulte
hipoteze H0 proverava isključivo na osnovu uzorka, pri čemu se donosi odluka
o njenom prihvatanju ili odbacivanju. Pritom se obično uoči tzv. kritična
oblast testa, kao skup svih tačaka C ⊂ Rn za koje se hipoteza H0 odbacuje.
Dakle, važi sledeće pravilo testiranja:

(x1 , . . . , xn ) ∈ C =⇒ H0 se odbacuje
(x1 , . . . , xn ) ∈
/ C =⇒ H0 se prihvata.

Uvod̄enjem pogodnih statistika kritična oblast C se može zadati unutar


jednodimenzionalnog realnog prostora. Sama statistika Y = Φ(X1 , . . . , Xn )
koja odred̄uje granice kritične oblasti C nazova se statistika testa ili test
statistika. Kritična oblast C ⊂ R tada odred̄uje sledeće pravilo testiranja:

φ(x1 , . . . , xn ) ∈ C =⇒ H0 se odbacuje
φ(x1 , . . . , xn ) ∈
/ C =⇒ H0 se prihvata.

Primetimo da oba skupa C koja smo gore definisali (n-dimenzionalni i


jednodimenzionalni) u suštini ne razlikujemo, već nazivamo istim imenom,
kritične oblasti testa.
Prilikom svakog statističkog testiranja moguće su dve vrste grešaka u
zaključivanju. Moguća je, recimo, situacija u kojoj je nulta hipoteza tačna,
ali prilikom realizacije uzorak X = (X1 , . . . , Xn ) ”padne” u kritičnu oblast
tako da H0 biva odbačena. Ovakvu vrstu grešaka nazivamo greškama prve
vrste, a verovatnoću njihovog nastanka označavamo sa α. Koristeći uslovne
verovatnoće ova vrednost se može izraziti kao
n o 
α = P (X1 , X2 , . . . , Xn ) ∈ C H0 = PH0 X ∈ C .
Osnovni pojmovi 65

Često se kaže da je C kritična oblast veličine α, a sama verovatnoća α naziva


se prag značajnosti, odnosno nivo značajnosti datog testa.
S druge strane, ako nulta hipoteza nije tačna, a realizovani uzorak ne
pripadne kritičnoj oblasti, dolazi do njenog (pogrešnog) prihvatanja. Tada
nastaje greška druge vrste čiju verovatnoću nastanka označavamo sa β i
izražavamo kao

β = PH1 (X1 , X2 , . . . , Xn ) ∈ C c = PH1 {X ∈/ C} .
Dakle, greška druge vrste čini se kada je faktički tačna alternativna hipoteza
H1 , a prihvati se hipoteza H0 . Šematski se verovatnoće donošenja pravilnih
i pogrešnih odluka prilikom testiranja mogu prikazati na sledeći način:

Stvarno stanje → H0 H1
Odluka
↓ .
H0 1−α β
H1 α 1−β

Kvalitet samog testa biće utoliko bolji ukoliko se odabere kritična oblast
C takva da verovatnoće nastanka obeju grešaka, α i β, budu što je moguće
manje. Na žalost, ovaj zahtev nije ispunjen u opštem slučaju, jer smanjivanje
vrednosti α dovodi do povećanja vrednosti β, i obratno. Zato se, kao opšte
prihvaćen princip testiranja primenjuje sledeći postupak:
(i) Zadaje se, unapred, vrednost praga značajnosti α (najčešće α = 0, 01
ili α = 0, 05).
(ii) Unutar familije skupova S = {S ⊆ Rn | PH0 {X ∈ S} = α} odred̄uje se
onaj skup C ∈ S za koji je
PH1 {X ∈
/ C} = min PH1 {X ∈
/ S}. (3.1)
S∈S

Ukoliko takav skup C postoji, kažemo da on odred̄uje najbolju kri-


tičnu oblast (veličine α) za dati statistički test.
Već u narednom odeljku primenićemo navedeni princip u dokazivanju
egzistencije najbolje kritične oblasti za slučaj prostih hipoteza H0 i H1 . Na-
glasimo, na kraju, da se svi statistički testovi dele na dve osnovne grupe.
Prvu od njih čine parametarski testovi, koji obično proveravaju hipoteze
o parametrima odred̄enih raspodela obeležja. S druge strane nalaze se
neparametarski testovi koji najčešće služe za proveru oblika raspodele,
utvrd̄ivanje zavisnosti (dva ili više) obeležja, testiranje jednakosti (dve ili
više) raspodela, i slično.
66 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

3.2 Teorema Nejman-Pirsona i njene posledice

Postupak efektivnog nalaženja najbolje kritične oblasti zasniva se na


fundamentalnom tvrd̄enju o kome će ovde biti reči. Pretpostavimo da je
skup dopustivih raspodela dvoelementan, tj. da važi Θ = {θ0 , θ1 }. Tada
su nulta hipoteza i njena alternativa proste hipoteze oblika H0 (θ = θ0 ),
odnosno H1 (θ = θ1 ). Dalje, za i = 0, 1 označimo sa f (x; θi ) skup dopustivih
gustina raspodele obeležja X, kao i odgovarajuće funkcije verodostojnosti
n
Y
L(θi ; x1 , . . . , xn ) = f (xk ; θi ), i = 0, 1,
k=1

dobijenu na osnovu realizacije uzorka X = (X1 , . . . , Xn ).


Pri ranije uvedenim oznakama, vrednost nivoa značajnosti α možemo
napisati u obiku integrala
Z
α = PH0 {X ∈ C} = L(θ0 ),
C

gde je C najbolja kritična oblast (ukoliko postoji) veličine α za testiranje


gore navedene hipoteze H0 protiv njene alternative H1 . Slično, verovatnoću
nastanka greške druge vrste zapisujemo kao
Z
β = PH1 {X ∈/ C} = L(θ1 ).
Cc

Sada navodimo osnovni rezultat ovog dela, poznatu teoremu Nejman-


Pirsona.

Teorema 3.2.1 (Neyman-Pearson). Neka je k > 0 i C ⊂ Rn tako da


važi:

(i) L(θ0 ; x1 , . . . , xn ) ≤ kL(θ1 ; x1 , . . . , xn ), ∀ (x1 , . . . , xn ) ∈ C;

(ii) L(θ0 ; x1 , . . . , xn ) > kL(θ1 ; x1 , . . . , xn ), ∀ (x1 , . . . , xn ) ∈ C c ;


Z
(iii) α= L(θ0 ).
C

Tada je C najbolja kritična oblast veličine α za testiranje hipoteze H0 (θ = θ0 )


protiv alternative H1 (θ = θ1 ).
Teorema Nejman-Pirsona i njene posledice 67

Dokaz. Kao i ranije, dokaz izvodimo za apsolutno neprekidno obeležje, pri


čemu primenjujemo princip testiranja koji smo Zopisali u prethodnoj sekciji.
Neka je S ⊂ Rn proizvoljan skup za koji važi L(θ0 ) = α i pokažimo da
S
tada, pri uslovima navedenim u teoremi, važi
Z Z
L(θ1 ) ≤ L(θ1 ),
Cc Sc

odnosno, ekvivalentno,
Z Z Z Z
L(θ1 ) ≥ L(θ1 ) ⇐⇒ L(θ1 ) − L(θ1 ) ≥ 0. (3.2)
C S C S

Na osnovu pretpostavki (i) i (ii), kao i jednakosti C = (C \ S) ∪ (C ∩ S)


i S = (S \ C) ∪ (S ∩ C) dobijamo
Z Z Z Z Z Z
L(θ1 ) − L(θ1 ) = L(θ1 ) + L(θ1 ) − L(θ1 ) − L(θ1 ) =
C S C\S C∩S S\C S∩C
Z Z
= L(θ1 ) − L(θ1 ) ≥
C\S S\C
"Z Z #
1
≥ L(θ0 ) − L(θ0 ) =
k C\S S\C
"Z Z Z Z #
1
= L(θ0 ) + L(θ0 ) − L(θ0 ) − L(θ0 ) =
k C\S C∩S S\C S∩C
Z Z 
1 1
= L(θ0 ) − L(θ0 ) = (α − α) = 0.
k C S k

Dakle, važi nejednakost (3.2) čime je teorema dokazana u celini.

Prethodna teorema ukazuje na činjenicu da je u slučaju testiranja proste


hipoteze H0 (θ = θ0 ) protiv takod̄e proste alternative H1 (θ = θ1 ), najbolja
kritična oblast C odred̄ena nejednakošću
L(θ0 ; x1 , . . . , xn )
≤ k.
L(θ1 ; x1 , . . . , xn )
Veličinu kritične oblasti α možemo odrediti iz uslova
 
L(θ0 ; X1 , . . . , Xn )
α = PH0 {X ∈ C} = PH0 ≤k , (3.3)
L(θ1 ; X1 , . . . , Xn )
68 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

odnosno, iz iste jednakosti za zadato α možemo odrediti vrednost k > 0.


Pritom, izraz
L(θ0 ; x1 , . . . , xn )
Q(x1 , . . . , xn ) = ,
L(θ1 ; x1 , . . . , xn )
koji nazivamo količnik verodostojnosti, ima važnu ulogu i u opštijem
slučaju, kada testiramo složenije hipoteze, o čemu će kasnije biti više reči.
Kao ilustraciju, navedimo jedan primer odred̄ivanja najbolje kritične oblasti
pomoću Nejman-Pirson-ove teoreme, pri čemu hipoteze nisu definisane iz-
borom samih parametara raspodele.
Primer 3.2.1. Odredimo, na osnovu prostog slučajnog uzorka X = (X1 , . . . , Xn ), na-
1
jbolju kritičnu oblast za testiranje hipoteze H0 da obeležje X ima
1
 Poissonovu P 2
raspodelu protiv alternative H1 da je u pitanju geometrijska G 2 raspodela. Kako su
gustine ovih dveju raspodela, redom,
(  1 x+1
e−1/2
2x x!
, x = 0, 1, 2, . . . , , x = 0, 1, 2, . . .
f1 (x) = f2 (x) = 2 ,
0, inače 0, inače

to količnik verodostojnosti glasi


n
  P
−1/2 
1 i=1 xi
e 
2
n
Y n
Y  n
f1 (xi ) xi ! 2

i=1 i=1 e
Q(x1 , . . . , xn ) = n = n = .
Y  P x +n x1 ! · · · xn !
f2 (xi ) 1 i=1 i
i=1 2
Posmatrajmo sada, za neko k > 0, nejednakost Q(x1 , . . . , xn ) ≤ k. Nakon logaritmovanja
ona postaje
Xn Xn
2
n ln √ − ln(xi !) ≤ ln k ⇐⇒ ln(xi !) ≥ c,
e i=1 i=1
2
gde je c = n ln √
e
− ln k. Dakle, najbolja kritična oblast za dato testiranje je oblika
( n
)
X
C = (x1 , . . . , xn ) : ln (xi !) ≥ c .
i=1

Recimo, za obim uzorka n = 10 i k = 1 dobija se c ≈ 12, 3, mada se, kao poseban


problem, javlja nalaženje nivoa značajnosti α. Njega nalazimo iz uslova (3.3), odnosno
kao verovatnoću
( n )
X
α = PH0 {X ∈ C} = PH0 ln(Xi !) ≥ c
i=1
( n
)
X
= PH0 Xi Xi−1 · · · X1 ≥ ec .✷
i=1
Teorema Nejman-Pirsona i njene posledice 69

3.2.1 Uniformno najmoćniji testovi

Na osnovu Nejman-Pirsonove teoreme mogu se, pod odred̄enim uslovi-


ma, odrediti optimalne kritične
n oblasti i slučaju
o testiranja složenijih hipoteza.
Neka je, kao i ranije, f (x; θ) | θ ∈ Θ familija dopustivih raspodela
obeležja X, pri čemu za proizvoljan Borelov skup S ⊂ Rn označimo sa
Pθ {X ∈ S} raspodelu uzorka X = (X1 , . . . , Xn ) datog obeležja. Dakle, reč je
o verovatnoći da realizacije uzorka X pripadaju skupu S, pod pretpostavkom
da je ”prava” vrednost parametra θ.
Razmotrimo sada, za neko θ0 ∈ Θ, problem testiranja proste nulte
hipoteze H0 (θ = θ0 ), pri čemu alternativna hipoteza H1 (θ 6= θ0 ) može biti
prosta ili složena hipoteza. U tom cilju, uvodimo još neke pomoćne pojmove.
Definicija 3.2.1. Funkcija moći M (θ) daje verovatnoću odbacivanja nulte
hipoteze pri uslovu da je θ ∈ Θ odgovarajuća vrednost parametra raspodele
f (x; θ), tj.
n o 
M (θ) = P (X1 , . . . , Xn ) ∈ C | θ = Pθ X ∈ C .

Dakle, M (θ) predstavlja verovatnoću da uzorak X = (X1 , . . . , Xn ) pri-


padne kritičnoj oblasti C, ako je ”prava” vrednost parametra raspodele
θ ∈ Θ. Vrednost ove funkcije za konkretne vrednosti parametra θ, pre
svega u slučaju testiranja gore navedene proste hipoteze H0 (θ = θ0 ) naziva
se i moć testa. Ovakav termin opravdan je iz sledećeg razloga.
Jasno je da za θ = θ0 funkcija moći predstavlja verovatnoću nastanka
greške prve vrste, tj. odbacivanja hipoteze H0 iako je ona u stvari tačna. S
druge strane, za θ 6= θ0 ista funkcija daje verovatnoću donošenja (ispravne)
odluke o odbacivanju neistinite nulte hipoteze. Stoga, pri ranije uvedenim
oznakama, funkciju moći možemo napisati kao

α, θ = θ0
M (θ) = (3.4)
1 − β(θ), θ 6= θ0 ,

pri čemu smo naglasili da verovatnoća nastanka greške druge vrste β zavisi
od vrednosti θ 6= θ0 . Nasuprot funkciji moći sada možemo formulisati sledeći
pojam.
Definicija 3.2.2. Operativna karakteristika testa je funkcija N (θ) koja
za svako θ ∈ Θ daje verovatnoću suprotnu funkciji moći, tj.

N (θ) = 1 − M (θ) = Pθ X ∈/C .
70 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

Dakle, funkcija N (θ) daje verovatnoću prihvatanja hipoteze H0 , ukoliko


je ”prava” vrednost parametra argument ove funkcije. Na osnovu (3.4)
operativnu karakteristiku testa možemo napisati kao

1 − α, θ = θ0
N (θ) = (3.5)
β(θ), θ 6= θ0 .

Primetimo da i ovde verovatnoća nastanka greške druge vrste zavisi od θ 6=


θ0 . Zato će i najbolja kritična oblast, ukoliko postoji, u opštem slučaju biti
zavisna od parametra θ 6= θ0 . Ipak, u pojedinim slučajevima moguće je
formirati jedinstvenu najbolju kritičnu oblast, koju formalno definišemo na
sledeći način.

Definicija 3.2.3. Kritična oblast C je uniformno najmoćnija oblast za


testiranje proste hipoteze H0 protiv alternativne složene hipoteze H1 ako je
skup C najbolja kritična oblast za testiranje H0 protiv svake proste hipoteze
sadržane u H1 . Test definisan ovom kritičnom oblašću zove se uniformno
najmoćniji test.

Uniformno najmoćniji test, naravno, ne mora uvek da postoji. Med̄utim,


čak i tada, Nejman-Pirsonova teorema daje mogućnost nalaženja odgo-
varajuće klase najboljih kritičnih oblasti. Kao ilustraciju, posmatrajmo
sledeći primer.
Primer 3.2.2. Pretpostavimo da obeležje X ima gustinu raspodele koja pripada familiji
normalnih raspodela {N (θ, 1) | θ ∈ R}. Odredimo najbolju kritičnu oblast za testiranje
proste nulte hipoteze H0 (θ = θ0 ) protiv složene alternative H1 (θ 6= θ0 ). Kako je, za svako
θ ∈ R, funkcija verodostojnosti data se
( n )
1 X (xi − θ)2
L(θ; x1 , . . . , xn ) = √ exp − ,
( 2π)n i=1
2

to će količnik verodostojnosti biti

( n
)
L(θ0 ) 1X 2 2
Q(x1 , . . . , xn ) = = exp − [(xi − θ0 ) − (xi − θ) ] , θ 6= θ0 .
L(θ) 2 i=1

Iz nejednakosti Q(x1 , . . . , xn ) ≤ k imamo da je


n n
1X X
− [(xi − θ0 )2 − (xi − θ)2 ] ≤ ln k ⇐⇒ (θ0 − θ) (θ0 + θ − 2xi ) ≥ −2 ln k.
2 i=1 i=1

Za svako fiksirano θ1 ∈ (θ0 , +∞) kritična oblast biće odred̄ena kao


n
X n
X n
2 ln k 1X ln k θ0 + θ1
(θ0 + θ1 ) − 2 xi ≤ ⇐⇒ xi ≥ + .
i=1 i=1
θ1 − θ0 n i=1 (θ0 − θ1 )n 2
Teorema Nejman-Pirsona i njene posledice 71

Dakle, prema Nejman-Pirsonovoj teoremi, oblast


( n
)
X n ln k
C = (x1 , . . . , xn ) : xi ≥ (θ1 + θ0 ) − .
i=1
2 θ1 − θ0

jeste najbolja kritična oblast za testiranje nulte proste protiv svake alternativne proste
hipoteze sadržane u alternativnoj složenoj hipotezi. S druge strane, za θ1 < θ0 najbolja
kritična oblast biće odred̄ena sa
n
X n ln k
xi ≤ (θ1 + θ0 ) − .
i=1
2 θ1 − θ0

Znači, najbolja kritična oblast nije jedinstveno odred̄ena, tj. ne postoji uniformno na-
jmoćnija kritična oblast, iako se za svako θ1 6= θ0 može odrediti najbolja oblast za testi-
ranje H0 (θ = θ0 ) protiv H1 (θ = θ1 ). ✷

3.2.2 Test količnika verodostojnosti

Posmatrajmo, pri ranijim oznakama i pretpostavkama, najopštiji slučaj


testiranja složene nulte hipoteze H0 (θ ∈ Λ), Λ ⊂ Θ protiv takod̄e složene
alternative H1 (θ ∈ Θ \ Λ). Iako direktna primena teoreme Nejman-Pirsona
ovde nije moguća, izložićemo test količnika verodostojnosti, koji koristi ideju
ove teoreme, kao intuitivni test koji se često koristi u rešavanju praktičnih
problema. Pritom, ovaj test koristi osnovne principe MV-metoda tačkastog
ocenjivanja parametara o kome smo govorili ranije, a koje sada primenjujemo
na sledeći način.
Za funkciju verodostojnosti L(θ) = L(θ; x1 , . . . , xn ) realizovanog uzorka
x = (x1 , . . . , xn ) uočimo statistike

b = max L(θ; x1 , . . . , xn ),
L(Λ) b = max L(θ; x1 , . . . , xn ).
L(Θ)
θ∈Λ θ∈Θ

Izraz
b
L(Λ)
Q(x1 , . . . , xn ) = (3.6)
b
L(Θ)
naziva se količnik verodostojnosti i predstavlja uopštenje istoimenog po-
jma koji smo definisali ranije. Primetimo da statistika Q(X1 , . . . , Xn ) uz-
ima vrednosti iz intervala [0, 1], pri čemu je u slučaju validnosti hipoteze
H0 ”za očekivati” da je Q ≈ 1. Naime, tada je stvarna vrednost parametra
θ0 ∈ Λ, pa su obe MV-ocene L(Λ) b i L(Θ) b ”bliske” med̄usobom. S druge
strane, manje vrednosti za Q(x1 , . . . , xn ) ukazuju na to da je prava vrednost
72 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

parametra θ0 ∈ / Λ, tj. one će biti kritične za hipotezu H0 . Zato će kritična
oblast testa količnika verodostojnosti biti oblika

C = {(x1 , . . . , xn ) | Q(x1 , . . . , xn ) ≤ kα } ,

gde je kα tzv. kritična vrednost testa. Kako ovde verovatnoća greške


prve vrste zavisi od θ ∈ Λ, kritičnu vrednost kα odred̄ujemo iz uslova

sup Pθ {Q(X1 , . . . , Xn ) ≤ kα } = α. (3.7)


θ∈Λ

Ovako formulisan test količnika verodostojnosti, iako nije strogo zasno-


van, obično daje dobre rezultate u nekim praktičnim primenama. O tome
govori sledeća ilustracija.
Primer 3.2.3. Neka je obeležje X : N (µ, σ 2 ), gde su µ i σ 2 nepoznati parametri. Te-
stirajmo, na osnovu realizovanog uzorka x = (x1 , . . . , xn ), hipotezu H0 (µ ≤ µ0 ) protiv
H1 (µ > µ0 ). U skladu sa prethodnim principima, formiramo količnik verodostojnosti

max L(µ, σ; x1 , . . . , xn )
µ≤µ0
Q(x1 , . . . , xn ) = , (3.8)
max L(µ, σ; x1 , . . . , xn )
µ∈R

gde je ( n )
1 X (xi − µ)2
L(µ, σ; x1 , . . . , xn ) = √ exp − .
(σ 2π)n i=1
2σ 2
Odavde dobijamo
( n
)
X (xi − µ)2
max √1 exp −
µ≤µ0 (σ 2π)n 2σ 2
i=1
Q(x1 , . . . , xn ) = ( n
),
X (xi − µ)2
max (σ √12π)n exp −
µ∈R
i=1
2σ 2

pa ostaje, kao poseban problem, nalaženje maksimuma koji se javljaju u datom količniku.
Ekstremum u imeniocu nalazi se standardnim postupkom maksimalne verodosto-
jnosti, tj. nalaženjem parcijalnih izvoda odgovarajuće funkcije verodostojnosti po µ, σ
i njihovim izjednačavanjem sa 0 (videti, recimo, zadatak 2.8). Na taj način, dobijaju se
ocene v v
u n u n
u1 X u1 X
µ
b = xn , σ
b= t b) = t
(xi − µ 2 (xi − xn )2 = S n .
n i=1 n i=1

S druge strane, odred̄ivanje maksimuma u brojiocu količnika verodostojnosti uslovl-


jeno je tačnošću hipoteze H0 , odnosno uslovom µ ≤ µ0 . Stoga i MV ocena za µ, koju
označimo sa µ bH0 , mora zadovoljavati uslov µ bH0 ≤ µ0 . Sada, možemo razlikovati dva
slučaja:
(i) Ako za sredinu uzorka važi xn ≤ µ0 , onda je opravdano primeniti isti postupak
kao i u prethodnom odred̄ivanju maksimuma brojioca količnika verodostojnosti. Dakle,
Teorema Nejman-Pirsona i njene posledice 73

ovde nalazimo iste ocenjene vrednosti


v
u n
u1 X
µ
b H0 = x n , σ
b H0 =t (xi − xn )2 = S n .
n i=1

(ii) Ako je xn > µ0 , onda je funkcija verodostojnosti L(µ, σ) strogo rastuća po µ na


intervalu (−∞, µ0 ]. (Proverite!) Tada se kao MV-ocene za µ i σ dobijaju
v
u n
u1 X
µbH0 = µ0 , σb H0 = t (xi − µ0 )2 .
n i=1

Na ovaj način, zamenom dobijenih ocena u (3.8), količnik verodostojnosti postaje



 1, xn ≤ µ0

  n  n2

 X

  2
(xi − xn ) 
Q(x1 , . . . , xn ) =  i=1 

   , xn > µ0 .

 X n 

  2
 (xi − µ0 )
i=1

Najzad, primenom jednakosti (3.7) kritičnu oblast C veličine α, odnosno odgovarajuću


kritičnu vrednost testa, nalazimo iz uslova
 n  n2 n
X 2
X
 (xi − xn )  (xi − µ0 )2
 i=1  i=1
Q(x1 , . . . , xn ) ≤ kα ⇐⇒   ≤ kα ⇐⇒ ′
≥ kα
X n  Xn
 2 2
(xi − µ0 ) (xi − xn )
i=1 i=1

n
X n
X
(xi − xn + xn − µ0 )2 (xi − xn )2 + n(xn − µ0 )2
i=1 ′ i=1 ′
⇐⇒ n ≥ kα ⇐⇒ n ≥ kα
X X
(xi − xn )2 (xi − xn )2
i=1 i=1

(xn − µ0 )2 ′ xn − µ0 ′′
⇐⇒ 1+ n ≥ kα ⇐⇒ v ≥ kα
1 X u X n
(xi − xn ) 2 u1
n i=1 t (xi − xn )2
n i=1

xn − µ0 √
⇐⇒ n − 1 ≥ cα ⇐⇒ tn−1 ≥ cα .
Sn
Dakle, kritična oblast testa je C = [cα ; +∞), pri čemu statistika testa, pod prepostavkom
tačnosti hipoteze H0 , ima Stjudentovu tn−1 raspodelu. (Čitaocu skrećemo posebnu pažnju
na ovaj rezultat, jer ćemo ga koristiti kasnije kod parametarskih testova.) ✷

Na kraju ovog odeljka navodimo sledeći rezultat koji opisuje graničnu


raspodelu količnika vredostojnosti.
74 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

Teorema 3.2.2. Neka uzorak X = (X1 , . . . , Xn ) ima zajedničku gustinu


raspodele zadanu funkcijom verodostojnosti L(θ), gde je θ ∈ Θ ⊆ Rm i
neka je Λ ⊂ Θ k-dimenzionalna oblast povoljnih parametara za hipotezu
H0 (θ ∈ Λ). Tada, za dovoljno veliko n, statistika

b
L(Λ)
−2 ln Q(X1 , . . . , Xn ) = −2 ln
b
L(Θ)

ima približno χ2 raspodelu sa m − k stepeni slobode.

3.3 Parametarski testovi

Ranije smo već naveli da je osnovna karakteristika parametarskih testova


pretpostavka o numeričkoj vrednosti parametra θ. Još jedna njihova bitna
osobina jeste da raspodela test statistike bitno zavisi od raspodele obeležja
na osnovu koga se formira uzorak. Ovde razmatramo najjednostavniji slučaj
parametarskog testiranja kod tzv. jednodimenzionalnog parametra θ ∈ R,
odnosno nekoliko važnijih parametarskih testova zasnovanih, pre svega, na
testu količnika verodostojnosti koji smo prethodno opisali. Osnovni princip
parametarskog testiranja razmotrimo najpre na jednoj od čestih, tipičnih
sutuacija.
Neka je, recimo, parametrski prostor Θ = R, pri čemu testiramo prostu
hipotezu H0 (θ = θ0 ) nasuprot složene alternative H1 (θ 6= θ0 ). Pretpo-
stavimo, dalje, da na osnovu uzorka X = (X1 , . . . , Xn ) možemo naći ”do-
bru” ocenu nepoznatog parametra, koju označimo sa θbn = Φ(X). U slučaju
tačnosti nulte hipoteze, za realizovan uzorak x = (x1 , . . . , xn ), odgovarajuća
vrednost ocene ϑbn = φ(x1 , . . . , xn ) biće ”blizu” stvarne vrednosti parametra
θ = θ0 . Dakle, značajnija odstupanja vrednosti ϑbn i θ0 biće kritične za nultu
hipotezu, pa kritična oblast ovog testa ima oblik
n o
n b
C = x ∈ R : ϑn (x) − θ0 ≥ kα .

Ovde je, kao i obično, kα kritična vrednost testa koju odred̄ujemo iz uslova
n o

Pθ0 θ̂n (X) − θ0 ≥ kα = α,

gde je α nivo značajnosti datog testa.


Parametarski testovi 75

Sličan postupak se primenuje i u slučaju tzv. jednostranih testova, re-


cimo prilikom testiranja H0 (θ ≤ θ0 ) protiv H1 (θ > θ0 ). Ovde će kritična
oblast biti zadana u obliku skupa (videti primer 3.2.3)
n o
C = x ∈ Rn : ϑbn (x) − θ0 > kα ,

a detaljnije izvod̄enje ove činjenice ostavljamo čitaocu za samostalni rad. U


daljem delu opisaćemo neke od najjednostavnijih parametarskih testova, pre
svega testove srednje vrednosti i parametra binomne raspodele.

3.3.1 Testiranje srednje vrednosti

Neka je µ = E(X) nepoznata srednja vrednost (matematičko očekivanje)


obeležja X za koje pretpostavimo da, aproksimativno, ima normalnu N (µ, σ 2 )
raspodelu. Tada, u zavisnosti od načina izbora hipoteza, možemo razlikovati
nekoliko načina testiranja srednje vrednosti µ:
(a) Testira se hipoteza H0 (µ = µ0 ), protiv alternative H1 (µ 6= µ0 );
(b) Testira se hipoteza H0 (µ ≤ µ0 ), protiv alternative H1 (µ > µ0 );
(c) Testira se hipoteza H0 (µ ≥ µ0 ), protiv alternative H1 (µ < µ0 ).
Prvi oblik testiranja pod (a) zvaćemo dvostranim, a ostala dva jednostranim
testovima srednje vrednosti. Kao i ranije, svi testovi srednje vrednosti µ
zasnovani su na njenoj oceni, sredini uzorka X n , odnosno njenoj realizaciji
xn .
Razmotrimo najpre slučaj kada je disperzija σ 2 obeležja X poznata.
Koristeći ranije navedeni
 postupak standardizacije statistike X n , koja ovde
σ2
ima (približno) N µ, n raspodelu, kao statistika testa uzima se

X n − µ0
Z= √ .
σ/ n
Ukoliko je hipoteza H0 tačna, raspodela ove statistike je takod̄e normalna
N (0, 1) raspodela. Tada, u zavisnosti od vrste testa, odnosno izbora alter-
nativne hipoteze, kritičnu oblast odred̄ujemo na sledeći način:

H0 H1 Kritična
oblast
za H0
xn −µ0
µ = µ0 µ 6= µ0 σ/ n ≥ zα/2

xn −µ .
µ ≤ µ0 µ > µ0 √ 0 ≥ zα
σ/ n
xn −µ
µ ≥ µ0 µ < µ0 √ 0 ≤ −zα
σ/ n
76 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

Kritična vrednost zα/2 za testiranje H0 (µ = µ0 ) protiv H1 (µ 6= µ0 ),


odred̄uje se iz poznatog uslova da veličina kritične oblasti, pri uslovima
validnosti H0 , bude baš α. Ovaj uslov zapisujemo u obliku jednakosti
n o
PH0 |Z| ≥ zα/2 = α,

odakle se dobija da je F (zα/2 ) = 1 − α/2. Slično se odred̄uju i kritične vred-


nost zα , odnosno kritične oblasti kod ostala dva, jednostrana testa (obra-
zložite ih sami, za vežbu). Na slici 3.1 prikazane su konstrukcije oblasti
prihvatanja i odbacivanja nulte hipoteze, zajedno sa kritičnim vrednostima,
kod sva tri gore navedena testa.

Slika 3.1: Testiranje srednje vrednosti µ u slučaju dvostranog testa (a) i jednos-
tranih testova (b) i (c).

Primer 3.3.1. Proizvodač guma tvrdi da je prosečan vek trajanja njegovih prozvoda
veći od 40 000 km, uz odstupanje od 5 000 km. U uzorku od 150 guma prosečna dužina
pred̄enog puta iznosi 40 700 km. Ispitati sa rizikom od 0,05 tvrdnju proizvodača.

Rešenje: Formulišimo najpre odgovarajuće hipoteze:


H0 (µ ≤ 40 000): vek trajanja guma nije veći od 40 000 km,
H1 (µ > 40 000): vek trajanja guma jeste veći od 40 000 km (tvrdnja proizvod̄ača).
Kako je, na osnovu datih podataka, n = 150, xn = 40 700 i σ 2 = 5 000, realizovana
vrednost statistike testa glasi
40 700 − 40 000
z= q ≈ 1, 71.
2 500
150

S druge strane, imamo da je α = 0, 05, pa iz uslova F (zα ) = 1 − α = 0, 95 i Tablice 2.


nalazimo zα = 1, 645. Dakle, važi

z = 1, 71 > zα = 1, 645,

pa hipotezu H0 odbacujemo. Dakle, uz rizik od 0,05 prihvata se tvrdnja proizvod̄ača da


prosečan vek trajanja guma jeste veći od 40 000 km. ✷
Parametarski testovi 77

U slučaju kada disperzija obeležja X, čija se srednja vrednost proverava,


nije poznata, koristi se statistika
X n − m0 √
tn−1 = n − 1. (3.9)
Sn
Ova statistika, kao što smo već naveli ranije, ima Stjudentovu tn−1 raspodelu
koju i koristimo prilikom odred̄ivanja kritičnih vrednosti i kritičnih oblasti
datog testa. Samo pravilo testiranja je potpuno analogno kao u prethodnim
testovima srednje vrednosti, tj. kritične oblasti veličine α odred̄ujemo kao
u narednoj tabeli:

H0 H1 Kritična
oblast
za H0
xn√−µ0
µ = µ0 µ 6= µ0 sn / n−1 ≥ tn−1;α/2
xn√
−µ0 .
µ ≤ µ0 µ > µ0 sn / n−1
≥ tn−1;α
xn√−µ0
µ ≥ µ0 µ < µ0 sn / n−1
≤ −tn−1;α

Primer 3.3.2. Prost slučajan uzorak od 26 kugličnih ležajeva dao je sledeće rezultate:

Prečnik (mm) Broj ležajeva


do 1 5
(1,2] 8
(2,3] 10
(3,4] 3
P
26

Sa pragom značajnosti α = 0, 01 proverimo hipotezu da prosečan prečnik kugličnih ležajeva


iznosi 2mm.

Rešenje: U ovom slučaju testiramo hipotezu H0 (µ = 2) protiv alternative H1 (µ 6= 2).


Kako sredina i disperzija uzorka, redom, glase
1
x26 = (0, 5 · 5 + 1, 5 · 8 + 2, 5 · 10 + 3, 5 · 3) = 1, 923
26
1
s226 = (0, 52 · 5 + 1, 5 · 8 + 2, 5 · 10 + 3, 5 · 3) − x226 = 1, 042,
25
realizovana vrednost test statistike je
1, 923 − 2 √
t25 = √ 25 = −0, 377.
1, 042
S druge strane, kritična vrednost testa iznosi tn−1;α/2 = t25; 0,05 = 2, 787, pa je kritična
oblast
C = (−∞; −2, 787] ∪ [2, 787; +∞).
Očito, važi t25 6∈ C, tj. hipoteza H0 se prihvata i uz rizik 0,01 tvrdimo da prosečan prečnik
kugličnih ležajeva zaista iznosi 2mm. ✷
78 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

Napomena 3.3.1. Naglasimo, na kraju ovog odeljka, da se kod uzoraka


većeg obima, primenom centralne granične teoreme, Stjudentova statistika
može aproksimirati statistikom

X n − m0 √
Z= · n
Sn

koja ima približno N (0, 1) raspodelu. Postupak testiranja tada se vrši pri-
menom ranije navedenog Z-testa. U praksi se ova aproksimacija obično
primenjuje za uzorak čiji je obim n ≥ 30.

3.3.2 Testiranje parametra binomne raspodele

Ovde, u kratkim crtama, opisujemo algoritam testiranja hipotetičke vred-


nosti verovatnoće p = p0 sa kojom se realizuje neki dogad̄aj A. Ako se re-
alizacije ovog dogad̄aja registruju na uzorku obima n, njihov ukupan broj
predstavlja realizaciju slučajne promenljive Sn : B(n, p). Slično kao kod
testova srednje vrednosti, i ovde se mogu posmatrati sledeći testovi:

(a) H0 (p = p0 ) protiv H1 (p 6= p0 );

(b) H0 (p ≤ p0 ) protiv H1 (p > p0 );

(c) H0 (p ≥ p0 ) protiv H1 (p < p0 ).

Prvi test je dvostrani, a ostala dva spadaju u jednostrane testove parame-


tra p0 . Ukoliko je obim uzorka relativno mali, kritične oblasti ovih testova
odred̄uju se, uz primenu ranije navedenih principa testiranja, direktno na
osnovu definicije binomne raspodele. Med̄utim, kada je obim uzorka veliki,
obično za n > 50 i np0 > 10, koristi se Muavr-Laplasova teorema i normalna
aproksimacija binomne raspodele. Preciznije, pri pretpostavci o validnosti
nulte hipoteze, kao statistika testa koristi se
Sn − np0
Z∗ = p
np0 (1 − p0 )

koja ima približno N (0, 1) raspodelu. Tada, kao i kod prethodne grupe
testova, za svaki od testova parametra p = p0 razlikujemo sledeće kritične
oblasti reda α:
Parametarski testovi 79

H0 H1 Kritična oblast za H0
p = p0 p 6= p0 |z ∗ | ≥ zα/2
.
p ≤ p0 p > p0 z ∗ ≥ zα
p ≥ p0 p < p0 z ∗ ≤ −zα

Sam postupak testiranja identičan je Z-testu srednje vrednosti, pa ga ovde


nećemo detaljnije navoditi.
Primer 3.3.3. U uzorku od 32 studenata dobijeni su sledeći podaci o njihovim prosečnim
ocenama na prve dve godine studija:

Prosečna ocena Broj studenata


[6,7) 8
[7,8) 14
[8,9) 6
[9,10] 4

Sa rizikom od 0,05 ispitajmo prihvatljivost pretpostavke da je učešće studenata sa prosečnom


ocenom manjom od 8 veće od 75%.

Rešenje: Ovde imamo n = 32, p0 = 0, 75 (hipotetička vrednost) i Sn = 8 + 14 = 22


(broj studenata sa prosečnom ocenom manjom od osam). Pritom, testiramo hipotezu
H0 (p ≤ 0, 75) protiv alternative H1 (p > 0, 75). Realizovana vrednost test statistike je
22 − 32 · 0, 75
z∗ = √ = −0, 817.
32 · 0, 75 · 0, 25
S druge strane, z0,05 = 1, 645, pa imamo da je C = [1, 645; +∞) kritična oblast datog
testa. Kako je z ∗ < z0,05 , tj. z ∗ ∈
/ C, nulta hipoteza se prihvata. Znači, uz rizik od 0,05
odbacuje se tvrdnja da je učešće studenata sa prosečnom ocenom manjom od 8 veće od
75%. ✷

3.3.3 Testiranje disperzije

Slično kao kod prethodnih parametarskih testova i test koji se odnosi na


testiranje disperzije obeležja sa normalnom raspodelom ima jedan od sledeća
tri oblika:

(a) H0 (σ 2 = σ02 ) protiv H1 (σ 2 6= σ02 );

(b) H0 (σ 2 ≤ σ02 ) protiv H1 (σ 2 > σ02 );

(c) H0 (σ 2 ≥ σ02 ) protiv H1 (σ 2 < σ02 ).


80 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

U najjednostavnijem slučaju, kada je matematičko očekivanje obeležja


µ poznato, koristi se test statistika
n
1 X
χ2n = (Xi − µ)2 ,
σ02 i=1

koja, pod pretpostavkom o tačnosti H0 , ima χ2 raspodelu sa n stepeni slo-


bode. Kritične oblasti veličine α, za različite alternativne hipoteze, date su
u narednoj tabeli:

H0 H1 Kritična oblast za H0
σ 2 = σ02 σ2 =6 σ02 χ2n ≤ χ2n;1−α/2 ∨ χ2n ≥ χ2n;α/2
.
σ 2 ≤ σ02 σ 2 > σ02 χ2n ≥ χ2n;α
σ 2 ≥ σ02 σ 2 < σ02 χ2n ≤ χ2n;α

Grafički prikaz kritičnih oblasti (veličine α) za testiranje nulte hipoteze pro-


tiv alternativnih hipoteza oblika (a) i (b) dat je na slici 3.2.

Slika 3.2: Testiranje disperzije obeležja za velike uzorke

Za istu grupu testova, ali u slučaju nepoznatog matematičkog očekivanja,


koristi se test statistika
2
2 nS n
χn−1 = 2 .
σ0
Ona, kao što znamo, ima χ2 raspodelu sa n − 1 stepeni slobode, pa se u tom
smislu i kritične oblasti razlikuju od gore navedenih samo u broju stepeni
slobode. (Ostavljamo čitaocu da dà odgovarajuća pravila testiranja u sva
tri ranije navedena oblika.)
Primer 3.3.4. Standardi predvid̄aju da težina proizvoda ima disperziju σ 2 = 9.
Slučajni uzorak od 10 proizvoda dao je sledeće rezultate za njihove težine:
58, 56, 57, 52, 62, 55, 60, 55, 61, 58.
Neparametarski testovi 81

Da li se sa pragom značajnosti α = 0, 05 na osnovu ovog uzorka može smatrati da je


prizvodnja u okviru standarda?

Rešenje: Hipoteza H0 (σ 2 ≤ 9), koja odgovara tvrdnji da proizvod odgovara standardu,


testira se protiv alternative H1 (σ 2 > 9). Realizovana vrednost test statistike glasi

ns210 10 1 
= · 522 + 2 · 552 + 562 + 572 + 2 · 582 + 602 + 612 + 622 = 9, 38.
σ2 9 10

Kako je χ29;0,05 = 16, 919, kritična oblast testa je C = [16, 919; +∞). Dakle, 9, 38 ∈
/ C, pa
H0 ne odbacujemo, tj. uz rizik od 5% tvrdimo da proizvod odgovara standardu. ✷

3.4 Neparametarski testovi

Ova grupa statističkih testova, kao što se vidi iz njihovog naziva, zas-
novana je na proverama hipoteza koje se ne odnose direktno na parametre
date raspodele. Još jedna bitna karakteristika neparametarskih testova jeste
da njihove test statistike ne zavise od raspodele posmatranog obeležja, pa
na taj način ovi testovi imaju slabije zahteve od onih koji su u vezi sa
parametarskim testovima. Po svojoj prirodi, dva osnovna problema čijim se
rešavanjem bave ovi testovi jesu provere saglasnosti empirijskih i teoretskih
raspodela, odnosno provere nezavisnosti dva ili više obeležja. To su i osnovni
problemi kojima se bavimo u ovom odeljku.

3.4.1 Test Kolmogorov – Smirnova

Test Kolmogorov-Smirnova je neparametarski test koji se koristi za po-


red̄enje empirijske raspodele uzorka sa nekom teoretskom raspodelom, ili
za upored̄ivanje raspodele dva uzorka. U tu svrhu, koristi se tzv. statis-
tika Kolmogorova koja kvantifikuje rastojanje izmed̄u empirijske funkcije
raspodele uzorka i teoretske raspodele, odnosno empirijske funkcije raspodele
dva uzorka.
Posmatrajmo najpre problem testiranja nulte hipoteze da obeležje X, sa
funkcijom raspodele F (x), ima neku odred̄enu raspodelu, zadatu neprekid-
nom funkcijom raspodele F0 (x), tj.

H0 : F (x) = F0 (x), x ∈ R.
82 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

Ako sada, na osnovu uzorka X = (X1 , . . ., Xn ), odredimo empirijsku funkciju


raspodele
n
1X
Fn (x) = I{Xk <x} , x ∈ R,
n
k=1
za statistiku ovog testa prirodno se uzima
Dn = sup |Fn (x) − F0 (x)|.
x∈R
Zaista, primetimo da u slučaju tačnosti hipoteze H0 , primenom centralne
teoreme matematičke statistike 1.2.2, važi
si
Dn −→ 0, n → ∞.
Dakle, ”velike” vrednosti statistike Dn biće kritične za hipotezu H0 . S druge
strane, zbog neprekidnosti funkcije raspodele F0 (x), na osnovu teoreme 1.2.3
sledi da raspodela statistike Dn ne zavisi od funkcije F0 (x). Na osnovu
realizovanog uzorka x = (x1 , . . ., xn ) tada možemo odrediti realizovanu
vrednost dn statistike Dn , kao maksimum apsolutnih razlika |Fn (x) − F0 (x)|
na segmentima definisanim uzorkom (slika 3.3).

Slika 3.3: Odred̄ivanje vrednosti dn kod testa Kolmogorov–Smirnova

Najzad, pod pretpostavkom da je nulta hipoteza tačna, statistika Dn ima


tzv. raspodelu Kolmogorova, opisanu sledećim tvrd̄enjem koje navodimo
bez dokaza.
Teorema 3.4.1 (Kolmogorov). Ako je funkcija F0 (x) neprekidna, onda
za svako t > 0 važi
+∞
X
√ 2 2
lim P nDn < t = (−1)j e−2j t .
n→∞
j=−∞
Neparametarski testovi 83

Na osnovu prethodne teoreme zaključujemo da se za dovoljno veliko n



funkcija raspodela statistike nDn može aprosimirati funkcijom
+∞
X 2 t2
K(t) = (−1)j e−2j .
j=−∞

Kritičnu vrednost
dn,α = P {Dn ≥ dn,α },
kao granicu kritične oblasti za zadati prag značajnosti α, odred̄ujemo iz
Tablice 6. za vrednosti raspodele Kolmogorova. Dakle, pravilo testiranja i
kritična oblast tada glase:

H0 H1 Kritična oblast za H0
F = F0 6 F0
F = dn ≥ dn,α

Primer 3.4.1. Vek trajanja elektronske cevi posmatran je na uzorku od 60 takvih cevi i
dobijeni su sledeći rezultati:

Vek trajanja (100h) [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30)
.
Broj cevi 11 20 13 6 6 4

Na nivou značajnosti od 1% ispitati da li vek trajanja ovog tipa elektronskih cevi ima
eksponencijalnu raspodelu.

Rešenje: Ako vek trajanja cevi, kao obeležje X, ima eksponencijalnu raspodela, onda je
funkcija raspodele
F0 (x) = 1 − e−λx , gde je λ > 0.
Pritom, na osnovu srednje vrednosti uzorka X n = 11, 2 dobija se ocenjena vrednost
parametra
b = 1 = 0, 083. (Objasnite detaljnije ovaj rezultat!)
λ
Xn
Vrednosti teorijske funkcije raspodele i odstupanja sa empirijskom funkcijom raspodele
Fn (x), dobijene na osnovu datog uzorka, prikazaćemo sledećom tabelom:
P
xi ni i Fn (xi ) F0 (xi ) |Fn (xi ) − F0 (xi )|
2,5 11 11 0,183 0,356 0,173
7,5 20 31 0,517 0,585 0,069
12,5 13 44 0,733 0,733 0,000 .
17,5 6 50 0,833 0,828 0,005
22,5 6 56 0,933 0,889 0,044
27,5 4 60 1,000 0,929 0,071
P
Ovde je ni apsolutna učestanost i-tog intervala, i zbirna učestanost do tog intervala
(uključujući i taj interval), a Fn (xi ) i F0 (xi ) predstavljaju redom vrednosti empirijske i
hipotetičke funkcije raspodele u vrednostima xi . Najzad poslednja kolona sadrži apsolutne
84 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

vrednosti razlika ovih dveju funkcija, pri čemu maksimalna razlika daje vrednost statistike
Kolmogorova
dn = max |Fn (x) − F0 (x)| = 0, 173.
x

Kako je n = 60 i α = 0, 01, iz tablice Kolmogorova nalazimo kritičnu vrednost testa


d60; 0,01 = 0, 21, tj. kritična oblast je C = [0, 21; +∞). Tada, imamo dn = 0, 173 ∈
/ C, pa
se hipoteza H0 prihvata. Dakle, uz rizik od 0,01 tvrdimo da vek trajanja elektronskih cevi
zaista ima eksponencijalnu raspodelu. ✷

Na kraju, opišimo u kratkim crtama i test Kolmogorov-Smirnova za


proveru jednakosti raspodela dva obeležja X i Y . Pretpostavimo da su
F (x) i G(x) funkcije raspodele obeležja X i Y , respektivno, kao i da su data
dva uzorka: prvi uzorak (X1 , ..., Xm ) je iz populacije sa obeležjem X, a drugi
uzorak (Y1 , ..., Yn ) iz populacije obeležja Y . Tada, testiranje hipoteze da su
oba uzorka uzeta iz populacije sa istom raspodelom možemo formulisati na
sledeći način
H0 : F (x) = G(x), ∀ x ∈ R.

Statistika ovog testa će biti

Dmn = sup |Fm (x) − Gn (x)| ,


x∈R

gde su Fm (x) i Gn (x), redom, empirijske funkcije raspodele obeležja X i Y .


Za statistiku Dmn pokazuje se da važi

Teorema 3.4.2 (Smirnov). Ako su funkcija Fm (x) i Gn (x) empirijske


funkcije raspodele dobijene na osnovu dva nezavisna uzorka obima m i n, iz
iste populacije sa obeležjem X, onda za svako t > 0 važi
r 
mn
lim P Dmn < t = K(t).
m,n→∞ m+n

Znači, pod uslovom da je hipoteza H0 tačna, granična raspodela za


Dmn je takod̄e raspodela Kolmogorova, pa je ceo dalji postupak testiranja
identičan kao u prethodnom testu zasnovanom na jednom uzorku. Pravilo
testa i kritična oblast testiranja, ukratko, glase

H0 H1 Kritična oblast za H0
F (x) = G(x) F (x) 6= G(x) mn ≥ d mn
d m+n m+n

Neparametarski testovi 85

3.4.2 Pirsonov χ2 test

Ovu grupu statističkih testova, zasnovanih na statistikama sa χ2 raspode-


lom, uvodi Karl Pirson 1900. godine. Brojni postupci testiranja zasnovani
na Pirsonovoj χ2 statistici ubrajaju se u najstarije metode statističkog za-
ključivanja. Ipak, oni i danas nalaze široku primenu u statističkoj praksi, i
to u različitim oblastima ljudske delatnosti. U principu, postoje dva osnovna
oblika χ2 testova koje sada detaljnije opisujemo.

A. Test oblika raspodele

Pretpostavimo, kao i kod prethodnog testa Kolmogorov-Smirnova, da


je nulta hipoteza prtpostavka da obeležje X ima jednu, potpuno odred̄enu
raspodelu F0 (x), tj.

H0 : F (x) = F0 (x), ∀ x ∈ R.

Naravno, alternativa H1 je da X nema tu raspodelu.1


Sam postupak testiranja sprovodimo tako što skup vrednosti obeležja
X, tj. realnu pravu, u opštem slučaju, podelimo na r ≥ 2 disjunktnih
r
[
podskupova S1 , . . ., Sr takvih da je Si = R. Stavimo sada, pod pret-
i=1
postavkom o validnosti hipoteze H0 , da je

pi = PH0 {X ∈ Si }, i = 1, . . . , r.

Ako su M1 , . . . Mr statistike čije su vrednosti odred̄ene ukupnim brojem ele-


menata uzorka X = (X1 , . . . , Xn ) čija vrednost, redom, pripada skupovima
S1 , . . . , Sr , onda za svako i = 1, . . . , r važi

Mi : B(n, pi ) i M1 + · · · + Mr = n.

Drugim rečima, slučajni vektor (M1 , . . . , Mr ) ima multinomnu M(n; p1 , . . . , pr )


raspodelu. Kako je tada

E (Mi | H0 ) = npi , i = 1, . . . , r,
1
Za razliku od testa Kolmogorov-Smirnova, ovde se ne ograničavamo samo na raspodele
apsolutno-neprekidnog tipa. To predstavlja značajnu razliku izmed̄u ova dva testa.
86 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

kao mera odstupanja raspodele slučajnih promenljivih X1 , . . . , Xr od raspodele


F0 (x) koristi se statistika
r
X (Xi − npi )2
Qr = . (3.10)
npi
i=1
Primetimo da, na osnovu Muavr–Laplasove teoreme, slučajne promenljive
M − npi
p i , i = 1, . . . , r
npi (1 − pi )
imaju aproksimativno N (0, 1) raspodelu. Pokazuje se stoga, opet pod pret-
postavkom da je hipoteza H0 tačna, da statistika Qr konvergira u raspodeli
ka slučajnoj promenljivoj sa χ2r−1 raspodelom, kada obim uzorka n → ∞.
Radi jednostavnosti, dokaz ove činjenice dajemo samo za slučaj r = 2:
Zaista, tada je M2 = n − M1 i p2 = 1 − p1 , pa (3.10) postaje
(M1 − np1 )2 (M2 − np2 )2 (M1 − np1 )2 (n − M1 − n(1 − p1 ))2
Q2 = + = +
np1 np2 np1 n(1 − p1 )
(M1 − np1 )2 (M1 − np1 ) 2 (M1 − np1 ) 2
= + =
np1 n(1 − p1 ) np1 (1 − p1 )
!2
M − np1
= p 1 ∼ χ21 , n → ∞.
np1 (1 − p1 )
Da bi važila gore navedena aproksimacija obim uzorka treba da bude
dovoljno velik, obično n ≥ 50, ali i da za svako i = 1, . . . , r važi npi ≥ 5.
Kritična oblast veličine α dobija se tada iz uslova
α = PH0 {χ2r−1 ≥ χ2r−1,α },
gde se kritična vrednost testa χ2r−1,α nalazi iz odgovarajuće tablice za χ2
raspodelu.

Slika 7.2. Oblasti prihvatanja i odbacivanja nulte hipoteze kod χ2 testa


Neparametarski testovi 87

Pravilo testiranja i kritična oblast χ2 testa oblika raspodele možemo


prikazati grafički, kao na slici 7.2 ili tabelarno, na sledeći način:

H0 H1 Kritična oblast za H0
.
F = F0 6 F0
F = χ2r−1 ≥ χ2r−1;α

Pritom, istaknimo da se ovakav način testiranja saglasnosti sa zadatom


raspodelom češće primenjuje kod raspodela diskretnog tipa. Sam postupak
tada dobija na jednostavnosti, što opet ilustrujemo praktičnom primenom
ovog testa.
Primer 3.4.2. Broj noćenja stranih turista u jednom primorskom regionu prikazan je
tabelom:

Mesec Jun Jul Avgust Septembar Ukupno


.
Broj turista (000) 14 20 32 18 84
Ispitajmo, uz nivo značajnosti od α = 0, 05, da li se broj noćenja turista značajno razlikuje
po mesecima, odnosno mogu li se ona smatrati podjednako zastupljenim.

Rešenje: Neka su Si , i = 1, 2, 3, 4 redom dogad̄aji da je slučajno odabrani turista letovao


tokom jednog od navedena četiri meseca u datom regionu. Nulta hipoteza tada pret-
postavlja podjednaku zastupljenost turista u sva četiri meseca, pa je možemo formulisati
na sledeći način
1
H0 : P (Si ) = pi = , i = 1, . . . , 4.
4
Dakle, testiramo saglasnost uzorka sa diskretnom uniformnom raspodelom, pri čemu je
1
npi = 84 · = 21, i = 1, . . . , 4.
4
Označimo, dalje, sa Mi , i = 1, . . . , 4 broj noćenja turista u odred̄enom mesecu,
odnosno učestalost realizacije dogad̄aja Si . Unutar realizovanog uzorka ove vrednosti
glase
m1 = 14, m2 = 20, m3 = 32, m4 = 18,
pa je realizovana vrednost test statistike
(14 − 21)2 (20 − 21)2 (32 − 21)2 (18 − 21)2
χ24−1 = + + + = 8, 571.
21 21 21 21
S druge strane, iz tablice nalazimo kritičnu vrednost testa χ23;0,05 = 7, 815, tj. kritična
oblast je C = [7, 815; +∞). Kako je 8, 571 > 7, 815 hipotezu H0 odbacujemo. Dakle, sa
rizikom od 5% tvrdimo da postoji značajna razlika u broju noćenja turista po mesecima.

Napomena 3.4.1. Ukoliko neki od parametara raspodele F0 (x) nije una-


pred poznat, već ga treba oceniti na osnovu uzorka, onda za svaki procenjeni
parametar treba smanjiti broj stepeni slobode za 1. Dakle, ako se ocenjuje
ukupno k < r parametara, broj stepeni slobode test statistike sa χ2 raspode-
lom je r − k − 1.
88 Glava 3. TESTIRANJE STATISTIČKIH HIPOTEZA

B. Test nezavisnosti (tabele kontingencije)

Pokazaćemo sada kako se χ2 testom može ispitati nezavisnost dva obeležja


X, Y . Hipoteza H0 po pravilu tvrdi da su X i Y nezavisna obeležja jedne
iste populacije, dok alternativna hipoteza H1 pretpostavlja suprotno, da
obeležja nisu nezavisna. Pri tome, obeležja ne moraju biti numerička (kvan-
titativna). Dovoljno je da registrovane vrednosti za X čine skup od r ra-
zličitih elemenata {x1 , . . . , xr } koje obično nazivamo modalitetima. Slično,
pretpostavimo da vrednosti obeležja Y imaju s različitih modaliteta koje
prikazujemo skupom {y1 , . . . , ys }. Dalje, neka je u uzorku obima n reg-
istrovano nij elemenata kod kojih je X = xi i Y = yj , gde je i = 1, . . . , r,
j = 1, . . . , s. Ove rezultate predstavljamo pomoću tzv. tabele kontingen-
cije:

Y P
X
y1 y2 ... ys
x1 n11 n12 ... n1s n1·
x2 n21 n22 ... n2s n2· .
.. .. .. .. .. ..
. . . . . .
x nr1 nr2 ... nrs nr·
Pr
n·1 n·2 ... n·r n

Ovde smo, dodatno, za svako i = 1, . . . , r i j = 1, . . . , s označili sume


s
X r
X
ni· = nij , n·j = nij ,
j i

pa je, jasno,
r
X s
X
n= ni· = n·j .
i=1 j=1

Ako sada stavimo da je

pij = P {X = xi ∧ Y = yj } , pi· = P {X = xi }, p·j = P {Y = yj },

nultu hipotezu možemo formulisati kao

H0 : pij = pi· p·j , ∀i = 1, . . . , r; ∀j = 1, . . . , s,


Neparametarski testovi 89

dok je alternativna hipoteza

H1 : pij 6= pi· p·j , bar za jedno i, j.

Verovatnoće pi· i p·j mogu se oceniti relativnom učestanošću odgovarajućih


modaliteta u uzorku na sledeći način
ni· n·j
pbi· = , pb·j = .
n n
Tada, u slučaju tačnosti hipoteze H0 , nepoznata verovatnoća pij ocenjuje se
kao n  n  n n
i· ·j i· ·j
pbij = pbi· pb·j = = .
n n n2
Najzad, ocena za očekivani broj parova za koje je X = xi i Y = yj glasi
ni· n·j
n
bij = nb
pij = . (3.11)
n
Odstupanje od nulte hipoteze o nezavisnosti obeležja X, Y prikazuje se,
za svako od polja (i, j), izrazom

(nij − nbij )2
.
n
bij

Odatle, ukupno odstupanje vrednosti modaliteta ova dva obeležja može se


iskazati statistikom
Xr Xs
(nij − nbij )2
Qrs = ,
n
bij
i=1 j=1

za koju se pokazuje da, u slučaju validnosti hipoteze H0 , ima χ2(r−1)(s−1)


raspodelu. Sam postupak testiranja u potpunosti je identičan prethodnom
testu oblika raspodele. Dakle, H0 se prihvata ako za realizovani uzorak važi

χ2(r−1)(s−1) < χ2(r−1)(s−1), α

a u suprotnom se odbacuje. Pravilo testiranja i kritična oblast testa neza-


visnosti, kao i u prethodnom slučaju, može se prikazati tabelom:

H0 H1 Kritična oblast za H0
X i Y su X i Y nisu
χ2(r−1)(s−1) ≥ χ2(r−1)(s−1);α
nezavisna obeležja nezavisna obeležja
90 Glava 7. TESTIRANJE STATISTIČKIH HIPOTEZA

Primer 3.4.3. Rezultat slučajnog uzorka o tačnosti prevoza robe dao je sledeće rezultate:

Vrsta Tačnost prevoza


prevoza Bez kašnjenja Sa kašnjenjem Ukupno
Železnički 65 35 100
Drumski 90 10 100
Vazdušni 85 15 100
Ukupno 240 60 300

Uz rizik α = 0, 02 testirajmo pomoću χ2 testa da li postoji značajna razlika u kašnjenju


izmed̄u različitih načina prevoza robe.

Rešenje: Kao (atributivna!) obeležja X i Y uzmimo, redom, vrstu i tačnost prevoza robe.
Tada hipoteza H0 trvdi da izmed̄u ova dva obeležja ne postoji značajna razlika. Prime-
timo takod̄e da se u tabeli nalaze, kao zbirne vrednosti, apsolutne frekvencije učestalosti
modaliteta oba obeležja:
n1· = n2· = n3· = 100, n·1 = 240, n·2 = 60.
Sada primenom jednakosti (3.11) odredimo očekivani broj parova svih modaliteta:
100 · 240 100 · 60
n
b 11 = n
b 21 = n
b 31 = = 80, n
b 12 = n
b 22 = n
b 32 = = 20.
300 300
Realizovana vrednost test statistike tada glasi
(65 − 80)2 (35 − 20)2 (90 − 80)2 (10 − 20)2
χ2(3−1)(2−1) = + + + +
80 20 80 20
(85 − 80)2 (15 − 20)2
+ + = 21, 875.
80 20
S druge strane, kritična vrednost testa je χ2(3−1)(2−1); 0,02 = 7, 824, tj. kritična oblast je
C = [7, 824; +∞). Dakle, H0 se odbacuje i uz rizik od 0,02 tvrdimo da postoji zavisnost
izmed̄u vrste prevoza i tačnosti prevoza robe. ✷

3.5 Zadaci za vežbu

Zadatak 3.1. Neka je familija dopustivih raspodela data sa N (µ, 1), µ ∈ {0, 1}.
Za nivo značajnosti α = 0.05 i obim uzorka n = 16 odrediti najbolju kritičnu oblast
i grešku druge vrste za testiranje hipoteze H0 (µ = 0) protiv H1 (µ = 1).

Rešenje:

Prema Nejman-Pirsonovoj teoremi, najbolja kritična oblast veličine α data je


sa  L(θ ; X , . . . , X ) 
0 1 n
C = (X1 , . . . , Xn ) ≤k ,
L(θ1 ; X1 , . . . , Xn )
Zadaci za vežbu 91

gde se k odred̄uje iz uslova α = PH0 {(X1 , . . . , Xn ) ∈ C}. Kako je X : N (µ, 1) i


n = 16, količnik verodostojnosti je
( 16
)
−16/2 1X 2
(2π) exp − (xi − 0) ( 16
)
L(0) 2 i=1 X
Q(x1 , . . . , x16 ) = = ( 16
) = exp 8 − xi .
L(1) 1 X i=1
(2π)−16/2 exp − (xi − 1)2
2 i=1

Dalje, imamo
  ( (
X16
) )
L(0)
C = (x1 , . . . , x16 ) : ≤ k = (x1 , . . . , x16 ) : exp 8 − xi ≤ k =
L(1) i=1
( )
16
X n o
= (x1 , . . . , x16 ) : − xi ≤ k1 = (x1 , . . . , x16 ) : xn ≥ c .
i=1

1
Pritom, važi X 16 : N (µ, 16 ), pa imamo

0, 05 = PH0 {(X1 , . . . , Xn ) ∈ C} = PH0 {X 16 ≥ c} =

 
X 16 − 0 c−0
= PH0 1 ≥ 1 = P {Z ≥ 4c} =
4 4

= 1 − F (4c).

Iz jednačine F (4c) = 0, 95 sledi c = 0, 4125, pa je najbolja kritična oblast

C = [0, 4125; +∞).

Na kraju, grešku druge vrste odred̄ujemo kao verovatnoću



β = PH1 {(X1 , . . . , X16 ) ∈
/ C} = PH1 X 16 < c =

 
X 16 − 1 0, 4125 − 1
= PH1 1 < 1 = P {Z < −2, 35} =
4 4

= F (−2, 35) = 0, 00939. ✷

Zadatak 3.2. Imamo na raspolaganju neograničen broj odbiraka nezavisnih signala


sa normalnom N (µ, σ 2 ) raspodelom, gde je σ 2 poznat parametar. Koliko treba uzeti
signala da bismo na osnovu njih testirali hipotezu H0 (µ ≤ 2) protiv H1 (µ > 2), sa
nivoom značajnosti α = 0, 025, ali tako da greška druge vrste za µ = 2, 1 ne bude
veća od 0,05?
92 Glava 7. TESTIRANJE STATISTIČKIH HIPOTEZA

Rešenje:

Neka je n obim uzorka. Kako je uzorak iz normalne raspodele, a σ poznata


vrednost, za statistiku testa uzimamo

Xn − 2
Z0 = √ .
σ/ n

Na osnovu zadatog nivoa značajnosti, na isti način kao u prethodnom zadatku


dobijamo da je kritična vrednost c = 1, 96, tj. da je oblast odbacivanja nulte
hipoteze C = [1, 96; +∞). Verovatnoća greške druge vrste u vrednosti µ = 2, 1
jednaka je PH1 {Z ≤ c}, pri čemu se Z računa kao da je prava raspodela N (2, 1; σ 2 ).
Dakle, imamo

Xn − 2 X n − 2, 1 0, 1 0, 1
Z= √ = √ + √ = Z0 + √ ,
σ/ n σ/ n σ/ n σ/ n

gde Z0 ima N (0, 1) raspodelu. Prema tome,


 
0, 1
P {Z ≤ 1, 96} = P Z0 ≤ 1, 96 − √ ≤ 0, 05,
σ/ n
0,1
odakle nalazimo da je 1, 96 − √
σ/ n
≤ F (0, 05) = −1, 64, tj. n ≥ 362 σ 2 . ✷

Zadatak 3.3. Neka obeležje X ima uniformnu U(0, θ) raspodelu, gde je θ > 0.
Na osnovu uzorka (X1 , X2 , X3 , X4 ) metodom maksimalne verodostojnosti oceniti
parametar θ. Zatim, koristeći dobijenu ocenu kao test statistiku odrediti moć testa
za H0 (θ = 1) protiv H1 (θ 6= 1) ako je kritična oblast C = (−∞, 12 ] ∪ [1, +∞).

Rešenje:

Gustina datog obeležja je


 1
f (x; θ) = θ, 0<x<θ
,
0, inače

pa kao funkciju verodostojnosti dobijamo


4
Y 1
L(θ) = f (xi ; θ) = , 0 < xi ≤ θ, i = 1, . . . , 4.
i=1
θ4

Očito, funkcija L(θ) ima maksimum za najmanje θ, pa kao ocenu maksimalne vero-
dostojnosti uzimamo statistiku

θb = max Xi = Y4 .
i∈{1,...,4}
Zadaci za vežbu 93

Dakle, ocena maksimalne verodostojnosti je najveća statistika poretka, reda n = 4.


Primenom formule (1.9) dobijamo gustinu raspodele za Y4 :
4 3
g4 (y) = y , 0 < y ≤ θ,
θ4
pa moć testa, tj. funkciju M (θ) = Pθ {Y4 ∈ C}, odred̄ujemo razmatrajući sledeće
slučajeve:
Zθ y=θ
1 4 3 y 4
(i) 0 < θ ≤ : M (θ) = Pθ {Y4 ≤ θ} + Pθ {Y4 ≥ 1} = 4 y dy = 4 = 1.
2 | {z } θ θ y=0
0 0
1 
(ii) < θ ≤ 1 : M (θ) = Pθ Y4 ≤ 12 + Pθ {Y4 ≥ 1} = 1
16θ 4 .
2 | {z }
0
y=θ
 1 y 4 15
(iii) θ > 1 : Pθ Y4 ≤ 12 + Pθ {1 ≤ Y4 ≤ θ} = 4
+ 4 =1− .✷
16θ θ y=1 16θ4
1
Zadatak 3.4. Obeležje X date populacije ima gustinu f (x; θ) = 1θ e− θ , gde je
x > 0, θ > 0. Iz populacije je izvučen uzorak obima n.
(a) Koristeći teoremu Nejman-Pirsona naći najbolju kritičnu oblast za testi-
ranje hipoteze H0 (θ ≤ 1) protiv alternative H1 (θ > 1).
(b) Za α = 0, 05, n = 100 i θ = 2 naći verovatnoću nastanka greške druge vrste
datog testa.

Rešenje:

(a) Za uzorak (X1 , . . . , Xn ) funkcija verodostojnosti je


n
1X
− xi
1 θ i=1
L(θ; x1 , . . . , xn ) = e ,
θn
odakle se kao MV-ocena parametra θ dobija θb = xn . Sada, primenivši isti postupak
kao u primeru 3.2.3, dobijamo količnik verodostojnosti
max L(θ; x1 , . . . , xn ) 
0<θ≤1 1, 0 < xn ≤ 1
Q(x1 , . . . , xn ) = =
max L(θ; x1 , . . . , xn ) (xn )n e−n(xn −1) , xn > 1.
θ>0

Odavde, kao i iz uslova


Q(x1 , . . . , xn ) ≤ kα ⇐⇒ n ln xn − n(xn − 1) ≤ ln kα
ln kα
⇐⇒ xn − ln xn ≥ 1 − ,
n
dobijamo kao kritičnu oblast testa C = [cα ; +∞), gde je cα jedinstveno rešenje (po
x) jednačine
ln kα
x − ln x = 1 − .
n
94 Glava 7. TESTIRANJE STATISTIČKIH HIPOTEZA

(b) Na osnovu prethodnog rezultata pod (a), zaključujemo da važi



PH0 X n ≥ cα = α.

Kako je E(X) = θ i D(X) = θ2 , zamenom α = 0, 05, n = 100 i primenom centralne


granične teoreme na sredinu uzorka X n imamo
( )  
X 100 − θ c0,05 − θ X 100 − 1
0, 05 = PH0 θ
≥ θ
= P 1 ≥ 10(c 0,05 − 1)
10 10 10

= P {Z ≥ 10(c0,05 − 1)} = 1 − F (10(c0,05 − 1)),

odakle dobijamo c0,05 = 1, 1645. Sada, za θ = 2 nalazimo verovatnoću greške druge


vrste kao
 
X 100 − 2 1, 1645 − 2
β = P {X 100 < c0,05 | θ = 2} = P 2 < 2 = F (4, 18) = 3, 2·10−5. ✷
10 10

Zadatak 3.5. Rezultati ispita iz Statistike na uzorku od 60 studenata prikazani


su tabelom:
P
Broj poena [50,60) [60,70) [70,80) [80,90) [90,100]
Broj studenata 4 17 24 10 5 60

Za prag značajnosti α = 0, 01 testirati hipotezu da je prosečan broj poena jednak


75, ako je disperzija poznata i iznosi 100.

Rešenje:

Testira se hipoteza H0 (µ = 75) protiv alternativne H1 (µ 6= 75). Kako je


disperzija poznata koristimo Z-test, odnosno statistika testa je

X n − 75
Z= √ .
σ/ n
Sredina uzorka je
1
x60 = (4 · 55 + 17 · 65 + 24 · 75 + 10 · 85 + 5 · 95) = 74, 17,
60
pa je realizovana vrednost test statistike
74, 17 − 75 √
z= 60 = −0, 64.
10
S druge strane kritična vrednost testa je z0,005 = 2, 575, tj. kritična oblast glasi

C = (−∞; −2, 575] ∪ [2, 575; +∞).

Kako je −0, 64 6∈ C, to se hipoteza H0 prihvata. ✷


Zadaci za vežbu 95

Zadatak 3.6. Uzorak obima 25 slučajno uzet iz populacije sa normalnom raspode-


lom dao je sledeće rezultate:
P
xi 8,5 9,0 9,5 10,0 10,5 11,0
ni 3 5 4 6 5 2 25

Sa nivoom značajnosti 0,01 testirati hipotezu H0 (µ ≥ 10) protiv H1 (µ < 10).

Rešenje:

Ovde je disperzija nepoznata, pa je statistika testa slučajna promenljiva sa


Stjudentovom raspodelom

X n − 10 √
tn−1 = n − 1.
Sn

Na osnovu uzorka dobijamo da je x25 = 9, 72 i s225 = 0, 56, tj. realizovana vrednost


test statistike iznosi
9, 72 − 10 √
t24 = 24 = −1, 83.
0, 56
Kritična oblast testa je C = (−∞; −tn−1;α ], gde je −tn−1;α = −t24; 0,01 = −2, 797.
Dakle, t24 ∈
/ C, pa se nulta hipoteza prihvata. ✷

Zadatak 3.7. Uzorak od 250 zaposlenih lica u jednom gradu posmatran je po


godinama starosti:
P
God. starosti 15-24 25-34 35-44 45-54 55-64
Broj radnika 35 75 90 40 10 250

Proveriti uz rizik od 0,02 hipotezu da je učešće radnika starijih od 35 godina veće


od polovine skupa svih zaposlenih.

Rešenje:

Za p0 = 0, 5 testiramo hipotezu H0 (p ≤ 0, 5) protiv H1 (p > 0, 5). Na osnovu


uzorka je broj radnika starijih od 35 godina Sn = 140, pa je realizovana vrednost
test statistike
sn − np0 140 − 250 · 0, 5
z∗ = p =p = 1, 90.
np0 (1 − p0 ) 250 · 0, 5 · (1 − 0, 5)

Kritična oblast testa je C = [2, 05; +∞), pa se prihvata hipoteza H0 . Znači, uz


rizik od 2% smatramo da učešće radnika starijih od 35 godina nije veće od 50%. ✷
96 Glava 7. TESTIRANJE STATISTIČKIH HIPOTEZA

Zadatak 3.8. Anketom se ispituju šanse jednog kandidata na izborima. Med̄u 100
slučajno izabranih glasača njih 55 se izjasnilo da bi glasalo za tog kandidata. Uz
rizik α = 0, 01 testirati hipotezu da će posmatrani kandidat dobiti najmanje 50%
glasova celokupnog biračkog tela.

Rešenje:

Neka je p verovatnoća da je slučajno izabrani glasač simpatizer posmatranog


kandidata. Testiramo hipotezu H0 (p ≥ 0, 5) protiv H1 (p < 0, 5). Realizovana
vrednost test statistike je

55 − 100 · 0, 5
z∗ = √ = 1,
100 · 0, 5 · 0, 5

dok je kritična vrednost testa −z0,01 = −2, 33. Kako je kritična oblast C =
(−∞; −2, 33] i 1 6∈ C, to se hipoteza H0 prihvata. Dakle, uz rizik od 1% tvrdimo
da će kandidat dobiti barem 50% glasova celokupnog biračkog tela. ✷

Zadatak 3.9. Imamo dva instrumenta koji su spolja identični, ali je jedan malo
precizniji, sa σ0 = 1, dok je za drugi σ = 1, 1. Uzimamo nasumice jedan instrument,
koji je dao sledeće rezultate merenja: 24, 25, 26, 25, 25, 24, 25, 27. Ako je poznato
da je tačna mera µ = 25, formulisati test pomoću kojeg bi se moglo zaključiti koji
je instrument izabran (uzeti α = 0, 05).

Rešenje:

Testiramo hipotezu H0 (σ 2 ≤ 1), koja odgovara tvrd̄enju da je izabran prvi


instrument, sa manjom disperzijom, protiv H1 (σ 2 > 1). Realizovana vrednost test
statistike je

1h i
χ28 = 2 2 · (24 − 25)2 + 3 · (25 − 25)2 + (26 − 25)2 + (27 − 25)2 = 7,
σ0

dok je kritična oblast testa C = [15, 507; +∞). Dakle, χ28 ∈


/ C, pa se nulta hipoteza
prihvata, tj. uz rizik od 0,05 smatramo da je izabran prvi instrument. ✷

Zadatak 3.10. Merenjem koeficijenta inteligencije 50 učenika dobijena je uzoračka


disperzija s250 = 2, 45. Testirati hipotezu da je standardno odstupanje veće od 2 za
prag značajnosti α = 0, 05.

Rešenje:
Zadaci za vežbu 97

Testira se hipoteza H0 (σ 2 ≤ 4) protiv hipoteze H1 (σ 2 > 4). Ako je hipoteza


H0 tačna, test statistika ima χ2 raspodelu sa n − 1 = 49 stepeni slobode. Njena
realizovana vrednost na osnovu uzorka je
30 · 2, 45
χ249 = = 30, 625.
4
Kako je χ249;0,05 = 67, 5, to je kritična oblast C = [67, 5; +∞). Dakle, χ249 ∈
/ C, pa
se hipoteza H0 ne odbacuje. ✷

Zadatak 3.11. U periodu od 70 dana posmatran je broj pacijenata u jednoj am-


bulanti i dobijeni su sledeći podaci

Broj pacijenata 0 1 2 3 4 5 6
Broj dana 13 23 17 10 4 2 1

Koristeći test Kolmogorov-Smirnova ispitati saglasnost dobijenih podataka sa Pua-


sonovom raspodelom na nivou značajnosti α = 0, 05.
Rešenje:
Najpre ocenimo parametar λ Puasonove raspodele:

b = xn = 1 (0 · 13 + 1 · 23 + 2 · 17 + 3 · 10 + 4 · 4 + 5 · 2 + 6 · 1) ≈ 1, 983.
λ
70
Na osnovu toga, za xi = 0, 1, 2, . . . , 6 možemo odrediti vrednosti hipotetičke funkcije
raspodele
X λ bk b
F0 (xi ) = e −λ ,
k!
k<xi

kao i empirijske funkcije raspodele Fn (xi ). Ove vrednosti, zajedno sa apsolutnim


vrednostima razlika F0 (xi ) i Fn (xi ) prikazaćemo sledećom tabelom:
xi 0 1 2 3 4 5 6
ni 13 23 17 10 4 2 1
Fn (xi ) 0,1857 0,5143 0,7571 0,9000 0,9571 0,9857 1,0000
F0 (xi ) 0,1376 0,4106 0,6813 0,8602 0,9489 0,9840 0,9957
|Fn (xi ) − F0 (xi )| 0,0481 0,1037 0,0759 0,0398 0,0083 0,0017 0,0043

Odavde dobijamo dn = 0, 1037, dok je kritična oblast testa C = [0, 160; +∞), pa
hipotezu H0 ne odbacujemo. ✷

Zadatak 3.12. Sledeća tabela prikazuje rezultate testa inteligencije 53 dečaka:

Broj poena [65,75) [75,85) [85,95) [95,105) [105,115) [115,125) [125,135)


Broj dečaka 1 2 10 12 14 11 3
98 Glava 7. TESTIRANJE STATISTIČKIH HIPOTEZA

(a) Ispitati saglasnost ovih podataka sa normalnim zakonom raspodele koristeći


test Kolmogorov–Smirnova sa 1% pragom značajnosti.
(b) Ukoliko se potvrdi saglasnost sa normalnom raspodelom, testirati sa istim
nivoom značajnosti hipotezu da je prosečan IQ dečaka veći od 100.
Rešenje:
(a) Neka je obeležje X koeficijent inteligencije deteta. Testira se hipoteza
H0 : podaci su saglasni sa N (µ, σ 2 ) raspodelom,
pri čemu se parametar µ ocenjuje uzoračkom sredinom, a σ 2 uzoračkom disperzijom.
Tako se dobija µ b2 = 184, 047, dok je kritična oblast C = [0, 23; +∞).
b = 105, 28 i σ
Kako 0, 1158 6∈ C, tvrdimo da je koeficijent inteligencije normalno raspodeljen na
populaciji dečaka ispitivanog uzrasta.
(b) Za isto obeležje X testiramo hipotezu H0 (µ ≤ 100) protiv H1 (µ > 100).
Iako je disperzija osnovnog skupa nepoznata, zbog velikog obima uzorka koristimo
Z-test, tj. statistiku
X n − 100 √
Z= n.
Sn
Realizovana vrednost ove statistike je z = 2, 33, dok je kritična oblast datog testa
C = [2, 33; +∞). Znači, z ∈ C pa H0 odbacujemo, tj. uz rizik od 1% tvrdimo da
je prosečan IQ dečaka zaista veći od 100. ✷

Zadatak 3.13. Kocka je bačena 120 puta i dobijeni su sledeći podaci


 
1 2 3 4 5 6
.
15 17 14 23 25 26
Primenom χ2 -testa sa nivoom značajnosti 0,05 testirati hipotezu o ispravnosti
kocke.
Rešenje:
Ukoliko je tačna hipoteza H0 : ”kocka je ispravna”, onda su očekivane verovatnoće
pojave brojeva od 1 do 6 uniformno raspodeljene, tj. važi
1
pi = , i = 1, . . . , 6.
6
Sada, za n = 120, α = 0, 05 i r = 6 odredimo vrednost test statistike
(15 − 20)2 (17 − 20)2 (14 − 20)2 (23 − 20)2
χ25 = + + + +
20 20 20 20
(25 − 20)2 (26 − 20)2
+ + = 6.
20 20
Kako je kritična vrednost testa χ25;0,05 = 11, 07, tj. C = [11, 07; +∞), hipoteza o
ispravnosti kocke se ne odbacuje. ✷
Zadaci za vežbu 99

Zadatak 3.14. Novčić se baca 100 puta i registruje broj pojavljivanja grba i pisma.
(a) Primenom χ2 -testa testirati hipotezu da se grb i pismo podjednako često
pojavljuju, ako se 45 puta pojavio grb, a 55 puta pismo. (Za nivo značajnosti uzeti
0,01.)
(b) Koji je minimalni broj pojavljivanja grba pri kome nema razloga za odbaci-
vanjem hipoteze pod (a).

Rešenje:

(a) Obim uzorka je n = 100, broj stepena slobode je r − 1 = 1. Kako se grb


pojavio 45, a pismo 55 puta imamo da je

(45 − 50)2 (55 − 50)2


χ21 = + = 1.
50 50
S druge strane χ21;0,01 = 6, 635, pa nema razloga za odbacivanje hipoteze o is-
pravnosti novčića.
(b) Treba odrediti najmanji prirodan broj m takav da je

(m − n2 )2 (100 − m − n2 )2
n + n < 6, 635.
2 2

Odavde dobijamo m = 38. ✷

Zadatak 3.15. Koristeći χ2 test sa pragom značajnosti α = 0, 05 proveriti da li


su sledeći podaci
xi 0 1 2 3 4
mi 7 12 13 8 10
saglasni sa hipotezom da se radi o uzorku iz populacije sa raspodelom
 
0 1 2 3 5
X: a 3−a a a 25−17a .
10 8 4 5 40

Rešenje:

Pri pretpostavci o tačnosti nulte hipoteze funkcija verodostojnosti obeležja X


glasi

L(a) = [P (X = 0)]7 [P (X = 1)]12 [P (X = 2)]13 [P (X = 3)]8 [P (X = 4)]10 ,


 a 7  3 − a 12  a 13  a 8  25 − 17a 10
L(a) = ,
10 8 4 5 40
odnosno

lnL(a) = −99ln 2 − 20ln5 + 28lna + 12 ln(3 − a) + 10 ln(25 − 17a),


100 Glava 7. TESTIRANJE STATISTIČKIH HIPOTEZA

Rešavajući jednačinu, ∂ ln∂a


L(a)
= 0, dobijamo dva rešenja a1 ≈ 1, 00 i a2 ≈ 2, 44.
Kako mora biti 25 − 17a > 0 uzimamo da je a ≈ 1. Dakle, raspodela datog obeležja
je  
0 1 2 3 5
X: 1 1 1 1 1 .
10 4 4 5 5
odnosno imamo da je
xi 0 1 2 3 4
mi 7 12 13 8 10
pi 0,1 0,25 0,25 0,2 0,2
Tada, realizovana vrednost statistike testa iznosi
4
X (mi − npi )2 (7 − 5)2 (12 − 7, 5)2 (13 − 7, 5)2
χ25−1−1 = = + +
i=0
npi 5 7, 5 7, 5
2
(8 − 1) (10 − 1)2
+ + = 137, 53.
1 1
Kako je χ23 > χ23;0,05 = 7, 815, to hipotezu H0 odbacujemo. ✷

Zadatak 3.16. Ispitivanje uticaja odred̄enih vrsta lekova na zdravlje bolesnika


dalo je sledeće rezultate:
Vrsta Stanje bolesnika
leka Nisu ozdravili Delimično ozdravili Ozdravili
A 12 10 18
B 15 14 11
C 10 8 12
D 3 7 5
Da li se, uz rizik α = 0, 02 može smatrati da način lečenja odred̄enom vrstom leka
utiče značajno na zdravlje bolesnika?
Rešenje:
Testiramo hipotezu H0 da su način lečenja (X) i stepen ozdravlje bolesnika
(Y ) nezavisna obeležja. Kako se med̄u podacima nalaze oni sa ”malim” očekivanim
frekvencijama, tj. oni za koje je nbij < 5, izvršićemo njihovo pregrupisavanje na
sledeći način:
Y P
X nij n
bij nij n
bij nij n
bij
A 12 12,8 10 12,48 18 14,72 40
B 15 12,8 14 12,48 11 14,72 40
C, D 13 14,4 15 14,04 17 16,56 45
P
40 39 46 125
Zadaci za vežbu 101

Realizovana vrednost test statistike je

(12 − 12, 8)2 (10 − 12, 48)2 (17 − 16, 56)2


χ24 = + + ···+ = 2, 99,
12, 8 12, 48 16, 56

dok je kritična vrednost testa χ24;0,025 = 11, 668. Dakle, H0 se ne odbacuje, tj. uz
navedeni rizik tvrdimo da način lečenja ne utiče značajno na zdravlje bolesnika. ✷

Zadatak 3.17. U sledećoj tabeli data je klasifikacija 6 800 osoba prema boji kose
i boji očiju:

Boja kose
Boja očiju svetla smed̄a crna rid̄a Ukupno
tamne 115 438 288 16 861
plave 1 768 807 189 43 2 807
zelene 946 1 387 746 53 3 132
tamne 115 438 288 16 861
Ukupno 2 829 2 632 1 223 116 6 800

Pri unošenju brojeva u tabelu jedan podatak je pogrešno upisan. Smatrajući da


su podaci na marginama tačni, otkriti gde je greška i ispraviti je. Zatim testirati
hipotezu o nezavisnosti boje kose i boje očiju, sa nivoom značajnosti 0,01.

Rešenje:

Pogrešno je upisan broj 16 (tamne oči rid̄a kosa) i treba da bude 20 (na osnovu
povere zbirova po vrstama i kolonama). Hipoteza H0 se odbacuje. ✷
102 Glava 7. TESTIRANJE STATISTIČKIH HIPOTEZA
Glava 4

RGRESIJA &
KORELACIJA

4.1 Pojam linearnog regresionog modela


Osnovni problem u kvantitativnom opisivanju ekonomskih pojava je izbor promenljivih
parametara koji su važni za opisivanje problema koji se razmatra kao i relacije ko-
jima se uvedeni parametri tj. promenljive mogu medjusobno povezati. U opštem
slučaju, relacije koje povezuju jednu promenljivu Y koja se naziva zavisna ili ona
koja se posmatra tj. meri sa, u principu većim brojem nezavisnih ili kontrolisanih
promenljivih Xi , i = 1, 2, . . . , k, na osnovu relacije
Y = f (Xi , βi ) (4.1)
naziva se regresioni model. Ovde su βi tzv. parametri modela , koje treba
odrediti na osnovu zadatih, emirijskih podataka.
Najednostavniji slučaj jeste relacija koja povezuje jednu yavisnu i jednuneza-
visnu promenljivu. Broj parametara u relaciji ovakvog tipa je obi;no dva i ovde
¸’emo ih označavati sa β0 i β1 . Da bi se mogla definisati ovakva relacija potreban
je pre svega skup (Xi , Yi ) gde i = 1, 2, . . . , n parova koji čine oobvservacije vrend-
nosti promenljivih, i to n parova ukupno. Drugo, matematički oblik relacije koja
povezuje zavisnu i nezavisnu promenljivu kao i parametre β0 i β1 u opštem slučaju
ima oblik:
Y = f (X, β0 , β1 ) (4.2)
gde veza može biti linearna ili nelinearna bilo po promenljivima ili po parametrima.
Dakle, zavisno od vrste zavisnosti promenljivih u relaciji (4.2), možem govorito o
linearnoj ili nelinaernoj regresiji. Mi smo se u ovom izlaganji predelili samo za
linerani model regresije.1 Na kraju, potrebna nam je i Statistička ocena parametara
β0 i β1 koji se pojavljuju u formuli (4.2).
1
Ako čitaoce zanima više saznanja o regresionoj analizi uopšte, upućujemo ih na liter-
aturu koja se nalazi na kraju knjige

103
104 Glava 4. Regresija & korelacija

Osnovni zadtak ekonometrije je da statističkim metodama odredi ocenu param-


etar β0 i β1 u relaciji (4.2). Takodje, zadatak ekonometrije je da izvrši testiranje
relacije (4.1) ili (4.2) sa ocenjenim vrednostima parametara u odnosu na relane po-
datke i na taj način doprinese bližem razumevanju posmatrane ekonomske pojave.
Regresioni modeli kod koji se relacija (4.2) može izraziti kao linerana funkcija
promenljive X i parametara β0 i β1 oblika
Y = β0 + β1 X (4.3)
ili u obliku
Y = β0 + β1 X + ε (4.4)
nazivaju se linearni regresioni modeli.
Pored svoje analitičke jednostavnosti , linerani regresioni modeli su zgodni za
opisivanje ekonomskih pojava iz više razloga: prvo, sasvim dobro je poznato da se
skoro svaka funkcija može aproksimirati u dovoljno malom intrvalu. Ova činjenica
ne veži jedino za neke funkcije koje i nisu od praktičnog značaja za ekonomske
analize. Drugo, nije redak slučaj da linearna zavisnost zaista i postoji u ponašanju
nekih pojava. Treće, u ekonomskoj analizi sasvim je prirodno studiju problema
početi sa najednostavnijom predpostavkom koja je saglasna sa opštom teorijom.
Četvrto, osim navedenog, u prilog opravdanosti linearnog modela ide i činnjeica da
je zajednička relacija velikog broja pojedinaca linearnija od reakcija jednog pojed-
inca. I na kraju izvesna klasa nelinearnih modela može se transformisati u linearne
regresione modele.
Veze kod kojih pri porastu odnosno opadanju nezavisne promenljive X istovre-
meno raste odnosno opada vrednost zavisno promenljive Y naziva se direktna
regresiona analiza. Sa druge strane, ako porastu jedne promenljive odgovara
opadanje druge , tada se radi o inverznoj vezi. Osnovni cilj regresije da se
utvrdi priroda veze, pomoću regresionog modela (4.3) odnosno (4.4). Prvi korak
u analizi zavisnosti takvih pojava jeste da empirijske parove podataka prikažemo
ografički.Date podatke sredjujemo u okviru tabele, a zatim konstruišemo grafik koji
pokazije zavisnost uvedenih veličina.
Primer 4.1.1. Dati su podaci o poslovanju jednog preduzeća koji se odnose na
ostvareni profit i troškove za reklamu u predhodnih 10. godina.
Godina 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
Profit 325 444 268 605 569 190 946 75 100 661
Reklame 51 47 44 50 6 56 45 71 38 52 61

Nacrtati dijagram zavisnosti profita u odnosu na troškove za reklamu i na os-


novu njega utvrditi eventualno postojanje, oblik i inenzitet veze izmedju promenljivih.
Rešenje. Prvo uvedimo sledeće oznake. Neka promenljiva X opisuje troškove
reklame i ona je nezavisno promenljiva veličina. Promenljiva Y opisuje profit i ona
je zavisno promenljiva.
Dijagram zavisnosti, poznat kao dijagram raspršenosti obeležja X i Y , prikazan
je na slici 1. Vidimo da je očigledna njihova linearna zavisnost koja sugeriše na
postojanje linearne direktne veze izmedju ostvarenog profita i troškova koje
preduzeće izdvaja za reklamu svojih proizvoda.
Metod najmanjih kvadrata 105

Slika 4.1: Dijagram raspršenosti

4.2 Metod najmanjih kvadrata


Od svih metoda koje mogu koristiti za ocenu parametara lenearnih regresionih
modela tipa (3) ili (4), metoda najmanjioh kvadrata se najčešće koristi. Metod
najmanjih kvadrata sastoji se u minimizaciji sume kvadrata:
n
X n
X
Q= e2i = (Yi − Ŷi )2 (4.5)
i=1 i=1

gde Ŷi , označavaju ocebnjenu vrednost promenljive Yi , koja se dobija na osnovu


regesionogmodela:
Ŷi b0 + b1 X . (4.6)
Veličine b0 i b1 označavaju ocene parametara β0 i β1 dobijen metodom najmanjih
kvadrata, tj. minimizacijom sume (4.5). Veličine

ei = Yi − Ŷi (4.7)

označavaju ocenu slučajnih odstupanja εi , ili, tj. razliku izmedju promenljive Yi i


vrednosti ocenjene regresijom Ŷi , i po nekad se naziva rezidualom.
Pri ocenjivanju parametara metodom najmanjih kvadrata polazimo od formule
(4.5), tj. sume kvadrata koja sada ima sledeći oblik
n
X
Q= (Yi − b0 − b1 Xi )2 (4.8)
i−1
106 Glava 4. Regresija & korelacija

Minimiziranje sume (4.5) realizujemo izračunavanjem paecijalnih izvoda po parametrima


b0 i b1 , a zatim ih izjednačimo sa nulom, tj. nakon diferenciranja dobijamao:

n n
!
∂Q X X
= 2 b1 Xi + nb0 − Yi =0 (4.9)
∂b1 i=1 i=1
n n n
!
X X X
= 2 b1 Xi2 + b0 Xi − Xi Yi =0
i=1 i=1 i=1

Diferenciranjem jednačine (4.5) po parametru b0 i nakon sredjivanja dobijamo


sledeću jednačinu:
Xn n
X
Yi = nb0 + b1 Xi . (4.10)
i=1 i=1
Sada, nakon sredjivanja jednačina (4.9) i (4.10), formiramo sledeći sitem jednačina
n
X n
X
Yi = nb0 + b1 Xi (4.11)
i=1 i=1
n
X n
X n
X
Xi Yi = b0 Xi + b 1 Xi2 (4.12)
i=1 i=1 i=1

koji se naziva sistem normalnih jednačina čijim rešavanjem dolazimo do traženih


ocena parametara b1 i b0 . Naime, iz datog sistema za parametar b1 dobijamo sledeću
ocenu:
n
X n
X n
X
n Xi Yi − Xi Yi
i=1 i=1 i=1
b1 = !2 (4.13)
n
X n
X
n x2i − Xi
i=1 i=1

Da odredimo i parametar b0 , tj. njegovu ocenu, definišemo aritmetičke sredine X i


Y na sle deći način:
n
X n
X
Xi Yi
i=1 i=1
X= , Y = . (4.14)
n n
U tom slučaju na osnovu jednačine (7.11) iz sistema normalnih jednačina dobijamo:
Y = b0 + b1 X (4.15)
odnosno regresiona prava prolazi kroz tačku (X, Y ) odredjenu srednjim vrednostima
observacija X i Y . Na osnovu jednačine (4.15) takodje možemo odrediti vrednost
parametra b0 . Naime važi sledeá jednakost:
b0 = Y − b1 X. (4.16)
Metod najmanjih kvadrata 107

Kao ilustraciju napred izloženog navodimo sledeći


Primer 4.2.1. Neka su date dve ekonomske veličine X i Y tako da promenljiva
Y zavisi od promenljive X, čija je medjuzavisnost data u obliku sledeće tabele kao
skup uredjenih parova (X, Y ) diskretnog skupa vrednosti za Y i X

Yi 236 254 267 281 290 311 325 335 355 375 401 431
Xi 257 275 293 309 319 337 350 364 385 405 437 469

R. Na osnovu datih podataka računao potrebne elemente za sistem normalnih


jednačina 7.11 i 7.12, pa dobijamo:

n=12
X n=12
X n=12
X n=12
X
Yi = 3861, Xi = 4200, Xi2 = 1516510, Xi Yi = 1394495,
i=1 i=1 i=1 i=1

kao i odgovarajuče srednje vrednosti za X i Y na osnovu formula (4.14), tj. imamo

X = 350, Y = 321, 75.

Da dobijemo ocenjene vrednosti parametara b0 i b1 koristimo formule (4.13) i


(4.17) na osnovu kojih dobijemo tražene vrednosti:

b1 = 0, 9297, b0 = −3, 0.

Konačno, na kraju, dobijamo traženu jednačinu ocenjene regresione prave koja


glasi:
Y = −3, 0 + 0, 9297X. ✷

4.3 Koeficijenti korelacije i determinacije

Iz dosadašnjeg izlaganja možemo zaključuti da je regresiona analiza moćno sred-


stvo za analizu zavisnosti dve ili više promenljivih. Medjutim, u slučaje vima kada
nije moguće utvrditi eksplicitnu vezu medju promenljivim veliči nama, a koja na
neki način ipak postoji medju njima, u smislu da su im vrednosti promenljivih
ipak u nekoj vezi, ili kao bi smo to matematičkije opisali, vrednosti promenljivih
su korelisane, u tom slučaju kao stepen korelacije tj. povezanost posmatranih
promenljivih veličina koristimo tzv. koeficijenat korelacije. Prema tome, regre-
siona analiza daje analitičku funkciju koja opisuje povezanost posmatranih veličina,
dve ili više njih. Sa druge strane, korelaciona analiza daje jedan broj, tj. ko-
eficijent korelacije, koji svojom numeričkom vrednošću odredjuje meru te zavis-
nosti. Dakle, očigledno je da regresion aanaliza pruža više informacija o ponašanju
i medju yavisnosti promenljivih, pa se na osnovu regresionih rezultata može za-
ključivati o koeficijentu korelacije kao i parametara regresije. Pojam korelacije
dveju promenljivih ilustrovan je na slici (4.2).
108 Glava 4. Regresija & korelacija

Slika 4.2: Dijagram korelisanosti veličina Xi i Yi

Kao mera stepena korelacije promenljivih X i Y može se uzeti suma


n
X
xi yi (4.17)
i=1

gde xi i yi predstavljaju numeričke vrednosti promenljiv ih X i Y i nekom konkret-


nom slučaju. Ukoliko je suma (4.17) pozitivna tada se većina tačaka nalazi u I i III
kvdrantu, što je prikazano na slici (4.2). Akje suma (4.17) negativna tada je većina
tačaka u II i IV kvadrantu. Na kraju, ukoliko je većina tačaka bliska nuli tada su
tačke ravnomerno rasporedjene po svim kvadrantima. Medjutim, numerička vred-
nost sume (4.17) zavisi od broja n tačaka kao i jedinica u kojima se mere vrednosti
promenljivih, zbog čega je u nekom smislu proizvoljna i kao takva nije pogodna
za meru korelacije. Da bi se to izbeglo, uvodi se tzv. Pearsonov koeficijent
korelacije koji je dat sledćom formulom:
n
X
xi yi
i=1
r =v (4.18)
u n n
uX X
t x2 y2i i
i=1 i=1

Na osnovu formule (4.13) kojom se izračunava parametar b1 i formule (4.18)


Metod najmanjih kvadrata 109

dobijamo:
Sy
b1 = r · (4.19)
Sx
gde je v v
uXn uXn
u u
u x2i u yi2
t t
i=1 i=1
Sx = i Sy = . (4.20)
n n
Sada po definiciji regresione prave dobijamo

yi = ybi + ei (4.21)
odakle nakon kvadriranja i sumiranja dobijamo”
n
X n
X n
X n
X
yi2 = ybi 2 + e2i + 2 yi ei , (4.22)
i=1 i=1 i=1 i=1
n
X
medjutim, kako je yi ei = 0 dobijamo da je
i=1
n
X n
X n
X
yi2 = ybi 2 + e2i (4.23)
i=1 i=1 i=1

Sada na osnovu relacije (4.23) možemo zaključiti da se ukupna varijacija vred-


nosti promenljive Y oko njene srednje vrednosti Y može podeliti na dve kom-
ponente. Prva komponenta opisuje varijacije ocenjenih vrednosti Yb oko njihove


srednje vrednosti Yb = Y . Ova komponenta se označava kao opisana linearnim
uticajem promenljive X. Druga komponentaje tzv. rezidualna ili neopisana
varijacija Y koja se pripisuje slučajnim odstupannjima. Odnos opisanog dela i
ukupne varijacije Y odredjuje se na sledeı́ način:
n
X n
X
yb 2 x2i
i=1
n = b2 i=1
n = r2 (4.24)
X X
yi2 yi2
i=1 i=1

i naziva se koeficijenat determinacije, a predstavlja kvadrat koeficijenta ko-


relacije r.
Sad iz jednačina (4.23) i (4.24) dobijamo:
n
X
e2i
i=1
r2 = 1 − n . (4.25)
X
yi2
i=1
110 Glava 4. Regresija & korelacija

Dakle, možemo zaključiti da je maksimalna vrednost koeficijenta determinacije


1. tj. da se koeficijenat korelacije kreće u intervalu izmedju −1 i +1, tj.

−1 ≤ r ≤ +1 . (4.26)

Na osnovu definicije koeficijenta determinacije vidi se da on predstavlja odnos


varijacije promenljive Y opisanih regresionom pravom. Radi ilustracije koristićemo
podatke iz primera (4.2.1) na osnovu kojih prema napred datim formulama izračunavamo
koeficijenat determinacije r, pa dobijamo:

3595, 42
r =√ = 0, 9994 .
3875, 83 · 3339, 02
Kako vrednost koeficijenta determinacije iznosi r = 0, 9994 možemo reći da u
primeru (4.2.1) regresiona prava opisuje 99, 94% varijacija datih podataka promenljive
Y.

4.4 Testiranje regresionih koeficijenata


Statistički testovi se obično rade nakon dobijanja statističkih ocena parametara
regresije, sobzirom da je potrebno utvrditi u kojoj meri ocenjena regresiona prava
odgovara stvarnim podacima. Testiranje pouzdanosti regresije se obavlja na osnovu
tri tipa informacija koje odredjuju efikasnost regresionog modela.
Prvo, a priori informacije čine teorijska ili, iskustvena znanja koja se poseduju
o datoj pojavi koja se opisuje regresionim modelom. Ekonomska teorija je glavni
izvor ovih informacija, koje se odnose pre svega na znak i red veličine parametara.
Na primer, ukoliko je poznato da pozitivne promene nezavisne promenljive uvek
dovode do takodje pozitivnih promena zavisne promenljive, a regresionom analizom
se dobijaja negativna vrednost parametra b1 , u tom slučaju je očigledno da dobijena
regresiona prava zavisnost promenljivih veličina ne opisuje na adekvatan način.
Drugo, direktnim poredjenjem stvarnih vrednosti promenljive Y sa ocenjenim
vrdnostima Yb može se direktno zaključivati o kvalitetu regresione prave.
Treće, takodje je moguće koristiti razne statističke testove koji odredjuju inter-
vale poverenja parametara kao i značajnost odredjenih hipoteza.
Da bi se sproveli statistički testovi potrebno je predpostaviti normalnostt raspodele
slučajnih odstupanja ε čime se implicira i normalnost raspodele regresionih param-
etara.
Dalje polazimo od formule
v
u X
u n 2
un xi
u
(b0 − β0 )u i=1
t= u n (4.27)
σe2 u t
X
X2 i
i=1
Metod najmanjih kvadrata 111

i računamo vrednost parametra t iz formule (4.27) pri čemu se proverava hipoteza


da je vrednost parametra β0 = 0. Predpostavljajući nivo značajnosti η i nalažejem
odgovarajuće vrednosti tn−2 iz Studentove t raspodele sa n − 2 stepena slobode,
dvostrani test hipoteze formuliše se na sledeći način:
1. Ako je |t0 | ≥ t, hipoteza se odbacuje.
2. Ako je |t0 | < t, hipoteza se prihvata.
U praksi se , kao značajni parametri tj. oni koji su dovoljno različiti od nule,
uzimaju oni za koje je |t0 | ≥ 2, 0.
η
Interval poverenja sa granicama poverenja od 100 (1 − ) procenata za param-
2
etar β0 je
tp
b0 ± V (a) . (4.28)
2
Slično se izvodi i statistički test parametra b1 , a za odgovarajući interval se dobija
tp
b1 ± V (b) . (4.29)
2
U izrazima (4.28) i (4.29) odgovarajuće varijanse V (a) i V (b) se sračunavaju sa
ocenjenom vrednošću za varijansu slučajnih odstupanja σe2 .
Radi ilustracije uzmimo opet primer (4.2.1) i sračunamo odgovarajuće varijanse
V (a), V (b) kao i σe2 . N aosnovu datih podataka dobijamo:

44, 76
σe2 = = 4, 476 (4.30)
p 10
V (a) = 3, 49 (4.31)
p
V (b) = 0, 0098 . (4.32)

Sa nivoom poverenja od 95% (η = 0, 05) zaključujemo da se prava vrednost


parametra nalzi u intervalu

β0 = −3, 0 ± 2, 228 · 0, 010 .

Kako ovaj interval uključuje i vrendost 0 sa poverenjem od 95% može se zaključiti


da se prava vrednost parametra b0 ne razlikuje značajno od nule. Slično, 95%
interval poverenja za parametar b1 je

β1 = 0, 928 ± 2, 228 · 0, 010 .


112 Glava 4. Regresija & korelacija
Literatura

[1] Banjević D., Vidaković B. (1989) Verovatnoća i statistika - zbirka rešenih za-
dataka. Naučna knjiga, Beograd.
[2] Božinović M., Stojanović V. (2005) Matematičke metode i modeli u ekonomiji
preduzeća. VEŠ, Leposavić.
[3] Feller W. (1971), An Introduction to Probability Theory and Its Applications.
John Wiley & Sons, New York.
[4] Grinstead C., Snell J. L. (2006), Introduction to Probability. American Math-
ematical Society, Washington.
[5] Hogg R., Craig A. (1965) Introduction to Mathematical Statistics. The Macmil-
lan Company, New York.
[6] Ivković Z. (1976) Teorija verovatnoća sa matematičkom statistikom.
Grad̄evinska knjiga, Beograd.
[7] Mališić J. (2002) Vremenske serije. Matematički fakultet, Beograd.
[8] Mališić J. (1991) Slučajni procesi - teorija i primene. Naučna knjiga, Beograd.
[9] Merkle M. (2002) Verovatnoća i statistika. Akademska misao, Beograd.
[10] Mirković B. (1990) Teorija mera i integrala. Naučna knjiga, Beograd.
[11] Popović B. (2009) Matematička statistika. PMF, Niš.
[12] Popović B. (2003) Matematička statistika i statističko modelovanje. PMF, Niš.
[13] Rajović M., Stanojević D. (2011) Verovatnoća i statistika - teorija i primeri.
Akademska misao, Beograd.
[14] Schmetterer L. (1976) Einführung in die mathematische Statistik. Springer-
Verlag, Wien-New York.
[15] Xirev A. N. (1980), Verotnostnj. Nauka, Moskva.
[16] Walrand J. (2004) Lecture Notes on Probability Theory and Random Processes.
University of California, Berkeley.

113

You might also like