P. 1
statistika

statistika

|Views: 182|Likes:
Published by dimsasko

More info:

Published by: dimsasko on Jul 21, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

01/15/2013

pdf

text

original

STATISTIKA

1. Osnovni pojmovi
Matematiˇcka statistika se bavi prouˇcavanjem skupova sa velikim brojem elemenata, koji su jednorodni
u odnosu na jedno ili viˇse zajedniˇckih kvalitatitvnih ili kvantitativnih svojstava. Kako individualni
sluˇcajevi mogu pokazivati manja ili ve´ca odstupanja od proseˇcnog ili tipiˇcnog, to je neophodno da se
posmatraju u velikom broju, u masi, da bi se otkrilo ono ˇsto je njima opˇste i zakonito - jer se zakonitost
ispoljava u masi.
Predmet ispitivanja Matematiˇcke statistike su skupovi (populacije, mase) ˇciji su elementi objekti i
pojave raznolikog karaktera. Skip elemenata koji posmatramo zove se populacija (ili generalni skup, ili
prostor uzoraka). Kod svakog elementa (statistiˇcke jedinice) posmatramo njegovu odred¯enu numeriˇcku
karakteristiku X, koju nazivamo obeleˇzjem. Ako populaciju posmatramo kao skup Ω elementarnih
dogad¯aja ω, onda je obeleˇzje X = X(ω) numeriˇcka funkcija definisana nad Ω.
Primer 1. Kutija sadreˇzi N kuglica od kojih N · p belih i N · q crnih (p + q = 1). Tih N kuglica u
kutiji ˇcini jednu populaciju. Kao obeleˇzje svakog elementa (kuglice) uze´cemo njenu boju. To nije numeriˇcka
karakteristika, ali moˇze se lalo svesti na takvu. Na primer, stavimo da je obeleˇzje 1 ako je kuglica bela i 0 ako je
crna (kodiranje).
Primer 2. Skup svih seoskih doma´cinstva neke zemlje ˇcini jednu populaciju. Obeleˇzje svakog doma´cinstva
moˇze da bude veliˇcina poseda, broj konja, prinos pˇsenice, itd.
Primer 3. Celokupna proizvodnja fabrike sijalica ˇcini jednu populaciju. Obeleˇzje svake sijalice moˇze, na
primer, da bude ,,duˇzina ˇzivota” izraˇzena u ˇcasovima.
Broj elemenata populacije moˇze da bude konaˇcan ili beskonaˇcan (prebrojiv ili neprebrojiv). Primetimo
da kod svakog elementa moˇzemo da posmatramo ne samo jedno obeleˇzje, ve´c dva ili viˇse istovremeno
(Primer 2). U tom sluˇcaju ponekad je od interesa posmatrati njihovu med¯uzavisnost.
Osnovni problem kojim se Matematiˇcka statistika bavi sastoji se u slede´cem: za datu populaciju
na´ci raspodelu datog obeleˇzja na njenim elementima. U toku statistiˇckog prouˇcavanja mogu se
razlikovati tri etape:
1) statistiˇcko posmatranje;
2) grupisanje i sred¯ivanje podataka;
3) obrada sa nauˇcnom analizom rezultata.
Primer 1’. Zamislimo da nam je nepoznat broj belih i crnih kuglica. Raspodelu obeleˇzja zna´cemo ako
oderdimo broj p jer tada imamo Np belih i N −Np = Nq crnih kuglica.
Primer 2’. Ako je obeleˇzje veliˇcina poseda, raspodelu tog obeleˇzja imamo ako znamo koliko je poseda od 0
do 1 hektara, 1–2 hektara, itd.
Primer 3’. Raspodelu ,,duˇzine ˇzivota” znamo ako nam je poznat procenat proizvedenih sijalica ˇcija je ,,duˇzina
ˇzivota” u odred¯enim granica [a, b] za svako a, b (a < b).
Statistiˇcka ispitivanja mogu se podeliti na dve vrste:
1
2
1) potpuna ispitivanja celokupne populacije;
2) delimiˇcna ispitivanja, odnosno ispitivanje jednog dela populacije (uzorka).
Prva vrsta ispitivanja je vrlo retka u praksi. U ogromnoj ve´cini sluˇcajeva koje sre´cemo u primenama
nije mogu´ce dobiti kompletnu informaciju o raspodeli obeleˇzja u celoj populaciji. Razlog moˇze da leˇzi
u brojnosti populacije, u velikim troˇskovima vezanim sa registrovanjem obeleˇzja kod svakog elementa,
velikim gubitkom vremena, uniˇstavanju elemenata populacije (Primer 3), itd.
Zbog navedenih teˇsko´ca, po pravilu se iz cele populacije uzima jedan deo i to konaˇcan i on se izuˇcava.
Taj deo se zove uzorak. Broj elemenata u uzorku je konaˇcan i zove se obim uzorka. Na izabranom
uzorku regustruje se obeleˇzje kod svakog elementa a zatim se vrˇsi ekstrapolacija na celu populaciju, tj.
dobijena raspodela obeleˇzja proˇsiruje se sa uzorka na ceo skup. Odmah se name´ce pitanje tzv. reprezen-
tativnosti takvog uzorka. Bez matematiˇcke rigoroznosti moˇzemo re´ci da je neki metod uzimanja dela
populacije reprezentativan, ako je kriterijum po kome se uzima taj deo nezavisan od obeleˇzja koje pos-
matramo. Jedan od naˇcina postizanja reprezentativnosti je da taj deo izaberemo sluˇcajno.
Metod sluˇcajnog uzorka sastoji se u tome da se sluˇcajno bira element ω iz Ω i registruje njegovo
obeleˇzje X = X(ω). Dakle, obeleˇzje X je sluˇcajna promenljiva i neka je F(x) njena funkcija raspodele.
Ako vrˇsimo n takvih biranja elemenata, odnosno registrovanja obeleˇzja X, imamo uzorak obima n, tj.
n-dimenzionalnu sluˇcajnu promenljivu (X
1
, . . . , X
n
), gde je X
i
(i = 1, . . . , n) obeleˇzje X u i-tom biranju.
Prost sluˇcajni uzorak je uzorak kod koga su sluˇcajne promenljive X
i
(i = 1, . . . , n) nezavisne
i imaju istu raspodelu kao X. Odred¯ene numeriˇcke vrednosti kojima registrujemo sluˇcajne promenljive
X
i
(i = 1, . . . , n) obeleˇzavamo malim slovima x
i
. n-dimenzionalni vektor (x
1
, . . . , x
n
) baziva se realizo-
van uzorak.
Ocena generalnog skupa (populacije) na osnovu podataka iz uzorka, predstavlja oblik induktivnog
uopˇstavanja: osobine ispitanog dela pripisuju se celini iz koje je uzet. Da bi uzorak dobro reprezentovao
generalni skup, mora da budu ispunjeni slede´ci uslovi:
1) svaki element generalnog skupa mora da ima jednaku ˇsansu da ud¯e u uzorak;
2) uzorak mora da bude dovoljno brojan.
Osnovni zadatak Matematiˇcke statistike jeste da pomo´cu uzorka (X
1
, . . . , X
n
) odredi raspodelu F(x)
obeleˇzja X. Da je to mogu´ce tvrdi centralna teorema statistike (o kojoj ´ce biti reˇci kasnije) pod
uslovom da je n vrlo veliko. Kako u primenama radimo samo sa konaˇcnim obimom uzorka, raspodelu
za X moˇzemo da odredimo samo pribliˇzno, utoliko taˇcnije ukoliko je n ve´ce. U reˇsavanju postavljenog
problema radimo sa funkcijama sluˇcajnog uzorka (X
1
, . . . , X
n
).
Definicija 1. Za dati prost uzorak (X
1
, . . . , X
n
), empirijska funkcija raspodele definiˇse se, za
svako x ∈ R, sa S
n
(x) = k/n, gde je k broj elemenata iz uzorka koji nisu ve´ci od x.
Neka je X
(1)
, X
(2)
, . . . , X
(n)
varijacioni niz, koji ˇcine vrednosti sluˇcajnih promenljivih X
1
, X
2
, . . . , X
n
ured¯ene po veliˇcini od najmanje do najve´ce. Tada se empirijska raspodela moˇze odrediti pomo´cu
S
n
(x) =

0, ako je x < X
(1)
,
k
n
, ako je X
(k)
≤ x ≤ X
(k+1)
, 1 ≤ k ≤ n −1,
1, ako je x ≥ X
(n)
.
(1)
Primer 4. U eksperimentu su dobijene slede´ce brojne vrednosti uzorka obima n = 10 : 9, 15, 7, 11, 17, 9, 7,
12, 7, 15. Varijacioni niz je 7, 7, 7, 9, 9, 11, 12, 15, 15, 17. Iz jednakosti (1) ili direktno iz Definicije 1 nalazimo
da je
3
S
n
(x) =

0, x < 7,
3
10
, 7 ≤ x < 9,
5
10
, 9 ≤ x < 11,
6
10
, 11 ≤ x < 12,
7
10
, 12 ≤ x < 15,
9
10
, 15 ≤ x < 17,
1, x ≥ 17.
Stepenasta kriva empirijske funkcije raspodele S
n
(x) prikazana je na gornjoj slici desno.
Neka je X ∈ R fiksirano. Definiˇsimo Y
i
= 1 ako je X
i
≤ x i Y
i
= 0 ako je X
i
> x. Tada zbir Y
1
+· · ·+Y
n
predstavlja broj onih sluˇcajnih promenljivih iz uzorka X
1
, . . . , X
n
ˇcije su vrednosti ≤ x, pa je
S
n
(x) =
Y
1
+· · · +Y
n
n
.
Prema zakonu velikih brojeva za svako fiksirano x ∈ R vaˇzi
P

lim
n→+∞
S
n
(x) = F(x)

= 1. (2)
Ovaj rezultat opravdava aproksimaciju funkcije raspodele njenom empirijskom raspodelom dobijenom
iz uzorka. Slede´ca teorema, poznata i pod nazivom centralna teorema statistike, tvrdi da je ta
aproksimacija uniformna po x :
Teorema 1 (Glivenko-Kantelijeva teorema). Ako je F(x) funkcija raspodele sluˇcajne promenljive
X i S
n
empirijska funcija raspodele dobijena iz prostog uzorka (X
1
, . . . , X
n
) obima n, tada je
P

sup
x∈R
|S
n
(x) −F(x)| →0, kada n →+∞

= 1.
Smisao ove teoreme je slede´ci: kada je uzorak dovoljno brojan, tada sa verovatno´com bliskom jedinici
empirijska raspodela se malo razlikuje od teorijske, drugim reˇcima, ukoliko je uzorak brojniji, utoliko
bolje reprezentuje celokupnost.
2. Prikazivanje statistiˇckih podataka iz uzorka
Eksperimentalni podaci se, radi statistiˇcke obrade, predstavljaju na dva osnovna naˇcina: tabliˇcno i
grafiˇcki. Tabliˇcni metod daje podatke u obliku tabele, ˇcesto pored¯ane u rastu´cem poretku daju´ci tzv.
varijacioni niz obeleˇzja. On pruˇza osnovu za dalja razmatranja u vezi sa raspodelom.
Primer 5. U 20 odeljenja osnovne ˇskole registrovan je broj uˇcenika sa natproseˇcnim sposobnostima: 5, 6, 8,
10, 9, 8, 4, 7, 7, 3, 6, 4, 8, 7, 6, 6, 5, 3, 6, 6. Varijacioni niz uzorka je: 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 8,
8, 9, 10. Za odred¯ivanje raspodele obeleˇzja koristi se slede´ca tabela:
Tabela 1
4
U tabeli su koriˇs´cene oznake: k–broj odeljenja sa posmatranim brojem natproseˇcnih uˇcenika, f–apsolutna
uˇcestanost, f

–relativna uˇcestanost, n
x
–broj odeljenja sa ne viˇse od x natproseˇcnih uˇcenika,
¸
f–zbirna (kumu-
lativna) uˇcestanost,
¸
f

–zbirna relativna uˇcestanost.
Od posebnog interesa su zbirne relativne uˇcestanosti S
n
(x) = n
x
/n, gde je n
x
, zapravo, sluˇcajna
veliˇcina. Kao ˇsto smo ranije videli, a ˇsto se moˇze zapaziti i iz tabele X, funkcijom S
n
(x) = n
x
/n je
odred¯ena empirijska funkcija raspodele obeleˇzja X (broj natproseˇcnih uˇcenika u pojedinim odelje-
njima u Primeru X.)
Kod obeleˇzja apsolutno neprekidnog tipa podaci u tabeli se sred¯uju po unapred odabranim intervalima
(klasama). Broj i raspored intervala zavisi od broja podataka i samog obeleˇzja. Strogog pravila za izbor
broja i duˇzine intervala nema, ali se u praksi preporuˇcuje da broj intervala k zadovolji nejednakosti
1 + 3.322 log
10
n = 1 + log
2
n ≤ k ≤ 5 · log
10
n
za obim uzoraka n. Broj intervala k se moˇze odrediti i na jedan od slede´cih naˇcina: k =

n, k = 2n
1/3
ili k = 5 log
10
n.
Duˇzine intervala se odred¯uju na slede´ci naˇcin: Odred¯uju se najmanja x
min
i najve´ca x
max
vrednost u
realizovanom uzorku (x
1
, . . . , x
n
), a zatim se duˇzina intervala raˇcuna po formuli
h =
x
max
−x
min
k
,
pri ˇcemu se vodi raˇcuna da su granice intervala jednostavne za rad (celi brojevi, brojevi deljivi sa 5 i
sliˇcno).
Raspodela obeleˇzja grafiˇcki se prikazuje preko uˇcestanosti, zbirnih uˇcestanosti ili zbirnih relativnih
uˇcestanosti, tj. emprijiske funkcije raspodele. Grafiˇcki metodi prikaza su najˇceˇs´ce poligon, kumulativna
kriva, razni dijagrami, histogram (iskljuˇcivo za obeleˇzje apsolutno neprekidnog tipa) i sliˇcno.
Na slikama od 1 do 3 prikazani su podaci koji se odnose na Primer 5. Figure na slikama 1a i 1b su
poligoni, a na slikama 2 i 3b su trakasti dijagrami. Kumulativna kriva relativnih uˇcestanosti sa slike 3a
prikazuje emprijsku funkciju raspodele.
Sl. 1 Poligoni: a) apsolutnih uˇcestanosti; b) relativnih uˇcestanosti u % (Primer 5)
5
Sl. 2 Trakasti dijagram apsolutnih uˇsetanosti (Primer 5)
Sl. 3 a) Kumulativna kriva relativnih uˇcestanosti; b) trakasti dijagram zbirnih uˇcestanosti (Primer 5)
Primer 6. Testom za proveru motornih sposobnosti je meren nivo sposobnosti uˇcenika jednog odeljenja i
dobijeni rezultati su svrstani u tri kategorije: nizak (n), srednji (s) i visok (v) nivo sposobnosti. U odeljenju je
registrovan slede´ci niz podataka: n, n, s, v, s, s, s, n, v, v, s, s, s, n, v, v, v, s, v, n, n, s, v, s. Na osnovu niza
realizacija dobijena je tabela
Tabela 2
Prilikom grafiˇckog prikaza kvalitativnih obeleˇzja, vrednosti obeleˇzja se mogu proizvoljno pored¯ati,
recimo prema raˇs´cenju ili opadanju uˇcestanosti, azbuˇcnom redu, itd. Na slikama 4 i 5 prikazana su ˇcetiri
karakteristiˇcna naˇcina ilustracije apsolutne uˇcestanosti kod kvalitativnih obeleˇzja (za Primer 6).
6
Sl. 4 a) Vertikalni i b) horizontalni trakasti dijagram (Primer 6)
Sl. 5 Podela a) kruga (,,pita”, ,,kolaˇc”) i b) pravougaonika za prikazivanje uˇcestanosti u uzorku (Primer 6)
Definicija 2. Statistika Z je funkcija uzorka Z = f(X
1
, . . . , X
n
) koja ne zavisi eksplicitno od
nepoznatih parametara.
Statistika je sluˇcajna promenljiva koja opisuje empirijsku raspodelu obeleˇzja X. Neke vaˇznije statistike
su
1. X
min
– minimum uzorka ili najmanja vrednost uzorka;
2. X
max
– maksimum uzorka ili najve´ca vrednost uzorka;
3. R = X
max
−X
min
– raspon uzorka;
4. X
n
=
1
n
n
¸
k=1
X
k
– sredina uzorka;
5. S
2
n
=
1
n
n
¸
k=1
(X
k
−X
n
)
2
) – disperzija uzorka;
6.
˜
S
2
n
=
1
n−1
n
¸
k=1
(X
k
−X
n
)
2
– popravljena disperzija uzorka;
7. S
n
=

S
2
n
– standardno odstupanje uzorka;
8. T
n
=
n
¸
k=1
X
k
– total uzorka;
7
9. koeficijent korelacije uzorka
R
X,Y
=
1
n
n
¸
i=1
X
i
Y
i
−X
n
Y
n
S
X
S
Y
,
gde je S
X
=

1
n
n
¸
k=1
X
2
k
−(X
n
)
2
, S
Y
=

1
n
n
¸
k=1
Y
2
k
−(Y
n
)
2
.
Napomena 1. Disperzija uzorka S
2
n
se jednostavnije raˇcuna po formuli
S
2
n
=
1
n
n
¸
k=1
X
2
k
−X
2
n
.
Zaista, imamo
S
2
n
=
1
n
n
¸
k=1
(X
k
−X
n
)
2
) =
1
n
n
¸
k=1
(X
2
k
−2X
n
X
k
+X
2
n
)
=
1
n
n
¸
k=1
X
2
k
−2
1
n
X
n
n
¸
k=1
X
k
+X
2
n
=
1
n
n
¸
k=1
X
2
k
−X
2
n
.
Primer 7. U Primeru 1 obeleˇzje X uzima dve vrednosti: 1 ako je kuglica bela i 0 ako je kuglica crna.
Sluˇcajna promenljiva X ima Bernulijevu raspodelu verovatno´ca
X :

1 0
p q

.
Prost sluˇcajan uzorak obezbed¯ujemo ako kuglice izvlaˇcimo jednu po jednu i poˇsto kod svake registrujemo njenu
boju vra´camo je u kutiju pre slede´ceg izvlaˇcenja. Raspodela obeleˇzja X potpuno je odred¯ena parametrom p.
Izmenimo oznake tako ˇsto ´cemo uzorak (X
1
, . . . , X
n
) preimenovati u (I
1
, . . . , I
n
), gde je I
k
(k = 1, . . . , n) u
stvari indikator dogad¯aja da u k-tom izvlaˇcenju kuglica bude bele boje. Tada je sluˇcajna promenljiva
S
n
= I
1
+I
2
+· · · +I
n
jedna statistika koja predstavlja broj izvuˇcenih belih kuglica. Opisani eksperiment sa Bernulijevom raspodelom
duˇzine n definiˇse binomnu raspodelu S
n
: B(n, p) za koju znamo da je E(S
n
) = np i σ
2
(S
n
) = npq. Uvedimo
statistiku
X
n
=
S
n
n
=
X
1
+· · · +X
n
n
.
Kako je E(X
n
) =
1
n
E(S
n
) = p, na osnovu zakona velikih brojeva sledi P

|X
n
− p| ≥ ε

→ 0 kad
n → ∞, tj. statistika X
n
sve je bliˇza nepoznatom parametru p sa porastom obima uzorka n. Na osnovu
centralne graniˇcne teoreme moˇzemo viˇse da kaˇzemo o ovoj pribliˇznosti i da je ocenimo. Kako S
n
ima pribliˇzno
raspodelu N(np, npq), sledi da X
n
= S
n
/n takod¯e ima pribliˇzno normalnu raspodelu sa parametrima E(X
n
) =
p, σ
2
(X
n
) =
1
n
2
σ
2
(S
n
) =
pq
n
.
Primetimo da pq = p(1 − p) = p − p
2
za 0 < p < 1 nije ve´ce od 1/4. Dakle, σ
2
(X
n
) ≤
1
4n
. Na primer, za
n = 100 raspodela za X
100
je pribliˇzno N

p,
pq
100

i disperzija nije ve´ca od 1/400. Gustina raspodele skicirana
8
je na slici 6. Vidimo da su verovatno´ce odstupanja X
n
od nepoznatog parametra p vrlo male. Na primer
P

|X
100
−p| < 0.1

= P

S
100
100
−p

< 0.1

= P

|S
100
−100p| < 10

= P

S
100
−100p

100pq

<
10

100pq

= P

S
100
−100p

100pq

<
1

pq

≈ P

|Z

| <
1

pq

≥ P

|Z

| < 2

= 2Φ(2) = 2 · 0.47725 = 0.9555.
Sl. 6
Dakle, ,,ˇsanse” da X
100
odstupi od nepoznatog parametra p viˇse od 0.1 manje su od 5%.
3. Neke raspodele vaˇzne u statistici
Hi kvadrat raspodela
U Teoriji verovatno´ce, razmatraju´ci raspodele neprekidnih sluˇcajnih promenljivih, definisali smo Gama
raspodelu sa parametrima α i λ, u oznaci Γ(α, λ). Za ovu raspodelu je
f(x) =
λ
α
e
−λx
x
α−1
Γ(α)
, E(X) =
α
λ
, D(X) =
α
λ
2
, ϕ(t) =
λ
α
(λ −it)
α
. (3)
Poseban sluˇcaj ove raspodele, Γ(
n
2
,
1
2
) ima vaˇzne primene u verovatno´ci i statistici.
Definicija 3. Raspodelu definisanu gustinom
f(x) =
1
2
n/2
Γ(
n
2
)
x
n
2
−1
e

x
2
, (x > 0)
nazivamo hi kvadrat raspodelom sa n stepeni slobode, u oznaci χ
2
(n). Broj n moˇze biti proizvoljan
pozitivan broj, ali je u primenama vaˇzan sluˇcaj kada je n prirodan broj. Za n = 2 dobija se E(1/2)
raspodela.
Na sl. 7 prikazana je gustina funkcije za nekoliko stepeni slobode.
9
Sl. 7 Gustine hi kvadrat raspodele
Na osnovu izraza za karakteristiˇcnu funkciju Gama raspodele (3), u specijalnom sluˇcaju za α = n/2 i
λ = 1/2 dobijamo karakteristiˇcnu funkciju χ
2
(n) raspodele
ϕ(t) =
1
(1 −2it)
n/2
. (4)
Teorema 2. Neka su X
1
, . . . , X
n
nezavisne sluˇcajne promenljive sa N(0, 1) raspodelom i neka je
V = X
2
1
+· · · +X
2
n
, n ∈ N.
Sluˇcajna promenljiva V ima χ
2
(n) raspodelu.
Dokaz. Sluˇcajna promenljiva V je zbir n nezavisnih sluˇcajnih promenljivih sa istom raspodelom.
Karakteristiˇcna funkcija svakog sabirka je
ϕ
0
= E(e
itX
2
), X ∼ N(0, 1),
odnosno,
ϕ
0
(t) =
1

+∞
−∞
e
itx
2
· e
−x
2
/2
dx =
1

+∞
−∞
exp


x
2
(1 −2it)
2

dx =
1

1 −2it
.
Pored¯enjem sa (4) vidimo da svaka od nezavisnih sluˇcajnih promenljivih X
2
i
(i = 1, . . . , n) ima χ
2
(1)
raspodelu. S obzirom da su X
1
, . . . , X
n
nezavisne sluˇ acjne promenljive, karakteristiˇcna funkcija njihovog
zbira je
ϕ(t) =

ϕ
0
(t)

n
= (1 −2it)
−n/2
,
a ovo je karakteristiˇcna funkcija χ
2
(n) raspodele. Time je dokaz zavrˇsen.
Da bismo istakli da sluˇcajna promenljiva V ima χ
2
(n) raspodelu, u nastavku ´cemo umesto V pisati
χ
2
n
. Iz (3) (za α = n/2 i λ = 1/2) dobijamo
E(χ
2
n
) = n, D(χ
2
n
) = 2n. (5)
Iz oblika karakteristiˇcne funkcije (4) vidimo da zbir nezavisnih sluˇcajnih promenljivih sa χ
2
(n
i
)
raspodelom (i = 1, . . . , k) ima χ
2
(n
1
+· · · +n
k
) raspodelu. Naziv ,,broj stepeni slobode”, koji se koristi
za parametar hi kvadrat raspodele, potiˇce uglavnom od ove osobine. Suˇstinski, broj stepeni slobode
oznaˇcava broj linearno nezavisnih sluˇcajnih promenljivih med¯u X
1
, X
2
, . . . , X
n
u izrazu za χ
2
n
. Ako bi,
10
na primer, med¯u X
1
, X
2
, . . . , X
n
postojala jedna linearna veza, recimo X
1
+ X
2
+ · · · + X
n
= 0, tada
bismo imali
χ
2
n−1
= X
2
1
+X
2
2
+· · · +X
2
n
,
dakle, broj stepeni slobode je umanjen za 1.
Koriste´ci osobinu karakteristiˇcne funkcije nezavisno promenljivih, lako se dokazuje slede´ca teorema.
Teorema 3. Ako su X i Y nezavisne sluˇcajne promenljive takve da X ima χ
2
(n)raspodelu a Y χ
2
(r)
raspodelu, tada X +Y ima χ
2
(n +r) raspodelu.
Dokaz. Kako je ϕ
X
(t) = (1 −2it)
−n/2
i ϕ
Y
(t) = (1 −2it)
−r/2
, iz nezavisnosti X i Y sledi ϕ
X+Y
(t) =
ϕ
X
(t)ϕ
Y
(t), tj.
ϕ
X+Y
(t) = (1 −2it)
−n/2
(1 −2it)
−r/2
= (1 −2it)

n+r
2
,
a to je karakteristiˇcna funkcija χ
2
(n +r) raspodele.
Verovatno´ce vezane za hi kvadrat raspodelu daju se tabelarno (videti Tabelu II). S obzirom na najˇceˇs´cu
primenu u Matematiˇckoj statistici te tablice su tako saˇcinjene da za dati stepen slobode n (obiˇcno
n = 1, 2, . . . , 30) i dati broj α (0 < α < 1) (obiˇcno α = 0.01, 0.05, . . . , 0.80) u tablici ˇcitamo broj χ
2
n;α
(ovo nije sluˇcajna promenljiva, za razliku od χ
2
n
) takav da je
P(χ
2
n
≥ χ
2
n;α
) = α.
Sl. 8
Na sl. 8 prikazana je jedna hi kvadrat gustina , broj χ
2
n;α
i broj α koji (kao verovatno´ca) predstavlja
povrˇsinu izmed¯u x-ose i krive gustine za x > χ
2
n;α
.
U tablicama se broj stepeni slobode n obiˇcno ne daje za n ≥ 30. Za n ≥ 30 na osnovu centralne
graniˇcne teoreme χ
2
n
ima pribliˇzno (i to za primene sasvim zadovoljavaju´ce taˇcno) normalnu raspodelu.
Kako je E(χ
2
n
) = n i D(χ
2
n
) = 2n, znaˇci da χ
2
n
ima probliˇzno N(n, 2n) raspodelu. Preciznije, vaˇzi
teorema.
Teorema 4. Kada n →+∞, funkcija raspodele sluˇ ajne promenljive
χ
2
n
−n

2n
konvergira funkciji raspodele N(0, 1).
Raspodela matematiˇckog oˇcekivanja µ i sredine X
n
= (X
1
+ · · · + X
n
)/n je razmatrana u slede´coj
teoremi.
11
Teorema 5. Neka su X
1
, . . . , X
n
nezavisne sluˇcajne promenljive sa istom raspodelom N(µ, σ
2
). Tada
vaˇzi
1

1
σ
2
n
¸
k=1
(X
k
−µ)
2
∼ χ
2
(n),
2

1
σ
2
n
¸
k=1
(X
k
−X
n
)
2
∼ χ
2
(n −1).
Napomena 2. U sluˇcaju 2

broj stepeni slobode je n −1 jer med¯u sluˇcajnim promenljivim X
k
−X
n
postoji jedna linearna veza
n
¸
k=1
(X
k
−X
n
) =
n
¸
k=1
X
k
−nX
n
= 0.
Napomena 3. Posmatrajmo disperziju uzorka iz normalne populacije (tj. populacije ˇcije je obeleˇzje
X ∼ N(µ, σ
2
))
S
2
n
=
1
n
n
¸
k=1
(X
k
−X
n
)
2
.
Na osnovu 2

sledi da sluˇcajna promenljiva
nS
2
n
σ
2
ima χ
2
(n −1) raspodelu.
Primer 8. Neka obeleˇzje X ima E(X) = µ i D(X) = σ
2
. Ako je obim uzorka (X
1
, . . . , X
n
) veliki (recimo
n ≥ 30), tada na osnovu centralne graniˇcne teoreme sredima uzorka
X
n
=
X
1
+· · · +X
n
n
ima pribliˇzno normalnu raspodelu. Kako je
E(X
n
) = E

1
n
n
¸
k=1
X
k

=
1
n
n
¸
k=1
E(X
k
) =
1
n
· nµ = µ
i
D(X
n
) = D

1
n
n
¸
k=1
X
k

=
1
n
2
n
¸
k=1
D(X
k
) =
1
n
2
· nσ
2
=
σ
2
n
,
sledi da je to normalna raspodela N(µ, σ
2
/n). Primetimo da smo u gornjem izraˇcunavanju E(X
n
) i D(X
n
)
koristili ˇcinjenicu da je (X
1
, . . . , X
n
) prost uzorak, tj. da su X
1
, . . . , X
n
nezavisne sluˇcajne promenljive i da
svaka ima istu raspodelu kao i obeleˇzje X.
Na osnovu dobijenog rezultata vidimo da standardizovana sluˇcajna promenljiva
X
n
−µ
σ/

n
ima normalnu
raspodelu N(0, 1).
Studentova t raspodela
Neka su X
1
, . . . , X
n
nezavisne sluˇcajne promenljive sa N(µ, σ
2
) raspodelom. Na osnovu Primera 8
sledi da standardizovana sluˇcajna promenljiva
X

=
X
n
−µ
σ/

n
12
ima standardnu normalnu N(0, 1) raspodelu. Med¯utim, ako σ
2
nije poznato, uzima se ocena
s
2
=
1
n −1
n
¸
k=1
(X
k
−X
n
)
2
i formira se sluˇcajna promenljiva
t
n
=
X
n
−µ
s/

n
ˇcija raspodela je poznata pod nazivom t raspodela ili Studentova raspodela. Ovu raspodelu je otkrio
i prouˇcavao Vilijam Goset poˇcetkom dvadesetog veka. On je radio u Guinnessovoj pivari u Dablinu
(Irska) i iz poslovnih razloga koristio je pseudonim Student.
Definicija 4. Raspodela definisana funkcijom gustine
f(x) =
Γ

n+1
2


nπ Γ

n
2

1 +
x
2
n

−(n+1)/2
, x ∈ R, n > 0
naziva se Studentovom t raspodelom sa n stepeni slobode, u oznaci t(n). Parametar n moˇze biti
proizvoljan pozitivan broj, ali se ova raspodela uglavnom koristi kada je n ∈ N.
Za veliko n, t(n) raspodela moˇze se aproksimirati N(0, 1) raspodelom, kao ˇsto se vidi na slici 9.
Sl. 9 Gustine t(n) raspodele za n = 2, 5, 15 u pored¯enju sa normalnom N(0, 1) raspodelom (isprekidana linija)
Primene t raspodele proizilaze iz slede´ce teoreme.
Teorema 6. Neka su sluˇcajne promenljive Z

∼ N(0, 1) i χ
2
n
nezavisne. Tada sluˇcajna promenljiva
t
n
=

n
Z

χ
2
n
ima t(n) raspodelu.
Kao i u sluˇcaju χ
2
raspodele, verovatno´ce vezane za t raspodelu daju se tabliˇcno (Tabela III). Za
odred¯eni broj stepeni slobode n i dati broj α (0 < α < 1), iz tablica se ˇcita pozitivan broj t
n;α
takav da
je
P(|t
n
| ≥ t
n;α
) = α.
13
Na slici 10 verovatno´ca je prikazana kao zbir ˇsrafiranih povrˇsina koje odgovaraju dogad¯aja {t
n
≥ t
n;α
} i
{t
n
≤ −t
n;α
}. Primetimo da je
P(|t
n
| ≥ t
n;α
) = P(t
n
≥ t
n;α
) +P(t
n
≤ −t
n;α
) =
α
2
+
α
2
= α.
Sl. 10
Teorema 7. Ako je (X
1
, . . . , X
n
) uzorak iz populacije sa obeleˇzjem X koje ima normalnu raspodelu
N(µ, σ
2
), tada statistika
X
n
−µ
S
n

n −1
ima Studentovu t(n −1) raspodelu.
Dokaz. Jednostavnim transformacijama poˇcetne statistike dobijamo
X
n
−µ
S
n

n −1 =
(X
n
−µ)

n
σ

S
2
n
n −1

n
σ
=
X
n
−µ
σ

n

nS
2
n
σ
2
(n −1)
.
X
n
−µ
σ

n ima standardnu N(0, 1) raspodelu (Primer 8), a
nS
2
n
σ
2
ima χ
2
(n − 1) raspodelu (Napomena
3). Koriste´ci Teoremu 6 zakljuˇcujemo da
X
n
−µ
S
n

n −1 ima Studentovu t(n −1) raspodelu.
4. Ocene parametara
Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz neke raspodele. U opˇstem sluˇcaju ovaj uzorak zavisi od
nepoznatog parametra θ, gde θ moˇze biti vektor (kao u sluˇcaju normalne raspodele, θ = (µ, σ
2
)) ili skalar
(kao kod Puasonove raspodele θ = λ). Skup mogu´cih (dozvoljenih vrednosti) parametra θ obeleˇzavamo
sa Θ.
Problem ocene parametara sastoji su u tome da se nad¯e statistika
ˆ
θ =
ˆ
θ(X
1
, . . . , X
n
) kojom ´ce se
oceniti parametar θ. Ta ocena moˇze biti nad¯ena na dva naˇcina: kao taˇckasta ili intervalna ocena.
Ako za ocenu parametra θ u jednom realizovanom uzorku (x
1
, . . . , x
n
) uzmemo broj u
n
=
ˆ
θ(x
1
, . . . , x
n
),
to je tzv. taˇckasta ocena. Cilj je odabrati takvu statistiku
ˆ
θ koja daje bliske vrednosti nepoznatom
parametru θ koji ocenjujemo.
14
Taˇckaste ocene
Naveˇs´cemo neke kriterijume na osnovu kojih procenjujemo koliko je dobra izabrana taˇckasta ocena.
Definicija 5. Neka je
ˆ
θ =
ˆ
θ(X
1
, . . . , X
n
) statistika koja se koristi kao ocena parametra θ.
• Kaˇzemo da je
ˆ
θ stabilna ili postojana ocena za θ ako
ˆ
θ konvergira u verovatno´ci ka θ kada
n →+∞, tj. ako je
lim
n→+∞
P(|
ˆ
θ −θ| > ε) = 0 za svako θ ∈ Θ i ε > 0.
• Ocena je centrirana ako je
E(
ˆ
θ) = θ za svako θ ∈ Θ.
• Ocena je asimptotski centrirana ako E(
ˆ
θ) →θ kada n →+∞.
Napomena 4. Svaka stabilna ocena parametra θ je asimptotski centrirana. S druge strane, svaka
centrirana ocena nije stabilna.
Primer 9. Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz raspodele sa nepoznatim matematiˇckim oˇcekivanjem
µ. Ocenimo ovaj parametar pomo´cu sredine uzorka
X
n
=
X
1
+· · · +X
n
n
.
U Primeru 8 vudeli smo da je E(X
n
) = µ. Ocena X
n
je centrirana. To znaˇci da ako ponavljamo ocenjivanje
veliki broj puta, ,,u proseku” dobijamo taˇcan rezultat µ. Pokaˇzimo da je ocena i stabilna. Na osnovu zakona
velikih brojeva sledi da je
lim
n→+∞
P

1
n
n
¸
k=1
X
k
−µ

≥ ε

→0,
te je ocena i stabilna (postojana).
Primer 10. Neka je (X
1
, . . . , X
n
) prost uzorak. Ispitajmo da li je disperzija uzorka S
2
n
centrirana u odnosu
na disperziju σ
2
. Najpre izraˇcunavamo
E(S
2
n
) = E

1
n
n
¸
k=1
(X
k
−X
n
)
2

= E

1
n
n
¸
k=1
X
2
k

2
n
X
n
n
¸
k=1
X
k
+
1
n
n
¸
k=1
X
2
n

= E

1
n
n
¸
k=1
X
2
k
−X
2
n

=
1
n
n
¸
k=1
E(X
2
k
) −E

X
2
n

= E(X
2
) −E(X
2
n
).
Kako je
E(X
2
n
) =
1
n
2
E

n
¸
k=1
X
2
k
+
¸
i=j
X
i
X
j

=
1
n
E(X
2
) +
n −1
n
E
2
(X),
imamo da je
E(S
2
n
) =
n −1
n
E(X
2
) −
n −1
n
E
2
(X) =
n −1
n
σ
2
. (6)
Na osnovu poslednjeg izraza zakluˇcujemo da ocene statistike (disperzije uzorka) S
2
n
za disperziju σ
2
obeleˇzja X
nije centrirana. Med¯utim, kako
n−1
n
→1 kada n →+∞, sledi da je ova ocena asimptotski centrirana.
Iz (6) vidimo i kao treba ,,popraviti” ocenu obeleˇzja X : Uoˇcimo tzv. popravljenu disperziju uzorka
˜
S
2
n
=
1
n −1
n
¸
k=1
(X
k
−X
n
)
2
.
15
Kako je
˜
S
2
n
=
n
n−1
S
2
n
, imamo
E(
˜
S
2
n
) =
n
n −1
E(S
2
n
) =
n
n −1
·
n −1
n
σ
2
= σ
2
.
Dakle,
˜
S
2
n
je centrirana ocena za σ
2
. Primetimo da ako je n veliko, tada je
n
n−1
≈ 1 tako da kod velikog broja
uzorka nema znaˇcaja da li uzimamo S
2
n
ili
˜
S
2
n
kao ocenu za disperziju.
Centriranost i stabilnost su poˇzeljne osobine svake ocene. Za kriterijum bliskosti stvarnoj vrednosti
parametra uzima se srednje kvadratno odstupanje, tj., ˇsto je isto, disperzija D(
ˆ
θ) = E((
ˆ
θ − θ)
2
) koja
predstavla meru rasejavanja.
Definicija 6. • Ocena
ˆ
θ
1
je bolja (u smislu srednjeg kvadratnog odstupanja) od ocene
ˆ
θ
2
ako je
E((
ˆ
θ
1
−θ)
2
) < E((
ˆ
θ
2
−θ)
2
), (θ ∈ Θ).
• Neka je S dati skup statistika na bazi uzorka (X
1
, . . . , X
n
). Kaˇzemo da je ocena
ˆ
θ

najbolja ocena
parametra θ na skupu S ako
ˆ
θ

∈ S i E((
ˆ
θ

−θ)
2
) = min
¸
E((
ˆ
θ −θ)
2
),
ˆ
θ ∈ S
¸
.
Neka su
ˆ
θ
1
i
ˆ
θ
2
centrirane ocene parametra θ. Iz Definicije 6 proizilazi da je bolja ona ocena koja ima
manju disperziju.
Definicija 7. Neka su
ˆ
θ
1
i
ˆ
θ
2
centrirane ocene parametra θ. Kaˇzemo da je ocena
ˆ
θ
1
efikasnija od
ocene
ˆ
θ
2
ako je D(
ˆ
θ
1
) ≤ D(
ˆ
θ
2
) za svako θ ∈ Θ.
Primer 11. Neka je (X
1
, X
2
) nezavisan uzorak iz raspodele sa nepoznatim matematiˇckim oˇcekivanjem
µ. Svaka statistika oblika ˆ µ
α
= αX
1
+ (1 − α)X
2
jeste centrirana ocena parametra µ. Disperzija ove ocene
je α
2
+ (1 − α)
2
i minimalna je za α = 1/2. Prema tome, najbolja (najefikasnija) ocena u skupu {ˆ µ
α
} je
ˆ µ
1/2
= (X
1
+X
2
)/2.
Od interesa je odrediti donju granicu disperzije svih mogu´cih centriranih ocena parametra θ. Bez
dokaza navodimo slede´ci vaˇzan rezultat.
Teorema 8 (Nejednakost Rao-Kramera).
a) Ako je obeleˇzje X neprekidnog tipa sa funcijom gustine f(x; θ), tada je
D(
ˆ
θ
n
) = E

(
ˆ
θ
n
−θ)
2


1
n

+∞
−∞

∂ log f(x; θ)
∂θ

2
f(x; θ)dx
.
b) Ako je obeleˇzje X diskretnog tipa sa skupom vrednosti {x
1
, x
2
, . . . } i ako stavimo p
i
(θ) = P(X =
x
i
) (i = 1, 2, . . . ), tada je
D(
ˆ
θ
n
) = E

(
ˆ
θ
n
−θ)
2


1
n
¸
i

∂ log p
i
(θ)
∂θ

2
p
i
(θ)
.
Definicija 8. Najefikasnija je ona ocena θ

n
za koju je dostignut infimum disperzije a kao meru
efikasnosti neke ocene moˇzemo uzeti
κ =
D(θ

n
)
D(
ˆ
θ)
.
16
Primer 12. Prema teoremi Rao-Kramera, najefikasnija ocena µ

n
parametra µ obeleˇzja X sa normalnom
raspodelom N(µ, σ
2
) (σ je poznat parametar) ima disperziju
D(µ

n
) =
1
n

∂ log f(x; µ)
∂µ

2
f(x; µ)dx
.
S obzirom da je
f(x; µ) =
1
σ


exp


1
2

x −µ
σ

2

,
posle kra´ceg izraˇcunavanja dobijamo
D(µ

n
) =
σ
2
n
.
Kako je D(X
n
) = E(X
2
n
) −E
2
(X
n
), na osnovu Primera 10 i E
2
(X
n
) = E
2
(X) nalazimo
D(X
n
) = −E
2
(X) +
1
n
E(X
2
) +
n −1
n
E
2
(X) =
1
n

−E
2
(X) +E(X
2
)

=
σ
2
n
= D(µ

n
).
Dakle, ocena X
n
je najefikasnija.
Metod maksimalne verodostojnosti
Metod maksimalne verodostojnosti uveden je u Matematiˇcku statistiku u drugoj deceniji dvadesetog
veka. Ideja ovog metoda je da se za ocenu parametra izabere vrednost θ pri kojoj je verovatno´ca realizacije
dobijenog uzorka najve´ca. Pokazalo se da ovaj metod daje ocene koje su asimptotski (tj. za veliki uzorak)
efikasnije od ocena dobijenih na bilo koji drugi naˇcin. Med¯utim, primena tog metoda ˇcesto je vezana za
sloˇzena izraˇcunavanja.
Definicija 9. Neka je (X
1
, . . . , X
n
) prost uzorak obima n i neka je (x
1
, . . . , x
n
) realizovan uzorak.
Oznaˇcimo sa g(x; θ) gustinu raspodele f(x; θ) obeleˇzja X ako je X neprekidnog tipa, a sa P(X = x; θ), x ∈
{x
1
, . . . , x
n
} ako je X diskretnog tipa. Funkcija verodostojnosti L(θ) definiˇse se kao
L(θ) = L(x
1
, x
2
, . . . , x
n
; θ) =

g(x
1
; θ) · g(x
2
; θ) · · · g(x
n
; θ), X je neprekidnog tipa,
p(x
1
; θ) · p(x
2
; θ) · · · p(x
n
; θ), X je diskretnog tipa.
Neka je θ = ψ(x
1
, . . . , x
n
) vrednost parametra kojim se postiˇze maksimum funkcije L(θ) pri fiksiranim
x
1
, . . . , x
n
. Statistika
ˆ
θ = ψ(X
1
, . . . , X
n
)
je ocena maksimalne verodostojnosti parametra θ.
Napomena 5. S obzirom da je logaritamska funkcija monotona, ponekad je lakˇse na´ci maksimum
reˇsavaju´ci jednaˇcinu
dL(θ)

= 0.
Primer 13. Za nezavisan uzorak (X
1
, . . . , X
n
) iz Bernilijeve raspodele sa nepoznatim parametrom p,
funkcija verodistojnosti je
L(p) = p
k
(1 −p)
n−k
, k =
n
¸
j=1
x
j
.
Iz jednaˇcine
d log L(p)
dp
=
d

k log p + (n −k) log(1 −p)

dp
= 0, p ∈ (0, 1)
17
nalazimo da funkcija p → l(p) = log L(p) dostiˇze maksimum za p = k/n. Prema tome, ocena maksimalne
verodostojnosti za p je
ˆ p =
1
n
n
¸
j=1
X
j
(= X
n
).
Primer 14. Obeleˇzje X ima binomnu raspodelu B(k, p), gde je k ∈ N poznat, a p ∈ (0, 1) nepoznat
parametar. Na osnovu prostog uzorka obima n oceni´cemo parametar p metodom maksimalne verodostojnosti.
Funkcija verodostojnosti data je sa
L(p) = L(x
1
, . . . , x
n
; p) =
n
¸
i=1

k
x
i

p
x
i
(1 −p)
k−x
i
.
Maksimum funcije p →l(p) = log L(p) nalazimo polaze´ci od reˇsenja jednaˇcine
∂ log L(p)
∂p
=
1
p
n
¸
i=1
x
i

1
1 −p
n
¸
i=1
(k −x
i
) = 0.
Dobijamo
p =
1
k
·
1
n
n
¸
i=1
x
i
.
Na osnovu ovog zakljuˇcujemo da je ocena maksimalne verodostojnosti za p data statistikom
ˆ p =
1
k
·
1
n
n
¸
i=1
X
i
=
X
n
k
.
Primer 15. Neka obeleˇzje X ima Puasonovu raspodelu P(λ), gde je λ nepoznat parametar. U ovom sluˇcaju
je
f(x; λ) = P
λ
(X = λ) =
λ
x
x!
e
−λ
, (x = 0, 1, 2, . . . .)
Uzimaju´ci da je uzorak (X
1
, . . . , X
n
) prost i, dakle, X
1
, . . . , X
n
nezavisne, dobijamo
L(x
1
, x
2
, . . . , x
n
; λ) =
n
¸
k=1
f(X
k
; λ) =
λ
x
1
+x
2
+···+x
n
x
1
!x
2
! · · · x
n
!
e
−nλ
.
Odavde je
log L(x
1
, x
2
, . . . , x
n
; λ) = −nλ + (x
1
+x
2
+· · · +x
n
) log λ −
n
¸
k=1
log x
i
! .
Iz
d log L

= −n +
x
1
+x
2
+· · · +x
n
λ
= 0
nalazimo da funkcija log L(x
1
, x
2
, . . . , x
n
; λ) (pri fiksiranim x
1
, x
2
, . . . , x
n
) dostiˇze maksimum za
λ =
x
1
+x
2
+· · · +x
n
n
.
Odavde zakljuˇcujemo da statistika
ˆ
λ =
X
1
+X
2
+· · · +X
n
n
(= X
n
)
predstavlja ocenu maksimalne verodostojnosti za parametar λ.
18
Primer 16. Neka je (X
1
, . . . , X
n
) prost uzorak iz normalne raspodele sa nepoznatim θ = (µ, σ
2
). Funkcija
verodostojnosti je
L(µ, σ
2
) =
n
¸
k=1
f(X
k
; µ, σ
2
) =
n
¸
k=1
1
(2πσ
2
)
1/2
exp


(x
k
−µ)
2

2

=
1
(2π)
n/2
·
1

2
)
n/2
exp


¸
n
k=1
(x
k
−µ)
2

2

.
Oˇcigledno je da konstanta
1
(2π)
n/2
ne utiˇce na poloˇzaj maksimuma, pa se (logaritmovanjem) problem svodi na
oderd¯ivanje maksimuma funkcije
l(µ, σ
2
) = −nlog σ −
1

2
n
¸
k=1
(x
k
−µ)
2
, (µ ∈ R, σ
2
> 0),
gde smatramo da su x
1
, . . . , x
n
konstante. Nalaˇzenjem pracijalnih izvoda dobijamo jednaˇcine
∂l
∂µ
= −
1
σ
2
n
¸
k=1
(x
k
−µ) = 0,
∂l
∂σ
2
= −
n
σ
+
1
σ
3
n
¸
k=1
(x
k
−µ)
2
= 0.
Reˇsenja ovog sistema jednaˇcina su
µ =
1
n
n
¸
k=1
x
k
, σ
2
=
1
n
n
¸
k=1

x
k

1
n
n
¸
j=1
x
j

2
.
Dakle, ocene maksimalne verodostojnosti na osnovu nezavisnog uzorka (X
1
, . . . , X
k
) su statistike
ˆ µ =
1
n
n
¸
k=1
X
k
(= X
n
),
´
σ
2
=
1
n
n
¸
k=1
(X
k
− ˆ µ)
2
=
1
n
n
¸
k=1
(X
k
−X
n
)
2
(= S
2
n
).
Primer 17. Neka je (X
1
, . . . , X
n
) prost uzorak iz eksponencijalne raspodele E(λ) sa nepoznatimλ. Funkcija
verodostojnosti je
L(λ) =
n
¸
k=1
f(X
k
; λ) =
n
¸
k=1
λe
λx
k
= λ
n
e
−λ(x
1
+···+x
n
)
.
Posle logaritmovanja problem se svodi na oderd¯ivanje maksimuma funkcije
l(λ) = log L(λ) = nlog λ −λ(x
1
+· · · +x
n
)
smatraju´ci da su x
1
, . . . , x
n
konstante. Iz jednaˇcine
∂l
∂λ
=
n
λ
−(x
1
+· · · +x
n
) = 0,
nalazimo da funkcija l(λ) dostiˇze maksimum za
λ =
n
x
1
+· · · +x
n
.
19
Prema tome, ocena maksimalne verodostojnosti na osnovu nezavisnog uzorka (X
1
, . . . , X
k
) data je statistikom
ˆ
λ =
n
X
1
+· · · +X
n
=
1
X
n
.
Intervali poverenja
U prethodnom odeljku smo videli na koji naˇcin se moˇze vrˇsiti taˇckasta ocena nepoznatog parametra θ
koji figuriˇse u raspodeli F(x, θ) obeleˇzja X. Oˇcigledno da zbog prirode postupka i ˇcinjenice da ta ocena
predstavlja sluˇcajnu promenljivu, nije mogu´ce govoriti o greˇsci u klasiˇcnom smislu.
ˇ
Cesto je zbog toga
pogodnije koristiti intervalne ocene, tj. nalaˇzenje intervala u kojem se sa nekom verovatno´com nalazi
nepoznat parametar θ.
Definicija 10. Neka je (X
1
, . . . , X
n
) uzorak obeleˇzja X ˇcija je raspodela F(x, θ) i neka su
ˆ
θ
1
=
ˆ
θ
1
(X
1
, . . . , X
n
) i
ˆ
θ
2
=
ˆ
θ
2
(X
1
, . . . , X
n
) dve statistike koje ne zavise od nepoznatog parametra θ, takve da
je
ˆ
θ
1

ˆ
θ
2
i da je
P(
ˆ
θ
1
< θ <
ˆ
θ
2
) = β = 1 −α,
gde je β unapred zadata verovatno´ca. Tada se sluˇcajni interval [
ˆ
θ
1
,
ˆ
θ
2
], koji zavisi od uzorka (X
1
, . . . , X
n
),
zove interval poverenja za parametar θ, a verovatno´ca β novo poverenja.
Prirodno je traˇziti ˇsto ,,uˇze” intervale poverenja [
ˆ
θ
1
,
ˆ
θ
2
], i ˇsto viˇsi nivo poverenja β; obiˇcno se uzima
β = 0.95 ili 0.99. Jasno je da su ova dva zahteva, uopˇste uzev, opreˇcna. Kao ˇsto teorija i praksa pokazuju,
izlaz leˇzi u pove´canju obima uzorka n.
Kada smo uzeli uzorak i dobili brojeve (x
1
, . . . , x
n
), tada statistike
ˆ
θ
1
=
ˆ
θ
1
(X
1
, . . . , X
n
) i
ˆ
θ
2
=
ˆ
θ
2
(X
1
, . . . , X
n
) postaju odred¯eni brojevi ˆ v
1
=
ˆ
θ
1
(x
1
, . . . , x
n
) i ˆ v
2
=
ˆ
θ
2
(x
1
, . . . , x
n
), a sluˇcajni inter-
val [
ˆ
θ
1
,
ˆ
θ
2
] postaje odred¯eni interval [ˆ v
1
, ˆ v
2
]. Pogreˇsno bi bilo smatrati da sa verovatno´com β interval
[ˆ v
1
, ˆ v
2
] sadrˇzi nepoznati parametar θ; dogad¯aj {
ˆ
θ
1
≤ θ ≤
ˆ
θ
2
} je izvestan ili nemogu´c dogad¯aj i njegova
verovatno´ca je 1, odnosno 0, a nikako nije β. Verovatno´ca β je samo verovatno´ca da sluˇcajni interval
[ˆ v
1
, ˆ v
2
] prekrije nepoznati broj θ.
Zamislimo da smo ,,uzeli” mnogo serija uzoraka obima n i dobili nizove brojeva (x
1
, . . . , x
n
), (x

1
, . . . , x

n
),
(x

1
, . . . , x

n
)... i na osnovu njih izraˇcunali intervale poverenja [ˆ v
1
, ˆ v
2
], [ˆ v

1
, ˆ v

2
], [ˆ v

1
, ˆ v

2
], ... . Tada se na
te intervale moˇze gledati kao na realizacije sluˇcajnog intervala [
ˆ
θ
1
,
ˆ
θ
2
]. Kako je P(
ˆ
θ
1
≤ θ ≤
ˆ
θ
2
) = β i
tumaˇce´ci verovatno´cu kao graniˇcnu vrednost relativnih uˇcestanosti, moˇzemo re´ci da pribliˇzno 100β% nu-
meriˇckih intervala [ˆ v
1
, ˆ v
2
], [ˆ v

1
, ˆ v

2
], [ˆ v

1
, ˆ v

2
], ... pokriva nepoznat broj θ, a ostalih 100(1−β)% ne prekriva
(sl. 11).
q v
v
1 2
Sl. 11 Pokrivanje parametra θ realizovanim intervalima
20
Intervali poverenja za nepoznatu verovatno´ cu p.
Kod svakog elementa populacije interesujemo se da li se realizovao dogad¯aj A. Njegova verovatno´ca
P(A) = p je nepoznata. Dakle, kao obeleˇzje moˇzemo da posmatramo indikator dogad¯aja A : I
A
= I.
Prost uzorak obima n je dakle (I
1
, I
2
, . . . , I
n
). Statistika S
n
= I
1
+I
2
+· · · +I
n
predstavlja broj koliko
se puta u uzorku obima n realizovao dogad¯aj A.
Na osnovu centralne graniˇcne teoreme (S
n
− np)/

npq ima probliˇzno N(0, 1) raspodelu. Za svaki
zadati nivo poverenja β moˇzemo odrediti broj z
β
takav da je
P(|Z

| ≤ z
β
) = β, gde Z

∼ N(0, 1).
Na primer, koriste´ci se Tablicom I imamo P(|Z

| ≤ z
β
) = 2Φ(z
β
) = β. Ako je, recimo, β = 0.95 imamo
Φ(z
0.95
) = 0.475 i iz Tablice I ˇcitamo z
0.95
= 1.96.
Imamo pribliˇzno
P

S
n
−np

np(1 −p)

≤ z
β

= β.
Dogad¯aj koji je u pitanju moˇze se drukˇcije pisati
P

S
n
−np

np(1 −p)

≤ z
β

= P

(S
n
−np)
2
np(1 −p)

≤ z
2
β

(n
2
+nz
2
β
)p
2
−(2nS
n
+nz
2
β
)p +S
2
n
≤ 0

=

ˆ p
1
(S
n
) ≤ p ≤ ˆ p
2
(S
n
)

,
gde su ˆ p
1
(S
n
) i ˆ p
2
(S
n
) respektivno manji i ve´ci koren kvadratne jednaˇcine
(n
2
+nz
2
β
)p
2
−(2nS
n
+nz
2
β
)p +S
2
n
= 0.
[ ˆ p
1
(S
n
), ˆ p
2
(S
n
)] jeste interval poverenja za p sa nivoom poverenja β, jer je
P

ˆ p
1
(S
n
) ≤ p ≤ ˆ p
2
(S
n
)

= β.
Eksplicitni oblik za taj interval je
¸
n
n +z
2
β

S
n
n
+
z
2
β
2n
−z
β

S
n
(n −S
n
)
n
+
z
2
β
4n
2

,
n
n +z
2
β

S
n
n
+
z
2
β
2n
+z
β

S
n
(n −S
n
)
n
+
z
2
β
4n
2
¸
Ako smo ,,uzeli” odred¯eni uzorak (i
1
, i
2
, . . . , i
n
) dobili smo odred¯enu vrednost s
n
= i
1
+ i
2
+· · · + i
n
i interval poverenja je odred¯eni numeriˇcki interval [ ˆ p
1
(s
n
), ˆ p
2
(s
n
)] koga treba tumaˇciti onako kako je to
uˇcinjeno u diskusiji opˇsteg sluˇcaja. Primetimo da, iako je nepoznata verovatno´ca p sigurno u intervalu
[0,1], dobijeni numeriˇcki interval poverenja [ ˆ p
1
(s
n
), ˆ p
2
(s
n
)] za p ne mora da bude sadrˇzan u [0,1].
Primer 18. U odred¯enom proizvodnom procesu tokom jednog dana proizvedeno je 79 artikala, med¯u kojima
su nad¯ena 3 defektna. Na´ci 95% (β = 0.95) interval poverenja za nepoznatu verovatno´cu p = P(,,da je proizvod
defektan”). Ovde je n = 79, s
79
= 3 i reˇsenje kvadratne jednaˇcine
(79
2
+ 79 ×1.96
2
)p
2
−(2 ×79 ×3 + 79 ×1.96
2
)p + 3
2
= 0
daje interval poverenja [0.013, 0.106] za p.
21
Interval poverenja za matematiˇ cko oˇ cekivanje µ u sluˇ caju poznate disperzije
Videli smo da kod velikog uzorka sredina uzorka X
n
uzima pribliˇzno N(µ, σ
2
/n) raspodelu. Dakle,
P

X
n
−µ
σ/

n

≤ z
β

= β
i

X
n
−µ
σ/

n

≤ z
β

=

|X
n
−µ| ≤ z
β
σ

n

=

−z
β
σ

n
≤ X
n
−µ ≤ z
β
σ

n

=

X
n
−z
β
σ

n
≤ µ ≤ X
n
+z
β
σ

n

,
ili
P

X
n
−z
β
σ

n
≤ µ ≤ X
n
+z
β
σ

n

= β.
Interval poverenja za µ je znaˇci:

X
n
−z
β
σ

n
, X
n
+z
β
σ

n

.
Primetimo da u ovom sluˇcaju duˇzina intervala poverenja nije sluˇcajna ve´c je jednaka 2z
β
σ

n
. Zapaˇza
se kako se interval suˇzava sa porastom obima uzorka n.
Primer 19. Pretpostavimo da imamo dovoljno razloga da smatramo da je standardna devijacija visine u
jednoj velikoj ljudskoj grupaciji σ = 16cm. Srednja vrednost visine kod 100 sluˇcajno izabranih ljudi je ¯ x
100
=
175. Odrediti 99% interval poverenja za srednju visinu u celoj grupaciji. Iz Tablice I nalazimo z
0.99
= 2.58, te
za 99% interval poverenja imamo

175 −2.58
15

100
, 175 + 2.58
15

100

≈ [171, 179].
Interval poverenja za matematiˇ cko oˇ cekivanje µ kada disperzija σ
2
nije poznata
Podsetimo se nekih oznaka uvedenih ranije: t(n) oznaˇcava Studentovu t raspodelu sa n stepeni slobode,
dok je t
n
sluˇcajna promenljiva.
Ranije smo pokazali (Teorema 7) da je
X
n
−µ
S
n

n −1 ∼ t(n −1)
i da iz Tablice III ˇcitamo broj t
n;α
takav da
P(|t
n
| ≥ t
n;α
) = α ili P(|t
n
| ≤ t
n;α
) = 1 −α = β.
Za dati nivo poverenja β i statistiku
X
n
−µ
S
n

n −1 iz Tablice III moˇzemo proˇcitati broj t
n−1;1−β
takav
da je
P(|t
n−1
| ≤ t
n−1;1−β
) = β
ili
P

X
n
−µ
S
n

n −1

≤ t
n−1;1−β
) = β.
22
Odavde, posle izvesnih maipulacija kao u prethodnom sluˇcaju, dobijamo
P

X
n
−t
n−1;1−β
S
n

n −1
≤ µ ≤ X
n
+t
n−1;1−β
S
n

n −1

= β.
Dakle, 100β% interval poverenja je

X
n
−t
n−1;1−β
S
n

n −1
, X
n
+t
n−1;1−β
S
n

n −1

.
Primetimo da je u ovom sluˇcaju duˇzina intervala 2t
n−1;1−β
S
n

n −1
sluˇcajna promenljiva, tj. varira od
jednog do drugog realizovanog uzorka.
Primer 20. Pretpostavimo da je godiˇsnji vodeni talog na odred¯enom lokalitetu sluˇcajna promenljiva X sa
normalnom raspodelom. U toku 8 godina registrovane su slede´ce vrednosti taloga
34.1, 33.7, 27.4, 31.1, 30.9, 35.2, 28.4, 32.1.
Odrediti 90% interval poverenja za E(X) = µ. Ovde imamo n = 8 i β = 0.9, te iz Tablice III ˇcitamo broj
t
7;0.1
= 1.89. Odredimo ¯ x
8
i ¯ s
8
:
¯ x
8
=
1
8
(34.1 + 33.7 + 27.4 + 31.1 + 30.9 + 35.2 + 28.4 + 32.1) = 31.6,
¯ s
8
=
1
8
8
¸
k=1
x
2
k
− ¯ x
2
8
=
1
8
(34.1
2
+ 33.7
2
+ 27.4
2
+ 31.1
2
+ 30.9
2
+ 35.2
2
+ 28.4
2
+ 32.1
2
) −31.6
2
= 7.5.
Dakle, 90% interval poverenja za µ je

31.6 −1.89

7.5

7
, 31.6 + 1.89

7.5

7

ili pribliˇzno [29.6, 33.6].
Interval poverenja za nepoznatu disperziju σ
2
Disperzija obeleˇzja X meri na neki naˇcin homogenost tog obeleˇzja u populaciji (meru rasejavanja oko
oˇcekivanog rezultata) i u nizu situacija u primenama vaˇzna je samo gornja granica disperzije. Zato je
ovde interesantniji tzv. jednostrani interval poverenja, tj. interval ˇcija je jedna krajnja taˇcka statistika,
a druga nesluˇcajan broj. S obzirom na ovo, interval poverenja za disperziju traˇzi´cemo u obliku [0, ˆ σ
2
0
].
Podsetimo se da je χ
2
n−1
=
nS
2
n
σ
2
(Teorema 5 i Napomena 3) i da iz Tablice II ˇcitamo broj χ
2
n;α
takav da je P(χ
2
n
≥ χ
2
n;α
) = α. Za dati nivo poverenja β ˇcitamo iz Tablice II broj χ
2
n−1;β
takav da je
P(χ
2
n−1
≥ χ
2
n−1;β
) = β ili
P

nS
2
n
σ
2
≥ χ
2
n−1;β

= β.
Odavde odmah dobijamo
P

σ
2

nS
2
n
χ
2
n−1;β

= β.
23
Dakle, 100β% jednostrani interval poverenja za disperziju je
¸
0,
nS
2
n
χ
2
n−1;β
¸
.
Dvostrani interval poverenja za σ
2
moˇzemo da dobijemo na slede´ci naˇcin: za dati nivo poverenja β
ˇcitamo iz Tablice II brojeve χ
2
n−1;(1+β)/2
i χ
2
n−1;(1−β)/2
(sl. 12). Na taj naˇcin je
P

χ
2
n−1;(1+β)/2
≤ χ
2
n−1
≤ χ
2
n−1;(1−β)/2

= β,
P

χ
2
n−1;(1+β)/2

nS
2
n
σ
2
≤ χ
2
n−1;(1−β)/2

= β.
Dakle, dvostrani interval poverenja za σ
2
je
¸
nS
2
n
χ
2
n−1;(1−β)/2
,
nS
2
n
χ
2
n−1;(1+β)/2
¸
.
Sl. 12
Primer 21. Dimenzija nekog proizvoda ima normalnu raspodelu. U uzorku od n = 20 takvih proizvoda
nad¯eno je ¯ x
20
= 32.29 mm i 20 · ¯ s
2
20
= 2.53 mm
2
. Na´ci 96% jednostrani i dvostrani interval poverenja za
nepoznatu disperziju σ
2
duˇzine proizvoda u celokupnoj proizvodnji.
Linearnom ekstrapolacijom vrednosti iz Tablice II dobijamo χ
19;0.96
≈ 11 tako da 96% jednostrani interval
poverenja za σ
2
je [0, 2.53/11] ili pribliˇzno [0, 0.23 mm
2
].
Za dvostrani 96% interval poverenja iz Tablice II ˇcitamo χ
2
n−1;(1−β)/2
= χ
2
19;0.02
= 33.69 i linearnom
ekstrapolacijom dobijamo χ
2
n−1;(1+β)/2
= χ
2
19;0.98
≈ 10.77, tako da je traˇzeni dvostrani interval

2.53
33.69
,
2.53
10.77

ili pribliˇzno [0.07 mm
2
, 0.23 mm
2
].
5. Testiranje statistiˇckih hipoteza
Osnovni problem u Matematiˇckoj statistici je da se na osnovu uzorka oceni kakvu raspodelu u celoj
populaciji ima posmatrano obeleˇzje. U zavisnosti od prirode problema uoˇcava se skup logiˇcki mogu´cih
raspodela (na osnovu histograma, poligona,...), koji se naziva skup dopustivih raspodela. Na primer,
X ∼ N(µ, σ
2
), µ ∈ (150, 180), σ
2
∈ (0, 30).
24
Svaka pretpostavka o konkretnoj raspodeli obeleˇzja X zove se statistiˇcka hipoteza, a postupak
njenog verifikovanja pomo´cu uzorka (u smislu prihvatanja ili odbacivanja hipoteze) zove se statistiˇcki
test. Statistika kojom se sluˇzimo u tom postupku zove se test statistika.
Ako skup dopustivih raspodela zavisi od nekog parametra θ, F(x, θ), x ∈ R i ako se statistiˇcka hipoteza
odnosi na vrednost tog parametra, radi se o parametarskom testu. Ako se statistiˇcka hipoteza odnosi
na saglasnost statistiˇckog uzorka sa konkretnom raspodelom obeleˇzja X, radi se o neparametarskom
testu.
Statistiˇcka hipoteza je prosta akao je njome potpuno odred¯ena raspodela obeleˇzja, dakle θ = θ
0
. U
suprotnom, statistiˇcka hipoteza je sloˇzena (na primer, θ ∈ {θ
1
, θ
2
, θ
3
}).
Test znaˇcajnosti mogao bi se ovako opisati: Neka je F(x, θ) funkcija raspodele obeleˇzja X. Pret-
postavlja se hipoteza H(θ = θ
0
). Vrˇsi se izbor odgovaraju´ce statistike U = u(X
1
, . . . , X
n
) i reg-
istruje njena vrednost u = u(x
1
, . . . , x
n
). Pretpostavljaju´ci da je hipoteza H(θ = θ
0
) taˇcna, nalazimo
verovatno´cu dobijenog odstupanja statistike U od oˇcekivane vrednosti. Ako je dobijena verovatno´ca
manja od ranije usvojenog praga (nivoa) znaˇcajnosti α (obiˇcno 0.05 ili 0.1) hipotezu H(θ = θ
0
)
odbacujemo, jer veliˇcina odstupanja ne moˇze se objasniti samo sluˇcajnim odstupanjima pod pret-
postavkom da je hipoteza taˇcna, poˇsto bi takva odstupanja imala vrlo malu verovatno´cu (manju od
α.) Ako je dobijena verovatno´ca ve´ca od α, ne moˇzemo joˇs zakljuˇciti da je hipoteza H(θ = θ
0
) taˇcna.
Testovi znaˇcajnosti ne daju afirmativni odgovor (prihvatanje hipoteze), moˇze se samo zakljuˇciti da reg-
istrovani uzorak ne protivureˇci hipotezi. Izbog statistike U i praga znaˇcajnosti α zavisi od konkretnog
zadatka.
Hipoteza o verovatno´ ci p, H(p = p
0
)
Pretpostavimo da obeleˇzje X ima Bernulijevu raspodelu
X ∼

0 1
1 −p p

, (0 < p < 1).
Oznaˇcimo sa K broj jedinica u uzorku (X
1
, . . . , X
n
) = (I
1
, . . . , I
n
) (u stvari, broj realizacija posma-
tranog dogad¯aja). Sluˇcajna promenljiva K ima binomnu raspodelu B(n, p). Neka je k broj jedinica u
realizovanom uzorku (x
1
, . . . , x
n
). Pod pretpostavkom da je p = p
0
na´ci´cemo verovatno´cu da odstupanje
relativne uˇcestanosti K/n od oˇcekivane vrednosti p
0
bude ve´ce nego u realizovanom uzorku. Imamo
P

K
n
−p
0

k
n
−p
0

= P

K −np
0

np
0
(1 −p
0
)

k −np
0

np
0
(1 −p
0
)

.
Na osnovu teoreme Muavra-Laplasa, raspodelu sluˇcajne promenljive (K − np
0
)/

np
0
(1 −p
0
) moˇzemo
aproksimirati N(0, 1) raspodelom, te dobijamo
P

K
n
−p
0

k
n
−p
0

= 1 −2Φ

k −np
0

np
0
(1 −p
0
)

= α

.
Ako je α

< α, gde je α unapred zadat prag znaˇcajnosti, hipotezu odbacujemo, a ako je α

≥ α hipotezu
ne odbacujemo.
Primer 22. Pretpostavimo da smo iz 100 bacanja novˇci´ca dobili 36 ,,pisama.” Ovo nije apsolutni dokaz da
novˇci´c nije ,,fer” (homogen i pravilnog oblika), naime nije nemogu´ce da se takav rezultat dobije sa novˇci´cem kod
koga je hipoteza H(p = 0.5) da padne pismo. Iz iskustva znamo da nam ovakav rezultat eksperimenta daje jake
dokaze protiv hipoteze p = 0.5. Zadatak statistiˇcke teorije testiranja hipoteza jeste da kvantifikuje stepen sumnje
u neku hipotezu. U naˇsem eksperimentu registrovano je odstupanje |0.5 − 0.36| = 0.14 relativne uˇcestanosti.
25
Ispitajmo kolika je verovatno´ca, pretpostavljaju´ci da je hipoteza H(p = 0.5) taˇcna, da se pojavi i ve´ce odstupanje
od 0.14.
Prema centralnoj graniˇcnoj teoremi (Muava-Laplasa) sluˇcajna promenljiva sa binomnom raspodelom S
100

B(100, 0.5) ima u graniˇcnom sluˇcaju pribliˇzno normalnu raspodelu N

np, np(1−p)

= N(50, 5
2
), te je
S
100
100

N(0.5, 0.05
2
). Primetimo da je u ovom sluˇcaju standardizovana promenljiva S

= (S
100
/100 −0.5)/0.05 i ima
pribliˇzno normalnu raspodelu N(0, 1). Nalazimo
P

S
100
100
−0.5

≥ 0.14

= P

S
100
100
−0.5
0.05

≥ 2.8

= 1 −2Φ(2.8) = 0.005 (iz Tablice I).
Dakle, pretpostavljaju´ci da je hipoteza H(p = 0.5) taˇcna, realizovao se dogad¯aj ˇcija je verovatno´ca bila vrlo mala
(= 0.005). Znaˇci da treba da odbacimo hipotezu o ,,fer” novˇci´cu, odnosno hipotezu H(p = 0.5).
Hipoteza o matematiˇ ckom oˇ cekivanju µ, H(µ = µ
0
), ako je σ poznato
Obeleˇzje X ima N(µ, σ
2
) raspodelu sa nepoznatim parametrom µ i poznatom standardnom devijacijom
σ. Pretpostavimo da je µ = µ
0
. Posmatra´cemo odstupanje aritmetiˇcke sredine X
n
uzorka (X
1
, . . . , X
n
)
od oˇcekivane vrednosti µ
0
. Sa ¯ x
n
´cemo oznaˇciti aritmetiˇcku sredinu realizovanog uzorka (x
1
, . . . , x
n
).
Koristi´cemo ˇcinjenicu da X
n
ima N(µ, σ
2
/n) raspodelu (Primer X), odakle sledi da
X
n
−µ
σ

n ima
N(0, 1) raspodelu. Tada je
P

|X
n
−µ
0
| ≥ |¯ x
n
−µ
0

= P

X
n
−µ
0
σ

n

¯ x
n
−µ
0
σ

n

= 1 −2Φ

¯ x
n
−µ
0
σ

n

= α

.
Ako je α

< α hipotezu H(µ = µ
0
) odbacujemo, a ako je α

≥ α, hipotezu H(µ = µ
0
) ne odbacujemo.
Primer 23. Neka obeleˇzje X ima normalnu raspodelu N(µ, 1) i neka je sredina uzorka od 25 elemenata
¯ x
25
= 50. Testirati hipotezu H(µ = 49.5) za prag znaˇcajnosti α = 0.01. Ovde je
α

= 1 −2Φ

50 −49.5
1

25

= 1 −2Φ(2.5) = 0.0124.
Kako je α

> α, hipotezu ne odbacujemo.
Hipoteza o matematiˇ ckom oˇ cekivanju µ, H(µ = µ
0
), ako σ nije poznato
Obeleˇzje X ima N(µ, σ
2
) raspodelu sa nepoznatim parametrima µ i σ. Postavimo hipotezu H(µ =
µ
0
). Neka X
n
i S
2
n
oznaˇcavaju sredinu uzorka i disperziju uzorka (X
1
, . . . , X
n
) a ¯ x
n
i ¯ s
2
n
vrednost tih
statistika za realizovan uzorak (x
1
, . . . , x
n
). Na osnovu Teoreme 7 znamo da statistika
X
n
−µ
0
S
n

n −1
ima Studentovu t(n −1) raspodelu. Imamo
P

X
n
−µ
0
S
n

n −1

¯ x
n
−µ
0
s
n

n −1

= α

.
Vrednost α

nalazimo iz tablica za Studentovu t raspodelu. Ako je α

< α, gde je α unapred usvojen
prag znaˇcajnosti, hipotezu H(µ = µ
0
) odbacujemo, a ako je α

≥ α, hipotezu H(µ = µ
0
) ne odbacujemo.
Primer 24. Za obeleˇzje X dobijen je realizovan uzorak (x
1
, x
2
, x
3
, x
4
, x
5
) = (1.10, 1.30, 1.20, 1.10, 1.30).
Testira´cemo hipotezu H(µ = 1) za prag znaˇcajnosti α = 0.1. Najpre izraˇcunavamo ¯ x
5
= 1.20, ¯ s
2
n
= 0.008 i
¯ s
5
≈ 0.09. Kako je
¯ x
n
−µ
0
s
n

n −1 =
1.2 −1
0.09

4 ≈ 4.45,
iz Tablice III za Studentovu t raspodelu nalazimo α

≈ 0.01. Hipotezu odbacujemo jer je α

< α.
26
Hipoteza o disperziji σ
2
, H(σ
2
= σ
2
0
)
Obeleˇzje X ima N(µ, σ
2
) raspodelu sa nepoznatim parametrom σ. Postavljamo hipotezu H(σ
2
= σ
2
0
).
Ako je S
2
n
disperzija uzorka (X
1
, . . . , X
n
) a ¯ s
2
n
realizovana vrednost disperzije uzorka, tada je
P

nS
2
n
σ
2
0

n¯ s
2
n
σ
2
0

= α

.
Znamo da
nS
2
n
σ
2
0
ima χ
2
(n−1) raspodelu (videti Napomenu 3). Verovatno´cu α

upored¯ujemo sa unapred
zadatim pragom znaˇcajnosti α i ako je α

< α hipotezu H(σ
2
= σ
2
0
) odbacujemo, u suprotnom je ne
odbacujemo.
Primer 25. Obeleˇzje X ima normalnu raspodelu i disperziju uzorka ¯ s
2
30
= 10 za izabrani uzorak od 30
elemenata. Testira´cemo hipotezu H(σ
2
= 15) za prag znaˇcajnosti α = 0.01. Najpre nalazimo vrednost koliˇcnika
n¯ s
2
n
σ
2
0
=
30 · 10
15
= 20.
Kako je
P

nS
2
n
σ
2
0
≥ 20

= α

= 0.9 (proˇcitano iz Tablice II za χ
2
raspodelu),
i α

> α, hipotezu H(σ
2
= 15) ne odbacujemo.
Izbor hipoteza
Izbor izmed¯u dve hipoteze, nazovimo ih H
0
–nulta hipoteza i H
1
–alternativna hipoteza, pojavljuje
se u razliˇcitim oblastima primene, u stvari kad god treba dokazati neko tvrd¯enje ili verifikovati neku novu
teoriju, tehnologiju, proizvod. Na primer, ako se pojavi novi proizvod, proizvod¯aˇc mora dokazati da je
on bolji od postoje´cih. Da bi dokazao tu hipotezu, on mora da obori suprotnu hipotezu.
Ako ˇzelimo da dokaˇzemo neko tvrd¯enje, onda suprotno tvrd¯enje (ili neutralno ili postoje´ce stanje)
uzimamo za nultu hipotezu H
0
, a samo tvrd¯enje za hipotezu H
1
. Cilj postupka testiranja je da se ispita,
na osnovu rezultata eksperimenta, ima li dokaza protiv hipoteze H
0
, a u korist hipoteze H
1
.
Test je odred¯en ako je definisana statistika U (statistika testa) i skup vrednosti za U za koje odbacu-
jemo hipotezu H
0
(oblast odbacivanja ili kritiˇcna vrednost. Ako je oblast odbacivanja testa oblika
{U > c}, {U ≥ c}, {U < c} ili {U ≤ c}, za broj c kaˇzemo da je kritiˇcna vrednost testa. Na primer,
ako za statistiku koristimo sredinu uzorka X
n
, za dati prag znaˇcajnosti testa α kritiˇcnu vrednost testa c
odred¯ujemo iz relacije
α = P(X
n
< c). (7)
Zakljuˇcak testa moˇze biti jedan od slede´ca dva:
• Odbacujemo H
0
jer smo u eksperimentu dobili U u oblasti odbacivanja. Kao objaˇsnjenje nudimo
hipotezu H
1
.
• Ne odbacujemo H
0
jer je vrednost za U u eksperimentu bila van oblasti odbacivanja. Nemamo
dokaze protiv H
0
.
Pri testiranju hipoteza mogu´ce su dve vrste greˇsaka:
• Greˇska prve vrste nastaje ako se H
0
odbaci kada je H
0
taˇcna.
• Greˇska druge vrste nastaje ako se H
0
ne odbaci kada je H
1
taˇcna.
27
S obzirom na interpretaciju hipoteza H
0
i H
1
, obiˇcno nam je vaˇznije da ne napravimo greˇsku prve
vrste, jer bismo tim postupkom dokazali tvrd¯enje koje nije taˇcno (hipoteza H
1
). Greˇska druge vrste
nije toliko znaˇcajna, jer ako nemamo dovoljno jakih dokaza protiv H
0
, a verujemo da je H
1
ipak taˇcna,
postupak dokazivanja hipoteze H
1
moˇzemo nastaviti izvod¯enjem novih obimnijih eksperimenata.
Primer 26. Braˇsno se prodaje u pakovanjima nominalne mase 1 kg. Na zahtev potroˇsaˇca, koji su primetili
da je masa manja od 1 kg, potrebno je izvrˇsiti proveru na bazi sluˇcajnog uzorka od 25 pakovanja braˇsna. Poznato
je da maˇsina za punjenje ima standardnu devijaciju σ = 15 g.
U ovom problemu moˇzemo pretpostaviti da je masa jednog pakovanja braˇsna normalna sluˇcajna promenljiva
sa matematiˇckim oˇcekivanjem µ i disperzijom σ
2
= 15
2
= 225. Zadatak je da se testira
H
0
: µ = 1000 protiv H
1
: µ < 1000.
Uze´cemo prag znaˇcajnosti α = 0.05. Statistika testa moˇze da bude sredina uzorka X
n
koja, kao ˇsto znamo,
ima N(µ, σ
2
/n) raspodelu (Primer 8), gde je n = 25. Manje vrednosti (od 1000) za X
n
su dokaz protiv hipoteze
H
0
; oblast odbacivanja je {X
n
< c}, sa nekim c koje izraˇcunavamo iz nivoa znaˇcajnosti, videti formulu (7).
Statistika X
n
pri nultoj hipotezi ima N(1000, 9) raspodelu, tako da je
α = P(X
n
< c) = P

Z

<
c −1000
3

=
1
2
+ Φ

c −1000
3

.
Odavde za α = 0.05 iz Tablice I (imaju´ci u vidu da je Φ(−x) = −Φ(x)), nalazimo da je (c −1000)/3 = −1.64,
odakle je c = 995 (zaokruˇzeno na ceo broj). Prema tome, test sa pragom znaˇcajnosti 0.05, na bazi uzorka
obima 25, ima slede´ce pravilo odluˇcivanja: Ako je X
n
< 995, hipoteza H
0
se odbacuje u korist H
1
(tj. u korist
potroˇsaˇca); u suprotnom sluˇcaju, hipoteza H
0
se ne odbacuje.
Sa pragom znaˇcajnosti α = 0.01 dobija se c = 993, dok se sa α = 0.1 dobija c = 996.
Testiranje neparametarskih hipoteza
Ovim testovima se ispituje saglasnost izmed¯u hipotetiˇcne (teorijske) raspodele populacije F(x) i empir-
ijske raspodele uzorka S
n
(x). Ako S
n
(x) aproksimira F(x) ,,dovoljno dobro”, onda prihvatamo hipotezu
da je F(x) funkcija raspodele populacije iz koje je uzet uzorak. Da bismo doneli ovakvu odluku moramo
znati koliko mnogo S
n
(x) moˇze da odstupa od F(x), ako je hipoteza o saglasnosti taˇcna. Zbog toga
uvodimo meru odstupanja S
n
(x) od F(x) i traˇzimo raspodelu verovatno´ca ove mere, pod pretpostavkom
da je hipoteza taˇcna.
Primer 27. Pretpostavimo da imamo 50 podataka za koje smo izraˇcunali uˇcestanosti i relativne uˇcestanosti.
Na osnovu ovog nacrtan je grafik emprijske raspodele (,,stepenasta kriva” na sl. 13) i upored¯en sa grafikom
funkcije N(0, 1) raspodele (neprekidna kriva na sl. 13). Na prvi pogled izgleda da empirijska raspodela dobro
aproksimira standardnu normalnu raspodelu, sa izvesnim odstupanjima, med¯utim to nije dovoljno za prihvatanje
ove hipoteze. Da li, na primer, podaci uzorka i odgovaraju´ca empirijska raspodela bolje aproksimiraju N(0, 1.2)
raspodelu? Da bismo odgovorili na ovo pitanje, potreban nam je neki kriterijum pomo´cu koga bismo ispitali da
li su odstupanja u dozvoljenim granicama ili nisu.
Sl. 13 Empirijska funcija raspodele u pored¯enju sa funkcijom raspodele N(0, 1)
28
Za reˇsavanje postavljenog problema izloˇzi´cemo neparametarski hi kvadrat test. Ovaj test uveo
je u statistiku Karl Pirson (1857–1936) i zato se ˇcesto naziva i Pirsonov test. Danas je to jedan od
testova sa najˇsirom oblaˇs´cu primene.
Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz nepoznate raspodele sa funkcijom raspodele F.
ˇ
Zelimo da
proverimo da li je F = F
0
, gde je F
0
data funcija raspodele.
Podelimo realnu osu na r disjunktnih intervala A
j
= (a
j−1
, a
j
] (j = 1, . . . , r), pri ˇcemu je a
0
=
−∞, a
r
= +∞. Ukoliko priroda problema zahteva, granice a
0
i a
r
mogu biti konaˇcne. Kako X
1
, . . . , X
n
imaju istu raspodelu, verovatno´ca da vrednost sluˇcajne promenljive X
i
pripada intervalu A
j
jednaka je
p
j
= P(X ∈ A
j
) = F(a
j
) −F(a
j−1
), (j = 1, . . . , r).
S druge strane, za raspodelu F
0
, odgovaraju´ce verovatno´ce su
p
j0
= F
0
(a
j
) −F
0
(a
j−1
), (j = 1, . . . , r). (8)
Neparametarsko testiranja hipoteze svodi se na problem testiranja hipoteze
H
0
: p
1
= p
10
, . . . , p
r
= p
r0
protiv alternativne hipoteze H
1
: (p
1
, . . . , p
r
) = (p
10
, . . . , p
r0
).
Za testiranje nam je potrebna statistika testa i njena raspodela pod nultom hipotezom. Slede´ca teorema
sugeriˇse jedan izbor.
Teorema 9. Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz raspodele sa funkcijom raspodele F
0
. Neka je
N
j
broj onih sluˇcajnih promenljivih iz uzorka sluˇcajnih promenljivih ˇcije se brojne karakteristike nalaze
u intervalu A
j
. Neka je p
j0
definisano sa (8). Statistika
r
¸
j=1
(N
j
−np
j0
)
2
np
j0
(9)
ima asimptotsku χ
2
(r −1) raspodelu (kad n →+∞).
Statistika definisana sa (9) naziva se Pirsonov hi kvadrat statistikom i obeleˇzava se sa χ
2
. Bro-
jevi N
j
su rezultat posmatranja (stvarno stanje) dok je np
j0
matematiˇcko oˇcekivanje broja sluˇcajnih
promenljivih X
i
ˇcije su se vrednosti realizovale u intervalu A
j
. Dakle, imamo da je
χ
2
=
n
¸
j=1
(stvarno −oˇcekivano)
2
oˇcekivano
.
Velike vrednosti statistike χ
2
ukazuju na veliku razliku izmed¯u stvarnog i oˇcekivanog, pa je to indikacija
za odbacivanje hipoteze H
0
.
Neka je ν broj stepeni slobode χ
2
raspodele a α prag (nivo) znaˇcajnosti (ili rizik prihvatanja hipoteze).
U Tabeli II se daju vrednosti χ
2
ν;α
za razne vrednosti ν i α prema relaciji
P

χ
2
> χ
2
ν;α

= α.
Verifikacija hipoteze vrˇsi se na slede´ci naˇcin:
1) Ako je izraˇcunata vrednost χ
2
(iz (9)) ve´ca od χ
2
ν;α
, onda hipotezu odbacujemo, smatraju´ci da su
odstupanja empirijske raspodele od pretpostavljene raspodele bitna. Kako je u tom sluˇcaju
P

χ
2
> χ
2
ν;α

= α,
29
moˇzemo biti sigurni da su ova odstupanja bitna, jer bi naˇs zakljuˇcak bio ispravan u oko 95% (= (1−α)·100)
odsto sluˇcajeva za α = 0.05.
2) Ako je izraˇcunata vrednost χ
2
manja od χ
2
ν;α
, onda nemamo osnovu da odbacujemo hipotezu, ˇsto
joˇs ne znaˇci da je hipoteza potpuno taˇcna. Da bismo prihvatili hipotezu kao taˇcnu, treba je proveriti na
nekoliko drugih uzoraka.
Primer 28. Zelimo da testiramo hipotezu H
0
: E(0.005) da duˇzina ,,ˇzivota” X sijalice ima eksponencijalnu
raspodelu E(0.005). Podse´camo da ova raspodela ima funkciju gustine
f(x) =

λe
−λx
, x ≥ 0,
0, x < 0
i da se ˇcesto koristi u Teoriji pouzdanosti. U konkretnom sluˇcaju je λ = 0.005.
U uzorku od 150 sijalica dobijeno je da 47 sijalica imaju ,,ˇzivot” u intervalu [0,100] ˇcasova, 40 u [100,200], 35 u
[200,300] i 28 traju preko 300 ˇcasova. Hipotezu H
0
: E(0.005) testiramo primenjuju´ci Pirsonov χ
2
test. Ovde je
r = 4, A
1
= [0, 100], A
2
= [100, 200], A
3
= [200, 300], A
4
= [300, +∞].
Za ove intervale nalazimo da je
N
1
= 47, N
2
= 40, N
3
= 35, N
4
= 28.
Dalje je
p
10
= P
H
0
(0 ≤ X < 100) =

100
0
f(x)dz =

100
0
0.005e
−0.005x
dx = 0.39,
p
20
= P
H
0
(100 ≤ X < 200) =

200
100
0.005e
−0.005x
dx = 0.24,
p
30
= P
H
0
(200 ≤ X < 300) =

300
200
0.005e
−0.005x
dx = 0.15,
p
40
= P
H
0
(X ≥ 300) =

+∞
300
0.005e
−0.005x
dx = 0.22.
Prema formuli (9) je
¯ χ
2
4−1
=
4
¸
j=1
(N
j
−150p
j0
)
2
150p
j0
=
(47 −58.5)
2
58.5
+
(40 −36)
2
36
+
(35 −22.5)
2
22.5
+
(28 −33)
2
33
= 11.56.
Usvojimo α = 0.01 i iz Tablice II ˇcitamo kritiˇcnu vrednost ¯ χ
2
3;0.01
= 11.34. Kako je ¯ χ
2
3
> ¯ χ
2
3;0.01
, odbacujemo
hipotezu H
0
: E(0.005).
6. Linearna regresija i korelacija
Reˇc regresija je dospela u statistiku kada je 1855. gidine Fransis Galton objavio publikaciju u kojoj
je analizirao visinu sinova u zavisnosti od visine oˇceva. Zakljuˇcak ove studije bio je da sinovi ekstremno
visokih oˇceva nisu toliko visoki, dakle, regresiraju.
Promena jednog obeleˇzja statistiˇckog skupa ˇcesto utiˇce na promenu drugih obeleˇzja zbog med¯usobne
povezanosti. Povezanost izmed¯u obeleˇzja moˇze se razlikovati i po smeru i po jaˇcini povezanosti. Najjaˇca
ili najuˇza veza izmed¯u obeleˇzja je funkcionalna veza, tj. takva veza da svakoj vrednosti jednog obeleˇzja
odgovara taˇcno odred¯ena vrednost drugog. Labavija veza izmed¯u obeleˇzja, koja su podloˇzna manjim ili
30
ve´cim odstupanjima, naziva se korelativnom (ili stohastiˇckom) vezom. Na primer, povrˇsina P kruga i
polupreˇcnik r su u funkcionalnoj vezi (P = r
2
π) a promenljive veliˇcine koje oznaˇcavaju visinu i teˇzinu
ljudi pokazuju izvesnu korelaciju, dok su brojevi taˇcaka koji se pojavljuju na dvema baˇcenim kockama
nekorelativne veliˇcine. Skup statistiˇckih metoda kojima se prouˇcavaju uzajamne veze statistiˇckih obeleˇzja
i pojava (smer, jaˇcina, oblik) naziva se teorijom korelacije, a osnovni pokazatelji korelacionih veza su
jednaˇcine regresije i koeficijent korelacije.
U velikom broju istraˇzivanja ili eksperimenata uoˇcava se veza izmed¯u dve ili viˇse promenljivih veliˇcina.
Od istraˇzivaˇca se u tom sluˇcaju oˇcekuje da utvrdi da li postoji i kakva je direktna funkcionalna zavisnost
med¯u tim veliˇcinama. Na primeru dva svojstva X i Y koja se istraˇzuju na nekom uzorku obima n, kao
rezultat posmatranja dobija se n ured¯enih parova realizacija (x
1
, y
1
), (x
2
, y
2
), . . . , (x
n
, y
n
). Oni se mogu
predstaviti u Dekartovoj ravni (slika 14), a grafiˇcka reprezentacija koja tom prilikom nastaje naziva se
dijagram rasturanja. Ovi dijagrami ilustruju redom pozitivne jaˇce i slabije korelacije, kao i sluˇcaj
nekorelativnosti.
Sl. 14 Dijagrami rasturanja taˇcaka
Da bi se na osnovu dijagrama rasturanja odredila funkcionalna zavisnost obeleˇzja X i Y potrebno je
,,aproksimirati” dobijeni skup podataka tzv. fitovanom krivom ili krivom regresije koriste´ci neki
od kriterijuma: zbir kvadrata odstupanja ordinata od krive je minimalan, zbir aposlutnih vrednosti
odstupanja je minimalan, itd. Na prikazanim slikama treba proveriti linearnu vezu y = ax +b na sl. a),
logaritamsku vezu y = a log(x + b) na sl. b), dok dijagram pod c) ne ukazuje ni na kakvu funkcionalnu
zavisnost. Ako je kriva regresije prava, tada postoji linearna korelacija, a ako je kriva regresije bilo
koja druga, onda postoji nelinearna korelacija. U naˇsem razmatranju bavi´cemo se samo linearnom
regresijom koja se u praksi najˇceˇs´ce pojavljuje.
Korelacija
U Teoriji verovatno´ce dokazuje se da za nezavisne sluˇcajne promenljive X i Y vaˇzi da je
E(XY ) −E(X)E(Y ) = 0.
Obrnuto, u opˇstem sluˇcaju, ne vaˇzi. Med¯utim, pokazuje se da se razlikom E(XY ) − E(X)E(Y ) moˇze
meriti stepen linearne zavisnosti izmed¯u X i Y.
Definicija 11. Za sluˇcajne promenljive X i Y definiˇsemo kovarijansu, u oznaci Cov:
Cov(X, Y ) = E(XY ) −E(X)E(Y ).
Koriste´ci osobine matematiˇckog oˇcekivanja moˇzemo izvesti i slede´cu formulu za kovarijansu:
Cov(X, Y ) = E

(X −E(X))(Y −E(Y ))

.
31
Lako se izvode slede´ce osobine kovarijanse.
Teorema 10. Neka su X i Y sluˇcajne promenljive i neka su a i b realni brojevi.
1

Ako su X i Y nezavisne sluˇcajne promenljive, tada je Cov(X, Y ) = 0. Obrnuto ne mora da vaˇzi.
2

Cov(X, Y ) = Cov(Y, X).
3

Cov(X, X) = D(X).
4

Cov(aX, bY ) = abCov(X, Y ).
5

Cov(X +a, Y +b) = Cov(X, Y ).
Definicija 12. Koeficijent korelacije izmed¯u sluˇcajnih promenljivih X i Y sa pozitivnim disperzi-
jama definiˇse sa
ρ(X, Y ) =
Cov(X, Y )

D(X)

D(Y )
.
Koeficijent korelacije se, u primenama, koristi kao mera linearne zavisnosti dve sluˇcajne promenljive.
Opravdanje za to daju tvrd¯enja slede´ce teoreme.
Teorema 11. Za sluˇcajne promenljive X i Y sa pozitivnim disperzijama vaˇzi:
1

−1 ≤ ρ(X, Y ) ≤ 1.
2

ρ(X, Y ) = ±1 ako i samo ako je P(Y = aX+b) = 1, a = 0, b ∈ R. Drugim reˇcima, ρ(X, Y ) = ±1
ako i samo ako je sa verovatno´com 1, Y rastu´ca (opadaju´ca) linearna funkcija promenljive X.
Definicija 13. Neka su X i Y sluˇcajne promenljive i neka je ρ(X, Y ) njihov koeficijent korelacije.
Kaˇzemo da su X i Y
• nekorelisane ako je ρ(X, Y ) = 0,
• pozutivno korelisane ako je ρ(X, Y ) > 0,
• negativno korelisane ako je ρ(X, Y ) < 0.
Iz Definicije 13 neposredno izlazi da su svake dve nezavisne sluˇcajne promenljive nekorelisane, dok
obrnuto, u opˇstem sluˇcaju, ne mora da vaˇzi. Napominjemo da koeficijent korelacije ukazuje samo na
linearnu vezu; mogu´ce je da bude ρ(X, Y ) = 0 a da, i pored toga, X i Y budu povezane nekom nelinearnom
vezom.
Kao empirijsko pravilo prihvata se slede´ce:
1) |ρ| < 0.3 – postoji sasvim neznatna linearna veza izmed¯u obeleˇzja i nesigurnog je znaˇcenja, naroˇcito
ako je obim uzoraka mali.
2) |ρ| izmed¯u 0.5 i 0.7 – postoji znaˇcajna linearna veza koja ima praktiˇcnu primenu.
3) 0.7 < |ρ| < 0.9 – pokazuje tesnu (linearnu) vezu.
4) |ρ| > 0.9 – znaˇci vrlo tesnu vezu.
Ako se koeficijent korelacije odred¯uje na osnovu uzorka (x
1
, y
1
), . . . , (x
n
, y
n
), tada se za njegovo
izraˇcunavanje koristi formula
ρ =
1
n
n
¸
k=1
x
k
y
k
− ¯ x¯ y

¸
1
n
n
¸
k=1
x
2
k
− ¯ x
2
¸¸
1
n
n
¸
k=1
y
2
k
− ¯ y
2
¸
, ¯ x =
1
n
n
¸
k=1
x
k
, ¯ y =
n
¸
k=1
y
k
.
32
Pod regresijom se u statistici podrazumeva zavisnost jedne sluˇcajne promenljive od druge ili viˇse
njih. Opˇsti model zavisnosti je
Y = f(X) +ε, (10)
gde je ε ∼ N(0, σ
2
) sluˇcajna promenljiva nezavisna od X, pri ˇcemu X moˇze biti skalarna ili vektorska
veliˇcina. f(X) je funkcija kojom se objaˇsnjava zavisnost izmed¯u X i Y. Sluˇcajna promenljiva X naziva
se kontrolisana a Y observirana (ili registrovana) sluˇcajna promenljiva.
Veliˇcina ε je sluˇcajna greˇska koja nastaje iz raznih razloga (ˇsum u telekomunikasionom prenosu, uticaj
kapacitivnosti i induktivnosti u elektronskim kolima, nepredvid¯ene oscilacije, itd.) Ona modeluje uticaj
raznih sluˇcajnih faktora koji se, na osnovu centralne graniˇcne teoreme, moˇze predstaviti normalnom
sluˇcajnom promenljivom ε sa E(ε) = 0 i nepoznatom disperzijom σ
2
.
+
X
Y
f
e
Sl. 15
Model (10) moˇze se predstaviti kao na sl. 15. Na ulazu u sistem imamo sluˇcajnu promenljivu X, a na
izlazu Y. Samo posmatranjem X i Y treba odrediti karakteristike sistema, tj. funkciju f.
Iz jednakosti (10) sleduje da je E(Y |X) = f(X), odakle se dobija
f(x) = E(Y |X = x). (11)
Funkcija f definisana sa (11) naziva se regresionom funcijom a odgovaraju´ca kriva krivom regresije.
Na osnovu (11) moglo bi se pretpostaviti da moˇzemo oceniti E(Y |X = x) tako ˇsto ´cemo za svaku
fiksiranu (ulaznu) vrednost X = x meriti izlaz Y dovoljan broj puta. U praksi obiˇcno nemamo uslove za
ovakav eksperiment i jedino ˇsto moˇzemo koristiti su parovi merenih vrednosti (x
i
, y
i
). Problem ocenjivanja
se moˇze uprostiti koriste´ci dodatne pretpostavke koje moˇzemo svrstati u dve kategorije:
• Pretpostavke o zajedniˇckoj funkciji raspodele za (X, Y ).
• Pretpostavke o obliku zavisnosti f.
Primer 29. U Teoriji verovatno´ce se dokazuje da ako sluˇcajni vektor (X, Y ) ima dvodimenzionalnu normalnu
raspodelu sa parametrima µ
X
, µ
Y
, σ
2
X
, σ
2
Y
i koeficijentom korelacije ρ = ρ(X, Y ), tada je
f(x) = E(Y |X = x) = µ
X

σ
Y
σ
X
(x −µ
x
).
Dakle, da bi se ocenila regresiona funkcija (u ovom sluˇcaju regresiona prava), potrebno je oceniti pet nepoznatih
parametara.
Na osnovu Primera 29 i uzimaju´ci u obzir da se normalna raspodela ˇcesto sre´ce u praksi i da se veoma
ˇcesto javlja kao (asimptotska) aproksimacija raspodela velikog broja sluˇcajnih promenljivih, zakljuˇcujemo
da je regresiona funkcija vrlo ˇcesto javlja u praksi kao linearna funkcija, u kom sluˇcaju imamo linearnu
regresiju (korelaciju).
Regresiona prava
Najjednostavniji sluˇcaj regresije je ako se pretpostavi u obliku
f(x) = ax +b, tj. Y = aX +b +ε. (12)
33
Koristi´cemo se slede´cim tvrd¯enjem.
Teorema 12. Neka su X i Y zavisne sluˇcajne promenljive. Tada je
E

Y −E(Y |X))
2

≤ E

Y −g(X))
2

za svaku funkciju g za koju postoji matematiˇcko oˇcekivanje na desnoj strani.
Na osnovu Teoreme 12 i (11) sledi da parametre a i b u (12) treba odrediti iz uslova
R(a, b) = E

(Y −aX −b)
2

−→ min.
Ispitajmo kada funkcija R(a, b) dostiˇze minimum. Iz uslova
∂R(a, b)
∂a
= E((Y −aX −b)X) = 0
∂R(a, b)
∂b
= E(Y −aX −b) = 0,
nalazimo reˇsenja
a =
E(XY ) −E(X)E(Y )
D(X)
, b = E(Y ) −aE(X). (13)
Prva jednakost u (13) moˇze se napisati u obliku
a = ρ(X, Y )

D(X)
D(Y )
.
Ako uvedemo oznake µ
x
, µ
Y
, σ
X
, σ
Y
, ρ, iz (12) i (13) nalazimo da je
f(x) = µ
X

σ
Y
σ
X
(x −µ
X
).
Pored¯enjem sa rezultatom Primera 29 vidimo da se dobija isti oblik regresione funkcije kao kada se
pretpostavi da je zajedniˇcka raspodela normalna. Ovo je vaˇzno svojstvo normalne raspodele:
Teorema 13. Regresiona funkcija je prava (regresiona prava)
E(Y |X = x) = µ
X

σ
Y
σ
X
(x −µ
X
)
ako i samo ako sluˇ acjni vektor (X, Y ) ima zajedniˇcku dvodimenzionalnu normalnu raspodelu.
Regresionu pravu ima smisla konstruisati i ako se zna da zajedniˇcka raspodela nije normalna. To
je onda prava koja od svih pravih linija najbolje opisuje zavisnost izmed¯u Y i X u smislu srednjeg
kvadratnog odstupanja. Ocenjena regresiona prava
y = ˆ ax +
ˆ
b
je prava koja, od svih pravih linija, najbolje opisuje zavisnost izmed¯u X i Y na osnovu datog uzorka.
Da bi se doˇslo do regresione prave, u praksi se za prost uzorak (X
1
, . . . , X
n
) nalazi realizovan uzorak
(x
1
, . . . , x
n
). Zatim se svakoj numeriˇckoj vrednosti x
k
pridruˇzuje sluˇcajna promenljiva Y
k
= aX
k
+b
k

k
obeleˇzja Y. Dakle,
(x
1
, Y
1
), (x
2
, Y
2
), . . . , (x
n
, Y
n
)
34
za koji realizovan uzorak ima oblik ured¯enih parova
(x
1
, y
1
), (x
2
, y
2
), . . . , (x
n
, y
n
).
Kao ˇsto je ranije napomenuto, ovi parovi ˇcine u ravni dijagram rasturanja za koji se ispituje tendencija
linearne zavisnosti.
U opisanom modelu potrebno je odrediti parametre a i b tako da postoji linerna zavisnost izmed¯u
vrednosti realizovanog uzorka, gde je
y
k
= ˆ ax
k
+
ˆ
b +ε
k
sa E(ε
k
) = 0,
pri ˇcemu su ˆ a i
ˆ
b ocene parametara a i b dobijene na osnovu uzorka.
Ideja je jednostavna i moˇze se jasno sagledati sa sl. 16. Rasipanje ,,roja” taˇcaka (x
1
, y
1
), (x
2
, y
2
),
. . . , (x
n
, y
n
) oko pretpostavljene regresione prave y = ax+b bi´ce najmanje ako je zbir apsolutnih vrednosti
,,ˇsumova” ε
1
, ε
2
, . . . , ε
n
(ili zbira njihovih kvadrata) minimalno. Drugi pristup je jednostavniji (metod
najmanjih kvadrata) pa, prema tome, parametre a i b ´cemo odrediti tako da zbir ε
2
1

2
2
+· · · +ε
2
n
bude
minimalan.
e
e
e
e
e
y
x o
y
=
a
x
+
b
1
1
2
2
3
3
n
n
4
4
x x x x x
Sl. 16
Uvedimo funkciju
G(ˆ a,
ˆ
b) =
n
¸
k=1

y
k
− ˆ ax
k

ˆ
b

2
.
Da bismo minimizirali funciju G(ˆ a,
ˆ
b) najpre nalazimo reˇsenja sistema jednaˇcina
∂G(ˆ a,
ˆ
b)
∂ˆ a
= 0,
∂G(ˆ a,
ˆ
b)

ˆ
b
= 0,
koji se svodi na sistem
2
n
¸
k=1
x
k
(y
k
− ˆ ax
k

ˆ
b) = 0, 2
n
¸
k=1
(y
k
− ˆ ax
k

ˆ
b) = 0. (14)
Uvedimo skra´cenice
¯ x =
1
n
n
¸
k=1
x
k
, ¯ y =
n
¸
k=1
y
k
.
Tada se sistem (14) svodi na sistem
ˆ a
1
n
n
¸
k=1
x
2
k
+
ˆ
b¯ x =
1
n
n
¸
k=1
x
k
y
k
, ˆ a¯ x +
ˆ
b = ¯ y. (15)
35
Odavde dobijamo ocene ˆ a i
ˆ
b koeficijenata a i b :
ˆ a =
1
n
n
¸
k=1
x
k
y
k
− ¯ x¯ y
1
n
n
¸
k=1
x
2
k
− ¯ x
2
,
ˆ
b = ¯ y − ˆ a¯ x. (16)
Koriste´ci ranije uvedene statistike, formule (16) mogu se napisati u obliku
ˆ a =
(XY )
n
−X
n
Y
n
S
2
n
,
ˆ
b = Y
n
− ˆ aX
n
.
Primetimo da su formule dobijene na osnovu ocena iz uzorka analogne formulama (13).
Koriste´ci ˆ a i
ˆ
b odred¯enim formulama (3) dobija se prava linearne regresije
y = ˆ ax +
ˆ
b.
Primer 30. Neka su x
1
= 1, x
2
= 2, x
3
= 4, x
4
= 5, x
5
= 8 vrednosti kontrolisane promenljive x, a
ogovaraju´ce registrovane vrednosti za posmatrano obeleˇzje Y su y
1
= 3, y
2
= 3, y
3
= 7, y
4
= 6, y
5
= 12.
Odrediti jednaˇcinu regresione prave.
Izraˇcunavanje koeficijeneta ˆ a i
ˆ
b je jednostavnije pomo´cu slede´ce tabele:
Σ
x
k
1 2 4 5 8 20
y
k
3 3 7 6 12 31
x
2
k
1 4 16 25 64 110
x
k
y
k
3 6 28 30 96 163
Sistem (15) u ovom sluˇcaju je
110ˆ a + 20
ˆ
b = 163,
20ˆ a + 5
ˆ
b = 31,
sa reˇsenjem ˆ a = 1.3,
ˆ
b = 1. Dakle, jednaˇcina regresione prave je y = 1.3x + 1.
Primer 31. Za nekoliko sluˇcajno odabranih porodica dobijeni su podaci o dnevnoj potroˇsnji mleka (u ) i
broju ˇclanova porodice (x):
broj ˇclanova porodice (x) 2 4 3 6 3 4 3 4
potroˇsnja mleka u 1 3 1 4 2 2 2 3
Odrediti pravu linearne regresije Y na x. Grafiˇcki predstaviti podatke i nacrtati pravu linearne regresije.
Proceniti potroˇsnju mleka u petoˇclanoj porodici.
Do reˇsenja ´cemo do´ci jednostavnije koriste´ci slede´cu tabelu:
Σ
x
k
2 4 3 6 3 4 3 4 29
y
k
1 3 1 4 2 2 2 3 18
x
2
k
4 16 9 36 9 16 9 16 115
x
k
y
k
2 12 3 24 6 8 6 12 73
36
Na osnovu formula (16) sada je (stavljaju´ci n = 8)
ˆ a =
1
8
· 73 −
1
8
· 29 ·
1
8
· 18
1
8
· 115 −

1
8
· 29)
2
= 0.785,
ˆ
b = ¯ y − ˆ a¯ x =
1
8
· 18 −0.785 ·
1
8
· 29 = −0.596.
Prava linearne regresije glasi y = 0.785x − 0.596 i prikazana je na sl. 17. Prognozu za petoˇclanu porodicu
(x = 5) izraˇcunavamo iz jednaˇcine prave:
y
(5)
= 0.786 · 5 −0.596 = 3.3291 .
1 2 3 4 6
1
2
3
4
5
3.3291
x
y
Sl. 17 Dijagram rasturanja i linearna prava regresije
37
Tablica I – Normalna raspodela
Laplaceova funkcija Φ(x) =
1


x

0
e
−t
2
/2
dt
Tablice daju vrednost izraza
Φ(x) =
1


x

0
e
−t
2
/2
dt
za vrednost argumenta x izmed¯u 0 i 3.5. Za negativne vrednosti koristimo relaciju
Φ(−x) = −Φ(x).
Vaˇze formule P(|X −µ| < ε) = 2Φ

ε
σ

, P(|X −µ| ≥ ε) = 1 −2Φ

ε
σ

.
38
Tablica II - χ
2
raspodela P(χ
2
n
≥ χ
2
n;α
) = α
39
Tablica III – Studentova t raspodela P(|t
n
| ≥ t
n;α
) = α

2

1) potpuna ispitivanja celokupne populacije; 2) delimiˇna ispitivanja, odnosno ispitivanje jednog dela populacije (uzorka). c Prva vrsta ispitivanja je vrlo retka u praksi. U ogromnoj ve´ini sluˇajeva koje sre´emo u primenama c c c nije mogu´e dobiti kompletnu informaciju o raspodeli obeleˇja u celoj populaciji. Razlog moˇe da leˇi c z z z u brojnosti populacije, u velikim troˇkovima vezanim sa registrovanjem obeleˇja kod svakog elementa, s z velikim gubitkom vremena, uniˇtavanju elemenata populacije (Primer 3), itd. s Zbog navedenih teˇko´a, po pravilu se iz cele populacije uzima jedan deo i to konaˇan i on se izuˇava. s c c c Taj deo se zove uzorak. Broj elemenata u uzorku je konaˇan i zove se obim uzorka. Na izabranom c uzorku regustruje se obeleˇje kod svakog elementa a zatim se vrˇi ekstrapolacija na celu populaciju, tj. z s dobijena raspodela obeleˇja proˇiruje se sa uzorka na ceo skup. Odmah se name´e pitanje tzv. reprezenz s c tativnosti takvog uzorka. Bez matematiˇke rigoroznosti moˇemo re´i da je neki metod uzimanja dela c z c z populacije reprezentativan, ako je kriterijum po kome se uzima taj deo nezavisan od obeleˇja koje posmatramo. Jedan od naˇina postizanja reprezentativnosti je da taj deo izaberemo sluˇajno. c c Metod sluˇajnog uzorka sastoji se u tome da se sluˇajno bira element ω iz Ω i registruje njegovo c c obeleˇje X = X(ω). Dakle, obeleˇje X je sluˇajna promenljiva i neka je F (x) njena funkcija raspodele. z z c Ako vrˇimo n takvih biranja elemenata, odnosno registrovanja obeleˇja X, imamo uzorak obima n, tj. s z n-dimenzionalnu sluˇajnu promenljivu (X1 , . . . , Xn ), gde je Xi (i = 1, . . . , n) obeleˇje X u i-tom biranju. c z Prost sluˇajni uzorak je uzorak kod koga su sluˇajne promenljive Xi (i = 1, . . . , n) nezavisne c c i imaju istu raspodelu kao X. Odred ¯ene numeriˇke vrednosti kojima registrujemo sluˇajne promenljive c c Xi (i = 1, . . . , n) obeleˇavamo malim slovima xi . n-dimenzionalni vektor (x1 , . . . , xn ) baziva se realizoz van uzorak. Ocena generalnog skupa (populacije) na osnovu podataka iz uzorka, predstavlja oblik induktivnog uopˇtavanja: osobine ispitanog dela pripisuju se celini iz koje je uzet. Da bi uzorak dobro reprezentovao s generalni skup, mora da budu ispunjeni slede´i uslovi: c 1) svaki element generalnog skupa mora da ima jednaku ˇansu da ud u uzorak; s ¯e 2) uzorak mora da bude dovoljno brojan. Osnovni zadatak Matematiˇke statistike jeste da pomo´u uzorka (X 1 , . . . , Xn ) odredi raspodelu F (x) c c obeleˇja X. Da je to mogu´e tvrdi centralna teorema statistike (o kojoj ´e biti reˇi kasnije) pod z c c c uslovom da je n vrlo veliko. Kako u primenama radimo samo sa konaˇnim obimom uzorka, raspodelu c za X moˇemo da odredimo samo pribliˇno, utoliko taˇnije ukoliko je n ve´e. U reˇavanju postavljenog z z c c s problema radimo sa funkcijama sluˇajnog uzorka (X1 , . . . , Xn ). c Definicija 1. Za dati prost uzorak (X1 , . . . , Xn ), empirijska funkcija raspodele definiˇe se, za s c svako x ∈ R, sa Sn (x) = k/n, gde je k broj elemenata iz uzorka koji nisu ve´i od x. Neka je X(1) , X(2) , . . . , X(n) varijacioni niz, koji ˇine vrednosti sluˇajnih promenljivih X1 , X2 , . . . , Xn c c ured ¯ene po veliˇini od najmanje do najve´e. Tada se empirijska raspodela moˇe odrediti pomo´u c c z c   0, ako je x < X(1) ,   k Sn (x) =  n , ako je X(k) ≤ x ≤ X(k+1) , 1 ≤ k ≤ n − 1,   1, ako je x ≥ X(n) .

(1)

Primer 4. U eksperimentu su dobijene slede´e brojne vrednosti uzorka obima n = 10 : 9, 15, 7, 11, 17, 9, 7, c 12, 7, 15. Varijacioni niz je 7, 7, 7, 9, 9, 11, 12, 15, 15, 17. Iz jednakosti (1) ili direktno iz Definicije 1 nalazimo da je

3

Stepenasta kriva empirijske funkcije raspodele Sn (x) prikazana je na gornjoj slici desno.

  0, x < 7,   3   10 , 7 ≤ x < 9,    5   , 9 ≤ x < 11,  10  6 , 11 ≤ x < 12, Sn (x) =  10  7   10 , 12 ≤ x < 15,    9  , 15 ≤ x < 17,   10   1, x ≥ 17.

Neka je X ∈ R fiksirano. Definiˇimo Yi = 1 ako je Xi ≤ x i Yi = 0 ako je Xi > x. Tada zbir Y1 +· · ·+Yn s predstavlja broj onih sluˇajnih promenljivih iz uzorka X1 , . . . , Xn ˇije su vrednosti ≤ x, pa je c c Y1 + · · · + Y n . n Prema zakonu velikih brojeva za svako fiksirano x ∈ R vaˇi z Sn (x) = P
n→+∞

lim

Sn (x) = F (x) = 1.

(2)

Ovaj rezultat opravdava aproksimaciju funkcije raspodele njenom empirijskom raspodelom dobijenom iz uzorka. Slede´a teorema, poznata i pod nazivom centralna teorema statistike, tvrdi da je ta c aproksimacija uniformna po x : Teorema 1 (Glivenko-Kantelijeva teorema). Ako je F (x) funkcija raspodele sluˇajne promenljive c X i Sn empirijska funcija raspodele dobijena iz prostog uzorka (X1 , . . . , Xn ) obima n, tada je P sup |Sn (x) − F (x)| → 0, kada n → +∞ = 1.
x∈R

Smisao ove teoreme je slede´i: kada je uzorak dovoljno brojan, tada sa verovatno´om bliskom jedinici c c empirijska raspodela se malo razlikuje od teorijske, drugim reˇima, ukoliko je uzorak brojniji, utoliko c bolje reprezentuje celokupnost.

2. Prikazivanje statistiˇkih podataka iz uzorka c
Eksperimentalni podaci se, radi statistiˇke obrade, predstavljaju na dva osnovna naˇina: tabliˇno i c c c grafiˇki. Tabliˇni metod daje podatke u obliku tabele, ˇesto pored c c c ¯ane u rastu´em poretku daju´i tzv. c c varijacioni niz obeleˇja. On pruˇa osnovu za dalja razmatranja u vezi sa raspodelom. z z Primer 5. U 20 odeljenja osnovne ˇkole registrovan je broj uˇenika sa natproseˇnim sposobnostima: 5, 6, 8, s c c
10, 9, 8, 4, 7, 7, 3, 6, 4, 8, 7, 6, 6, 5, 3, 6, 6. Varijacioni niz uzorka je: 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 8, 8, 9, 10. Za odred ¯ivanje raspodele obeleˇja koristi se slede´a tabela: z c

Tabela 1

4 U tabeli su koriˇ´ene oznake: k –broj odeljenja sa posmatranim brojem natproseˇnih uˇenika. histogram (iskljuˇivo za obeleˇje apsolutno neprekidnog tipa) i sliˇno. c z c Na slikama od 1 do 3 prikazani su podaci koji se odnose na Primer 5. a zatim se duˇina intervala raˇuna po formuli z c xmax − xmin . f –relativna uˇestanost. . Strogog pravila za izbor broja i duˇine intervala nema. c Raspodela obeleˇja grafiˇki se prikazuje preko uˇestanosti. gde je nx . zbirnih uˇestanosti ili zbirnih relativnih z c c c uˇestanosti. . nx –broj odeljenja sa ne viˇe od x natproseˇnih uˇenika. √ n. Sl. Broj intervala k se moˇe odrediti i na jedan od slede´ih naˇina: k = z c c ili k = 5 log10 n. f –apsolutna sc c c ∗ uˇestanost. kumulativna c c c sc kriva. a ˇto se moˇe zapaziti i iz tabele X. b) relativnih uˇestanosti u % (Primer 5) c c . 1 Poligoni: a) apsolutnih uˇestanosti. Broj i raspored intervala zavisi od broja podataka i samog obeleˇja. . emprijiske funkcije raspodele. ali se u praksi preporuˇuje da broj intervala k zadovolji nejednakosti z c 1 + 3. razni dijagrami. k h= pri ˇemu se vodi raˇuna da su granice intervala jednostavne za rad (celi brojevi. Kumulativna kriva relativnih uˇestanosti sa slike 3a c prikazuje emprijsku funkciju raspodele. Grafiˇki metodi prikaza su najˇeˇ´e poligon. c c s c c f –zbirna (kumulativna) uˇestanost. c Od posebnog interesa su zbirne relativne uˇestanosti Sn (x) = nx /n. brojevi deljivi sa 5 i c c sliˇno). sluˇajna c c veliˇina. c f ∗ –zbirna relativna uˇestanost. . funkcijom S n (x) = nx /n je c s s z odred ¯ena empirijska funkcija raspodele obeleˇja X (broj natproseˇnih uˇenika u pojedinim odeljez c c njima u Primeru X. Figure na slikama 1a i 1b su poligoni.) Kod obeleˇja apsolutno neprekidnog tipa podaci u tabeli se sred z ¯uju po unapred odabranim intervalima z (klasama). zapravo. tj. Kao ˇto smo ranije videli. xn ). a na slikama 2 i 3b su trakasti dijagrami.322 log10 n = 1 + log2 n ≤ k ≤ 5 · log10 n za obim uzoraka n. k = 2n1/3 Duˇine intervala se odred z ¯uju na slede´i naˇin: Odred c c ¯uju se najmanja x min i najve´a xmax vrednost u c realizovanom uzorku (x1 .

v. s. Na osnovu niza c realizacija dobijena je tabela Tabela 2 Prilikom grafiˇkog prikaza kvalitativnih obeleˇja. v. itd. Testom za proveru motornih sposobnosti je meren nivo sposobnosti uˇenika jednog odeljenja i c dobijeni rezultati su svrstani u tri kategorije: nizak (n). vrednosti obeleˇja se mogu proizvoljno pored c z z ¯ati. s. s. s. 2 Trakasti dijagram apsolutnih uˇetanosti (Primer 5) s Sl. n. b) trakasti dijagram zbirnih uˇestanosti (Primer 5) c c Primer 6. srednji (s) i visok (v) nivo sposobnosti. U odeljenju je registrovan slede´i niz podataka: n. n. v. s. recimo prema raˇ´enju ili opadanju uˇestanosti. azbuˇnom redu. s. v.5 Sl. Na slikama 4 i 5 prikazana su ˇetiri sc c c c karakteristiˇna naˇina ilustracije apsolutne uˇestanosti kod kvalitativnih obeleˇja (za Primer 6). 3 a) Kumulativna kriva relativnih uˇestanosti. s. n. s. c c c z . v. v. v. n. s. n. s. v.

. n 8. . . Xn ) koja ne zavisi eksplicitno od nepoznatih parametara. Xmax – maksimum uzorka ili najve´a vrednost uzorka. c 3. S n = ˜2 6. k=1 n 1 (Xk n−1 k=1 2 S n – standardno odstupanje uzorka. 4 a) Vertikalni i b) horizontalni trakasti dijagram (Primer 6) Sl. . . 2. Sn = 7.6 Sl. 5 Podela a) kruga (.pita”. Tn = k=1 Xk – total uzorka..kolaˇ”) i b) pravougaonika za prikazivanje uˇestanosti u uzorku (Primer 6) c c Definicija 2. Statistika je sluˇajna promenljiva koja opisuje empirijsku raspodelu obeleˇja X. n 4. Xmin – minimum uzorka ili najmanja vrednost uzorka.. Neke vaˇnije statistike c z z su 1. S n = 2 1 n k=1 n 1 n Xk – sredina uzorka. . (Xk − X n )2 ) – disperzija uzorka. Statistika Z je funkcija uzorka Z = f (X1 . − X n )2 – popravljena disperzija uzorka. R = Xmax − Xmin – raspon uzorka. X n = 5.

Raspodela obeleˇja X potpuno je odred c c c z ¯ena parametrom p. .7 9. k=1 Napomena 1. Na osnovu z centralne graniˇne teoreme moˇemo viˇe da kaˇemo o ovoj pribliˇnosti i da je ocenimo. Disperzija uzorka S n se jednostavnije raˇuna po formuli c Sn = Zaista. Xn ) preimenovati u (I1 . . Dakle. . 2 Primer 7. Opisani eksperiment sa Bernulijevom raspodelom c duˇine n definiˇe binomnu raspodelu Sn : B(n. n 1 Primetimo da pq = p(1 − p) = p − p2 za 0 < p < 1 nije ve´e od 1/4. Izmenimo oznake tako ˇto ´emo uzorak (X1 . Na primer. . Prost sluˇajan uzorak obezbed c ¯ujemo ako kuglice izvlaˇimo jednu po jednu i poˇto kod svake registrujemo njenu c s boju vra´amo je u kutiju pre slede´eg izvlaˇenja. . . za c pq i disperzija nije ve´a od 1/400. Gustina raspodele skicirana c n = 100 raspodela za X 100 je pribliˇno N p. σ 2 (X n ) = pq . σ 2 (X n ) ≤ 4n . tj. . In ). Tada je sluˇajna promenljiva c c Sn = I 1 + I 2 + · · · + I n jedna statistika koja predstavlja broj izvuˇenih belih kuglica. Kako Sn ima pribliˇno c z s z z z raspodelu N (np. npq). gde je Ik (k = 1. na osnovu zakona velikih brojeva sledi P |X n − p| ≥ ε → 0 kad n → ∞.Y = n 2 Xk − (X n )2 . imamo 2 Sn 2 2 1 n n k=1 2 Xk − X n . Uvedimo z s statistiku Xn = X1 + · · · + X n Sn = . . n) u s c stvari indikator dogad ¯aja da u k -tom izvlaˇenju kuglica bude bele boje. 2 1 = n 1 = n n k=1 n 1 (Xk − X n ) ) = n 2 2 Xk n k=1 2 (Xk − 2X n Xk + X n ) 2 Xn 2 k=1 1 − 2 Xn n n Xk + k=1 1 = n n k=1 2 Xk − X n . sledi da X n = Sn /n takod ima pribliˇno normalnu raspodelu sa parametrima E(X n ) = ¯e z = . U Primeru 1 obeleˇje X uzima dve vrednosti: 1 ako je kuglica bela i 0 ako je kuglica crna. gde je S X = 1 n SY = k=1 1 n n 2 Yk − (Y n )2 . p) za koju znamo da je E(Sn ) = np i σ 2 (Sn ) = npq. . z Sluˇajna promenljiva X ima Bernulijevu raspodelu verovatno´a c c X: 1 0 p q . z 100 1 2 n2 σ (Sn ) 1 Kako je E(X n ) = n E(Sn ) = p. n n p. Xi Y i − X n Y n SX SY . . statistika X n sve je bliˇa nepoznatom parametru p sa porastom obima uzorka n. . koeficijent korelacije uzorka 1 n n i=1 RX. .

6 Dakle. n x (x > 0) nazivamo hi kvadrat raspodelom sa n stepeni slobode. Neke raspodele vaˇne u statistici z Hi kvadrat raspodela U Teoriji verovatno´e. λ). ali je u primenama vaˇan sluˇaj kada je n prirodan broj. λ2 ϕ(t) = λα . razmatraju´i raspodele neprekidnih sluˇajnih promenljivih.9555. . Za ovu raspodelu je f (x) = λα e−λx xα−1 . 7 prikazana je gustina funkcije za nekoliko stepeni slobode. Broj n moˇe biti proizvoljan z pozitivan broj. Γ(α) E(X) = α . Na sl. Raspodelu definisanu gustinom f (x) = 1 2n/2 Γ( n ) 2 x 2 −1 e− 2 .47725 = 0. u oznaci χ2 (n). (λ − it)α (3) z c Poseban sluˇaj ove raspodele.1 = P |S100 − 100p| < 10 100 S100 − 100p 10 1 S100 − 100p √ √ =P <√ <√ =P pq 100pq 100pq 100pq 1 ≥ P |Z ∗ | < 2 = 2Φ(2) = 2 · 0. Za n = 2 dobija se E(1/2) z c raspodela. 1 ) ima vaˇne primene u verovatno´i i statistici.1 manje su od 5%. Na primer c P |X 100 − p| < 0. λ D(X) = α .8 je na slici 6. definisali smo Gama c c c raspodelu sa parametrima α i λ. s s 3. u oznaci Γ(α. c 2 2 Definicija 3.1 = P S100 − p < 0.. ≈ P |Z ∗ | < √ pq Sl. Γ( n .ˇanse” da X 100 odstupi od nepoznatog parametra p viˇe od 0. . Vidimo da su verovatno´e odstupanja X n od nepoznatog parametra p vrlo male.

. Time je dokaz zavrˇen.broj stepeni slobode”. n ∈ N. 7 Gustine hi kvadrat raspodele Na osnovu izraza za karakteristiˇnu funkciju Gama raspodele (3). X2 . . . n (5) Iz oblika karakteristiˇne funkcije (4) vidimo da zbir nezavisnih sluˇajnih promenljivih sa χ 2 (ni ) c c 2 raspodelom (i = 1. . 1). . 1) raspodelom i neka je c 2 2 V = X1 + · · · + X n . Xn u izrazu za χ2 . n Da bismo istakli da sluˇajna promenljiva V ima χ2 (n) raspodelu. Xn nezavisne sluˇajne promenljive sa N (0. potiˇe uglavnom od ove osobine. . Neka su X1 . 2 1 − 2it 2 Pored ¯enjem sa (4) vidimo da svaka od nezavisnih sluˇajnih promenljivih Xi (i = 1. . Ako bi. c Dokaz. Sluˇajna promenljiva V ima χ2 (n) raspodelu. . a ovo je karakteristiˇna funkcija χ2 (n) raspodele. . broj stepeni slobode c s oznaˇava broj linearno nezavisnih sluˇajnih promenljivih med X1 . . . . . c c ¯u n . S obzirom da su X1 . u nastavku ´emo umesto V pisati c c Iz (3) (za α = n/2 i λ = 1/2) dobijamo E(χ2 ) = n. koji se koristi za parametar hi kvadrat raspodele. . . Xn nezavisne sluˇcjne promenljive. . 1 ϕ0 (t) = √ 2π +∞ −∞ 2 X ∼ N (0. u specijalnom sluˇaju za α = n/2 i c c λ = 1/2 dobijamo karakteristiˇnu funkciju χ2 (n) raspodele c ϕ(t) = 1 . c c Karakteristiˇna funkcija svakog sabirka je c ϕ0 = E(eitX ). n D(χ2 ) = 2n. Sluˇajna promenljiva V je zbir n nezavisnih sluˇajnih promenljivih sa istom raspodelom. . . .9 Sl. k) ima χ (n1 + · · · + nk ) raspodelu. eitx · e−x 2 2 /2 1 dx = √ 2π +∞ −∞ exp − x2 (1 − 2it) 1 dx = √ . n) ima χ2 (1) c raspodelu. c s χ2 . odnosno. (1 − 2it)n/2 (4) Teorema 2. Naziv . . karakteristiˇna funkcija njihovog a c zbira je n ϕ(t) = ϕ0 (t) = (1 − 2it)−n/2 . . Suˇtinski.

30) i dati broj α (0 < α < 1) (obiˇno α = 0. .α 2 povrˇinu izmed x-ose i krive gustine za x > χn. . broj stepeni slobode je umanjen za 1. S obzirom na najˇeˇ´u c c sc primenu u Matematiˇkoj statistici te tablice su tako saˇinjene da za dati stepen slobode n (obiˇno c c c n = 1. c Verovatno´e vezane za hi kvadrat raspodelu daju se tabelarno (videti Tabelu II).α (ovo nije sluˇajna promenljiva. 0.01.80) u tablici ˇitamo broj χ 2 c c n. a to je karakteristiˇna funkcija χ2 (n + r) raspodele. znaˇi da χn ima probliˇno N (n. . 8 Na sl. . n+r ϕX+Y (t) = (1 − 2it)−n/2 (1 − 2it)−r/2 = (1 − 2it)− 2 . 2n) raspodelu. . s ¯u U tablicama se broj stepeni slobode n obiˇno ne daje za n ≥ 30. za razliku od χ2 ) takav da je c n P (χ2 ≥ χ2 ) = α. tj. n n. 1). lako se dokazuje slede´a teorema. . iz nezavisnosti X i Y sledi ϕX+Y (t) = ϕX (t)ϕY (t). . vaˇi c z z teorema. c Raspodela matematiˇkog oˇekivanja µ i sredine X n = (X1 + · · · + Xn )/n je razmatrana u slede´oj c c teoremi. 2. Xn postojala jedna linearna veza. . tada ¯u bismo imali 2 2 2 χ2 = X 1 + X 2 + · · · + X n . .α Sl. funkcija raspodele sluˇjne promenljive a χ2 − n n √ 2n konvergira funkciji raspodele N (0. c z c c n 2 2 2 Kako je E(χn ) = n i D(χn ) = 2n. Koriste´i osobinu karakteristiˇne funkcije nezavisno promenljivih. n−1 dakle. Preciznije.05. X2 .10 na primer. Za n ≥ 30 na osnovu centralne c graniˇne teoreme χ2 ima pribliˇno (i to za primene sasvim zadovoljavaju´e taˇno) normalnu raspodelu. . Teorema 4. . Dokaz. Ako su X i Y nezavisne sluˇajne promenljive takve da X ima χ2 (n)raspodelu a Y χ2 (r) c 2 raspodelu. 0. 8 prikazana je jedna hi kvadrat gustina . broj χ2 i broj α koji (kao verovatno´a) predstavlja c n. Kada n → +∞. med X1 . tada X + Y ima χ (n + r) raspodelu. recimo X1 + X2 + · · · + Xn = 0. . . Kako je ϕX (t) = (1 − 2it)−n/2 i ϕY (t) = (1 − 2it)−r/2 . c c c Teorema 3.α .

σ 2 )) n 1 2 (Xk − Xn )2 . . Xn nezavisne sluˇajne promenljive sa istom raspodelom N (µ. . Na osnovu Primera 8 c sledi da standardizovana sluˇajna promenljiva c X∗ = Xn − µ √ σ/ n . . . σ 2 ) raspodelom. Napomena 3. . . . . U sluˇaju 2◦ broj stepeni slobode je n − 1 jer med sluˇajnim promenljivim Xk − X n c ¯u c postoji jedna linearna veza n n k=1 (Xk − X n ) = k=1 Xk − nX n = 0. . . populacije ˇije je obeleˇje c z X ∼ N (µ. tada na osnovu centralne graniˇne teoreme sredima uzorka c Xn = ima pribliˇno normalnu raspodelu. tj. . . Xn nezavisne sluˇajne promenljive i da c c svaka ima istu raspodelu kao i obeleˇje X. . Xn ) veliki (recimo z n ≥ 30). Neka obeleˇje X ima E(X) = µ i D(X) = σ 2 . Tada c vaˇi z n 1 1◦ 2 (Xk − µ)2 ∼ χ2 (n). da su X1 . Ako je obim uzorka (X1 . Kako je z X1 + · · · + X n n E(X n ) = E i 1 n n n Xk = k=1 1 n n E(Xk ) = k=1 1 · nµ = µ n D(X n ) = D 1 n Xk = k=1 1 n2 n D(Xk ) = k=1 1 σ2 · nσ 2 = . . σ 2 /n). . Neka su X1 . . z Na osnovu dobijenog rezultata vidimo da standardizovana sluˇajna promenljiva c raspodelu N (0. Xn − µ √ ima normalnu σ/ n Studentova t raspodela Neka su X1 . . n2 n sledi da je to normalna raspodela N (µ. σ k=1 n 2 ◦ 1 σ2 k=1 (Xk − Xn )2 ∼ χ2 (n − 1). Xn nezavisne sluˇajne promenljive sa N (µ. . Sn = n k=1 Na osnovu 2◦ sledi da sluˇajna promenljiva c nS n ima χ2 (n − 1) raspodelu. Xn ) prost uzorak. 1). Posmatrajmo disperziju uzorka iz normalne populacije (tj.11 Teorema 5. σ 2 ). Primetimo da smo u gornjem izraˇunavanju E(X n ) i D(X n ) c koristili ˇinjenicu da je (X1 . σ2 2 Primer 8. . Napomena 2. .

1) raspodelom (isprekidana linija) Primene t raspodele proizilaze iz slede´e teoreme. verovatno´e vezane za t raspodelu daju se tabliˇno (Tabela III). ali se ova raspodela uglavnom koristi kada je n ∈ N. 1) i χ2 nezavisne. On je radio u Guinnessovoj pivari u Dablinu c c (Irska) i iz poslovnih razloga koristio je pseudonim Student. n > 0 naziva se Studentovom t raspodelom sa n stepeni slobode. Za veliko n. Kao i u sluˇaju χ2 raspodele. t(n) raspodela moˇe se aproksimirati N (0. iz tablica se ˇita pozitivan broj t n. 15 u pored ¯enju sa normalnom N (0.α takav da c je P (|tn | ≥ tn. 1) raspodelu. 9 Gustine t(n) raspodele za n = 2. 1) raspodelom. u oznaci t(n). Med ¯utim. Tada sluˇajna promenljiva c c n tn = ima t(n) raspodelu. z s Sl. Ovu raspodelu je otkrio c i prouˇavao Vilijam Goset poˇetkom dvadesetog veka. ako σ 2 nije poznato. Raspodela definisana funkcijom gustine Γ n+1 2 f (x) = √ nπ Γ n 2 x2 1+ n −(n+1)/2 . uzima se ocena s2 = i formira se sluˇajna promenljiva c tn = Xn − µ √ s/ n 1 n−1 n k=1 (Xk − X n )2 ˇija raspodela je poznata pod nazivom t raspodela ili Studentova raspodela. √ n Z∗ χ2 n .α ) = α. kao ˇto se vidi na slici 9. 5. Parametar n moˇe biti z proizvoljan pozitivan broj. Za c c c odred ¯eni broj stepeni slobode n i dati broj α (0 < α < 1).12 ima standardnu normalnu N (0. c Teorema 6. x ∈ R. Definicija 4. Neka su sluˇajne promenljive Z ∗ ∼ N (0.

. n−1= √ 2 2 Sn nS n Sn n σ 2 (n − 1) n−1 σ Xn − µ √ nS n ima standardnu N (0. Skup mogu´ih (dozvoljenih vrednosti) parametra θ obeleˇavamo c z sa Θ.α ) = α α + = α. .α ) = P (tn ≥ tn. xn ) uzmemo broj un = θ(x1 . Ta ocena moˇe biti nad z ¯ena na dva naˇina: kao taˇkasta ili intervalna ocena. tada statistika Xn − µ √ n−1 Sn ima Studentovu t(n − 1) raspodelu. ˆ koja daje bliske vrednosti nepoznatom to je tzv. .α } i {tn ≤ −tn. . Xn ) uzorak iz populacije sa obeleˇjem X koje ima normalnu raspodelu z 2 N (µ. Primetimo da je P (|tn | ≥ tn. . Xn ) nezavisan uzorak iz neke raspodele. Cilj je odabrati takvu statistiku θ c parametru θ koji ocenjujemo. . 2 2 Sl. σ 2 )) ili skalar z c (kao kod Puasonove raspodele θ = λ). taˇkasta ocena. . c c ˆ Ako za ocenu parametra θ u jednom realizovanom uzorku (x1 . Xn ) kojom ´e se ¯e c oceniti parametar θ. 10 Teorema 7. gde θ moˇe biti vektor (kao u sluˇaju normalne raspodele. xn ). . U opˇtem sluˇaju ovaj uzorak zavisi od s c nepoznatog parametra θ. θ = (µ. . . . . . Dokaz. a 2n ima χ2 (n − 1) raspodelu (Napomena σ σ Xn − µ √ n − 1 ima Studentovu t(n − 1) raspodelu. σ ). . .α ) + P (tn ≤ −tn. Jednostavnim transformacijama poˇetne statistike dobijamo c n Xn − µ √ (X n − µ) n Xn − µ √ σ = σ . . ˆ ˆ Problem ocene parametara sastoji su u tome da se nad statistika θ = θ(X1 . Ako je (X1 .13 Na slici 10 verovatno´a je prikazana kao zbir ˇrafiranih povrˇina koje odgovaraju dogad c s s ¯aja {t n ≥ tn. . Ocene parametara Neka je (X1 .α }. . . 3). 1) raspodelu (Primer 8). . Koriste´i Teoremu 6 zakljuˇujemo da c c Sn 2 √ 4. .

1 = 2E n 2 n 2 Xk + k=1 i=j Xi Xj = 1 n−1 2 E(X 2 ) + E (X). . . Svaka stabilna ocena parametra θ je asimptotski centrirana. Ocenimo ovaj parametar pomo´u sredine uzorka c Xn = X1 + · · · + X n . . n n imamo da je E(S n ) = n−1 n−1 2 n−1 2 E(X 2 ) − E (X) = σ . Ispitajmo da li je disperzija uzorka S n centrirana u odnosu na disperziju σ 2 . Pokaˇimo da je ocena i stabilna. Primer 10. . Najpre izraˇunavamo c E(S n ) = E =E Kako je 2 E(X n ) 2 2 1 n 1 n n k=1 n (Xk − X n )2 = E 2 Xk − X n = 2 1 n n 2 Xk − k=1 2 Xn n 2 n Xk + k=1 1 n n Xn k=1 2 2 k=1 1 n n k=1 2 E(Xk ) − E X n = E(X 2 ) − E(X n ).. .u proseku” dobijamo taˇan rezultat µ. Med ¯utim. n→+∞ • Ocena je centrirana ako je ˆ • Ocena je asimptotski centrirana ako E(θ) → θ kada n → +∞. popravljenu disperziju uzorka z c ˜2 Sn = 1 n−1 n k=1 (Xk − X n )2 . Ocena X n je centrirana. Xn ) prost uzorak. te je ocena i stabilna (postojana). kako n−1 → 1 kada n → +∞.14 Taˇkaste ocene c sc c Naveˇ´emo neke kriterijume na osnovu kojih procenjujemo koliko je dobra izabrana taˇkasta ocena. Xn ) statistika koja se koristi kao ocena parametra θ. Neka je (X1 . . sledi da je ova ocena asimptotski centrirana. Xn ) nezavisan uzorak iz raspodele sa nepoznatim matematiˇkim oˇekivanjem c c µ. ˆ ˆ Definicija 5. Neka je θ = θ(X1 . ako je ˆ lim P (|θ − θ| > ε) = 0 za svako θ ∈ Θ i ε > 0. svaka centrirana ocena nije stabilna. . To znaˇi da ako ponavljamo ocenjivanje veliki broj puta. n ˆ E(θ) = θ za svako θ ∈ Θ. . ..popraviti” ocenu obeleˇja X : Uoˇimo tzv. n Iz (6) vidimo i kao treba . c U Primeru 8 vudeli smo da je E(X n ) = µ. . Napomena 4. tj. Primer 9. n n n 2 (6) z Na osnovu poslednjeg izraza zakluˇujemo da ocene statistike (disperzije uzorka) S n za disperziju σ 2 obeleˇja X c nije centrirana. S druge strane. ˆ ˆ • Kaˇemo da je θ stabilna ili postojana ocena za θ ako θ konvergira u verovatno´i ka θ kada z c n → +∞. . . . Na osnovu zakona c z velikih brojeva sledi da je n→+∞ lim P 1 n n k=1 Xk − µ ≥ ε → 0. . Neka je (X1 .

X2 ) nezavisan uzorak iz raspodele sa nepoznatim matematiˇkim oˇekivanjem c c µ. ˆ ˆ Neka su θ1 i θ2 centrirane ocene parametra θ. Xn ).15 ˜2 Kako je Sn = 2 n n−1 S n . Disperzija ove ocene ˆ je α2 + (1 − α)2 i minimalna je za α = 1/2. najbolja (najefikasnija) ocena u skupu {ˆ α } je µ µ1/2 = (X1 + X2 )/2. θ)dx b) Ako je obeleˇje X diskretnog tipa sa skupom vrednosti {x1 . n−1 n−1 n n n−1 ˜2 Dakle. x2 . Iz Definicije 6 proizilazi da je bolja ona ocena koja ima manju disperziju. tada je ˆ ˆ D(θn ) = E (θn − θ)2 ≥ 1 ∂ log pi (θ) ∂θ 2 . c z Teorema 8 (Nejednakost Rao-Kramera). θ) ∂θ 2 . Prema tome. ˆ • Neka je S dati skup statistika na bazi uzorka (X1 . Najefikasnija je ona ocena θn za koju je dostignut infimum disperzije a kao meru efikasnosti neke ocene moˇemo uzeti z ∗ D(θn ) . . . ˆ Od interesa je odrediti donju granicu disperzije svih mogu´ih centriranih ocena parametra θ. . } i ako stavimo pi (θ) = P (X = z xi ) (i = 1. Za kriterijum bliskosti stvarnoj vrednosti z ˆ ˆ parametra uzima se srednje kvadratno odstupanje. 2. disperzija D( θ) = E((θ − θ)2 ) koja s predstavla meru rasejavanja. ˆ ˆ ˆ Definicija 7. • Ocena θ1 je bolja (u smislu srednjeg kvadratnog odstupanja) od ocene θ2 ako je ˆ ˆ E((θ1 − θ)2 ) < E((θ2 − θ)2 ). Kaˇemo da je ocena θ1 efikasnija od z ˆ ˆ ˆ ocene θ2 ako je D(θ1 ) ≤ D(θ2 ) za svako θ ∈ Θ. θ ∈ S . Sn je centrirana ocena za σ 2 . . ˇto je isto. . a) Ako je obeleˇje X neprekidnog tipa sa funcijom gustine f (x. Primetimo da ako je n veliko. . tada je uzorka nema znaˇaja da li uzimamo c 2 Sn ˜2 ili Sn kao ocenu za disperziju. f (x. imamo ˜2 E(Sn ) = n−1 2 n n 2 E(S n ) = · σ = σ2 . (θ ∈ Θ). ˆ ˆ Definicija 6. Neka je (X1 . . Svaka statistika oblika µα = αX1 + (1 − α)X2 jeste centrirana ocena parametra µ. tada je z ˆ ˆ D(θn ) = E (θn − θ)2 ≥ +∞ n −∞ 1 ∂ log f (x.. κ= ˆ D(θ) . pi (θ) n i ∗ Definicija 8. Kaˇemo da je ocena θ∗ najbolja ocena z ˆ ˆ ˆ ˆ parametra θ na skupu S ako θ∗ ∈ S i E((θ∗ − θ)2 ) = min E((θ − θ)2 ). . ). ≈ 1 tako da kod velikog broja Centriranost i stabilnost su poˇeljne osobine svake ocene. Bez c dokaza navodimo slede´i vaˇan rezultat. Neka su θ1 i θ2 centrirane ocene parametra θ. . θ). tj. Primer 11. .

θ) obeleˇja X ako je X neprekidnog tipa. . xn . . . xn } ako je X diskretnog tipa. . . xn ) realizovan uzorak. Neka je (X1 . . z c Definicija 9. . θ). Med c ¯utim. za veliki uzorak) c efikasnije od ocena dobijenih na bilo koji drugi naˇin. . dθ Primer 13. . . θ) · p(x2 . . . . x ∈ c z {x1 . Kako je D(X n ) = E(X n ) − E 2 (X n ). n 2 . Napomena 5. Xn ) je ocena maksimalne verodostojnosti parametra θ. . Statistika ˆ θ = ψ(X1 . Neka je θ = ψ(x1 . θ) · g(x2 . . θ) · · · g(xn . Pokazalo se da ovaj metod daje ocene koje su asimptotski (tj. Iz jednaˇine c k= j=1 xj . . . θ). µ)dx f (x. na osnovu Primera 10 i E 2 (X n ) = E 2 (X) nalazimo 2 D(X n ) = −E 2 (X) + 1 n−1 2 1 σ2 E(X 2 ) + E (X) = = D(µ∗ ). Metod maksimalne verodostojnosti Metod maksimalne verodostojnosti uveden je u Matematiˇku statistiku u drugoj deceniji dvadesetog c veka. dp dp p ∈ (0. d k log p + (n − k) log(1 − p) d log L(p) = = 0. . Oznaˇimo sa g(x. najefikasnija ocena µ∗ parametra µ obeleˇja X sa normalnom z n 2 raspodelom N (µ. ocena X n je najefikasnija. X je neprekidnog tipa. xn ) vrednost parametra kojim se postiˇe maksimum funkcije L(θ) pri fiksiranim z x1 . ponekad je lakˇe na´i maksimum s c reˇavaju´i jednaˇinu s c c dL(θ) = 0. µ) ∂µ 2 . . . . . funkcija verodistojnosti je n L(p) = pk (1 − p)n−k . . θ). 1) . −E 2 (X) + E(X 2 ) = n n n n n Dakle. Xn ) prost uzorak obima n i neka je (x1 . primena tog metoda ˇesto je vezana za c sloˇena izraˇunavanja. Funkcija verodostojnosti L(θ) definiˇe se kao s L(θ) = L(x1 . . . x2 . S obzirom da je logaritamska funkcija monotona. . . a sa P (X = x. X je diskretnog tipa. g(x1 . . σ ) (σ je poznat parametar) ima disperziju D(µ∗ ) = n n S obzirom da je 1 ∂ log f (x. . . . Za nezavisan uzorak (X1 . Xn ) iz Bernilijeve raspodele sa nepoznatim parametrom p. Prema teoremi Rao-Kramera. θ) = p(x1 . xn . f (x. θ) · · · p(xn .16 Primer 12. µ) = posle kra´eg izraˇunavanja dobijamo c c 1 1 x−µ √ exp − 2 σ σ 2π D(µ∗ ) = n σ2 . Ideja ovog metoda je da se za ocenu parametra izabere vrednost θ pri kojoj je verovatno´a realizacije c dobijenog uzorka najve´a. . θ) gustinu raspodele f (x.

X1 . . Prema tome. . xn . xn ) dostiˇe maksimum za z λ= x1 + x 2 + · · · + x n . . 1) nepoznat z parametar. x2 . x2 . Neka obeleˇje X ima Puasonovu raspodelu P(λ). n Odavde zakljuˇujemo da statistika c ˆ X1 + X 2 + · · · + X n λ= n predstavlja ocenu maksimalne verodostojnosti za parametar λ. ocena maksimalne z verodostojnosti za p je p= ˆ 1 n n Xj j=1 (= X n ). . U ovom sluˇaju z c f (x. dobijamo c n L(x1 . x2 . . 2. p) = i=1 k xi p (1 − p)k−xi . . . . . a p ∈ (0. . dakle.) x! Uzimaju´i da je uzorak (X1 . (x = 0. λ) = −nλ + (x1 + x2 + · · · + xn ) log λ − Iz log xi ! . . gde je λ nepoznat parametar. (= X n ) . . gde je k ∈ N poznat. . . xn . c Funkcija verodostojnosti data je sa n L(p) = L(x1 . Na osnovu prostog uzorka obima n oceni´emo parametar p metodom maksimalne verodostojnosti. xn . λ) = Pλ (X = λ) = λx −λ e . . x1 !x2 ! · · · xn ! n Odavde je log L(x1 . λ) = λx1 +x2 +···+xn −nλ e . 1. . . . xn . i=1 Na osnovu ovog zakljuˇujemo da je ocena maksimalne verodostojnosti za p data statistikom c 1 1 p= · ˆ k n n Xi = i=1 Xn . p). p= 1 1 · k n xi . x2 . λ) (pri fiksiranim x1 . . . . . Xn ) prost i. . . λ) = k=1 f (Xk . k=1 d log L x1 + x 2 + · · · + x n = −n + =0 dλ λ nalazimo da funkcija log L(x1 . . . . . . k je Primer 15. xi Maksimum funcije p → l(p) = log L(p) nalazimo polaze´i od reˇenja jednaˇine c s c 1 ∂ log L(p) = ∂p p Dobijamo n i=1 xi − 1 1−p n n i=1 (k − xi ) = 0. Primer 14. . Xn nezavisne. Obeleˇje X ima binomnu raspodelu B(k. . .17 nalazimo da funkcija p → l(p) = log L(p) dostiˇe maksimum za p = k/n.

λ) = k=1 λeλ xk = λn e−λ (x1 +···+xn ) . . . . xn konstante. . σ 2 ). σ 2 ) = 1 (xk − µ)2 exp − 2σ 2 (2πσ 2 )1/2 k=1 = 1 1 · exp − (2π)n/2 (σ 2 )n/2 µ)2 . . Dakle. . . σ ) = −n log σ − 2 2σ 2 k=1 (xk − µ)2 . ∂λ λ nalazimo da funkcija l(λ) dostiˇe maksimum za z λ= n . . . xn konstante. . µ= 1 n n xk . . . . Nalaˇenjem pracijalnih izvoda dobijamo jednaˇine z c ∂l 1 =− 2 ∂µ σ n k=1 (xk − µ) = 0.18 Primer 16. . Xn ) prost uzorak iz eksponencijalne raspodele E(λ) sa nepoznatim λ. Iz jednaˇine c c ∂l n = − (x1 + · · · + xn ) = 0. gde smatramo da su x1 . σ 2 ) = k=1 f (Xk . Xn ) prost uzorak iz normalne raspodele sa nepoznatim θ = (µ. Funkcija n n L(λ) = k=1 f (Xk . 2 verodostojnosti je Primer 17. Posle logaritmovanja problem se svodi na oderd ¯ivanje maksimuma funkcije l(λ) = log L(λ) = n log λ − λ(x1 + · · · + xn ) smatraju´i da su x1 . x1 + · · · + x n . . (µ ∈ R. Funkcija verodostojnosti je n n n k=1 (xk − 2σ 2 L(µ. . ocene maksimalne verodostojnosti na osnovu nezavisnog uzorka (X1 . pa se (logaritmovanjem) problem svodi na c z (2π)n/2 n oderd ¯ivanje maksimuma funkcije 1 l(µ. . . Xk ) su statistike 1 µ= ˆ n n Xk (= X n ). k=1 σ2 = 1 n n k=1 xk − 1 n n xj j=1 2 . Neka je (X1 . k=1 σ2 1 = n n k=1 1 (Xk − µ) = ˆ n 2 n k=1 (Xk − X n )2 (= S n ). Oˇigledno je da konstanta c 1 ne utiˇe na poloˇaj maksimuma. σ 2 > 0). µ. Neka je (X1 . n ∂l n 1 =− + 3 ∂σ 2 σ σ Reˇenja ovog sistema jednaˇina su s c k=1 (xk − µ)2 = 0. . .

.. . = X1 + · · · + X n Xn Intervali poverenja U prethodnom odeljku smo videli na koji naˇin se moˇe vrˇiti taˇkasta ocena nepoznatog parametra θ c z s c koji figuriˇe u raspodeli F (x. . θ2 ]. . θ2 ]. .. v2 ]. . . . . . tada statistike θ1 = θ1 (X1 . xn ). z c ˆ ˆ ˆ Kada smo uzeli uzorak i dobili brojeve (x1 . xn ). Xk ) data je statistikom ˆ λ= 1 n . θ) obeleˇja X. . xn ) i v2 = θ2 (x1 . . Kao ˇto teorija i praksa pokazuju. Tada se na c v ˆ v ˆ v ˆ ˆ1 . v2 ]. . .95 ili 0. odnosno 0. v2 ]. . . . . (x1 . . v1 q v2 Sl. Xn ) postaju odred ¯eni brojevi v1 = θ1 (x1 . xn ). v2 ] sadrˇi nepoznati parametar θ. tj. . Cesto je zbog toga c c s c pogodnije koristiti intervalne ocene. xn ). . . a sluˇajni interˆ ˆ c ˆ1 . . obiˇno se uzima z s z s s c β = 0. [ˆ1 . xn ). uopˇte uzev. 11 Pokrivanje parametra θ realizovanim intervalima . . . v ˆ Zamislimo da smo . . . c ˆ ˆ Prirodno je traˇiti ˇto .. i na osnovu njih izraˇunali intervale poverenja [ˆ1 . [ˆ1 . . Xn ). . Xn ) dve statistike koje ne zavise od nepoznatog parametra θ. . 11).. a nikako nije β.uzeli” mnogo serija uzoraka obima n i dobili nizove brojeva (x 1 . θ2 ]. (x1 . nalaˇenje intervala u kojem se sa nekom verovatno´om nalazi z c nepoznat parametar θ. v2 ].99. c c zove interval poverenja za parametar θ. . . Xn ) uzorak obeleˇja X ˇija je raspodela F (x. v2 ]. Oˇigledno da zbog prirode postupka i ˇinjenice da ta ocena s z c c ˇ predstavlja sluˇajnu promenljivu. pokriva nepoznat broj θ. Xn ) i θ2 = θ2 (X1 . . θ2 ] postaje odred ˆ val [θ ¯eni interval [ˆ1 . koji zavisi od uzorka (X1 . Xn ) i θ2 = ˆ ˆ ˆ θ2 (X1 . i ˇto viˇi nivo poverenja β. . nije mogu´e govoriti o greˇci u klasiˇnom smislu.19 Prema tome. Tada se sluˇajni interval [ θ1 .. . [ˆ1 . θ) i neka su θ1 = z c ˆ1 (X1 . . Verovatno´a β je samo verovatno´a da sluˇajni interval c c c c [ˆ1 . . ˆ ˆ gde je β unapred zadata verovatno´a. ˆ Definicija 10. [ˆ1 . a ostalih 100(1 − β)% ne prekriva c v ˆ v ˆ v ˆ (sl. . . . .. Jasno je da su ova dva zahteva. . . s c s izlaz leˇi u pove´anju obima uzorka n. a verovatno´a β novo poverenja. opreˇna. v2 ] prekrije nepoznati broj θ. moˇemo re´i da pribliˇno 100β% nuc c c c c z c z meriˇkih intervala [ˆ1 .uˇe” intervale poverenja [θ1 . . takve da ˆ ˆ θ ˆ ˆ je θ1 ≤ θ2 i da je ˆ ˆ P (θ1 < θ < θ2 ) = β = 1 − α. . . . dogad {θ v ˆ z ¯aj c ¯aj verovatno´a je 1. Neka je (X1 . v2 ]. . . . . . . .. .. ocena maksimalne verodostojnosti na osnovu nezavisnog uzorka (X1 . v2 ]. Kako je P (θ1 ≤ θ ≤ θ2 ) = β i ˆ ˆ ˆ te intervale moˇe gledati kao na realizacije sluˇajnog intervala [ θ z c tumaˇe´i verovatno´u kao graniˇnu vrednost relativnih uˇestanosti. Pogreˇno bi bilo smatrati da sa verovatno´om β interval v ˆ s c ˆ1 ≤ θ ≤ θ2 } je izvestan ili nemogu´ dogad i njegova ˆ [ˆ1 .

da je proizvod c c defektan”). ¯aj √ z Na osnovu centralne graniˇne teoreme (Sn − np)/ npq ima probliˇno N (0. p2 (Sn )] jeste interval poverenja za p sa nivoom poverenja β. Kod svakog elementa populacije interesujemo se da li se realizovao dogad A. p2 (sn )] koga treba tumaˇiti onako kako je to c p ˆ c uˇinjeno u diskusiji opˇteg sluˇaja. dobijeni numeriˇki interval poverenja [ˆ1 (sn ). koriste´i se Tablicom I imamo P (|Z ∗ | ≤ zβ ) = 2Φ(zβ ) = β..95 imamo c Φ(z0.1]. .962 )p2 − (2 × 79 × 3 + 79 × 1. Za svaki c zadati nivo poverenja β moˇemo odrediti broj zβ takav da je z P (|Z ∗ | ≤ zβ ) = β. 1).013.475 i iz Tablice I ˇitamo z0. . in ) dobili smo odred ¯enu vrednost sn = i1 + i2 + · · · + in i interval poverenja je odred ¯eni numeriˇki interval [ˆ1 (sn ). Primetimo da.95 = 1. 1) raspodelu. .20 ´ Intervali poverenja za nepoznatu verovatnocu p. med kojima ¯u su nad ¯ena 3 defektna. Prost uzorak obima n je dakle (I1 .uzeli” odred ¯eni uzorak (i1 . c p ˆ z Primer 18. Statistika Sn = I1 + I2 + · · · + In predstavlja broj koliko se puta u uzorku obima n realizovao dogad A. p2 (sn )] za p ne mora da bude sadrˇan u [0. iako je nepoznata verovatno´a p sigurno u intervalu c s c c [0. . i2 .. ˆ ˆ np(1 − p) gde su p1 (Sn ) i p2 (Sn ) respektivno manji i ve´i koren kvadratne jednaˇine ˆ ˆ c c 2 2 2 (n2 + nzβ )p2 − (2nSn + nzβ )p + Sn = 0. s79 = 3 i reˇenje kvadratne jednaˇine s c (792 + 79 × 1. . c Imamo pribliˇno z Sn − np ≤ zβ = β. kao obeleˇje moˇemo da posmatramo indikator dogad z z ¯aja A : I A = I.106] za p. gde Z ∗ ∼ N (0. [ˆ1 (Sn ). U odred ¯enom proizvodnom procesu tokom jednog dana proizvedeno je 79 artikala. .962 )p + 32 = 0 daje interval poverenja [0. I2 . In ). . Dakle.95) interval poverenja za nepoznatu verovatno´u p = P (. ˆ ˆ Eksplicitni oblik za taj interval je n 2 n + zβ 2 zβ Sn + − zβ n 2n 2 zβ Sn (n − Sn ) + 2 n 4n . recimo. Njegova verovatno´a ¯aj c P (A) = p je nepoznata. jer je p ˆ P p1 (Sn ) ≤ p ≤ p2 (Sn ) = β. Na primer. Ovde je n = 79. β = 0. Ako je.96. n 2 n + zβ 2 zβ Sn + + zβ n 2n 2 zβ Sn (n − Sn ) + 2 n 4n Ako smo .95 ) = 0. Na´i 95% (β = 0. . P np(1 − p) Dogad koji je u pitanju moˇe se drukˇije pisati ¯aj z c P Sn − np ≤ zβ =P (Sn − np)2 2 ≤ zβ np(1 − p) 2 2 2 (n2 + nzβ )p2 − (2nSn + nzβ )p + Sn ≤ 0 = p1 (Sn ) ≤ p ≤ p2 (Sn ) . . 0.1].

α takav da c P (|tn | ≥ tn. Srednja vrednost visine kod 100 sluˇajno izabranih ljudi je x100 = c ¯ 175. Xn − µ √ n − 1 iz Tablice III moˇemo proˇitati broj tn−1.21 ˇ ˇ ˇ Interval poverenja za matematicko ocekivanje µ u slucaju poznate disperzije Videli smo da kod velikog uzorka sredina uzorka X n uzima pribliˇno N (µ. X n + zβ √ .1−β takav z c Sn P (|tn−1 | ≤ tn−1. .1−β ) = β Xn − µ √ n − 1 ≤ tn−1.58. 175 + 2. Ranije smo pokazali (Teorema 7) da je Xn − µ √ n − 1 ∼ t(n − 1) Sn i da iz Tablice III ˇitamo broj tn. c c dok je tn sluˇajna promenljiva. Dakle. 179].α ) = 1 − α = β. Pretpostavimo da imamo dovoljno razloga da smatramo da je standardna devijacija visine u jednoj velikoj ljudskoj grupaciji σ = 16cm. te za 99% interval poverenja imamo 15 15 ≈ [171.58 √ 100 100 ˇ ˇ Interval poverenja za matematicko ocekivanje µ kada disperzija σ 2 nije poznata Podsetimo se nekih oznaka uvedenih ranije: t(n) oznaˇava Studentovu t raspodelu sa n stepeni slobode.α ) = α Za dati nivo poverenja β i statistiku da je ili P ili P (|tn | ≤ tn.1−β ) = β. Zapaˇa c z c c z n se kako se interval suˇava sa porastom obima uzorka n. z P i σ σ Xn − µ σ √ ≤ zβ = |X n − µ| ≤ zβ √ = −zβ √ ≤ X n − µ ≤ zβ √ σ/ n n n n σ σ = X n − zβ √ ≤ µ ≤ X n + zβ √ . n n σ σ X n − zβ √ .99 = 2. Sn . σ 2 /n) raspodelu. Iz Tablice I nalazimo z0. n n Xn − µ √ ≤ zβ = β σ/ n Interval poverenja za µ je znaˇi: c σ Primetimo da u ovom sluˇaju duˇina intervala poverenja nije sluˇajna ve´ je jednaka 2z β √ . n n ili σ σ P X n − zβ √ ≤ µ ≤ X n + zβ √ = β. z Primer 19.58 √ 175 − 2. Odrediti 99% interval poverenja za srednju visinu u celoj grupaciji.

tj.6 + 1.4 + 31.4.α ) = α.1−β √ . n−1 n−1 x8 = ¯ 1 8 8 1 (34. varira od c Primetimo da je u ovom sluˇaju duˇina intervala 2tn−1. z Interval poverenja za nepoznatu disperziju σ 2 Disperzija obeleˇja X meri na neki naˇin homogenost tog obeleˇja u populaciji (meru rasejavanja oko z c z oˇekivanog rezultata) i u nizu situacija u primenama vaˇna je samo gornja granica disperzije. 100β% interval poverenja je Sn Sn X n − tn−1. .6 − 1.9 + 35. posle izvesnih maipulacija kao u prethodnom sluˇaju.1) = 31.0.42 + 32.5 7.1.5. 90% interval poverenja za µ je √ √ 7.β 2 2 2 Odavde odmah dobijamo = β. S obzirom na ovo. 35.89 √ 7 7 ili pribliˇno [29. X n + tn−1.12 ) − 31. 32. dobijamo c P X n − tn−1.92 + 35. Za dati nivo poverenja β ˇitamo iz Tablice II broj χn−1. σ2 P σ2 ≤ nS n χ2 n−1. Zato je c z ovde interesantniji tzv.1−β √ Dakle.β = β.1−β √ . te iz Tablice III ˇitamo broj c t7.1−β √ = β.1.α σ2 2 2 2 takav da je P (χn ≥ χn. tj. U toku 8 godina registrovane su slede´e vrednosti taloga c 34. 8 1 (34.1−β √ c z n−1 jednog do drugog realizovanog uzorka. n−1 n−1 Sn sluˇajna promenljiva.4.7 + 27.89 √ . 28.62 = 7.2 + 28.5 31. c c a druga nesluˇajan broj.12 + 30.42 + 31. 31.4 + 32. Ovde imamo n = 8 i β = 0. 33.9.β Podsetimo se da je χ2 n−1 = nS n ≥ χ2 P n−1.89.β takav da je c 2 ) = β ili P (χn−1 ≥ χ2 n−1.1 + 30.1 = 1. Primer 20.1 + 33.6. jednostrani interval poverenja.6]. Pretpostavimo da je godiˇnji vodeni talog na odred s ¯enom lokalitetu sluˇajna promenljiva X sa c normalnom raspodelom.22 + 28. c zc ˆ2 nS n (Teorema 5 i Napomena 3) i da iz Tablice II ˇitamo broj χ2 c n. interval ˇija je jedna krajnja taˇka statistika. interval poverenja za disperziju traˇi´emo u obliku [0.72 + 27. 27. σ 0 ].1. 31.6.7. Odredimo x8 i s8 : ¯ ¯ Sn Sn ≤ µ ≤ X n + tn−1.2. Odrediti 90% interval poverenja za E(X) = µ. 8 ¯ s8 = k=1 x2 − x 2 = ¯8 k Dakle.9.12 + 33. 30. 33.22 Odavde.

2. 2 P χ2 n−1.23 Dakle. .(1−β)/2 = β.0.(1+β)/2 2 .(1−β)/2 . σ2 2 χ2 n−1.98 ≈ 10.. X ∼ N (µ.96 ≈ 11 tako da 96% jednostrani interval poverenja za σ 2 je [0.07 mm2 . z Linearnom ekstrapolacijom vrednosti iz Tablice II dobijamo χ19.. σ 2 ). 12 Primer 21. U uzorku od n = 20 takvih proizvoda nad ¯eno je x20 = 32. dvostrani interval poverenja za σ 2 je nS n 2 nS n ≤ χ2 n−1. σ 2 ∈ (0. U zavisnosti od prirode problema uoˇava se skup logiˇki mogu´ih z c c c raspodela (na osnovu histograma. 33. 2 n .77 ili pribliˇno [0. 0. µ ∈ (150. nS n χ2 n−1.53 . Na taj naˇin je c n−1. Na primer.23 mm2 ]. poligona..69 10.69 i linearnom 2 ekstrapolacijom dobijamo χ2 z n−1.0.(1+β)/2 ≤ χn−1 ≤ χn−1.53 mm2 .29 mm i 20 · s20 = 2. 180). Testiranje statistiˇkih hipoteza c Osnovni problem u Matematiˇkoj statistici je da se na osnovu uzorka oceni kakvu raspodelu u celoj c populaciji ima posmatrano obeleˇje.02 = 33. z 5. tako da je traˇeni dvostrani interval 2.77. 12).53 2.0. Sl. koji se naziva skup dopustivih raspodela. χn−1.β Dvostrani interval poverenja za σ 2 moˇemo da dobijemo na slede´i naˇin: za dati nivo poverenja β z c c ˇitamo iz Tablice II brojeve χ2 c i χ2 (sl.23 mm2 ].).53/11] ili pribliˇno [0.(1+β)/2 ≤ Dakle.(1+β)/2 = χ19.(1+β)/2 n−1.(1−β)/2 = χ19. 100β% jednostrani interval poverenja za disperziju je nS 0. 30). 0.(1−β)/2 2 2 P χ2 n−1. Na´i 96% jednostrani i dvostrani interval poverenja za ¯ ¯2 c 2 nepoznatu disperziju σ duˇine proizvoda u celokupnoj proizvodnji.(1−β)/2 = β. Dimenzija nekog proizvoda ima normalnu raspodelu. z 2 Za dvostrani 96% interval poverenja iz Tablice II ˇitamo χ2 c n−1.

. . jer veliˇina odstupanja ne moˇe se objasniti samo sluˇajnim odstupanjima pod pretc z c postavkom da je hipoteza taˇna. radi se o neparametarskom c z testu. Xn ) i regs c istruje njena vrednost u = u(x1 .24 Svaka pretpostavka o konkretnoj raspodeli obeleˇja X zove se statistiˇka hipoteza. Pretc z postavlja se hipoteza H(θ = θ0 ). Sluˇajna promenljiva K ima binomnu raspodelu B(n. . U naˇem eksperimentu registrovano je odstupanje |0. Ako je dobijena verovatno´a manja od ranije usvojenog praga (nivoa) znaˇajnosti α (obiˇno 0. . H(p = p0 ) Pretpostavimo da obeleˇje X ima Bernulijevu raspodelu z X∼ 0 1 1−p p . naime nije nemogu´e da se takav rezultat dobije sa novˇi´em kod cc c cc koga je hipoteza H(p = 0. dakle θ = θ 0 . 1) raspodelom.pisama. ne moˇemo joˇ zakljuˇiti da je hipoteza H(θ = θ 0 ) taˇna. poˇto bi takva odstupanja imala vrlo malu verovatno´u (manju od c s c α. .. Zadatak statistiˇke teorije testiranja hipoteza jeste da kvantifikuje stepen sumnje c u neku hipotezu. θ3 }). θ) funkcija raspodele obeleˇja X.1) hipotezu H(θ = θ 0 ) c c odbacujemo. Izbog statistike U i praga znaˇajnosti α zavisi od konkretnog c c zadatka.14 relativne uˇestanosti. . x ∈ R i ako se statistiˇka hipoteza c odnosi na vrednost tog parametra. nalazimo c c c c c verovatno´u dobijenog odstupanja statistike U od oˇekivane vrednosti. . . Pretpostavimo da smo iz 100 bacanja novˇi´a dobili 36 . te dobijamo P k K − p0 ≥ − p0 n n = 1 − 2Φ np0 (1 − p0 ) k − np0 = α∗ . a ako je α ∗ ≥ α hipotezu c ne odbacujemo. . . z Ako skup dopustivih raspodela zavisi od nekog parametra θ. (0 < p < 1). a postupak z c njenog verifikovanja pomo´u uzorka (u smislu prihvatanja ili odbacivanja hipoteze) zove se statistiˇki c c test. Pod pretpostavkom da je p = p0 na´i´emo verovatno´u da odstupanje cc c relativne uˇestanosti K/n od oˇekivane vrednosti p0 bude ve´e nego u realizovanom uzorku. c z Test znaˇajnosti mogao bi se ovako opisati: Neka je F (x. s c . . p). . In ) (u stvari. xn ). radi se o parametarskom testu. . Neka je k broj jedinica u c realizovanom uzorku (x1 .fer” (homogen i pravilnog oblika). ´ Hipoteza o verovatnoci p. Oznaˇimo sa K broj jedinica u uzorku (X1 . Xn ) = (I1 . θ2 . moˇe se samo zakljuˇiti da regc z c istrovani uzorak ne protivureˇi hipotezi. . Ako je α∗ < α. raspodelu sluˇajne promenljive (K − np 0 )/ c aproksimirati N (0. c c z s c c Testovi znaˇajnosti ne daju afirmativni odgovor (prihvatanje hipoteze). Ako se statistiˇka hipoteza odnosi c na saglasnost statistiˇkog uzorka sa konkretnom raspodelom obeleˇja X. broj realizacija posmac tranog dogad ¯aja).5 − 0.” Ovo nije apsolutni dokaz da cc novˇi´ nije . . gde je α unapred zadat prag znaˇajnosti. θ ∈ {θ1 . . xn ).5) da padne pismo. Pretpostavljaju´i da je hipoteza H(θ = θ0 ) taˇna. Iz iskustva znamo da nam ovakav rezultat eksperimenta daje jake dokaze protiv hipoteze p = 0. .05 ili 0. . U z suprotnom. Statistiˇka hipoteza je prosta akao je njome potpuno odred c ¯ena raspodela obeleˇja. np0 (1 − p0 ) moˇemo z np0 (1 − p0 ) np0 (1 − p0 ) Na osnovu teoreme Muavra-Laplasa. statistiˇka hipoteza je sloˇena (na primer. Primer 22.5.. Imamo c c c P K k − p0 ≥ − p0 n n =P K − np0 ≥ k − np0 . θ). Vrˇi se izbor odgovaraju´e statistike U = u(X1 . hipotezu odbacujemo.) Ako je dobijena verovatno´a ve´a od α. . Statistika kojom se sluˇimo u tom postupku zove se test statistika. .36| = 0. F (x.

5) taˇna. 1) i neka je sredina uzorka od 25 elemenata z x25 = 50.10.30. . 1 Kako je α∗ > α.05 Prema centralnoj graniˇnoj teoremi (Muava-Laplasa) sluˇajna promenljiva sa binomnom raspodelom S100 ∼ c c Dakle.01.0124.008 i c c c ¯ ¯2 s5 ≈ 0. c ¯ c c c Xn − µ √ Koristi´emo ˇinjenicu da X n ima N (µ. . . odnosno hipotezu H(p = 0. 1. hipotezu ne odbacujemo. Za obeleˇje X dobijen je realizovan uzorak (x1 . 0. hipotezu H(µ = µ0 ) odbacujemo. Primetimo da je u ovom sluˇaju standardizovana promenljiva S ∗ = (S100 /100 − 0. . odakle sledi da c c n ima σ N (0.005 (iz Tablice I). x3 .25 Ispitajmo kolika je verovatno´a. Kako je ¯ x n − µ0 √ ¯ 1. σ σ σ Ako je α∗ < α hipotezu H(µ = µ0 ) odbacujemo. 52 ). Znaˇi da treba da odbacimo hipotezu o .5) ima u graniˇnom sluˇaju pribliˇno normalnu raspodelu N np.5). .. Posmatra´emo odstupanje aritmetiˇke sredine X n uzorka (X1 . P |X n − µ0 | ≥ |¯n − µ0 = P x Primer 23.2 − 1 √ n−1= 4 ≈ 4. 1. H(µ = µ0 ). 0. z Testira´emo hipotezu H(µ = 1) za prag znaˇajnosti α = 0. ako je σ poznato Obeleˇje X ima N (µ. ako σ nije poznato Obeleˇje X ima N (µ. Sa xn ´emo oznaˇiti aritmetiˇku sredinu realizovanog uzorka (x1 . Nalazimo z B(100.5 ≥ 0. 1). da se pojavi i ve´e odstupanje c c c c od 0. Xn ) a xn i s2 vrednost tih c ¯ ¯n X n − µ0 √ statistika za realizovan uzorak (x1 . sn = 0.30). Vrednost α∗ nalazimo iz tablica za Studentovu t raspodelu. x2 .8) = 0. pretpostavljaju´i da je hipoteza H(p = 0. 0. Hipotezu odbacujemo jer je α∗ < α. x5 ) = (1.45. S100 ∼ 100 N (0.20. Ako je α∗ < α. xn ). c . . Najpre izraˇunavamo x5 = 1. Testirati hipotezu H(µ = 49.05 i ima c pribliˇno normalnu raspodelu N (0. pretpostavljaju´i da je hipoteza H(p = 0. te je c c z P S100 − 0.09 iz Tablice III za Studentovu t raspodelu nalazimo α∗ ≈ 0.5) = 0.052 ). σ 2 /n) raspodelu (Primer X).5 100 ≥ 2.5) taˇna.14 = P 100 S100 − 0. Ovde je ¯ c 50 − 49. Postavimo hipotezu H(µ = z 2 µ0 ).09.fer” novˇi´u. 1) raspodelu. a ako je α∗ ≥ α.01. realizovao se dogad ˇija je verovatno´a bila vrlo mala c c ¯aj c c (= 0. Na osnovu Teoreme 7 znamo da statistika n−1 Sn ima Studentovu t(n − 1) raspodelu. . np(1−p) = N (50.8 = 1 − 2Φ(2. Neka obeleˇje X ima normalnu raspodelu N (µ. Primer 24. σ 2 ) raspodelu sa nepoznatim parametrima µ i σ. 1. H(µ = µ0 ). hipotezu H(µ = µ0 ) ne odbacujemo.5 √ α∗ = 1 − 2Φ 25 = 1 − 2Φ(2.005). σ 2 ) raspodelu sa nepoznatim parametrom µ i poznatom standardnom devijacijom z σ.10. sn 0. Pretpostavimo da je µ = µ0 .14. x4 . . . xn ). Imamo P X n − µ0 √ x n − µ0 √ ¯ n−1 ≥ n−1 sn Sn = α∗ . hipotezu H(µ = µ0 ) ne odbacujemo. . ˇ ˇ Hipoteza o matematickom ocekivanju µ. c cc ˇ ˇ Hipoteza o matematickom ocekivanju µ. Xn ) c c od oˇekivane vrednosti µ0 . a ako je α∗ ≥ α.1.5) za prag znaˇajnosti α = 0. .5)/0. . .5. Neka X n i S n oznaˇavaju sredinu uzorka i disperziju uzorka (X1 . 1. . . Tada je x n − µ0 √ ¯ X n − µ0 √ x n − µ0 √ ¯ n ≥ n = 1 − 2Φ n = α∗ . . gde je α unapred usvojen prag znaˇajnosti.20.

{U < c} ili {U ≤ c}. • Ne odbacujemo H0 jer je vrednost za U u eksperimentu bila van oblasti odbacivanja. . . Izbor hipoteza Izbor izmed dve hipoteze. Kao objaˇnjenje nudimo s hipotezu H1 . H(σ 2 = σ0 ) 2 Obeleˇje X ima N (µ. 2 = σ0 15 Kako je P nS n 2 ≥ 20 σ0 2 = α∗ = 0. onda suprotno tvrd ¯enje (ili neutralno ili postoje´e stanje) c uzimamo za nultu hipotezu H0 . Najpre nalazimo vrednost koliˇnika c c c 30 · 10 n¯2 sn = 20. proizvod c mora dokazati da je on bolji od postoje´ih. Da bi dokazao tu hipotezu. Obeleˇje X ima normalnu raspodelu i disperziju uzorka s2 = 10 za izabrani uzorak od 30 z ¯30 elemenata. tehnologiju. tada je P 2 nS n n¯2 sn ≥ 2 2 σ0 σ0 2 = α∗ .26 2 Hipoteza o disperziji σ 2 . a u korist hipoteze H1 . Na primer. nS Znamo da 2n ima χ2 (n − 1) raspodelu (videti Napomenu 3). za broj c kaˇemo da je kritiˇna vrednost testa. z 2 ¯n Ako je S n disperzija uzorka (X1 . Verovatno´u α∗ upored c ¯ujemo sa unapred σ0 2 zadatim pragom znaˇajnosti α i ako je α∗ < α hipotezu H(σ 2 = σ0 ) odbacujemo. Pri testiranju hipoteza mogu´e su dve vrste greˇaka: c s • Greˇka druge vrste nastaje ako se H0 ne odbaci kada je H1 taˇna. (7) Zakljuˇak testa moˇe biti jedan od slede´a dva: c z c • Odbacujemo H0 jer smo u eksperimentu dobili U u oblasti odbacivanja. c Ako ˇelimo da dokaˇemo neko tvrd z z ¯enje. Ako je oblast odbacivanja testa oblika c {U > c}. na osnovu rezultata eksperimenta. c i α∗ > α. Cilj postupka testiranja je da se ispita. {U ≥ c}. Na primer. Nemamo dokaze protiv H0 . Test je odred ako je definisana statistika U (statistika testa) i skup vrednosti za U za koje odbacu¯en jemo hipotezu H0 (oblast odbacivanja ili kritiˇna vrednost. s c . Xn ) a s2 realizovana vrednost disperzije uzorka. . on mora da obori suprotnu hipotezu.9 (proˇitano iz Tablice II za χ2 raspodelu).01. Testira´emo hipotezu H(σ 2 = 15) za prag znaˇajnosti α = 0. proizvod. a samo tvrd ¯enje za hipotezu H1 . z c ako za statistiku koristimo sredinu uzorka X n . σ 2 ) raspodelu sa nepoznatim parametrom σ. nazovimo ih H0 –nulta hipoteza i H1 –alternativna hipoteza. s c • Greˇka prve vrste nastaje ako se H0 odbaci kada je H0 taˇna. u suprotnom je ne c odbacujemo. ima li dokaza protiv hipoteze H0 . Postavljamo hipotezu H(σ 2 = σ0 ). za dati prag znaˇajnosti testa α kritiˇnu vrednost testa c c c odred ¯ujemo iz relacije α = P (X n < c). u stvari kad god treba dokazati neko tvrd c ¯enje ili verifikovati neku novu ¯aˇ teoriju. hipotezu H(σ 2 = 15) ne odbacujemo. ako se pojavi novi proizvod. Primer 25. . pojavljuje ¯u se u razliˇitim oblastima primene.

nalazimo da je (c − 1000)/3 = −1. c odakle je c = 995 (zaokruˇeno na ceo broj). na primer. Na prvi pogled izgleda da empirijska raspodela dobro aproksimira standardnu normalnu raspodelu. potrebno je izvrˇiti proveru na bazi sluˇajnog uzorka od 25 pakovanja braˇna. oblast odbacivanja je {X n < c}. ima slede´e pravilo odluˇivanja: Ako je X n < 995. Poznato s c s je da maˇina za punjenje ima standardnu devijaciju σ = 15 g.. pod pretpostavkom z c da je hipoteza taˇna. Na zahtev potroˇaˇa. c c Statistika X n pri nultoj hipotezi ima N (1000.05. 1) .05. sa izvesnim odstupanjima. ako je hipoteza o saglasnosti taˇna. c c c Na osnovu ovog nacrtan je grafik emprijske raspodele (.stepenasta kriva” na sl. potreban nam je neki kriterijum pomo´u koga bismo ispitali da li su odstupanja u dozvoljenim granicama ili nisu. podaci uzorka i odgovaraju´a empirijska raspodela bolje aproksimiraju N (0. u korist c c potroˇaˇa). dok se sa α = 0. Braˇno se prodaje u pakovanjima nominalne mase 1 kg. kao ˇto znamo. u suprotnom sluˇaju. c c z ima N (µ. Da bismo doneli ovakvu odluku moramo znati koliko mnogo Sn (x) moˇe da odstupa od F (x). Pretpostavimo da imamo 50 podataka za koje smo izraˇunali uˇestanosti i relativne uˇestanosti. onda prihvatamo hipotezu da je F (x) funkcija raspodele populacije iz koje je uzet uzorak. c α = P (X n < c) = P Z ∗ < Testiranje neparametarskih hipoteza Ovim testovima se ispituje saglasnost izmed hipotetiˇne (teorijske) raspodele populacije F (x) i empir¯u c ijske raspodele uzorka Sn (x). s Uze´emo prag znaˇajnosti α = 0. 13). Greˇka druge vrste c s nije toliko znaˇajna.05 iz Tablice I (imaju´i u vidu da je Φ(−x) = −Φ(x)). a verujemo da je H1 ipak taˇna. 3 2 3 Odavde za α = 0. koji su primetili s s c da je masa manja od 1 kg. Manje vrednosti (od 1000) za X n su dokaz protiv hipoteze H0 . 13 Empirijska funcija raspodele u pored ¯enju sa funkcijom raspodele N (0. 9) raspodelu.01 dobija se c = 993.dovoljno dobro”. obiˇno nam je vaˇnije da ne napravimo greˇku prve c z s vrste. Zadatak je da se testira c c H0 : µ = 1000 protiv H1 : µ < 1000. sa nekim c koje izraˇunavamo iz nivoa znaˇajnosti. Zbog toga z c uvodimo meru odstupanja Sn (x) od F (x) i traˇimo raspodelu verovatno´a ove mere. jer ako nemamo dovoljno jakih dokaza protiv H0 . hipoteza H0 se ne odbacuje. med ¯utim to nije dovoljno za prihvatanje ove hipoteze. videti formulu (7). hipoteza H0 se odbacuje u korist H1 (tj. Statistika testa moˇe da bude sredina uzorka X n koja. σ 2 /n) raspodelu (Primer 8). Prema tome. s c c Sa pragom znaˇajnosti α = 0. jer bismo tim postupkom dokazali tvrd ¯enje koje nije taˇno (hipoteza H 1 ). s U ovom problemu moˇemo pretpostaviti da je masa jednog pakovanja braˇna normalna sluˇajna promenljiva z s c sa matematiˇkim oˇekivanjem µ i disperzijom σ 2 = 152 = 225.64. Sl. Da li. c c postupak dokazivanja hipoteze H1 moˇemo nastaviti izvod z ¯enjem novih obimnijih eksperimenata. tako da je c − 1000 1 c − 1000 = +Φ . c Primer 27.27 S obzirom na interpretaciju hipoteza H0 i H1 . test sa pragom znaˇajnosti 0. 13) i upored sa grafikom ¯en funkcije N (0. Ako Sn (x) aproksimira F (x) . na bazi uzorka z c obima 25.2) c c raspodelu? Da bismo odgovorili na ovo pitanje. 1. Primer 26..1 dobija c = 996. gde je n = 25. 1) raspodele (neprekidna kriva na sl.

α = α.28 Za reˇavanje postavljenog problema izloˇi´emo neparametarski hi kvadrat test. . Dakle. pri ˇemu je a0 = c −∞. Zelimo da proverimo da li je F = F0 . Neka je Nj broj onih sluˇajnih promenljivih iz uzorka sluˇajnih promenljivih ˇije se brojne karakteristike nalaze c c c u intervalu Aj . r). oˇekivano c Velike vrednosti statistike χ2 ukazuju na veliku razliku izmed stvarnog i oˇekivanog. pr = pr0 protiv alternativne hipoteze H1 : (p1 . . Neparametarsko testiranja hipoteze svodi se na problem testiranja hipoteze H0 : p1 = p10 . Statistika definisana sa (9) naziva se Pirsonov hi kvadrat statistikom i obeleˇava se sa χ 2 . gde je F0 data funcija raspodele. verovatno´a da vrednost sluˇajne promenljive Xi pripada intervalu Aj jednaka je c c pj = P (X ∈ Aj ) = F (aj ) − F (aj−1 ). . . pr ) = (p10 . . . . r). s sc ˇ Neka je (X1 . granice a0 i ar mogu biti konaˇne. odgovaraju´e verovatno´e su c c pj0 = F0 (aj ) − F0 (aj−1 ). imamo da je c n χ2 = j=1 (stvarno − oˇekivano)2 c . . . . . . . c U Tabeli II se daju vrednosti χ2 za razne vrednosti ν i α prema relaciji ν. .α odstupanja empirijske raspodele od pretpostavljene raspodele bitna. . Podelimo realnu osu na r disjunktnih intervala Aj = (aj−1 . aj ] (j = 1. smatraju´i da su c c c ν. . Xn c imaju istu raspodelu. (j = 1. . . Neka je ν broj stepeni slobode χ2 raspodele a α prag (nivo) znaˇajnosti (ili rizik prihvatanja hipoteze). Neka je pj0 definisano sa (8). . Ovaj test uveo s zc je u statistiku Karl Pirson (1857–1936) i zato se ˇesto naziva i Pirsonov test. r). . ar = +∞. . . S druge strane. pa je to indikacija ¯u c za odbacivanje hipoteze H0 . . (8) (j = 1. . Kako je u tom sluˇaju c P χ2 > χ 2 ν. Kako X1 . . . Danas je to jedan od c testova sa najˇirom oblaˇ´u primene. Statistika r j=1 (Nj − npj0 )2 npj0 (9) ima asimptotsku χ2 (r − 1) raspodelu (kad n → +∞). Xn ) nezavisan uzorak iz raspodele sa funkcijom raspodele F0 . . . s Teorema 9. . za raspodelu F0 . Neka je (X1 . . . Xn ) nezavisan uzorak iz nepoznate raspodele sa funkcijom raspodele F. . . Verifikacija hipoteze vrˇi se na slede´i naˇin: s c c 2 1) Ako je izraˇunata vrednost χ (iz (9)) ve´a od χ2 .α = α. Za testiranje nam je potrebna statistika testa i njena raspodela pod nultom hipotezom. Ukoliko priroda problema zahteva. pr0 ).α P χ2 > χ 2 ν. onda hipotezu odbacujemo. Broz jevi Nj su rezultat posmatranja (stvarno stanje) dok je npj0 matematiˇko oˇekivanje broja sluˇajnih c c c promenljivih Xi ˇije su se vrednosti realizovale u intervalu Aj . . . . Slede´a teorema c sugeriˇe jedan izbor. .

005. +∞]. Labavija veza izmed obeleˇja. 100 300 0.ˇivota” X sijalice ima eksponencijalnu z z raspodelu E(0. N2 = 40. ˇto c s ν. Najjaˇa ¯u z z c c ili najuˇa veza izmed obeleˇja je funkcionalna veza. tj. gidine Fransis Galton objavio publikaciju u kojoj c je analizirao visinu sinova u zavisnosti od visine oˇeva.0. A3 = [200. 150pj0 58. 0. 40 u [100.01 i iz Tablice II ˇitamo kritiˇnu vrednost χ2 c c ¯3. takva veza da svakoj vrednosti jednog obeleˇja z ¯u z z odgovara taˇno odred c ¯ena vrednost drugog. Zelimo da testiramo hipotezu H0 : E(0..29 moˇemo biti sigurni da su ova odstupanja bitna. p20 = PH0 (100 ≤ X < 200) = p30 = PH0 (200 ≤ X < 300) = +∞ 0. Ovde je c c r = 4. onda nemamo osnovu da odbacujemo hipotezu. 300 χ2 = ¯4−1 j=1 (Nj − 150pj0 )2 (47 − 58.5)2 (40 − 36)2 (35 − 22.05. c c U uzorku od 150 sijalica dobijeno je da 47 sijalica imaju . dakle. Podse´amo da ova raspodela ima funkciju gustine c f (x) = λe−λx . A2 = [100.005e−0.22..15.α joˇ ne znaˇi da je hipoteza potpuno taˇna.005x dx = 0.5 33 Usvojimo α = 0. Primer 28. Hipotezu H0 : E(0.005x dx = 0. 6. treba je proveriti na s c c c nekoliko drugih uzoraka. A1 = [0. N4 = 28.39.200].005). x<0 x ≥ 0. c 2) Ako je izraˇunata vrednost χ2 manja od χ2 .005e−0.005).5)2 (28 − 33)2 = + + + = 11.005) testiramo primenjuju´i Pirsonov χ2 test. A4 = [300. 35 u z c [200. N3 = 35.005x dx = 0.100] ˇasova. Da bismo prihvatili hipotezu kao taˇnu. Dalje je 100 100 p10 = PH0 (0 ≤ X < 100) = f (x)dz = 0 200 0 0.5 36 22. regresiraju.300] i 28 traju preko 300 ˇasova.01 . 200]. Kako je χ2 > χ2 ¯3 ¯3.24. odbacujemo hipotezu H0 : E(0. U konkretnom sluˇaju je λ = 0. koja su podloˇna manjim ili ¯u z z . c Promena jednog obeleˇja statistiˇkog skupa ˇesto utiˇe na promenu drugih obeleˇja zbog med z c c c z ¯usobne povezanosti.005e−0.005x dx = 0.56. Linearna regresija i korelacija Reˇ regresija je dospela u statistiku kada je 1855. Za ove intervale nalazimo da je N1 = 47. Zakljuˇak ove studije bio je da sinovi ekstremno c c visokih oˇeva nisu toliko visoki. 200 p40 = PH0 (X ≥ 300) = Prema formuli (9) je 4 0.005e−0. i da se ˇesto koristi u Teoriji pouzdanosti. 100].34. Povezanost izmed obeleˇja moˇe se razlikovati i po smeru i po jaˇini povezanosti.0. jer bi naˇ zakljuˇak bio ispravan u oko 95% (= (1−α)·100) z s c odsto sluˇajeva za α = 0. 300].01 = 11.ˇivot” u intervalu [0.005) da duˇina .

z c ¯u s c Od istraˇivaˇa se u tom sluˇaju oˇekuje da utvrdi da li postoji i kakva je direktna funkcionalna zavisnost z c c c med tim veliˇinama. naziva se korelativnom (ili stohastiˇkom) vezom. b). Sl. povrˇina P kruga i c c s 2 polupreˇnik r su u funkcionalnoj vezi (P = r π) a promenljive veliˇine koje oznaˇavaju visinu i teˇinu c c c z ljudi pokazuju izvesnu korelaciju. Y ) = E(XY ) − E(X)E(Y ). Na primeru dva svojstva X i Y koja se istraˇuju na nekom uzorku obima n. a). . kao ¯u c z rezultat posmatranja dobija se n ured ¯enih parova realizacija (x 1 . a osnovni pokazatelji korelacionih veza su c jednaˇine regresije i koeficijent korelacije. Na primer. oblik) naziva se teorijom korelacije. u opˇtem sluˇaju. Y ) = E (X − E(X))(Y − E(Y )) .aproksimirati” dobijeni skup podataka tzv. itd. Na prikazanim slikama treba proveriti linearnu vezu y = ax + b na sl. Ako je kriva regresije prava. Koriste´i osobine matematiˇkog oˇekivanja moˇemo izvesti i slede´u formulu za kovarijansu: c c c z c Cov(X.. ne vaˇi. Oni se mogu predstaviti u Dekartovoj ravni (slika 14). fitovanom krivom ili krivom regresije koriste´i neki c od kriterijuma: zbir kvadrata odstupanja ordinata od krive je minimalan. onda postoji nelinearna korelacija. Obrnuto. zbir aposlutnih vrednosti odstupanja je minimalan. y1 ). Za sluˇajne promenljive X i Y definiˇemo kovarijansu. (xn . (x2 . pokazuje se da se razlikom E(XY ) − E(X)E(Y ) moˇe z meriti stepen linearne zavisnosti izmed X i Y. a ako je kriva regresije bilo koja druga. dok su brojevi taˇaka koji se pojavljuju na dvema baˇenim kockama c c nekorelativne veliˇine. Med s c z ¯utim. dok dijagram pod c) ne ukazuje ni na kakvu funkcionalnu zavisnost. jaˇina.30 ve´im odstupanjima. . U naˇem razmatranju bavi´emo se samo linearnom s c regresijom koja se u praksi najˇeˇ´e pojavljuje. a grafiˇka reprezentacija koja tom prilikom nastaje naziva se c dijagram rasturanja. yn ). c sc Korelacija U Teoriji verovatno´e dokazuje se da za nezavisne sluˇajne promenljive X i Y vaˇi da je c c z E(XY ) − E(X)E(Y ) = 0. kao i sluˇaj c c nekorelativnosti. ¯u Definicija 11. . . Ovi dijagrami ilustruju redom pozitivne jaˇe i slabije korelacije. y2 ). . c U velikom broju istraˇivanja ili eksperimenata uoˇava se veza izmed dve ili viˇe promenljivih veliˇina. u oznaci Cov: c s Cov(X. tada postoji linearna korelacija. logaritamsku vezu y = a log(x + b) na sl. Skup statistiˇkih metoda kojima se prouˇavaju uzajamne veze statistiˇkih obeleˇja c c c c z i pojava (smer. 14 Dijagrami rasturanja taˇaka c Da bi se na osnovu dijagrama rasturanja odredila funkcionalna zavisnost obeleˇja X i Y potrebno je z .

c 1◦ Ako su X i Y nezavisne sluˇajne promenljive. c Teorema 11. c Opravdanje za to daju tvrd ¯enja slede´e teoreme. Y ) = D(X) D(Y ) Koeficijent korelacije se. ¯uje na osnovu uzorka (x1 .7 – postoji znaˇajna linearna veza koja ima praktiˇnu primenu. a = 0. Obrnuto ne mora da vaˇi. Drugim reˇima. • negativno korelisane ako je ρ(X.31 Lako se izvode slede´e osobine kovarijanse. c z 2◦ Cov(X. u primenama. Iz Definicije 13 neposredno izlazi da su svake dve nezavisne sluˇajne promenljive nekorelisane. Definicija 13. X). Y ) ≤ 1. 4◦ Cov(aX. bY ) = abCov(X. tada se za njegovo Ako se koeficijent korelacije odred izraˇunavanje koristi formula c 1 n ρ= 1 n n n k=1 xk yk − xy ¯¯ 1 n n 2 yk − y 2 ¯ . Y ) = 0 a da. mogu´e je da bude ρ(X. 5◦ Cov(X + a. . Napominjemo da koeficijent korelacije ukazuje samo na s c z linearnu vezu. Neka su X i Y sluˇajne promenljive i neka su a i b realni brojevi. u opˇtem sluˇaju.5 i 0. X i Y budu povezane nekom nelinearnom c vezom. 3◦ Cov(X.9 – znaˇi vrlo tesnu vezu. i pored toga.3 – postoji sasvim neznatna linearna veza izmed obeleˇja i nesigurnog je znaˇenja. Y ) njihov koeficijent korelacije. y1 ). X) = D(X). 4) |ρ| > 0. Y ) = 0. Y ) = ±1 ako i samo ako je P (Y = aX +b) = 1. • pozutivno korelisane ako je ρ(X. k=1 x2 − x 2 ¯ k k=1 . Y ) = Cov(Y. Za sluˇajne promenljive X i Y sa pozitivnim disperzijama vaˇi: c z c 2◦ ρ(X. Y rastu´a (opadaju´a) linearna funkcija promenljive X. . ρ(X. c Teorema 10. naroˇito ¯u z c c ako je obim uzoraka mali. dok c obrnuto. yn ). Y ). ρ(X. Y ) > 0. Kao empirijsko pravilo prihvata se slede´e: c 1) |ρ| < 0. (xn .9 – pokazuje tesnu (linearnu) vezu. Definicija 12. koristi kao mera linearne zavisnosti dve sluˇajne promenljive. Neka su X i Y sluˇajne promenljive i neka je ρ(X. b ∈ R. 1 x= ¯ n n n xk .7 < |ρ| < 0. Y + b) = Cov(X. Y ) < 0. 3) 0. . . Koeficijent korelacije izmed sluˇajnih promenljivih X i Y sa pozitivnim disperzi¯u c jama definiˇe sa s Cov(X. Y ). Y ) . ne mora da vaˇi. Y ) = 0. y = ¯ k=1 k=1 yk . c ¯u c c 2) |ρ| izmed 0. 1◦ −1 ≤ ρ(X. c Kaˇemo da su X i Y z • nekorelisane ako je ρ(X. Y ) = ±1 c c c ako i samo ako je sa verovatno´om 1. tada je Cov(X.

funkciju f. Na osnovu Primera 29 i uzimaju´i u obzir da se normalna raspodela ˇesto sre´e u praksi i da se veoma c c c c c c ˇesto javlja kao (asimptotska) aproksimacija raspodela velikog broja sluˇajnih promenljivih. moˇe predstaviti normalnom sluˇajnom promenljivom ε sa E(ε) = 0 i nepoznatom disperzijom σ 2 . na osnovu centralne graniˇne teoreme. a na z c izlazu Y.32 Pod regresijom se u statistici podrazumeva zavisnost jedne sluˇajne promenljive od druge ili viˇe c s njih. (10) gde je ε ∼ N (0. Na ulazu u sistem imamo sluˇajnu promenljivu X. odakle se dobija f (x) = E(Y |X = x). σX . µY . f (X) je funkcija kojom se objaˇnjava zavisnost izmed X i Y. U praksi obiˇno nemamo uslove za c ovakav eksperiment i jedino ˇto moˇemo koristiti su parovi merenih vrednosti (x i . pri ˇemu X moˇe biti skalarna ili vektorska c c z veliˇina. Y ) ima dvodimenzionalnu normalnu c c 2 2 raspodelu sa parametrima µX . c Veliˇina ε je sluˇajna greˇka koja nastaje iz raznih razloga (ˇum u telekomunikasionom prenosu. (11) Funkcija f definisana sa (11) naziva se regresionom funcijom a odgovaraju´a kriva krivom regresije. potrebno je oceniti pet nepoznatih c parametara. Sluˇajna promenljiva X naziva c s ¯u c se kontrolisana a Y observirana (ili registrovana) sluˇajna promenljiva. tj. itd. Iz jednakosti (10) sleduje da je E(Y |X) = f (X). • Pretpostavke o obliku zavisnosti f. zakljuˇujemo da je regresiona funkcija vrlo ˇesto javlja u praksi kao linearna funkcija. Opˇti model zavisnosti je s Y = f (X) + ε. yi ).) Ona modeluje uticaj c c z raznih sluˇajnih faktora koji se. σ 2 ) sluˇajna promenljiva nezavisna od X. σX Dakle. Y ). c X f + Y e Sl. tada je f (x) = E(Y |X = x) = µX + ρ σY (x − µx ). u kom sluˇaju imamo linearnu c c regresiju (korelaciju). Y ). c Na osnovu (11) moglo bi se pretpostaviti da moˇemo oceniti E(Y |X = x) tako ˇto ´emo za svaku z s c fiksiranu (ulaznu) vrednost X = x meriti izlaz Y dovoljan broj puta. 15. nepredvid ¯ene oscilacije. tj. Samo posmatranjem X i Y treba odrediti karakteristike sistema. Y = aX + b + ε. Regresiona prava Najjednostavniji sluˇaj regresije je ako se pretpostavi u obliku c f (x) = ax + b. (12) . 15 Model (10) moˇe se predstaviti kao na sl. da bi se ocenila regresiona funkcija (u ovom sluˇaju regresiona prava). U Teoriji verovatno´e se dokazuje da ako sluˇajni vektor (X. Primer 29. Problem ocenjivanja s z z c z se moˇe uprostiti koriste´i dodatne pretpostavke koje moˇemo svrstati u dve kategorije: c • Pretpostavke o zajedniˇkoj funkciji raspodele za (X. uticaj c c s s kapacitivnosti i induktivnosti u elektronskim kolima. σY i koeficijentom korelacije ρ = ρ(X.

Y ) ima zajedniˇku dvodimenzionalnu normalnu raspodelu. (13) −→ min. Yn ) . b) dostiˇe minimum. Iz uslova z ∂R(a. b) = E((Y − aX − b)X) = 0 ∂a ∂R(a. Ovo je vaˇno svojstvo normalne raspodele: c z Teorema 13. . xn ). ¯u Da bi se doˇlo do regresione prave. . Y1 ). . . σX Pored ¯enjem sa rezultatom Primera 29 vidimo da se dobija isti oblik regresione funkcije kao kada se pretpostavi da je zajedniˇka raspodela normalna. Ocenjena regresiona prava y = ax + ˆ ˆ b je prava koja. . Teorema 12. b) = E (Y − aX − b)2 Ispitajmo kada funkcija R(a. z (x1 . Regresiona funkcija je prava (regresiona prava) E(Y |X = x) = µX + ρ σY (x − µX ) σX ako i samo ako sluˇcjni vektor (X. Dakle. To c je onda prava koja od svih pravih linija najbolje opisuje zavisnost izmed Y i X u smislu srednjeg ¯u kvadratnog odstupanja. Tada je c E Y − E(Y |X))2 ≤ E Y − g(X))2 za svaku funkciju g za koju postoji matematiˇko oˇekivanje na desnoj strani. a c Regresionu pravu ima smisla konstruisati i ako se zna da zajedniˇka raspodela nije normalna. od svih pravih linija.33 Koristi´emo se slede´im tvrd c c ¯enjem. σY . ∂b nalazimo reˇenja s a= E(XY ) − E(X)E(Y ) . najbolje opisuje zavisnost izmed X i Y na osnovu datog uzorka. . ρ. u praksi se za prost uzorak (X1 . σX . . D(Y ) Ako uvedemo oznake µx . Xn ) nalazi realizovan uzorak s (x1 . D(X) b = E(Y ) − aE(X). . . b) = E(Y − aX − b) = 0. (x2 . Neka su X i Y zavisne sluˇajne promenljive. . c c Na osnovu Teoreme 12 i (11) sledi da parametre a i b u (12) treba odrediti iz uslova R(a. iz (12) i (13) nalazimo da je f (x) = µX + ρ σY (x − µX ). Y ) D(X) . (xn . µY . . . Zatim se svakoj numeriˇkoj vrednosti xk pridruˇuje sluˇajna promenljiva Yk = aXk +bk +εk c z c obeleˇja Y. Prva jednakost u (13) moˇe se napisati u obliku z a = ρ(X. Y2 ).

. gde je yk = axk + ˆ + εk ˆ b sa E(εk ) = 0. . ˆ b) 1 x= ¯ n n 2 k=1 b) (yk − axk − ˆ = 0. Tada se sistem (14) svodi na sistem 1 a ˆ n n x2 k k=1 1 + ˆx = b¯ n n x k yk . (x2 . ˆ najpre nalazimo reˇenja sistema jednaˇina a b) s c ∂G(ˆ. 16. ˆ¯ b ¯ (15) . y = ¯ k=1 k=1 yk . ˆ = a b) n k=1 yk − axk − ˆ . .. 16 xn x Uvedimo funkciju G(ˆ. . y2 ). c ˆ b Ideja je jednostavna i moˇe se jasno sagledati sa sl. Rasipanje . parametre a i b ´emo odrediti tako da zbir ε 2 + ε2 + · · · + ε2 bude c n 1 2 minimalan. = 0. ∂ˆ a ∂ˆ b koji se svodi na sistem n n 2 k=1 xk (yk − axk − ˆ = 0. U opisanom modelu potrebno je odrediti parametre a i b tako da postoji linerna zavisnost izmed ¯u vrednosti realizovanog uzorka. ˆ b 2 Da bismo minimizirali funciju G(ˆ. pri ˇemu su a i ˆ ocene parametara a i b dobijene na osnovu uzorka. y e1 e2 e4 e3 en y=a x+b o x1 x2 x3 x4 Sl. ˆ a b) = 0. . . . (xn . ˆ a b) ∂G(ˆ. y2 ). . k=1 ax + ˆ = y . (xn .34 za koji realizovan uzorak ima oblik ured ¯enih parova (x1 . Kao ˇto je ranije napomenuto. y1 ). (x2 .roja” taˇaka (x 1 . . yn ). z c . Drugi pristup je jednostavniji (metod s najmanjih kvadrata) pa. y1 ). ε2 . . prema tome. .ˇumova” ε1 . ˆ n (14) Uvedimo skra´enice c xk . yn ) oko pretpostavljene regresione prave y = ax+b bi´e najmanje ako je zbir apsolutnih vrednosti c . εn (ili zbira njihovih kvadrata) minimalno. ovi parovi ˇine u ravni dijagram rasturanja za koji se ispituje tendencija s c linearne zavisnosti. .

Izraˇunavanje koeficijeneta a i ˆ je jednostavnije pomo´u slede´e tabele: c ˆ b c c Σ xk yk x2 k x k yk 1 3 1 3 2 4 3 7 4 16 6 28 5 6 25 30 8 12 64 96 20 31 110 163 c Sistem (15) u ovom sluˇaju je 110ˆ + 20ˆ = 163. y3 = 7. Za nekoliko sluˇajno odabranih porodica dobijeni su podaci o dnevnoj potroˇnji mleka (u ) i c s broju ˇlanova porodice (x): c broj ˇlanova porodice (x) c potroˇnja mleka u s 2 4 3 6 3 4 3 4 1 3 1 4 2 2 2 3 Odrediti pravu linearne regresije Y na x. Grafiˇki predstaviti podatke i nacrtati pravu linearne regresije.35 Odavde dobijamo ocene a i ˆ koeficijenata a i b : ˆ b 1 n a= ˆ n 1 n k=1 n xk yk − xy ¯¯ x2 k −x ¯ 2 . x3 = 4. Primer 30.3. s ˆ b c Primer 31.3x + 1. b ¯ ˆ¯ (16) k=1 Koriste´i ranije uvedene statistike. x2 = 2. y2 = 3. y5 = 12. Dakle. c Proceniti potroˇnju mleka u petoˇlanoj porodici. x4 = 5. x5 = 8 vrednosti kontrolisane promenljive x. a ogovaraju´e registrovane vrednosti za posmatrano obeleˇje Y su y1 = 3. Neka su x1 = 1. c z c Odrediti jednaˇinu regresione prave. Koriste´i a i ˆ odred c ˆ b ¯enim formulama (3) dobija se prava linearne regresije y = ax + ˆ ˆ b. ˆ = 1. a b sa reˇenjem a = 1. y4 = 6. ˆ = y − ax. jednaˇina regresione prave je y = 1. a b 20ˆ + 5ˆ = 31. s c Do reˇenja ´emo do´i jednostavnije koriste´i slede´u tabelu: s c c c c Σ xk yk x2 k x k yk 2 1 4 2 4 3 16 12 3 1 9 3 6 4 36 24 3 2 9 6 4 2 16 8 3 2 9 6 4 3 16 12 29 18 115 73 . b ˆ Primetimo da su formule dobijene na osnovu ocena iz uzorka analogne formulama (13). formule (16) mogu se napisati u obliku c a= ˆ (XY )n − X n Y n Sn 2 . ˆ = Y n − aX n .

596.36 Na osnovu formula (16) sada je (stavljaju´i n = 8) c 1 1 1 · 73 − · 29 · · 18 8 8 a= 8 ˆ = 0. 17 Dijagram rasturanja i linearna prava regresije . Prognozu za petoˇlanu porodicu c (x = 5) izraˇunavamo iz jednaˇine prave: c c y(5) = 0.3291 3 2 1 1 2 3 4 5 x 6 Sl.596 i prikazana je na sl.785. 1 1 · 115 − · 29)2 8 8 1 ˆ = y − ax = · 18 − 0.3291 .596 = 3. 17.785x − 0. b ¯ ˆ¯ 8 8 Prava linearne regresije glasi y = 0. y 4 3.786 · 5 − 0.785 · 1 · 29 = −0.

37 Tablica I – Normalna raspodela 1 Laplaceova funkcija Φ(x) = √ 2π x e−t 0 2 /2 dt Tablice daju vrednost izraza 1 Φ(x) = √ 2π x e−t 0 2 /2 dt za vrednost argumenta x izmed 0 i 3. σ .5. Vaˇe formule P (|X − µ| < ε) = 2Φ z ε . σ P (|X − µ| ≥ ε) = 1 − 2Φ ε . Za negativne vrednosti koristimo relaciju ¯u Φ(−x) = −Φ(x).

38 Tablica II .α .χ2 raspodela P (χ2 ≥ χ2 ) = α n n.

α ) = α .39 Tablica III – Studentova t raspodela P (|tn | ≥ tn.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->