Statistika

STATISTIKA
1. Osnovni pojmovi
Matematicka statistika se bavi proucavanjem skupova sa velikim brojem elemenata, koji su jednorodni
u odnosu na jedno ili vise zajednickih kvalitatitvnih ili kvantitativnih svojstava. Kako individualni
slucajevi mogu pokazivati manja ili veca odstupanja od prosecnog ili tipicnog, to je neophodno da se
posmatraju u velikom broju, u masi, da bi se otkrilo ono sto je njima opste i zakonito - jer se zakonitost
ispoljava u masi.
Predmet ispitivanja Matematicke statistike su skupovi (populacije, mase) ciji su elementi objekti i
pojave raznolikog karaktera. Skip elemenata koji posmatramo zove se populacija (ili generalni skup, ili
prostor uzoraka). Kod svakog elementa (statisticke jedinice) posmatramo njegovu odredenu numericku
karakteristiku X, koju nazivamo obelezjem. Ako populaciju posmatramo kao skup elementarnih
dogadaja , onda je obelezje X = X() numericka funkcija denisana nad .
Primer 1. Kutija sadrezi N kuglica od kojih N p belih i N q crnih (p + q = 1). Tih N kuglica u
kutiji cini jednu populaciju. Kao obelezje svakog elementa (kuglice) uzecemo njenu boju. To nije numericka
karakteristika, ali moze se lalo svesti na takvu. Na primer, stavimo da je obelezje 1 ako je kuglica bela i 0 ako je
crna (kodiranje).
Primer 2. Skup svih seoskih domacinstva neke zemlje cini jednu populaciju. Obelezje svakog domacinstva
moze da bude velicina poseda, broj konja, prinos psenice, itd.
Primer 3. Celokupna proizvodnja fabrike sijalica cini jednu populaciju. Obelezje svake sijalice moze, na
primer, da bude ,,duzina zivota izrazena u casovima.
Broj elemenata populacije moze da bude konacan ili beskonacan (prebrojiv ili neprebrojiv). Primetimo
da kod svakog elementa mozemo da posmatramo ne samo jedno obelezje, vec dva ili vise istovremeno
(Primer 2). U tom slucaju ponekad je od interesa posmatrati njihovu meduzavisnost.
Osnovni problem kojim se Matematicka statistika bavi sastoji se u sledecem: za datu populaciju
naci raspodelu datog obelezja na njenim elementima. U toku statistickog proucavanja mogu se
razlikovati tri etape:
1) statisticko posmatranje;
2) grupisanje i sredivanje podataka;
3) obrada sa naucnom analizom rezultata.
Primer 1. Zamislimo da nam je nepoznat broj belih i crnih kuglica. Raspodelu obelezja znacemo ako
oderdimo broj p jer tada imamo Np belih i N Np = Nq crnih kuglica.
Primer 2. Ako je obelezje velicina poseda, raspodelu tog obelezja imamo ako znamo koliko je poseda od 0
do 1 hektara, 12 hektara, itd.
Primer 3. Raspodelu ,,duzine zivota znamo ako nam je poznat procenat proizvedenih sijalica cija je ,,duzina
zivota u odredenim granica [a, b] za svako a, b (a < b).
Statisticka ispitivanja mogu se podeliti na dve vrste:
1
2
1) potpuna ispitivanja celokupne populacije;
2) delimicna ispitivanja, odnosno ispitivanje jednog dela populacije (uzorka).
Prva vrsta ispitivanja je vrlo retka u praksi. U ogromnoj vecini slucajeva koje srecemo u primenama
nije moguce dobiti kompletnu informaciju o raspodeli obelezja u celoj populaciji. Razlog moze da lezi
u brojnosti populacije, u velikim troskovima vezanim sa registrovanjem obelezja kod svakog elementa,
velikim gubitkom vremena, unistavanju elemenata populacije (Primer 3), itd.
Zbog navedenih teskoca, po pravilu se iz cele populacije uzima jedan deo i to konacan i on se izucava.
Taj deo se zove uzorak. Broj elemenata u uzorku je konacan i zove se obim uzorka. Na izabranom
uzorku regustruje se obelezje kod svakog elementa a zatim se vrsi ekstrapolacija na celu populaciju, tj.
dobijena raspodela obelezja prosiruje se sa uzorka na ceo skup. Odmah se namece pitanje tzv. reprezen-
tativnosti takvog uzorka. Bez matematicke rigoroznosti mozemo reci da je neki metod uzimanja dela
populacije reprezentativan, ako je kriterijum po kome se uzima taj deo nezavisan od obelezja koje pos-
matramo. Jedan od nacina postizanja reprezentativnosti je da taj deo izaberemo slucajno.
Metod slucajnog uzorka sastoji se u tome da se slucajno bira element iz i registruje njegovo
obelezje X = X(). Dakle, obelezje X je slucajna promenljiva i neka je F(x) njena funkcija raspodele.
Ako vrsimo n takvih biranja elemenata, odnosno registrovanja obelezja X, imamo uzorak obima n, tj.
n-dimenzionalnu slucajnu promenljivu (X
1
, . . . , X
n
), gde je X
i
(i = 1, . . . , n) obelezje X u i-tom biranju.
Prost slucajni uzorak je uzorak kod koga su slucajne promenljive X
i
(i = 1, . . . , n) nezavisne
i imaju istu raspodelu kao X. Odredene numericke vrednosti kojima registrujemo slucajne promenljive
X
i
(i = 1, . . . , n) obelezavamo malim slovima x
i
. n-dimenzionalni vektor (x
1
, . . . , x
n
) baziva se realizo-
van uzorak.
Ocena generalnog skupa (populacije) na osnovu podataka iz uzorka, predstavlja oblik induktivnog
uopstavanja: osobine ispitanog dela pripisuju se celini iz koje je uzet. Da bi uzorak dobro reprezentovao
generalni skup, mora da budu ispunjeni sledeci uslovi:
1) svaki element generalnog skupa mora da ima jednaku sansu da ude u uzorak;
2) uzorak mora da bude dovoljno brojan.
Osnovni zadatak Matematicke statistike jeste da pomocu uzorka (X
1
, . . . , X
n
) odredi raspodelu F(x)
obelezja X. Da je to moguce tvrdi centralna teorema statistike (o kojoj ce biti reci kasnije) pod
uslovom da je n vrlo veliko. Kako u primenama radimo samo sa konacnim obimom uzorka, raspodelu
za X mozemo da odredimo samo priblizno, utoliko tacnije ukoliko je n vece. U resavanju postavljenog
problema radimo sa funkcijama slucajnog uzorka (X
1
, . . . , X
n
).
Denicija 1. Za dati prost uzorak (X
1
, . . . , X
n
), empirijska funkcija raspodele denise se, za
svako x R, sa S
n
(x) = k/n, gde je k broj elemenata iz uzorka koji nisu veci od x.
Neka je X
(1)
, X
(2)
, . . . , X
(n)
varijacioni niz, koji cine vrednosti slucajnih promenljivih X
1
, X
2
, . . . , X
n
uredene po velicini od najmanje do najvece. Tada se empirijska raspodela moze odrediti pomocu
S
n
(x) =
_
_
0, ako je x < X
(1)
,
k
n
, ako je X
(k)
x X
(k+1)
, 1 k n 1,
1, ako je x X
(n)
.
(1)
Primer 4. U eksperimentu su dobijene sledece brojne vrednosti uzorka obima n = 10 : 9, 15, 7, 11, 17, 9, 7,
12, 7, 15. Varijacioni niz je 7, 7, 7, 9, 9, 11, 12, 15, 15, 17. Iz jednakosti (1) ili direktno iz Denicije 1 nalazimo
da je
3
S
n
(x) =
_
_
0, x < 7,
3
10
, 7 x < 9,
5
10
, 9 x < 11,
6
10
, 11 x < 12,
7
10
, 12 x < 15,
9
10
, 15 x < 17,
1, x 17.
Stepenasta kriva empirijske funkcije raspodele S
n
(x) prikazana je na gornjoj slici desno.
Neka je X R ksirano. Denisimo Y
i
= 1 ako je X
i
x i Y
i
= 0 ako je X
i
> x. Tada zbir Y
1
+ +Y
n
predstavlja broj onih slucajnih promenljivih iz uzorka X
1
, . . . , X
n
cije su vrednosti x, pa je
S
n
(x) =
Y
1
+ +Y
n
n
.
Prema zakonu velikih brojeva za svako ksirano x R vazi
P
_
lim
n+
S
n
(x) = F(x)
_
= 1. (2)
Ovaj rezultat opravdava aproksimaciju funkcije raspodele njenom empirijskom raspodelom dobijenom
iz uzorka. Sledeca teorema, poznata i pod nazivom centralna teorema statistike, tvrdi da je ta
aproksimacija uniformna po x :
Teorema 1 (Glivenko-Kantelijeva teorema). Ako je F(x) funkcija raspodele slucajne promenljive
X i S
n
empirijska funcija raspodele dobijena iz prostog uzorka (X
1
, . . . , X
n
) obima n, tada je
P
_
sup
xR
|S
n
(x) F(x)| 0, kada n +
_
= 1.
Smisao ove teoreme je sledeci: kada je uzorak dovoljno brojan, tada sa verovatnocom bliskom jedinici
empirijska raspodela se malo razlikuje od teorijske, drugim recima, ukoliko je uzorak brojniji, utoliko
bolje reprezentuje celokupnost.
2. Prikazivanje statistickih podataka iz uzorka
Eksperimentalni podaci se, radi statisticke obrade, predstavljaju na dva osnovna nacina: tablicno i
gracki. Tablicni metod daje podatke u obliku tabele, cesto poredane u rastucem poretku dajuci tzv.
varijacioni niz obelezja. On pruza osnovu za dalja razmatranja u vezi sa raspodelom.
Primer 5. U 20 odeljenja osnovne skole registrovan je broj ucenika sa natprosecnim sposobnostima: 5, 6, 8,
10, 9, 8, 4, 7, 7, 3, 6, 4, 8, 7, 6, 6, 5, 3, 6, 6. Varijacioni niz uzorka je: 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 8,
8, 9, 10. Za odredivanje raspodele obelezja koristi se sledeca tabela:
Tabela 1
4
U tabeli su koriscene oznake: kbroj odeljenja sa posmatranim brojem natprosecnih ucenika, fapsolutna
ucestanost, f
relativna ucestanost, n
x
broj odeljenja sa ne vise od x natprosecnih ucenika,
fzbirna (kumu-
lativna) ucestanost,
zbirna relativna ucestanost.

Od posebnog interesa su zbirne relativne ucestanosti S
n
(x) = n
x
/n, gde je n
x
, zapravo, slucajna
velicina. Kao sto smo ranije videli, a sto se moze zapaziti i iz tabele X, funkcijom S
n
(x) = n
x
/n je
odredena empirijska funkcija raspodele obelezja X (broj natprosecnih ucenika u pojedinim odelje-
njima u Primeru X.)
Kod obelezja apsolutno neprekidnog tipa podaci u tabeli se sreduju po unapred odabranim intervalima
(klasama). Broj i raspored intervala zavisi od broja podataka i samog obelezja. Strogog pravila za izbor
broja i duzine intervala nema, ali se u praksi preporucuje da broj intervala k zadovolji nejednakosti
1 + 3.322 log
10
n = 1 + log
2
n k 5 log
10
n
za obim uzoraka n. Broj intervala k se moze odrediti i na jedan od sledecih nacina: k =

n, k = 2n
1/3
ili k = 5 log
10
n.
Duzine intervala se odreduju na sledeci nacin: Odreduju se najmanja x
min
i najveca x
max
vrednost u
realizovanom uzorku (x
1
, . . . , x
n
), a zatim se duzina intervala racuna po formuli
h =
x
max
x
min
k
,
pri cemu se vodi racuna da su granice intervala jednostavne za rad (celi brojevi, brojevi deljivi sa 5 i
slicno).
Raspodela obelezja gracki se prikazuje preko ucestanosti, zbirnih ucestanosti ili zbirnih relativnih
ucestanosti, tj. emprijiske funkcije raspodele. Gracki metodi prikaza su najcesce poligon, kumulativna
kriva, razni dijagrami, histogram (iskljucivo za obelezje apsolutno neprekidnog tipa) i slicno.
Na slikama od 1 do 3 prikazani su podaci koji se odnose na Primer 5. Figure na slikama 1a i 1b su
poligoni, a na slikama 2 i 3b su trakasti dijagrami. Kumulativna kriva relativnih ucestanosti sa slike 3a
prikazuje emprijsku funkciju raspodele.
Sl. 1 Poligoni: a) apsolutnih ucestanosti; b) relativnih ucestanosti u % (Primer 5)
5
Sl. 2 Trakasti dijagram apsolutnih usetanosti (Primer 5)
Sl. 3 a) Kumulativna kriva relativnih ucestanosti; b) trakasti dijagram zbirnih ucestanosti (Primer 5)
Primer 6. Testom za proveru motornih sposobnosti je meren nivo sposobnosti ucenika jednog odeljenja i
dobijeni rezultati su svrstani u tri kategorije: nizak (n), srednji (s) i visok (v) nivo sposobnosti. U odeljenju je
registrovan sledeci niz podataka: n, n, s, v, s, s, s, n, v, v, s, s, s, n, v, v, v, s, v, n, n, s, v, s. Na osnovu niza
realizacija dobijena je tabela
Tabela 2
Prilikom grackog prikaza kvalitativnih obelezja, vrednosti obelezja se mogu proizvoljno poredati,
recimo prema rascenju ili opadanju ucestanosti, azbucnom redu, itd. Na slikama 4 i 5 prikazana su cetiri
karakteristicna nacina ilustracije apsolutne ucestanosti kod kvalitativnih obelezja (za Primer 6).
6
Sl. 4 a) Vertikalni i b) horizontalni trakasti dijagram (Primer 6)
Sl. 5 Podela a) kruga (,,pita, ,,kolac) i b) pravougaonika za prikazivanje ucestanosti u uzorku (Primer 6)
Denicija 2. Statistika Z je funkcija uzorka Z = f(X
1
, . . . , X
n
) koja ne zavisi eksplicitno od
nepoznatih parametara.
Statistika je slucajna promenljiva koja opisuje empirijsku raspodelu obelezja X. Neke vaznije statistike
su
1. X
min
minimum uzorka ili najmanja vrednost uzorka;
2. X
max
maksimum uzorka ili najveca vrednost uzorka;
3. R = X
max
X
min
raspon uzorka;
4. X
n
=
1
n
n
k=1
X
k
sredina uzorka;
5. S
2
n
=
1
n
n
k=1
(X
k
X
n
)
2
) disperzija uzorka;
6.

S
2
n
=
1
n1
n
k=1
(X
k
X
n
)
2
popravljena disperzija uzorka;
7. S
n
=
_
S
2
n
standardno odstupanje uzorka;
8. T
n
=
n
k=1
X
k
total uzorka;
7
9. koecijent korelacije uzorka
R
X,Y
=
1
n
n
i=1
X
i
Y
i
X
n
Y
n
S
X
S
Y
,
gde je S
X
=
_
1
n
n
k=1
X
2
k
(X
n
)
2
, S
Y
=
_
1
n
n
k=1
Y
2
k
(Y
n
)
2
.
Napomena 1. Disperzija uzorka S
2
n
se jednostavnije racuna po formuli
S
2
n
=
1
n
n
k=1
X
2
k
X
2
n
.
Zaista, imamo
S
2
n
=
1
n
n
k=1
(X
k
X
n
)
2
) =
1
n
n
k=1
(X
2
k
2X
n
X
k
+X
2
n
)
=
1
n
n
k=1
X
2
k
2
1
n
X
n
n
k=1
X
k
+X
2
n
=
1
n
n
k=1
X
2
k
X
2
n
.
Primer 7. U Primeru 1 obelezje X uzima dve vrednosti: 1 ako je kuglica bela i 0 ako je kuglica crna.
Slucajna promenljiva X ima Bernulijevu raspodelu verovatnoca
X :
_
1 0
p q
_
.
Prost slucajan uzorak obezbedujemo ako kuglice izvlacimo jednu po jednu i posto kod svake registrujemo njenu
boju vracamo je u kutiju pre sledeceg izvlacenja. Raspodela obelezja X potpuno je odredena parametrom p.
Izmenimo oznake tako sto cemo uzorak (X
1
, . . . , X
n
) preimenovati u (I
1
, . . . , I
n
), gde je I
k
(k = 1, . . . , n) u
stvari indikator dogadaja da u k-tom izvlacenju kuglica bude bele boje. Tada je slucajna promenljiva
S
n
= I
1
+I
2
+ +I
n
jedna statistika koja predstavlja broj izvucenih belih kuglica. Opisani eksperiment sa Bernulijevom raspodelom
duzine n denise binomnu raspodelu S
n
: B(n, p) za koju znamo da je E(S
n
) = np i
2
(S
n
) = npq. Uvedimo
statistiku
X
n
=
S
n
n
=
X
1
+ +X
n
n
.
Kako je E(X
n
) =
1
n
E(S
n
) = p, na osnovu zakona velikih brojeva sledi P
_
|X
n
p|
_
0 kad
n , tj. statistika X
n
sve je bliza nepoznatom parametru p sa porastom obima uzorka n. Na osnovu
centralne granicne teoreme mozemo vise da kazemo o ovoj pribliznosti i da je ocenimo. Kako S
n
ima priblizno
raspodelu N(np, npq), sledi da X
n
= S
n
/n takode ima priblizno normalnu raspodelu sa parametrima E(X
n
) =
p,
2
(X
n
) =
1
n
2
2
(S
n
) =
pq
n
.
Primetimo da pq = p(1 p) = p p
2
za 0 < p < 1 nije vece od 1/4. Dakle,
2
(X
n
)
1
4n
. Na primer, za
n = 100 raspodela za X
100
je priblizno N
_
p,
pq
100
_
i disperzija nije veca od 1/400. Gustina raspodele skicirana
8
je na slici 6. Vidimo da su verovatnoce odstupanja X
n
od nepoznatog parametra p vrlo male. Na primer
P
_
|X
100
p| < 0.1
_
= P
_
S
100
100
p
< 0.1
_
= P
_
|S
100
100p| < 10
_
= P
_
S
100
100p
100pq
<
10
100pq
_
= P
_
S
100
100p
100pq
<
1
pq
_
P
_
|Z
| <
1
pq
_
P
_
|Z
| < 2
_
= 2(2) = 2 0.47725 = 0.9555.
Sl. 6
Dakle, ,,sanse da X
100
odstupi od nepoznatog parametra p vise od 0.1 manje su od 5%.
3. Neke raspodele vazne u statistici
Hi kvadrat raspodela
U Teoriji verovatnoce, razmatrajuci raspodele neprekidnih slucajnih promenljivih, denisali smo Gama
raspodelu sa parametrima i , u oznaci (, ). Za ovu raspodelu je
f(x) =

e
x
x
1
()
, E(X) =

, D(X) =

2
, (t) =

( it)
. (3)
Poseban slucaj ove raspodele, (
n
2
,
1
2
) ima vazne primene u verovatnoci i statistici.
Denicija 3. Raspodelu denisanu gustinom
f(x) =
1
2
n/2
(
n
2
)
x
n
2
1
e
x
2
, (x > 0)
nazivamo hi kvadrat raspodelom sa n stepeni slobode, u oznaci
2
(n). Broj n moze biti proizvoljan
pozitivan broj, ali je u primenama vazan slucaj kada je n prirodan broj. Za n = 2 dobija se E(1/2)
raspodela.
Na sl. 7 prikazana je gustina funkcije za nekoliko stepeni slobode.
9
Sl. 7 Gustine hi kvadrat raspodele
Na osnovu izraza za karakteristicnu funkciju Gama raspodele (3), u specijalnom slucaju za = n/2 i
= 1/2 dobijamo karakteristicnu funkciju
2
(n) raspodele
(t) =
1
(1 2it)
n/2
. (4)
Teorema 2. Neka su X
1
, . . . , X
n
nezavisne slucajne promenljive sa N(0, 1) raspodelom i neka je
V = X
2
1
+ +X
2
n
, n N.
Slucajna promenljiva V ima
2
(n) raspodelu.
Dokaz. Slucajna promenljiva V je zbir n nezavisnih slucajnih promenljivih sa istom raspodelom.
Karakteristicna funkcija svakog sabirka je
0
= E(e
itX
2
), X N(0, 1),
odnosno,
0
(t) =
1
2
_
+
e
itx
2
e
x
2
/2
dx =
1
2
_
+
exp
_
x
2
(1 2it)
2
_
dx =
1
1 2it
.
Poredenjem sa (4) vidimo da svaka od nezavisnih slucajnih promenljivih X
2
i
(i = 1, . . . , n) ima
2
(1)
raspodelu. S obzirom da su X
1
, . . . , X
n
nezavisne slu acjne promenljive, karakteristicna funkcija njihovog
zbira je
(t) =
_
0
(t)
_
n
= (1 2it)
n/2
,
a ovo je karakteristicna funkcija
2
(n) raspodele. Time je dokaz zavrsen.
Da bismo istakli da slucajna promenljiva V ima
2
(n) raspodelu, u nastavku cemo umesto V pisati
2
n
. Iz (3) (za = n/2 i = 1/2) dobijamo
E(
2
n
) = n, D(
2
n
) = 2n. (5)
Iz oblika karakteristicne funkcije (4) vidimo da zbir nezavisnih slucajnih promenljivih sa
2
(n
i
)
raspodelom (i = 1, . . . , k) ima
2
(n
1
+ +n
k
) raspodelu. Naziv ,,broj stepeni slobode, koji se koristi
za parametar hi kvadrat raspodele, potice uglavnom od ove osobine. Sustinski, broj stepeni slobode
oznacava broj linearno nezavisnih slucajnih promenljivih medu X
1
, X
2
, . . . , X
n
u izrazu za
2
n
. Ako bi,
10
na primer, medu X
1
, X
2
, . . . , X
n
postojala jedna linearna veza, recimo X
1
+ X
2
+ + X
n
= 0, tada
bismo imali
2
n1
= X
2
1
+X
2
2
+ +X
2
n
,
dakle, broj stepeni slobode je umanjen za 1.
Koristeci osobinu karakteristicne funkcije nezavisno promenljivih, lako se dokazuje sledeca teorema.
Teorema 3. Ako su X i Y nezavisne slucajne promenljive takve da X ima
2
(n)raspodelu a Y
2
(r)
raspodelu, tada X +Y ima
2
(n +r) raspodelu.
Dokaz. Kako je
X
(t) = (1 2it)
n/2
i
Y
(t) = (1 2it)
r/2
, iz nezavisnosti X i Y sledi
X+Y
(t) =
X
(t)
Y
(t), tj.
X+Y
(t) = (1 2it)
n/2
(1 2it)
r/2
= (1 2it)
n+r
2
,
a to je karakteristicna funkcija
2
(n +r) raspodele.
Verovatnoce vezane za hi kvadrat raspodelu daju se tabelarno (videti Tabelu II). S obzirom na najcescu
primenu u Matematickoj statistici te tablice su tako sacinjene da za dati stepen slobode n (obicno
n = 1, 2, . . . , 30) i dati broj (0 < < 1) (obicno = 0.01, 0.05, . . . , 0.80) u tablici citamo broj
2
n;
(ovo nije slucajna promenljiva, za razliku od
2
n
) takav da je
P(
2
n

2
n;
) = .
Sl. 8
Na sl. 8 prikazana je jedna hi kvadrat gustina , broj
2
n;
i broj koji (kao verovatnoca) predstavlja
povrsinu izmedu x-ose i krive gustine za x >
2
n;
.
U tablicama se broj stepeni slobode n obicno ne daje za n 30. Za n 30 na osnovu centralne
granicne teoreme
2
n
ima priblizno (i to za primene sasvim zadovoljavajuce tacno) normalnu raspodelu.
Kako je E(
2
n
) = n i D(
2
n
) = 2n, znaci da
2
n
ima problizno N(n, 2n) raspodelu. Preciznije, vazi
teorema.
Teorema 4. Kada n +, funkcija raspodele slu ajne promenljive
2
n
n
2n
konvergira funkciji raspodele N(0, 1).
Raspodela matematickog ocekivanja i sredine X
n
= (X
1
+ + X
n
)/n je razmatrana u sledecoj
teoremi.
11
Teorema 5. Neka su X
1
, . . . , X
n
nezavisne slucajne promenljive sa istom raspodelom N(,
2
). Tada
vazi
1
2
n
k=1
(X
k
)
2

2
(n),
2
2
n
k=1
(X
k
X
n
)
2

2
(n 1).
Napomena 2. U slucaju 2
broj stepeni slobode je n 1 jer medu slucajnim promenljivim X

k
X
n
postoji jedna linearna veza
n
k=1
(X
k
X
n
) =
n
k=1
X
k
nX
n
= 0.
Napomena 3. Posmatrajmo disperziju uzorka iz normalne populacije (tj. populacije cije je obelezje
X N(,
2
))
S
2
n
=
1
n
n
k=1
(X
k
X
n
)
2
.
Na osnovu 2
sledi da slucajna promenljiva

nS
2
n
2
ima
2
(n 1) raspodelu.
Primer 8. Neka obelezje X ima E(X) = i D(X) =
2
. Ako je obim uzorka (X
1
, . . . , X
n
) veliki (recimo
n 30), tada na osnovu centralne granicne teoreme sredima uzorka
X
n
=
X
1
+ +X
n
n
ima priblizno normalnu raspodelu. Kako je
E(X
n
) = E
_
1
n
n
k=1
X
k
_
=
1
n
n
k=1
E(X
k
) =
1
n
n =
i
D(X
n
) = D
_
1
n
n
k=1
X
k
_
=
1
n
2
n
k=1
D(X
k
) =
1
n
2
n
2
=

2
n
,
sledi da je to normalna raspodela N(,
2
/n). Primetimo da smo u gornjem izracunavanju E(X
n
) i D(X
n
)
koristili cinjenicu da je (X
1
, . . . , X
n
) prost uzorak, tj. da su X
1
, . . . , X
n
nezavisne slucajne promenljive i da
svaka ima istu raspodelu kao i obelezje X.
Na osnovu dobijenog rezultata vidimo da standardizovana slucajna promenljiva
X
n
n
ima normalnu
raspodelu N(0, 1).
Studentova t raspodela
Neka su X
1
, . . . , X
n
nezavisne slucajne promenljive sa N(,
2
) raspodelom. Na osnovu Primera 8
sledi da standardizovana slucajna promenljiva
X
=
X
n
n
12
ima standardnu normalnu N(0, 1) raspodelu. Medutim, ako
2
nije poznato, uzima se ocena
s
2
=
1
n 1
n
k=1
(X
k
X
n
)
2
i formira se slucajna promenljiva
t
n
=
X
n
s/
n
cija raspodela je poznata pod nazivom t raspodela ili Studentova raspodela. Ovu raspodelu je otkrio
i proucavao Vilijam Goset pocetkom dvadesetog veka. On je radio u Guinnessovoj pivari u Dablinu
(Irska) i iz poslovnih razloga koristio je pseudonim Student.
Denicija 4. Raspodela denisana funkcijom gustine
f(x) =

_
n+1
2
_
n
_
n
2
_
_
1 +
x
2
n
_
(n+1)/2
, x R, n > 0
naziva se Studentovom t raspodelom sa n stepeni slobode, u oznaci t(n). Parametar n moze biti
proizvoljan pozitivan broj, ali se ova raspodela uglavnom koristi kada je n N.
Za veliko n, t(n) raspodela moze se aproksimirati N(0, 1) raspodelom, kao sto se vidi na slici 9.
Sl. 9 Gustine t(n) raspodele za n = 2, 5, 15 u poredenju sa normalnom N(0, 1) raspodelom (isprekidana linija)
Primene t raspodele proizilaze iz sledece teoreme.
Teorema 6. Neka su slucajne promenljive Z
N(0, 1) i
2
n
nezavisne. Tada slucajna promenljiva
t
n
=
n
Z
2
n
ima t(n) raspodelu.
Kao i u slucaju
2
raspodele, verovatnoce vezane za t raspodelu daju se tablicno (Tabela III). Za
odredeni broj stepeni slobode n i dati broj (0 < < 1), iz tablica se cita pozitivan broj t
n;
takav da
je
P(|t
n
| t
n;
) = .
13
Na slici 10 verovatnoca je prikazana kao zbir sraranih povrsina koje odgovaraju dogadaja {t
n
t
n;
} i
{t
n
t
n;
}. Primetimo da je
P(|t
n
| t
n;
) = P(t
n
t
n;
) +P(t
n
t
n;
) =

2
+

2
= .
Sl. 10
Teorema 7. Ako je (X
1
, . . . , X
n
) uzorak iz populacije sa obelezjem X koje ima normalnu raspodelu
N(,
2
), tada statistika
X
n
S
n
n 1
ima Studentovu t(n 1) raspodelu.
Dokaz. Jednostavnim transformacijama pocetne statistike dobijamo
X
n
S
n
n 1 =
(X
n
)
S
2
n
n 1
=
X
n
nS
2
n
2
(n 1)
.
X
n
n ima standardnu N(0, 1) raspodelu (Primer 8), a

nS
2
n
2
ima
2
(n 1) raspodelu (Napomena
3). Koristeci Teoremu 6 zakljucujemo da
X
n
S
n
n 1 ima Studentovu t(n 1) raspodelu.

4. Ocene parametara
Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz neke raspodele. U opstem slucaju ovaj uzorak zavisi od
nepoznatog parametra , gde moze biti vektor (kao u slucaju normalne raspodele, = (,
2
)) ili skalar
(kao kod Puasonove raspodele = ). Skup mogucih (dozvoljenih vrednosti) parametra obelezavamo
sa .
Problem ocene parametara sastoji su u tome da se nade statistika

=

(X
1
, . . . , X
n
) kojom ce se
oceniti parametar . Ta ocena moze biti nadena na dva nacina: kao tackasta ili intervalna ocena.
Ako za ocenu parametra u jednom realizovanom uzorku (x
1
, . . . , x
n
) uzmemo broj u
n
=

(x
1
, . . . , x
n
),
to je tzv. tackasta ocena. Cilj je odabrati takvu statistiku

koja daje bliske vrednosti nepoznatom
parametru koji ocenjujemo.
14
Tackaste ocene
Navescemo neke kriterijume na osnovu kojih procenjujemo koliko je dobra izabrana tackasta ocena.
Denicija 5. Neka je

=

(X
1
, . . . , X
n
) statistika koja se koristi kao ocena parametra .
Kazemo da je

stabilna ili postojana ocena za ako

konvergira u verovatnoci ka kada
n +, tj. ako je
lim
n+
P(|
| > ) = 0 za svako i > 0.

Ocena je centrirana ako je
E(
) = za svako .
Ocena je asimptotski centrirana ako E(
) kada n +.
Napomena 4. Svaka stabilna ocena parametra je asimptotski centrirana. S druge strane, svaka
centrirana ocena nije stabilna.
Primer 9. Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz raspodele sa nepoznatim matematickim ocekivanjem
. Ocenimo ovaj parametar pomocu sredine uzorka
X
n
=
X
1
+ +X
n
n
.
U Primeru 8 vudeli smo da je E(X
n
) = . Ocena X
n
je centrirana. To znaci da ako ponavljamo ocenjivanje
veliki broj puta, ,,u proseku dobijamo tacan rezultat . Pokazimo da je ocena i stabilna. Na osnovu zakona
velikih brojeva sledi da je
lim
n+
P
_
1
n
n
k=1
X
k

_
0,
te je ocena i stabilna (postojana).
1
, . . . , X
n
) prost uzorak. Ispitajmo da li je disperzija uzorka S
2
n
centrirana u odnosu
na disperziju
2
. Najpre izracunavamo
E(S
2
n
) = E
_
1
n
n
k=1
(X
k
X
n
)
2
_
= E
_
1
n
n
k=1
X
2
k

2
n
X
n
n
k=1
X
k
+
1
n
n
k=1
X
2
n
_
= E
_
1
n
n
k=1
X
2
k
X
2
n
_
=
1
n
n
k=1
E(X
2
k
) E
_
X
2
n
_
= E(X
2
) E(X
2
n
).
Kako je
E(X
2
n
) =
1
n
2
E
_
n
k=1
X
2
k
+
i=j
X
i
X
j
_
=
1
n
E(X
2
) +
n 1
n
E
2
(X),
imamo da je
E(S
2
n
) =
n 1
n
E(X
2
)
n 1
n
E
2
(X) =
n 1
n

2
. (6)
Na osnovu poslednjeg izraza zaklucujemo da ocene statistike (disperzije uzorka) S
2
n
za disperziju
2
obelezja X
nije centrirana. Medutim, kako
n1
n
1 kada n +, sledi da je ova ocena asimptotski centrirana.
Iz (6) vidimo i kao treba ,,popraviti ocenu obelezja X : Uocimo tzv. popravljenu disperziju uzorka
S
2
n
=
1
n 1
n
k=1
(X
k
X
n
)
2
.
15
Kako je

S
2
n
=
n
n1
S
2
n
, imamo
E(
S
2
n
) =
n
n 1
E(S
2
n
) =
n
n 1

n 1
n

2
=
2
.
Dakle,

S
2
n
je centrirana ocena za
2
. Primetimo da ako je n veliko, tada je
n
n1
1 tako da kod velikog broja
uzorka nema znacaja da li uzimamo S
2
n
ili

S
2
n
kao ocenu za disperziju.
Centriranost i stabilnost su pozeljne osobine svake ocene. Za kriterijum bliskosti stvarnoj vrednosti
parametra uzima se srednje kvadratno odstupanje, tj., sto je isto, disperzija D(
) = E((
)
2
) koja
predstavla meru rasejavanja.
Denicija 6. Ocena

1
je bolja (u smislu srednjeg kvadratnog odstupanja) od ocene

2
ako je
E((
1
)
2
) < E((
2
)
2
), ( ).
Neka je S dati skup statistika na bazi uzorka (X
1
, . . . , X
n
). Kazemo da je ocena

najbolja ocena
parametra na skupu S ako

S i E((
)
2
) = min
_
E((
)
2
),

S
_
.
Neka su

1
i

2
centrirane ocene parametra . Iz Denicije 6 proizilazi da je bolja ona ocena koja ima
manju disperziju.
Denicija 7. Neka su

1
i

2
centrirane ocene parametra . Kazemo da je ocena

1
ekasnija od
ocene

2
ako je D(
1
) D(
2
) za svako .
1
, X
2
) nezavisan uzorak iz raspodele sa nepoznatim matematickim ocekivanjem
. Svaka statistika oblika
= X
1
+ (1 )X
2
jeste centrirana ocena parametra . Disperzija ove ocene
je
2
+ (1 )
2
i minimalna je za = 1/2. Prema tome, najbolja (najekasnija) ocena u skupu {
} je

1/2
= (X
1
+X
2
)/2.
Od interesa je odrediti donju granicu disperzije svih mogucih centriranih ocena parametra . Bez
dokaza navodimo sledeci vazan rezultat.
Teorema 8 (Nejednakost Rao-Kramera).
a) Ako je obelezje X neprekidnog tipa sa funcijom gustine f(x; ), tada je
D(
n
) = E
_
(
n
)
2
_
1
n
_
+
_
log f(x; )
_
2
f(x; )dx
.
b) Ako je obelezje X diskretnog tipa sa skupom vrednosti {x
1
, x
2
, . . . } i ako stavimo p
i
() = P(X =
x
i
) (i = 1, 2, . . . ), tada je
D(
n
) = E
_
(
n
)
2
_
1
n
i
_
log p
i
()
_
2
p
i
()
.
Denicija 8. Najekasnija je ona ocena
n
za koju je dostignut inmum disperzije a kao meru
ekasnosti neke ocene mozemo uzeti
=
D(
n
)
D(
)
.
16
Primer 12. Prema teoremi Rao-Kramera, najekasnija ocena
n
parametra obelezja X sa normalnom
raspodelom N(,
2
) ( je poznat parametar) ima disperziju
D(
n
) =
1
n
_
_
log f(x; )
_
2
f(x; )dx
.
S obzirom da je
f(x; ) =
1
2
exp
_
1
2
_
x
_
2
_
,
posle kraceg izracunavanja dobijamo
D(
n
) =

2
n
.
Kako je D(X
n
) = E(X
2
n
) E
2
(X
n
), na osnovu Primera 10 i E
2
(X
n
) = E
2
(X) nalazimo
D(X
n
) = E
2
(X) +
1
n
E(X
2
) +
n 1
n
E
2
(X) =
1
n
_
E
2
(X) +E(X
2
)
_
=

2
n
= D(
n
).
Dakle, ocena X
n
je najekasnija.
Metod maksimalne verodostojnosti
Metod maksimalne verodostojnosti uveden je u Matematicku statistiku u drugoj deceniji dvadesetog
veka. Ideja ovog metoda je da se za ocenu parametra izabere vrednost pri kojoj je verovatnoca realizacije
dobijenog uzorka najveca. Pokazalo se da ovaj metod daje ocene koje su asimptotski (tj. za veliki uzorak)
ekasnije od ocena dobijenih na bilo koji drugi nacin. Medutim, primena tog metoda cesto je vezana za
slozena izracunavanja.
Denicija 9. Neka je (X
1
, . . . , X
n
) prost uzorak obima n i neka je (x
1
, . . . , x
n
) realizovan uzorak.
Oznacimo sa g(x; ) gustinu raspodele f(x; ) obelezja X ako je X neprekidnog tipa, a sa P(X = x; ), x
{x
1
, . . . , x
n
} ako je X diskretnog tipa. Funkcija verodostojnosti L() denise se kao
L() = L(x
1
, x
2
, . . . , x
n
; ) =
_
g(x
1
; ) g(x
2
; ) g(x
n
; ), X je neprekidnog tipa,
p(x
1
; ) p(x
2
; ) p(x
n
; ), X je diskretnog tipa.
Neka je = (x
1
, . . . , x
n
) vrednost parametra kojim se postize maksimum funkcije L() pri ksiranim
x
1
, . . . , x
n
. Statistika
= (X
1
, . . . , X
n
)
je ocena maksimalne verodostojnosti parametra .
Napomena 5. S obzirom da je logaritamska funkcija monotona, ponekad je lakse naci maksimum
resavajuci jednacinu
dL()
d
= 0.
Primer 13. Za nezavisan uzorak (X
1
, . . . , X
n
) iz Bernilijeve raspodele sa nepoznatim parametrom p,
funkcija verodistojnosti je
L(p) = p
k
(1 p)
nk
, k =
n
j=1
x
j
.
Iz jednacine
d log L(p)
dp
=
d
_
k log p + (n k) log(1 p)
_
dp
= 0, p (0, 1)
17
nalazimo da funkcija p l(p) = log L(p) dostize maksimum za p = k/n. Prema tome, ocena maksimalne
verodostojnosti za p je
p =
1
n
n
j=1
X
j
(= X
n
).
Primer 14. Obelezje X ima binomnu raspodelu B(k, p), gde je k N poznat, a p (0, 1) nepoznat
parametar. Na osnovu prostog uzorka obima n ocenicemo parametar p metodom maksimalne verodostojnosti.
Funkcija verodostojnosti data je sa
L(p) = L(x
1
, . . . , x
n
; p) =
n
i=1
_
k
x
i
_
p
x
i
(1 p)
kx
i
.
Maksimum funcije p l(p) = log L(p) nalazimo polazeci od resenja jednacine
log L(p)
p
=
1
p
n
i=1
x
i
1
1 p
n
i=1
(k x
i
) = 0.
Dobijamo
p =
1
k

1
n
n
i=1
x
i
.
Na osnovu ovog zakljucujemo da je ocena maksimalne verodostojnosti za p data statistikom
p =
1
k

1
n
n
i=1
X
i
=
X
n
k
.
Primer 15. Neka obelezje X ima Puasonovu raspodelu P(), gde je nepoznat parametar. U ovom slucaju
je
f(x; ) = P
(X = ) =

x
x!
e
, (x = 0, 1, 2, . . . .)
Uzimajuci da je uzorak (X
1
, . . . , X
n
) prost i, dakle, X
1
, . . . , X
n
nezavisne, dobijamo
L(x
1
, x
2
, . . . , x
n
; ) =
n
k=1
f(X
k
; ) =

x
1
+x
2
++x
n
x
1
!x
2
! x
n
!
e
n
.
Odavde je
log L(x
1
, x
2
, . . . , x
n
; ) = n + (x
1
+x
2
+ +x
n
) log
n
k=1
log x
i
! .
Iz
d log L
d
= n +
x
1
+x
2
+ +x
n
= 0
nalazimo da funkcija log L(x
1
, x
2
, . . . , x
n
; ) (pri ksiranim x
1
, x
2
, . . . , x
n
) dostize maksimum za
=
x
1
+x
2
+ +x
n
n
.
Odavde zakljucujemo da statistika
=
X
1
+X
2
+ +X
n
n
(= X
n
)
predstavlja ocenu maksimalne verodostojnosti za parametar .
18
1
, . . . , X
n
) prost uzorak iz normalne raspodele sa nepoznatim = (,
2
). Funkcija
verodostojnosti je
L(,
2
) =
n
k=1
f(X
k
; ,
2
) =
n
k=1
1
(2
2
)
1/2
exp
_
(x
k
)
2
2
2
_
=
1
(2)
n/2
1
(
2
)
n/2
exp
_
n
k=1
(x
k
)
2
2
2
_
.
Ocigledno je da konstanta
1
(2)
n/2
ne utice na polozaj maksimuma, pa se (logaritmovanjem) problem svodi na
oderdivanje maksimuma funkcije
l(,
2
) = nlog
1
2
2
n
k=1
(x
k
)
2
, ( R,
2
> 0),
gde smatramo da su x
1
, . . . , x
n
konstante. Nalazenjem pracijalnih izvoda dobijamo jednacine
l
=
1
2
n
k=1
(x
k
) = 0,
l
2
=
n
+
1
3
n
k=1
(x
k
)
2
= 0.
Resenja ovog sistema jednacina su
=
1
n
n
k=1
x
k
,
2
=
1
n
n
k=1
_
x
k

1
n
n
j=1
x
j
_
2
.
Dakle, ocene maksimalne verodostojnosti na osnovu nezavisnog uzorka (X
1
, . . . , X
k
) su statistike
=
1
n
n
k=1
X
k
(= X
n
),

2
=
1
n
n
k=1
(X
k
)
2
=
1
n
n
k=1
(X
k
X
n
)
2
(= S
2
n
).
1
, . . . , X
n
) prost uzorak iz eksponencijalne raspodele E() sa nepoznatim. Funkcija
verodostojnosti je
L() =
n
k=1
f(X
k
; ) =
n
k=1
e
x
k
=
n
e
(x
1
++x
n
)
.
Posle logaritmovanja problem se svodi na oderdivanje maksimuma funkcije
l() = log L() = nlog (x
1
+ +x
n
)
smatrajuci da su x
1
, . . . , x
n
konstante. Iz jednacine
l
=
n
(x
1
+ +x
n
) = 0,
nalazimo da funkcija l() dostize maksimum za
=
n
x
1
+ +x
n
.
19
Prema tome, ocena maksimalne verodostojnosti na osnovu nezavisnog uzorka (X
1
, . . . , X
k
) data je statistikom
=
n
X
1
+ +X
n
=
1
X
n
.
Intervali poverenja
U prethodnom odeljku smo videli na koji nacin se moze vrsiti tackasta ocena nepoznatog parametra
koji gurise u raspodeli F(x, ) obelezja X. Ocigledno da zbog prirode postupka i cinjenice da ta ocena
predstavlja slucajnu promenljivu, nije moguce govoriti o gresci u klasicnom smislu.

Cesto je zbog toga
pogodnije koristiti intervalne ocene, tj. nalazenje intervala u kojem se sa nekom verovatnocom nalazi
nepoznat parametar .
Denicija 10. Neka je (X
1
, . . . , X
n
) uzorak obelezja X cija je raspodela F(x, ) i neka su

1
=
1
(X
1
, . . . , X
n
) i

2
=

2
(X
1
, . . . , X
n
) dve statistike koje ne zavise od nepoznatog parametra , takve da
je

2
i da je
P(
1
< <

2
) = = 1 ,
gde je unapred zadata verovatnoca. Tada se slucajni interval [
1
,

2
], koji zavisi od uzorka (X
1
, . . . , X
n
),
zove interval poverenja za parametar , a verovatnoca novo poverenja.
Prirodno je traziti sto ,,uze intervale poverenja [
1
,

2
], i sto visi nivo poverenja ; obicno se uzima
= 0.95 ili 0.99. Jasno je da su ova dva zahteva, uopste uzev, oprecna. Kao sto teorija i praksa pokazuju,
izlaz lezi u povecanju obima uzorka n.
Kada smo uzeli uzorak i dobili brojeve (x
1
, . . . , x
n
), tada statistike

1
=

1
(X
1
, . . . , X
n
) i

2
=
2
(X
1
, . . . , X
n
) postaju odredeni brojevi v
1
=

1
(x
1
, . . . , x
n
) i v
2
=

2
(x
1
, . . . , x
n
), a slucajni inter-
val [
1
,

2
] postaje odredeni interval [ v
1
, v
2
]. Pogresno bi bilo smatrati da sa verovatnocom interval
[ v
1
, v
2
] sadrzi nepoznati parametar ; dogadaj {
2
} je izvestan ili nemoguc dogadaj i njegova
verovatnoca je 1, odnosno 0, a nikako nije . Verovatnoca je samo verovatnoca da slucajni interval
[ v
1
, v
2
] prekrije nepoznati broj .
Zamislimo da smo ,,uzeli mnogo serija uzoraka obima n i dobili nizove brojeva (x
1
, . . . , x
n
), (x
1
, . . . , x
n
),
(x
1
, . . . , x
n
)... i na osnovu njih izracunali intervale poverenja [ v
1
, v
2
], [ v
1
, v
2
], [ v
1
, v
2
], ... . Tada se na
te intervale moze gledati kao na realizacije slucajnog intervala [
1
,

2
]. Kako je P(
2
) = i
tumaceci verovatnocu kao granicnu vrednost relativnih ucestanosti, mozemo reci da priblizno 100% nu-
merickih intervala [ v
1
, v
2
], [ v
1
, v
2
], [ v
1
, v
2
], ... pokriva nepoznat broj , a ostalih 100(1)% ne prekriva
(sl. 11).
q v
v
1 2
Sl. 11 Pokrivanje parametra realizovanim intervalima
20
Intervali poverenja za nepoznatu verovatno cu p.
Kod svakog elementa populacije interesujemo se da li se realizovao dogadaj A. Njegova verovatnoca
P(A) = p je nepoznata. Dakle, kao obelezje mozemo da posmatramo indikator dogadaja A : I
A
= I.
Prost uzorak obima n je dakle (I
1
, I
2
, . . . , I
n
). Statistika S
n
= I
1
+I
2
+ +I
n
predstavlja broj koliko
se puta u uzorku obima n realizovao dogadaj A.
Na osnovu centralne granicne teoreme (S
n
np)/
npq ima problizno N(0, 1) raspodelu. Za svaki

zadati nivo poverenja mozemo odrediti broj z
takav da je
P(|Z
| z
) = , gde Z
N(0, 1).
Na primer, koristeci se Tablicom I imamo P(|Z
| z
) = 2(z
) = . Ako je, recimo, = 0.95 imamo

(z
0.95
) = 0.475 i iz Tablice I citamo z
0.95
= 1.96.
Imamo priblizno
P
_
S
n
np
_
np(1 p)
_
= .
Dogadaj koji je u pitanju moze se drukcije pisati
P
_
S
n
np
_
np(1 p)
_
= P
_
(S
n
np)
2
np(1 p)
z
2
_
_
(n
2
+nz
2
)p
2
(2nS
n
+nz
2
)p +S
2
n
0
_
=
_
p
1
(S
n
) p p
2
(S
n
)
_
,
gde su p
1
(S
n
) i p
2
(S
n
) respektivno manji i veci koren kvadratne jednacine
(n
2
+nz
2
)p
2
(2nS
n
+nz
2
)p +S
2
n
= 0.
[ p
1
(S
n
), p
2
(S
n
)] jeste interval poverenja za p sa nivoom poverenja , jer je
P
_
p
1
(S
n
) p p
2
(S
n
)
_
= .
Eksplicitni oblik za taj interval je
_
n
n +z
2
_
S
n
n
+
z
2
2n
z
S
n
(n S
n
)
n
+
z
2
4n
2
_
,
n
n +z
2
_
S
n
n
+
z
2
2n
+z
S
n
(n S
n
)
n
+
z
2
4n
2
__
Ako smo ,,uzeli odredeni uzorak (i
1
, i
2
, . . . , i
n
) dobili smo odredenu vrednost s
n
= i
1
+i
2
+ +i
n
i interval poverenja je odredeni numericki interval [ p
1
(s
n
), p
2
(s
n
)] koga treba tumaciti onako kako je to
ucinjeno u diskusiji opsteg slucaja. Primetimo da, iako je nepoznata verovatnoca p sigurno u intervalu
[0,1], dobijeni numericki interval poverenja [ p
1
(s
n
), p
2
(s
n
)] za p ne mora da bude sadrzan u [0,1].
Primer 18. U odredenom proizvodnom procesu tokom jednog dana proizvedeno je 79 artikala, medu kojima
su nadena 3 defektna. Naci 95% ( = 0.95) interval poverenja za nepoznatu verovatnocu p = P(,,da je proizvod
defektan). Ovde je n = 79, s
79
= 3 i resenje kvadratne jednacine
(79
2
+ 79 1.96
2
)p
2
(2 79 3 + 79 1.96
2
)p + 3
2
= 0
daje interval poverenja [0.013, 0.106] za p.
21
Interval poverenja za matemati cko o cekivanje u slu caju poznate disperzije
Videli smo da kod velikog uzorka sredina uzorka X
n
uzima priblizno N(,
2
/n) raspodelu. Dakle,
P
_
X
n
_
=
i
_
X
n
_
=
_
|X
n
| z
n
_
=
_
z
n
X
n
z
n
_
=
_
X
n
z
n
X
n
+z
n
_
,
ili
P
_
X
n
z
n
X
n
+z
n
_
= .
Interval poverenja za je znaci:
_
X
n
z
n
, X
n
+z
n
_
.
Primetimo da u ovom slucaju duzina intervala poverenja nije slucajna vec je jednaka 2z
n
. Zapaza
se kako se interval suzava sa porastom obima uzorka n.
Primer 19. Pretpostavimo da imamo dovoljno razloga da smatramo da je standardna devijacija visine u
jednoj velikoj ljudskoj grupaciji = 16cm. Srednja vrednost visine kod 100 slucajno izabranih ljudi je x
100
=
175. Odrediti 99% interval poverenja za srednju visinu u celoj grupaciji. Iz Tablice I nalazimo z
0.99
= 2.58, te
za 99% interval poverenja imamo
_
175 2.58
15
100
, 175 + 2.58
15
100
_
[171, 179].
Interval poverenja za matemati cko o cekivanje kada disperzija
2
nije poznata
Podsetimo se nekih oznaka uvedenih ranije: t(n) oznacava Studentovu t raspodelu sa n stepeni slobode,
dok je t
n
slucajna promenljiva.
Ranije smo pokazali (Teorema 7) da je
X
n
S
n
n 1 t(n 1)
i da iz Tablice III citamo broj t
n;
takav da
P(|t
n
| t
n;
) = ili P(|t
n
| t
n;
) = 1 = .
Za dati nivo poverenja i statistiku
X
n
S
n
n 1 iz Tablice III mozemo procitati broj t

n1;1
takav
da je
P(|t
n1
| t
n1;1
) =
ili
P
_
X
n
S
n
n 1
t
n1;1
) = .
22
Odavde, posle izvesnih maipulacija kao u prethodnom slucaju, dobijamo
P
_
X
n
t
n1;1
S
n
n 1
X
n
+t
n1;1
S
n
n 1
_
= .
Dakle, 100% interval poverenja je
_
X
n
t
n1;1
S
n
n 1
, X
n
+t
n1;1
S
n
n 1
_
.
Primetimo da je u ovom slucaju duzina intervala 2t
n1;1
S
n
n 1
slucajna promenljiva, tj. varira od
jednog do drugog realizovanog uzorka.
Primer 20. Pretpostavimo da je godisnji vodeni talog na odredenom lokalitetu slucajna promenljiva X sa
normalnom raspodelom. U toku 8 godina registrovane su sledece vrednosti taloga
34.1, 33.7, 27.4, 31.1, 30.9, 35.2, 28.4, 32.1.
Odrediti 90% interval poverenja za E(X) = . Ovde imamo n = 8 i = 0.9, te iz Tablice III citamo broj
t
7;0.1
= 1.89. Odredimo x
8
i s
8
:
x
8
=
1
8
(34.1 + 33.7 + 27.4 + 31.1 + 30.9 + 35.2 + 28.4 + 32.1) = 31.6,
s
8
=
1
8
8
k=1
x
2
k
x
2
8
=
1
8
(34.1
2
+ 33.7
2
+ 27.4
2
+ 31.1
2
+ 30.9
2
+ 35.2
2
+ 28.4
2
+ 32.1
2
) 31.6
2
= 7.5.
Dakle, 90% interval poverenja za je
_
31.6 1.89
7.5
7
, 31.6 + 1.89
7.5
7
_
ili priblizno [29.6, 33.6].
Interval poverenja za nepoznatu disperziju
2
Disperzija obelezja X meri na neki nacin homogenost tog obelezja u populaciji (meru rasejavanja oko
ocekivanog rezultata) i u nizu situacija u primenama vazna je samo gornja granica disperzije. Zato je
ovde interesantniji tzv. jednostrani interval poverenja, tj. interval cija je jedna krajnja tacka statistika,
a druga neslucajan broj. S obzirom na ovo, interval poverenja za disperziju trazicemo u obliku [0,
2
0
].
Podsetimo se da je
2
n1
=
nS
2
n
2
(Teorema 5 i Napomena 3) i da iz Tablice II citamo broj
2
n;
takav da je P(
2
n

2
n;
) = . Za dati nivo poverenja citamo iz Tablice II broj
2
n1;
takav da je
P(
2
n1

2
n1;
) = ili
P
_
nS
2
n
2

2
n1;
_
= .
Odavde odmah dobijamo
P
_
nS
2
n
2
n1;
_
= .
23
Dakle, 100% jednostrani interval poverenja za disperziju je
_
0,
nS
2
n
2
n1;
_
.
Dvostrani interval poverenja za
2
mozemo da dobijemo na sledeci nacin: za dati nivo poverenja
citamo iz Tablice II brojeve
2
n1;(1+)/2
i
2
n1;(1)/2
(sl. 12). Na taj nacin je
P
_
2
n1;(1+)/2

2
n1

2
n1;(1)/2
_
= ,
P
_
2
n1;(1+)/2

nS
2
n
2

2
n1;(1)/2
_
= .
Dakle, dvostrani interval poverenja za
2
je
_
nS
2
n
2
n1;(1)/2
,
nS
2
n
2
n1;(1+)/2
_
.
Sl. 12
Primer 21. Dimenzija nekog proizvoda ima normalnu raspodelu. U uzorku od n = 20 takvih proizvoda
nadeno je x
20
= 32.29 mm i 20 s
2
20
= 2.53 mm
2
. Naci 96% jednostrani i dvostrani interval poverenja za
nepoznatu disperziju
2
duzine proizvoda u celokupnoj proizvodnji.
Linearnom ekstrapolacijom vrednosti iz Tablice II dobijamo
19;0.96
11 tako da 96% jednostrani interval
poverenja za
2
je [0, 2.53/11] ili priblizno [0, 0.23 mm
2
].
Za dvostrani 96% interval poverenja iz Tablice II citamo
2
n1;(1)/2
=
2
19;0.02
= 33.69 i linearnom
ekstrapolacijom dobijamo
2
n1;(1+)/2
=
2
19;0.98
10.77, tako da je trazeni dvostrani interval
_
2.53
33.69
,
2.53
10.77
_
ili priblizno [0.07 mm
2
, 0.23 mm
2
].
5. Testiranje statistickih hipoteza
Osnovni problem u Matematickoj statistici je da se na osnovu uzorka oceni kakvu raspodelu u celoj
populaciji ima posmatrano obelezje. U zavisnosti od prirode problema uocava se skup logicki mogucih
raspodela (na osnovu histograma, poligona,...), koji se naziva skup dopustivih raspodela. Na primer,
X N(,
2
), (150, 180),
2
(0, 30).
24
Svaka pretpostavka o konkretnoj raspodeli obelezja X zove se statisticka hipoteza, a postupak
njenog verikovanja pomocu uzorka (u smislu prihvatanja ili odbacivanja hipoteze) zove se statisticki
test. Statistika kojom se sluzimo u tom postupku zove se test statistika.
Ako skup dopustivih raspodela zavisi od nekog parametra , F(x, ), x R i ako se statisticka hipoteza
odnosi na vrednost tog parametra, radi se o parametarskom testu. Ako se statisticka hipoteza odnosi
na saglasnost statistickog uzorka sa konkretnom raspodelom obelezja X, radi se o neparametarskom
testu.
Statisticka hipoteza je prosta akao je njome potpuno odredena raspodela obelezja, dakle =
0
. U
suprotnom, statisticka hipoteza je slozena (na primer, {
1
,
2
,
3
}).
Test znacajnosti mogao bi se ovako opisati: Neka je F(x, ) funkcija raspodele obelezja X. Pret-
postavlja se hipoteza H( =
0
). Vrsi se izbor odgovarajuce statistike U = u(X
1
, . . . , X
n
) i reg-
istruje njena vrednost u = u(x
1
, . . . , x
n
). Pretpostavljajuci da je hipoteza H( =
0
) tacna, nalazimo
verovatnocu dobijenog odstupanja statistike U od ocekivane vrednosti. Ako je dobijena verovatnoca
manja od ranije usvojenog praga (nivoa) znacajnosti (obicno 0.05 ili 0.1) hipotezu H( =
0
)
odbacujemo, jer velicina odstupanja ne moze se objasniti samo slucajnim odstupanjima pod pret-
postavkom da je hipoteza tacna, posto bi takva odstupanja imala vrlo malu verovatnocu (manju od
.) Ako je dobijena verovatnoca veca od , ne mozemo jos zakljuciti da je hipoteza H( =
0
) tacna.
Testovi znacajnosti ne daju armativni odgovor (prihvatanje hipoteze), moze se samo zakljuciti da reg-
istrovani uzorak ne protivureci hipotezi. Izbog statistike U i praga znacajnosti zavisi od konkretnog
zadatka.
Hipoteza o verovatno ci p, H(p = p
0
)
Pretpostavimo da obelezje X ima Bernulijevu raspodelu
X
_
0 1
1 p p
_
, (0 < p < 1).
Oznacimo sa K broj jedinica u uzorku (X
1
, . . . , X
n
) = (I
1
, . . . , I
n
) (u stvari, broj realizacija posma-
tranog dogadaja). Slucajna promenljiva K ima binomnu raspodelu B(n, p). Neka je k broj jedinica u
realizovanom uzorku (x
1
, . . . , x
n
). Pod pretpostavkom da je p = p
0
nacicemo verovatnocu da odstupanje
relativne ucestanosti K/n od ocekivane vrednosti p
0
bude vece nego u realizovanom uzorku. Imamo
P
_
K
n
p
0
k
n
p
0
_
= P
_
K np
0
_
np
0
(1 p
0
)
k np
0
_
np
0
(1 p
0
)
_
.
Na osnovu teoreme Muavra-Laplasa, raspodelu slucajne promenljive (K np
0
)/
_
np
0
(1 p
0
) mozemo
aproksimirati N(0, 1) raspodelom, te dobijamo
P
_
K
n
p
0
k
n
p
0
_
= 1 2
_
k np
0
_
np
0
(1 p
0
)
_
=
.
Ako je
< , gde je unapred zadat prag znacajnosti, hipotezu odbacujemo, a ako je
hipotezu
ne odbacujemo.
Primer 22. Pretpostavimo da smo iz 100 bacanja novcica dobili 36 ,,pisama. Ovo nije apsolutni dokaz da
novcic nije ,,fer (homogen i pravilnog oblika), naime nije nemoguce da se takav rezultat dobije sa novcicem kod
koga je hipoteza H(p = 0.5) da padne pismo. Iz iskustva znamo da nam ovakav rezultat eksperimenta daje jake
dokaze protiv hipoteze p = 0.5. Zadatak statisticke teorije testiranja hipoteza jeste da kvantikuje stepen sumnje
u neku hipotezu. U nasem eksperimentu registrovano je odstupanje |0.5 0.36| = 0.14 relativne ucestanosti.
25
Ispitajmo kolika je verovatnoca, pretpostavljajuci da je hipoteza H(p = 0.5) tacna, da se pojavi i vece odstupanje
od 0.14.
Prema centralnoj granicnoj teoremi (Muava-Laplasa) slucajna promenljiva sa binomnom raspodelom S
100

B(100, 0.5) ima u granicnom slucaju priblizno normalnu raspodelu N
_
np, np(1p)
_
= N(50, 5
2
), te je
S
100
100

N(0.5, 0.05
2
). Primetimo da je u ovom slucaju standardizovana promenljiva S
= (S
100
/100 0.5)/0.05 i ima
priblizno normalnu raspodelu N(0, 1). Nalazimo
P
_
S
100
100
0.5
0.14
_
= P
_
S
100
100
0.5
0.05
2.8
_
= 1 2(2.8) = 0.005 (iz Tablice I).
Dakle, pretpostavljajuci da je hipoteza H(p = 0.5) tacna, realizovao se dogadaj cija je verovatnoca bila vrlo mala
(= 0.005). Znaci da treba da odbacimo hipotezu o ,,fer novcicu, odnosno hipotezu H(p = 0.5).
Hipoteza o matemati ckom o cekivanju , H( =
0
), ako je poznato
Obelezje X ima N(,
2
) raspodelu sa nepoznatim parametrom i poznatom standardnom devijacijom
. Pretpostavimo da je =
0
. Posmatracemo odstupanje aritmeticke sredine X
n
uzorka (X
1
, . . . , X
n
)
od ocekivane vrednosti
0
. Sa x
n
cemo oznaciti aritmeticku sredinu realizovanog uzorka (x
1
, . . . , x
n
).
Koristicemo cinjenicu da X
n
ima N(,
2
/n) raspodelu (Primer X), odakle sledi da
X
n
n ima
N(0, 1) raspodelu. Tada je
P
_
|X
n
0
| | x
n
0
_
= P
_
X
n
x
n
_
= 1 2
_
x
n
n
_
=
.
Ako je
< hipotezu H( =
0
) odbacujemo, a ako je
, hipotezu H( =
0
) ne odbacujemo.
Primer 23. Neka obelezje X ima normalnu raspodelu N(, 1) i neka je sredina uzorka od 25 elemenata
x
25
= 50. Testirati hipotezu H( = 49.5) za prag znacajnosti = 0.01. Ovde je
= 1 2
_
50 49.5
1
25
_
= 1 2(2.5) = 0.0124.
Kako je
> , hipotezu ne odbacujemo.

Hipoteza o matemati ckom o cekivanju , H( =
0
), ako nije poznato
Obelezje X ima N(,
2
) raspodelu sa nepoznatim parametrima i . Postavimo hipotezu H( =
0
). Neka X
n
i S
2
n
oznacavaju sredinu uzorka i disperziju uzorka (X
1
, . . . , X
n
) a x
n
i s
2
n
vrednost tih
statistika za realizovan uzorak (x
1
, . . . , x
n
). Na osnovu Teoreme 7 znamo da statistika
X
n
0
S
n
n 1
ima Studentovu t(n 1) raspodelu. Imamo
P
_
X
n
0
S
n
n 1
x
n
0
s
n
n 1
_
=
.
Vrednost
nalazimo iz tablica za Studentovu t raspodelu. Ako je
< , gde je unapred usvojen

prag znacajnosti, hipotezu H( =
0
) odbacujemo, a ako je
, hipotezu H( =
0
) ne odbacujemo.
Primer 24. Za obelezje X dobijen je realizovan uzorak (x
1
, x
2
, x
3
, x
4
, x
5
) = (1.10, 1.30, 1.20, 1.10, 1.30).
Testiracemo hipotezu H( = 1) za prag znacajnosti = 0.1. Najpre izracunavamo x
5
= 1.20, s
2
n
= 0.008 i
s
5
0.09. Kako je
x
n
0
s
n
n 1 =
1.2 1
0.09
4 4.45,
iz Tablice III za Studentovu t raspodelu nalazimo
0.01. Hipotezu odbacujemo jer je
< .
26
Hipoteza o disperziji
2
, H(
2
=
2
0
)
Obelezje X ima N(,
2
) raspodelu sa nepoznatim parametrom . Postavljamo hipotezu H(
2
=
2
0
).
Ako je S
2
n
disperzija uzorka (X
1
, . . . , X
n
) a s
2
n
realizovana vrednost disperzije uzorka, tada je
P
_
nS
2
n
2
0
n s
2
n
2
0
_
=
.
Znamo da
nS
2
n
2
0
ima
2
(n1) raspodelu (videti Napomenu 3). Verovatnocu
uporedujemo sa unapred
zadatim pragom znacajnosti i ako je
< hipotezu H(
2
=
2
0
) odbacujemo, u suprotnom je ne
odbacujemo.
Primer 25. Obelezje X ima normalnu raspodelu i disperziju uzorka s
2
30
= 10 za izabrani uzorak od 30
elemenata. Testiracemo hipotezu H(
2
= 15) za prag znacajnosti = 0.01. Najpre nalazimo vrednost kolicnika
n s
2
n
2
0
=
30 10
15
= 20.
Kako je
P
_
nS
2
n
2
0
20
_
=
= 0.9 (procitano iz Tablice II za

2
raspodelu),
i
> , hipotezu H(
2
= 15) ne odbacujemo.
Izbor hipoteza
Izbor izmedu dve hipoteze, nazovimo ih H
0
nulta hipoteza i H
1
alternativna hipoteza, pojavljuje
se u razlicitim oblastima primene, u stvari kad god treba dokazati neko tvrdenje ili verikovati neku novu
teoriju, tehnologiju, proizvod. Na primer, ako se pojavi novi proizvod, proizvodac mora dokazati da je
on bolji od postojecih. Da bi dokazao tu hipotezu, on mora da obori suprotnu hipotezu.
Ako zelimo da dokazemo neko tvrdenje, onda suprotno tvrdenje (ili neutralno ili postojece stanje)
uzimamo za nultu hipotezu H
0
, a samo tvrdenje za hipotezu H
1
. Cilj postupka testiranja je da se ispita,
na osnovu rezultata eksperimenta, ima li dokaza protiv hipoteze H
0
, a u korist hipoteze H
1
.
Test je odreden ako je denisana statistika U (statistika testa) i skup vrednosti za U za koje odbacu-
jemo hipotezu H
0
(oblast odbacivanja ili kriticna vrednost. Ako je oblast odbacivanja testa oblika
{U > c}, {U c}, {U < c} ili {U c}, za broj c kazemo da je kriticna vrednost testa. Na primer,
ako za statistiku koristimo sredinu uzorka X
n
, za dati prag znacajnosti testa kriticnu vrednost testa c
odredujemo iz relacije
= P(X
n
< c). (7)
Zakljucak testa moze biti jedan od sledeca dva:
Odbacujemo H
0
jer smo u eksperimentu dobili U u oblasti odbacivanja. Kao objasnjenje nudimo
hipotezu H
1
.
Ne odbacujemo H
0
jer je vrednost za U u eksperimentu bila van oblasti odbacivanja. Nemamo
dokaze protiv H
0
.
Pri testiranju hipoteza moguce su dve vrste gresaka:
Greska prve vrste nastaje ako se H
0
odbaci kada je H
0
tacna.
Greska druge vrste nastaje ako se H
0
ne odbaci kada je H
1
tacna.
27
S obzirom na interpretaciju hipoteza H
0
i H
1
, obicno nam je vaznije da ne napravimo gresku prve
vrste, jer bismo tim postupkom dokazali tvrdenje koje nije tacno (hipoteza H
1
). Greska druge vrste
nije toliko znacajna, jer ako nemamo dovoljno jakih dokaza protiv H
0
, a verujemo da je H
1
ipak tacna,
postupak dokazivanja hipoteze H
1
mozemo nastaviti izvodenjem novih obimnijih eksperimenata.
Primer 26. Brasno se prodaje u pakovanjima nominalne mase 1 kg. Na zahtev potrosaca, koji su primetili
da je masa manja od 1 kg, potrebno je izvrsiti proveru na bazi slucajnog uzorka od 25 pakovanja brasna. Poznato
je da masina za punjenje ima standardnu devijaciju = 15 g.
U ovom problemu mozemo pretpostaviti da je masa jednog pakovanja brasna normalna slucajna promenljiva
sa matematickim ocekivanjem i disperzijom
2
= 15
2
= 225. Zadatak je da se testira
H
0
: = 1000 protiv H
1
: < 1000.
Uzecemo prag znacajnosti = 0.05. Statistika testa moze da bude sredina uzorka X
n
koja, kao sto znamo,
ima N(,
2
/n) raspodelu (Primer 8), gde je n = 25. Manje vrednosti (od 1000) za X
n
su dokaz protiv hipoteze
H
0
; oblast odbacivanja je {X
n
< c}, sa nekim c koje izracunavamo iz nivoa znacajnosti, videti formulu (7).
Statistika X
n
pri nultoj hipotezi ima N(1000, 9) raspodelu, tako da je
= P(X
n
< c) = P
_
Z
<
c 1000
3
_
=
1
2
+
_
c 1000
3
_
.
Odavde za = 0.05 iz Tablice I (imajuci u vidu da je (x) = (x)), nalazimo da je (c 1000)/3 = 1.64,
odakle je c = 995 (zaokruzeno na ceo broj). Prema tome, test sa pragom znacajnosti 0.05, na bazi uzorka
obima 25, ima sledece pravilo odlucivanja: Ako je X
n
< 995, hipoteza H
0
se odbacuje u korist H
1
(tj. u korist
potrosaca); u suprotnom slucaju, hipoteza H
0
se ne odbacuje.
Sa pragom znacajnosti = 0.01 dobija se c = 993, dok se sa = 0.1 dobija c = 996.
Testiranje neparametarskih hipoteza
Ovim testovima se ispituje saglasnost izmedu hipoteticne (teorijske) raspodele populacije F(x) i empir-
ijske raspodele uzorka S
n
(x). Ako S
n
(x) aproksimira F(x) ,,dovoljno dobro, onda prihvatamo hipotezu
da je F(x) funkcija raspodele populacije iz koje je uzet uzorak. Da bismo doneli ovakvu odluku moramo
znati koliko mnogo S
n
(x) moze da odstupa od F(x), ako je hipoteza o saglasnosti tacna. Zbog toga
uvodimo meru odstupanja S
n
(x) od F(x) i trazimo raspodelu verovatnoca ove mere, pod pretpostavkom
da je hipoteza tacna.
Primer 27. Pretpostavimo da imamo 50 podataka za koje smo izracunali ucestanosti i relativne ucestanosti.
Na osnovu ovog nacrtan je grak emprijske raspodele (,,stepenasta kriva na sl. 13) i uporeden sa grakom
funkcije N(0, 1) raspodele (neprekidna kriva na sl. 13). Na prvi pogled izgleda da empirijska raspodela dobro
aproksimira standardnu normalnu raspodelu, sa izvesnim odstupanjima, medutim to nije dovoljno za prihvatanje
ove hipoteze. Da li, na primer, podaci uzorka i odgovarajuca empirijska raspodela bolje aproksimiraju N(0, 1.2)
raspodelu? Da bismo odgovorili na ovo pitanje, potreban nam je neki kriterijum pomocu koga bismo ispitali da
li su odstupanja u dozvoljenim granicama ili nisu.
Sl. 13 Empirijska funcija raspodele u poredenju sa funkcijom raspodele N(0, 1)
28
Za resavanje postavljenog problema izlozicemo neparametarski hi kvadrat test. Ovaj test uveo
je u statistiku Karl Pirson (18571936) i zato se cesto naziva i Pirsonov test. Danas je to jedan od
testova sa najsirom oblascu primene.
Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz nepoznate raspodele sa funkcijom raspodele F.

Zelimo da
proverimo da li je F = F
0
, gde je F
0
data funcija raspodele.
Podelimo realnu osu na r disjunktnih intervala A
j
= (a
j1
, a
j
] (j = 1, . . . , r), pri cemu je a
0
=
, a
r
= +. Ukoliko priroda problema zahteva, granice a
0
i a
r
mogu biti konacne. Kako X
1
, . . . , X
n
imaju istu raspodelu, verovatnoca da vrednost slucajne promenljive X
i
pripada intervalu A
j
jednaka je
p
j
= P(X A
j
) = F(a
j
) F(a
j1
), (j = 1, . . . , r).
S druge strane, za raspodelu F
0
, odgovarajuce verovatnoce su
p
j0
= F
0
(a
j
) F
0
(a
j1
), (j = 1, . . . , r). (8)
Neparametarsko testiranja hipoteze svodi se na problem testiranja hipoteze
H
0
: p
1
= p
10
, . . . , p
r
= p
r0
protiv alternativne hipoteze H
1
: (p
1
, . . . , p
r
) = (p
10
, . . . , p
r0
).
Za testiranje nam je potrebna statistika testa i njena raspodela pod nultom hipotezom. Sledeca teorema
sugerise jedan izbor.
Teorema 9. Neka je (X
1
, . . . , X
n
) nezavisan uzorak iz raspodele sa funkcijom raspodele F
0
. Neka je
N
j
broj onih slucajnih promenljivih iz uzorka slucajnih promenljivih cije se brojne karakteristike nalaze
u intervalu A
j
. Neka je p
j0
denisano sa (8). Statistika
r
j=1
(N
j
np
j0
)
2
np
j0
(9)
ima asimptotsku
2
(r 1) raspodelu (kad n +).
Statistika denisana sa (9) naziva se Pirsonov hi kvadrat statistikom i obelezava se sa
2
. Bro-
jevi N
j
su rezultat posmatranja (stvarno stanje) dok je np
j0
matematicko ocekivanje broja slucajnih
promenljivih X
i
cije su se vrednosti realizovale u intervalu A
j
. Dakle, imamo da je
2
=
n
j=1
(stvarno ocekivano)
2
ocekivano
.
Velike vrednosti statistike
2
ukazuju na veliku razliku izmedu stvarnog i ocekivanog, pa je to indikacija
za odbacivanje hipoteze H
0
.
Neka je broj stepeni slobode
2
raspodele a prag (nivo) znacajnosti (ili rizik prihvatanja hipoteze).
U Tabeli II se daju vrednosti
2
;
za razne vrednosti i prema relaciji
P
_
2
>
2
;
_
= .
Verikacija hipoteze vrsi se na sledeci nacin:
1) Ako je izracunata vrednost
2
(iz (9)) veca od
2
;
, onda hipotezu odbacujemo, smatrajuci da su
odstupanja empirijske raspodele od pretpostavljene raspodele bitna. Kako je u tom slucaju
P
_
2
>
2
;
_
= ,
29
mozemo biti sigurni da su ova odstupanja bitna, jer bi nas zakljucak bio ispravan u oko 95% (= (1)100)
odsto slucajeva za = 0.05.
2) Ako je izracunata vrednost
2
manja od
2
;
, onda nemamo osnovu da odbacujemo hipotezu, sto
jos ne znaci da je hipoteza potpuno tacna. Da bismo prihvatili hipotezu kao tacnu, treba je proveriti na
nekoliko drugih uzoraka.
Primer 28. Zelimo da testiramo hipotezu H
0
: E(0.005) da duzina ,,zivota X sijalice ima eksponencijalnu
raspodelu E(0.005). Podsecamo da ova raspodela ima funkciju gustine
f(x) =
_
e
x
, x 0,
0, x < 0
i da se cesto koristi u Teoriji pouzdanosti. U konkretnom slucaju je = 0.005.
U uzorku od 150 sijalica dobijeno je da 47 sijalica imaju ,,zivot u intervalu [0,100] casova, 40 u [100,200], 35 u
[200,300] i 28 traju preko 300 casova. Hipotezu H
0
: E(0.005) testiramo primenjujuci Pirsonov
2
test. Ovde je
r = 4, A
1
= [0, 100], A
2
= [100, 200], A
3
= [200, 300], A
4
= [300, +].
Za ove intervale nalazimo da je
N
1
= 47, N
2
= 40, N
3
= 35, N
4
= 28.
Dalje je
p
10
= P
H
0
(0 X < 100) =
_
100
0
f(x)dz =
_
100
0
0.005e
0.005x
dx = 0.39,
p
20
= P
H
0
(100 X < 200) =
_
200
100
0.005e
0.005x
dx = 0.24,
p
30
= P
H
0
(200 X < 300) =
_
300
200
0.005e
0.005x
dx = 0.15,
p
40
= P
H
0
(X 300) =
_
+
300
0.005e
0.005x
dx = 0.22.
Prema formuli (9) je

2
41
=
4
j=1
(N
j
150p
j0
)
2
150p
j0
=
(47 58.5)
2
58.5
+
(40 36)
2
36
+
(35 22.5)
2
22.5
+
(28 33)
2
33
= 11.56.
Usvojimo = 0.01 i iz Tablice II citamo kriticnu vrednost
2
3;0.01
= 11.34. Kako je
2
3
>
2
3;0.01
, odbacujemo
hipotezu H
0
: E(0.005).
6. Linearna regresija i korelacija
Rec regresija je dospela u statistiku kada je 1855. gidine Fransis Galton objavio publikaciju u kojoj
je analizirao visinu sinova u zavisnosti od visine oceva. Zakljucak ove studije bio je da sinovi ekstremno
visokih oceva nisu toliko visoki, dakle, regresiraju.
Promena jednog obelezja statistickog skupa cesto utice na promenu drugih obelezja zbog medusobne
povezanosti. Povezanost izmedu obelezja moze se razlikovati i po smeru i po jacini povezanosti. Najjaca
ili najuza veza izmedu obelezja je funkcionalna veza, tj. takva veza da svakoj vrednosti jednog obelezja
odgovara tacno odredena vrednost drugog. Labavija veza izmedu obelezja, koja su podlozna manjim ili
30
vecim odstupanjima, naziva se korelativnom (ili stohastickom) vezom. Na primer, povrsina P kruga i
poluprecnik r su u funkcionalnoj vezi (P = r
2
) a promenljive velicine koje oznacavaju visinu i tezinu
ljudi pokazuju izvesnu korelaciju, dok su brojevi tacaka koji se pojavljuju na dvema bacenim kockama
nekorelativne velicine. Skup statistickih metoda kojima se proucavaju uzajamne veze statistickih obelezja
i pojava (smer, jacina, oblik) naziva se teorijom korelacije, a osnovni pokazatelji korelacionih veza su
jednacine regresije i koecijent korelacije.
U velikom broju istrazivanja ili eksperimenata uocava se veza izmedu dve ili vise promenljivih velicina.
Od istrazivaca se u tom slucaju ocekuje da utvrdi da li postoji i kakva je direktna funkcionalna zavisnost
medu tim velicinama. Na primeru dva svojstva X i Y koja se istrazuju na nekom uzorku obima n, kao
rezultat posmatranja dobija se n uredenih parova realizacija (x
1
, y
1
), (x
2
, y
2
), . . . , (x
n
, y
n
). Oni se mogu
predstaviti u Dekartovoj ravni (slika 14), a gracka reprezentacija koja tom prilikom nastaje naziva se
dijagram rasturanja. Ovi dijagrami ilustruju redom pozitivne jace i slabije korelacije, kao i slucaj
nekorelativnosti.
Sl. 14 Dijagrami rasturanja tacaka
Da bi se na osnovu dijagrama rasturanja odredila funkcionalna zavisnost obelezja X i Y potrebno je
,,aproksimirati dobijeni skup podataka tzv. tovanom krivom ili krivom regresije koristeci neki
od kriterijuma: zbir kvadrata odstupanja ordinata od krive je minimalan, zbir aposlutnih vrednosti
odstupanja je minimalan, itd. Na prikazanim slikama treba proveriti linearnu vezu y = ax +b na sl. a),
logaritamsku vezu y = a log(x + b) na sl. b), dok dijagram pod c) ne ukazuje ni na kakvu funkcionalnu
zavisnost. Ako je kriva regresije prava, tada postoji linearna korelacija, a ako je kriva regresije bilo
koja druga, onda postoji nelinearna korelacija. U nasem razmatranju bavicemo se samo linearnom
regresijom koja se u praksi najcesce pojavljuje.
Korelacija
U Teoriji verovatnoce dokazuje se da za nezavisne slucajne promenljive X i Y vazi da je
E(XY ) E(X)E(Y ) = 0.
Obrnuto, u opstem slucaju, ne vazi. Medutim, pokazuje se da se razlikom E(XY ) E(X)E(Y ) moze
meriti stepen linearne zavisnosti izmedu X i Y.
Denicija 11. Za slucajne promenljive X i Y denisemo kovarijansu, u oznaci Cov:
Cov(X, Y ) = E(XY ) E(X)E(Y ).
Koristeci osobine matematickog ocekivanja mozemo izvesti i sledecu formulu za kovarijansu:
Cov(X, Y ) = E
_
(X E(X))(Y E(Y ))
_
.
31
Lako se izvode sledece osobine kovarijanse.
Teorema 10. Neka su X i Y slucajne promenljive i neka su a i b realni brojevi.
1
Ako su X i Y nezavisne slucajne promenljive, tada je Cov(X, Y ) = 0. Obrnuto ne mora da vazi.

2
Cov(X, Y ) = Cov(Y, X).

3
Cov(X, X) = D(X).
4
Cov(aX, bY ) = abCov(X, Y ).
5
Cov(X +a, Y +b) = Cov(X, Y ).

Denicija 12. Koecijent korelacije izmedu slucajnih promenljivih X i Y sa pozitivnim disperzi-
jama denise sa
(X, Y ) =
Cov(X, Y )
_
D(X)
_
D(Y )
.
Koecijent korelacije se, u primenama, koristi kao mera linearne zavisnosti dve slucajne promenljive.
Opravdanje za to daju tvrdenja sledece teoreme.
Teorema 11. Za slucajne promenljive X i Y sa pozitivnim disperzijama vazi:
1
1 (X, Y ) 1.
2
(X, Y ) = 1 ako i samo ako je P(Y = aX+b) = 1, a = 0, b R. Drugim recima, (X, Y ) = 1

ako i samo ako je sa verovatnocom 1, Y rastuca (opadajuca) linearna funkcija promenljive X.
Denicija 13. Neka su X i Y slucajne promenljive i neka je (X, Y ) njihov koecijent korelacije.
Kazemo da su X i Y
nekorelisane ako je (X, Y ) = 0,
pozutivno korelisane ako je (X, Y ) > 0,
negativno korelisane ako je (X, Y ) < 0.
Iz Denicije 13 neposredno izlazi da su svake dve nezavisne slucajne promenljive nekorelisane, dok
obrnuto, u opstem slucaju, ne mora da vazi. Napominjemo da koecijent korelacije ukazuje samo na
linearnu vezu; moguce je da bude (X, Y ) = 0 a da, i pored toga, X i Y budu povezane nekom nelinearnom
vezom.
Kao empirijsko pravilo prihvata se sledece:
1) || < 0.3 postoji sasvim neznatna linearna veza izmedu obelezja i nesigurnog je znacenja, narocito
ako je obim uzoraka mali.
2) || izmedu 0.5 i 0.7 postoji znacajna linearna veza koja ima prakticnu primenu.
3) 0.7 < || < 0.9 pokazuje tesnu (linearnu) vezu.
4) || > 0.9 znaci vrlo tesnu vezu.
Ako se koecijent korelacije odreduje na osnovu uzorka (x
1
, y
1
), . . . , (x
n
, y
n
), tada se za njegovo
izracunavanje koristi formula
=
1
n
n
k=1
x
k
y
k
x y
_
_
1
n
n
k=1
x
2
k
x
2
__
1
n
n
k=1
y
2
k
y
2
_
, x =
1
n
n
k=1
x
k
, y =
n
k=1
y
k
.
32
Pod regresijom se u statistici podrazumeva zavisnost jedne slucajne promenljive od druge ili vise
njih. Opsti model zavisnosti je
Y = f(X) +, (10)
gde je N(0,
2
) slucajna promenljiva nezavisna od X, pri cemu X moze biti skalarna ili vektorska
velicina. f(X) je funkcija kojom se objasnjava zavisnost izmedu X i Y. Slucajna promenljiva X naziva
se kontrolisana a Y observirana (ili registrovana) slucajna promenljiva.
Velicina je slucajna greska koja nastaje iz raznih razloga (sum u telekomunikasionom prenosu, uticaj
kapacitivnosti i induktivnosti u elektronskim kolima, nepredvidene oscilacije, itd.) Ona modeluje uticaj
raznih slucajnih faktora koji se, na osnovu centralne granicne teoreme, moze predstaviti normalnom
slucajnom promenljivom sa E() = 0 i nepoznatom disperzijom
2
.
+
X
Y
f
e
Sl. 15
Model (10) moze se predstaviti kao na sl. 15. Na ulazu u sistem imamo slucajnu promenljivu X, a na
izlazu Y. Samo posmatranjem X i Y treba odrediti karakteristike sistema, tj. funkciju f.
Iz jednakosti (10) sleduje da je E(Y |X) = f(X), odakle se dobija
f(x) = E(Y |X = x). (11)
Funkcija f denisana sa (11) naziva se regresionom funcijom a odgovarajuca kriva krivom regresije.
Na osnovu (11) moglo bi se pretpostaviti da mozemo oceniti E(Y |X = x) tako sto cemo za svaku
ksiranu (ulaznu) vrednost X = x meriti izlaz Y dovoljan broj puta. U praksi obicno nemamo uslove za
ovakav eksperiment i jedino sto mozemo koristiti su parovi merenih vrednosti (x
i
, y
i
). Problem ocenjivanja
se moze uprostiti koristeci dodatne pretpostavke koje mozemo svrstati u dve kategorije:
Pretpostavke o zajednickoj funkciji raspodele za (X, Y ).
Pretpostavke o obliku zavisnosti f.
Primer 29. U Teoriji verovatnoce se dokazuje da ako slucajni vektor (X, Y ) ima dvodimenzionalnu normalnu
raspodelu sa parametrima
X
,
Y
,
2
X
,
2
Y
i koecijentom korelacije = (X, Y ), tada je
f(x) = E(Y |X = x) =
X
+
X
(x
x
).
Dakle, da bi se ocenila regresiona funkcija (u ovom slucaju regresiona prava), potrebno je oceniti pet nepoznatih
parametara.
Na osnovu Primera 29 i uzimajuci u obzir da se normalna raspodela cesto srece u praksi i da se veoma
cesto javlja kao (asimptotska) aproksimacija raspodela velikog broja slucajnih promenljivih, zakljucujemo
da je regresiona funkcija vrlo cesto javlja u praksi kao linearna funkcija, u kom slucaju imamo linearnu
regresiju (korelaciju).
Regresiona prava
Najjednostavniji slucaj regresije je ako se pretpostavi u obliku
f(x) = ax +b, tj. Y = aX +b +. (12)
33
Koristicemo se sledecim tvrdenjem.
Teorema 12. Neka su X i Y zavisne slucajne promenljive. Tada je
E
_
Y E(Y |X))
2
_
E
_
Y g(X))
2
_
za svaku funkciju g za koju postoji matematicko ocekivanje na desnoj strani.
Na osnovu Teoreme 12 i (11) sledi da parametre a i b u (12) treba odrediti iz uslova
R(a, b) = E
_
(Y aX b)
2
_
min.
Ispitajmo kada funkcija R(a, b) dostize minimum. Iz uslova
R(a, b)
a
= E((Y aX b)X) = 0
R(a, b)
b
= E(Y aX b) = 0,
nalazimo resenja
a =
E(XY ) E(X)E(Y )
D(X)
, b = E(Y ) aE(X). (13)
Prva jednakost u (13) moze se napisati u obliku
a = (X, Y )
D(X)
D(Y )
.
Ako uvedemo oznake
x
,
Y
,
X
,
Y
, , iz (12) i (13) nalazimo da je
f(x) =
X
+
X
(x
X
).
Poredenjem sa rezultatom Primera 29 vidimo da se dobija isti oblik regresione funkcije kao kada se
pretpostavi da je zajednicka raspodela normalna. Ovo je vazno svojstvo normalne raspodele:
Teorema 13. Regresiona funkcija je prava (regresiona prava)
E(Y |X = x) =
X
+
X
(x
X
)
ako i samo ako slu acjni vektor (X, Y ) ima zajednicku dvodimenzionalnu normalnu raspodelu.
Regresionu pravu ima smisla konstruisati i ako se zna da zajednicka raspodela nije normalna. To
je onda prava koja od svih pravih linija najbolje opisuje zavisnost izmedu Y i X u smislu srednjeg
kvadratnog odstupanja. Ocenjena regresiona prava
y = ax +
b
je prava koja, od svih pravih linija, najbolje opisuje zavisnost izmedu X i Y na osnovu datog uzorka.
Da bi se doslo do regresione prave, u praksi se za prost uzorak (X
1
, . . . , X
n
) nalazi realizovan uzorak
(x
1
, . . . , x
n
). Zatim se svakoj numerickoj vrednosti x
k
pridruzuje slucajna promenljiva Y
k
= aX
k
+b
k
+
k
obelezja Y. Dakle,
(x
1
, Y
1
), (x
2
, Y
2
), . . . , (x
n
, Y
n
)
34
za koji realizovan uzorak ima oblik uredenih parova
(x
1
, y
1
), (x
2
, y
2
), . . . , (x
n
, y
n
).
Kao sto je ranije napomenuto, ovi parovi cine u ravni dijagram rasturanja za koji se ispituje tendencija
linearne zavisnosti.
U opisanom modelu potrebno je odrediti parametre a i b tako da postoji linerna zavisnost izmedu
vrednosti realizovanog uzorka, gde je
y
k
= ax
k
+
b +
k
sa E(
k
) = 0,
pri cemu su a i

b ocene parametara a i b dobijene na osnovu uzorka.
Ideja je jednostavna i moze se jasno sagledati sa sl. 16. Rasipanje ,,roja tacaka (x
1
, y
1
), (x
2
, y
2
),
. . . , (x
n
, y
n
) oko pretpostavljene regresione prave y = ax+b bice najmanje ako je zbir apsolutnih vrednosti
,,sumova
1
,
2
, . . . ,
n
(ili zbira njihovih kvadrata) minimalno. Drugi pristup je jednostavniji (metod
najmanjih kvadrata) pa, prema tome, parametre a i b cemo odrediti tako da zbir
2
1
+
2
2
+ +
2
n
bude
minimalan.
e
e
e
e
e
y
x o
y
=
a
x
+
b
1
1
2
2
3
3
n
n
4
4
x x x x x
Sl. 16
Uvedimo funkciju
G( a,
b) =
n
k=1
_
y
k
ax
k

b
_
2
.
Da bismo minimizirali funciju G( a,
b) najpre nalazimo resenja sistema jednacina

G( a,
b)
a
= 0,
G( a,
b)
b
= 0,
koji se svodi na sistem
2
n
k=1
x
k
(y
k
ax
k

b) = 0, 2
n
k=1
(y
k
ax
k

b) = 0. (14)
Uvedimo skracenice
x =
1
n
n
k=1
x
k
, y =
n
k=1
y
k
.
Tada se sistem (14) svodi na sistem
a
1
n
n
k=1
x
2
k
+
b x =
1
n
n
k=1
x
k
y
k
, a x +
b = y. (15)
35
Odavde dobijamo ocene a i

b koecijenata a i b :
a =
1
n
n
k=1
x
k
y
k
x y
1
n
n
k=1
x
2
k
x
2
,

b = y a x. (16)
Koristeci ranije uvedene statistike, formule (16) mogu se napisati u obliku
a =
(XY )
n
X
n
Y
n
S
2
n
,

b = Y
n
aX
n
.
Primetimo da su formule dobijene na osnovu ocena iz uzorka analogne formulama (13).
Koristeci a i

b odredenim formulama (3) dobija se prava linearne regresije
y = ax +
b.
Primer 30. Neka su x
1
= 1, x
2
= 2, x
3
= 4, x
4
= 5, x
5
= 8 vrednosti kontrolisane promenljive x, a
ogovarajuce registrovane vrednosti za posmatrano obelezje Y su y
1
= 3, y
2
= 3, y
3
= 7, y
4
= 6, y
5
= 12.
Odrediti jednacinu regresione prave.
Izracunavanje koecijeneta a i

b je jednostavnije pomocu sledece tabele:
x
k
1 2 4 5 8 20
y
k
3 3 7 6 12 31
x
2
k
1 4 16 25 64 110
x
k
y
k
3 6 28 30 96 163
Sistem (15) u ovom slucaju je
110 a + 20
b = 163,
20 a + 5
b = 31,
sa resenjem a = 1.3,

b = 1. Dakle, jednacina regresione prave je y = 1.3x + 1.
Primer 31. Za nekoliko slucajno odabranih porodica dobijeni su podaci o dnevnoj potrosnji mleka (u ) i
broju clanova porodice (x):
broj clanova porodice (x) 2 4 3 6 3 4 3 4
potrosnja mleka u 1 3 1 4 2 2 2 3
Odrediti pravu linearne regresije Y na x. Gracki predstaviti podatke i nacrtati pravu linearne regresije.
Proceniti potrosnju mleka u petoclanoj porodici.
Do resenja cemo doci jednostavnije koristeci sledecu tabelu:
x
k
2 4 3 6 3 4 3 4 29
y
k
1 3 1 4 2 2 2 3 18
x
2
k
4 16 9 36 9 16 9 16 115
x
k
y
k
2 12 3 24 6 8 6 12 73
36
Na osnovu formula (16) sada je (stavljajuci n = 8)
a =
1
8
73
1
8
29
1
8
18
1
8
115
_
1
8
29)
2
= 0.785,
b = y a x =
1
8
18 0.785
1
8
29 = 0.596.
Prava linearne regresije glasi y = 0.785x 0.596 i prikazana je na sl. 17. Prognozu za petoclanu porodicu
(x = 5) izracunavamo iz jednacine prave:
y
(5)
= 0.786 5 0.596 = 3.3291 .
1 2 3 4 6
1
2
3
4
5
3.3291
x
y
Sl. 17 Dijagram rasturanja i linearna prava regresije
37
Tablica I Normalna raspodela
Laplaceova funkcija (x) =
1
2
x
_
0
e
t
2
/2
dt
Tablice daju vrednost izraza
(x) =
1
2
x
_
0
e
t
2
/2
dt
za vrednost argumenta x izmedu 0 i 3.5. Za negativne vrednosti koristimo relaciju
(x) = (x).
Vaze formule P(|X | < ) = 2
_
_
, P(|X | ) = 1 2
_
_
.
38
Tablica II -
2
raspodela P(
2
n

2
n;
) =
39
Tablica III Studentova t raspodela P(|t
n
| t
n;
) =

Statistika

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistika

Uploaded by

Copyright:

Available Formats

STATISTIKA

zbirna relativna ucestanost.

broj stepeni slobode je n 1 jer medu slucajnim promenljivim X

sledi da slucajna promenljiva

n ima standardnu N(0, 1) raspodelu (Primer 8), a

n 1 ima Studentovu t(n 1) raspodelu.

| > ) = 0 za svako i > 0.

npq ima problizno N(0, 1) raspodelu. Za svaki

) = . Ako je, recimo, = 0.95 imamo

n 1 iz Tablice III mozemo procitati broj t

< , gde je unapred zadat prag znacajnosti, hipotezu odbacujemo, a ako je

> , hipotezu ne odbacujemo.

nalazimo iz tablica za Studentovu t raspodelu. Ako je

< , gde je unapred usvojen

0.01. Hipotezu odbacujemo jer je

= 0.9 (procitano iz Tablice II za

Ako su X i Y nezavisne slucajne promenljive, tada je Cov(X, Y ) = 0. Obrnuto ne mora da vazi.

Cov(X, Y ) = Cov(Y, X).

Cov(X +a, Y +b) = Cov(X, Y ).

(X, Y ) = 1 ako i samo ako je P(Y = aX+b) = 1, a = 0, b R. Drugim recima, (X, Y ) = 1

b) najpre nalazimo resenja sistema jednacina

You might also like