Professional Documents
Culture Documents
VRH PDF
VRH PDF
moraju biti istovrsni ali ne i istovjetni u odnosu na zajedniko svojstvo (obiljeje) koje
karakterie skup istovrsnih objekata. Ako je na osnovnom skupu definirano samo jedno
obiljeje, skup je jednodimenzionalan. Ako su definirana dva obiljeja, skup je
dvodimenzionalan. Zavisno od toga da li je obiljeje skupa kontinualno (neprekidno),
diskretno ili mjeovitog tipa, razlikuju se kontinualni, diskretni i mjeovitog tipa statistiki
skup.
Definicija 4.2.1. Obimom osnovnog skupa nazivamo broj njegovih elemenata
(objekata) u sluaju da je skup konaan, odnosno obim je kardinalni broj (mo skupa) u
sluaju beskonanog skupa.
Posmatrajmo osnovni skup (obima N ) kod kojeg se vrijednost x1 posmatra ili uzima
u razmatranje n1 ( = f1 ) puta, vrijednost x2 , n2 ( = f 2 ) puta, ... , vrijednost xk , nk ( = f k ) puta,
pri emu je
k
n = N
i =1
i (1) .
Posmatrane vrijednosti xi (i = 1, k ) nazivaju se varijantama (varijansama), a niz
varijansi napisan u rastuem poretku zove se varijacioni red osnovnog skupa. Brojevi
ni ( = fi ) zovu se uestanostima (frekvencijama) odnosno apsolutnim frekvencijama, a
njihov odnos prema obimu osnovnog skupa N se zove relativna frekvencija (relativna
uestanost) i oznaava se esto sa i ( ili pi ) , tj.
i =
ni
N
(
, i = 1, k .) ( 2) .
x x1 x2 ... xk
f f1 f2 ... fk
Tabela 1
Rjeenje. Skup uenika u razredu je osnovni skup iji je obim N = 30, a njihov uspjeh
izraen ocjenom je obiljeje koje se posmatra. U prvoj koloni unijete su vrijednosti koje
poprima obiljeje X . U drugoj koloni unijeti su brojevi f i (i = 1, 2, ... , 5) uenika koji su
postigli ocjenu xi ( f i - su apsolutne frekvencije), u treu kolonu upisuju se relativne
frekvencije elemenata osnovnog skupa.
10
0 1 2 3 4 5
Sl. 4.2.1.
5
Tabela 2
Rjeenje. U ovom primjeru je osnovni skup krdo od 100 krava ( N = 100 ) , a obiljeje
koje se posmatra je mlijenost tih krava. Poto je broj elemenata populacije veliki (broj krava
100), a ima i puno vrijednosti obiljeja X, ne bi bilo pregledno kada bi se dala raspodjela za
svaku vrijednost obiljeja posebno. Zato je segment [29, 43] , duine 29 43 = 14 izmeu
najvee i najmanje vrijednosti podijeljen na sedam intervala duine 2 (14 : 7 = 2 )
(napomenimo da se esto u praksi broj klasa uzima tako da on bude priblino jednak n ;
gdje je n broj elemenata osnovnog skupa (konanog), ali se uz to esto uzima da je tim
brojem klasa djeljiva razlika izmeu najvee i najmanje vrijednosti obiljeja X).
Aritmetika sredina donje i gornje granice jedne klase zove se sredina te klase. U
statistikoj obradi podataka klasu moe reprezentovati njena sredina. Na sljedeoj slici je
prikazan dijagram raspodjele tih sredina, tj. dijagram raspodjele klasa kao i histogram
frekvencija.
f (36,30)
30
f
18
10 (32,10)
0 29 31 33 35 37 39 41 43 x
x
Vie formalno moemo ovako uvesti pojam osnovnog skupa i obiljeja. Osnovni
predmet razmatranja u statistici je skup, recimo (neprazan skup) elemenata, recimo ,
koji se zove osnovni skup ili populacija. Kod svakog elementa posmatra se neka
numerika karakteristika, recimo X ( ) , koja se zove obiljeje (svojstvo, osobina) X. Dakle,
obiljeje X je funkcija (preslikavanje) sa (ili iz ) u skup R (ili u R ili u C ili u jo optiji
skup). Za ovu funkciju pretpostavlja se da je F - izmjeriva, tj. da je
X 1 ([ a, b ]) ( = { : a X < b} ) F (tj. da je ovaj skup dogaaj) za svaki interval
[ a, b ) R, gdje je F - algebra ( - polje) podskupova skupa . Takoer smo mogli
zahtijevati da je X 1 ( ( , x ) ) F ( xR ) jer je {( , x ) : x R } =
= {[ x, + ) : x R } = {[ x, + ) : x R } = BR, gdje je BR - algebra Borelovih
skupova na R (tj. najmanja - algebra podskupova iz R koja sadri familiju svih otvorenih
skupva na R). Svaki otvoren skup na R je prebrojiva unija otvorenih intervala
B = ( a, b ) ( a, b R , a < b ) , tj. BR = {( a, b ) : a, b R , a < b} ( - algebra generisana
otvorenim intervalima).
Primjer 4.2.2. Dato je n kuglica u kutiji koje ine jednu populaciju. Neka kuglica
moe biti bijele ili crvene boje. Obiljeje X neka je boja kuglice: X ( )=1 , ako je kuglica
bijela, a X ( )=0 ako je kuglica crvena. Inverzna slika X 1 ([ a, b ) ) je X 1 {1} ( = X 1 (1) )
- podskup skupa bijelih kuglica, odnosno X 1 ( 0 ) - podskup skupa crvenih kuglica.
Normalizovana mjera (vjerovatnoa) P moe se definirati, npr., relacijom
7
Primjer 4.2.3. Populaciju ini skup svih mjerenja neke veliine izraene brojem m.
Kao obiljeje X = X ( ) moemo uzeti upravo rezultat mjerenja . Vjerovatnoa P neka je
b (x m)
2
1
definirana relacijom P {a X b} = e 2 dx , gdje su m R i R + . Tada
2
2 a
imamo da je obiljeje X sluajna veliina s Gaussovom distribucijom (normalnom)
( x m )2
1
N ( m, ) , zadanu funkcijom gustoe: f ( x ) =
2
e 2 2
.
2
posmatranog osnovnog skupa. Rezultati koji se dobiju pri ispitivanju tog dijela prenose se na
sve elemente posmatranog skupa elemenata.
Definicija 4.3.1. Izabranim skupom ili uzorkom naziva se skup objekata sluajno
izabranih iz osnovnog skupa. Ponekad se pod pojmom statistiki skup ili statistika masa
podrazumjeva bilo osnovni skup bilo uzorak.
Dakle, iz osnovnog skupa izdvojimo, putem sluajnog odabiranja, jedan pravi podskup
na kojem vrimo ispitivanja i donosimo zakljuke, koji se zove sluajni uzorak osnovnog
skupa. Prouavanjem sluajnog uzorka donosimo zakljuke o samom osnovnom skupu, tj.
zakljuke koji e pod izvjesnim uslovima vaiti za itav osnovni skup. Da bi ti zakljuci bili
to pouzdaniji, potrebno je da uzorak to bolje predstavlja populaciju, tj. da bude
reprezentativan, to je sluaj ako on ima dovoljan broj elemenata i ako su oni odabrani
sluajno, a svi elementi osnovnog skupa treba da imaju jednaku vjerovatnou da uu u
uzorak. U praksi postoji niz metoda za formiranje sluajnih reprezentativnih uzoraka (na bazi
tablice sluajnih brojeva i dr.).
Analogno, kao to smo i kod osnovnog skupa imali, definiraju se i za uzorak analogni
pojmovi kao to su obim, varijansa, statistika raspodjela uzorka (relativnih ili apsolutnih
frekvencija), poligon, histogram (varijacioni red, varijacioni interval itd.).
Definicija 4.3.2. Obimom (ili veliinom, duinom) uzorka naziva se broj njegovih
elemenata (objekata), jasno ukoliko je ozorak konaan. Ako sa N oznaimo obim osnovnog
skupa, a sa n obim uzorka, tada je po pravilu n << N .
Statistika raspodjela moe biti zadana preko tabele u kojoj su varijante odgovarajue
frekvencije.
9
xi 4 10 16 20 24 30
ni 15 18 6 4 5 12
ni ni
Odavde lako se dobije i raspodjela relativnih frekvencija primjenom formule i = = ,
n 60
pa imamo
xi 4 10 16 20 24 30 6
ni 1 3 1 1 1 1 , (
i =1
i = 1 ).
n 4 10 10 15 12 5
Statistika raspodjela uzorka moe biti zadana i preko niza nekih intervala i
odgovarajuih frekvencija. Ako je statistika raspodjela uzorka zadata preko varijanti xi i
odgovarajuih frekvencija i (ili ni onda se na osu apcisa nanosi xi , a na osu ordinata ni (ili
i ). Dobijemo take, recimo M 1 ( x1 , n1 ) , M 2 ( x2 , n2 ) , , koje strogo uzevi predstavljaju
grafik statistike raspodjele u Dekartovom koordinatnom sistemu. Dobijene take
povezujemo odrescima pravih. Tako dobijena linija (izlomljena) zove se poligon frekvencija
(apsolutnih ili relativnih) uzorka. Ako je statistika raspodjela uzorka zadana preko
intervala i odgovarajuih frekvencija, onda se konstruie histogram frekvencija.
Ni
Raspodjela vjerovatnoa za obiljeje X je pi = , (i = 1, 2, 3, 4) . Uzorak obima n = 230 433
N
zaposlenih ine svi oni ija prezimena poinju sa P . Raspodjela obiljeja X u tom uzorku
n
je i , (i = 1, 2, 3, 4) . Pokazuje se pomou tzv. Pearsonovog metoda, tj. pomou tzv.
n
- testa, da postoje vrlo znaajne razlike izmeu obiljeja X u osnovnom skupu i u uzorku,
2
Do sada smo izlagali o uzorku i metodi uzorka intuitivno, a sada emo to initi vie sa
formalnog aspekta.
Razmatranja u teoriji vjerovatnoe navode nas kako treba uzeti uzorak da bi on bio
reprezentativan. Naime, kao to je obrazloeno u prethodnom dijelu teksta, elemente
osnovnog skupa treba birati u uzorak sluajno, jer onda oekujemo da se neutraliu sve
mogue zavisnosti izmeu posmatranog obiljeja i uzorka. Tako izabran uzorak zove se
sluajni uzorak. Nadalje emo se uglavnom baviti uzorkom konstantnog obima n. Kako
elemente osnovnog skupa biramo u uzorak sluajno to imamo n sluajnih ishoda 1 , , n
naeg statistikog pokusa. Obiljeje X naeg statistikog pokusa posmatrano kod svakog od
tih n ishoda daje n - dimenzionalnu sluajnu veliinu ( X 1 , , X n ) , gdje je X k = X (k ) za
k = 1, , n . Kako emo se uglavnom baviti samo jednim obiljejem, npr. X , to imamo n
dimenzionalnu sluajnu veliinu ( X 1 , , X n ) koju emo takoe zvati sluajni uzorak. Otuda
vidimo da se sa formalnog aspekta moe rei da je jednodimenzionalni sluajni uzorak
obima n ustvari n dimenzionalna sluajna veliina ( X 1 , , X n ) . Ako pak posmatramo dva
obiljeja, recimo X i Y , tj. ako se radi o dvodimenzionalnom statistikom skupu, onda
11
( )
( X 1 , , X n ) zadana izrazom Q ( ( x1 , , xn ) ) : = FX1 , , X n ( ( x1 , , xn ) ) = F ( xi ) .
i =1
Primjer 4.3.3. U Primjeru 4.2.2. prost sluajni uzorak obima n moe se realizovati
tzv. sluajnim uzorkom sa vraanjem (sa N jednakovjerovatnih ishoda): sluajno biramo
kuglicu da bi realizovali obiljeje X, kuglicu vraamo nazad u kutiju, sluajno biramo kuglicu,
itd.
Pri tome su oigledno ( X 1 , , X n ) nezavisne sluajne veliine sa istom funkcijom
raspodjele. No drugaija je situacija kod sluajnog uzorka bez vraanja. Naime, tada biramo
kuglicu da bismo registrirali obiljeje X , a zatim kuglicu ne vraamo u kutiju ve biramo
sluajno slijedeu kuglicu itd. Sluajne veliine X 1' , ... , X n' ( n N ) ovako definirane nisu
nezavisne, jer se pokazuje da je npr. vjerovatnoa dogaaja da je X 2' = 1 uz uslov da se desio
dogaaj X 1' = 1, razliita od vjerovatnoe dogaaja da je X 2' = 1 uz uslov da se desio
dogaaj X 1' = 0 . Zapravo, u tom sluaju imamo:
P ({ X = 1} { X = 1}) = N p 1 P { X = 1} { X
' '
(
P { X = 1} { X = 1} = =
'
2
'
1
) 2
P ({ X = 1} )
'
1
N 1
( '
2
'
1 )
= 0} =
N q
N 1
1
kao to znamo, sa ( )
F ( x ) : = P { : X ( ) x } , gdje je X sluajna veliina, tj.
posmatrano obiljeje.
0 1
Kako za svaki i vrijedi { X i < x} = (to slijedi iz definicije
1 F ( x ) F ( x )
karakteristine funkcije skupa i teorijske funkcije raspodjele) i kako su sluajne veliine
nezavisne, to je n Fn ( x ) B ( n, F ( x ) ) , ( x R ) , tj. n Fn ( x ) je binomna sluajna veliina
sa parametrima n, F ( x ) , odnosno, imamo:
_________________
)
U literaturi se, umjesto znaka <, u izrazu koji definira empirijsku funkciju distribucije
(analogno kao i u definiciji funkcije distribucije FX sluajne veliine X) uzima i znak .
13
k n
P Fn ( x ) = = F ( x ) 1 F ( x )
n k
k
nk
(
, k = 0, n . )
Sada se dokae, koristei tzv. Borelov jaki zakon velikih brojeva, da za svaki x R vrijedi
Fn ( x )
g . s.
F ( x ) , /konvergira gotovo sigurno ka/, tj. piemo
( g. s.) lim F ( x ) = F ( x ) , ()
n
n
( ( g . s.) - vrijedi svuda svojstvo osim na skupu mjere 0, odnosno, osim za dogaaje ija je
vjerovatnoa 0). To znai da funkciju raspodjele F ( x ) moemo u svakoj fiksiranoj taki
x R skoro sigurno odrediti pomou uzorka ( X 1 , , X n ) kada obim uzorka neogranieno
raste.
Tzv. Centralna teorema statistike (fundamentalna teorema statistike), ili Glivenko
Cantellijeva teorema, tvrdi da je konvergencija ( ) ak uniformna po x (gotovo svuda,
odnosno, gotovo sigurno). Ona glasi:
( X i )i = 1 , Fn , Fn
n
Teorema 4.4.1. (Glivenko Cantelli). Neka je kao u prethodnoj
definiciji, tj. neka je ( X1, , X n ) prost sluajan uzorak sa obiljejem X ija je funkcija
distribucije F (teoretska) i Fn empirijska funkcija distribucije uzorka. Tada vrijedi:
P lim sup Fn ( x ) F ( x ) = 0 = 1 .
n x R
k
sn ( x ) =
n
( )
za xk x < xk + 1 , k = 1, n , sn ( x ) = 0 za x < x1 ,
Interesantno je posmatrati u statistici sluajne veliine Dn definirane izrazom
Dn = sup sn ( x ) F ( x ) . Pokazuje se (tzv. teorema Kolmogorov - Smirnova iji je dokaz
x+
0, x 0,
FDn ( x ) ( = Gn ( x ) ) = P { }
n Dn < x +
( 1)
k 2 k 2 x2
e , x > 0,
k =
14
Primjer 4.4.1. Nai empirijsku funkciju raspodjele prema datoj statistikoj raspodjeli:
xi 6 8 12 15
(fi =) ni 2 3 10 5
Fn ( x ) = 0 za x 6 , (n = n i = 20 ) , za 6 < x 8 je Fn ( x ) = 0,1 ,
za 8 < x 12 je Fn ( x ) = 0, 25 , za 12 < x 15 je Fn ( x ) = 0, 75 ,
za x > 15 je F ( x ) = 1 , tj.
n y
0, x 6,
0,1, 6 < x 8,
Fn ( x ) = 0, 25, 8 < x 12,
0, 75, 12 < x 15,
1, x > 15.
0 x
Sl. 4.4.1.
(t ) : = E ( e itX
) ( i imaginarna jedinica), tj. ako je ( t ) = e itX
dF ( x ) , (t R ) .
15
1) ( t ) 1 , ( t ) (t R ) ;
2) je neprekidna ( t ) ( t R ) ;
3) ( 0 ) = 1 ;
4) ( t ) = ( t ) , ( t ) ( t R ) ;
5) ( j ) ( 0 ) = i j E ( X j
) , ( j n ) , ( ) < + , za neki n N ( izvod funkcije
ako je E X
n
reda j u taki 0);
( )
6) iz ( t ) : = E eitX se dobije funkcija gustoe f:
+ n
1 1
f ( x) = e
itx
( t ) dt , ( e = lim 1 + , e 2, 718 ).
2
n
n
t2
Primjer 4.4.2. Lako se vidi da je funkcija : t e 2
karakteristina funkcija
normalne sluajne varijable.
({
P Y ( ) = lim Yn ( )
n
}) = 1
(tj. konvergira svuda osim eventualno na skupu vjerovatnoe 0). To se oznaava sa
Yn g .s.
y ( n + ) ili (g. s.) lim Yn ( x ) = Y ( x ) .
n
0 6 8 12 15 x
Sl. 4.4.2.
1 n
Pokazuje se da niz X i (Xi nezavisne) konvergira gotovo sigurno ka konstanti ili
n i =1
da divergira gotovo sigurno. Takoe se dokazuje da vrijede sljedei zakoni velikih brojeva (a i
neki drugi, kao to su ebievljev zakon, Hinijev zakon /slabi zakoni/, te jaki zakon
Kolmogorova i dr.).
Teorema 4.4.1. (Bernulijev slabi zakon velikih brojeva). U Bernulijevoj emi (tj.
ako je S n B ( n, p ) , tj. ako je Sn binomna sluajna veliina) za svaki > 0 vrijedi da je
S 1 n
P n p 0 , ( n ) , tj. X i
P
p , (n ) .
n n i =1
E( X ) , r >0, E
({
Markovljeva nejednakost P : X ( ) }) r ( X ) < + ), imamo:
r
18
Sn 1
Var n n p q
S ( ) = n2 p q
P : n p = 0, n ,
n
2 2
n 2
S 1
jer iz (Var ( S ) = n p q )
n i Var ( a X ) = a 2 Var ( X ) slijedi da je Var n
n
= 2 n p q.
n
Dokaz. Dokazuje se primjenom ebievljeve nejednakosti i Borel-Cantellijeve leme
I.
({ }) 1 Var ( X
n n
P : max Yn = 1, , m ( ) 2 k ) , gdje je Yn = ( X k E ( X k ) ) .
k =1 k =1
(n ) .
19
1
II. Obrnuto: Ako je P lim X i postoji = 1 , onda E ( X 1 ) postoji i prema I. je
n n
1 n 1 n
n i =1
X i
g . s.
E ( X 1 ) , ( n ) , ili krae: Niz X i , gdje su X i nezavisne
ni =1
i jednako distribuirane sluajne veliine, konvergira gotovo sigurno ako i samo ako
1 n
E ( X 1 ) postoji i u tom sluaju je lim X i = E ( X 1 ) .
n n
i =1
n k
lim P ( X n = k ) = lim pnk qn n k = e ,
n k k!
n
nk
tj. imamo P ( X n = k ) e n , ( n = n pn ; k = 0,1, , n ) , a koristi se ako je n 20 , a
k!
n pn < 10 .
Dokaz. Uputa: Primjenjuje se Stirlingova formula r ! = 2 r r r e r e t r ,
1
0 < t r < . Napomenimo da se iz ( ) dobije praktina priblina formula
12 r
k n
1 1
P( Xn = k) e 2 n p
= f ( xk ) .
2 n p q n pq
Dokaz. Moe se dokazati da je ova konvergencija u teoremi 4.4.7. uniformna u
odnosu na a, b , pri emu je a < b + .
Teorema 4.4.8. (Lvyjeva teorema centralnog limesa). Neka je X n niz
nezavisnih sluajnih veliina jednake distribucije, tj. FX n = FX ( n ) , sa oekivanjem
= E ( X 1 ) i Var ( X n ) = 2
(0 < 2
< ) . Tada za sve a R vrijedi
n
Xi n + 2
1
a = e
i =1
lim P 2
dx ,
n n 2
Sn n n
ili krae N ( 0,1) , gdje je S n = X i .
n i =1
Dokaz. Relativno lako se izvodi dokaz koristei metod karakteristinih funkcija i
razvoja karakteristinih funkcija prema Taylorovoj formuli (MacLaurinovoj formuli), tj.
( it )
k
n
koristei razvoj: ( t ) = E(X ) k
+ o ( t n ) , ako E ( X n
) postoji.
k =0 k!
4.4.4. Fundamentalna teorema statistike
{ }
Stavimo da je A'jk = S n ( x jk ) F ( x jk ) , n . Tada je prema Borelovom zakonu velikih
brojeva P ( A'jk ) = 1 . Slino se dobije da je P ( A''jk ) = 1 za
{
A''jk = Sn ( x jk + 0 ) F ( x jk + 0 ) , n . }
Dakle, imamo P ( Ajk ) = 1 gdje je Ajk ( = A'jk A''jk ) = A'jk A''jk . Takoe imamo:
k
Ak = A = sup Sn ( x jk 0 ) F ( x jk 0 ) 0, ( n ) .
jk
j =1 1 j k
Prema tzv. lemi o pokrivanju (Booleova nejednakost) imamo da je
k k
P ( Akc ) = P Akc P ( Akc ) = 0 , tj. P ( Ak ) = 1 . Prema osobini neprekidnosti vjerovatnoe
j =1 j =1
m
za A = Ak imamo da je P ( A ) = lim P Ak = lim = 1 . Otuda za svaki x ( x jk , x j +1, k )
m m
k =1 k =1
imamo
F ( x jk + 0 ) F ( x ) F ( x j +1, k ) i S n ( x jk + 0 ) Sn ( x ) Sn ( x j +1, k ) .
1
Kako je, prema ( ) , 0 F ( x j +1, k ) F ( x jk + 0 ) , to imamo:
k
1
S n ( x ) F ( x ) S n ( x j +1, k ) S n ( x jk + 0 ) S n ( x j +1, k ) F ( x j +1, k ) +
, a s druge strane,
k
1
S n ( x ) F ( x ) S n ( x jk + 0 ) F ( x j +1, k ) S n ( x jk + 0 ) F ( x jk + 0 ) , ( g . s.) .
k
sup Sn ( x jk 0 ) F ( x jk 0 ) 0, n
1 j k
implicira dogaaj
sup Sn ( x ) F ( x ) 0, n ( = A1 )
< x < +
za koji vrijedi, prema ( ) , da je P ( A1 ) P ( A ) = 1, to je centralna teorema dokazana.
4.5. Statistika. Dopustiva familija raspodjela
Ako funkcija F ima gustou f, tj. ako je X neprekidna ili diskretna sluajna veliina s
gustoom f, onda se obino kae da je uzorak ( X 1 , , X n ) uzet iz gustoe f ili iz distribucije
F.
Definicija 4.5.1. Neka je ( X 1 , , X n ) uzorak obiljeja X iz funkcije distribucije F i
g : R n R Borelova funkcija (tj. ako je g 1 ( B ) B , svaki B B n gdje je B n - algebra
n
1 n
1) Suma uzorka: X = X n = X i koja se jo zove aritmetika sredina uzorka,
n i =1
srednja vrijednost uzorka (oekivanje uzorka).
1 n
2) S = S n = ( X i X n )2 varijansa (disperzija) uzorka.
2 2
n i =1
2
E ( X ) = , Var ( X ) = , E ( S n' 2 ) = 2 .
n
1 n 1 n
Dokaz. Naime, E ( X ) = E X i = E ( X i ) = . Slino se dokazuju i ostale
ni =1 ni =1
dvije relacije.
1 n
Primjer 4.5.1. Ako je E ( X ) = m poznati parametar, onda je S n2 = ( X k m) 2
n k =1
jedna statistika, a ako je m nepoznati parametar, onda S n2 nije statistika.
( )
E = , gdje je pristrasnost.
Eliminacijom pristrasnosti (odnosno ' = ) ili ' = dobije se nepristrasna
ocjena.
Definicija 4.6.2. Ocjena n parametra zove se asimptotski centrirana ako
( )
E n , n .
n
{ }
lim P = 1 , tj.
P
, n .
.
Definicija 4.6.4. Nepristrasna i stabilna ocjena zove se najefektivnijom
(najefikasnijom) ako ona ima najmanju varijasu (disperziju) od svih nepristrasnih i stabilnih
ocjena parametra iz familije , tj.
Var = inf Var .
O grupisanju statistikih podataka govorili smo ranije kada smo definirali pojmove
statistike raspodjele uzorka, te govorili o pojmovima grafikog metoda u statistici, (a i u
teoriji vjerovatnoe). Neka je iz nekog statistikog skupa formiran uzorak od n elemenata
n : x1 , , xn . Obino se taj uzorak prikazuje u obliku statistikog niza zadanom tabelom
i 1 2 ... n
xi x1 x2 ... xn
xi x1 xn xi x1 xn
mi m1 mn mi m1 mn
n n n
interval [ x0 , x1 ] xk 1 , xk
mi m1 mk
n n n
k
mi
pri emu je
i =1 n
= 1.
Broj podintervala se bira na osnovu iskustvenih formula, tako npr. moe se uzeti da je k
log n
najvei prirodni broj za koji je k 1 + . Poreenjem poligona i kumulativa (empirijskih
log 2
funkcija distribucije za diskretne i intervalne nizove) i histograma frekvencija za intervalne
nizove sa graficima funkcija frekvencija (funkcije vjerovatnoe) i funkcija distribucije
teoretskih raspodjela, moe se donijeti ocjena (pretpostavka) o raspodjeli posmatrane sluajne
veliine.
Svakodnevno ujemo da se govori o prosjeku plata radnika jedne fabrike, ili o srednjoj
ocjeni uspjeha uenika jednog razreda i sl. Slobodno govorei, prosjek je srednji broj ili
sredina oko koje se grupiu vrijednosti obiljeja, pa esto daje dobru obavijest o tom
obiljeju.
N
i =1
i = N , onda je
k
1
XO =
N
N X
i =1
i i . ( 3)
Nije teko zakljuiti da jednakost ( 2) vai i za ovaj sluaj. Meutim, za neprekidnu
raspodjelu obiljeja X uzima se po definiciji da je
XO = E ( X ) . ( 4)
Pretpostavimo da za izuavanje osnovnog skupa u odnosu na obiljeje X iz njega
izdvojimo uzorak obima n. Tada se definiraju slijedei pojmovi (u skladu sa ranijim
definicijama):
( )
lim P X n X O < = 1 za svaki > 0 . Otuda slijedi da pri neogranienom poveanju obima
n
uzorka sredina uzorka tei po vjerovatnoi ka osnovnoj sredini. Posljednja jednakost znai da
27
sredina uzorka predstavlja monu ocjenu osnovne sredine. Slijedi takoe, da su sredine
uzorka, naene po vie uzoraka sa dovoljno velikim obimom iz nekog osnovnog skupa,
jednake meusobno, to izraava svojstvo stabilnosti sredine uzorka.
Kao karakteristike rasijanja vrijednosti obiljeja X osnovnog skupa oko svoje srednje
vrijednosti (ili u okolini svoje srednje vrijednosti) slue sljedei pojmovi: osnovna varijansa
(disperzija) te osnovno kvadratno odstupanje (standardna devijacija), to se definira na
sljedei nain:
1 k 1 k
je X n =
n i =1
ni xi , X n
2
=
n i =1
ni xi 2 .
28
DO = X O2 ( X O ) , odnosno da vai
2
Slino se dokazuje da vai da je:
n 1
E ( Dn ) = DO . Kako je oekivanje E ( Dn ) DO , to se disperzija uzorka Dn javlja
n
pomjerljivom (nije centrirana) ocjenom osnovne disperzije Dn . Da bi dobili nepomjerljivu
ocjenu (centriranu) osnovne disperzije DO , uvodi se pojam empirijske (ispravljene)
disperzije S 2 sljedeom definicijom:
n
Definicija 4.7.7. Empirijska disperzija S 2 definira se izrazom S 2 = Dn .
n 1
Otuda imamo da je
n 1 k 1 k
S2 = ni ( xi X n )2 = ni ( xi X n ) 2 .
n 1 n i = 1 n 1 i =1
n 1 n n n 1
Kako je E ( S 2 ) = E Dn = E ( Dn ) = DO = DO ,
n n 1 n 1 n
n 1 n
S = S2 =
n 1
Dn = ( xi X )2 ,
n 1 i = 1
n 1
Na kraju dokaimo da je E ( Dn ) = DO . Zaista, imamo:
n
( )
E ( Dn ) = E S n
2 1 k
n i =1
1 n
= E ( xk X n ) 2 = E ( X k2 ) E
n k =1
(( X ) ) ,
n
2
a kako je
1 n 1 n
2
E (( X ) )
n
2
n k = 1 n k =1
1
= E Xk = 2 E Xk 2 + Xi X j = E ( X 2 ) +
n
n 1
n
( E ( X )) ,
2
i j
to imamo:
E Sn ( ) = n n1 E ( X ) n n1 ( E ( X )) = n n1
2 2 2 2
, .t.d.