Professional Documents
Culture Documents
U statistici se istrauju masovne pojave na kvantitativan nain. To znai da emo svaku masovno pojavu obraditi i
opisati nekim numerikim karakteristikama.
Statistika analiza sadri sljedee faze:
1) Prikupljanje podataka posmatranjem, mjerenjem, anketiranjem ili nekom dugom metodom dobiemo masu
(brojanih) podataka za koje kaemo da predstavljaju jednu populaciju ili cjelokupnost. Svi elementi (tzv.
statistike jedinice) jedne populacije su istog tipa, kaemo da imaju osobinu homogenosti (istovrsnosti). Npr. ako
smo izmjerili visine i teine svim ljudima u nekoj grupi ljudi, jednu populaciju ine samo visine, a drugu ine
dobijene teine.
2) Grupisanje i sreivanje podataka dobijene podatke treba smjestiti u tabele.
3) Obrada i analiza matematiki emo obraditi dobijene podatke, raunanjem numerikih karakteristika
statistike cjelokupnosti.
to se tie druge i tree faze, moe se vriti ispitivanje cjelokupne populacije ili ispitivanje samo jednog dijela
cjelokupnosti, koga zovemo uzorak. U sluaju ako se cjelokupnost broji u hiljadama statistikih jednica, dakle zbog
prekomjerne brojnosti podataka, najee se koristi ispitivanje uzorka. Pri tome, uzorak mora biti reprezentativan,
to znai da on dobro predstavlja cjelokupnost. Da bi se to desilo, svaki element cjelokupnosti mora da ima
jednaku ansu da ue u uzorak i osim toga, uzorak mora da bude dovoljno brojan. Prvi uslov se ostvaruje ako
elemente uzorka izabiremo na sluajan nain.
Pretpostavimo da sluajna promjenljiva X ima k vrijednosti x1 , x2 ,..., xk . Vrijednost x1 smo zabiljeili f1 puta,
vrijednost x2 smo zabiljeili f 2 puta, ... vrijednost xk smo zabiljeili f k puta, tako da je f1 f 2 ... f k n.
Brojeve f1 , f 2 ,..., f k zovemo frekvencijama, a veliine x1 , x2 ,..., xk nam predstavljaju uzorak ili empirijsku
populaciju.
Ukoliko broj n nije velik ( n 40 ) ove podatke smjetamo u sljedeu tabelu.
x1
x2
...
xk
fx
f1
f2
...
fk
Tabela 1.
Geometrijska ilustracija ove tabele je tzv. poligon raspodjele na vodoravnoj osi koordinatnog sistema nanosimo
vrijednosti xi , a na okomitoj frekvencije fi , unesemo odgovarjue take i spojimo ih. Tako dobijamo izlomljenu
liniju koju zovemo poligon raspodjele.
x1 , x2 ,..., xk , tj. x1
u0 u1
u u
u u
, x2 1 2 ,..., xk k 1 k .
2
2
2
Frekvencija f1 oznaava nam sada koliko podataka se nalazi u prvoj klasi, f 2 - koliko podataka je u drugoj klasi,
itd.
Klasa
Frekvencija
Sredina klase
u0 , u1
f1
x1
u1 , u2
f2
x2
...
...
...
uk 1 , uk
fk
xk
Tabela 2.
Geometrijska ilustracija tabele 2 je histogram raspodjele frekvencija. To je niz pravougaonika koji se jednom
stranom oslanjaju na x osu, tako da im je ta strana jednaka irini klase, a visine pravougaonika su jednake
frekvencijama.
Nakon smjetanja podataka u tabelu, potrebno je izraunati sljedee karakteristike.
1. Aritmetika sredina: x
1 k
fi xi .
n i 1
2. Geometrijska sredina: G
3. Harmonijska sredina: H
.
fi
i 1 xi
4. Razmak varijacije: W xmax xmin .
2
5. Disperzija: s
2
1 k
f i xi x .
n i 1
6. Standardno odstupanje: s
7. Koeficijent varijacije: K v
8. Moment reda r: mr
s .
s
.
x
1 n
fi xir r 1, 2,3,... .
n i 1
Oito je m1 x.
9. Centralni moment : r
1 n
fi xi x
n i 1
r 1, 2,3,... .
Oito je 2 s.
4
s
3.
Aritmetika sredina predstavlja prosjenu vrijednost zadanih podataka (za koje se ona rauna). Suma svih
n
f x x 0,
i
i 1
onoliko
puta
kolika
je
odgovarajua
i i
i 1
i 1
i i
i 1
jer
je
f x x f x f x n n f x x f
i
frekvencija,
i 1
n x x n 0.
i 1
to se pak tie disperzije, ona opisuje rasprenost podataka, koliko oni odstupaju od aritmetike sredine. Dakle,
ako je vea disperzija, vea je razlika izmeu vrijednosti x1 , x2 ,..., xk . Ako je disperzija manja, moemo
konstatovati da su podaci dosta ujednaeni.
2
1 k
s fi xi x
n i 1
2
2
1 k
fi xi2 2 xi x x
n i 1
1 k
2x k
x
2
f i xi f i xi
n i 1
n i 1
n
i 1
2
1 k
x
1 k
fi xi2 2 x x n fi xi2 x .
n i 1
n
n i 1
Dakle, s
2
2
1 k
1 k
2
f
x
x
,
tj.
s
f i xi2 x .
i i
n i 1
n i 1
Primjer: U donjoj tabeli prikazani su rauni kupaca u trgovini Kod Mehe u julu 2010. godine.
Izraunati standardno odstupanje.
Iznos rauna
Broj kupaca
Sredine klasa
0 5 KM
65
2,5
5 10 KM
79
7,5
10 15 KM
44
12,5
15 20 KM
21
17,5
20 25 KM
15
22,5
25 30 KM
12
27,5
30 35 KM
32,5
35 40 KM
37,5
65 10, 786
2,5 79 10, 786 7,5 44 10, 786 12,5 21 10, 786 17,5
245
15 10, 786 22,5 12 10, 786 27,5 7 10, 786 32,5 2 10, 786 37, 5
67, 47.
245
2
s 67, 47 s 8, 21.
Primjer: Prema podacima u tabeli nai nai aritmetiku, geometrijsku i harmonijsku sredinu, disperziju, razmak
varijacije, koeficijent varijacije, koeficijent asimetrije i ekscesa, te konstruisati histogram i poligon raspodjele:
Klase
Frekvencije
0,1 1,0
1,1 2,0
2,1 3,0
11
3,1 4,0
32
4,1 5,0
26
5,1 6,0
15
6,1 7,0
7,1 8,0
Vidjeli smo da normalna raspodjela zavisi od dva parametra m i . Openito, u situaciji kad raspodjela sluajne
promjenljive X zavisi od parametra , elimo dati procjenu tog parametra. Ukoliko se odredi tana ili priblina
vrijednost za , rei emo da je to takasta ocjena, a ukoliko moemo odrediti neki interval a, b (to manji),
tako da a, b , kaemo da smo nali intervalnu ocjenu tog parametra. U ovoj lekciji vidjeemo kako se moe
dobiti takasta ocjena parametra pomou metode maksimalne vjerodostojnosti.
Pretpostavimo da smo dobili uzorak sluajne promjenljive X: x1 , x2 ,..., xn pri izvoenju n eksperimenata.
1) Ako je X diskretna sluajna promjenljiva, ija raspodjela zavisi od parametra , formiraemo funkciju
L P X x1 P X x2 ... P X xn .
Ovu funkciju zovemo funkcijom vjerodostojnosti.
2) Ako je X neprekidna sluajna promjenljiva, ija raspodjela je data gustinom f x, , funkciju vjerodostojnosti
definiemo ovako:
L f x1 , f x2 , ... f xn , .
Nakon to smo definisali funkciju vjerodostojnosti, traimo za koje ona dostie svoj maksimum. Moemo se
posluiti diferencijalnim raunom, jer znamo da e se taka maksimuma date funkcije nalaziti meu stacionarnim
dL
0. Poto je funkcija L data u obliku proizvoda nekoliko
d
dL
faktora, zgodno ju je najprije logaritmirati, tj. umjesto rjeavanja jednaine
0 rjeavamo jednainu
d
d ln L
0. naime, funkcija ln L postie svoj maksimum (ako ga ima) za istu vrijednost parametra za
d
takama, tj. za one za koje je L
7
2 0
, 0 5 .
Primjer 1: Data je raspodjela sluajne promjenljive X, X
2
2
1
5
5 5
a) Nai ocjenu parametra na osnovu uzorka 0, 2,7, 2 .
b) Nai ocjenu parametra na osnovu uzorka obima n, u kome se broj 2 pojavljuje k puta u uzorku, a broj 0
se pojavljuje m puta, 0 k n, 0 m n. .
Rjeenje: a) L P X 0 P X 2 P X 7 P X 2
5
2
1
.
5
2
Otuda je ln L ln ln 1
3ln 3ln 5 ln 5 2 ln 5.
5
5
Slijedi:
d ln L
d
3
2
.
5 2
3
2
15
0 3 5 2 2 0 .
5 2
8
L
5
2
1
5
5
nk m
pa
je
k m
k m ln k m ln 5 n k m ln 5 2 n k m ln 5.
Slijedi:
d ln L
d
k m 2 n k m
0 k m 5 2 2 n k m 0.
5 2
5 k m
.
2n
0
X 1
2
2
6
2
9 .
1 2
2 2 2 x2
e
, x0
f x
.
0,
x0
2
ln 1
n k m
2 2 2 x12 2 2 2 x22
2 2 2 xn2 2 2
Rjeenje: L
e
e
...
e
ln L n ln
xi2
i 1
2 2 2 n 2
2 n
xi n ln 2 2 n ln n ln xi2 ,
i 1
i 1
1
d ln L
2
n 2 2
d
pa
je
n
n
2
i
x
i 1
n
2
2
2
4 xi2
n
2
i
x
i 1
i 1
1
f x
e
2
x m 2
2 2
vjerodostojnosti.
Neka je X sluajna promjenljiva ija raspodjela zavisi od parametra . Kod intervalne ocjene tog parametra treba
nai dva broja, u1 i u2 tako da je u1 u2 .
Defincija: Kaemo da je
u1 , u2
ako je
Ako je npr. P u1 u2 0,95, tada moemo tvrditi da je u1 , u2 tana tvrdnja sa vjerovatnoom 0,95.
Inae, najee se uzima da je 0,95 ili 0,99.
Pretpostavimo najprije da znamo vrijednost disperzije 2 i da smo iz osnovne normalne populacije dobili uzorak
x1 , x2 ,..., xn .
x1 x2 ... xn
ima takoe normalnu raspodjelu, ali tipa
n
2
xm
N m, . Tada vrlo lako dobijemo sluajnu promjenljivu tipa N 0,1 , naime Z
N 0,1 .
z z 2 z . Otuda zakljuujemo da je
Za dati nivo povjerenja elimo nai broj z takav da je P Z z . Poznato nam je iz osobina normalne
raspodjele da je P z Z z z z
z rjeenje jednaine z
.
2
xm
z x m z
, z
m x z
, x z
n
n
n
n
Dakle, I x z
2
, x z
je traeni interval povjerenja ako se zna vrijednost disperzije populacije .
n
n
Pretpostavimo sada da ne znamo vrijednost disperzije 2 i da smo iz osnovne normalne populacije dobili uzorak
x1 , x2 ,..., xn .
x1 x2 ... xn
, izraunaemo i uzoraku disperziju
n
s
i 1
x x .
i
Sluajna promjenljiva T
xm
ima Studentovu raspodjelu sa n 1 stepeni slobode. Za dati nivo povjerenja
s
n 1
iz tablica Studentove raspodjele moe se oitati broj tn 1;1 takav da je P T tn1;1 . No, s druge
strane:
x m tn1;1
s
, tn 1;1
n 1
xm
tn 1;1
s
n 1
s
.
n 1
s
, x tn 1;1
n 1
s
.
n 1
Primjer: U sljedeoj tabeli prikazan je radni sta (u godinama) 100 ofera autobusa gradskog saobraaja.
Radni sta
Broj radnika
02
24
46
68
8 10
4
10
55
25
6
Nai interval povjerenja za srednji sta ofera ako je nivo povjerenja = 0,90.
Klase
Sredine klasa
Frekvencije
xi fi
x x
02
24
46
68
8 10
SUMA
1
3
5
7
9
4
10
55
25
6
4
30
275
175
54
538
19,36
5,76
0,16
2,56
12,96
n 100
fi xi x
77,44
57,60
8,80
64,00
77,76
285,60
2
538
285, 60
5,38, s
2,856 s 1, 69.
100
100
Iz tablica Studentove raspodjele oita se broj tn 1;1 t99;0,1 1, 645 . Traeni interval povjerenja glasi:
1, 69
1, 69
I 5,38 1, 645
;5,38 1, 645
5,1;5, 66 .
99
99
Pod hipotezom u statistici podrazumijevamo tvrdnju koja se odnosi na raspodjelu vjerovatnoa neke sluajne
promjenljive. Ako se pri tome u raspodjeli pojavljuje neki parametar i hipotezom se tvrdi neto za vrijednost
tog parametra, takvu hipotezu zovemo parametarskom.
Kad se tek postavi statistika hipoteza, ne znamo da li je ona tana, pa se mora vriti provjera tanosti, koju jo
zovemo verifikacija ili testiranje statistike hipoteze. Metode kojima se vri ta verifikacija zovu se testovi.
Njihovom primjenom moemo zakljuiti da je neka hipoteza tana ili pogrena sa odreenom vjerovatnoom, koja
je najee blizu broja 1.
U postupku verifikacije, statistiku hipotezu koju testiramo proglaavamo osnovnom, tzv. nultom hipotezom H 0 .
Hipotezu koja tvrdi suprotno od nulte zovemo alternativnom hipotezom i oznaavamo sa H1. Rezultat testiranja
e biti da se prihvati nulta ili alternativna hipoteza. Dobijeni zakljuak, naravno podloan je greki. Greka koju
inimo prihvatanjem jedne od dvije hipoteze izraena je brojem koga zovemo rizik ili prag znaajnosti i
oznaavamo ga slovom . Broj je zapravo vjerovatnoa da je zakljuak kojeg smo donijeli pogrean. Najee
se uzima da je 0, 05 ili 0, 01.
Jo ranije istaknuto je da se statistika ispitivanja, pa i testiranja hipoteza vrlo esto ne vre na cijeloj populaciji
(kad one imaju puno elemenata), nego se na sluajan nain odabire tzv. uzorak, koji treba da bude
reprezentativan, tj. da predstavlja cijelu populaciju. Zato se, u sluaju da je testiranjem potvrena ispravnost nulte
hipoteze, kae da uzorak ne protivrjei nultoj hipotezi.
Vidjeemo postupak testiranja parametra m (matematiko oekivanje, srednja vrijednost) u normalnoj raspodjeli
u dva sluaja: kad se zna i kad se ne zna disperzija te raspodjele.
Pretpostavimo da sluajna promjenljiva X ima normalnu raspodjelu sa poznatom disperzijom i da smo dobili
uzorak x1 , x2 ,..., xn . elimo testirati hipotezu da je m m0 neka konkretna vrijednost parametra m. Otuda
postavljamo da je nulta hipoteza H 0 : m m0 i alternativna hipoteza H1 : m m0 .
2
x1 x2 ... xn
Aritmetika sredina uzorka x
ima takoe normalnu raspodjelu, tipa N m,
. Odatle
n
n
slijedi da je Z
x m0
N 0,1 .
1
.
2
x1 , x2 ,..., xn
n
xi x
2
x m0
x x2 ... xn
sredinu x 1
i uzoraku disperziju s
. Sluajna promjenljiva T
ima
n
n
s
i 1
n 1
Studentovu raspodjelu sa n 1 stepeni slobode. Za dati rizik iz tablica Studentove raspodjele oita se broj
T tn1; , dati uzorak ne protivrjei nultoj hipotezi, pa se ona prihvata u tom sluaju.
Primjer: Moe li se na osnovu uzorka od 50 kutija ibica smatrati da fabrika pakuje prosjeno po 50 drvaca u
kutiju, ako su brojanjem drvaca u uzorku od 50 kutija dobijeni sljedei rezultati:
Broj drvaca
Broj kutija
Sredine klasa
43 44
43,5
45 46
45,5
47 48
47,5
49 50
11
49,5
51 52
12
51,5
53 54
53,5
55 56
55,5
57 58
57,5
50,58 50
1, 23.
3, 26
49
S druge strane je za rizik 0, 05, t49;0,05 1,96 . Ako bismo uzeli 0, 01, dobili bismo t49;0,01 2,576. Znai,
u svakom sluaju je T t49; , pa se prihvata nulta hipoteza.
Zadatak: Testirati hipotezu uz rizik 0, 05 da je srednja teina proizvedenih artikala 30 grama, ako se uzeo
uzorak od 10 proizvoda kod kojih su izmjerene teine: 30,36; 30,85; 29,91; 29,35; 29,99; 30,31; 30,64; 29,42;
30,51; 30,11.
Da li bismo dobili isti zakljuak sa istim uzorkom iz populacije sa normalnom raspodjelom kod koje je poznata
disperzija 2 2, 25?
5. Linearna regresija
Neka su X i Y diskretne sluajne promjenljive koje su date svojim uzorcima obima n:
y1 , y2 ,..., yn .
x1 , x2 ,..., xn
znailo da je yk a0 a1 xk k 1, 2,..., n .
Ovaj problem se moe posmatrati i na sljedei nain. Pretpostavimo da nam je u koordinatnom xOy sistemu
zadano n taaka svojim koordinatama: x1 , y1 , x2 , y2 ,..., xn , yn . Moe li se kroz te take povui neka prava?
Problem se uoptava tako da se pokuava umjesto prave povui neka neprekidna kriva, npr. parabola
12 22 ... n2 0. Znamo da je zbir kvadrata nekoliko realnih brojeva jednak nuli ako i samo ako su svi ti
brojevi nula. Otuda je ideja da se zahtjeva da suma 12 22 ... n2 bude to manja. Imamo da je
jer
je
to
oito
funkcija
promjenljivih
a0
a1 ,
onda
je
S a0 , a1 a0 a1 x1 y1 a0 a1 x2 y2 ... a0 a1 xn yn .
Primjeniemo poznati postupak za nalaenje ekstrema funkcije dvije nezavisne promjenljive. Znamo da takva
funkcija dostie svoj minimum u takama u kojima su parcijalni izvod po obje nezavisne promjenljive jednaki nuli.
Dakle,
n
S
2 a0 a1 xi yi 0 ...... 1
a0
i 1
n
S
2 xi a0 a1 xi yi 0.... 2
a1
i 1
a a x y
1 i
i 1
i 1
i 1
0 na0 a1 xi yi
i 1
.............. 3 .
i 1
Iz (2) slijedi:
n
n
2
1 i
a x a x x y
0 i
i 1
i 1
i 1
0 a0 xi a1 xi2 xi yi ... 4 .
i 1
i 1
i 1
Rjeavanjem sistema linearnih jednaina koga ine jednaine (3) i (4) dobiemo parametre a0 i a1 u jednaini
regresione prave y a0 a1 x. Dakle, rjeavaemo sistem jednaina:
n
na0 a1 xi yi
i 1
i 1
a0 xi a1 xi2 xi yi
i 1
i 1
i 1
Jednaina regresione prave se moe traiti i u obliku x b0 b1 y. Tada bismo koeficijente b0 i b1 traili
rjeavanjem sistema jednaina
n
nb0 b1 yi xi
i 1
i 1
b0 yi b1 yi2 xi yi
i 1
i 1
i 1
Greka koju pravimo ovim raunom izraena je preko tzv. standardne greke regresije.
1) Ako je dobijena prava y a0 a1 x, standardna greka regresije je
n
y a x a
i
S Y
1 i
i 1
x b y b
i
SX
1 i
i 1
x x y y
i
i 1
n
x x y y
i
i 1
xi
Pri tome je x
i 1
, y
i 1
i 1
Imamo da je 1 r 1. Sluajne promjenljive X i Y se nalaze u veoj linearnoj povezanosti ako je broj r to vei,
tj. ako je to blii broju 1 ili 1 .
Primjer: Za vrijednosti sluajnih promjenljivih X i Y datih u tabeli nai jednaine regresione prave y a0 a1 x i
koeficijent korelacije:
8,3
9,1
10,1
10,2
10,5
10,4
9,7
8,5
55,4
54,6
59,6
67,7
68,2
68,2
67,3
61,8
52,5
Dobiju
se
sljedei
xi 84,8;
rezultati:
i 1
yi 555,3;
x 9, 422;
y 61, 7;
i 1
i 1
x y
i i
2
i
i 1
8,3
9,1
10,1
10,2
10,5
10,4
9,7
8,5
55,4
54,6
59,6
67,7
68,2
68,2
67,3
61,8
52,5
806, 5;
Y
B1
B2
...
Bl
ni 0
A1
n11
n12
...
n1l
n10
A2
n21
n22
...
n2l
n20
...
...
...
...
...
...
Ak
nk 1
nk 2
...
nkl
nk 0
n0 j
n01
n02
...
n0l
Zadnja vrsta i zadnja kolona u ovoj tabeli slue za sumiranje kolona, odnosno vrsta. Naime,
n01 n11 n21 ... nk1 , n02 n12 n22 ... nk 2 , ..., n0l n1l n2l ... nkl ,
n10 n11 n12 ... n1l , n20 n21 n22 ... n2l , ..., nk 0 nk1 nk 2 ... nkl ,
n n01 n02 ... n0l n10 n20 ... nk 0 .
Dakle, broj n (obim uzorka) predstavlja sumu svih brojeva u tabeli.
Primjer 1: 60 mukaraca i 40 ena je anketirano sa pitanjem koja im je omiljena boja izmeu tri
ponuene: ljubiaste, bijele i plave. Rezultati ankete su da je ljubiasta boja omiljena za 10 mukaraca i
20 ena, bijela za 20 mukih i 10 ena, a plavu voli 30 mukaraca i 10 ena. Prema tome moemo
napraviti sljedeu tabelu:
Spol
M
ni 0
Ljubiasta
10
20
30
Bijela
20
10
30
Plava
30
10
40
n0 j
60
40
100
Boja
Sada na osnovu ovih podataka moemo testirati da li postoji veza izmeu spola i odnosa prema bojama.
Za proizvoljno i 1, 2,..., k i j 1, 2,..., l neka je
pi 0 P X Ai , p0 j P Y B j , pij P
X A Y B .
i
j 1, 2,..., l .
Poto
su
nam
i 1, 2,..., k j 1, 2,..., l pi 0
brojevi
pij , pi 0 , p0 j
nepoznati,
moemo
napraviti
procjene:
n
n n
ni 0
, p0 j 0 j pij i 0 2 0 j u sluaju nezavisnosti promjenljivih
n
n
n
X i Y.
k
Neka je
pij npij i 1, 2,..., k , j 1, 2,..., l . Sluajna promjenljiva 2
i 1 j 1
k 1 l 1
raspodjelu sa
ij
pi j
pi j
ima 2
stepeni slobode. Za dati rizik (koji ima isto znaenje kao i kod
2 2; k 1l 1 , hipoteza H 0 se odbija.
30 60
30 40
Primjer 2: Prema podacima iz primjera 1, imamo da je
p11
18,
p12
12,...
100
100
40 40
...,
p32
16.
100
10 18
18
20 12
12
20 18
18
10 12
12
30 24
24
10 16
16
13,19.
2
S druge strane, poto je k 3, l 2 k 1 l 1 2 imamo da je 2 ; k 1l 1 0,05;2
5,991. Otuda sa
Klasa
Maina
A
Maina
B
Maina
C
20
52
51
II
31
20
26
Nisu oboljeli
Necijepljeni
402
2497
Cijepljeni 11 mjeseci
prije epidemije
372
3789
Cijepljeni 1 mjesec
prije epidemije
131
2109
do 1000 KM
404
231
1000 1200
486
300
1200 1400
242
137
1400 1600
57
44
1600 1800
29
28
Vie od 1800
24
18
Smea
Crna
Crvena
Plave
1768
807
189
47
ute/Zelene
946
1387
746
53
Tamne
115
438
288
16