You are on page 1of 18

STATISTIKA

1. Statistike tabele (karakteristike empirijske raspodjele)

U statistici se istrauju masovne pojave na kvantitativan nain. To znai da emo svaku masovno pojavu obraditi i
opisati nekim numerikim karakteristikama.
Statistika analiza sadri sljedee faze:
1) Prikupljanje podataka posmatranjem, mjerenjem, anketiranjem ili nekom dugom metodom dobiemo masu
(brojanih) podataka za koje kaemo da predstavljaju jednu populaciju ili cjelokupnost. Svi elementi (tzv.
statistike jedinice) jedne populacije su istog tipa, kaemo da imaju osobinu homogenosti (istovrsnosti). Npr. ako
smo izmjerili visine i teine svim ljudima u nekoj grupi ljudi, jednu populaciju ine samo visine, a drugu ine
dobijene teine.
2) Grupisanje i sreivanje podataka dobijene podatke treba smjestiti u tabele.
3) Obrada i analiza matematiki emo obraditi dobijene podatke, raunanjem numerikih karakteristika
statistike cjelokupnosti.

to se tie druge i tree faze, moe se vriti ispitivanje cjelokupne populacije ili ispitivanje samo jednog dijela
cjelokupnosti, koga zovemo uzorak. U sluaju ako se cjelokupnost broji u hiljadama statistikih jednica, dakle zbog
prekomjerne brojnosti podataka, najee se koristi ispitivanje uzorka. Pri tome, uzorak mora biti reprezentativan,
to znai da on dobro predstavlja cjelokupnost. Da bi se to desilo, svaki element cjelokupnosti mora da ima
jednaku ansu da ue u uzorak i osim toga, uzorak mora da bude dovoljno brojan. Prvi uslov se ostvaruje ako
elemente uzorka izabiremo na sluajan nain.
Pretpostavimo da sluajna promjenljiva X ima k vrijednosti x1 , x2 ,..., xk . Vrijednost x1 smo zabiljeili f1 puta,
vrijednost x2 smo zabiljeili f 2 puta, ... vrijednost xk smo zabiljeili f k puta, tako da je f1 f 2 ... f k n.
Brojeve f1 , f 2 ,..., f k zovemo frekvencijama, a veliine x1 , x2 ,..., xk nam predstavljaju uzorak ili empirijsku
populaciju.
Ukoliko broj n nije velik ( n 40 ) ove podatke smjetamo u sljedeu tabelu.

x1

x2

...

xk

fx

f1

f2

...

fk

Tabela 1.

Geometrijska ilustracija ove tabele je tzv. poligon raspodjele na vodoravnoj osi koordinatnog sistema nanosimo
vrijednosti xi , a na okomitoj frekvencije fi , unesemo odgovarjue take i spojimo ih. Tako dobijamo izlomljenu
liniju koju zovemo poligon raspodjele.

Ukoliko je n 40, dobijene podatke grupiemo po klasama: u0 , u1 , u1 , u2 ,..., uk 1 , uk , ije su sredine

x1 , x2 ,..., xk , tj. x1

u0 u1
u u
u u
, x2 1 2 ,..., xk k 1 k .
2
2
2

Frekvencija f1 oznaava nam sada koliko podataka se nalazi u prvoj klasi, f 2 - koliko podataka je u drugoj klasi,
itd.

Klasa

Frekvencija

Sredina klase

u0 , u1

f1

x1

u1 , u2

f2

x2

...

...

...

uk 1 , uk

fk

xk

Tabela 2.

Geometrijska ilustracija tabele 2 je histogram raspodjele frekvencija. To je niz pravougaonika koji se jednom
stranom oslanjaju na x osu, tako da im je ta strana jednaka irini klase, a visine pravougaonika su jednake
frekvencijama.
Nakon smjetanja podataka u tabelu, potrebno je izraunati sljedee karakteristike.

1. Aritmetika sredina: x

1 k
fi xi .
n i 1

2. Geometrijska sredina: G

x1f1 x2f 2 ...xkf k .


n

3. Harmonijska sredina: H

.
fi

i 1 xi
4. Razmak varijacije: W xmax xmin .
2

5. Disperzija: s

2
1 k
f i xi x .

n i 1

6. Standardno odstupanje: s
7. Koeficijent varijacije: K v
8. Moment reda r: mr

s .

s
.
x

1 n
fi xir r 1, 2,3,... .
n i 1

Oito je m1 x.
9. Centralni moment : r

1 n
fi xi x
n i 1

r 1, 2,3,... .

Oito je 2 s.

10. Koeficijent asimetrije: K A


11. Koeficijent ekscesa: K E

4
s

3.

Aritmetika sredina predstavlja prosjenu vrijednost zadanih podataka (za koje se ona rauna). Suma svih
n

odstupanja vrijednosti x1 , x2 ,..., xk od sredine x bie nula:

f x x 0,
i

pri emu se svaka razlika rauna

i 1

onoliko

puta

kolika

je

odgovarajua

i i

i 1

i 1

i i

i 1

jer

je

f x x f x f x n n f x x f
i

frekvencija,

i 1

n x x n 0.

i 1

to se pak tie disperzije, ona opisuje rasprenost podataka, koliko oni odstupaju od aritmetike sredine. Dakle,
ako je vea disperzija, vea je razlika izmeu vrijednosti x1 , x2 ,..., xk . Ako je disperzija manja, moemo
konstatovati da su podaci dosta ujednaeni.
2

Disperziju s moemo raunati na jo jedan nain. Naime,

1 k
s fi xi x
n i 1
2

2
1 k
fi xi2 2 xi x x
n i 1

1 k
2x k
x
2
f i xi f i xi
n i 1
n i 1
n

i 1

2
1 k
x
1 k
fi xi2 2 x x n fi xi2 x .
n i 1
n
n i 1

Dakle, s

2
2
1 k
1 k
2
f
x

x
,
tj.
s

f i xi2 x .

i i
n i 1
n i 1

Primjer: U donjoj tabeli prikazani su rauni kupaca u trgovini Kod Mehe u julu 2010. godine.
Izraunati standardno odstupanje.

Iznos rauna

Broj kupaca

Sredine klasa

0 5 KM

65

2,5

5 10 KM

79

7,5

10 15 KM

44

12,5

15 20 KM

21

17,5

20 25 KM

15

22,5

25 30 KM

12

27,5

30 35 KM

32,5

35 40 KM

37,5

Najprije raunamo n 65 79 44 21 15 12 7 2 245.

65 2, 5 79 7,5 44 12, 5 21 17, 5 15 22,5 12 27,5 7 32,5 2 37,5


10, 786.
245

65 10, 786

2,5 79 10, 786 7,5 44 10, 786 12,5 21 10, 786 17,5
245

15 10, 786 22,5 12 10, 786 27,5 7 10, 786 32,5 2 10, 786 37, 5
67, 47.
245
2

s 67, 47 s 8, 21.
Primjer: Prema podacima u tabeli nai nai aritmetiku, geometrijsku i harmonijsku sredinu, disperziju, razmak
varijacije, koeficijent varijacije, koeficijent asimetrije i ekscesa, te konstruisati histogram i poligon raspodjele:
Klase

Frekvencije

0,1 1,0

1,1 2,0

2,1 3,0

11

3,1 4,0

32

4,1 5,0

26

5,1 6,0

15

6,1 7,0

7,1 8,0

2. Takaste ocjene parametara

Vidjeli smo da normalna raspodjela zavisi od dva parametra m i . Openito, u situaciji kad raspodjela sluajne
promjenljive X zavisi od parametra , elimo dati procjenu tog parametra. Ukoliko se odredi tana ili priblina
vrijednost za , rei emo da je to takasta ocjena, a ukoliko moemo odrediti neki interval a, b (to manji),
tako da a, b , kaemo da smo nali intervalnu ocjenu tog parametra. U ovoj lekciji vidjeemo kako se moe
dobiti takasta ocjena parametra pomou metode maksimalne vjerodostojnosti.
Pretpostavimo da smo dobili uzorak sluajne promjenljive X: x1 , x2 ,..., xn pri izvoenju n eksperimenata.
1) Ako je X diskretna sluajna promjenljiva, ija raspodjela zavisi od parametra , formiraemo funkciju

L P X x1 P X x2 ... P X xn .
Ovu funkciju zovemo funkcijom vjerodostojnosti.

2) Ako je X neprekidna sluajna promjenljiva, ija raspodjela je data gustinom f x, , funkciju vjerodostojnosti
definiemo ovako:

L f x1 , f x2 , ... f xn , .
Nakon to smo definisali funkciju vjerodostojnosti, traimo za koje ona dostie svoj maksimum. Moemo se
posluiti diferencijalnim raunom, jer znamo da e se taka maksimuma date funkcije nalaziti meu stacionarnim

dL
0. Poto je funkcija L data u obliku proizvoda nekoliko
d
dL
faktora, zgodno ju je najprije logaritmirati, tj. umjesto rjeavanja jednaine
0 rjeavamo jednainu
d
d ln L
0. naime, funkcija ln L postie svoj maksimum (ako ga ima) za istu vrijednost parametra za
d
takama, tj. za one za koje je L

koju se dobije maksimum funkcije L .

7
2 0

, 0 5 .
Primjer 1: Data je raspodjela sluajne promjenljive X, X
2

2
1
5
5 5
a) Nai ocjenu parametra na osnovu uzorka 0, 2,7, 2 .
b) Nai ocjenu parametra na osnovu uzorka obima n, u kome se broj 2 pojavljuje k puta u uzorku, a broj 0
se pojavljuje m puta, 0 k n, 0 m n. .


Rjeenje: a) L P X 0 P X 2 P X 7 P X 2
5

2
1
.
5


2
Otuda je ln L ln ln 1
3ln 3ln 5 ln 5 2 ln 5.
5
5

Slijedi:

d ln L
d

3
2

.
5 2

Dalje rjeavamo jednainu

3
2
15

0 3 5 2 2 0 .
5 2
8

b) Poto je n obim uzorka, oito se broj 7 pojavljuje


L
5

2
1

5
5

nk m

pa

je

n k m puta u uzorku. Tada je



ln L ln
5

k m

k m ln k m ln 5 n k m ln 5 2 n k m ln 5.
Slijedi:

d ln L
d

k m 2 n k m

0 k m 5 2 2 n k m 0.

5 2

Rjeavanjem ove jednaine dobijemo da je

5 k m
.
2n

Primjer 2: Sluajna promjenljiva X date populacije ima raspodjelu

0
X 1

2
2

6
2

9 .
1 2

a) Odrediti u kojim granicama se kree parametar ?


b) Na osnovu uzorka (0, 2, 2, 4, 4, 6) ocjeniti parametar metodom
maksimalne vjerodostojnosti .

Primjer 3: Raspodjela sluajne promjenljive X data je gustinom

2 2 2 x2
e
, x0

f x
.

0,
x0

2
ln 1

n k m

Nai ocjenu parametra metodom maksimalne vjerodostojnosti na osnovu uzorka x1 , x2 ,..., xn .

2 2 2 x12 2 2 2 x22
2 2 2 xn2 2 2
Rjeenje: L
e

e
...
e

ln L n ln

xi2

i 1

2 2 2 n 2
2 n
xi n ln 2 2 n ln n ln xi2 ,
i 1
i 1

1
d ln L
2
n 2 2
d

pa

je

n
n
2
i

x
i 1

n
2
2
2

4 xi2

n
2
i

x
i 1

i 1

Primjer 4: Sluajna promjenljiva X ima normalnu raspodjelu sa funkcijom gustine vjerovatnoe

1
f x
e
2

x m 2
2 2

, x . Na osnovu uzorka x1 , x2 ,..., xn ocjeniti parametar m metodom maksimalne

vjerodostojnosti.

3. Intervalne ocjene parametara

Neka je X sluajna promjenljiva ija raspodjela zavisi od parametra . Kod intervalne ocjene tog parametra treba
nai dva broja, u1 i u2 tako da je u1 u2 .

Defincija: Kaemo da je

u1 , u2

interval povjerenja (interval pouzdanosti) za parametar

ako je

P u1 u2 za unaprijed datu vjerovatnou . Broj zovemo koeficijent pouzdanosti ili nivo


povjerenja.

Ako je npr. P u1 u2 0,95, tada moemo tvrditi da je u1 , u2 tana tvrdnja sa vjerovatnoom 0,95.
Inae, najee se uzima da je 0,95 ili 0,99.

Pretpostavimo da je X sluajna promjenljiva koja ima normalnu raspodjelu, X N m, 2 . Izveemo obrazac


za matematiko oekivanje m sluajne promjenljive X u dva sluaja: kad se zna i kad se ne zna disperzija
raspodjele 2 .

Pretpostavimo najprije da znamo vrijednost disperzije 2 i da smo iz osnovne normalne populacije dobili uzorak

x1 , x2 ,..., xn .

Tada aritmetika sredina uzorka x

x1 x2 ... xn
ima takoe normalnu raspodjelu, ali tipa
n

2
xm
N m, . Tada vrlo lako dobijemo sluajnu promjenljivu tipa N 0,1 , naime Z
N 0,1 .

z z 2 z . Otuda zakljuujemo da je

Za dati nivo povjerenja elimo nai broj z takav da je P Z z . Poznato nam je iz osobina normalne

raspodjele da je P z Z z z z

z rjeenje jednaine z

.
2

S druge strane, iz z Z z slijedi:

xm

z x m z
, z
m x z
, x z

n
n
n
n

Dakle, I x z


2
, x z
je traeni interval povjerenja ako se zna vrijednost disperzije populacije .
n
n

Pretpostavimo sada da ne znamo vrijednost disperzije 2 i da smo iz osnovne normalne populacije dobili uzorak

x1 , x2 ,..., xn .

Osim aritmetike sredine uzorka x

x1 x2 ... xn
, izraunaemo i uzoraku disperziju
n

s
i 1

x x .
i

Sluajna promjenljiva T

xm
ima Studentovu raspodjelu sa n 1 stepeni slobode. Za dati nivo povjerenja
s
n 1

iz tablica Studentove raspodjele moe se oitati broj tn 1;1 takav da je P T tn1;1 . No, s druge
strane:

T tn 1;1 tn 1;1 T tn 1;1 tn1;1

x m tn1;1

s
, tn 1;1
n 1

xm
tn 1;1
s
n 1

s
.
n 1

Odavdje se odmah dolazi do formule: m x tn1;1

s
, x tn 1;1
n 1

s
.
n 1

Primjer: U sljedeoj tabeli prikazan je radni sta (u godinama) 100 ofera autobusa gradskog saobraaja.

Radni sta

Broj radnika

02
24
46
68
8 10

4
10
55
25
6

Nai interval povjerenja za srednji sta ofera ako je nivo povjerenja = 0,90.

Rjeenje: Napravimo detaljniju tabelu:

Klase

Sredine klasa

Frekvencije

xi fi

x x

02
24
46
68
8 10
SUMA

1
3
5
7
9

4
10
55
25
6

4
30
275
175
54
538

19,36
5,76
0,16
2,56
12,96

n 100

fi xi x

77,44
57,60
8,80
64,00
77,76
285,60

Iz ove tabele se dalje dobije:

2
538
285, 60
5,38, s
2,856 s 1, 69.
100
100

Iz tablica Studentove raspodjele oita se broj tn 1;1 t99;0,1 1, 645 . Traeni interval povjerenja glasi:

1, 69
1, 69

I 5,38 1, 645
;5,38 1, 645
5,1;5, 66 .
99
99

Zadatak: Iz normalno rasporeene populacije izvaen je uzorak


(1,45 ; 1,67; 1,22 ; 2,41 ; 2,26 ; 1,72 ; 2,02; 1,59; 1,94; 1,66).
Nai interval povjerenja za matematiko oekivanje m ako je nivo povjerenja = 0,95.

4. Testiranje parametarskih hipoteza

Pod hipotezom u statistici podrazumijevamo tvrdnju koja se odnosi na raspodjelu vjerovatnoa neke sluajne
promjenljive. Ako se pri tome u raspodjeli pojavljuje neki parametar i hipotezom se tvrdi neto za vrijednost
tog parametra, takvu hipotezu zovemo parametarskom.
Kad se tek postavi statistika hipoteza, ne znamo da li je ona tana, pa se mora vriti provjera tanosti, koju jo
zovemo verifikacija ili testiranje statistike hipoteze. Metode kojima se vri ta verifikacija zovu se testovi.
Njihovom primjenom moemo zakljuiti da je neka hipoteza tana ili pogrena sa odreenom vjerovatnoom, koja
je najee blizu broja 1.
U postupku verifikacije, statistiku hipotezu koju testiramo proglaavamo osnovnom, tzv. nultom hipotezom H 0 .
Hipotezu koja tvrdi suprotno od nulte zovemo alternativnom hipotezom i oznaavamo sa H1. Rezultat testiranja
e biti da se prihvati nulta ili alternativna hipoteza. Dobijeni zakljuak, naravno podloan je greki. Greka koju
inimo prihvatanjem jedne od dvije hipoteze izraena je brojem koga zovemo rizik ili prag znaajnosti i
oznaavamo ga slovom . Broj je zapravo vjerovatnoa da je zakljuak kojeg smo donijeli pogrean. Najee
se uzima da je 0, 05 ili 0, 01.
Jo ranije istaknuto je da se statistika ispitivanja, pa i testiranja hipoteza vrlo esto ne vre na cijeloj populaciji
(kad one imaju puno elemenata), nego se na sluajan nain odabire tzv. uzorak, koji treba da bude
reprezentativan, tj. da predstavlja cijelu populaciju. Zato se, u sluaju da je testiranjem potvrena ispravnost nulte
hipoteze, kae da uzorak ne protivrjei nultoj hipotezi.
Vidjeemo postupak testiranja parametra m (matematiko oekivanje, srednja vrijednost) u normalnoj raspodjeli
u dva sluaja: kad se zna i kad se ne zna disperzija te raspodjele.

Pretpostavimo da sluajna promjenljiva X ima normalnu raspodjelu sa poznatom disperzijom i da smo dobili
uzorak x1 , x2 ,..., xn . elimo testirati hipotezu da je m m0 neka konkretna vrijednost parametra m. Otuda
postavljamo da je nulta hipoteza H 0 : m m0 i alternativna hipoteza H1 : m m0 .

2
x1 x2 ... xn
Aritmetika sredina uzorka x
ima takoe normalnu raspodjelu, tipa N m,
. Odatle
n
n

slijedi da je Z

x m0
N 0,1 .

Za dati rizik postoji broj z takav da je P Z z 1 2 z 1 z

1
.
2

Broj z emo nai iz tablica Laplasove finkcije.


Ako je Z z , hipoteza H 0 se odbacuje, dakle prihvata se alternativna hipoteza. Ako je Z z , hipoteza H 0
se prihvata kao tana.

Ukoliko u normalnoj raspodjeli disperzija nije poznata, iz uzorka

x1 , x2 ,..., xn

emo izraunati uzoraku

n
xi x
2
x m0
x x2 ... xn
sredinu x 1
i uzoraku disperziju s
. Sluajna promjenljiva T
ima
n
n
s
i 1
n 1

Studentovu raspodjelu sa n 1 stepeni slobode. Za dati rizik iz tablica Studentove raspodjele oita se broj

tn 1; takav da je P T tn 1; 1 . Ako je za dati uzorak T tn 1; hipoteza H 0 se odbacuje, a ako je

T tn1; , dati uzorak ne protivrjei nultoj hipotezi, pa se ona prihvata u tom sluaju.

Primjer: Moe li se na osnovu uzorka od 50 kutija ibica smatrati da fabrika pakuje prosjeno po 50 drvaca u
kutiju, ako su brojanjem drvaca u uzorku od 50 kutija dobijeni sljedei rezultati:

Broj drvaca

Broj kutija

Sredine klasa

43 44

43,5

45 46

45,5

47 48

47,5

49 50

11

49,5

51 52

12

51,5

53 54

53,5

55 56

55,5

57 58

57,5

Dobije se: x 50,58; s 3, 26; T

50,58 50
1, 23.
3, 26
49

S druge strane je za rizik 0, 05, t49;0,05 1,96 . Ako bismo uzeli 0, 01, dobili bismo t49;0,01 2,576. Znai,
u svakom sluaju je T t49; , pa se prihvata nulta hipoteza.
Zadatak: Testirati hipotezu uz rizik 0, 05 da je srednja teina proizvedenih artikala 30 grama, ako se uzeo
uzorak od 10 proizvoda kod kojih su izmjerene teine: 30,36; 30,85; 29,91; 29,35; 29,99; 30,31; 30,64; 29,42;
30,51; 30,11.
Da li bismo dobili isti zakljuak sa istim uzorkom iz populacije sa normalnom raspodjelom kod koje je poznata
disperzija 2 2, 25?

5. Linearna regresija
Neka su X i Y diskretne sluajne promjenljive koje su date svojim uzorcima obima n:

y1 , y2 ,..., yn .

x1 , x2 ,..., xn

elimo ustanoviti da li postoji linearna veza izmeu X i Y, tj. Y a0 a1 X , a0 , a1 . To bi

znailo da je yk a0 a1 xk k 1, 2,..., n .
Ovaj problem se moe posmatrati i na sljedei nain. Pretpostavimo da nam je u koordinatnom xOy sistemu
zadano n taaka svojim koordinatama: x1 , y1 , x2 , y2 ,..., xn , yn . Moe li se kroz te take povui neka prava?
Problem se uoptava tako da se pokuava umjesto prave povui neka neprekidna kriva, npr. parabola

y a0 a1 x a2 x 2 , kubna parabola, eksponencijalna ili logaritamska kriva, itd.


Najee je nemogue nai pravu, odnosno neku neprekidnu krivu koja bi sadravala sve zadane take. Zato se
onda trai prava (odnosno kriva) koja bi prolazila to blie zadanim takama. Ovaj postupak se zove regresija.
Ukoliko se ona realizira preko linearne funkcije, tj. pomou prave, zovemo je linearna regresija, a dobijenu pravu
zovemo regresiona prava.
Postupak regresije najee provodimo pomou metode najmanjih kvadrata.
Neka je y a0 a1 x regresiona prava, a 1 , 2 ,..., n redom odstojanja datih taaka od regresione prave. To su
zapravo greke koje inimo u postupku linearne regresije. elimo da su te greke to manje. U idealnom sluaju,
kad sve zadane take lee na regresionoj pravoj je 1 2 ... n 0. To je ekvivalentno sa

12 22 ... n2 0. Znamo da je zbir kvadrata nekoliko realnih brojeva jednak nuli ako i samo ako su svi ti
brojevi nula. Otuda je ideja da se zahtjeva da suma 12 22 ... n2 bude to manja. Imamo da je

1 a0 a1 x1 y1 , 2 a0 a1 x2 y2 ,..., n a0 a1 xn yn , pa ako sumu 12 22 ... n2 oznaimo kao


S a0 , a1

jer

je

to

oito

funkcija

promjenljivih

a0

a1 ,

onda

je

S a0 , a1 a0 a1 x1 y1 a0 a1 x2 y2 ... a0 a1 xn yn .
Primjeniemo poznati postupak za nalaenje ekstrema funkcije dvije nezavisne promjenljive. Znamo da takva
funkcija dostie svoj minimum u takama u kojima su parcijalni izvod po obje nezavisne promjenljive jednaki nuli.
Dakle,
n
S
2 a0 a1 xi yi 0 ...... 1
a0
i 1
n
S
2 xi a0 a1 xi yi 0.... 2
a1
i 1

Obje jednaine moemo podijeliti sa 2. Iz (1) tada slijedi:


n

a a x y
1 i

i 1

i 1

i 1

0 na0 a1 xi yi
i 1

.............. 3 .

i 1

Iz (2) slijedi:
n

n
2
1 i

a x a x x y
0 i

i 1

i 1

i 1

0 a0 xi a1 xi2 xi yi ... 4 .
i 1

i 1

i 1

Rjeavanjem sistema linearnih jednaina koga ine jednaine (3) i (4) dobiemo parametre a0 i a1 u jednaini
regresione prave y a0 a1 x. Dakle, rjeavaemo sistem jednaina:
n

na0 a1 xi yi
i 1

i 1

a0 xi a1 xi2 xi yi
i 1

i 1

i 1

Jednaina regresione prave se moe traiti i u obliku x b0 b1 y. Tada bismo koeficijente b0 i b1 traili
rjeavanjem sistema jednaina
n

nb0 b1 yi xi
i 1

i 1

b0 yi b1 yi2 xi yi
i 1

i 1

i 1

Greka koju pravimo ovim raunom izraena je preko tzv. standardne greke regresije.
1) Ako je dobijena prava y a0 a1 x, standardna greka regresije je
n

y a x a
i

S Y

1 i

i 1

2) Ako je dobijena prava x b0 b1 y, standardna greka regresije je


n

x b y b
i

SX

1 i

i 1

Koeficijent korelacije mjeri koliko je linearna povezanost sluajnih promjenljivih X i Y. To je broj


n

x x y y
i

i 1
n

x x y y
i

i 1

xi
Pri tome je x

i 1

, y

i 1

i 1

Imamo da je 1 r 1. Sluajne promjenljive X i Y se nalaze u veoj linearnoj povezanosti ako je broj r to vei,
tj. ako je to blii broju 1 ili 1 .

Primjer: Za vrijednosti sluajnih promjenljivih X i Y datih u tabeli nai jednaine regresione prave y a0 a1 x i
koeficijent korelacije:

8,3

9,1

10,1

10,2

10,5

10,4

9,7

8,5

55,4

54,6

59,6

67,7

68,2

68,2

67,3

61,8

52,5

Dobiju

se

sljedei

xi 84,8;

rezultati:

i 1

yi 555,3;

x 9, 422;

y 61, 7;

i 1

i 1

yi2 34593, 03;


i 1

x y

i i

2
i

5279,88; a0 1, 714; a1 6,366.

i 1

Jednaina regresione prave glasi y 1, 714 6,366 x.


Koeficijent korelacije je r 0,958.
Zadatak: Za vrijednosti sluajnih promjenljivih X i Y datih u tabeli nai jednaine regresione
prave x b0 b1 y i koeficijent korelacije:
X

8,3

9,1

10,1

10,2

10,5

10,4

9,7

8,5

55,4

54,6

59,6

67,7

68,2

68,2

67,3

61,8

52,5

806, 5;

6. Test kontigencije (testiranje neparametarskih hipoteza)


Pretpostavimo da sluajna promjenljiva X ima vrijednosti A1 , A2 ,..., Ak , a sluajna promjenljiva Y ima
vrijednosti B1 , B2 ,..., Bl . elimo ustanoviti da li su sluajne promjenljive X i Y meusobno nezavisne. U
uzorku obima n konstatovano je nij sluajeva kod kojih je X Ai i Y B j i 1, 2,..., k ; j 1, 2,..., l .
Dobijene brojeve smjestiemo u tzv. tabeli kontigencije.

Y
B1

B2

...

Bl

ni 0

A1

n11

n12

...

n1l

n10

A2

n21

n22

...

n2l

n20

...

...

...

...

...

...

Ak

nk 1

nk 2

...

nkl

nk 0

n0 j

n01

n02

...

n0l

Zadnja vrsta i zadnja kolona u ovoj tabeli slue za sumiranje kolona, odnosno vrsta. Naime,
n01 n11 n21 ... nk1 , n02 n12 n22 ... nk 2 , ..., n0l n1l n2l ... nkl ,
n10 n11 n12 ... n1l , n20 n21 n22 ... n2l , ..., nk 0 nk1 nk 2 ... nkl ,
n n01 n02 ... n0l n10 n20 ... nk 0 .
Dakle, broj n (obim uzorka) predstavlja sumu svih brojeva u tabeli.
Primjer 1: 60 mukaraca i 40 ena je anketirano sa pitanjem koja im je omiljena boja izmeu tri
ponuene: ljubiaste, bijele i plave. Rezultati ankete su da je ljubiasta boja omiljena za 10 mukaraca i
20 ena, bijela za 20 mukih i 10 ena, a plavu voli 30 mukaraca i 10 ena. Prema tome moemo
napraviti sljedeu tabelu:

Spol
M

ni 0

Ljubiasta

10

20

30

Bijela

20

10

30

Plava

30

10

40

n0 j

60

40

100

Boja

Sada na osnovu ovih podataka moemo testirati da li postoji veza izmeu spola i odnosa prema bojama.
Za proizvoljno i 1, 2,..., k i j 1, 2,..., l neka je
pi 0 P X Ai , p0 j P Y B j , pij P

X A Y B .
i

U skladu sa poznatom definicijom dva nezavisna dogaaja, moemo smatrati da su promjenljive X i Y


nezavisne ako je pij pi 0 p0 j za sve i 1, 2,..., k , j 1, 2,..., l . Otuda emo, kao i kod testiranja
parametarskih hipoteza postaviti nultu hipotezu H 0 : pij pi 0 p0 j i 1, 2,..., k , j 1, 2,..., l . Njoj je
suprotstavljena alternativna hipoteza H1 : pij pi 0 p0 j za bar jedno i 1, 2,..., k i bar jedno

j 1, 2,..., l .

Poto

su

nam

i 1, 2,..., k j 1, 2,..., l pi 0

brojevi

pij , pi 0 , p0 j

nepoznati,

moemo

napraviti

procjene:

n
n n
ni 0
, p0 j 0 j pij i 0 2 0 j u sluaju nezavisnosti promjenljivih
n
n
n

X i Y.
k

Neka je
pij npij i 1, 2,..., k , j 1, 2,..., l . Sluajna promjenljiva 2

i 1 j 1

k 1 l 1

raspodjelu sa

ij

pi j

pi j

ima 2

stepeni slobode. Za dati rizik (koji ima isto znaenje kao i kod

parametarskih hipoteza) u tablici 2 raspodjele oitamo broj 2; k 1l 1 .


Ako je

2 2; k 1l 1 , prihvata se nulta hipoteza o nezavisnosti promjenljivih X i Y, a ako je

2 2; k 1l 1 , hipoteza H 0 se odbija.
30 60
30 40
Primjer 2: Prema podacima iz primjera 1, imamo da je
p11
18,
p12
12,...
100
100
40 40
...,
p32
16.
100

10 18

18

20 12

12

20 18

18

10 12

12

30 24

24

10 16

16

13,19.

2
S druge strane, poto je k 3, l 2 k 1 l 1 2 imamo da je 2 ; k 1l 1 0,05;2
5,991. Otuda sa

rizikom 0, 05 odbacujemo hipotezu o nezavisnosti pola i odnosa prema bojama.


Zadaci
1. Tri maine proizvode artikle koji mogu biti I i II klase. Uzet je sluajan uzorak od 200 artikala i
uoen je slijedei broj artikala I i II klase:

Klasa

Maina
A

Maina
B

Maina
C

20

52

51

II

31

20

26

Testirati hipotezu da kvalitet proizvoda ne zavisi od maine na kojoj je proizveden sa rizikom 0, 05 .


2. Testirati hipotezu o nezavisnosti obolijevanja ljudi od gripe i cijepljenja ljudi od gripe na osnovu
uzorka od 9300 ljudi sa rizikom 0, 05 i prema podacima u tabeli:
Oboljeli

Nisu oboljeli

Necijepljeni

402

2497

Cijepljeni 11 mjeseci
prije epidemije

372

3789

Cijepljeni 1 mjesec
prije epidemije

131

2109

3. Na sluajan nain je izabrano 2000 porodica i dobijeni su sljedei rezultati o posjedovanju


satelitskog resivera.
PORODICE

Srednji mjeseni prihod


u porodici

Imaju sat. resiver

Nemaju sat. resiver

do 1000 KM

404

231

1000 1200

486

300

1200 1400

242

137

1400 1600

57

44

1600 1800

29

28

Vie od 1800

24

18

Sa rizikom 0, 01 testirati hipotezu da posjedovanje satelitskog resivera ne zavisi od srednjeg


mjesenog prihoda u porodici.
4. Testirati hipotezu o nezavisnosti boje kose (veliina X) i boje oiju (veliina Y) kod ljudi na
osnovu uzorka uzetog kod 6800 osoba sa rizikom = 0,01 :
Svjetla

Smea

Crna

Crvena

Plave

1768

807

189

47

ute/Zelene

946

1387

746

53

Tamne

115

438

288

16

You might also like