You are on page 1of 25

STATISTIKA: Predavanje 9 1

Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

**TESTIRANJE HIPOTEZE O PROPORCIJI OSNOVNOG SKUPA**


VELIKI UZORAK (n>30)

"Previše povjerenja često je glupost, previše nepovjerenja uvijek je nesreća."


Johann Nestroy

Vrste testova:
- dvosmjeran (na dvije granice)
- jednosmjeran
 na gornju granicu, ili
 na donju granicu

Postupak:
1. postavljanje hipoteza
2. izabiranje uzorka
3. izračunavanje testovnih veličina
sampling distribucija uzoraka oblika je normalne distribucije bez obzira kako je
raspoređen osnovni skup, tj.
pˆ ≈ N ( P0 , σ pˆ )
p̂ - karakteristika uzroka (proporcija uzorka)
P - nepoznata proporcija osnovnog skupa
P0 - pretpostavljena proporcija osnovnog skupa
N - oznaka za normalnu distribuciju
σ p̂ - standardna greška, odnosno, standardna devijacija sampling distribucije

4. izabiranje razine značajnosti i određivanje kritičnih granica (granice) koje dijele


područje prihvaćanja nul-hipoteze od područja odbacivanja
5. zaključivanje o ishodu testa

Hipoteze i način donošenja odluke (n>30):

Vrsta testa Hipoteze Prihvaćanje ili odbacivanje H0


H0... P = P0 |z| < zα/2 prihvatiti
H1... P ≠ P0 |z| > zα/2 odbaciti
dvosmjerni test gornja granica L2= P0+ zα/2se( p̂ )
donja granica L1= P0 - zα/2se( p̂ )
jednosmjerni test H0... P ≤ P0 z < zα prihvatiti
zadatak: veće od H1... P > P0 z > zα odbaciti
gornja granica L2= P0+ zα se( p̂ )
jednosmjerni test H0... P ≥ P0 z >-zα prihvatiti
zadatak: manje od H1... P < P0 z <-zα odbaciti
donja granica L1= P0 - zα se( p̂ )
2 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

zα/2 - određuje pomoću tablica standardizirane normalne krivulje, npr. signifikantnost od 5%


jednaka je pouzdanosti od 95%
zα/2 je z0,025 = 1,96
zα je z0,005 = 1,65 (0,5-0,05) = 0,45

 z-test
pˆ − P0
z=
se( pˆ )
Standardna greška se u slučajevima frakcije izabiranja veće od 0,05 korigira faktorom korekcije:
PQ
se( pˆ ) = o o f < 0,05
n
Po Q o  N − n 
se ( pˆ ) =   f > 0 , 05
n  N −1 
 kreiranje intervala prihvaćanja na temelju gornje tablice
 p vrijednost

p vrijednost je vjerojatnost da empirijski z-test poprimi veću (apsolutno veću) vrijednost od


vrijednosti izračunate na temelju uzorka

Hipoteze p-vrijednost
H0... P = P0 , H1... P ≠ P0 p =2P(Z>|z|)
H0... P ≤ P0 , H1... P > P0 p = P(Z> z )
H0... P ≥ P0 , H1... P < P0 p = P(Z>|z|)

Ako je izračunata p vrijednost manja od razine signifikantnosti α– nul-hipoteza se prihvaća kao


moguća na zadanoj razini signifikantnosti.

Primjer 1.
Proporcija slučajnog uzorka 400 članova izabranog iz beskonačnog osnovnog skupa iznosi
0,49215. Može li se prihvatiti pretpostavka kako uzorak potječe iz populacije s proporcijom
0,51? Testirati na razini 5% signifikantnosti.

n = 400
P0 = 0,51
Q0 = 0,49
P0Q0 = 0,2499 varijanca osnovnog skupa
f se ne može provjeriti, u tom slučaju se standardna greška računa bez primjene faktora korekcije
p̂ = 0,49215
α = 0,05;
U cilju testiranja nul-hipoteze potrebno je provesti dvosmjeran test: zα/2 je z0,025 = 1,96

Postavljaju se hipoteze:
H0... P = 0,51
H1... P ≠ 0,51
STATISTIKA: Predavanje 9 3
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Testiranje
 test (z-test)
pˆ − P0 pˆ − P0 0,49215 − 0,51
z= = = = −0,71
se( pˆ ) P0 Q0 0,2499
n 400
|z|<zα/2
|-0,71|< z0,025 = 1,96 prihvatiti H0

 test (granice prihvaćanja)


donja granica gornja granica
L1=P0 - zα/2se( p̂ ) L2= P0+ zα/2se( p̂ )
L1=0,51–1,96·0,02499 L2=0,51+1,96·0,02499
L1=0,44 L2=0,54

proporcija uzorka (0,49215) se uklapa u interval prihvaćanja, prihvatiti H0

z0,025=1,96

α/2=0,025 α/2=0,025
(0,05:2) 0,475 (0,05:2)

0,95

L1 P0 = 0,51 L2
0,44 pˆ = 0 , 49215 0,54

-1,96 z = -0,71 0 1,96


odbacivanje H0 odbacivanje H0
područje prihvaćanja H0

 p vrijednost
p = 2P(Z>|z|)
p = 2P(Z> |-0,71|) = 2P(,2611) = 0,5000-0,2611 = 0,2399
P(0,2399+0,2399) = 0,4798
alfa < p (ako je izračunata p vrijednost veća od razine
z,025 = 1,96 (0,05)
signifikantnosti α– H0 se prihvaća)
0,025 < 0,4798
Postavljenu nul-hipotezu iz zadatka treba prihvatiti sukladno pokazateljima sva tri provedena testa
4 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Primjer 2.
Testira se nul-hipoteza kako je proporcija osnovnog skupa jednaka 0,70, a pripadajuća
alternativna hipoteza sadrži tvrdnju da je proporcija osnovnog skupa veća od 0,70. Proporcija
slučajnog uzorka veličine 676 članova je 0,72. Uzorak je izabran iz osnovnog skupa opsega
11265 članova. Do koje se odluke dolazi provedbom testa? Vjerojatnost pogreške tipa I je 5%

n = 676
N = 11265
P0 = 0,70
Q0 = 0,30
P0Q0 = 0,21 varijanca osnovnog skupa
f = n/N = 676/11265 = 0,06 f>0,05
p̂ = 0,72
α = 0,05;
jednosmjeran test: zα je z,05 = 1,65

Postavljanje radnih hipoteza:


H0... P ≤ 0,70
H1... P > 0,70 tvrdnja iz zadatka

Testiranje
 test (z-test)

pˆ − P0 pˆ − P0 0,72 − 0,70
z= = =
se( pˆ )
P0 Q0 N − n 0,70 ⋅ 0,30 11265− 676
n N −1 676 11264
0,02 0,02
z= = = 1,1715
0,21 10589 0,01709
676 11264

z <zα prihvatiti H0
1,17< z0,05 = 1,65 prihvatiti radnu nul-hipotezu, to jest odbaciti nul-hipotezu iz zadatka

 kreiranje gornje granice intervala prihvaćanja

L2= P0+ zαse( p̂ )


L2=0,70+1,65·0,01709
L2=0,728

proporcija uzorka (0,72) se uklapa u interval prihvaćanja, prihvatiti radnu H0,


odnosno odbacuje se nul-hipoteza postavljena u zadatku
STATISTIKA: Predavanje 9 5
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

 p-vrijednost
p= P(Z > z )
p= P(Z > 1,1715 )
p= 0,5000-0,3790 = 0,1210
z0,05 = 1,65
z0,05 (1,65 ) 0,05< 0,1210

Ako je izračunata p vrijednost veća od razine signifikantnosti α, prihvaća se radna nul-hipoteza,


odnosno odbacuje se nul-hipoteza postavljena u zadatku.

Kako glasi zaključak?


Na razini 5% signifikantnosti odbacuje se pretpostavka kako je uzorak izabran iz osnovnog skupa
kojemu je proporcija veća od 0,70.

Primjer 3.
Testira se nul-hipoteza kako je proporcija osnovnog skupa manja od 0,30. Proporcija slučajnog
uzorka je 225 članova izabranog uz frakciju izbora 2% je 0,24. do koje se odluke dolazi
provedbom testa? Razina značajnosti je 6%!

f = 0,02 f<0,05
n = 225
f = n/N 0,02 = 225/N N = 11250
P0 = 0,30
Q0 = 0,70
P0Q0 = 0,21 varijanca osnovnog skupa
p̂ = 0,24
α = 0,06;

Testira se DONJA GRANICA intervala prihvaćanja


jednosmjeran test: zα je (0,4400) z0,06 = -1,56

Postavljanje radnih hipoteza


H0... P ≥ 0,30
H1... P < 0,30

Testiranje
 test (z-test)
pˆ − P0 pˆ − P0 0 , 24 − 0 ,30
z= = =
se ( pˆ ) P0 Q 0 0 ,30 ⋅ 0 ,70
n 225
− 0 ,06
z= = − 1,96
0 ,03055
z >-zα prihvatiti H0
-1,96< z0,06 = -1,56 odbaciti H0 radnu
6 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

 kreiranje donje granice intervala prihvaćanja


L1= P0- zαse( p̂ )
L1=0,30-1,56·0,03055
L1=0,252342

proporcija uzorka (0,24) se ne uklapa u interval prihvaćanja, odbaciti radnu H0

 p-vrijednost
p = P(Z>|z| )
p = P(Z> |-1,96|)
p = 0,5000- 0,4750
p = 0,0250
|z0,06| = 1,56
z0,06 (0,06 ) > 0,0250 (p –vrijednost)

Ako je izračunata p vrijednost manja od razine signifikantnosti α– radna nul-hipoteza se odbacuje

Kako glasi zaključak?


Na razini 6% signifikantnosti prihvaća se pretpostavka iz zadatka, kako je uzorak izabran iz
osnovnog skupa kojemu je proporcija manja od 0,30
STATISTIKA: Predavanje 9 7
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

**TESTIRANJE HIPOTEZE O RAZLICI PROPORCIJA DVA


OSNOVNA SKUPA**
VELIKI NEZAVISNI UZORCI (n>30)

"Bez obmane bi čovječanstvo umrlo od očaja i dosade."


Anatole France

Testiranje hipoteze o razlici proporcija dva osnovna skupa pripada skupini dvosmjernih testova,
dakle testiraju se obje granice intervala (i donja i gornja).

Postupak:
1. postavljanje hipoteze
H0... P1 = P2; P1 - P2 = 0
H1... P1 ≠ P2; P1 - P2 ≠ 0
P1 – PROPORCIJA prvog osnovnog skupa (N1)
P2 – PROPORCIJA drugog osnovnog skupa (N2)
Pretpostavka zapisana u nul-hipotezi govori kako je razlika između proporcija dva osnovna
skupa jednaka nuli, to jest, kako razlike između proporcija dva osnovna skupa nema.
2. izabiranje uzorka iz svakog osnovnog skupa (dva uzorka)
3. izračunavanje testovnih veličina u svakom uzorku
 z-test
pˆ1 − pˆ 2
z=
se( pˆ 1 − pˆ 2 )
|z|<zα/2 prihvatiti H0
|z|>zα/2 odbaciti H0
- ako je p vrijednost veća od razine signifikantnosti α, prihvatit će se H0

se( pˆ 1 − pˆ 2 ) je standardna devijacija sampling distribucije razlika proporcija uzoraka


 1 1 
se ( pˆ 1 − pˆ 2 ) = pˆ qˆ  + 
 n1 n2 
pri čemu je:
m1 + m2
pˆ = qˆ = 1 − pˆ
n1 + n2
 kreiranje intervala prihvaćanja
donja granica gornja granica
L1= - zα/2 se( pˆ1 − pˆ 2 ) L2= + zα/2 se( pˆ 1 − pˆ 2 )

pˆ 1 − pˆ 2 - razlika proporcija uzoraka


4. donošenje zaključka
Ako se razlika proporcija uzoraka uklapa u interval prihvaćanja, a apsolutna vrijednost z testa je
manja od koeficijenta pouzdanosti, H0 se prihvaća kao moguća na zadanoj razini signifikantnosti.
8 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Primjer 4.
Iz dviju populacija izabrani su nezavisni uzorci veličine n1=100 i n2=200. Broj članova s
određenim modalitetom obilježja u prvom uzorku je m1=50, a u drugom m2=75. Na razini
signifikantnosti od 5% testirajte hipotezu o razlici proporcija dvaju populacija i donesite
zaključak.

1. postavljanje hipoteza
H0... P1 = P2; P1 P2 = 0
H1... P1 ≠ P2; P1 P2 ≠ 0

2. izabiranje uzorka iz svakog osnovnog skupa (dva uzorka)


n1=100, n2=200
m1=50, m2=75
m 50
pˆ 1 = 1 = = 0,50
n1 100
m2 75
pˆ 2 = = = 0,375
n2 200

3. izračunavanje testovnih veličina u svakom uzorku


 z-test
1 1 
se ( pˆ 1 − pˆ 2 ) = pˆ qˆ  + 
 n1 n 2 
 1 1 
se ( pˆ 1 − pˆ 2 ) = 0, 42 ⋅ 0,58 + 
 100 200 
se ( pˆ 1 − pˆ 2 ) = 0,0604
m1 + m 2 50 + 75
pˆ = = = 0,42
n1 + n 2 100 + 200
qˆ = 1 − pˆ = 1 − 0, 42 = 0,58

pˆ1 − pˆ 2
z=
se( pˆ1 − pˆ 2 )
0,500 − 0,375
z= = 2,07
0,0604
|z|<zα/2 prihvatiti H0
|z|>zα/2 odbaciti
|2,07|>z0,025 1,96 odbaciti H0

- ako je p vrijednost veća od razine signifikantnosti α, prihvatit će se H0


STATISTIKA: Predavanje 9 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

 interval prihvaćanja

donja granica gornja granica


L1= - zα/2 se( pˆ 1 − pˆ 2 ) L2= + zα/2 se ( pˆ 1 − pˆ 2 )
L1= - 1,96·0,0604 L2= + 1,96·0,0604
L1= - 0,118384 L2= + 0,118384

pˆ 1 − pˆ 2
0,5-0,375
0,125
4. zaključak o ishodu testa

Na temelju oba testa odbacuje se pretpostavka kako su proporcije uzoraka izabrane iz osnovnih
skupova sa jednakim proporcijama populacije. Zaključak je donesen na razini signifikantnosti
5%

"Tko ništa ne zna, mora svemu vjerovati."


Jan Neruda
"Nitko se češće ne vara od onih koji ne mogu podnijeti da se varaju."
La Rochefoucauld, Maximes, 386
10 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

**ANALIZA VARIJANCE TESTIRANJE HIPOTEZE


HIPOTEZE O JEDNAKOSTI
ARITMETIČKIH SREDINA VIŠE OSNOVNIH SKUPOVA
(ANOVA)**
"Modele treba koristiti, ali im ne treba vjerovati."
Henri Theil

Analiza varijance podrazumijeva aritmetičko raščlanjivanje varijance slučajne varijable u


komponente, prema određenim izvorima varijacija.

H0... aritmetičke sredine triju ili više osnovnih skupova su jednake


H 0 ....µ1 = µ 2 = µ3 = ... = µ K = µ
H 1 ....∃µ j ≠ µ j = 1,2,3,..., k
H1... barem jedna populacija ima aritmetičku sredinu različitu od µ

Pretpostavke:
 varijabla o čijoj se aritmetičkoj sredini provodi test u svakoj populaciji je normalno
distribuirana
 distribucije populacija imaju jednake varijance (homoskedasticitet). Prisutnost navedene
pretpostavke potrebno je testirati, npr. Bartlettov-im testom!
 uzorci izabrani iz populacija su nezavisni

Test o homogenosti varijanci – Bartlettov test


U cilju provjeravanja druge pretpostavke (postojanje homoskedasticiteta), vrlo često se
primjenjuje Bartlettov test za testiranje pretpostavke o homogenosti varijanci.

H0… varijance k osnovnih skupova su jednake


H1… barem jedna populacija ima varijancu različitu od δ

Za testiranje nul-hipoteze potrebno je:


 izabrati uzorak iz svake od analiziranih k populacija,
 za svaki uzorak izračunati procijenjenu varijancu
 izračunati F test (kvocijent najveće procijenjene varijance i najmanje procijenjene varijance)
sˆi2 max
F= 2
sˆi min
 odrediti tabličnu vrijednost F testa

Tablica za vrijednosti F-distribucije:

df za maksimalnu varijancu

df za minimalnu varijancu tablična vrijednost


STATISTIKA: Predavanje 9 11
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

 donijeti zaključak o prihvaćanju ili odbacivanju nul-hipoteze na temelju uspoređivanja


izračunate F vrijednosti i tablične F vrijednosti. Ako je navedeni odnos, kako slijedi:
sˆi2 max
F= 2 < Fα
sˆi min
tada je moguće H0 moguće prihvatiti kao istinitu. U tom slučaju se prihvaća kao moguća, na
danoj razini signifikantnosti, pretpostavka kako su razlike među varijancama uzoraka
slučajne. U tom slučaju se može pristupiti primjeni procedure ANOVA-e, a budući rezultati
iste procedure se mogu smatrati valjanim.

Postupak provođenja procedure ANOVA-e


Nakon provođenja Bartlettovog testa, i prihvaćanja pretpostavke kako su razlike među
varijancama slučajne, moguće je provesti proceduru ANOVA-e, držeći se sljedećih koraka:

 postavljanje hipoteza
H0… aritmetičke sredine triju ili više osnovnih skupova su jednake
H1… barem jedna populacija ima aritmetičku sredinu različitu od µ
H 0 ....µ1 = µ 2 = µ 3 = ... = µ K = µ
H 1 ....∃µ j ≠ µ j = 1,2,3,..., k
 iz svakog od k osnovnih skupova izabrati jedan uzorak veličine n
 provjeriti jednakost varijanci k uzoraka (npr. Bartlettovim testom)
 zabilježiti sve vrijednosti obilježja Xij svakog od uzoraka
i – element u uzorku (i=1,2,..,n)
j – uzorak kojemu pripada element (j=1,2,3,...,k)

Element Uzorak
i 1 2 ... j ... k
1 x11 x11 .... x1j .... x1k
2 x21 x22 .... x1j .... x2k
.... .... .... .... .... .... ....
i xi1 xi2 .... xij .... xjk
.... .... .... .... .... .... ....
n xn1 xn2 .... xnj .... xnk
aritmetičke .... ....
sredine x
x. 1 x. 2 x. j x. k

 u svakom uzorku izračunati aritmetičku sredinu uzorka:


n

∑X ij
X j = i=1 j =1,2,3,...,k
n
 izračunati zajedničku aritmetičku sredinu svih k uzoraka
nj K

∑∑ X
i =1 j =1
ij

X =
n
12 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

 primijeniti jednadžbu ANOVA-e


Jednadžba ANOVA-e je raščlanjeni zbroj kvadrata odstupanja za svih k⋅n elemenata
K nj K K nj

∑ ∑ (X
j =1 i =1
ij − X) = 2
∑n j =1
j (X j − X) + 2
∑ ∑ (X
j =1 i =1
ij − X j )2

SST = SSB + SSW


total sum of squares = sum of squares between groups + sum of squares within groups
ukupna suma kvadrata = suma kvadrata između skupina + suma kvadrata unutar skupina

SST – total sum of squares


zboj kvadrata odstupanja vrijednosti varijable u svim uzorcima od
zajedničke aritmetičke sredine uzoraka df = n-1
K nj K K nj

∑∑(X ij − X )2 = ∑n j (X j − X )2 + ∑∑(X ij − X j )2
j =1 i =1 j =1 j =1 i =1
nj nj
K
1K

∑∑( X − X )2 = ∑∑ X ij2 − (T..)


2
ij
j =1 i =1 j =1 i =1 n
K nj
T.. = ∑∑ X ij
j =1 i=1
T.. – zbroj vrijednosti varijable X svih uzoraka

SSB – sum of squares between groups (varijacije sredina uzoraka)


zbroj kvadrata odstupanja aritmetičkih sredina uzoraka od zajedničke
aritmetičke sredine df = K-1
K nj K K nj

∑∑( X
j=1 i=1
ij − X ) = ∑nj ( X j − X ) + ∑∑( Xij − X j )2
2

j =1
2

j=1 i=1
2
K K T 1
∑n ( X − X) = ∑ 2
− (T..)2
j
j j
j =1 j =1 n j n
nj

Tj = ∑ X ij j = 1,2,...,k
i =1
K nj
T .. = ∑∑ X ij
j =1 i =1
T.. – zbroj vrijednosti varijable X svih uzoraka
Tj – zbroj vrijednosti varijable j-tog uzorka
STATISTIKA: Predavanje 9 13
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

SSW – Error, sum of squares within groups (varijabilitet unutar uzoraka)


zbroj kvadrata odstupanja vrijednosti varijable uzoraka od njihove
aritmetičke sredine df = n-K
K nj K K nj

∑∑( X
j =1 i=1
ij − X ) = ∑n j ( X j − X ) + ∑∑( X ij − X j )2
2

j =1
2

j =1 i=1
K nj K nj K Tj2
∑∑( X
j =1 i=1
ij − X j ) = ∑∑X −∑
2

j =1 i=1
2
ij
j=1 nj

 izračunavanje sredina kvadrata odstupanja


Izračunate sume kvadrata odstupanja potrebno je podijeliti pripadajućim stupnjevima
slobode kako bi se izračunale sredine kvadrata odstupanja:
SSB SSW
MSB = MSW =
K −1 n−K
 izračunavanje F testa
Ako je H0 istinita, MSB i MSW će biti približno jednake, te će njihov kvocijent biti
približno jednak 1.
Testovna veličina je empirijski F omjer raspoređen prema F distribuciji sa (K-1) i (n-K)
stupnjeva slobode:
MSB
F=
MSW

Izvor varijacija df Zbroj kvadrata odstupanja Sredine F p


kvadrata
razlike među K-1 K MSB MSB/MSW
skupinama SSB= ∑nj (X j − X)2 SSB
(uzorcima) j=1 (K-1)
razlike unutar n-K K nj MSW
uzoraka (skupina) SSW= ∑∑(Xij − X j )2 SSW
j=1 i=1 (n-K)
n-1 K nj
Ukupno SST= ∑∑(Xij − X)2
j=1 i=1

H0 se prihvaća ako je F < Fα[k-1,n-k], odnosno, ako je p vrijednost veća od razine signifikantnosti α

 donošenje zaključka

Sampling distribucija test pokazatelja se raspoređuje prema teorijskoj F-distribuciji.


Pri uporabi tablice F distribucije potrebno je učiniti sljedeće:
o odrediti stupnjeve slobode, i signifikantnost
o iščitati tabličnu F vrijednost:
 zaglavlje tablice: df za brojnik na križanju je tablična
 predstupac tablice: df za nazivnik izraza vrijednost za F
14 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Ako je nul-hipoteza istinita:


 izračunati F je manji od tabličnog
 razlike između aritmetičke sredine uzoraka su slučajne, a ne signifikantne
 razlike između SSB i SSW su slučajne, a ne signifikantne (procjene varijance
razlikovale bi se zbog sampling varijacija)

Ako je nul-hipoteza neistinita:


 izračunati F test pokazatelj je veći ili jednak tabličnoj vrijednosti (razlike
između as uzoraka ne mogu se pripisati slučaju)
 H0 je potrebno odbaciti
 H1 je potrebno prihvatiti (aritmetičke sredine osnovnih skupova su različite)

Razlika između procjena varijance osnovnih skupova mogu biti rezultat:


- razlika između sredina, ili
- razlika između varijanci.

Pretpostavljeno je kako su varijance osnovnih skupova jednake, stoga se utvrđene razlike


pripisuju razlikama među aritmetičkim sredinama, što u navedenom slučaju znači kako treba
odbaciti postavljenu H0.

Primjer 5.
Pogoni A, B i C proizvode isti proizvod. Ispituje se utrošak radnog vremena po proizvodu. Iz
pogona A u slučajni uzorak izabrano je 8 proizvoda, iz pogona B 7 proizvoda, iz pogona C 9
proizvoda. Utrošeno vrijeme u minutama za proizvode dano je u tablici.
Može li se prihvatiti pretpostavka kako ne postoji razlika u prosječnom utrošku radnog vremena
izrade proizvoda u pogonima A, B i C? Testirati na razini 5% i 1% signifikantnosti.
H 0 ...µ1 = µ 2 = µ 3 = µ

A B C
27 19 24
28 24 21
25 23 21
25 26 22
20 19 23
26 18 27
23 20 18
22 20
25
STATISTIKA: Predavanje 9 15
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

A B C
27 19 24
28 24 21
25 23 21
25 26 22
20 19 23
26 18 27
23 20 18
22 20
25
Zbroj T1 = 196 T2 = 149 T3 = 201 T.. = 546
Sredine X 1 = 24,50000 X2 = 21,28571 X 3 = 22,33333 X =
546 = 22,75
24
Zbroj kvadrata 4852 3227 4549 12628
Veličine uzoraka n1 = 8 n2 = 7 n3 = 9 n = 24

STS
nj nj
K K
1
∑ ∑ ( X ij − X ) 2 = ∑ ∑ X ij2 −
j =1 i =1 j =1 i =1 n
(T ..)2
nj
K
1
∑ ∑ (X
j =1 i =1
ij − X ) 2 = 12628 −
24
(546 ) 2 =

K nj

∑ ∑ (X
j =1 i =1
ij − X ) 2 = 206 ,50000

SSB
K K T j21
∑n (X
j =1
j j − X) = ∑2

j =1
− (T ..)2
nj n
K
1962 1492 2012 1
∑n j (X j − X )2 =
j =1 8
+
7
+
9
− 5462
24
K

∑n (X
j =1
j j − X ) 2 = 41,07143

SSW = SST-SSB
SSW = 206,5 - 41,07143 = 165,42857
16 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Tablica ANOVA

Izvor varijacija Zbroj kvadrata Broj stupnjeva Sredina


odstupanja slobode kvadrata
Između skupina 41,07143 2 20,53571
U skupinama 165,42857 21 7,87755
Ukupno 206,50000 23 -

Odnos procjena varijanci:


MSB 20 ,53571
F = = = 2 ,60687
MSW 7 ,87755
p vrijednost 0,0974

Tablična vrijednost za 5% signifikantnosti i broj stupnjeva slobode (2,21): F0,05 = 3,47


F omjer je manji od teorijske F vrijednosti, te se na danoj razini signifikantnosti prihvaća H0 kao
moguća. Identičan zaključak se donosi na temelju p vrijednosti.

Test o jednakosti varijanci skupina.


Varijanca prvog uzorka je
s12 = (4852 : 8) - 24,52 = 6,25
Varijanca drugog uzorka je
s22 = (3227 : 7) - 21,32 = 7,31
Varijanca trećeg uzorka je
s32 = (4549 : 9) - 22,32 = 8,15

Bartlettov test
sˆi2 max
F=
sˆi2 min
8,15
F= = 1,30 < 3,73
6,25

df = 8 (zaglavlje) i df =7 (predstupac), F0,05 = 3,73


Izračunata vrijednost F testa je manja od tablične, dakle, može se prihvatiti pretpostavka kako su
varijance osnovnih skupova jednake.
STATISTIKA: Predavanje 9 17
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

**HI – KVADRAT (χ2)TEST**


"Nitko ne uspijeva tako brzo, kao onaj koji se koristi tuđom greškom."
BACON, Of Fortune
"Svi kriteriji vrijede, samo uz neka ograničenja."
Antun Barac, Naša književnost i njezini historici
"Na primjer - nije nikakav dokaz!"
židovska narodna uzrečica

Hi-kvadrat test nalazi učestalu primjenu pri testiranju hipoteza kako su:
1. proporcije tri ili više osnovnih skupova međusobno jednake
2. distribucija osnovnog skupa ima određeni oblik
3. dva obilježja elemenata osnovnog skupa međusobno neovisna

1. TESTIRANJE HIPOTEZE KAKO SU PROPORCIJE TRI ILI VIŠE OSNOVNIH


SKUPOVA MEĐUSOBNO JEDNAKE

Nastoje li istraživači utvrditi, na primjer:


 je li "prava" proporcija škarta svakodnevno konstantna?
 je li "prava" proporcija studenata koji rade preko studentskog servisa jednaka među
studentima 1, 2, 3, i 4 godine?
poslužiti će se istraživačkom hipotezom koja pretpostavlja kako su proporcije svih analiziranih
skupova međusobno jednak:
H0 … P 1 = P 2 = P 3 = … = P k … = P
H1 … P 1 ≠ P 2 ≠ P 3 ≠ … ≠ P k … ≠ P

Kako bi se navedena hipoteza testirala, potrebno je:


- izračunati procijenjenu zajedničku proporciju za sve skupove1:
m + m2 + m3 + ... + mk
Pˆ = 1
n1 + n2 + n3 + ... + nk
- izračunati očekivane frekvencije ei (broj elemenata s promatranim obilježjem koji
se može očekivati u uzorku i ako bi H0 bila istinita)
ei = ni ⋅ Pˆ
- ispitati: jesu li razlike između originalnih (opaženih) vrijednosti mi i očekivanih
vrijednosti ei dovoljno male kako bi se mogle smatrati slučajnima

Test pokazatelj:
k
(m i − ei )2
χ 2
= ∑
i =1 ei

1
m predstavlja broj povoljnih događaja u uzorku, a n broj jedinca uzorka
18 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Sampling distribucija pokazatelja oblika je teorijske hi-kvadrat distribucije sa k-1 stupnjeva


slobode za određenu razinu signifikantnosti
- kada je broj stupnjeva slobode veći od 30, koristi se Fisherov izraz:
2χ 2 − 2v − 1
v = df = n-k
- nakon uporabe Fisherov izraza moguće uporabiti tablicu površina ispod
standardizirane normalne distribucije
H0 prihvatiti, ako je izračunati hi-kvadrat manji od tabličnog

Napomene:
- smije se računati samo na temelju frekvencija (ne smiju se unositi npr. aritmetička
sredina, postoci, itd.)
- niti jedna ei ne smije biti manja od 5 ako je u testiranju df = 1
- ako je veći broj stupnjeva slobode, hi-kvadrat se ne smije uporabiti ako je više od 20%
ei manje od 5, a niti jedna ei ne smije biti manja od 1
(tada je moguće zbrojiti dvije ili više ei, ako to ima smisla, te nakon toga odrediti df)
STATISTIKA: Predavanje 9 19
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Primjer 6.
Želi se provjeriti tvrdnja (signifikantnost 5%) kako je proporcija ženskih studenata jednaka na
svim godinama studija. Iz svakog godišta, izabran je određeni broj studenata u uzorak:

Studijska godina Broj studenata Ženski studenti


ni mi
I 49 19
II 34 16
III 38 21
IV 32 14
Ukupno 153 70

H0 … P 1 = P 2 = P 3 = … = P k … = P
H1 … P 1 ≠ P 2 ≠ P 3 ≠ … ≠ P k … ≠ P

m + m 2 + m3 + ... + m k
Pˆ = 1 =
n1 + n2 + n3 + ... + nk
19 + 16 + 21 + 14
Pˆ = = 0,4575
49 + 34 + 38 + 32

Studijska godina ni mi ei = ni ⋅ Pˆ (mi − ei )2 (m i − ei )


2

ei
I 49 19 22,42 11,6964 0,522
II 34 16 15,56 0,1936 0,012
III 38 21 17,38 13,1044 0,754
IV 32 14 14,64 0,4096 0,028
Ukupno 153 70 70 - 1,316

7,815 > 1,316


df = k-1 = 4-1 = 3 χ 2 0, 05 = 7,815
0,05 signifikantnost

Kada je izračunati hi-kvadrat manji od tabličnog test pokazatelja, nul-hipotezu je potrebno


prihvatiti kao moguću na razini 5% signifikantnosti.
H0 se, na razini 5% signifikantnosti, prihvaća kao moguća, tj. prihvaća se kao moguća
pretpostavka kako je proporcija ženskih studenata jednaka na svim godinama studija.
20 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

2. TESTIRANJE HIPOTEZE KAKO JE DISTRIBUCIJA OSNOVNOG SKUPA


ODREĐENOG OBLIKA
- pretpostavka se odnosi na oblik distribucije (npr. normalna je...)
Postupak:
- izabire se uzorak
- bilježe se opažene vrijednosti mi
- e i se izračunaju ovisno o pretpostavci
- izračunati test pokazatelj
2

χ = ∑
2
k
(m i − ei )
i =1 ei
Kao i u prethodnom slučaju, potrebno je usporediti test pokazatelj s tabličnom vrijednosti!

Primjer 7.
Pretpostavlja se kako se prometne nezgode događaju ravnomjerno. Na razini 5% signifikantnosti
testirajte navedenu pretpostavku!
Dani tjedna Broj nezgoda mi
Ponedjeljak 5532
Utorak 5177
Srijeda 5289
Četvrtak 5263
Petak 5986
Subota 6167
Nedjelja 5723
Ukupno 39137
Radna hipoteza: nezgode se događaju ravnomjerno

H0… nezgode se događaju ravnomjerno (tj. distribucija je pravokutna)


H1… nezgode se ne događaju ravnomjerno

Dani mi ei (mi − ei )2 (m i 2
− ei )
tjedna ei
P 5532 39137:7=5591 3481 0,62
U 5177 39137:7=5591 171396 30,65
S 5289 39137:7=5591 91204 16,31
Č 5263 39137:7=5591 107584 19,24
P 5986 39137:7=5591 156025 27,91
S 6167 39137:7=5591 331776 59,34
N 5723 39137:7=5591 17424 3,12
Ukupno 39137 39137 - 157,19
157,19 > 12,59
df = k-1 = 7-1 = 6 χ 2 0,05 = 12,59
0,05 signifikantnost
H0 se, na razini 5% signifikantnosti odbacuje kao neistinita, tj. odbacuje se pretpostavka kako se
prometne nezgode na cestama događaju ravnomjerno po danima u tjednu.
STATISTIKA: Predavanje 9 21
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

3. TESTIRANJE HIPOTEZE KAKO SU DVA OBILJEŽJA ELEMENATA


OSNOVNOG SKUPA MEĐUSOBNO NEOVISNA

H0... dva obilježja su NEOVISNA


H1... dva obilježja su OVISNA

- izabrati uzorak iz osnovnog skupa


- kreirati tablicu kontigence
fij- opažene frekvencije
i označuje red (i=1,2,...,k)
j označuje stupac (j=1,2,...,k)

Opći oblik tablice kontigence (r redova i c stupaca)


Modaliteti obilježja A Modaliteti obilježja B Ukupno
B1 B2 ... Bj ... Bc
A1 m11 m12 ... m1j ... m1c m1.
A2 m21 m22 ... m2j ... m2c m2.
... ... ... ...
Ai mi1 mi2 mij mic m i.
... ... ... ...
Ar mr1 mr2 mrj mrc mr.
Ukupno m.1 m.2 ... m.j ... m.c n

- izračunavanje očekivanih frekvencija ei


(frekvencije kakve bi bile kada bi H0 bila istinita, tj. kada ne bi postojala ovisnost između
obilježja)

moguće ih je izračunati:
a) s pomoću strukture zbirnog reda
b) s pomoću strukture zbirnog stupca
c) s pomoću složene vjerojatnosti
d) s pomoću marginalnih frekvencija

- test pokazatelj:
2
r c
(m i − ei )
χ 2
= ∑∑
i =1 i =1 ei
r = broj redova tablice
c = broj stupaca tablice
Odrediti tabličnu vrijednost test pokazatelja!

Vjerojatnost = signifikantnost/100
df = (r-1) (c-1)

H0 prihvatiti ako je izračunati hi-kvadrat manji od tabličnog!


22 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

Što ako se prihvati H1?


- postoji ovisnost!
- koliko je jaka ovisnost?
koeficijent kontigence odgovara koliko je jaka ovisnost
χ 2
C =
χ 2 + n
C = 0 nema ovisnosti
C = 1 potpuna ovisnost obilježja
C ne može biti negativan – s njim se, dakle, ne može ispitati smjer veze
 kada tablica ima r = c, maksimalni C je:
c −1
C =
c

 što tablica ima više redova i stupaca, Cmax je bliži 1

Red tablice Cmax


2x2 0,707
3x3 0,816
4x4 0,866
10 x 10 0,949

Nedostatak: C neusporediv s C računatim iz tablica s različitim brojem redova i stupaca

Primjer 8.
Prigodom istraživanja uspješnosti studiranja studenata EFOS, postavljena je hipoteza kako ne
postoji veza između ocjene iz statistike i spola studenata.

Spol Ocjene iz statistike Ukupno


2 3 4 5
Ž 20 13 10 10 53
M 4 7 8 5 24
Ukupno 24 20 18 15 77

Na razini 5% signifikantnosti testirajte postavljenu nul-hipotezu i očekivane frekvencije


izračunajte na četiri načina:

a) s pomoću strukture zbirnog reda


b) s pomoću strukture zbirnog stupca
c) s pomoću složene vjerojatnosti
d) s pomoću marginalnih frekvencija
STATISTIKA: Predavanje 9 23
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

IZRAČUNAVANJE OČEKIVANIH FREKVENCIJA

a) s pomoću strukture zbirnog reda


Spol Ocjene iz statistike
2 3 4 5 Ukupno
Ž 20 13 10 10 53
M 4 7 8 5 24
24 20 18 15 77
Ukupno 0,312 0,260 0,234 0,195

24:77 = 0,312
20:77 = 0,260
18:77 = 0,234
15:77 = 0,195
Očekivane frekvencije se izračunavaju množenjem strukture zbirnog reda i ukupnog broja
studenata:
studentice studenti
0,312 · 53 =16,5 0,312 · 24 = 7,5
0,260 · 53 =13,8 0,260 · 24 = 6,2
0,234 · 53 =12,4 0,234 · 24 = 5,6
0,195 · 53 =10,3 0,195 · 24 = 4,7

upisuju se u tablicu kontigence


Spol Ocjene iz statistike
2 3 4 5 Ukupno
Ž 16,5 13,8 12,4 10,3 53
M 7,5 6,2 5,6 4,7 24
Ukupno 24 20 18 15 77

b) s pomoću strukture zbirnog stupca


Spol Ocjene iz statistike
2 3 4 5 Ukupno
Ž 20 13 10 10 53:77=0,688
M 4 7 8 5 24:77=0,312
Ukupno 24 20 18 15 77

množenjem strukture zbirnog stupca i originalne frekvencije uzorka:


dovoljan dobar
0,688 · 24 = 16,5 0,688 · 20 = 13,8
0,312 · 24 = 7,5 0,312 · 20 = 6,2
vrlo dobar izvrstan
0,688 · 18 = 12,4 0,688 · 15 = 10,3
0,312 · 18 = 5,6 0,312 · 15 = 4,7
24 STATISTIKA: Predavanje 9
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

c) s pomoću složene vjerojatnosti


i - i vjerojatnost
1. relativne očekivane frekvencije - množenjem strukture zbirnog reda i strukture
zbirnog stupca
2. apsolutne očekivane frekvencije - množenjem relativnih očekivanih frekvencija s
brojem jedinica uzorka

relativne očekivane frekvencije


Spol Ocjene iz statistike
2 3 4 5 Ukupno
Ž 0,21466 0,17888 0,16099 0,13416 0,688
M 0,09734 0,08112 0,07301 0,06084 0,312
Ukupno 0,312 0,260 0,234 0,195 1
studentice studenti
0,312 · 20,688 = 0,21466 0,312 · 0,312 = 0,09734

pomnožiti ih sa n (77)
Spol Ocjene iz statistike
2 3 4 5 Ukupno
Ž 16,5 13,8 12,4 10,3 53
M 7,5 6,2 5,6 4,7 24
Ukupno 24 20 18 15 77

d) s pomoću marginalnih frekvencija


m . j ⋅ m i.
e ij =
n
Spol Ocjene iz statistike
2 3 4 5 Ukupno
Ž 20 13 10 10 53
M 4 7 8 5 24
Ukupno 24 20 18 15 77
studentice studenti
(53 · 24)/77 = 16,5 (24 · 24)/77 = 7,5
(53 · 20)/77 = 13,8 (24 · 20)/77 = 6,2
(53 · 18)/77 = 12,4 (24 · 18)/77 = 5,6
(53 · 15)/77 = 10,3 (24 · 15)/77 = 4,7

očekivane frekvencije
Spol Ocjene iz statistike
2 3 4 5 Ukupno
Ž 16,5 13,8 12,4 10,3 53
M 7,5 6,2 5,6 4,7 24
Ukupno 24 20 18 15 77
STATISTIKA: Predavanje 9 25
Testiranje hipoteza o proporciji, analiza varijance, hi-kvadrat test

IZRAČUNAVANJE TEST POKAZATELJA


r c
(mi − ei )2
χ = ∑∑
2

i =1 i =1 ei

(m i − ei )2
Spol ei Ukupno
2 3 4 5
Ž 0,742 0,046 0,465 0,009 1,262
M 1,633 0,103 1,029 0,019 2,784
Ukupno 2,375 0,149 1,494 0,028 4,046

Tablična vrijednost test pokazatelja:


df = (r-1) (c-1)
df = 1·3 = 3
α = 0,05
tablična vrijednost = 7,82
χ 02, 05 = 7,82 > 4,046

Prihvaća se H0 o neovisnosti obilježja spol i postignutog uspjeha iz statistike na razini 5%


signifikantnosti

You might also like