Professional Documents
Culture Documents
Vezbe Sesta Nedelja - Hipoteze
Vezbe Sesta Nedelja - Hipoteze
TESTIRANJE HIPOTEZA
VEŽBE - ŠESTA NEDELJA
___________________________________________________________________________
Najpre pročitajte teorijski deo iz školske knjige (str 88-99). Obratite pažnju na postupak
testiranja statističkih hipoteza (naučite ga napamet kako bi mogli da radite zadatke iz ove
oblasti). Zadatke iz ove oblasti (testiranje hipoteza), IMATE i na ispitu i na
testu/kolokvijumu i odnose se na sledeće uže celine:
1. Testiranje hipoteze o vrednosti aritmetičke sredine skupa na bazi uzorka kada je
varijansa osnovnog skupa nepoznata
2. Testiranje hipoteze o proporciji osnovnog skupa na bazi uzorka
3. χ test oblika rasporeda
2
Po meni ovo je najteža oblast iz knjige. Nećete moći da radite zadatke iz ove oblasti ukoliko
niste razumeli pojedine delove iz statističkog ocenjivanja (vežbe peta nedelja). Najpre, dobro
pročitajte tekst zadatka kako bi znali šta uopšte testirate:
1. aritmetičku sredinu – ukoliko se u tekstu zadatka spominje neki PROSEK nečega (jer
aritmetička sredina predstavlja prosek), ili
2. proporciju – ukoliko se u tekstu zadatka spominje neko UČEŠĆE/UDEO nečega u nečemu.
Test oblika rasporeda i test nezavisnosti obeležja se lako prepoznaju na osnovu teksta
zadatka. Objasniću kasnije na primeru.
___________________________________________________________________________
Koristim 3. zadatak iz školske zbirke na str 48. i dajem postupno objašnjenje ovog zadatka i svakog
drugog zadatka u kome se radi o testiranju hipoteze o aritmetičkoj sredini osnovnog skupa, bez
obzira na veličinu uzorka i pojavni oblik nulte i alternativne hipoteze.
TEKST ZADATKA:
Na osnovu podataka o potrošnji šećera u kilogramima:
a) Odredite prosečnu potrošnju šećera i odstupanje od prosečne potrošnje šećera.
b) Uz rizik greške 0,05 ispitati pretpostavku da prosečna potrošnja šećera nije veća 15 kg.
Potrošnja
10 - 12 12 - 14 14 – 16 16 - 18 18 i više ∑
šećera
Broj lica 12 16 17 23 19 87
REŠENJE:
a) Data vam je intervalna serija podataka, uzorak od 87 lica, i treba da pronađete prosečnu
potrošnju šećera – aritmetičku sredinu uzorka odnosno m, i odstupanje od prosečne
potrošnje šećera - standardnu devijaciju uzorka odnosno Sn . Sve ovo smo radili na
prethodnim vežbama i neću se zadržavati na ovome. Koristim gotove rezultate iz zbirke za
pod a):
Σ 87 - 1347 - 21487
m=
∑ f i∗x s = 1347 =15,48
∑ fi 87
Sn =
√ ∑ f i∗x 2s −m2=
∑ fi √ 21487
87
−15,48 2=√7,35=2,71
Prva varijanta:
H0 : ≥ 0
H1 : < 0
Druga varijanta:
H0 : ≤ 0
H1 : > 0
H0 : = 0
H1 : ≠ 0
H0 : ≥ 0
H1 : < 0
0je hipotetička (pretpostavljena) vrednost koja je data u zadatku, u ovom slučaju iznosi
15kg. Konačno, nulta i alternativna hipoteza glase:
H0: ≥ 15
H1: < 15
2. Pitamo se koliki ja naš uzorak (koliko podataka se nalazi u uzorku). U ovom slučaju
raspolažemo sa 87 podataka (n=87) što znači da se radi o velikom uzorku (30 i više
elemenata smatramo velikim uzorkom) pa koristimo Z test statistiku koja ima oblik:
m−❑0
Z= Da se radilo o malom uzorku (koji ima manje od 30 elemenata, npr.
S n / √n−1
zadatak 7 na str 52. u zbirci) koristili bi t test statistiku koja ima oblik:
m−❑0
t=
S n / √ n−1
3. Pronalazimo tabličnu (zove se još i kritična) vrednost Z rasporeda za rizik greške koji
je dat u tekstu zadatka. U ovom zadatku rizik greške iznosi α=0,05.
Dakle u ovom zadatku: -Z1-α = -Z1-0,05 = -Z0,95 . 0,950 (ili 0,95 ili 0,9500) nalazite u
tablicama normalnog Z rasporeda (postupak nalaženja objasnio sam prilikom
statističkog ocenjivanja – vežbe prethodna nedelja). Odgovarajuća tablična (ili
kritična) vrednost za 0,950 iznosi 1,65 i potrebno je još (samo kod prve varijante H0 i
H1) da stavite minus ispred ove vrednosti, dakle -1,65 iznosi negativna tablična
vrednost za rizik greške 0,05 i prvu varijantu H0 i H1.
-Z0,95 = -1,65.
Da je naš uzorak bio manji od 30 elemenata (npr. zadatak 7 na str 52. u zbirci)
koristili bi tablične (kritične) vrednosti t rasporeda, pa bi tražili:
Dakle, izračunata vrednost Z test statistike iznosi 1,655 dok negativna tablična (ili
kritična) vrednost iznosi -1,65.
Da je naš uzorak imao manje od 30 elemenata (npr. zadatak 7 na str 52. u zbirci) ,
kritične oblasti bi izgledale ovako:
- Za prvu varijantu H0 i H1 kritična oblast izgleda ovako: K = (-∞; -tn-1;α): radi
se o intervalu koji ide od minus beskonačno pa sve do negativne tablične
vrednosti.
- Za drugu varijantu H0 i H1 (što nije slučaj u ovom zadatku) kritična oblast
izgleda ovako: K = (tn-1;α; +∞): radi se o intervalu koji ide od tablične
vrednosti pa u pozitivnu beskonačnost.
- Za treću varijantu H0 i H1 (što nije slučaj u ovom zadatku) kritična oblast
izgleda ovako: K = (-∞; -tn-1;α/2) U (tn-1;α/2; +∞): radi se o intervalu koji ide od
minus beskonačno pa sve do negativne tablične vrednosti unija (U se čita
unija što znači da se interval nastavlja) od pozitivne tablične vrednosti pa u
pozitivnu beskonačnost. (vodite računa imate alfa pola).
5. Primenjujemo pravilo odlučivanja koje glasi: Ukoliko izračunata vrednost Z test
statistike pripada kritičnoj oblasti onda prihvatamo alternativnu H1 hipotezu i
odbacujemo nultu H0 hipotezu. I obrnuto, ukoliko izračunata vrednost Z test statistike
ne pripada kritičnoj oblasti onda odbacujemo alternativnu H1 hipotezu i zadržavamo
nultu H0 hipotezu.
Starost lica u
20 – 29 30 – 39 40 – 49 50 – 59 60 i više
prosveti
Broj
250 200 130 100 70
anketiranih
√ p 0∗(1− p0 )
n
p je proporcija uzorka. Izračunava sa na osnovu samog teksta zadatka. U tekstu zadatka kaže
da ispitate da li je učešće mlađih od 40 godina veće od 84%… Vi se onda pitate koliko ima
onih koji su mlađi od 40 godina u vašem uzorku. Takvih ima 250 + 200 = 450 (250 uzrasta 20-
29 i još 200 uzrasta 30-39), svi ostali imaju više od 40 godina. Sada kada znate koliko ima
mlađih od 40 godina (450), treba da nađete njihovo učešće (njihov procenat učešća) u vašem
uzorku. Pošto imate 750 osoba u uzorku, kada podelite osobe koje su mlađe od 40 godina sa
ukupnim brojem osoba u uzorku, dobićete učešće osoba mlađih od 40 godina u uzorku
(450/750=0,6 ili 60%). To je vaša proporcija uzorka p u ovom slučaju.
Sledeći korak (isti postupak kao kod testiranja hipoteze o aritmetičkoj sredini). Pronalazimo
tabličnu vrednost Z rasporeda za rizik greške koji je dat u tekstu zadatka. U ovom zadatku
rizik greške iznosi α=0,05. Za drugu varijantu H0 i H1 potrebno je da nađete Z1-α (nemate
minus ispred). Z1-α pronalazimo u tablicama za 0,950. Z1-α iznosi 1,65.
Dalje. Izračunavamo Z test statistiku i formulišemo kritičnu oblast:
√ p 0∗( 1− p0 )
n √ 0,84∗( 1−0,84 )
750 √ 0,84∗0,16
750 √
0,134 √ 0,000179 0,0133
750
Starost lica u
20 – 29 30 – 39 40 – 49 50 – 59 60 i više
prosveti
Broj
250 200 130 100 70
anketiranih
Koristimo treću varijantu jer se od nas traži da ispitamo da li učešće starijih od 30 godina iznosi tačno
55%.
Postavljanje hipoteza:
H0: p = 0,55
H1: p ≠ 0,55
Naša hipotetička ili pretpostavljena vrednost sada iznosi 0,55 (ili 55% u procentima)
Koristimo Z test statistiku jer je uzorak veći od 30.
Nalazimo tabličnu vrednost za rizik greške 0,05 i treću varijantu nulte i alternativne hipoteze:
Z1-α/2
Z1-α/2 = Z1-0,05/2= Z1-0,025 = Z0,975
U tablicama Z rasporeda za 0,975 nalazimo vrednost od 1,96.
Proporcija uzorka p sada iznosi:
p = 500/750 = 0,67
jer sada imamo 500 osoba koje su starije od 30 godina, i njih delimo sa veličinom uzorka
(750).
Izračunavamo Z test statistiku:
p−p 0 0,67−0,55
Z= =6,67
√ √
p 0∗(1− p0 ) = 0,55∗(1−0,55)
n 750
Test oblika rasporeda se lako prepoznaje na osnovu teksta zadatka. Uvek kada se od vas traži
da ispitate/proverite DA LI SE EMPIRIJSKI (ILI STVARNI, OSTVARENI) RASPORED
(proizvodnje/potrošnje/prihoda…) razlikuje/odstupa od OČEKIVANOG/PLANIRANOG
RASPOREDA (proizvodnje/potrošnje/prihoda…), radimo χ2 test oblika rasporeda.
Koristim 2. zadatak iz školske zbirke na str. 63.
U tabeli je prikazana ostvarena proizvodnja košulja u komadima i planirana proizvodnja u
procentima fabrike po pogonima. Ispitaj da li postoje značajna odstupanja ostvarene
proizvodnje od planirane sa rizikom greške od 0,05.
A 40 650
B 20 500
V 15 300
G 15 200
D 10 350
∑ 100 2000
1. Postavljanje hipoteza:
Kod hi kvadrat testa oblika rasporeda (bar u zadacima koje mi radimo) nulta hipoteza H 0 uvek glasi:
To znači da ne morate da vodite računa o varijantama nulte i alternativne hipoteze kao što je to bio
slučaj kod testiranja aritmetičke sredine i proporcije osnovnog skupa.
2. Kod ovih zadataka uvek koristimo χ2 test statistiku (NE Z i NE t statistiku kako što je to bilo
kod testiranja aritmetičke sredine i proporcije).
3. Pronalazimo tabličnu vrednost hi kvadrat rasporeda za r-1 stepeni slobode i za rizik greške
koji je dat u tekstu zadatka. r je broj modaliteta posmatrane slučajne veličine, u praksi to je
broj redova u tabeli u našem zadatku (bez naslova u prvom redu i bez sume u poslednjem
redu, tj. r je broj pogona u ovom zadatku). Rizik greške iznosi α=0,05.
Tabličnu vrednost za χ24; 0,05 pronalazimo u tablici hi kvadrat rasporeda na kraju školske knjige
na str 294. U prvom redu je rizik greške. U prvoj koloni je broj stepeni slobode. Tabličnu
vrednost za 4 stepeni slobode i rizik greške 0,05 nalazimo u preseku petog reda i šeste
kolone i čitamo je 9,488.
Dakle χ24; 0,05 = 9,488.
' 2
( f i−f i )
χ 2=∑ '
fi
fi su empirijske frekvencije koje su date u zadatku (to su vrednosti iz treće kolone za svaki
pogon).
V 15 300 300 - - -
χ 2=198,955
Kritična oblast testa glasi: K= (χ2r-1; α ; +∞).
U slučaju ovog zadatka: K= (9,488 ; +∞).
5. Pravilo odlučivanja (koje je isto u svim zadacima). Pitamo se da li izračunata vrednost hi
kvadrat test statistike pripada kritičnoj oblasti. 198,955 pripada intervalu (9,488 ; +∞) pa
zaključujemo da prihvatamo H1 i odbacujemo H0. Pošto smo prihvatili alternativnu hipotezu
tvrdimo da, uz rizik greške 0,05 , empirijski raspored nije u skladu sa očekivanim.
__________________________________________________________________________________
Test nezavisnosti obeležja koristimo kada želimo da ispitamo da li postoji zavisnost ili
nezavisnost između modaliteta dva obeležja. Npr. da li izbor brenda cigareta zavisi od pola,
da li izbor marke automobila zavisi uzrasta kupaca, da li izbor brenda telefona zavisi od
prihoda kupaca itd.
Zadatak na str. 66 iz školske zbirke.
Uz rizik greške od 0,05 ispitajte da li izbor vrste cigareta zavisi od pola.
Pol (y) r Vrsta cigareta
Ž 40 80 30 150
M 30 120 50 200
Σ 70 200 80 350
Rešenje:
Imate dva obeležja. Prvo je pol (muški/ženski znači dva modaliteta). Drugo je vrsta cigareta
(duge/standardne/slim znači tri modaliteta)
1. Korak:
Postavljamo nultu i alternativnu hipotezu. Kod ove vrste testa nulta i alternativna hipoteza glase
uvek:
2. Korak:
3. Korak:
Potrebno je da nađemo tabličnu vrednost za χ2(r-1)*(s-1); α tj. χ2(3-1)*(2-1); 0,05 tj. χ2(2)*(1); 0,05 tj. χ22; 0,05
Tabličnu vrednost za χ22; 0,05 pronalazimo u tablici hi kvadrat rasporeda na kraju školske knjige
na str 294. Objasnio sam kako se pronalazi u prethodnom delu. χ22; 0,05 = 5,99.
4. Korak:
' 2
( f ij −f ij )
χ 2=∑ '
f ij
fij su date u tekstu zadatka. Te vrednosti unosite u prvoj koloni u novoj tabeli koju formirate.
fij’ izračunavamo redom za svaku vrednost (iz prve kolone novoformirane tabele) i to: množenjem
zbira kolone u kojoj se ta vrednost nalazi (iz polazne tabele zadatka) sa zbirom reda u kome se ta
vrednost nalazi (iz polazne tabele zadatka) i na kraju deljenjem tog proizvoda veličinom uzorka
(n=350).
1. 2. 3. 4. 5.
40 30 10 100 3,33
12
114,29 5,71 32,6 0,29
0
Σ - - - 7,44
70*150/350=30
200*150/350=85,71
80*150/350=34,29
70*200/350=40
200*200/350=114,29
80*200/350=45,71
Dalje, otvarate novu 3. kolonu f ij-fij’ koja predstavlja razliku vrednosti prve i druge kolone. Zatim
otvarate 4. kolonu koja predstavlja kvadrat vrednosti iz treće kolone. I na kraju otvarate 5. kolonu čije
vrednosti dobijate tako što vrednosti iz 4. kolone podelite vrednostima 2. kolone. Suma 5. kolone
predstavlja izračunatu vrednost hi kvadrat test statistike. χ 2=7,44
Kritična oblast testa uvek glasi: K= (χ2(r-1)*(s-1); α ; +∞).
U slučaju ovog zadatka: K= (5,99 ; +∞).
5. Pravilo odlučivanja (koje je isto u svim zadacima). Pitamo se da li izračunata vrednost hi
kvadrat test statistike pripada kritičnoj oblasti. 7,44 pripada intervalu (5,99 ; +∞) pa
zaključujemo da prihvatamo H1 i odbacujemo H0. Pošto smo prihvatili alternativnu hipotezu
tvrdimo da, uz rizik greške 0,05 , izbor vrste cigareta zavisi od pola.
___________________________________________________________________________
Zadaci za samostalnu vežbu (ne treba da mi ih šaljete na mejl, oni su urađeni postupno u
školskoj zbirci, predlažem da probate sami da ih rešite pa da vaše rešenje upredite sa onim u
zbirci:
BILO KOJI ZADATAK U ŠKOLSKOJ ZBIRCI NA STR. 45-70. Imate različite varijante i
provežbajte ih sve. Neki zadaci su vezani za testiranje aritmetičke sredine, drugi za testiranje
proporcije. Neki koriste Z raspored, drugi koriste t raspored, a poslednji koriste hi kvadrat
raspored. Bilo koji od ovih zadataka možete imati na ispitu ili drugom domaćem zadatku (isti
tekst zadatka, samo druge brojke). Srećno vežbanje. Pitajte šta vam nije jasno, ili putem
mejla ili dođite na konsultacije u školu.