Professional Documents
Culture Documents
Nenad uvak
Primijenjena statistika
Recenzenti:
ISBN 978-953-6931-59-0
Predgovor
Ova knjiga nastala je s namjerom da pomogne studentima preddiplomskih i diplomskih studija prilikom svladavanja gradiva iz statistikih kolegija primijenjenog
karaktera. Za razumijevanje gradiva prezentiranog u knjizi nije nuno matematiko
predznanje vee od sadraja matematike opih gimnazijskih programa u Republici
Hrvatskoj.
Knjiga je podijeljena u sedam poglavlja: Uvod, Prikupljanje i organizacija podataka, Deskriptivna statistika, Sluajna varijabla, Statistiko zakljuivanje - jedna
varijabla, Statistiko zakljuivanje - dvije varijable i Zadaci za vjebu. U cijeloj je
knjizi teorijski dio ilustriran mnotvom primjera i zadataka temeljenih na podacima
koji su ili simulirani ili potjeu iz stvarnih istraivanja i koriteni su uz odobrenje
voditelja istraivanja. Baze podataka koritene u primjerima i zadacima dostupne
su na mrenim stranicama autora knjige (http://www.mathos.unios.hr/mirta/,
http://www.mathos.unios.hr/nsuvak/) u formatu prikladnom za upotrebu raunalnih programa. Kroz tree poglavlje u primjerima je ilustriran nain koritenja
programskog paketa Statistica (StatSoft, inaica 10) za deskriptivnu statistiku. Statistike procedure navedene u knjizi dostupne su u svim standardnim statistikim
programima (R, Statistica, SPSS, SAS, itd.).
Zadnje poglavlje Zadaci za vjebu sadri zadatke s kolokvija i pismenih ispita odranih tijekom nekoliko posljednjih akademskih godina na Odjelu za matematiku,
Graevinskom fakultetu, Prehrambeno-tehnolokom fakultetu i Uiteljskom fakultetu Sveuilita J.J. Strossmayera u Osijeku.
Zahvaljujemo svima koji su pomogli da se ova knjiga tiska i bude to bolja. To se
posebno odnosi na recenzente koji su paljivo proitali rukopis te svojim primjedbama i sugestijama utjecali na poboljanje mnogih dijelova teksta, kao i na kolege
Natau arliju, Andreu Krajinu, Slobodana Jelia, Mariju Miloloa-Pandur i Ivonu
Pulji jer su svojim sugestijama doprinijeli kvaliteti primjera i zadataka.
Autori e biti zahvalni svim itateljima na primjedbama vezanima uz eventualne
pogreke, nepreciznosti ili nedostatke.
Sadraj
1 Uvod
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
6
6
7
8
9
10
3 Deskriptivna statistika
3.1 Metode opisivanja kvalitativnih podataka . . . . . . . . . . . . .
3.1.1 Tablini prikaz frekvencija i relativnih frekvencija . . . . .
3.1.2 Grafiki prikazi frekvencija i relativnih frekvencija . . . .
3.2 Metode opisivanja numerikih podataka . . . . . . . . . . . . . .
3.2.1 Postupak razvrstavanja numerikih podataka u kategorije
3.2.2 Mjere centralne tendencije i rasprenosti podataka . . . .
3.2.3 Detekcija streih vrijednosti . . . . . . . . . . . . . . . .
3.3 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
16
19
22
24
25
31
33
4 Sluajna varijabla
4.1 Uvod . . . . . . . . . . . . . . . . . . . . . . .
4.2 Vjerojatnost . . . . . . . . . . . . . . . . . . .
4.2.1 Jednako mogui ishodi . . . . . . . . .
4.2.2 Statistika interpretacija vjerojatnosti
4.2.3 Neka svojstva vjerojatnosti . . . . . .
.
.
.
.
.
.
.
.
.
.
53
53
55
58
60
62
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iv
Sadraj
4.3
4.4
4.5
4.6
4.7
4.8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
68
70
75
75
76
78
79
83
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
102
103
104
107
109
111
111
115
117
117
119
121
.
.
.
.
.
.
.
.
.
.
.
.
129
129
132
137
139
141
142
147
150
153
153
154
156
Sadraj
6.5
6.6
7 Zadaci za vjebu
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
157
157
160
170
172
183
Literatura
195
Indeks
199
vi
Sadraj
Poglavlje 1
Uvod
Uporaba rijei statistika u svakodnevnom ivotu najee je povezana s brojanim
vrijednostima kojima pokuavamo opisati bitne karakteristike nekog skupa podataka. Na slubenim mrenim stranicama Dravnog zavoda za statistiku Republike
Hrvatske moemo proitati (http://www.dzs.hr, 5. rujna 2012.):
Prosjena mjesena isplaena neto plaa po zaposlenome u pravnim osobama Republike Hrvatske za lipanj 2012. iznosila je 5492 kune.
Minimalna plaa za razdoblje od 1. lipnja 2012. do 31. svibnja 2012. u Republici
Hrvatskoj iznosila je 2814 kuna.
Stopa registrirane nezaposlenosti za srpanj 2012. iznosila je 17.5%.
Udio aktivnog stanovnitva u radno sposobnom stanovnitvu (stopa aktivnosti) za
sijeanj, veljau i oujak 2012. iznosila je 51.7%, istovremeno 42.9% radno
sposobnih osoba je zaposleno (stopa zaposlenosti), a 17% radne snage je nezaposleno (stopa nezaposlenosti).
Temelj statistike kao znanstvene discipline, kao i svih istraivanja koja se koriste
statistikim metodama, ine skupovi podataka.
Statistika kao znanstvena disciplina bavi se razvojem metoda prikupljanja, opisivanja i analiziranja podataka te primjenom tih metoda u
procesu donoenja zakljuaka na temelju prikupljenih podataka.
Statistiko istraivanje fokusirano je na skup objekata, tj. jedinki (ljudi, ivotinja,
biljaka, stvari, drava, gradova, poduzea, itd.) i skup odabranih veliina koje
1
Uvod
Varijabla
ocjena iz Statistike
Varijable
Ocjena iz Statistike
Spol
Grupa vjebi
1206
1326
942
..
.
..
.
..
.
..
.
Uvod
U prethodnim primjerima moemo lako istraiti cijelu populaciju s obzirom da generacija koju prouavamo broji konano mnogo studenata (npr. 83 studenta). Meutim, istraujemo li prije izbora za predsjednika neke drave preferencije graana
prema nekom od kandidata, ne moemo ispitati sve osobe populacije (tj. sve dravljane koji imaju pravo glasa) jer bi to bilo provoenje izbora. Kada nije mogue
istraiti veliine koje nas zanimaju na svim jedinkama populacije, potrebno je iz
populacije izdvojiti uzorak na kojemu e biti prikupljeni podaci. S obzirom da se
o cijeloj populaciji eli zakljuivati na temelju podataka prikupljenih na uzorku, za
istraivanje je vrlo vano znati kako kreirati kvalitetan uzorak.
Primjena statistike u istraivanju podrazumijeva da se u pripremi istraivanja izabranog problema potuju sljedea pravila:
Populaciju koja je predmet istraivanja i ciljeve potrebno je jasno odrediti (detaljno
prouiti populaciju, zabiljeiti njene osnovne karakteristike i ciljeve istraivanja).
Kreirati kvalitetan uzorak i odabrati metodu za prikupljanje podataka.
Izabrati prikladne metode za opis skupa prikupljenih podataka (deskriptivna statistika).
Izabrati prikladne statistike metode za zakljuivanje o populaciji na temelju prikupljenih podataka na uzorku.
U skladu s tim u ovom emo se kolegiju baviti nekim metodama prikupljanja podataka i kreiranja uzorka, metodama deskriptivne statistike i metodama
statistikog zakljuivanja. S obzirom da se metode kojima se kreira uzorak i
metode statistikog zakljuivanja temelje na poznavanju osnovnih pojmova teorije
vjerojatnosti, u kolegiju emo takoer navesti temeljne pojmove i zakone teorije
vjerojatnosti potrebne za razumijevanje osnovnog statistikog aparata.
Uvod
Poglavlje 2
Prikupljanje i organizacija
podataka
2.1
Populacija i uzorak
Statistiko istraivanje usmjereno je na skup jedinki koje zadovoljavaju neka svojstva bitna za obiljeje koje se istrauje, tj. populaciju. Dakle, populaciju ine
sve jedinke koje su predmet istraivanja.
Primjer 2.1. Istraujemo razlike u prehrambenim navikama izmeu stanovnika Slavonije i Baranje i stanovnika Dalmacije. Populaciju ine svi stanovnici Slavonije, Baranje i Dalmacije.
Meutim, ako nas zanimaju samo prehrambene navike studenata iz tih podruja, onda populaciju
ine samo studenti iz Slavonije, Baranje i Dalmacije.
Populacija moe sadravati vrlo velik broj jedinki i stoga je esto teko, ili ak nemogue, istraivanje provesti na svim jedinkama populacije. Rjeenje tog problema
sastoji se u odabiru jednog podskupa populacije, koji nazivamo uzorak, na kojemu
je osigurano kvalitetno provoenje istraivanja.
Da bi zakljuci prilikom istraivanja o populaciji na temelju podataka iz uzorka
bili ispravni, nuno je da uzorak bude reprezentativan, tj. u njemu moraju biti
zastupljene tipine karakteristike populacije bitne za istraivanje.
Primjer 2.2. U prethodnom primjeru, ako populaciju ine svi stanovnici Slavonije, Baranje i
Dalmacije, istraivanje ne moemo provesti samo na uzorku djece koja pohaaju srednju kolu. To
bi moda bilo praktino, ali takav uzorak nije reprezentativan za zakljuivanje o cijeloj populaciji.
2.2
Izvori podataka
Nain prikupljanja podataka ovisi o karakteristikama obiljeja koje je predmet prouavanja. Najee koriteni naini prikupljanja podataka jesu sljedei:
Podaci iz javnih izvora (knjige, asopisi, novine, Internet).
Podaci iz dizajniranog eksperimenta (istraiva rasporeuje eksperimentalne jedinke u skupine s kojima provodi eksperimente te biljei podatke za varijable
koje ga zanimaju).
Podaci iz ankete (istraiva sastavlja anketni upitnik, izabire skupinu ljudi koju
anketira i na osnovi njihovih odgovora prikuplja podatke).
Podaci prikupljeni promatranjem (istraiva promatra eksperimentalne jedinke u
njihovu prirodnom okruenju i biljei podatke za varijable od interesa).
Primjer 2.3. Jedno medicinsko istraivanje prouava snagu nekog lijeka u prevenciji modanog
udara. Ljude s kojima e se provesti istraivanje istraiva dijeli na dvije skupine: tretiranu i
kontrolnu. Ljudima u tretiranoj skupini daje se lijek, dok se ljudima u kontrolnoj skupini daje
placebo (nadomjestak koji izgleda isto kao lijek, ali zapravo nije nita to moe imati bilo kakav utjecaj na organizam). To istraivanje primjer je dizajniranog eksperimenta kojim se mogu
prikupiti odreeni podaci o ispitanicima.
2.3
Tipovi varijabli
2.3.1
Kvalitativne varijable
Karakteristika je kvalitativnih varijabli da njihove vrijednosti nisu, po svojim svojstvima koritenim u istraivanju, realni brojevi. Tipian je primjer takve varijable
Tipovi varijabli
2.3.2
Numerike varijable
Primjer 2.8.
(auto-centar.sta)
Svrha ovog primjera je prikazati mogunost kategorizacije numerike varijable. Taj se postupak
najee rjeava stvaranjem nove kvalitativne varijable ije su vrijednosti svrstane u kategorije
kojih je (znatno) manje nego svih moguih vrijednosti odgovarajue diskretne numerike varijable.
Baza podataka auto-centar.sta sastoji se od sljedeih varijabli:
automobili - diskretna numerika varijabla koja sadri podatke o broju prodanih automobila u
jednom danu za sto promatranih dana. Budui da broj prodanih automobila u jednom
danu moe biti vrlo mali (npr. samo nekoliko osobnih automobila), ali i vrlo velik (npr.
narudbe automobila za vozni park nekog poduzea), zakljuujemo da varijabla automobili
moe poprimiti velik broj razliitih vrijednosti iz skupa prirodnih brojeva. Zato je u nekim
situacijama korisno kategorizirati vrijednosti ove varijable prema tono odreenom kriteriju. Na primjer, kategrizacija prema broju prodanih automobila u jednom danu moe se
realizirati stvaranjem nove varijable kategorija.
kategorija - kvalitativna varijabla koja podatke iz varijable automobili svrstava u pet kategorija
prema kriteriju prikazanom u tablici 2.8.
broj prodanih automobila
kategorija
0-9
10 i 11
12 i 13
14 i 15
16 i vie
E
D
C
B
A
2.3.3
Ordinalne varijable
Primjer 2.9.
(matematika.sta)
Baza podataka matematika.sta sadri podatke prikupljene anketiranjem studenata nakon odranih
predavanja, vjebi, kolokvija te usmenog ispita iz jednog matematikog kolegija. Prikupljeni podaci
organizirani su na sljedei nain:
prosjek - varijabla koja sadri podatke o prosjenoj ocjeni studiranja za 49 anketiranih studenata,
polozeno - varijabla koja studente svrstava u dvije kategorije s obzirom na to jesu li poloili ispit
iz promatranog kolegija prema kriteriju prikazanom u tablici 2.2.
poloen/nepoloen ispit
poloen ispit
nepoloen ispit
kategorija
1
0
kategorija
1
2
3
2.4
Podaci u bazi podataka mogu biti organizirani na razliite naine ovisno o informacijama koje elimo dobiti istraivanjem. Za ilustraciju navodimo jedan primjer niza
podataka koji su organizirani na dva razliita naina.
Primjer 2.10.
(student.sta, student-grupe.sta)
Svrha je ovog primjera pokazati kako isti podaci u bazi podataka mogu biti organizirani na razliite
naine. Nain organizacije ovisi o informacijama koje iz podataka elimo dobiti statistikom
analizom. Baza podataka student.sta sastoji se od sljedeih varijabli:
10
klasicno studiranje - neprekidna numerika varijabla koja sadri podatke o godinama starosti
studenata koji studiraju na klasian nain (stanuju u gradu u kojem studiraju ili putuju na
predavanja)
e-learning - neprekidna numerika varijabla koja sadri podatke o godinama starosti studenata
koji studiraju putem interneta (tzv. e-learning).
Baza podataka student-grupe.sta sastoji se od sljedeih varijabli:
dob studenta - neprekidna numerika varijabla koja sadri podatke o godinama starosti za sto
studenata koji studiraju ili na klasian nain ili putem interneta
nacin studiranja - kvalitativna varijabla koja studente, bez obzira na podatke sadrane u varijabli
dob studenta, svrstava u dvije kategorije prema kriteriju prikazanom u tablici 2.4.
nain studiranja
student studira na klasian nain
student studira putem interneta
kategorija
1
0
2.5
Zadaci
Zadatak 2.1.
(stanovnistvo.sta)
Pretpostavimo da elite saznati starosnu strukturu (prema godinama starosti) stanovnitva u svom
gradu te da ste u tu svrhu prikupili podatke koji su dani u bazi stanovnistvo.sta. Navedena baza
sadri etiri varijable:
osnovna kola - varijabla koja sadri podatke o godinama starosti za pedeset sluajno odabranih
uenika jedne osnovne kole u vaem gradu
kafi - varijabla koja sadri podatke o godinama starosti za pedeset sluajno odabranih gostiju
popularnog kafia u vaem gradu
gradska knjinica - varijabla koja sadri podatke o godinama starosti za pedeset sluajno odabranih
posjetitelja gradske knjinice u vaem gradu
telefonska anketa - varijabla koja sadri podatke o godinama starosti za pedeset osoba iz vaeg
grada ije ste telefonske brojeve na sluajan nain izabrali iz telefonskog imenika.
Nakon kratke analize baze podataka stanovnistvo.sta komentirajte reprezentativnost uzorka. Razmislite o moguim nainima prikupljanja podataka kojima biste kreirali reprezentativan uzorak za
prouavanje starosne strukture populacije.
11
Zadaci
Zadatak 2.2.
(glukoza.sta)
Baza podataka glukoza.sta sastoji se od sljedeih varijabli:
dob - neprekidna numerika varijabla koja sadri podatke o godinama starosti 102 promatrane
osobe.
koncentracija - neprekidna numerika varijabla koja sadri podatke o koncentraciji glukoze u krvi
za svaku od 102 promatrane osobe.
kategorija - kvalitativna varijabla koja podatke iz varijable koncentracija glukoze svrstava u dvije
kategorije (svaka je kategorija jedan interval pozitivnih realnih brojeva) na nain prikazan
u tablici 2.5.
interval koncentracije glukoze
kategorija
N - normalna koncentracija
P - poviena koncenracija
Zadatak 2.3.
(kolegij.sta)
Baza podataka sastoji se od sljedeih varijabli:
godina upisa - kvalitativna varijabla koja sadri podatke o akademskoj godini upisa na studij za
sto promatranih studenata
kategorija - kvalitativna varijabla koja podatke iz varijable godina upisa svrstava u tri kategorije
(svaka je kategorija jedan konaan skup) na nain prikazan u tablici 2.6.
godina upisa
student upisan prije 1990. godine
student upisan 1990., 1991. ili 1992. godine
student upisan 1993. ili 1994. godine
kategorija
1
2
3
12
uspjeh
prosjek
uspjeh
prosjek
uspjeh
prosjek
uspjeh
dovoljan
dobar
vrlo dobar
[4.5, 5]
izvrstan
Predloite drugaije kategorizacije varijabli godina upisa i uspjeh i obrazloite svoj prijedlog kategorizacije.
Zadatak 2.4. Na slian nain proanalizirajte i odredite tipove varijabli u sljedeim bazama podataka:
a) baza podataka komarci.sta sadri dio rezultata prouavanja komaraca u jednom movarnom
podruju (dostupni su podaci za 210 mjerenja na istoj lokaciji):
varijable brojM i brojZ redom sadre broj mukih i enskih jedinki komaraca
varijabla mjesec sadri mjeseevu mijenu (M - mlaak, U - utap) za svako mjerenje
varijabla doba dana sadri doba dana u kojem je mjerenje obavljeno (P - predveerje, N no, S - svitanje)
varijabla svjetlost sadri tip osvjetljenja pri mjerenju
varijabla temperatura sadri temperaturu pri kojoj je mjerenje izvreno
varijabla rel vlaznost sadri relativnu vlanost zraka za vrijeme mjerenja
b) u bazi podataka navike.sta nalaze se rezultati praenja nekih ivotnih navika u jednom danu
za svakog od 300 ispitanika iz uzorka:
varijabla dnevne novine sadri broj prelistanih razliitih dnevnih novina
varijabla tv vijesti sadri broj pogledanih televizijskih vijesti na dostupnim televizijskim
kanalima
varijabla kava sadri broj ispijenih kava
varijabla troskovi sadrzi informaciju o trokovima hrane za promatrani dan
varijabla vrijeme sadri ispitanikov subjektivan doivljaj vremenskih prilika u njegovu
mjestu stanovanja (O - oblano, S - sunano)
varijabla raspolozenje sadri ispitanikovu subjektivnu ocjenu vlastitog raspoloenja (L loe, D - dobro, O - odlino)
c) u bazi podataka posao.sta nalaze se podaci o udaljenosti mjesta stanovanja od radnog mjesta
(varijabla udaljenost) i mjesenim trokovima putovanja do radnog mjesta (varijabla troskovi) za 100 sluajno odabranih zaposlenih ljudi
d) baza podataka TV-program.sta sastoji se od sljedeih varijabli:
varijabla spol sadri informaciju o spolu ispitanika
varijable P1, P2, P3 i P4 sadre subjektivne ocjene kvalitete ljetne programske sheme
televizijskih programa P1, P2, P3 i P4
Zadaci
13
varijabla prosjek sadri prosjenu ocjenu kvalitete ljetne programske sheme navedenih televizijskih programa
e) u bazi podataka zdravlje.sta nalaze se neki zdravstveni podaci anketiranih ispitanika:
varijable godine i spol sadre podatke o starosti u godinama i spolu ispitanika
vrijednosti varijable zdravlje su subjektivne ocjene vlastitog zdravstvenog stanja ispitanika
varijabla broj pregleda sadri informacije o ukupnom broju zdravstvenih pregleda svakog
ispitanika u tekuoj kalendarskoj godini
varijabla dodatno zdravstveno sadri podatke o dodatnom zdravstvenom osiguranju svakog
ispitanika (1 - ispitanik je dodatno osiguran; 0 - ispitanik nije dodatno osiguran)
varijabla cijena sadri cijenu u kunama najskupljeg zdravstvenog pregleda svakog ispitanika
(u tekuoj kalendarskoj godini)
f ) baza podataka djelatnici.sta sadri podatke o uzorcima djelatnika dviju konkurentskih tvornica - tvornice A i tvornice B. U tablici s imenom "tvornica A" zabiljeene su vrijednosti
sljedeih varijabli za djelatnike tvornice A:
varijabla spol sadri informaciju o spolu (M - muki spol, Z - enski spol)
varijabla odjel sadri naziv odjela u kojem je djelatnik zaposlen (TR - transport, P- pakiranje, IS - isporuka)
varijabla obrazovanje sadri strunu spremu djelatnika (SSS - srednja struna sprema,
VSS - via struna sprema, VSS - visoka struna sprema)
varijabla dob sadri starost djelatnika u godinama
varijabla visina sadri visinu djelatnika u centimetrima
varijabla rukovostvo sadri broj godina rada koje je djelatnik proveo na nekoj od rukovodeih pozicija u toj tvornici
varijabla placa prije sadri iznos godinje plae djelatnika prije reorganizacije poslovnog
sustava
varijabla placa poslije sadri iznos godinje plae djelatnika nakon reorganizacije poslovnog
sustava.
U tablici s imenom "tvornica B", u varijabli placa konkurencija, zabiljeeni su iznosi godinje plae za svakog djelatnika iz uzorka iz tvornice B.
14
Poglavlje 3
Deskriptivna statistika
3.1
Kvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije. Pri prouavanju takvih varijabli panju usmjeravamo na zastupljenost pojedine kategorije
u uzorku na kojem provodimo istraivanje. Primjer 3.1 uvodi nas u problematiku
opisivanja kvalitativnih varijabli.
Primjer 3.1. Svaki ovjek prema spolu pripada jednoj od dviju kategorija (enskom spolu () ili
mukom spolu (M)), a prema tipu svoje krvne grupe jednoj od etiriju kategorija (A, B, AB ili
0). Tablica 3.1 sadri podatke o spolu i tipu krvne grupe za deset ispitanika iz nekog medicinskog
istraivanja.
ispitanik
spol
krvna grupa
1
2
3
4
5
6
7
8
9
10
M
M
A
B
0
0
AB
B
B
A
AB
A
15
16
Deskriptivna statistika
0. Prema tome, varijable spol i krvna grupa jesu kvalitativne varijable. Informacije koje je mogue
dobiti iz prethodne tablice vezane su uz zastupljenost pojedine kategorije u promatranom uzorku.
Tako je npr. mogue dobiti odgovore na sljedea i slina pitanja:
Koliko ispitanika enskog spola ima u promatranom uzorku?
Koliki je udio ispitanika s krvnom grupom 0 u promatranom uzorku?
Koliko ispitanika enskog spola iz promatranog uzorka ima krvnu grupu A?
Koliki udio ispitanika mukog spola iz promatranog uzorka ima krvnu grupu B ili AB?
Frekvencija pojedine kategorije ovisi o broju izvrenih mjeranja, tj. veliini uzorka.
Da bismo lake usporedili i tumaili rezultate raznih istraivanja, u opisu zastupljenosti jedne kategorije u uzorku esto koristimo i relativnu frekvenciju kategorije.
Relativna frekvencija kategorije xi je broj izmjerenih vrijednosti varijable koje pripadaju kategoriji xi podijeljen ukupnim brojem izmjerenih
vrijednosti za ispitivanu varijablu, i = 1, . . . , k. Ako je n veliina uzorka,
tj. broj svih izmjerenih vrijednosti ispitivane varijable, relativnu frekvenciju kategorije xi raunamo kao
fi
.
n
Relativna frekvencija kategorije je mjera zastupljenosti koja daje informaciju o
udjelu kategorije u uzorku poznate veliine i esto se izraava kao postotak. Frekvencije i relativne frekvencije pojedinih kategorija prikazujemo tablino
i grafiki.
3.1.1
17
Primjer 3.2. Frekvencije i relativne frekvencije svih kategorija varijabli spol i krvna grupa iz
primjera 3.1 prikazane su u tablicama 3.2 i 3.3.
spol
frekvencija
relativna frekvencija
6
4
Tablica 3.2: Tablica frekvencija i relativnih frekvencija svih kategorija varijable spol.
krvna grupa
frekvencija
relativna frekvencija
A
B
AB
0
3
3
2
2
Tablica 3.3: Tablica frekvencija i relativnih frekvencija svih kategorija varijable krvna grupa.
krvna grupa
A
B
AB
0
spol =
frekvencija relativna frekvencija
2
2
1
1
2/6
2/6
1/6
1/6
krvna grupa
A
B
AB
0
spol = M
frekvencija relativna frekvencija
1
1
1
1
18
Deskriptivna statistika
Na temelju prethodnih dviju tablica i tablica iz primjera 3.2 moemo redom odgovoriti na pitanja
postavljena u primjeru 3.1:
U uzorku ima est ispitanika enskog spola (tj. frekvencija ena u uzorku je est).
U uzorku ima 20% ispitanika s krvnom grupom 0 (tj. relativna frekvenicja krvne grupe nula u
uzorku je 20%).
U uzorku ima dvije ene s krvnom grupom A (tj. frekvencija ena s krvnom grupom A u uzorku
je dva).
Od svih ispitanika mukog spola njih 50% ima krvnu grupu B ili AB.
Primjer 3.4.
(krvne-grupe.sta)
U ovom primjeru nauit emo kako bazu podataka te tablice frekvencija i relativnih frekvencija
napraviti u programskom paketu Statistica. Rezultat postupka u tom programskom paketu prikazan
je za varijable krvna grupa i spol iz primjera 3.1, tj. iz baze podataka krvne-grupe.sta. Tabline prikaze frekvencija i relativnih frekvencija u programskom paketu Statistica moemo dobiti provodei
sljedei postupak (koji provodimo slijedei navedeni niz opcija u izborniku):
Statistics Basic Statistics/Tables Freq. Tables Variables Summary.
Rezultat provedbe prethodnog postupka jesu tablice prikazane na slici 3.1.
Category
0
A
B
AB
Missing
Category
M
Missing
(b) spol
Slika 3.1: Frekvencije i relativne frekvencija svih kategorija varijabli krvna grupa i spol.
Promatranje vrijednosti varijable spol kategorizirane prema krvnoj grupi ispitanika omoguuju
kategorizirane tablice frekvencija i relativnih frekvencija. Za izradu takvih tablica podatke iz varijabli od interesa moramo profiltrirati, tj. moramo zadati uvjet prema kojemu e u daljnju analizu
biti ukljuena samo uvjetom odreena kategorija podataka. Kategorizirane tablice frekvencija i
relativnih frekvencija u programskom paketu Statistica moemo dobiti provodei sljedei postupak:
Selection oznaiti Enable Selection Conditions pod Include Cases odabrati opciju "Specific,
selected by expression" (u polje za unos teksta upisati krvna grupa="A" ako elimo u obzir uzeti
samo ispitanike s krvnom grupom A; analogno se postavlja uvjet krvna grupa="B" za krvnu grupu B,
krvna grupa="AB" za krvnu grupu AB, krvna grupa="0" za krvnu grupu 0) OK.
Rezultat provedbe prethodnog postupka jesu tablice prikazane na slici 3.2.
19
2
2
66,67
66,67
M
1
3
33,33
100,00
Missing
0
3
0,00
100,00
1
1
50,00
50,00
M
1
2
50,00
100,00
Missing
0
2
0,00
100,00
2
2
66,67
66,67
M
1
3
33,33
100,00
Missing
0
3
0,00
100,00
1
1
50,00
50,00
M
1
2
50,00
100,00
Missing
0
2
0,00
100,00
Slika 3.2: Frekvencije i relativne frekvencije kategorija varijable spol za krvne grupe A, B, AB i
0.
3.1.2
Frekvencije i relativne frekvencije kategorija kvalitativnih varijabli grafiki prikazujemo koritenjem stupastog dijagrama (eng. Bar Chart ili Bar Plot) frekvencija
i stupastog dijagrama relativnih frekvencija. U istu svrhu moe se koristiti i kruni
dijagram (eng. Pie Chart) frekvencija i relativnih frekvencija . Popularni naziv za
isti grafiki prikaz je "pita").
Primjer 3.5.
(hormon.sta)
Grafike prikaze frekvencija i relativnih frekvencija kvalitativnih varijabli prikazat emo na primjeru varijable dijagnoza iz baze podataka hormon.sta (koja je opisana u zadatku 3.1). Stupasti
dijagram frekvencija u programskom paketu Statistica moemo dobiti provodei sljedei postupak:
Statistics Basic Statistics/Tables Frequency Tables Choose variables Histograms.
Stupasti dijagram koji prikazuje i frekvencije i relativne frekvencije u programskom paketu Statistica moemo dobiti provodei sljedei postupak:
Graphs Histograms Choose variables Advanced Pod "Y axis" ukljuiti "% and N" OK.
Stupasti dijagrami frekvencija i relativnih frekvencija svih kategorija varijable dijagnoza prikazani
su na slici 3.3. Drugi nain grafikog prikazivanja mjera zastupljenosti pojedinih kategorija neke
kvalitativne varijable u uzorku jesu kruni dijagrami frekvencija i relativnih frekvencija koje u
You created
this PDF from
an application
that is not
licensed to
print toYou
novaPDF
createdprinter
thissljedei
PDF
(http://www.novapdf.com)
frompostupak:
an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
programskom
paketu
Statistica
moemo
dobiti
provodei
Graphs 2D Graphs Graph type (opcija "Pie Chart - Counts") Choose variables Advanced
Pie Legend - odabrati opciju "Text and Value" za kruni dijagram frekvencija, a opciju "Text and
Percent" za kruni dijagram relativnih frekvencija OK.
Kruni dijagrami frekvencija i relativnih frekvencija kategorija varijable dijagnoza prikazani su na
slici 3.4.
You created this PDF from an application that is not licensed to print toYou
novaPDF
createdprinter
this PDF
(http://www.novapdf.com)
from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Deskriptivna statistika
35
43%
30
37%
relativnefrekvencije
frekvencije
20
25
20
15
10
5
0
Eb
Ub Uz
dijagnoza
Ez
(a) frekvencije
30%
24%
18%
12%
6%
0%
Eb
Ub Uz
dijagnoza
Ez
Slika 3.3: Stupasti dijagrami frekvencija i relativnih frekvencija svih kategorija varijable dijagnoza.
Ez;14
G;21
Uz;13
Eb;4
Ez;17%
G;26%
Uz;16%
Eb;5%
Ub;30
Ub;37%
dijagnoza
dijagnoza
(a) frekvencije
Slika 3.4: Kruni dijagrami frekvencija i relativnih frekvencija svih kategorija varijable dijagnoza.
Primjer 3.6.
(djelatnici.sta)
esto se u praksi pokazuje korisnim poznavanje zastupljenosti kategorija jedne varijable za svaku
od kategorija neke druge kvalitativne varijable prouavane na istom uzorku. U ovom emo primjeru tablino i grafiki prikazati frekvencije i relativne frekvencije svih kategorija varijable obrazovanje iz baze podataka djelatnici.sta opisane u primjeru 2.4 posebno za ispitanike enskog spola,
a posebno za ispitanike mukog spola. Tablice tako kategoriziranih frekvencija i relativnih frekvencija varijable obrazovanje prikazane su u tablici 3.5.
21
(a) spol = Z
(b) spol = M
Slika 3.5: Tablica frekvencija i relativnih frekvencija svih kategorija varijable obrazovanje posebno
za svaku kategoriju varijable spol.
54%
49%
44%
39%
34%
29%
24%
20%
15%
10%
5%
0%
59%
51%
relativne frekvencije
relativne frekvencije
42%
34%
25%
17%
8%
SSS
VSS
VSS
0%
(a) spol=Z
SSS
VSS
VSS
(b) spol=M
Slika 3.6: Stupasti dijagrami relativnih frekvencija svih kategorija varijable obrazovanje posebno
za svaku kategoriju varijable spol.
VSS; 4; 7%
VSS; 2; 5%
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
(a) spol=Z
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
(b) spol=M
Slika 3.7: Kruni dijagram frekvencija i relativnih frekvencija svih kategorija varijable obrazovanje
posebno za svaku kategoriju varijable spol.
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
22
3.2
Deskriptivna statistika
Baza podataka cijena.sta sadri informacije o prodajnim mjestima (varijabla trgovina) i cijenama
nekog proizvoda na tim prodajnim mjestima (varijabla cijena). Evidentirane vrijednosti obje
varijable jesu brojevi, ali varijabla trgovina je, po svojoj prirodi, kvalitativna, a varijabla
cijena neprekidna. Uoite da su svi prikupljeni podaci za varijablu cijena meusobno razliiti.
U bazi podataka komarci.sta (opisanoj u zadatku 3.1) varijable brojM i brojZ su diskretne numerike varijable, a varijable temperatura i rel-vlaznost neprekidne numerike varijable. Uoite
da se u podacima za sve te varijable pojavljuje mnogo meusobno razliitih vrijednosti.
Ako su numerike varijable diskretne s malo moguih vrijednosti ili ako su varijable ordinalne, za opis podataka moemo koristiti iste metode kao pri opisivanju
kvalitativnih podataka, tj. frekvencije i relativne frekvencije te ih grafiki prikazivati
stupastim dijagramima i krunim dijagramima.
Primjer 3.8.
(matematika.sta)
Tablini i grafiki prikazi (stupasti dijagram i kruni dijagram) frekvencija i relativnih frekvencija
svih vrijednosti ordinalne varijable tezina-kolegija prikazani su na slikama 3.8 i 3.9.
23
frekvencijeirelativnefrek.
20
41%
16
33%
12
24%
16%
8%
0%
2
3
4
tezinakolegija
1;1;2%
3;9;18%
5;21;43%
4;18;37%
tezinakolegija
Radi dobivanja korisnijih stupastih i krunih dijagrama za podatke iz neprekidnih numerikih varijabli vrijednosti je potrebno kategorizirati, tj. razvrstati ih
u odabrane kategorije. Pri tome podatke kategoriziramo u disjunktne intervale po
kriteriju za koji smatramo da e nam dati eljene rezultate. Za potrebe opisivanja
skupa podataka obino biramo disjunktne intervale tako da dobivenim tablinim i
grafikim prikazima moemo ilustrirati karakteristike skupa podataka koje elimo
naglasiti.
24
4
8%
6%
4%
2%
0%
4,76
3,35
4,48
3,56
3,16
2,45
4,58
3,36
3,23
4,36
4,87
3,00
4,40
3,57
4,63
4,03
3,43
2,88
4,43
4,13
2,93
frekvencijeirelativnefrek.
Deskriptivna statistika
prosjek
3.2.1
25
8%
4%
0%
5,000
4,432
12%
3,864
3,296
16%
2,728
18
16
14
12
10
8
6
4
2
0
2,160
20%
frekvencijeirel.frek.
10
2,160
2,444
2,728
3,012
3,296
3,580
3,864
4,148
4,432
4,716
5,000
frekvencijeirel.frek.
prosjek
prosjek
frekvencijeirelativnefrek.
Kriterij kategorizacije treba biti prilagoen zahtjevima istraivanja, tj. treba omoguiti dobivanje
odgovora na postavljena pitanja. Npr. ako nas zanima zastupljenost studenata s prosjekom veim
od 3.5 u promatranom uzorku, tada podatke iz varijable prosjek moemo kategorizirati u est
disjunktnih intervala duljine 0.5, poevi od 2.0. Iz grafikih prikaza sa slike 3.12 oitavamo da je
frekvencija takvih studenata 33, a relativna frekvencija 33/49 67.35%.
16
14
12
10
8
6
4
2
0
33%
29%
24%
20%
16%
12%
8%
4%
0%
(4,5;5];15;31%
(2;2,5];2;4%
(2,5;3];5;10%
(3;3,5];9;18%
(4;4,5];13;27%
(3,5;4];5;10%
prosjek
Slika 3.12: Stupasti i kruni dijagram za podatke varijable prosjek razvrstane u 6 disjunktnih
intervala poevi od ocjene 2.0.
3.2.2
Karakteristika numerikih i ordinalnih varijabli jest da meu njihovim vrijednostima postoji prirodan ureaj. Na osnovi te injenice moemo definirati numerike
karakteristike podataka iz tih varijabli koje imaju loginu interpretaciju i mogu se
iskoristiti za prikazivanje skupa podataka. U ovom poglavlju navodimo osnovne
numerike karakteristike skupa podataka te primjerima ilustriramo njihovu inter-
26
Deskriptivna statistika
Medijan
Da bismo razumjeli i odredili medijan potrebno je prvo poredati izmjerene vrijednosti x1 , x2 , . . . , xn varijable X po veliini (u rastuem poretku, tj. od manjeg
prema veem). Medijan je takoer jedna mjera centralne tendencije kao i aritmetika sredina, a karakterizira ga injenica da je barem pola podataka manje ili
jednako medijanu, a istovremeno je barem pola podataka vee ili jednako od medijana. Nain njegova izrauna ovisi o tome imamo li neparan ili paran broj
podataka. Ako imamo neparan broj podataka, onda postoji vrijednost koja je na
srednjoj poziciji u ureenom skupu podataka pa nju definiramo kao medijan.
Primjer 3.12. Neka su izmjerene vrijednosti jedne varijable sljedee:
1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3.
Prvo ove vrijednosti poredamo po veliini:
1, 1, 2, 2, 2, 2, 3, 5, 5, 6, 7.
S obzirom da ih ima ukupno jedanaest, medijan je vrijednost koja je na estoj poziciji u tako
dobivenom nizu, tj. broj 2.
Ako imamo paran broj podataka, onda ne postoji podatak koji je na srednjoj
poziciji jer srednju poziciju "zauzimaju" dva podatka. Zapravo, zahtjev na temelju
kojega elimo odrediti medijan ispunjavaju svi brojevi iz intervala ije su granice
dva srednja podatka. Da bismo jedinstveno odredili medijan podataka, u tom ga
sluaju definiramo kao broj na polovini tog intervala, tj. kao aritmetiku sredinu
tih dvaju podataka.
27
28
Deskriptivna statistika
elimo li odrediti donji kvartil, potrebno je prvo odrediti etvrtinu podataka (25%). S obzirom da
imamo 12 podataka, etvrtinu (25%) ine tri podatka. Trei podatak u gornjem skupu je broj 2,
a etvrti 3. Donji kvartil je 2.5. Deveti broj u gornjem skupu podataka je broj 5, a deseti 6 pa je
gornji kvartil 5.5.
U mnogim primjerima zanimljivo je promatrati maksimalno odstupanje izmjerenih vrijednosti varijable od "prosjeka", tj. aritmetike sredine, izmjerenih vrijednosti. Ta je numerika karakteristika definirana kao vei od brojeva
(
xn xmin ) i (xmax x
n ), tj. broj
max {(
xn xmin ), (xmax x
n )}.
s2n =
1X
(xi x
)2 ,
n i=1
29
9
1X
(xi 5.42)2 7.87,
9 i=1
a standardna devijacija
v
u
9
u1 X
sn t
(xi 5.42)2 2.81.
9 i=1
Mod
Mod je vrijednost iz niza izmjerenih vrijednosti varijable X kojoj pripada najvea
frekvencija, tj. izmjerena je najvie puta. Mod ne mora biti jedinstven.
Primjer 3.18. Neka su izmjerene vrijednosti jedne varijable sljedee:
1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.
Vidimo da je vrijednost 2 izmjerena najvie puta (etiri puta) pa je 2 mod ovog skupa podataka.
30
Deskriptivna statistika
Primjer 3.20.
(trgovacki-centri.sta)
Paljivim prouavanjem kretanja cijena prehrambenih proizvoda analitiar trita uoio je da isti
proizvodi nemaju jednaku cijenu u razliitim trgovakim centrima. Promatrajui deset trgovakih
centara, zabiljeio je cijene proizvoda kod kojega su razlike bile najizraenije (tablica 3.6).
trg. centar
cijena
1
45.52
2
44.64
3
39.99
4
48.95
5
51.59
6
46.89
7
52.02
8
56.89
9
50.21
10
49.99
Numerike karakteristike ovog skupa izmjerenih vrijednosti u programskom paketu Statistica moemo izraunati koristei bazu podataka trgovacki-centri.sta i provodei sljedei postupak:
Statistics Basic Statistics/Tables Descriptive Statistics Variables Advanced oznaiti
mean (aritmetika sredina), mod, range (raspon), variance, standard deviation, median, minimum &
maximum i lower & upper quartiles (donji i gornji kvartil) Summary.
Rezultat ovog postupka (mjere deskriptivne statistike promatranog skupa izmjerenih vrijednosti)
jesu tablice prikazane na slici 3.13.
Variable
cijena-proizvoda
Variable
cijena-proizvoda
31
Median=49,47
25%75%
=(45,52,51,59)
MinMax
=(39,99,56,89)
3.2.3
Podatak koji je znaajno vei ili manji u odnosu na druge izmjerene vrijednosti
jedne varijable nazivamo strea vrijednost (eng. outlier). Pojavljivanje streih
vrijednosti najee je vezano uz jedan od sljedeih razloga:
- podatak je ili netono izmjerena ili krivo unesen u bazu podataka
- podatak dolazi iz druge populacije (ne iz populacije koju promatramo u kontekstu problema koji prouavamo) - npr. ako u varijablu ije su izmjerene
vrijednosti godinje plae 1000 poreznih obveznika u Hrvatskoj upiemo godinju plau Microsoftovog managera iz SAD-a, taj e podatak biti strea
vrijednost
- podatak je tono izmjeren i unesen u bazu, ali predstavlja rijetku pojavu u
populaciji - npr. ako se u varijabli ije su izmjerene vrijednosti koncentracije
glukoze u krvi za 1000 osoba nae tono izmjerena vrijednost 46.7, taj emo
podatak smatrati streom vrijednou jer se radi o vrlo visokoj koncentraciji
glukoze koja se rijetko pojavljuje.
Vrlo korisna grafika metoda za detekciju streih vrijednosti jest kutijasti dijagram
na bazi medijana. U programskom paketu Statistica kutijasti dijagrami osjetljivi
na stree vrijednosti izrauju se na sljedei nain:
Graphs 2D Graphs BoxPlots Variables Advanced pod Whisker odabrati
"Non-outlier range" pod Outliers odabrati "Outl. & Extremes" OK.
32
Deskriptivna statistika
Primjer 3.21.
(zdravlje.sta)
Baza podataka zdravlje.sta sadri neke zdravstvene podatke za 51 ispitanika. Kratkom analizom
mjera deskriptivne statistike moemo uoiti da je maksimum skupa izmjerenih vrijednosti 235, to
u ovom primjeru znai da na najstariji ispitanik ima 235 godina (slika 3.15).
51.00
46.61
40.00
Median=40
25%75%
=(35,54)
NonOutlierRange
=(25,66)
Outliers
Extremes
70
65
60
55
50
45
40
35
30
25
20
Median=40
25%75%
=(35,54)
NonOutlierRange
=(25,66)
50.00
42.84
39.50
Slika 3.17: Deskriptivna statistika izmjerenih vrijednosti varijable godine nakon uklanjanja stree vrijednosti.
33
Zadaci
3.3
Zadaci
Zadatak 3.1.
(hormon.sta, nalaz.sta)
Baza podataka hormon.sta sadri neke informacije i rezultate nekih medicinskih testova za svakog
od 82 ispitanika:
varijabla spol sadri informaciju o spolu ispitanika (m - ispitanik je mukog spola, z - ispitanik
je enskog spola)
varijable gastrS, somatS i somatZ sadre izmjerene koncentracije odreenih enzima utvrene prilikom medicinske analize ispitanika
varijable pusenje, alkohol i kava sadre informaciju o tome konzumira li ispitanik cigarete, alkohol
i kavu (0 - ne konzumira, 1 - konzumira)
varijabla CLOtest sadri rezultate testa na zarazu bakterijom helicobacter pilory (0 - test je
negativan, 1 - test je pozitivan)
varijabla dijagnoza sadri oznake dijagnoze ispitanika.
Baza podataka nalaz.sta sadri neke informacije i rezultate testova o koncentraciji nekih tvari u
krvi za svakog od 102 ispitanika:
varijabla skupina sadri informaciju o pripadnosti ispitanika jednoj od devet dobnih skupina (g1
- g9)
varijable k1 - k8 sadre izmjerene koncentracije promatranih tvari u krvi
varijabla stupanj sadri stupnjevanje rezultata provedenih testova s obzirom na dobnu skupinu
kojoj ispitanik pripada (u skali od 1 do 10).
Prouite varijable u prethodno opisanim bazama podataka te pomou programskog paketa Statistica odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rezultate prikaite tablino.
Rjeenje. Tablice frekvencija i relativnih frekvencija za kvalitativne varijable s najveim brojem
kategorija - varijable dijagnoza iz baze podataka hormon.sta i varijable stupanj iz baze podataka
nalaz.sta prikazane su na slici 3.18.
Slika 3.18: Frekvencije i relativne frekvencije svih kategorija varijabli dijagnoza i stupanj.
34
Deskriptivna statistika
Zadatak 3.2.
(djelatnici.sta)
Baza podataka djelatnici.sta opisana je u primjeru 2.4. Za kvalitativnu varijablu obrazovanje, ije
su vrijednosti svrstane u tri kategorije: SSS - srednja struna sprema, VSS - via struna sprema,
VSS - visoka struna sprema, odredite zastupljenost tih kategorija u promatranom uzorku od 100
djelatnika.
Rjeenje. Zastupljenost kategorija opisana je tablicom frekvencija i relativnih frekvencija 3.19 te
stupastim dijagramom i krunim dijagramom frekvencija i relativnih frekvencija koji su prikazani
na slici 3.20.
Frequency table: obrazovanje (djelatnici.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
SSS
51
51
51.00
51.00
VSS
43
94
43.00
94.00
VSS
6
100
6.00
100.00
Missing
0
100
0.00
100.00
frekvencijeirelativnefrek.
60
60%
50
50%
40
40%
30
30%
20
20%
10
10%
SSS
VSS
VSS
obrazovanje
VSS;6;6%
SSS;51;51%
VSS;43;43%
0%
obrazovanje
Zadatak 3.3.
(nalaz.sta)
U bazi podataka nalaz.sta (opisanoj u zadatku 3.1) odredite frekvencije i relativne frekvencije svih
kategorija za varijable koje smatrate kvalitativnima.
a) Rezultate prikaite grafiki koristei programski paket Statistica.
b) Za koliko je ispitanika vrijednost varijable stupanj manja od tri, za koliko je vrijednost barem
etiri, ali manja od sedam, a za koliko je vrijednost barem osam?
c) Za frekvencije iz zadatka b) odredite pripadne relativne frekvencije.
35
Zadaci
Rjeenje.
frekvencijeirelativnefrek.
14%
12
12%
10
10%
8%
6%
4%
2%
0%
1 2 3 4 5 6 7 8 9 10
stupanj
10;9;9% 1;12;12%
9;8;8%
2;11;11%
8;8;8%
3;12;12%
7;12;12%
6;10;10%
4;9;9%
5;11;11%
stupanj
Slika 3.21: Grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable stupanj.
b) Frekvencija ispitanika za koje je vrijednost varijable stupanj manja od tri je 23, frekvencija ispitanika za koje je vrijednost barem etiri, ali manja od sedam je 30, a frekvencija
ispitanika za koje je vrijednost barem osam je 25.
c) Pripadne relativne frekvencije su redom 23/102 22.55%, 30/102 29.41% i 25/102
24.51%.
Zadatak 3.4.
(djeca.sta)
U bazi podataka djeca.sta nalazi se dio podataka o nekim ocjenama novoroeneta, nainu poroda
i majci iz istraivanja koje je provedeno u jednoj bolnici:
varijabla spol sadri spol novoroeneta
varijabla nacin-poroda informaciju o nainu poroda
varijable RM, apgar1 i apgar5 izmjerene vrijednosti nekih obiljeja novoroeneta
varijabla majka-dob godine starosti majke
varijabla majka-bolest informaciju o bolesti majke tijekom trudnoe (N - nije bila bolesna, D bila je bolesna)
varijabla komplikacije stupanj komplikacija za vrijeme trudnoe (u skali od 0, to oznaava da
komplikacija nije bilo, do 7)
varijabla konvulzije informaciju o konvulzijama kod novoroeneta (N - konvulzija nije bilo, D konvulzije su bile prisutne)
varijabla uzv jednu ocjenu ultrazvunog pregleda mozga novoroeneta (u skali od 1 do 4).
Odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima.
a) Rezultate prikaite tablino i grafiki koristei programski paket Statistica.
b) Broji li ovaj uzorak vie djevojica ili djeaka? Koliki je udio majki starijih od 35 godina?
36
Deskriptivna statistika
Rjeenje.
a) Tablini i grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable spol
prikazani su na slikama 3.22 i 3.23.
Frequency table: spol (djeca.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
M
178
178
52,66
52,66
160
338
47,34
100,00
Missing
0
338
0,00
100,00
frekvencijeirelativnefrek.
Slika 3.22: Tablica frekvencija i relativnih frekvencija svih kategorija varijable spol.
200
180
160
140
120
100
80
60
40
20
0
spol
59%
53%
47%
41%
36%
30%
24%
18%
12%
6%
0%
;160;47%
M;178;53%
spol
Slika 3.23: Grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable spol.
b) Uzorkom je obuhvaeno 338 novoroenadi - 160 djevojica i 178 djeaka. Dakle, u uzorku
ima vie djeaka. Majki starijih od 35 godina ima 29/338 8.58%.
Zadatak 3.5.
(navike.sta)
U bazi podataka navike.sta (opisanoj u zadatku 2.4) odredite frekvencije i relativne frekvencije
svih kategorija za varijable koje smatrate kvalitativnima.
a) Rezultate prikaite tablino i grafiki koristei programski paket Statistica.
b) Koliko je ispitanika dobro raspoloeno? Je li vie ispitanika raspoloeno dobro ili osrednje
ili ih je najvie loeg raspoloenja?
Rjeenje.
a) Tablini i grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable raspolozenje prikazani su na slikama 3.24 i 3.25.
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
37
Zadaci
Frequency table: raspolozenje (navike.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
D
84
84
28,00
28,00
O
84
168
28,00
56,00
L
132
300
44,00
100,00
Missing
0
300
0,00
100,00
frekvencijeirelativnefrek.
Slika 3.24: Tablica frekvencija i relativnih frekvencija svih kategorija varijable raspolozenje.
140
47%
120
40%
100
33%
80
27%
60
20%
40
13%
20
7%
O
L
raspolozenje
0%
D;84;28%
L;132;44%
O;84;28%
raspolozenje
Slika 3.25: Grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable raspolozenje.
b) Uzorkom je obuhvaeno 300 ispitanika. Dobro je raspoloeno njih 84, to ini 84/300 = 28%
od ukupnog broja ispitanika. Osrednje je raspoloeno takoer 84 (28%) ispitanika, a loe
njih 132 (44%). Dakle, vie je ispitanika koji su raspoloeni dobro ili osrednje - u te dvije
kategorije spada 168 (56 %) ispitanika.
Zadatak 3.6.
(zdravlje.sta)
esto ima smisla analizirati frekvencije i relativne frekvencije numerikih ili ordinalnih varijabli
za pojedine kategorije zadane kvalitativne varijable. Na primjer, korisno je analizirati odreene
zdravstvene karakteristike posebno za osobe enskog, a posebno za osobe mukog spola. Analizirajte ordinalnu varijablu zdravlje po kvalitativnoj varijabli spol iz baze podataka zdravlje.sta koja
je opisana u zadatku 2.4.
Rjeenje. Prvo emo tablino i grafiki prikazati frekvencije i relativne frekvencije za podatke
sadrane u varijablama zdravlje i spol (slike 3.26, 3.27 i 3.28).
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
38
Deskriptivna statistika
Frequency table: spol (zdravlje.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
Z: ena
11
11
21,57
21,57
M: mukarac
40
51
78,43
100,00
Missing
0
51
0,00
100,00
frekvencijeirelativnefrek.
Slika 3.26: Tablice frekvencija i relativnih frekvencija svih podataka varijabli spol i zdravlje.
45
40
35
30
25
20
15
10
5
0
88%
78%
69%
59%
49%
39%
29%
20%
10%
0%
Z;11;22%
M;40;78%
spol
spol
frekvencjeirelativnefrek.
Slika 3.27: Grafiki prikazi frekvencija i relativnih frekvencija svih podataka varijable spol.
20
18
16
14
12
10
8
6
4
2
0
3
4
zdravlje
39%
35%
31%
27%
24%
20%
16%
12%
8%
4%
0%
1;4;8%
5;9;18%
2;8;16%
4;12;24%
3;18;35%
zdravlje
Slika 3.28: Grafiki prikazi frekvencija i relativnih frekvencija svih podataka varijable zdravlje.
Tablini i grafiki prikazi podataka sadranih u varijabli zdravlje posebno za kategoriju ispitanika
enskog spola, a posebno za kategoriju ispitanika mukog spola prikazani su na slikama 3.29, 3.30
i 3.31. Krune dijagrame relativnih frekvencija sa slike 3.31 u programskom paketu Statistica
moemo dobiti provodei sljedei postupak:
Graphs Categorized Graphs Pie Charts Graph Type: Pie Chart - Counts Variables (Vars zdravlje, X-Category - spol) Advanced Pie Legend (Text and Value za krune dijagrame
39
Zadaci
frekvencija, Text and Percent za krune dijagrame relativnih frekvencija).
55%
45%
36%
27%
18%
9%
0%
3
4
zdravlje
frekvencijeirelativnefrek.
frekvencijeirelativnefrek.
Slika 3.29: Tablini prikaz podataka za varijablu zdravlje kategoriziranih prema spolu ispitanika.
14
35%
12
30%
10
25%
20%
15%
10%
5%
3
4
zdravlje
0%
Slika 3.30: Stupasti dijagrami podataka varijable zdravlje kategoriziranih prema spolu ispitanika.
5;1;2% 1;1;2%
4;2;4%
1;3;6%
5;8;16%
2;6;12%
2;2;4%
4;10;20%
3;13;25%
3;5;10%
ene (spol=Z)
spol: Z
mukarci (spol=M)
spol: M
40
Deskriptivna statistika
vencija podataka sadranih u varijabli zdravlje kategoriziranih prema spolu ispitanika prikazati
na jednoj slici, tj. grafu (slika 3.32). Objedinjene dijagramske prikaze frekvencija i relativnih
frekvencija neke varijable ije su vrijednosti kategorizirane po nekom kriteriju moemo dobiti u
programskom paketu Statistica provodei sljedei postupak:
14
12
10
8
6
4
2
0
1 2 3 4 5
1 2 3 4 5
spol: Z
spol: M
zdravlje
27%
24%
20%
16%
12%
8%
4%
0%
frekvencijeirelativnefrek.
frekvencijeirelativnefrek.
14
27%
12
24%
10
20%
16%
12%
8%
4%
4 5
zdravlje
0%
spol:Z
spol:M
Slika 3.32: Stupasti dijagrami podataka varijable zdravlje kategoriziranih prema spolu ispitanika.
Zadatak 3.7.
(TV-program.sta)
Za varijable iz baze podataka TV-program.sta napravite sljedee tabline i grafike prikaze:
a) napravite tablice i nacrtajte stupaste dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijablama spol i P1,
b) napravite tablice i nacrtajte stupaste dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijabli P1 posebno za kategoriju ispitanika enskog spola, a posebno za
kategoriju ispitanika mukog spola,
c) nacrtajte krune dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijablama spol i P3,
d) nacrtajte krune dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijabli P3 posebno za kategoriju ispitanika enskog spola, a posebno za kategoriju ispitanika
mukog spola.
Rjeenje.
a) Tablini i grafiki prikazi frekvencija i relativnih frekvencija svih kategorije varijable spol i
svih razliitih vrijednosti varijable P1 prikazani su na slikama 3.33 i 3.34.
41
frekvencijeirelativnefrek.
Zadaci
60
60%
50
50%
40
40%
30
30%
20
20%
10
10%
0%
z
spol
frekvencijeirelativnefrek.
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
P1
frekvencijeirelativnefrek.
24
52%
20
43%
16
35%
12
26%
17%
9%
P1
0%
42
frekvencijeirelativnefrek.
Deskriptivna statistika
20
37%
16
30%
12
22%
15%
7%
0%
P1
24
24%
20
20%
16
16%
12
12%
8%
4%
0%
2 3 4 5
2 3 4 5
spol: m
spol: z
frekvencijeirelativnefrek.
frekvencijeirelativnefrek.
24%
20
20%
16
16%
12
12%
8%
4%
P1
5
P1
0%
spol:m
spol:z
Slika 3.37: Stupasti dijagrami za podatke varijable P1 kategorizirane prema spolu ispitanika.
d) Kruni dijagrami frekvencija i relativnih frekvencija svih kategorija varijable spol i svih
razliitih vrijednosti varijable P3 prikazani su na slici 3.38.
5;15;15%
2;39;39%
4;11;11%
z;46;46%
m;54;54%
3;35;35%
spol
(a) varijabla spol
P3
(b) varijabla P3
43
Zadaci
5;6;13%
5;9;17%
4;6;13%
2;19;41%
2;20;37%
4;5;9%
3;15;33%
3;20;37%
P3
P3
(a) spol = z
(b) spol = m
Slika 3.39: Kruni dijagrami za podatke varijable P3 kategorizirane prema spolu ispitanika.
Zadatak 3.8.
(djelatnici.sta)
Promotrite varijablu placa prije iz baze podataka djelatnici.sta opisane u primjeru 2.4. Razvrstajte
vrijednosti u disjunktne intervale duljine 10000 poevi od nule te prikaite podatke tablino i
histogramom.
Rjeenje. Tablini prikaz frekvencija i relativnih frekvencija dan je tablicom 3.7, a pripadni histogram slikom 3.40. Ovakakv histogram jasno ilustrira injenicu da najvie djelatnika u uzorku
ima godinju plau od 20000 do 30000 novanih jedinica, dok je plaa iz intervala 40000 do 50000
rijetkost. Intervale za kategorizaciju u ovakvim i slinim sluajevima obino radimo tako da bismo
zadovoljili potrebe za prezentiranjem informacija koje elimo istaknuti.
iznos plae
[0, 10000i
[10000, 20000i
[20000, 30000i
[30000, 40000i
[40000, 50000i
frekvencija
relativna frekvencija
0
15
69
14
2
0
0.15
0.69
0.14
0.02
Tablica 3.7: Tablica frekvencija i relativnih frekvencija kategoriziranih podataka varijable placa
prije.
44
50000
40000
30000
20000
80
70
60
50
40
30
20
10
0
10000
frekvencijeirel.frek.
Deskriptivna statistika
80%
70%
60%
50%
40%
30%
20%
10%
0%
placaprije
Slika 3.40: Histogram frekvencija i relativnih frekvencija kategoriziranih podataka varijable placa
prije.
Zadatak 3.9.
(hormon.sta)
4%
3%
1%
0%
92,30
42,90
67,50
38,08
58,96
32,50
49,97
76,80
92,47
41,90
45,40
50,70
frekvencijeirel.frek.
a) Stupasti dijagram frekvencija i relativnih frekvencija te kruni dijagram izmjerenih vrijednosti varijable gastrS u kojima su kao kategorije uzete sve razliite izmjerene vrijednosti
prikazani su na slici 3.41.
gastrS
45
30
38%
20
26%
10
13%
0%
40
35
30
25
20
15
10
5
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
51%
frekvencijeirel.frek.
40
16,230
28,637
41,044
53,451
65,858
78,265
90,672
103,079
115,486
127,893
140,300
frekvencijeirel.frek.
Zadaci
gastrS
51%
45%
38%
32%
26%
19%
13%
6%
0%
gastrS
Variable
placa prije
Variable
placa prije
Median=23650
25%75%
=(20950,26250)
MinMax
=(16000,42400)
46
Deskriptivna statistika
Iz tablice 3.43 i kutijastog dijagrama 3.44 moemo izvesti sljedee i sline zakljuke:
- najnia godinja plaa u uzorku iznosi 16000, a najvia 42400
- bar 25% ispitanika iz uzorka ima plau manju ili jednaku 20950
- bar 25% ispitanika iz uzorka ima plau veu ili jednaku 26250
- bar 50% ispitanika iz uzorka ima plau manju ili jednaku medijanu, tj. 23650
- bar 50% ispitanika iz uzorka ima plau veu ili jednaku 23650.
Zadatak 3.11.
(nastava.sta)
Baza podataka nastava.sta sadri ocjene u skali od 0 (najnia ocjena) do 10 (najvia ocjena)
razliitih komponenti probnog nastavnog sata za 65 studenata (buduih nastavnika):
varijabla znanje sadri ocjene znanja studenta o temi nastavnog sata
varijabla literatura sadri ocjene primjerenosti koritene literature za pripremu nastavnog sata
varijabla predavac sadri ocjene predavaeva stava i nastupa pred razredom
varijabla atmosfera sadri ocjene radne atmosfere na nastavnom satu
varijabla govor sadri ocjene studentova izraavanja tijekom nastavnog sata
varijabla interes sadri ocjene pobuenosti interesa kod uenika za temu nastavnog sata
varijabla bitan sadrzaj sadri ocjene naglaenosti bitnih sadraja tijekom nastavnog sata
varijabla primjeri sadri ocjene odabira i primjerenosti primjera prezentiranih tijekom nastavnog
sata
varijabla ukupno sadri ocjene koje odraavaju ukupan ocjenjivaev dojam o odranom nastavnom
satu.
Ako elimo donijeti opi zakljuak o uspjenosti buduih nastavnika u stvarnoj nastavnoj situaciji,
logino je panju usmjeriti na analizu varijable ukupno. Odredite numerike karakteristike te
varijable i kutijasti dijagram na bazi medijana. Diskutirajte o rezultatima.
Rjeenje. Numerike karakteristike te varijable prikazane su u tablici 3.45.
Range
6.00
47
Zadaci
11
10
9
8
7
6
5
4
3
Median=8
25%75%
=(7,9)
MinMax
=(4,10)
Zadatak 3.12.
(matematika.sta)
Baza podataka matematika.sta (opisana u primjeru 2.9) sadri rezultate ankete o kvaliteti izvoenja nekog matematikog kolegija. Ukoliko nas zanima prilagoenost teine sadraja kolegija
predznanju studenata, analizirat emo varijablu tezina kolegija. Odredite numerike karakteristike
podataka te varijable i prikaite ih kutijastim dijagramom.
Rjeenje. Mjere deskriptivne statistike varijable tezina kolegija prikazane su u tablici na slici 3.47.
Variable
tezina kolegija
Variable
tezina kolegija
Range
4.00
48
Deskriptivna statistika
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Median=4
25%75%
=(4,5)
MinMax
=(1,5)
Zadatak 3.13.
(djelatnici.sta)
Varijabla dob iz baze podataka djelatnici.sta opisane u primjeru 2.4 za svakog ispitanika iz uzorka
djelatnika promatranog poduzea sadri informaciju o dobi u godinama. Odredite numerike karakteristike podataka iz te varijable, analizirajte postojanje streih vrijednosti, prikaite podatke
kutijastim dijagramom i diskutirajte o rezultatima.
Rjeenje. Iz deskriptivne statistike varijable dob (tablica 3.49) vidimo da je maksimalna podatak za
dob 333 godine pa je oigledno da postoji strei podatak koji je pogreno upisan u bazu podataka.
Range
315.00
49
Zadaci
350
300
250
200
150
Median=29
25%75%
=(26,36)
NonOutlierRange
=(18,49)
Outliers
Extremes
100
50
0
Slika 3.50: Kutijasti dijagram na bazi medijana s prikazom streih vrijednosti varijable dob.
Kao to vidimo iz kutijastog dijagrama 3.50, i dob od 54 godine prepoznata je kao strea vrijednost. Budui da je sasvim razumljivo da promatrano poduzee moe imati djelatnika starog
54 godine, taj podatak smatramo tonim, no radi se o dobi koja se rijetko pojavljuje u populaciji
djelatnika tog poduzea.
Zadatak 3.14.
(glukoza.sta)
Varijabla dob baze podataka glukoza.sta sadri godine starosti, a varijabla koncentracija izmjerene vrijednosti koncentracije glukoze u krvi za 102 ispitanika. Koritenjem programskog paketa
Statistica rijeite sljedee zadatke:
a) Napravite deskriptivnu statistiku podataka sadranih u varijabli koncentracija. Grafikom
metodom odredite streu vrijednost u ovom skupu podataka. Moete li se sloiti s tvrdnjom da je identificirani podatak mogua izmjerena vrijednost ili ipak sumnjate u dobiveni
rezultat? Obrazloite svoj odgovor.
b) Grafikom metodom identificirajte stree vrijednosti meu podacima u varijabli dob. to
se dogaa s numerikim karakteristikama podataka nakon uklanjanja stree vrijednosti?
Rjeenje.
a) Deskriptivna statistika i kutijasti dijagram s oznaenim streim vrijednostima skupa izmjerenih vrijednosti varijable koncentracija prikazani su na slikama 3.51 i 3.52.
Descriptive Statistics (glukoza.sta)
Valid N Mean
Median
Mode
Variable
koncentracija
102.00
7.70
6.65
50
Deskriptivna statistika
18
16
14
12
10
Median=6.65
25%75%
=(5.7,9.5)
NonOutlierRange
=(4.7,13.8)
Outliers
Extremes
8
6
4
Slika 3.52: Kutijasti dijagram na bazi medijana s prikazom streih vrijednosti varijable dob.
Statistica je kao streu vrijednost detektirala podatak 16.7. Kako se ta koncentracija glukoze u krvi moe zaista pojaviti pri mjerenjima, taj podatak neemo tretirati kao streu
vrijednost.
b) Kutijasti dijagram s oznaenim streim vrijednostima i deskriptivna statistika skupa izmjerenih vrijednosti varijable dob prikazani su na slikama 3.53 i 3.54.
800
700
600
500
400
300
200
100
0
100
Median=56
25%75%
=(40,73)
NonOutlierRange
=(12,101)
Outliers
Extremes
Slika 3.53: Kutijasti dijagram na bazi medijana s prikazom streih vrijednosti varijable dob.
51
Zadaci
Descriptive Statistics (glukoza.sta)
Valid N Mean Median Mode Frequency Minimum Maximum Lower
Upper
of Mode
Quartile Quartile
Variable
dob
102
66.73 56.00 Multiple
4.00
12.00
688.00
40.00
73.00
Variable
dob
Valid N
Mean
Median
100
56.18
55.50
Mode
Zadatak 3.15.
(komarci.sta)
Prouite bazu podataka komarci.sta koja je opisana u zadatku 2.4. Odredite tablicu i histogram
frekvencija i relativnih frekvencija varijable brojM tako da za kategorije uzmete sve meusobno
razliite izmjerene vrijednosti te varijable. Zatim podijelite skup izmjerenih vrijednosti na odreen
broj disjunktnih intervala i ponovno odredite frekvencije i relativne frekvencije pojedinih kategorija
(tj. intervala). Mijenjajte broj intervala, prouavajte to se dogaa i pribiljeite svoj zakljuak.
Zadatak 3.16. Koristei javne izvore podataka ili podatke koje ste prikupljali u sklopu nekog istraivanja formirajte jednu bazu podataka koja e sadravati najmanje dvije kvalitativne varijable,
najmanje jednu diskretnu numeriku varijablu i jednu neprekidnu numeriku varijablu. Opiite o
kakvom se istraivanju radi i zato se mjere vrijednosti navedenih varijabli. Vodite rauna da baza
sadri to vie jedinki. Navedite toan izvor podataka. Iskoristite prethodno opisane postupke i
pojmove te opiite svoju bazu podataka.
52
Deskriptivna statistika
Poglavlje 4
Sluajna varijabla
4.1
Uvod
koncentracija
glukoze (mmol/L)
1
2
3
..
.
5.635
12.560
19.817
..
.
Meutim, jasno je da su ove izmjerene vrijednosti samo neke od svih vrijednosti koje koncentracija
glukoze u krvi moe poprimiti. Medicinska istraivanja pokazuju da koncentracija glukoze u krvi
ovjeka moe biti bilo koji realan broj iz intervala (0, 131]. Dakle, izmjerena vrijednost varijable
koncentracija glukoze za svaku osobu iz ovog uzorka je jedna vrijednost iz skupa svih moguih
vrijednosti koje koncentracija glukoze u krvi ovjeka moe poprimiti.
53
54
Sluajna varijabla
Primjer 4.2. Na nekoj mjernoj postaji svakog se sata mjeri vodostaj rijeke Drave. Nekoliko
zadnjih izmjerenih vodostaja prikazao je u tablici 4.2.
dan i sat
vodostaj (cm)
17.11.2010. - 9:00
17.11.2010. - 8:00
17.11.2010. - 7:00
..
.
174
161
152
..
.
Prema povijesnim podacima najnii izmjereni vodostaj Drave na ovoj mjernoj postaji bio je 105
cm (1978.), a najvii ak 511 cm (1972.). Ove injenice opravdavaju visok stupanj vjerovanja da
vodostaj rijeke Drave na promatranoj mjernoj postaji moe biti bilo koji realan broj iz intervala
[105, 511]. Prema tome, svaka izmjerena vrijednost varijable vodostaj iz gornje tablice jedna je
vrijednost iz skupa svih moguih vrijednosti koje vodostaj Drave moe poprimiti na toj mjernoj
postaji. Podaci su preuzeti sa http://www.voda.hr.
Vjerojatnost
55
Ve iz primjera 4.1 i 4.2 moemo vidjeti da je osnovni objekt koji slui za modeliranje sluajne varijable skup svih moguih realizacija sluajne varijable (u
matematici taj skup zovemo slika sluajne varijable ). Skup svih moguih realizacija
sluajne varijable X oznait emo s R(X).
Primjer 4.3. Bacamo novi i smatramo uspjehom ako je palo pismo. Realizacije ovog pokusa
moemo modelirati sluajnom varijablom. Recimo, kaemo da sluajna varijabla X prima vrijednost 1 ako je palo pismo, a 0 ako nije palo pismo (tj. ako je pala glava). Na taj nain dolazimo
do skupa moguih realizacija te sluajne varijable: R(X) = {0, 1} R.
Primjer 4.4. Bacamo igrau kockicu. Broj koji se okrene prilikom jednog bacanja na gornjoj
strani kockice je realizacija jedne sluajne varijable, oznaimo je s X. Prirodno, skup svih moguih
realizacija te sluajne varijable je R(X) = {1, 2, 3, 4, 5, 6} R.
Primjer 4.5. Bacamo igrau kockicu dva puta. Zbroj brojeva koji se okrenu prilikom tih dvaju
bacanja je realizacija jedne sluajne varijable X. Skup svih moguih realizacija te sluajne varijable
je R(X) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} R.
Primjer 4.6. Broj ulovljenih komaraca u jednu klopku u Osijeku, u jednom danu lipnja 2012.
godine, moemo modelirati kao sluajnu varijablu. Naime, jedan dan u klopku smo uhvatili, npr.
20 komaraca, drugi dan 25, trei dan 45, etvrti dan opet 20. Koliko emo ih uhvatiti sutra,
prekosutra? Ne znamo kako e se ta varijabla realizirati sutra i prekosutra, ali znamo da e to
svakako biti neki prirodan broj ili nula. Osim toga, ako smo postavili dvije identine klopke jednu
pored druge, moe se dogoditi da je u istom danu na jednu klopku uhvaeno 20 komaraca, a na
drugu 23. Dakle, prirodno je smatrati tu varijablu sluajnom varijablom (oznaimo je s X) jer,
u uvjetima koje mi moemo sagledati, ne moemo sa sigurnou znati kako e se realizirati. Skup
svih moguih realizacija ove sluajne varijable je skup R(X) = {0, 1, 2, . . . , n}, gdje je n N
najvei broj komaraca koji mogu biti ulovljeni koritenom klopkom.
4.2
Vjerojatnost
Promatrajui skup vrijednosti koji moe primiti sluajna varijabla X moe se dogoditi da je nae uvjerenje u realizaciju nekog podskupa A R(X) vee od uvjerenja
da e se realizirati poskup B R(X). U tom sluaju uobiajeno kaemo da skup
A ima vee anse za realizaciju nego podskup B.
56
Sluajna varijabla
Primjer 4.7. U primjeru bacanja igrae kockice ishod jednog bacanja modelirali smo sluajnom
varijablom X iji je skup svih moguih realizacija R(X) = {1, 2, 3, 4, 5, 6}. Pretpostavite da je
igraa kockica pravilno izraena. Razmislite i odgovorite na sljedea pitanja:
Kojim biste realnim brojem iskazali anse za realizaciju skupa {3}?
Oekujete li da se anse za realizaciju skupa {3} razlikuje od ansi za realizaciju skupa {5}?
Kojim biste realnim brojem iskazali anse za realizaciju parnog broja pri bacanju ove kockice (tj.
da se na kockici okrene paran broj)?
Ima smisla takoer govoriti i o ansama za realizaciju nekog podskupa skupa iji
elementi nisu realni brojevi, nego proizvoljni objekti (npr. slova, neki specijalni
znakovi, razne kategorije). Sljedei primjer ilustrira jedan takav sluaj.
Primjer 4.8. Promotrimo skup = {, , , }. Elementi ovog skupa su oznake za crne karte
(tref i pik) i crvene karte (karo i herc) u standardnom svenju angloamerikih igraih karata.
Dakle skup ima etiri elementa i moemo rei da njegovi elementi opisuju ishod pokusa koji
se sastoji od izvlaenja jedne karte iz svenja pri emu nas za izvuenu kartu zanima samo boja
(crvena ili crna) i tip (tref, pik, karo ili herc). Razmislite i odgovorite na sljedea pitanja:
Kojim biste realnim brojem iskazali anse za realizaciju skupa {} ?
Oekujete li da se anse za realizaciju skupa {, } razlikuje od ansi za realizaciju skupa
{, }?
Kojim biste realnim brojem iskazali anse za realizaciju skupa {, , } , a kojim anse za
realizaciju skupa {}?
Broj kojim izraavamo anse za realizaciju nekog podskupa moemo definirati openito za neprazan skup , bez obzira jesu li njegovi elementi brojevi ili neki drugi
objekti. Mjeru koja modelira ansu da e se realizirati neki podskup promatranog
nepraznog skupa zvat emo vjerojatnost. Podskupove skupa zvat emo dogaajima. U ovom poglavlju navodimo definiciju vjerojatnosti, naine kako u konkretnim
primjerima moemo modelirati vjerojatnost te neka osnovna svojstva vjerojatnosti.
Neka je neprazan skup te neka familija skupova F sadri odreene
podskupove od (tj. odreene dogaaje). Vjerojatnost (oznaka P ) je
funkcija koja svakom dogaaju A F pridruuje realan broj iz intervala
[0, 1] (tj. 0 P (A) 1) tako da vrijede sljedei zahtjevi:
V1. P () = 1,
V2. ako su A1 i A2 dogaaji iz F koji nemaju zajednikih elemenata, tj.
A1 , A2 F i A1 A2 = , tada vrijedi
P (A1 A2 ) = P (A1 ) + P (A2 ),
Vjerojatnost
57
tj. vjerojatnost unije dogaaja A1 i A2 jednaka je zbroju vjerojatnosti P (A1 ) i P (A2 ).1
Vidimo da je na ovaj nain definirana vjerojatnost na familiji podskupova proizvoljnog nepraznog skupa . Uzmemo li da je = R(X), dobivamo definiciju
vjerojatnosti na familiji podskupova skupa svih moguih realizacija (slike) sluajne
varijable X.
familija F sadri beskonano mnogo dogaaja, ovaj zahtjev mora se pojaati. Tada se
T
trai da za proizvoljan niz dogaaja (An , n N) koji nemaju zajednikih toaka, tj. Ai Aj = ,
za sve i 6= j, vrijedi:
[
X
P(
Ai ) =
P (Ai ).
iN
iN
58
Sluajna varijabla
4.2.1
n N,
k(A)
broj elemenata od A
=
,
broj elemenata od
k()
gdje je k() oznaka za broj elemenata skupa (tj. k(A) je oznaka za broj elemenata
skupa A, a k() za broj elemenata skupa ).
Taj pristup modeliranju vjerojatnosti temelji se na ideji da vjerojatnost predstavlja
mjeru dijela u odnosu na cjelinu. Problemi u primjeni ovog pristupa odnose se
na provjeru pretpostavki. Npr. kako moemo biti sigurni da su svi jednolani
podskupovi skupa jednako vjerojatni?
Na potpuno isti nain moemo definirati vjerojatnost na familiji podskupova skupa
svih moguih realizacija sluajne varijable X, tj. skupu R(X), pod uvjetom da
R(X) ima konano mnogo jednako vjerojatnih elemenata. Dakle, ako je = R(X),
tada vjerojatnost skupa B R(X) definiramo na sljedei nain:
P (B) =
k(B)
.
k (R(X))
Primjer 4.10. Iz svenja koji se sastoji od 32 karte2 izvlaimo jednu kartu. Odredimo:
vjerojatnost da je izvuena karta as
vjerojatnost da izvuena karta nije as
vjerojatnost da je izvuena karta as ili kralj.
2 Sveanj od 32 karte koji se spominje u ovoj knjizi podrazumijeva karte dolaze u etiri "boje"
(crvena, zelena, ir i bundeva) i osam tipova (sedmica, osmica, devetka, desetka, deko, dama,
kralj i as)
Vjerojatnost
59
Uoimo da ovakav sveanj moemo podijeliti na osam skupina karata koje se sastoje od po etiri
karte istog tipa (etiri sedmice, etiri asa, etiri kralja, etiri dame, . . . ). Prema tome, tipove
karata u svenju moemo oznaiti brojevima 1, . . . , 8. U skladu s ovim oznaavanjem zakljuujemo da se izvlaenjem jedne karte zapravo realizira jedan od brojeva 1, . . . , 8. Time smo zapravo
definirali sluajnu varijablu X koja svakoj karti iz svenja (koji moemo shvatiti kao skup )
pridruuje tono jedan od brojeva 1, 2, 3, 4, 5, 6, 7, 8. Dakle, skup svih moguih realizacija sluajne
varijable X je R(X) = {1, 2, 3, 4, 5, 6, 7, 8}. To je skup koji ima 8 elemenata koji su, zbog jednakobrojnosti svih osam skupina karata, svi jednako vjerojatni. Prema tome, odgovori na prethodno
postavljena pitanja su:
vjerojatnost da izvuemo asa je 1/8,
vjerojatnost da ne izvuemo asa je 7/8,
iz zahtjeva V2. iz definicije vjerojatnosti slijedi da je vjerojatnost da izvuemo asa ili kralja
1/8 + 1/8 = 1/4.
Primjer 4.11. Pri bacanju pravilno izraene igrae kockice moe pasti bilo koji od brojeva
1, . . . , 6, tj. skup svih moguih ishoda ovog pokusa je = {1, 2, 3, 4, 5, 6}. Pretpostavimo da
se ovo bacanje kockice vri u sklopu igre u kojoj zaraujemo jednu kunu ako se na kockici okrene
paran broj, a gubimo jednu kunu ako se okrene neparan broj.
Kolika je vjerojatnost zarade jedne kune?
Budui da jednu kunu zaraujemo ako se okrene 2 ili 4 ili 6, slijedi da je skup svih za nas povoljnih
ishoda skup A = {2, 4, 6} . Slijedi da je vjerojatnost zarade jedne kune
P (A) =
k(A)
3
1
= = .
k()
6
2
Drugi nain rjeavanja ovog problema ukljuuje definiranje sluajne varijable X ija je realizacija
1 ako se pri bacanju kockice okrene paran broj, a (1) ako se pri bacanju kockice okrene neparan
broj. Dakle, R(X) = {1, 1}. Povoljan dogaaj u ovom kontekstu je dogaaj {1} R(X), pa je
vjerojatnost zarade jedne kune
P {X = 1} =
1
k({1})
= .
k(R(X))
2
Primjer 4.12. Bacamo jednom dvije pravilno izraene igrae kockice. Budui da se pri bacanju
na svakoj od kockica realizira neki od brojeva iz skupa {1, 2, 3, 4, 5, 6}, zakljuujemo da je jedna
realizacija bacanja dviju kockica ureeni par brojeva. Dakle, skup svih moguih ishoda ovog pokusa
je skup = {(i, j) : i, j {1, 2, 3, 4, 5, 6}} koji se sastoji od 36 elemenata. Pitamo se:
Kolika je vjerojatnost da je suma brojeva koji su pali na obje kockice jednaka 6?
Kolika je vjerojatnost da je suma brojeva koji su pali na obje kockice manja od 6?
Neka je A skup koji sadri one ureene parove iz za koje je suma prve i druge komponente
jednaka 6, tj.
A = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)},
a B skup koji sadri one ureene parove iz za koje je suma prve i druge komponente manja od
6, tj.
B = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)}.
Slijedi:
60
Sluajna varijabla
P (A) =
k(A)
5
=
,
k()
36
P (B) =
k(B)
10
5
=
=
.
k()
36
18
Drugi nain rjeavanja istih problema ukljuuje definiranje sluajne varijable X ija je realizacija
zbroj brojeva koji su pali pri bacanju dviju kockica, dakle R(X) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Vjerojatnosti skupova {X = 2}, . . . , {X = 12} mogu se pregledno prikazati tablicom 4.3.
k
P {X = k}
2
1
36
3
2
36
4
3
36
5
4
36
6
5
36
7
6
36
8
5
36
9
4
36
10
3
36
11
2
36
12
1
36
4.2.2
Prethodno opisan nain odreivanja vjerojatnosti moe se primijeniti pod pretpostavkom da je broj jednako moguih ishoda sluajnog pokusa konaan. Mnogo je
pokusa koji ne zadovoljavaju te pretpostavke. Kako tada pridruiti vjerojatnost
skupu? U ovom poglavlju ilustrirat emo statistiku interpretaciju vjerojatnosti
koja moe biti od pomoi ako elimo odrediti vjerojatnost dogaaja u pokusu koji
moemo puno puta nezavisno3 izvoditi. Za ilustraciju zakonitosti o kojoj e biti rijei izvedite pokus tako da bacite novi 40 puta. Biljeite realizacije pisma (oznaka
1) ili glave (oznaka 0) kao to je to prikazano u tablici 4.4.
Redni broj bacanja
1
2
3
4
..
.
Realizacija
0
1
0
0
..
.
Vjerojatnost
61
Slika 4.1: Grafiki prikaz relativnih frekvencija pojavljivanja pisma za 40 bacanja novia.
Ako ste imali pravilan novi (tj. novi kod kojeg su realizacije pisma i glave
jednako mogui ishodi), moete uoiti dvije slinosti vaeg grafa s grafom 4.4: za
velike n relativna frekvencija stabilizira se i to blizu 0.5. Uoite da je u svakom
pojedinom bacanju novia vjerojatnost pojavljivanja pisma ista jer bacamo isti
novi u istim uvjetima. Osim toga, tu vjerojatnost moemo izraunati na temelju
pretpostavke jednako moguih ishoda i ona iznosi tono 0.5.
Ovaj primjer ilustrira zakonitost o kojoj e biti rijei u poglavlju 5, a moe se saeti
u sljedeu formulaciju:
Ako je pokus takav da ga moemo nezavisno ponavljati mnogo puta,
relativna frekvencija pojavljivanja dogaaja A e se s poveanjem broja
ponavljanja pokusa stabilizirati oko broja koji predstavlja vjerojatnost
pojavljivanja dogaaja A.
Primjer 4.13.
(kockica.xls)
Pokus koji moemo nezavisno ponavljati mnogo puta je i bacanje igrae kockice. Znamo da se pri
jednom bacanju igrae kockice realizira broj iz skupa {1, 2, 3, 4, 5, 6} te da su, uz pretpostavku da
je kockica pravilno izraena, svi ishodi jednako mogui, tj.
P ({1}) = P ({2}) = P ({3}) = P ({4}) = P ({5}) = P ({6}) =
1
.
6
Oekujemo da e se s poveanjem broja bacanja igrae kockice relativne frekvencije moguih realizacija stabilizirati oko 1/6. Baza podataka kockica.xls sadri ishode za 100 bacanja igrae kockice
zajedno s pripadnim frekvencijama i relativnim frekvencijama. Relativne frekvencije realizacija jedinice i estice u ovisnosti o broju bacanja grafiki su prikazane na slici 4.2 - vidimo da se relativne
frekvencije stabiliziraju oko 1/6 0.1667.
62
Sluajna varijabla
Bacanjeigraekockice
relativnafrekvencija
0.35
0.3
0.25
0.2
jedinica
0.15
estica
jednaestina
0.1
0.05
1
10
19
28
37
46
55
64
73
82
91
100
Slika 4.2: Grafiki prikaz relativnih frekvencija pojavljivanja 1 i 6 za 100 bacanja igrae kockice.
4.2.3
=AA
Vjerojatnost
63
B\A
B=A(B \ A)
Slika 4.4: Skup B kao unija skupova A (manje uto podruje) i (B \ A) (zeleno
podruje).
Sada prema zahtjevu V2. iz definicije vjerojatnosti slijedi da je
P (B) = P (A (B \ A)) = P (A) + P (B \ A) P (A),
jer je zbog nenegativnosti vjerojatnosti P (B \ A) 0. Slijedi da je u tom sluaju
P (B) P (A), tj. P (A) P (B). Primjenom istog pristupa kao u dokazu prethodne
tvrdnje takoer slijedi da je P (B) = P (A (B \ A)) = P (A) + P (B \ A), tj.
P (B \ A) = P (B) P (A).
(S4) Vjerojatnost unije
Ako su A, B F proizvoljni dogaaji (koji ne moraju biti disjunktni), tada
je
P (A B) = P (A) + P (B) P (A B).
Dokaz. Sa slike 4.5 vidimo da se skup A B moe prikazati kao unija triju skupova
koji nemaju zajednikih elemenata.
64
Sluajna varijabla
A \ (AB) AB B \ (AB)
Primjer 4.14. Raunalo sluajno generira posljednju znamenku telefonskog broja. Skup svih
moguih ishoda generiranja zadnje znamenke je
= {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},
k() = 10.
Koritenjem svojstava S1., S2. S3. i S4. moemo odredite vjerojatnost sljedeih i slinih dogaaja:
a) vjerojatnost da je sluajno generirana znamenka jednaka 8 je
P ({8}) = 1/10
b) vjerojatnost da je sluajno generirana znamenka jednaka 8 ili 9 je
P ({8} {9}) = P ({8, 9}) = 2/10 = 1/5
c) vjerojatnost da je sluajno generirana znamenka neparna ili 2 je
P ({1} {3} {5} {7} {9} {2}) = P ({1, 2, 3, 5, 7, 9}) = 6/10 = 3/5
d) vjerojatnost da je sluajno generirana znamenka parna ili 2 je
P ({0} {2} {4} {6} {8} {2}) = P ({0, 2, 4, 6, 8}) = 5/10 = 1/2
e) vjerojatnost da je sluajno generirana znamenka neparna, ali nije 3, je
P ({1, 5, 7, 9}) = P ({1, 3, 5, 7, 9} \ {3}) = (5/10) (1/10) = 4/10 = 2/5.
4.3
65
66
Sluajna varijabla
Takoer, koritenjem zahtjeva V2 iz definicije vjerojatnosti izvodimo nain raunanja vjerojatnosti da diskretna sluajna varijabla primi vrijednosti iz nekog skupa
A R(X). Naime, vrijedi:
X
P {X A} =
pi .
xi A
Zaista, svaki skup A R(X) moemo prikazati kao uniju jednolanih podskupova
{xi } od R(X) gdje je i IA , tj.
[
{xi }.
A=
iIA
xi A
iIA
x1 x2 . . . x n
p1 p2 . . . pn
!
,
odnosno X
x1 x2 x3 . . .
p1 p2 p3 . . .
!
,
x1
p1
x2
p2
...
...
xn
pn
Tablica 4.5: Tablica distribucije diskretne sluajne varijable karakterizirane konanim skupom
R(X).
67
1
1/5
2
1/5
3
1/10
4
1/10
5
2/5
Stupasti dijagram distribucije sluajne varijable zadane tablicom distribucije 4.6 prikazan je na
slici 4.6.
1/2
vjerojatnosti
2/5
3/10
1/5
1/10
0
1
2
3
4
5
realizacije sluajne varijable X
Slika 4.6: Grafiki prikaz distribucije sluajne varijable X zadane tablicom distribucije 4.6.
Pomou tablice distribucije sluajne varijable X moemo odrediti vjerojatnosti za podskupove od
R(X). Npr.
P {X = 5} =
2
,
5
P {X {2, 3}} = P {X = 2} + P {X = 3} =
1
1
3
+
=
.
5
10
10
Primjer 4.16. Procjenjuje se uinak investicije na jednom podruju izraen u obliku dobiti,
odnosno gubitka. Neka je X diskretna sluajna varijabla ije su realizacije iznosi dobitka (odnosno
gubitka) u tisuama kuna. Distribucija vjerojatnosti uinka investicije zadana je tablicom 4.7.
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
vjerojatnost
0.05
0.15
0.3
0.1
0.3
0.03
0.04
0.03
68
Sluajna varijabla
4.4
f (x) dx.
a
69
f (x)
P {a X b}
a
Slika 4.7: Vjerojatnost kao povrina izmeu osi x i grafa funkcije f na intervalu [a, b]
Na taj nain lako vizualiziramo znaenje vjerojatnosti da neprekidna sluajna varijabla primi vrijednost iz nekog podskupa skupa R. Dakle, prilikom raunanja vjerojatnosti za neprekidnu sluajnu varijablu treba prvo skicirati graf njene funkcije
gustoe i koristiti ga prilikom analiziranja sluajne varijable i raunanja vjerojatnosti da ona primi vrijednost iz nekog skupa.
Neprekidna sluajna varijabla zadana je ako je poznata njena funkcija gustoe. Tada
kaemo da poznajemo razdiobu ili distribuciju neprekidne sluajne varijable.
Primjer 4.17. Funkcija gustoe neprekidne sluajne varijable X dana je izrazom
(
|x| + 1 , x [1, 1]
f (x) =
.
0
, x
/ [1, 1]
Graf funkcije f prikazan je slikom 4.8.
y
0.8
0.6
0.4
0.2
-1.5 -1.0 -0.5
0.5
1.0
70
Sluajna varijabla
y
0.8
0.6
0.4
0.2
0.8
0.6
0.4
0.2
x
1
2
(b) P {X (1, 21 )} =
1
8
y
0.8
0.6
0.4
0.2
x
(c) P {X ( 12 , 1)} =
4.5
7
8
xi R(X)
X
xi R(X)
xi pi .
71
P
xi R(X)
2 = VarX =
(xi )2 pi .
xi R(X)
Primjer 4.18. Promotrimo bacanje pravilno izraene igrae kockice. Znamo da e se pri jednom
bacanju te kockice okrenuti jedan broj iz skupa {1, 2, 3, 4, 5, 6}, no ne znamo tono koji. Kako
je kockica pravilo izraena, znamo da se svaki od brojeva iz tog skupa realizira s vjerojatnou
1/6. Dakle, ishod jednog bacanja ovakve kockice modeliramo diskretnom sluajnom varijablom X
s tablicom distribucije
!
1 2 3 4 5 6
.
1/6 1/6 1/6 1/6 1/6 1/6
Oekivanje ove sluajne varijable je broj
EX =
1
(1 + 2 + 3 + 4 + 5 + 6) = 3.5,
6
6
X
1
(k 3.5)2 2.92.
6
k=1
Z
= EX =
x f (x) dx.
Ako postoji i
= VarX =
(x )2 f (x) dx.
Primjer 4.19. Neprekidna sluajna varjabla iz zadatka 4.14 zadana je funkcijom gustoe
(
1/2 , x [1, 1]
f (x) =
.
0 , x
/ [1, 1]
Izraunajmo oekivanje i varijancu ove neprekidne sluajne varijable:
Z
Z 1
x
dx = 0,
EX =
x f (x) dx =
1 2
Z
Z 1 2
x
1
VarX =
(x EX)2 f (x) dx =
dx = .
3
1 2
72
Sluajna varijabla
1
,
k2
k N.
1
.
k2
Interpretacije:
Vjerojatnost da se sluajna varijabla realizira vrijednostima koje su od oekivanja
udaljene vie ili jednako k manja je ili jednaka 1/k 2 .
Vjerojatnost da se sluajna varijabla realizira vrijednostima koje su od oekivanja
udaljene manje od k vea je od 1 1/k 2 .
Uvrtavajui k = 3, vidimo da realizacija sluajne varijable pada u interval (
3, +3) s vjerojatnou veom od 0.88 ( 0.9). Ta injenica praktino znai
da barem 88% realizacija sluajne varijable X padne u interval (3, +3).
Ove tvrdnje vrijede za sve sluajne varijable koje imaju varijancu pa je za oekivati
da tako dobivena ocjena nije jako precizna, ali ona svakako svjedoi o standardnoj devijaciji kao jednoj mjeri rasprenosti realizacija sluajne varijable oko njenog
oekivanja.
Na slikama 4.9 i 4.10 prikazana je vjerojatnost P {|X | < k} za k = 1 i k = 3
za normalnu sluajnu varijablu X s parametrima = 0 i = 1.
73
f (x)
P {|X | < }
P {|X | < 3}
x
3
8
9
1
2
i P {X m}
1
.
2
Medijan je takoer jedna mjera centralne tendencije, ali ne mora nuno biti jedinstven.
Primjer 4.20. Kockar sudjeluje u igri u kojoj dobiva kada se pri bacanju igrae kockice okrene
estica. No, odluio je varati i u tu je svrhu nabavio nepravilno izraenu igrau kockicu za koju
je
1
P ({k}) =
, k {1, 2, 3, 4, 5}
15
i P ({6}) = 2/3. Dakle, bacanje te kockice modeliramo sluajnom varijablom X ija je distribucija
dana tablicom
!
1
2
3
4
5
6
X=
.
1/15 1/15 1/15 1/15 1/15 2/3
74
Sluajna varijabla
Uoimo da je
2
,
3
pa je 6 medijan sluajne varijable X. Takoer uoimo da ova sluajna varijabla ima jedinstven
medijan.
P {X 6} = 1
P {X 6} =
Primjer 4.21.
a) U primjeru 4.18 definirali smo diskretnu sluajnu varijablu X kojom modeliramo bacanje pravilno izraene igrae kockice i ija je distribucija dana tablicom
!
1 2 3 4 5 6
.
X=
1/6 1/6 1/6 1/6 1/6 1/6
Uoimo da je
P {X 3} =
1
2
P {X 3} =
2
3
te da je
2
1
i P {X 4} = ,
3
2
pa slijedi da je svaki realan broj iz intervala [3, 4] medijan ove sluajne varijable.
P {X 4} =
b) U primjeru 4.16 definirali smo diskretnu sluajnu varijablu X ije su realizacije iznosi
dobitka, odnosno gubitka, od neke investicije izraeni u tisuama kuna i ija je distribucija
dana tablicom 4.7 koju moemo zapisati i na sljedei nain:
!
400 200 100 0 100 200 300 400
X=
.
0.05 0.15 0.3 0.1 0.3 0.03 0.04 0.03
Uoimo da je
P {X 0} = P {X {400, 200, 100, 0}} = 0.6
te da je
P {X 100} = P {X {400, 200, 100}} = 0.5
pa slijedi da je svaki realan broj iz intervala [100, 0] medijan ove sluajne varijable.
Ocjena ove vjerojatnosti dobivena pomou ebievljeve nejednakosti je (pogledajte sliku 4.10)
P {|X | < 3} = P {|X| < 3} 1
8
1
= 0.888.
9
9
4.6
4.6.1
75
Ako varijabla koju istraujemo moe primiti samo dvije vrijednosti (npr. 0 ili 1),
moemo je modelirati koritenjem Bernoullijeve sluajne varijable.
Bernoullijeva sluajna varijabla s parametrom p (0, 1) je svaka sluajna varijabla
koja ima tablicu distribucije sljedeeg oblika:
X=
0 1
q p
!
,
p (0, 1),
q = 1 p.
Primjer 4.23. Igramo kockarsku igru u kojoj ostvarujemo dobitak ako se na igraoj kocki okrene
estica.
!
0 1
X=
.
5/6 1/6
Dakle, realizaciju estice moemo modelirati Bernoullijevom sluajnom varijablom: ako se pri
bacanju kockice realizira estica, Bernoullijeva sluajna varijabla X poprima vrijednost 1, a inae
poprima vrijednost 0. Uoite da su vjerojatnosti u tablici distribucije sluajne varijable X odreene
na temelju pretpostavke jednko moguih ishoda.
Primjer 4.24. Izvlaimo jedan proizvod iz velike poiljke u kojoj je 2% loih proizvoda (oznake:
0 - lo proizvod, 1 - dobar proizvod). Rezultat izvlaenja modeliramo Bernoullijevom sluajnom
varijablom s tablicom distribucije
!
X=
0
1
0.02 0.98
76
4.6.2
Sluajna varijabla
0
1
2
.
.
.
n
!
!
X= n n
n
, q = 1 p.
n1
q
pq
p2 q n2 . . . pn
1
2
Objanjenje: pokus ijim se jednim izvoenjem moe realizirati ili uspjeh (1) ili
neuspjeh (0) ponavljamo nezavisno n puta. Zanima nas kolika je vjerojatnost da
se pojavi tono k uspjeha (tj. tono k jedinica), k = 0, 1, . . . , n. Prema tablici
distribucije binomne sluajne varijable slijedi da je
!
n
P {X = k} =
pk q nk
k
jer se u n nezavisnih ponavljanja pokusa tono k puta (svaki puta s vjerojatnou
p) pojavila realizacija koju nazivamo uspjeh i tono (n k) puta realizacija koju
nazivamo neuspjeh (svaki puta s vjerojatnou q).
Znaenje parametara binomne distribucije:
n - broj nezavisnih ponavljanja pokusa sa samo dva mogua ishoda,
p - vjerojatnost realizacije uspjeha (oznaenog brojem 1) u jednom izvoenju tog
pokusa.
Primjer 4.25. Broj realizacija estice pri n nezavisnih bacanja pravilno izraene igrae kockice
moemo modelirati binomnom sluajnom varijablom X s parametrima n i p = 1/6. Neka je
n = 100, dakle X B(100, 1/6). Stupasti dijagram koji prikazuje distribuciju (tj. vjerojatnosti
iz tablice distribucije) sluajne varijable X prikazan je slikom 4.11, pri emu je u koordinatnom
sustavu na x-osi prikazan broj bacanja kockice, a na y-osi vjerojatnost realizacije estice u tom
broju bacanja.
77
y
0.10
0.08
0.06
0.04
0.02
20
40
60
80
40
60
80
78
Sluajna varijabla
4.6.3
y
0.8
=0, 2 =1
0.6
=-2, 2 =0.25
0.4
=2, 2 =4
0.2
-4
-2
Empirijska distribucija
79
2 = V ar X.
Uoimo:
- funkcija gustoe normalne sluajne varijable ima maksimum za x =
- funkcija gustoe normalne sluajne varijable simetrina je u odnosu na pravac
koji prolazi maksimumom krivulje i paralelan je y osi
- standardna devijacija je pozitivan broj i ona odreuje koliko je funkcija gustoe
"iroka".
Postupak standardizacije.
Neka je X normalna sluajna varijabla X N (, 2 ). Tada je sluajna
varijabla
X
Z=
4.7
Empirijska distribucija
80
Sluajna varijabla
-1
24
0
11
1
15
Empirijska distribucija
81
1 0
1
0.48 0.22 0.3
!
.
Tablica 4.9: Empirijska distribucija sl. var. kojom modeliramo odnos kupca prema proizvodu.
Ako pretpostavimo da empirijska distribucija odgovara stvarnoj distribuciji varijable X, moemo
donijeti npr. sljedee zakljuke:
vjerojatnost da se sluajno odabanom kupcu iz populacije svia novi proizvod je P {X = 1} = 0.3
ako u trgovinu doe 200 kupaca iz pripadne populacije, meu njima e biti priblino 200 0.3 = 60
kupaca kojima se ovaj proizvod svia.
Varijable o kojima elimo zakljuivati ne moraju biti uvijek diskretnog tipa s konanim skupom vrijednosti. Da bismo bili u stanju koristiti prikupljene podatke
za aproksimativno raunanje vjerojatnosti vezane uz sluajnu varijablu i kod ostalih tipova varijabli, definirat emo empirijsku distribuciju dobivenu koritenjem
podataka v1 , . . . , vM koji predstavljaju nezavisne realizacije sluajne varijable X.
Prije svega, uoimo da je broj prikupljenih podataka mjerenjem vrijednosti sluajne varijable uvijek konaan. Meu izmjerenim podacima moe biti i jednakih
pa pretpostavimo da se u nizu v1 , . . . , vM pojavljuju razliite vrijednosti x1 , . . . , xn
s odgovarajuim frekvencijma f1 , . . . fn . Na temelju dobivenih podataka moemo
definirati empirijsku distribuciju tablicom
!
x1 x2 . . . x n
,
f1 + f2 + fn = M.
f1 f2
fn
M M ... M
Neovisno o stvarnom tipu distribucije sluajne varijable iz koje dolaze navedeni
podaci, ovako definiranu empirijsku distribuciju moemo koristiti za aproksimativno
raunanje vjerojatnosti realiziranja varijable X u nekom skupu ako je M velik broj.
Tada, npr. vrijedi:
P {X [a, b]} relativna frekvencija pojavljivanja realizacije iz intervala [a, b].
Treba takoer uoiti da oekivanje empirijske distribucije odgovara aritmetikoj
sredini podataka, a varijanca empirijske distribucije varijanci podataka, tj. ako
je S sluajna varijabla definirana empirijskom tablicom distribucije gore opisanih
podataka
S
x1 x2 . . . xn
f1 f2
fn
M M ... M
!
,
f1 + f2 + fn = M,
onda je
ES =
1X
xi = x
n ,
n i
VarS =
1X
(xi x
n )2 = sn .
n i
82
Sluajna varijabla
Upitno je koliko je opravdano empirijsku distribuciju podataka prikupljenih na osnovi nezavisnih realizacija sluajne varijable smatrati njezinom pravom distribucijom. Kod varijabli koje su po karakteru neprekidne i elimo ih modelirati kao
neprekidne sluajne varijable, oigledno je da raunanje vjerojatnosti koritenjem
empirijske distribucije moe biti samo aproksimacija stvarnih vjerojatnosti (vidi
definiciju neprekidne sluajne varijable).
Zapravo, empirijska distribucija podataka prikupljenih na osnovi nezavisnih realizacija sluajne varijable X samo je procjena za njenu stvarnu distribuciju dok su
aritmetika sredina, varijanca, standardna devijacija i medijan tih podataka procjene za oekivanje, varijancu, standardnu devijaciju i medijan sluajne varijable,
ali to je tema sljedeih poglavlja.
Primjer 4.29.
(gradjevina.sta)
U bazi podataka gradjevina.sta u varijabli placa2009 nalaze se iznosi u eurima prosjenih mjesenih plaa zaposlenika u 2009. godini za 100 graevinskih poduzea srednje veliine u nekoj zemlji.
Prirodno je tu varijablu modelirati neprekidnom sluajnom varijablom X koja prima vrijednosti iz
intervala [0, x], gdje je x broj koji je vei ili jednak najvioj ikad zabiljeenoj plai u graevinskom
poduzeu srednje veliine u toj zemlji. Za raunanje vjerojatnosti vezanih uz realizacije sluajne
varijable X trebali bismo poznavati njezinu distribuciju, tj. funkciju gustoe vjerojatnosti. To
ovdje, kao i u veini praktinih problema, nije sluaj. Meutim, raspolaemo sa 100 izmjerenih vrijednosti (realizacija) neprekidne sluajne varijable X. Iz tih realizacija moemo odrediti
empirijsku distribuciju od X (odreujemo ju iz tablice relativnih frekvencija):
!
121 . . . 479 . . . 1559
.
1/100 . . . 2/100 . . . 1/100
Uz pretpostavku da empirijska distribucija zadana gornjom tablicom dobro aproksimira stvarnu
(nepoznatu) distribuciju neprekidne sluajne varijable X, moemo ju iskoristiti za odreivanje
priblinih vrijednosti vjerojatnosti vezanih uz realizacije od X. Tako je npr. vjerojatnost da
je prosjena mjesena plaa u sluajno odabranom graevinskom poduzeu srednje veliine u toj
zemlji vea od 500 eura priblino jednaka 0.66, tj.
P {X > 500} 0.66,
dok je vjerojatnost da je prosjena mjesena plaa barem 300 eura, ali manja od 500 eura priblino
jednaka 0.32, tj.
P {300 X < 500} 0.32.
Oekivanje od X procjenjujemo aritmetikom sredinom 100 dostupnih realizacija, tj. brojem
xn = 600.13,
a standardnu devijaciju procjenjujemo standardnom devijacijom tih podataka, tj. brojem
sn = 194.63.
Zadaci
4.8
83
Zadaci
Zadatak 4.1. Ako imamo jako preciznu vagu i mjerimo neto masu eera koji je pakiran u
vreice deklarirane mase 1 kg, hoemo li dobiti tono 1 kg? Ako uzmemo drugo pakiranje istog
tipa, koliko vam se ini izvjesno da e neto teina biti ista kao u prethodno vaganom pakiranju?
Oekujete li velika odstupanja? Ako neto masu eera u toj seriji pakiranja modeliramo sluajnom
varijablom X, koji biste skup svih moguih realizacija Vi definirali za tu sluajnu varijablu?
Zadatak 4.2. Iz svenja koji se sastoji od 32 karte izvlaimo dvije karte za redom. Kolika je
vjerojatnost da su obje izvuene karte asovi?
Rjeenje. Budui da iz svenja izvlaimo dvije karte jednu za drugom, skup ovdje se sastoji od
svih parova razliitih karata iz svenja. Zanima nas koliko elemenata ima skup . Odgovor nam
daje sljedee razmatranje:
- sveanj se sastoji od 32 karte i prva izvuena karta (koja se nakon izvlaenja ne vraa u sveanj)
moe biti bilo koja karta iz svenja
- prvu izvuenu kartu moemo spariti sa svakom od preostale 31 karte u svenju
- takvih parova karata ima 32 31 = 992, tj. k () = 992.
Na slian nain odreujemo broj elemenata skupa A koji se sastoji od svih parova razliitih asova.
Budui da u svenju ima etiri razliita asa, za svakog prvog izvuenog asa drugog asa biramo od
preostala tri asa pa takvih parova ima 4 3 = 12, tj. k(A) = 12. Prema tome vrijedi:
P (A) =
k(A)
12
3
=
=
.
k()
992
248
Zadatak 4.3. Pravilno izraena igraa kockica baca se dva puta. Zanimaju nas vjerojatnosti
sljedeih dogaaja:
a) A - pali su jednaki brojevi
b) B - suma brojeva koji su pali je 8
c) C - produkt brojeva koji su pali je 8.
Rjeenje.
a) A = {(i, j) : i = j}, P (A) = 6/36 = 1/6
b) B = {(i, j) : i + j = 8}, P (B) = 5/36
c) C = {(i, j) : i j = 8}, P (C) = 2/36 = 1/18.
Zadatak 4.4. U kutiji se nalazi 100 papiria numeriranih brojevima 1, 2, . . . , 100. Realizacija sluajne varijable X je broj na jednom sluajno izvuenom papiriu. Odredite vjerojatnosti sljedeih
dogaaja:
a) A - izvueni je broj jednoznamenkast
84
Sluajna varijabla
b) B - izvueni je broj dvoznamenkast
c) C - izvueni je broj manji ili jednak 57
d) D - izvueni je broj strogo vei od 57.
Rjeenje.
a) A = {1, . . . , 9}, P (A) = 9/100
b) B = {10, . . . , 99}, P (B) = 9/10
c) C = {1, . . . , 57}, P (C) = 57/100
d) D = {58, . . . , 100}, P (D) = 1 (57/100) = 43/100.
Zadatak 4.5. Ako ispunite listi s 12 kombinacija u igri LOTO 6 od 45, kolika je vjerojatnost
da osvojite dobitak na pogoenih svih est brojeva, a kolika je vjerojatnost da osvojite dobitak na
pet pogoenih brojeva?
Zadatak 4.6. Pravilno izraena igraa kockica baca se dva puta. Zanimaju nas vjerojatnosti
sljedeih dogaaja:
a) A - barem se jednom okrenuo broj 2
b) B - suma brojeva koji su pali je 7
c) C - produkt brojeva koji su pali je 4.
Zadatak 4.7. Na raspolaganju nam je kutija u kojoj se nalazi 150 papiria numeriranih brojevima 1, 2, . . . , 150. Realizacija sluajne varijable je broj na jednom sluajno izvuenom papiriu.
Odredite vjerojatnosti sljedeih dogaaja:
a) A - izvueni je broj djeljiv s tri
b) B - izvueni je broj troznamenkast
c) C - izvueni je broj manji ili jednak od 99
d) D - izvueni je broj strogo vei od 99.
Zadatak 4.8. Iz svenja od 52 karte na sluajan nain biramo 5 karata. Izraunajte vjerojatnost
da su izvuene tono tri dame ili tono dva asa.
Zadatak 4.9. Izmeu 100 istovrsnih objekata oznaenih razliitim brojevima od 1 do 100, na
sluajan nain izabiremo jedan objekt. Odredite vjerojatnosti sljedeih dogaaja:
a) izabran je objekt oznaen brojem veim ili jednakom 30 (Rjeenje: 71/100)
b) izabran je objekt oznaen brojem veim od 30 ili manjim od 10 (Rjeenje: 79/100)
Zadaci
85
Zadatak 4.11. Diskretna sluajna varijabla koja moe primiti vrijednosti 2, 3, 8 i 10 zadana je
tablicom distribucije 4.10.
vrijednosti
vjerojatnosti
2
0.15
3
0.10
8
0.25
10
0.5
2
0.15
3
0
8
0.21
10
0.2
Tablica 4.11: Tablica kojom nije zadana distribucija sluajne varijable sa slikom {2, 3, 8, 10}.
Moe li ovom tablicom biti zadana distribucija jedne sluajne varijable?
86
Sluajna varijabla
Rjeenje. Zanima nas je li ovom tablicom zadana distribucija sluajne varijable X sa slikom
R(X) = {2, 3, 8, 10}. Vidimo da su brojevi u drugom retku tablice nenegativni (tj. 0) i manji od
jedan, ali u sumi daju 0.56 to nije u skladu s drugim navedenim svojstvom distribucije diskretne
sluajne varijable. Dakle, konaan niz brojeva 0.15, 0, 0.21, 0.2 ne definira vjerojatnost na skupu
{2, 3, 8, 10}.
0.8
0.6
0.4
0.2
-1.5 -1.0 -0.5
0.5
1.0
0.8
0.6
0.4
0.2
0.8
0.6
0.4
0.2
x
1
2
5
8
x
3
8
Zadaci
87
y
1
2
-2
-1
Probability Calculator4
Distributions.
Pogledajte grafove nekih funkcija gustoa vjerojatnosti koje se koriste u primjenama. Diskutirajte
o razlikama u grafovima. Odaberite jednu sluajnu varijablu koja prima brojeve bliske nuli s
velikom vjerojatnou.
Zadatak 4.16. U programskom paketu Statistica pod opcijom Distributions u kalkulatoru vjerojatnosti (probability calculator) prouite grafove funkcija gustoa normalne sluajne varijable.
Uoite da se u izborniku nalaze i imana drugih neprekidnih sluajnih varijabli koje nismo spominjali. Potraite u dodatnoj literaturi opis Studentove, Fisherove, eksponencijalne i 2 sluajne
varijable i za svaku od njih, koritenjem programskog paketa Statistica, odredite P {X 1},
P {X 1}, P {X 1} i P {0 < X 1}. Pri tome koristite vrijednosti parametara koji su zadani
u programskom paketu.
4 kalkulator
vjerojatnosti
88
Sluajna varijabla
Rjeenje.
1. Normalna distribucija s parametrima = 0 i = 1 (mean=0, st.dev.=1):
0.3
0.3
0.2
0.2
0.1
0.1
-4 -3 -2 -1
-4 -3 -2 -1
(a) P {X 1}
(b) P {X 1}
0.3
0.3
0.2
0.2
0.1
0.1
-4 -3 -2 -1
-4 -3 -2 -1
(c) P {X 1}
(d) P {0 < X 1}
f (x) dx = 0.158655
Z1
P {X 1}
f (x) dx = 0.841345
Z1
P {X 1}
Z1
P {0 < X 1}
Z0
f (x) dx
Zadaci
89
0.30
0.25
0.20
0.15
0.10
0.05
-4 -3 -2 -1
0.30
0.25
0.20
0.15
0.10
0.05
1
-4 -3 -2 -1
(a) P {X 1}
(b) P {X 1}
0.30
0.25
0.20
0.15
0.10
0.05
-4 -3 -2 -1
0.30
0.25
0.20
0.15
0.10
0.05
1
-4 -3 -2 -1
(c) P {X 1}
(d) P {0 < X 1}
f (x) dx = 0.25
Z1
P {X 1}
f (x) dx = 0.75
Z1
P {X 1}
Z1
P {0 < X 1}
Z0
f (x) dx
90
Sluajna varijabla
3. Fisherova distribucija sa stupnjevima slobode m = 10 i n = 10 (df1=10, df2=10):
0.6
0.6
0.4
0.4
0.2
0.2
-1
-1
(a) P {X 1} = P {0 < X 1}
(b) P {X 1}
f (x) dx = 0
Z1
P {X 1}
f (x) dx = 0.5
Z1
P {X 1}
Z1
P {0 < X 1}
Z0
f (x) dx
0.8
0.8
0.6
0.6
0.4
0.4
0.2
-1
0.2
1
(a) P {X 1} = P {0 < X 1}
-1
(b) P {X 1}
Zadaci
91
Z1
P {X 1}
f (x) dx = 0
Z1
P {X 1}
f (x) dx = 0.632121
Z1
P {X 1}
Z1
P {0 < X 1}
Z0
f (x) dx
0.20
0.20
0.15
0.15
0.10
0.10
0.05
-1
0.05
1 2 3 4 5 6 7 8 9
-1
(a) P {X 1} = P {0 < X 1}
1 2 3 4 5 6 7 8 9
(b) P {X 1}
f (x) dx = 0
Z1
P {X 1}
f (x) dx = 0.198748
Z1
P {X 1}
Z1
P {0 < X 1}
Z0
f (x) dx
92
Sluajna varijabla
Uoavamo da je kod normalne distribucije s parametrima 0 i 1 i Studentove distribucije s parametrom df = 1 (tj. s jednim stupnjeva slobode) P {X 1} = P {X 1}, to ukazuje
na simetrinost tih distribucija. Budui da je kod Fisherove, eksponencijalne i 2 distribucije
P {X 1} = P {X 0} = 0, zakljuujemo da su te tri distribucije nenegativne, tj. da sluajne
varijable s tim distribucijama ne poprimaju negativne vrijednosti.
Uoimo slinost grafa funkcija gustoa normalne distribucije s parametrima 0 i 1 i Studentove
distribucije. Graf funkcije gustoe Studentove distribucije s poveanjem vrijednoste parametra
df (tj. s poveanjem broja stupnjeva slobode) sve vie nalikuje grafu funkcije gustoe normalne
distribucije s parametrima 0 i 1. to je broj stupnjeva slobode vei, to je vjerojatnost da sluajna
varijabla sa Studentovom distribucijom poprimi vrijednosti iz nekog intervala realnih brojeva blia
vjerojatnosti da sluajna varijabla s normalnom distribucijom poprimi vrijednosti iz tog istog
intervala.
Kada vrijednost parametra mean normalne distribucije nije 0 nego npr. 1, uoimo da je P {X
1} = 0.022750, a P {X 1} = 0.5. No u ovom je sluaju P {X 1} = P {X 1} = 0.5 i
takoer P {X 0} = P {X 2} = 0.158655. Zakljuujemo da je normalna distribucija simetrina
s obzirom na vrijednost parametra mean.
Zadatak 4.17. Po uzoru na primjer 4.37 odredite oekivanje, varijancu, standardnu devijaciju
i medijan diskretnih sluajnih varijabli kojima modeliramo diskretne numerike varijable iz primjera poglavlja 4.3 (pretpostavite da se stvarna i empirijska distribucija tih sluajnih varijabli
podudaraju). Za svaku od promatranih sluajnih varijabli odredite P {|X | < 3} koritenjem
distribucije te dobiveni rezultat usporedite s ocjenom vjerojatnosti dobivenom pomou ebievljeve nejednakosti.
12
12 12 12
a) Odredite vjerojatnost skupova: {X < 0}, {X = 3}, {X = 0}, {X > 6}, {X 5}.
b) Odredite njeno oekivanje, varijancu i standardnu devijaciju.
c) Odredite P {|X | 2}, gdje je oekivanje a 2 varijanaca.
Zadaci
93
Zadatak 4.20. Jedno je istraivanje pokazalo da se 5% Amerikanaca boje biti sami u kui tijekom
noi. Ako na reprezentativan nain odaberemo uzorak od 20 Amerikanaca, odredite sljedee
vjerojatnosti:
a) ima tono pet ljudi u uzorku koji se boje biti sami nou (Rjeenje: 0.00224465)
b) ima najvie tri osobe u uzorku koje se boje biti same nou (Rjeenje: 0.984098)
c) ima barem tri osobe u uzorku koje se boje biti sami nou (Rjeenje: 0.0754837).
Zadatak 4.21. Raunovodstvena sluba nekog poduzea utvrdila je da 40% kupaca ne plaa
raune na vrijeme. Iz skupa svih kupaca koji su neto kupili od tog poduzea na sluajan nain
odabire se 6 kupaca.
a) Kolika je vjerojatnost da su svi odabrani kupci podmirili raune na vrijeme?
(Rjeenje: 0.046656)
b) Kolika je vjerojatnost da je preko 3/4 odabranih kupaca podmirilo raune?
(Rjeenje: 0.23328)
c) Kolika je vjerojatnost da 50% odabranih kupaca nije platilo raune na vrijeme?
(Rjeenje: 0.27648)
Zadatak 4.22. Vjerojatnost da izvjetaj o povratu poreza neke osobe bude ponovo pregledan
iznosi 1.5% za prihod manji od 100000 dolara, a 3% ako je prihod jednak 100000 dolara i vei
(izvor: Statistical Abstract of the USA, 1998).
a) Kolika je vjerojatnost da poreznom obvezniku, iji je prihod manji od 100000 $, porezna
kartica bude ponovno pregledana, a kolika za onoga iji je prihod jednak ili vei od 100000 $?
(Rjeenje: 0.015, 0.03.)
b) Ako se odabere pet poreznih obveznika s prihodom manjim od 100000 $, kolika je vjerojatnost da e biti pregledana samo jedna porezna prijava, a kolika da e ih biti pregledano vie
od jedne? (Rjeenje: 0.0706002, 0.00218326.)
c) Isto izraunajte za pet poreznih obveznika s prihodom veim od 100000 $.
(Rjeenje: 0.132794, 0.00847205.)
d) Koje ste pretpostavke morali postaviti da biste rijeili prethodne zadatke upotrebom binomne distribucije? (Rjeenje: pretpostavljamo da se radi o malom uzorku (pet osoba)
iz velike populacije, to aproksimativno odgovara modelu u kojem pet puta nezavisno ponavljamo isti Bernoullijev pokus. Ta pretpostavka ovdje omoguuje upotrebu binomne
distribucije.)
Zadatak 4.23. U poiljci od 100 okolada iz neke tvornice nalazi se samo 5% okolada s ljenjacima, a sve su ostale obine mlijene okolade. Pretpostavimo da elimo kuati okoladu s
ljenjacima:
- prvo na sluajan nain iz poiljke odaberemo jednu okoladu i bez obzira na to je li sa ljenjacima
ili ne, pojedemo ju
- nakon toga od preostalih okolada u poiljci odaberemo jo jednu okoladu.
94
Sluajna varijabla
Zadatak 4.24. Neka je Z standardna normalna sluajna varijabla, tj Z N (0, 1). Odredite
sljedee vjerojatnosti:
a) P {0.5 Z 1.1} (Rjeenje: 0.555796)
b) P {0.38 Z 1.72} (Rjeenje: 0.605311)
c) P {Z 1.6} (Rjeenje: 0.054799)
d) P {Z 1.8} (Rjeenje: 0.035930).
Zadatak 4.25. Prinos usjeva odreenog gospodarstva mjeri se koliinom proizvoda koji se proizvede po hektaru. Poznato je da se normalna sluajna varijabla moe upotrijebiti za opis prinosa
kroz vrijeme (izvor: American Journal of Agricultural Economics, 1999). Povijesni podaci pokazuju da prinos pamuka za iduu godinu moe biti opisan normalnom distribucijom s oekivanjem
1500 funti po hektaru i standardnom devijacijom 250. Poljoprivredno gospodarstvo koje promatramo bit e profitabilno ako proizvede barem 1600 funti po hektru.
a) Kolika je vjerojatnost da e to gospodarstvo izgubiti novac sljedee godine?
(Rjeenje: 0.655422.)
b) Kolika je vjerojatnost da sljedee godine prinos padne unutar dvije standardne devijacije
oko 1500? (Rjeenje: 0.9545.)
Zadatak 4.26. Koliina novca koji aviokompanije troe na hranu po jednom putniku normalno
je distribuirana s oekivanjem 64 kn i standardnom devijacijom 16. Koritenjem statistike interpretacije vjerojatnosti odgovorite na pitanja:
a) Koliki postotak aviokompanija troi vie od 100 kn po putniku? (Rjeenje: 0.012224.)
b) Koliki postotak aviokompanija troi izmeu 48 i 80 kn po putniku? (Rjeenje: 0.68269.)
Zadatak 4.27. Dnevna zarada nekog kafia moe se opisati sluajnom varijablom koja ima normalnu distribuciju s oekivanjem 2000 i standardnom devijacijom 250. Koritenjem programskog
paketa Statistica odredite vjerojatnost da dnevna zarada tog kafia padne unutar dvije standardne
devijacije oko oekivanja, tj. u interval ( 2, + 2)?
Zadatak 4.28. Odredite vjerojatnosti skupova {X 1}, {X 5}, {1 < X < 3}, ako je X
normalna sluajna varijabla s oekivanjem 2 i varijancom 4.
Zadaci
95
Zadatak 4.29.
(kafic.sta)
Broj gostiju koji dnevno dolaze na kavu u jedan kafi nalazi se u bazi podataka kafic.sta.
a) Kojim tipom sluajne varijable moemo modelirati broj gostiju koji dnevno dolaze na kavu
u promatrani kafi? Odredite njezinu empirijsku distribuciju.
b) Pretpostavimo da empirijska distribucija odgovara stvarnoj distribuciji te sluajne varijable.
Tada moemo odrediti vjerojatnosti vezane uz broj gostiju, to vlasniku kafia moe pomoi
pri donoenju poslovnih odluka. Na primjer, pretpostavimo da je prije biljeenja broja
gostiju vlasnik odluio da e zaposliti jo jednog konobara ako vjerojatnost da e dnevno biti
vie od 55 gostiju iznosi vie od 0.5. Pomou empirijske distribucije odredite tu vjerojatnost
te odgovorite hoe li vlasnik kafia zaposliti jo jednog konobara ili ne.
c) Pomou empirijske distribucije (koja prema pretpostavci odgovara teorijskoj diistribuciji)
odredite vjerojatnost da e u jednom danu kafi posjetiti izmedu 50 i 54 gosta.
Rjeenje.
a) Empirijska distribucija diskretne sluajne varijable kojom modeliramo broj gostiju koji u
jednom danu posjete promatrani kafi dana je tablicom 4.12.
45
46 . . .
67
0.057 0.0143 . . . 0.0143
!
.
Zadatak 4.30.
(zdravlje.sta)
Varijabla zdravlje baze podataka zdravlje.sta (baza podataka opisana je u primjeru 2.4) sadri
subjektivne ocjene u standardnoj skali od jedan do pet osobnog zdravstvenog stanja za svakog
ispitanika. Subjektivnu ocjenu zdravstvenog stanja moemo modelirati sluajnom varijablom X
koja moe primati vrijednosti iz skupa {1, 2, 3, 4, 5}.
a) Pomou zabiljeenih vrijednosti varijable zdravlje odredite empirijsku distribuciju te sluajne varijable X i prikaite je stupastim dijagramom.
b) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji sluajne varijable
X, odredite vjerojatnost da sluajno odabrani ispitanik svoje zdravstveno stanje ocijeni
ocjenom veom od 3. (Rjeenje: P {X > 3} = 0.4118.)
c) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji sluajne varijable
X, odredite to je vjerojatnije - da sluajno odabrani ispitanik svoje zdravlje ocijeni kao
nedovoljno (ocjena 1) ili da ga ocijeni kao izvrsno (ocjena 5)?
(Rjeenje: P {X = 1} = 0.0784, P {X = 5} = 0.1765.)
d) Oznaimo sa Z sluajnu varijablu kojom modeliramo subjektivnu ocjenu zdravstvenog stanja ispitanika enskog spola, a M sluajnu varijablu kojom modeliramo subjektivnu ocjenu
zdravstvenog stanja ispitanika mukog spola. Odredite empirijske distribucije sluajnih varijabli Z i M . Uz pretpostavku o jednakosti empirijskih distribucija stvarnim distribucijama
96
Sluajna varijabla
sluajnih varijabli Z i M odredite je li vjerojatnije da ocjenom izvrstan svoje zdravstveno
stanje ocijeni sluajno odabrana ena ili sluajno odabrani mukarac.
(Rjeenje: P {Z = 5} = 0.0909, P {M = 5} = 0.2.)
Zadatak 4.31.
(gradjevina.sta)
Varijable zaposleni2007, zaposleni2008 i zaposleni2009 baze podataka gradjevina.sta sadre podatke
o broju zaposlenika u 100 graevinskih poduzea srednje veliine u jednoj tranzicijskoj zemlji u
2007., 2008. i 2009. godini. Broj zaposlenika u graevinskim poduzeima srednje veliine moemo modelirati diskretnom sluajnom varijablom X koja prima vrijednosti iz konanog skupa
{0, 1, . . . , n}, gdje je n N. Koristei zabiljeeni broj zaposlenih u promatranim poduzeima
u 2007., 2008. i 2009. godini odredite empirijske distribucije pripadnih sluajnih varijabli (oznaimo ih s X2007 , X2008 i X2009 ). Ako pretpostavimo da dobivene empirijske distribucije odgovaraju stvarnim distribucijama sluajnih varijabli X2007 , X2008 i X2009 , tada nam one mogu
biti svojevrsni indikatori kretanja broja zaposlenih u graevinskim poduzeima srednje veliine u
promatranom trogodinjem periodu. Rijeite sljedee zadatke:
a) Kolika je proporcija (relativna frekvencija) srednje velikih graevinskih poduzea s brojem
zaposlenika veim od 50 u 2007., kolika u 2008., a kolika u 2009. godini?
(Rjeenje: proporcije su 0.83 za 2007., 0.93 za 2008. te 0.95 za 2009. godinu.)
b) Ako sluajno odaberemo jedno srednje veliko graevinsko poduzee, kolika je vjerojatnost
da ono ima vie od 50 zaposlenih u 2007., kolika u 2008., a kolika u 2009. godini?
(Rjeenje: P {X2007 > 50} = 0.83, P {X2008 > 50} = 0.93, P {X2009 > 50} = 0.95.)
c) Rijeite sljedee zadatke za sluaj da je broj zaposlenika vei od 100 te za sluaj da je broj
zaposlenika vei od 200.
(Rjeenje:
P {X2007 > 100} = 0.32, P {X2008 > 100} = 0.38, P {X2009 > 100} = 0.36,
P {X2007 > 200} = 0.03, P {X2008 > 200} = 0.04, P {X2009 > 200} = 0.03.)
Zadatak 4.32.
(komarci.sta)
Baza podataka komarci.sta sadri dio rezultata prouavanja komaraca u jednom movarnom podruju i detaljnije je opisana u zadatku 2.4. Varijable brojM i brojZ sadre broj mukih i enskih
jedinki komaraca uhvaenih jednom klopkom za svako od promatranih 210 mjerenja. Ako elimo broj uhvaenih komaraca tom klopkom modelirati kao sluajnu varijablu, moemo koristiti
diskretnu sluajnu varijablu sa skupom vrijednosti {0, 1, . . . , n}, pri emu je n N ogranienje
klopke (tj. najvei broj komaraca koji mogu biti ulovljeni koritenom klopkom). Sluajnu varijablu kojom modeliramo broj mukih jedinki komaraca oznaimo s M , a sluajnu varijablu kojom
modeliramo broj mukih jedinki komaraca oznaimo sa Z.
a) Koristei zabiljeeni broj mukih i enskih jedinki komaraca u varijablama brojM i brojZ,
odredite empirijske distrbucije sluajnih varijabli M i Z te ih prikaite stupastim dijagramom.
b) Pod pretpostavkom o jednakosti empirijskih i stvarnih distribucija sluajnih varijabli M i
Z odgovorite na sljedee pitanje: to je vjerojatnije - da je u sluajno odabranom mjerenju
u klopku uhvaeno vie od 50 mukih ili vie od 50 enskih jedinki komaraca?
(Rjeenje: P {Z > 50} = 0.1857, P {M > 50} = 0.0381.)
Zadaci
97
Zadatak 4.33.
(auto-centar.sta)
Broj dnevno prodanih automobila u jednom autocentru za proteklih 100 dana dan je u varijabli
automobili u bazi podataka auto-centar.sta opisanoj u primjeru 2.8.
a) Odredite empirijsku distribuciju sluajne varijable kojom modeliramo broj automobila prodanih u jednom danu u promatranom autocentru.
b) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji voditelj autocentra
moe donijeti izvjesne zakljuke o dnevoj prodaji to mu moe pomoi u donoenju poslovnih
odluka. U tom kontekstu odredite vjerojatnost da e u jednom danu biti prodano vie od
13 automobila te vjerojatnost da e biti prodano vie od 9, ali manje od 12 automobila.
Rjeenje.
a) Empirijska distribucija sluajne varijable X kojom modeliramo broj automobila prodanih u
jednom danu dana je tablicom 4.13).
9
10 11 12 13 14 15 16 17
0.07 0.15 0.08 0.11 0.12 0.09 0.11 0.13 0.14
!
.
Zadatak 4.34.
(prihod.sta)
Raspolaemo podacima o prihodima za 153 trgovaka poduzea srednje veliine u jednoj zemlji.
Pretpostavimo da prihod takvih poduzea u promatranoj zemlji moemo modelirati neprekidnom
sluajnom varijablom koja prima vrijednosti iz konanog intervala [0, r], gdje je realan broj r vei
ili jednak od ikada zabiljeenog prihoda trgovakog poduzea srednje veliine u toj zemlji.
a) Koji je najei prijavljeni prihod za ispitana poduzea? (Rjeenje: mod je 999999.)
b) Nacrtajte stupasti dijagram i izraunajte oekivanje i standardnu devijaciju empirijske
distribucije. (Rjeenje: xn = 742398.4, sn = 525905.9.)
c) Uz pretpostavku da empirijska distribucija dobro aproksimira stvarnu distribuciju ove neprekidne sluajne varijable, odredite vjerojatnost da e prihod biti 1200000 i vei te da e
prihod biti izmedu 300000 i 700000 eura? (Rjeenje: 0.196078, 0.078432.)
Zadatak 4.35.
(poduzetnici.sta)
Raspolaemo podacima o dobi 200 poduzetnika u nekoj zemlji. Poznato je da dob poduzetnika
u toj zemlji moemo modelirati kontunuiranom sluajnom varijablom X koja prima vrijednosti
iz konanog intervala [0, s], gdje je s starost najstarijeg poduzetnika u toj zemlji. Pretpostavimo
da u uvjetima ovog primjera empirijska distribucija dobro aproksimira stvarnu distribuciju ove
neprekidne sluajne varijable.
a) Odredite oekivanje i standardnu devijaciju empirijske distribucije.
(Rjeenje: = xn = 42.605, sn = 8.994078.)
b) Koritenjem empirijske distribucije i statistikog naina raunanja vjerojatnosti ocijenite
proporciju poduzetnika mlaih od 35 godina u toj zemlji. (Rjeenje: P {X < 35} = 0.19.)
98
Sluajna varijabla
c) Ocijenite kolika je vjerojatnost da sluajno odabrani poduzetnik ima izmeu 46 i 60 godina.
(Rjeenje: P {46 < X < 60} = 0.275.)
Zadatak 4.36. Uz pretpostavku o dobroj aproksimiranosti stvarne distribucije empirijskom odredite oekivanje, varijancu i standardnu devijaciju svake neprekidne sluajne varijable iz primjera
poglavlja 4.4. Za svaku od navedenih sluajnih varijabli odredite P {|X | < 3} koritenjem
empirijske distribucije. Dobiveni rezultat usporedite s ocjenom vjerojatnosti dobivenom pomou
ebievljeve nejednakosti.
Zadatak 4.37.
(auto-centar.sta)
Varijablu automobili baze podataka auto-centar moemo modelirati diskretnom sluajnom varijablom koja prima vrijednosti iz konanog skupa {0, 1, . . . , n}, gdje je n N najvei ikada prodani
broj automobila u jednom danu u promatranom autocentru. Pretpostavimo da se stvarna i empirijska distribucija (tablica 4.13) ove sluajne varijable podudaraju.
a) Odredite oekivanje, varijancu, standardnu devijaciju i medijan te sluajne varijable.
b) Pomou empirijske distribucije odredite vjerojatnost da ta sluajna varijabla odstupa od
svog oekivanja za manje od tri standardne devijacije te dobiveni rezultat usporedite s
ebievljevom ocjenom te vjerojatnsoti.
Rjeenje.
a) Oekivanje, varijanca, standardna devijacija i medijan sluajne varijable kojom modeliramo broj
automobila prodanih u jednom danu dani su u tablici 4.21.
Variable
automobili
Slika 4.21: Numerike karakteristike sluajne varijable kojom modeliramo varijablu automobili.
b) Iz empirijske distribucije 4.13 ove sluajne varijable slijedi da je
P {|X | < 3} = P { 3 < X < + 3} = P {5.413518 < X < 21.106482} = 1.
Ocjena ove vjerojatnosti dobivena pomou ebievljeve nejednakosti je (pogledajte sliku 4.10)
P {|X | < 3} 1
8
1
= 0.888.
9
9
Poglavlje 5
Statistiko zakljuivanje
jedna varijabla
5.1
U prethodnim poglavljima nauili smo da se veliine promatrane na jedinkama obuhvaenim nekim istraivanjem nazivaju varijablama te da ih u statistici modeliramo
koritenjem sluajnih varijabli. U ovom poglavlju vrijednosti varijable izmjerene na
jedinkama iz uzorka (tj. vrijednosti zabiljeene u stupac baze podataka) smatramo
nezavisnim realizacijama sluajne varijable kojom modeliramo promatranu veliinu.
Sluajna varijabla u potpunosti je zadana svojom distribucijom - tablicom distribucije ako se radi o diskretnoj sluajnoj varijabli, odnosno funkcijom gustoe vjerojatnosti ako se radi o neprekidnoj sluajnoj varijabli. Poznavanje distribucije sluajne
varijable omoguuje izraunavanje vjerojatnosti vezanih uz njezine realizacije te izraunavanje njezinih numerikih karakteristika kao to su npr. oekivanje, varijanca
i standardna devijacija. Problem se javlja u sluaju kad distribucija sluajne varijable nije poznata jer tada ne moemo tono izraunati vjerojatnosti vezane uz
njezine realizacije niti moemo izraunati njezino oekivanje, varijancu i standardnu
devijaciju. Problem ovog tipa ilustriran je u primjeru 5.1.
Primjer 5.1.
(automobili.sta)
Raspolaemo podacima o realizaciji sluajne varijable X koja opisuje potronju goriva novog modela automobila pri brzini od 110 km/h na autocesti za 300 nezavisnih mjerenja. Podaci se nalaze
u bazi podataka automobili.sta. esto nas zanimaju odgovori na pitanja sljedeeg tipa:
Kolika je vjerojatnost da je potronja goriva tog modela u ovim uvjetima manja od 5.5 l?
99
100
x
n =
1X
xi .
n i=1
s2n =
1 X
(xi x
n )2 ,
n 1 i=1
101
p
a za procjenu standardne devijacije koristimo s2n .
Koritenjem metoda opisanih u prethodnom razmatranju moemo doi do aproksimativnog odgovora na pitanja koja smo postavili u primjeru 5.1.
70
23%
60
20%
50
17%
40
13%
30
10%
20
7%
10
3%
0%
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0
frekvencijeirel.frek.mjerenja
Primjer 5.2.
(automobili.sta)
Promotrimo podatke o potronji goriva iz baze podataka automobili.sta. Pretpostavimo da su izmjerene vrijednosti potronje goriva u primjeru 5.1. realizacije neprekidne sluajne varijable X.
Pokuajmo odrediti o kojem se tipu neprekidne sluajne varijable radi tako da kategoriziramo
podatke i nacrtamo histogram frekvencija i relativnih frekvencija (slika 5.1).
potrosnja
Slika 5.1: Histogram izmjerenih vrijednosti potronje goriva kategoriziranih u intervale duljine
0.5.
Histogram sa slike 5.1 sugerira da potronju goriva u danim uvjetima ima smisla modelirati kao
normalnu sluajnu varijablu. Dakle, potrebno je jo odrediti oekivanje i varijancu da bi distribucija bila potpuno odreena. Stvarno oekivanje i varijancu znamo, no obje ove numerike
karakteristike moemo procijeniti na temelju 300 izmjerenih vrijednosti potronje goriva iz baze
podataka automobili.sta:
procjena oekivanja sluajne varijable X:
procjena varijance sluajne varijable X:
x300 = 5.12,
s2300 = 0.972 .
Procjene za oekivanje i varijancu moemo iskoristiti kao parametre normalne distribucije kojom
vrimo modeliranje, tj. moemo uzeti da je X N (5.12, 0.972 ). Sada, pomou ovako odreene
normalne distribucije, moemo izraunati vjerojatnost da je potronja goriva tog modela u navedenim uvjetima manja od 5.5 l. Koritenjem kalkulatora vjerojatnosti u programskom paketu
Statistica slijedi da je
P {X < 5.5} 0.652.
Istu vjerojatnost mogli smo izraunati i koritenjem empirijske distribucije sluajne varijable X.
Tim pristupom dobivamo da je
P {X < 5.5} 0.657.
U prethodnom primjeru dobili smo dva razliita broja kao aproksimacije za P {X <
5.5}. Logino je da se oni razlikuju jer su to samo procjene za stvarnu vjerojatnost
102
Kako interpretirati dobivene rezultate i to nam zapravo govore izraunate aproksimacije o stvarnim vrijednostima vjerojatnosti, oekivanja i standardne devijacije,
lake emo razumjeti nakon to opiemo matematiki model jednostavnog sluajnog uzorka koji koristimo za modeliranje skupa prikupljenih podataka jedne
varijable te pojam procjenitelj.
5.1.1
Do sada smo nauili da varijablu koju istraujemo modeliramo kao sluajnu varijablu, oznaimo je s X. Podatak x koji smo pri tome dobili mjerenjem (odnosno
nekom drugom metodom prikupljanja podataka opisanom u uvodu) jedna je realizacija te sluajne varijable. S obzirom da smo iz te varijable prikupili n podataka,
oznaili smo ih s x1 , . . . , xn . Pri tome je svaki xi jedna realizacija sluajne varijable Xi , i {1, . . . , n} koja je distribuirana jednako kao sluajna varijabla X.
Osim toga, postupak prikupljanja podataka mora biti takav da su mjerenja meusobno nezavisna. Prema tome prirodno je izmjerene podatke x1 , . . . , xn smatrati
103
5.1.2
Intervalna procjena
Iako elimo izvriti procjenu neke numerike vrijednosti jednim brojem, valja priznati realnost, tj. sluajan karakter procjenitelja te pokuati dobiti to kvalitetniju
informaciju iz postupka procjene. U tu svrhu koristimo injenicu da je procjenitelj sluajna varijabla i vrimo procjenu intervalom uz unaprijed izabran broj
(0, 1) koji emo zvati pouzdanost intervalne procjene.
Neka je (0, 1) odabrani broj. Interval pouzdanosti (pouzdani interval) za procjenu neke veliine (recimo oekivanja) ustvari nije pravi
interval s granicama koje su realni brojevi. To je interval koji ima sluajne varijable kao granice i odreen je temeljem zahtjeva da se stvarna
1 Intuitivno smatramo da su sluajne varijable nezavisne ako injenica da se dogodio neki dogaaj prilikom realizacije nekoliko od njih ne mijenja vjerojatnost za pojavu bilo kojeg dogaaja
prilikom realizacije preostalih sluajnih varijabli. Precizniji opis nezavisnosti sluajih varijabli
ostavljemo za Poglavlje 6.
104
vrijednost veliine koju procjenjujemo nalazi u takvom, sluajnom, intervalu s vjerojatnou barem . Svaki puta kad primijenimo formule za
odreivanje granica intervala pouzdanosti na podatke iz uzorka sluajne
varijable, dobit emo obian interval s realnim brojevima kao granicama.
U 100 % sluajeva taj izraunati interval realnih brojeva sadravat e
stvarnu vrijednost veliine koju procjenjujemo.
Dakle, interval pouzdanosti takozvani je sluajni interval, tj. granice su mu
sluajne varijable. Jedna realizacija intervala pouzdanosti , odreena na osnovi
prikupljenog uzorka, obian je interval realnih brojeva. Uobiajeno je u praksi i tu
realizaciju pouzdanog intervala takoer zvati pouzdani interval. Meutim, vano je
znati razliku izmeu pouzdanog intervala kao sluajnog intervala i njegove realizacije
- obinog intervala realnih brojeva. Pri tome je vano voditi rauna o interpretaciji.
Ako smo izabrali pouzdanost 95 %, kaemo da smo procijenili danu veliinu intervalom s pouzdanou 95 %.
5.2
Predmet je ovog poglavlja odreivanje intervala izabrane pouzdanosti za oekivanje sluajne varijable iz koje smo sakupili velik uzorak.
Neka je X n aritmetika sredina uzorka veliine n iz sluajne varijable X. Pretpostavimo da je oekivanje sluajne varijable X nepoznato i iznosi , a varijanca je
poznata i iznosi 2 . Teorija vjerojatnosti pokazuje da aritmetika sredina uzorka,
za velike uzorke, ima priblino normalnu distribuciju s oekivanjem i varijancom
2
n . Koritenjem postupka standardizacije odavde slijedi da sluajna varijabla
X n EX n
Xn
=
Z0 = q
n
V ar(X n )
ima priblino standardnu normalnu distribuciju. Oznaimo sa Z sluajnu varijablu
s N (0, 1) distribucijom. Neka je z broj za koji vrijedi
P {|Z| z } = .
Uoimo da vrijednost pretstavljaju povrinu ispod grafa funkcije gustoe standardne normalne distribucije nad intervalom [z , z ] (slika 5.2), tj.
1
P {|Z| z } =
2
Zz
z
ex
/2
dx = .
105
f (x)
P {|Z| z } =
x
z
z
Slika 5.2: Vjerojatnost P {|Z| z }.
Uvrtavanjem izraza Z 0 =
X n
n
P {|Z 0 | z } = P {z Z 0 z } =
Xn
= P z
n z =
= P X n z X n + z
.
n
n
Dakle, vrijedi:
P
.
X n z , X n + z
n
n
xn z , xn + z
n
n
106
Primjer 5.4.
(automobili.sta)
Za izmjerene vrijednosti potronje goriva u uvjetima danim u primjeru 5.1 intervalom pouzdanosti 95 % procijenit emo oekivanu potronju goriva. Mjere deskriptivne statistike potrebne za
raunanje jedne realizacije intervala pozdanosti 95 % su
n = 300,
x300 = 5.12,
s300 = 0.97.
Primjer 5.5.
(poduzetnici.sta)
Varijabla dob poduzetnika baze podataka poduzetnici.sta sadri dob u godinama za 200 poduzetnika
u nekoj zemlji. Procijenimo oekivanje neprekidne sluajne varijable X kojom modeliramo dob
poduzetnika u toj zemlji intervalima pouzdanosti 95 % i 97 % i usporedimo rezultate. Realizacije
intervala pouzdanosti 95 % i 97 % temeljene na godinama starosti 200 promatranih poduzetnika
jesu
I0.95 = [41.35088, 43.85912], I0.97 = [41.21490, 43.99510].
Uoimo da za ove intervale vrijedi I0.95 I0.97 . Objanjenje lei u injenici da za intervale
razliitih pouzdanosti 1 i 2 takve da je 1 < 2 (npr. 1 = 0.95, 2 = 0.97) vrijedi da je
z1 < z2 ,
pa za istu realizaciju (x1 , . . . , xn ) sluajnog uzorka (X1 , . . . , Xn ) vrijedi
xn z1 , xn + z1
xn z2 , xn + z2
.
n
n
n
n
5.3
107
Vjerojatnost pojavljivanja nekog unaprijed izabranog dogaaja na osnovi nezavisnih ponavljanja istog pokusa moe se dovesti u vezu s pojmom proporcije. To je
posljedica interpretacije vjerojatnosti kao odnosa dijela i cjeline, to je ilustrirano
u primjeru 5.6.
Primjer 5.6. Vjerojatnost izvlaenja asa iz svenja karata odgovara kvocijentu broja asova u
svenju i broja svih karata u svenju.
Vjerojatnost pobjede izabrane stranke na izborima odgovara kvocijentu broja osoba koje e glasati
za tu stranku i ukupnog broja glasaa.
Vjerojatnost izbora pokvarenog proizvoda iz nekog skupa proizvoda odgovara kvocijentu broja
pokvarenih proizvoda i broja proizvoda u skupu iz kojeg biramo.
Na primjer, ako elimo procijeniti proporciju loih proizvoda u nekoj velikoj poiljci
moemo se zapitati: "Kolika je vjerojatnost da izvuem lo proizvod iz poiljke?" Ta
vjerojatnost odgovara proporciji loih proizvoda u poiljci. Dakle, u ovom poglavlju
govorimo i o procjeni proporcije i o procjeni vjerojatnosti pojavljivanja izabranog
dogaaja prilikom nezavisnog ponavljanja istog pokusa istovremeno, tj. za oba
problema koristimo isti tip statistikog modela.
Statitiki model emo opisati za problem procjene vjerojatnosti pojavljivanja izabranog dogaaja, a primjerima emo pokazati kako se on koristi u problemu procjene
proporcije.
Model za rezultat jednog pokusa u kojem se izabrani dogaaj dogodi s vjerojatnou
p je Bernoullijeva sluajna varijaba koja je zadana tablicom distribucije
!
0 1
X=
p (0, 1), q = 1 p.
q p
Pri tome 1 oznaava realizaciju "uspjeha", a 0 realizaciju "neuspjeha". Dakle,
p = P {X = 1} je vjerojatnost realizacije "uspjeha".
Nezavisnim ponavljanjem pokusa n puta biljeimo je li se realizirao "uspjeh" (1)
ili "neuspjeh" (0). Tako prikupljeni uzorak niz je jedinica i nula (ukupno n njih).
elimo na neki nain procijeniti vjerojatnost realizacije "uspjeha", tj. elimo procijeniti parametar p. Meutim, uoimo da je p oekivanje Bernoullijeve sluajne varijable X (potpoglavlje 4.6.1) pa se problem procjene vjerojatnosti p svodi na problem
108
procjene oekivanja sluajne varijable X. Oekivanje sluajne varijable procjenjujemo aritmetikom sredinom uzorka. S obzirom da se ovdje uzorak (x1 , . . . , xn )
sastoji od samih nula i jedinica, aritmetika sredina uzorka odgovara relativnoj
frekvenciji jedinica u uzorku.
p =
f1
.
n
pp
pp
Ovo razmatranje dovodi do sljedeeg zakljuka: ako je p relativna frekvencija jedinica u n-dimenzionalnom uzorku iz Bernoullijeve distribucije i (0, 1), onda e u
Testiranje hipoteza
109
"
p z
pq
, p + z
n
#
pq
,
n
5.4
Testiranje hipoteza
110
5.4.1
111
Odluka koja je donesena statistikim testom moe biti ili pogrena ili ispravna. Pri
tome se mogu dogoditi dva tipa pogrene odluke:
pogreka I. tipa: odbaciti H0 ako je ona istinita
pogreka II. tipa: ne odbaciti H0 ako je H1 istinita.
Vjerojatnost pogreke prvog tipa i pogreke drugog tipa ovisi o stvarnoj distribuciji
sluajne varijable o kojoj testiramo hipotezu. Htjeli bismo da su te vjerojatnosti
pogreke to je mogue manje. Postupak kreiranja statistikog testa, tj. definiranje
pravila na osnovi kojih emo odluivati, vodi rauna upravo o tom zahtjevu. Statistiki test dizajniran je tako da doputa istraivau izbor maksimalne vjerojatnosti
pogreke prvog tipa koju istraiva eli prihvatiti. Te vrijednosti uglavnom se biraju izmeu brojeva 0.01, 0.05 ili 0.1. Odabrana maksimalna vjerojatnost pogreke
prvog tipa zove se razina znaajnosti testa ili nivo signifikantnosti testa i
standardno oznaava s . Vjerojatnost pogreke drugog tipa odreena je dizajnom
testa uz izabrani nivo signifikantnosti. Testovi se dizajniraju uz nastojanje da se
maksimalna vjerojatnost pogreke drugog tipa uini to manjom i ona se, u pravilu,
ne iskazuje u primjeni statistikih testova.
Uzimajui u obzir da emo biti u mogunosti birati maksimalnu vjerojatnost pogreke prilikom odbacivanja nul-hipoteze, to je informacija koju u primjeni testa
referiramo. Npr. rei emo da odbacujemo nul-hipotezu na nivou znaajnosti i prihvaamo hipotezu H1 , to e znaiti da prihvaamo alternativnu
hipotezu uz vjerojatnost najvie da smo pri tome pogrijeili. U suprotnom emo
rei kako podaci ne podupiru tvrdnju da H0 treba odbaciti.
Ovakav neravnopravan odnos izmeu nul-hipoteze i alternativne hipoteze prilikom
kreiranja statistikog testa upuuje na injenicu da nije svejedno kako smo izabrali
hipoteze i pripadni test. Ako je mogue, uputno je u primjeni birati statistiki test tako da alternativna hipoteza odgovara tvrdnji koju elimo
dokazati.
5.5
U ovom poglavlju pokazat emo nekoliko statistikih testova koje moemo koristiti
prilikom rjeavanja problema koji se mogu modelirati analogno kao problem u primjeru o otvaranju nove trake u studentskoj menzi iz prethodnog poglavlja. Nain
razmiljanja koji treba slijediti u problemima tog tipa objanjen je u primjeru 5.8.
112
= 5 = 0
>5
Ako je H0 istinita hipoteza, onda je distribucija aritmetike sredine uzorka priblino normalna s
oekivanjem 0 i varijancom 2 /100. Dakle, pod pretpostavkom istinitosti nul-hipoteze je distribucija sluajne varijable
X 100 0
Z0 =
100
priblino standardna normalna i velika je vjerojatnost realizacije Z 0 blizu nule (slika 5.3). Na
primjer, uoimo da se realizacije vee ili jednake 1.64 pojavljuju s vjerojatnou priblino 0.05, tj.
da je
P {Z 0 1.64} 0.05.
f (x)
P {Z 1.64} = 0.05
x
1.64
113
Dakle, ako odbacimo nul-hipotezu, vjerojatnost da emo time pogrijeiti najvie je oko 0.00135,
to je manje od standardno prihvaenih vrijednosti za maksimalnu vjerojatnost pogreke prvog tipa
(tj. nivoa znaajnosti testa). To znai da je, na nivou znaajnosti = 0.05, opravdano odbaciti
nul-hipotezu i prihvatiti hipotezu da je oekivanje vremena ekanja u redu studentske menze za
vrijeme ruka vee od pet minuta. Za na problem to znai da treba pokrenuti novu traku u menzi.
Izraunatu aproksimaciju maksimalne vjerojatnosti da smo ovom odlukom pogrijeili (vjerojatnost
koja iznosi 0.00135) zovemo p-vrijednost.
P {Z 1.64} = 0.05
x
1.64
Nul-hipoteza:
H0 : = 0 .
Test-statistika:
Z0 =
X n 0
.
/ n
114
normalnu distribuciju. Meutim, ne moemo zanemariti injenicu da se tako distribuirana sluajna varijablo moe realizirati i u intervalu daleko od nule (dodue,
vjerojatnost za to je mala, ali ipak je vea od 0).
Ako oznaimo sa Z sluajnu varijablu s N (0, 1) distribucijom, na osnovi realizacije
z statistike Z 0 na podacima moemo odrediti p-vrijednost kao:
p = P {Z z} ako je alternativna hipoteza oblika H1 : > 0
p = P {Z z} ako je alternativna hipoteza oblika H1 : < 0 .
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju da je
p < , odbacujemo nul-hipotezu na nivou znaajnosti i prihvaamo alternativnu
hipotezu H1 . Ako je p > , zakljuujemo da nemamo dovoljno informacija koje bi
poduprle odluku o odbacivanju nul-hipoteze.
Ukoliko pretpostavimo da na uzorak potjee iz normalne distribucije,
analogno testiranje moemo provesti i na malom uzorku.
Nul-hipoteza:
H0 : = 0 .
Test-statistika:
T =
X n 0
.
sn / n
115
Primjer 5.9.
(televizija.sta)
Godine 1979. osnovna kablovska televizija u SAD-u u prosjeku je stajala 7.37 dolara mjeseno.
Godine 1983. udruenje kablovskih televizija, koje broji vie od 4000 kablovskih sustava, zakljuilo
je da je kablovska televizija poskupjela za samo 8% u odnosu na 1979. te da ne stoji statistiki
znaajno vie od 8 dolara mjeseno. No udruenje potroaa sumnja u te izjave pa emo ih mi,
na temelju 33 podatka u bazi televizija.sta, provjeriti. U tu svrhu postavljamo sljedee hipoteze:
H0 :
H1 :
= 0 = 8,
> 8.
sn = 2.18.
Sada slijedi da je
z =
8.33 8
xn 0
= 0.87.
=
sn / n
2.18 33
5.6
X=
0 1
q p
!
,
p (0, 1),
q = 1 p.
116
Nul-hipoteza:
H0 : p = p0 .
Test-statistika:
p p0
Z0 = q
p0 (1p0 )
n
Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za Z 0 (oznait emo je sa z) blizu 0. Moe se pokazati da, ako je nul-hipoteza
istinita, sluajna varijabla Z 0 ima standardnu normalnu distribuciju. Oznaimo li
sa Z sluajnu varijablu s N (0, 1) distribucijom, na osnovi realizacije z na naem
uzorku moemo odrediti p-vrijednost kao:
p = P {Z z} ako je alternativna hipoteza oblika H1 : p > p0
p = P {Z z} ako je alternativna hipoteza oblika H1 : p < p0 .
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju
da je p < , na nivou znaajnosti odbacujemo nul-hipotezu H0 i prihvaamo
alternativnu hipotezu H1 . Ako je p > , nemamo dovoljno informacija koje bi
poduprle odluku o odbacivanju nul-hipoteze.
Pokazuje se da je uzorak dovoljno velik za provoenje ovog statistikog testa ako
interval
"
#
r
r
p0 (1 p0 )
p0 (1 p0 )
p0 3
, p0 + 3
n
n
ne sadri ni 0 ni 1.
Primjer 5.10.
(vrtic.sta)
U nekom poduzeu zaposleno je vie od 3000 ljudi. Uprava poduzea eli ponuditi pomo svojim
zaposlenicima oko organizacije uvanja djece. Predloene su dvije opcije - otvaranje vrtia u
sklopu poduzea ili plaanje dijela trokova uvanja djece koje bi roditelji organizirali sami. Da
bi se utvrdilo koja je od ovih dviju mjera popularnija meu zaposlenicima, odabran je uzorak od
60 roditelja s malom djecom koji su se izjasnili o tome koju opciju preferiraju. Njihovi odgovori
oznaeni su na sljedei nain:
0
1
117
Pretpostavimo da uprava nee organizirati vrti u sklopu poduzea ako se pokae da je proporcija
roditelja koji podravaju tu ideju manja od 0.75. Da bismo to provjerili, postavljamo sljedee
hipoteze:
H0 :
H1 :
p = p0 = 0.75,
p < 0.75.
Za izraunavanje vrijednosti z treba nam relativna frekvencija (proporcija) roditelja iz uzorka koji
podravaju ideju o organizaciji vrtia u sklopu poduzea:
p = 38/60 = 0.63.
Sada slijedi da je
z = q
p p0
p0 (1p0 )
n
0.63 0.75
= 2.15.
= q
0.750.25
60
Koritenjem kalkulatora vjerojatnosti u Statistici slijedi da je, pod pretpostavkom istinitosti nulhipoteze,
P {Z 0 z} p = P {Z z} = P {Z 2.15} = 0.016.
Neka je nivo znaajnosti testa = 0.05. Budui da je u ovom sluaju p < na nivou znaajnosti
= 0.05 odbacujemo nul-hipotezu i prihvaamo alternativnu hipotezu to u ovoj situaciji znai
da uprava nema osnovu organizirati vrti u sklopu poduzea.
5.7
U ovom poglavlju kao procjenu za stvarnu (nepoznatu) distribuciju sluajne varijable koristimo empirijsku distribuciju odreenu na temelju podataka koje smo skupili
kao nezavisne realizacije sluajne varijable. elimo testirati ima li naa sluajna varijabla neku pretpostavljenu distribuciju (zovemo je teorijska distribucija).
5.7.1
2 test
x1 x2 . . . x k
p1 p2 . . . p k
!
.
118
Neka je n broj prikupljenih podataka. Za testiranje ove hipoteze koristi se teststatistika temeljena na odstupanju stvarnih frekvencija podataka (fi , i = 1, . . . , k)
od teorijskih (npi , i = 1, . . . , k) definirana izrazom
D=
k
X
(npi fi )2
i=1
npi
jagoda
28
narana
16
limun
14
grejp
10
119
Ako elimo ispitati postoji li, na nivou znaajnosti = 0.05, statistiki znaajna preferencija potroaa prema nekom od ponuenih okusa ili je sklonost potroaa jednaka prema svim ponuenim
okusima, moemo provesti 2 test, pri emu je teorijsku distribuciju zadajemo tablicom:
!
vinja jagoda narana limun grejp
.
1/5
1/5
1/5
1/5 1/5
Za provoenje 2 testa u Statistici trebamo napraviti tablicu s empirijskim i teorijskim frekvencijama svih vrijednosti koje sluajna varijabla s danom distribucijom moe primiti. Empirijske
frekvencije dane su u tablici 5.2. Teorijske frekvencije odreujemo iz poznate teorijske distribucije. U naem sluaju sve su teorijske frekvencije jednake i iznose 100 (1/5) = 20. Frekvencije
na temelju kojih provodimo 2 test dane su u tablici 5.3.
okus
vinja
jagoda
narana
limun
grejp
empirijske frekvencije
teorijske frekvencije
32
28
16
14
10
20
20
20
20
20
5.7.2
120
Vano je naglasiti da su oba testa primjenjiva samo u sluaju velikog broja podataka. Ovdje neemo opisivati test statistike na osnovi kojih su testovi kreirani.
Bit e dovoljno da ih nauimo koristiti i pravilno interpretirati njihove rezultate.
U tu svrhu treba voditi rauna o tome da nul-hipoteza kod oba testa ide u prilog
normalnosti distribucije. Ako je p-vrijednost dobivena provoenjem tih testova na
podacima manja od izabranog nivoa znaajnosti , tada odbacujemo nul-hipotezu
koja kae da podaci dolaze iz normalne distribucije.
Primjer 5.12.
(automobili.sta)
U bazi podataka automobili.sta nalaze se rezultati mjerenja prosjene potronje novog tipa automobila pri brzini od 110 km/h na autocesti za 300 nezavisnih mjerenja. Sjetimo se da smo u primjeru
5.2, na temelju stupastih dijagrama 5.1, zakljuili kako ima smisla modelirati ovu varijablu kao
normalnu sluajnu varijablu s oekivanjem x300 = 5.12 i varijancom s2300 = 0.972 . Sada moemo testirati hipotezu o normalnosti distribucije. Zanima nas moemo li, na nivou znaajnosti
= 0.05, tvrditi da je sluajna varijabla kojom modeliramo ovu potronju normalno distribuirana.
KSLillieforsp>0.20
ShapiroWilkp=0.71612
140
frekvencije
120
100
80
60
40
20
0
kategoriziranevrijednostivarijablepotrosnja
Slika 5.5: Stupasti dijagram izmjerenih vrijednosti potronje goriva s p-vrijednostima za Shapiro
Wilk test i Lilleforsovu inaicu Kolmogorov-Smirnovljeva testa.
Sa stupastog dijagrama 5.5 vidimo da su i kod Shapiro Wilk testa i Lilleforsove inaice KolmogorovSmirnovljeva testa p-vrijednosti vee od 0.05. Dakle, na nivou znaajnosti = 0.05 ne odbacujemo
nul-hipotezu da je varijabla normalno distribuirana.
Zadaci
5.8
121
Zadaci
Zadatak 5.1.
(poduzetnici.sta)
Baza podataka poduzetnici.sta sadri podatke o godinama starosti za 200 poduzetnika (varijabla
dob poduzetnika).
a) Procijenite oekivanje i standardnu devijaciju sluajne varijable X kojom se modelira dob
poduzetnika. (Rjeenje: x200 = 42.61, s200 = 8.99.)
b) Kategorizirajte podatke s kojima raspolaete te odluite ima li smisla modelirati ovu varijablu kao normalnu sluajnu varijablu. Ako ima, koritenjem normalne distribucije s
procijenjenim vrijednostima oekivanja i varijance odredite vjerojatnost da je poduzetnik
stariji od 30, ali mlai od 40 godina. Istu vjerojatnost izraunajte i koritenjem empirijske
distribucije sluajne varijable X te usporedite rezultate.
Rjeenje: Iz empirijske distribucije sluajne varijable X slijedi da je P (30 < X < 40) =
0.265. Ako X modeliramo kao N (42.61, 8.99) slijedi da je P {30 < X < 40} = 0.31.
Zadatak 5.2.
(gradjevina.sta)
Baza podataka gradjevina.sta sadri neke podatke o organizaciji i poslovanju za 100 graevinskih
poduzea srednje veliine u nekoj zemlji (za detaljniji opis pogledajte zadatak 4.31).
a) Procijenite oekivanje i standardnu devijaciju sluajne varijable X kojom se modelira prosjena plaa zaposlenika u graevinskim poduzeima srednje veliine u toj zemlji u 2009.
godini. (Rjeenje: x100 = 600.13, s100 = 194.63.)
b) Kategorizirajte podatke s kojima raspolaete te odluite ima li smisla modelirati ovu varijablu kao normalnu sluajnu varijablu. Ako smatrate da ima, koritenjem normalne distribucije s procijenjenim vrijednostima oekivanja i varijance odredite vjerojatnost da je u
2009. godini u sluajno odabranom poduzeu srednje veliine u toj zemlji prosjena plaa
bila via od 500 eura. Istu vjerojatnost izraunajte i koritenjem empirijske distribucije
sluajne varijable X te usporedite rezultate.
Rjeenje: Iz stupastog dijagrama relativnih frekvencija vidimo da normalna distribucija
nije prikladna za modeliranje ovih podataka, a to sugeriraju i izraunate traene vjerojatnosti: iz empirijske distribucije sluajne varijable X slijedi da je P (X > 500) = 0.66, a
ako X modeliramo kao N (600.13, 194.632 ) slijedi da je P {X > 500} = 0.696536.
Zadatak 5.3.
(farmakologija.sta)
Baza podataka farmakologija.sta sadri podatke o koncentraciji nekog lijeka u organizmu za 101
mjerenje provedeno od trenutka unosa lijeka u organizam do trenutka njegove eliminacije iz organizma (varijabla koncentracija lijeka).
a) Kategorizirajte izmjerene vrijednosti varijable koncentracija lijeka i nacrtajte stupasti dijagram frekvencija i relativnih frekvencija. Je li, na temelju nacrtanog stupastog dijagrama,
normalna sluajna varijabla prikladna za modeliranje ovih podataka?
b) Ima li, na temelju nacrtanog stupastog dijagrama, smisla izmjerene vrijednosti varijable
koncentracija lijeka modelirati eksponencijalnom distribucijom? Obrazloite zato.
122
80
79%
70
69%
60
59%
50
50%
40
40%
30
30%
20
20%
10
10%
2 0
2 4 6 8 10 12 14 16
koncentracijalijeka
frekvencijeirelativnefrek.
frekvencijeirelativnefrek.
99%
80
79%
60
59%
40
40%
20
20%
0%
100
2 0 2 4 6 8 10 12 14 16
koncentracijalijeka
0%
Slika 5.6: Stupasti dijagram frekvencija i relativnih frekvencija izmjerenih vrijednosti koncentracije lijeka u organizmu.
b) Meutim, mogue je prepoznati drugu neprekidnu distribuciju kojom je opravdano modelirati varijablu koncentracija lijeka, a to je eksponencijalna distribucija (slika 5.6 (b)). Da
biste na slici 5.6 (b) dobili crvenu krivulju koja predstavlja graf funkcije gustoe eksponencijalne distribucije u programskom paketu Statistica slijedite postupak
Graphs Histograms Advanced Fit type - Exponential.
c) Procjene oekivanja i varijance neprekidne sluajne varijable X kojom modeliramo koncentraciju ovog lijeka u organizmu jesu
x101 = 2.14,
s2101 = 13.96.
Poznato je da je parametar eksponencijalne distribucije jednak recipronoj vrijednosti njezina oekivanja. Tako u ovom primjeru moemo parametar eksponencijalne distribucije
Zadaci
123
Zadatak 5.4.
(iq.sta)
U nekoj zemlji zakon o diskriminaciji na temelju dobi oznaava ilegalnim postupak diskriminacije
radnika starih 40 godina i vie. Oni koji se ne slau sa zakonom argumentiraju da postoje opravdani
razlozi zato poslodavci nerado zapoljavaju osobe koje su blie mirovini. Takoer govore da je
radna sposobnost ljudi te dobi upitna. U bazi podataka iq.sta nalaze se rezultati testa inteligencije
za dvije generacije ispitanika od kojih je jedna mlae dobi, a druga starije (varijable iq1, iq2).
Procijenite oekivanje sluajne varijable kojom je modeliran rezultat provedenog testa inteligencije
intervalom pouzdanosti 95 % za obje dobi. Dajte objanjenje tih intervala i komentar u kontekstu
problema koji je opisan.
Rjeenje. Realizacije intervala pouzdanosti 95 % za oekivanje ovih sluajnih varijabli, temeljene
na podacima iz baze iq.sta, jesu [61.98, 71.69] (za stariju generaciju) i [41.01, 49.6] (za mlau
generaciju).
Zadatak 5.5.
(gradjevina.sta)
Varijabla placa2009 baze podataka gradjevina.sta (za detaljniji opis pogledajte zadatak 4.31) sadri
prosjene mjesene plae zaposlenika u 100 graevinskih poduzea srednje veliine u nekoj zemlji
za 2009. godinu. Intervalom pouzdanosti 95 % procijenite oekivanje sluajne varijable kojom se
modelira prosjena mjesena plaa zaposlenika u 2009. godini u graevinskom poduzeu srednje
veliine u toj zemlji.
Rjeenje. Realizacije intervala pouzdanosti 95 % za oekivanje ove sluajne varijable, temeljena
na podacima iz varijable placa2009, jest [561.51, 638.75].
Zadatak 5.6.
(glukoza.sta)
Baza podataka glukoza.sta (za detaljniji opis pogledajte zadatak 2.2) u varijabli dob sadri podatke
o dobi te u varijabli koncentracija koncentraciju glukoze u krvi za 100 ispitanika (podatke za zadnja
dva ispitanika ne ukljuujemo u postupak jer smo u zadatku 3.14 njihove dobi detektirali kao stree
vrijednosti). Procijenite oekivanje sluajne varijable kojom je modelirana koncentraciju glukoze
u krvi intervalom pouzdanosti 95 %. Interpretirajte rezultat.
Rjeenje. Realizacija intervala pouzdanosti za oekivanje ove sluajne varijable, temeljena na izmjerenim koncentracijama, jest [7.15, 8.24].
124
Zadatak 5.7.
(turizam.sta)
U bazi podataka turizam.sta nalaze se podaci o cijenama sedmodnevnih turistikih aranmana za
dvije osobe u nekim ljetovalitima na obali (varijabla obala) i nekim ljetovalitima na otocima
(varijabla otoci).
a) Ima li smisla varijable obala i otoci modelirati normalnim sluajnim varijablama? Ako
smatrate da ima, koje ete vrijednosti parametara normalne sluajne varijable koristiti i
zato?
b) Procijenite oekivanja sluajnih varijabli kojima modeliramo cijene sedmodnevnih turistikih aranmana na obali i na otocima intervalima pouzdanosti 95 %. to je vee - oekivana
cijena turistikog aranmana na obali ili oekivana cijena turistikog aranmana na otocima?
Na temelju ega izvodite taj zakljuak?
Rjeenje.
a) Varijable obala i otoci ima smisla modelirati normalnim sluajnim varijablama. Parametre
tih normalnih distribucija procjenjujemo aritmetikom sredinom i varijancom podataka iz
promatranih varijabli: Obala N (1672.49, 245.24), Otoci N (2349.29, 269.29).
b) Realizacije intervala pouzdanosti 95 %, temeljene na cijenama sadranima u varijablama
obala i otoci, redom su [1588.24, 1756.73] i [2256.78, 2441.79].
Zadatak 5.8.
(vrtic.sta)
Intervalom pouzdanosti 95 % procijenite proporciju zaposlenika iz primjera 5.10 koji preferiraju
otvaranje vrtia u okviru poduzea.
Rjeenje. Realizacija intervala pouzdanosti 95 % za ovu vjerojatnost, temeljena na zabiljeenim
odgovorima 60 odabranih roditelja, jest [0.51, 0.76].
Zadatak 5.9.
(gradjevina.sta)
Varijabla placa2009 baze podataka gradjevina.sta (za detaljniji opis pogledajte zadatak 4.31) sadri
prosjene mjesene plae zaposlenika u 100 graevinskih poduzea srednje veliine u nekoj zemlji za
2009. godinu. Intervalom pouzdanosti 95 % procijenite vjerojatnost da je u sluajno odabranom
takvom poduzeu prosjena mjesena plaa zaposlenika via od procijenjene oekivane plae u
2009. godini u srednje velikim graevinskim poduzeima u toj zemlji.
Rjeenje. Realizacija intervala pouzdanosti 95 % za traenu vjerojatnost, temeljena na podacima
iz varijable placa2009, jest [0.34, 0.54].
Zadatak 5.10. Neka agencija provela je istraivanje koje je obuhvatilo 1252 osobe iz populacije
osoba koje imaju kreditnu karticu. Njih 180 koristilo je karticu za kupovinu putem interneta.
a) Je li uzorak dovoljno velik za konstruiranje valjanog pouzdanog intervala proporcije korisnika kreditne kartice koji je koriste za kupovinu putem interneta? Obrazloite odgovor.
b) Odredite interval pouzdanosti 98 % za navedenu proporciju. Da ste konstruirali interval
pouzdanosti 90 %, bi li on bio ui ili iri?
Zadaci
125
Rjeenje.
a) Budui da interval
q
q
q
q
p 3 p
, p + 3 p
= [0.11, 0.17] ne sadrni ni nulu ni jedinicu,
n
n
Zadatak 5.11.
(glukoza.sta)
Baza podataka glukoza.sta (za detaljniji opis pogledajte zadatak 2.2) u varijabli dob sadri podatke
o dobi te u varijabli koncentracija koncentraciju glukoze u krvi za 100 ispitanika (podatke za
zadnja dva ispitanika ne ukljuujemo u postupak jer smo u zadatku 3.14 njihove dobi detektirali
kao stree vrijednosti). Odredite interval pouzdanosti 95 % za vjerojatnost da je koncentracija
glukoze za sluajno odabranog ispitanika via od 4, ali nia od 6 mMol/L. Objasnite rezultat.
Rjeenje. [0.213772, 0.39407].
Zadatak 5.12.
(kolokvij.sta)
U bazi podataka kolokvij.sta nalaze se rezultati dvaju kolokvija iz nekog kolegija. Varijabla ocjena
sadri prijedloge ocjena s kojima ispitani studenti pristupaju usmenom ispitu, a varijabla stanovanje
informaciju o mjestu stanovanja studenta (Osijek - student stanuje u Osijeku; drugo mjesto student stanuje u nekom drugom mjestu). Intervalom pouzdanosti 95 % procijenite vjerojatnost da
sluajno odabrani student usmenom ispitu pristupa s ocjenom veom od 3 za svaku od spomenutih
kategorija po mjestu stanovanja. Odredite i interval pouzdanosti 95 % bez obzira na kategorizaciju
studenata po mjestu stanovanja.
Rjeenje.
Procjena vjerojatnosti intervalom pouzdanosti 95 % za studente koji ive u Osijeku:
[0.00473237, 0.357732].
Procjena vjerojatnosti intervalom pouzdanosti 95 % za studente koji ne ive u Osijeku:
[0.00437127, 0.146629].
Procjena vjerojatnosti intervalom pouzdanosti 95 % bez obzira na mjesto stanovanja:
[0.0297206, 0.170279].
Zadatak 5.13.
(lopta.sta)
Jedan se poduzetnik bavi proizvodnjom loptica za golf. U suradnji s projektantima u poduzeu
napravio je preinake na jednom dijelu stroja (ubrizgavalici). Cijeli je proces dizajniran tako da
proizvodi loptice prosjene mase 0.25 unci2 . Kako bi istraio radi li nova ubrizgavalica zadovoljavajue, odabire 40 loptica i biljei njihove mase (podaci su dostupni u bazi lopta.sta). Je li na
nivou znaajnosti = 0.05 oekivana masa loptice statistiki znaajno vea od 0.25 unci?
Rjeenje. H0 : = 0.25, H1 : > 0.25, na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu.
21
unca = 28.35 g
126
Zadatak 5.14. Kako bi odgovorili na pitanje koji faktori ometaju proces uenja u razredu, istraivai na nekom sveuilitu ispitali su 40 uenika koji su trebali ocjenama od 1 (uope ne) do
7 (u velikoj mjeri) ocijeniti razinu do koje odreeni faktori ometaju proces uenja. Faktor koji
je dobio najveu ocjenu je "profesori koji inzistiraju na jednom tonom odgovoru radije nego da
evaluiraju cjelokupno razmiljanje i kreativnost". Deskriptivna statistika za ocjenu razine utjecaja
ovog faktora je x40 = 4.70, s40 = 1.62. Premauje li na nivou znaajnosti = 0.05 oekivanje
ocjene za navedeni faktor znaajno ocjenu 4? Interpretirajte rezultat.
Rjeenje. H0 : = 4, H1 : > 4, na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu.
Zadatak 5.15.
(perec.sta)
Odluili ste prodavati nove perece u svojoj pekari, no niste sigurni sviaju li se oni vaim kupcima.
O tome ovisi hoete li nastaviti prodavati te perece ili ne. U bazi podataka perec.sta nalaze se
podaci dobiveni iz uzorka od 50 kupaca, pri emu su njihovi odgovori oznaeni na sljedei nain:
0
1
2
pereci mi se ne sviaju
pereci mi se sviaju
neodluan sam.
Zadatak 5.16. Reputacija mnogih poslova moe biti snano naruena poiljkom proizvedene
robe koja sadri velik postotak (proporciju) oteenih proizvoda. Na primjer, proizvoa alkalnih
baterija eli biti siguran da je manje od 5% baterija u poiljci oteeno. Pretpostavimo da je
sluajnim izborom iz vrlo velike poiljke odabrano 300 baterija od kojih je 10 oteenih. Je li to
dovoljan dokaz proizvoau da, na nivou znaajnosti = 0.01, zakljui da je proporcija neispravnih
baterija u poiljci manja od 0.05?
Rjeenje. H0 : p = 0.05, H1 : p < 0.05, na nivou znaajnosti = 0.01 ne odbacujemo nulhipotezu. To nije dovoljan dokaz!
Zadatak 5.17. Savjetnik ekolokog kluba na jednom sveuilitu eli potovati zahtjev da klub
ini 10% brucoa, 20% studenata druge godine, 40% studenata tree godine te 30% apsolvenata.
lanstvo ekolokog kluba za ovu godinu brojilo je 14 brucoa, 19 studenata druge godine, 51
studenta tree godine i 16 apslovenata. Provjerite postoji li statistiki znaajna razlika trenutnog
sastava kluba od traenog standarda na nivou znaajnosti = 0.1.
Zadaci
127
Rjeenje. Na nivou znaajnosti = 0.1 odbacujemo nul-hipotezu, tj. na tom nivou znaajnosti
moemo tvrditi da postoji statistiki znaajno odstupanje sastava kluba od traenog standarda.
Zadatak 5.18. U studiji temeljenoj na istraivanju razloga povratka umirovljenih ljudi na posao
postavljena je sljedea teorijska distribucija:
38%
32%
23%
7%
Zadatak 5.19.
(gradjevina.sta)
Varijabla napredovanje baze podataka gradjevina.sta sadri ocjene kadrovskih slubi 100 graevinskih poduzea srednje veliine u nekoj zemlji o tome u kolikoj mjeri uspjeno obavljanje posla
utjee na mogunost napredovanja na bolje radno mjesto. Zabiljeene ocjene interpretiramo na
sljedei nain: 1 - uspjenost obavljanja posla uope ne utjee na mogunost napredovanja, . . . , 5
- napredovanje na bolje radno mjesto iskljuivo ovisi o uspjenosti u obavljanju posla. Pretpostavimo da bi u idealnom sluaju teorijska distribucija sluajne varijable kojom se modelira ta ocjena
bila zadana tablicom
!
1
2
3
4 5
.
1/10 1/10 1/10 1/5 1/2
Postoji li, na nivou znaajnosti = 0.01, statistiki znaajno odstupanje empirijske distribucije
te sluajne varijable od pretpostavljene teorijske distribucije?
Rjeenje. Na nivou znaajnosti = 0.01 odbacujemo nul-hipotezu.
Zadatak 5.20.
(poduzetnici.sta)
Podaci o dobi 200 poduzetnika u nekoj zemlji nalaze se u bazi podataka poduzetnici.sta. Je li
neprekidna sluajna varijabla kojom modeliramo dob poduzetnika u toj zemlji normalno distribuirana? Statistike testove provedite na nivou znaajnosti = 0.05 te komentirajte dobiveni
rezultat s obzirom na konkretan problem koji prouavate.
Rjeenje. Na nivou znaajnosti = 0.05 ne odbacujemo nul-hipotezu da je varijabla normalno
distribuirana.
128
Zadatak 5.21.
(MBA-studij.sta)
Baza podataka MBA-studij.sta sadri podatke o broju bodova na GMAT (Graduate Management
Admission Test) testu za 100 studenata koji ele upisati neki studij. Moemo li na nivou znaajnosti
= 0.05 tvrditi da je sluajna varijabla kojom modeliramo broj bodova na tom testu normalno
distribuirana?
Rjeenje. Na nivou znaajnosti = 0.05 ne odbacujemo nul-hipotezu da je varijabla normalno
distribuirana.
Zadatak 5.22.
(gradjevina.sta)
Baza podataka gradjevina.sta sadri neke podatke o organizaciji i poslovanju za 100 graevinskih
poduzea srednje veliine u nekoj zemlji (za detaljniji opis pogledajte zadatak 4.31). Moemo li na
nivou znaajnosti = 0.05 tvrditi da su sluajne varijable kojima modeliramo prosjenu starost
te plae, trokove i prihode u 2007., 2008. i 2009. godini normalno distribuirane?
Rjeenje. Za sve sluajne varijable na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu i prihvaamo alternativnu hipotezu, tj. zakljuujemo da na tom nivou znaajnosti spomenute sluajne
varijable nisu normalno distribuirane.
Poglavlje 6
Statistiko zakljuivanje
dvije varijable
6.1
U praksi nas esto zanima dolazi li do promjene obiljeja koje prouavamo zbog
provoenja neke aktivnosti, u nekom drugom trenutku ili openito u nekim drugim
uvjetima. Sljedei primjer ilustrira problematiku tog tipa.
Primjer 6.1.
(student.sta)
Neko sveuilite osim klasinog naina studiranja nudi i studiranje temeljeno na konceptu elearninga. Povjerenstvo za praenje kvalitete studiranja eli vidjeti postoji li razlika u dobi izmeu
studenata koji studiraju na klasian nain i onih koji studiraju putem e-learninga. Podaci o dobi
studenata nalaze se u bazi student.sta (primjer 2.10). Uvidom u dobnu strukturu tih dvaju uzoraka
studenata moemo dobiti procjenu distribucije i numerikih karakteristika sluajne varijable kojom
modeliramo dob studenata koji studiraju klasino i dob studenata koji studiraju putem e-learninga
(slike 6.1, 6.2 i 6.3).
From
To
18<=x<23
23<=x<28
28<=x<33
33<=x<38
60.00000
26.00000
6.00000
8.00000
30
16
4
0
60.00000
32.00000
8.00000
0.00000
Slika 6.1: Varijable klasicno studiranje i e-learning - tablica kategoriziranih frekvencija i relativnih
frekvencija
129
130
Variable
klasicno studiranje
e-learning
Variable
klasicno studiranje
e-learning
Variable
klasicno studiranje
e-learning
klasicnostudiranje
elearning
Median
25%75%
MinMax
Slika 6.3: Varijable klasicno studiranje i e-learning - kutijasti dijagrami na bazi medijana.
Budui da se ovdje radi o pruavanju istog obiljeja (dobi) na dva uzorka studenata koji nemaju
zajednikih jedinki, kaemo da prouavamo nevezane uzorke.
Primjer 6.2. Pretpostavimo da elimo usporediti daje li novi tip sjemana kukuruza, razvijen
genetikim metodama, vee prinose nego do sada najee koritena sorta kukuruza na ovim podrujima. Pokusi moraju biti izvedeni sijanjem ovih sorti na poljima koja osiguravaju iste uvjete
za rast. Urod kukuruza po kvadratnom metru parceliranih polja predstavlja bazu podataka na osnovi
koje moemo statistiki zakljuivati o pitanjima razlika. I u ovom se primjeru radi o prouavanju
nevezanih uzoraka.
Primjer 6.3.
(igre.sta)
U jednoj je koli napravljeno istraivanje o tome to djeca misle i osjeaju prema sebi. Test se
sastojao od toga da na poetku testiranja djeca ocjenom od 1 (ne slaem se) do 5 (slaem se)
Razlike u distribuciji
131
ocijene tvrdnju "imam mnogo dobrih osobina". Nakon toga u razdoblju od est tjedana djeca su
igrala etiri igre koje potiu pozitivan stav prema sebi. Poslije tih igara ponovno im je postavljeno
isto pitanje koje su na isti nain ocijenili. U bazi podataka igre.sta nalaze se ocjene prije i nakon
provoenja igara. Uvidom u utjecaj igara na miljenje djece o samima sebi moemo dobiti procjenu
distribucije i numerikih karakteristika sluajne varijable kojom modeliramo ocjene prije i nakon
tretmana igrama (slike 6.4, 6.5 i 6.6).
Variable
prije igara
poslije igara
Variable
prije igara
poslije igara
5
5
3
3
Lower
Upper
Range
Quartile Quartile
5
4
5
2
5
5
5
2
Percent
(poslije
igara)
3.03
15.15
81.82
Slika 6.5: Varijable prije igara i poslije igara - tablice kategoriziranih frekvencija i relativnih
frekvencija
5.2
5.0
4.8
4.6
4.4
4.2
4.0
3.8
3.6
3.4
3.2
3.0
2.8
prijeigara
poslijeigara
Median
25%75%
MinMax
Slika 6.6: Varijable prije igara i poslije igara - kutijasti dijagrami na bazi medijana.
Budui da se ovdje radi o analizi subjektivnog miljenja djeteta o samom sebi na istom uzorku
djece prije i poslije tretmana igrama, kaemo da prouavamo vezane uzorke.
132
6.1.1
Razlike u distribuciji
133
Nul-hipoteza:
H0 : 1 = 2
Test-statistika:
X n X n2
Z0 = q 12
1
22
n1 + n2
(6.1)
Ako je nul-hipoteza istinita, oekujemo da, na temelju podataka izraunata vrijednost za Z 0 (oznait emo je sa z), nije daleko od 0. Meutim, sluajna varijabla Z 0
ima priblino standardnu normalnu distribuciju pa ne moemo zanemariti mogunost realizacije te varijable i u intervalu koji je daleko od nule. Ako oznaimo sa Z
sluajnu varijablu s N (0, 1) distribucijom, na osnovi realizacije z statistike Z 0 na
podacima moemo odrediti p-vrijednost kao:
p = P {Z z} ako je alternativna hipoteza oblika H1 : 1 2 > 0
p = P {Z z} ako je alternativna hipoteza oblika H1 : 1 2 < 0.
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju da je
p < odbacujemo nul-hipotezu na nivou znaajnosti i prihvaamo alternativnu
hipotezu H1 . Ako je p > , zakljuujemo da nemamo dovoljno argumenata koji bi
poduprli odluku o odbacivanju nul-hipoteze.
134
U ovim postupcima aritmetike sredine uzoraka X n1 i X n2 koristimo kao procjenitelje za oekivanja 1 i 2 (njihove realizacije za izmjerene vrijednosti u prvom i
drugom tretmanu su procjene xn1 i xn2 oekivanja 1 i 2 ). Za primjenu ovog testa
potrebno je poznavati i varijancu obiljeja (tj. vrijednosti 12 i 22 ), to u primjenama najee nije sluaj. Meutim, u sluaju velikih uzoraka moemo iskoristiti
korigirane varijance uzoraka s2n1 i s2n2 kao procjene nepoznatih varijanci.
Mali uzorci
Ako pretpostavimo da su varijable u tretmanima normalno distribuirane i da imaju
jednake varijance, tada moemo primijeniti test koji e biti opisan u ovom odjeljku.
Dakle, ako za sluajne varijable X1 i X2 , kojima modeliramo obiljeje u prvom,
odnosno drugom tretmanu, vrijede pretpostavke
X1 N (1 , 12 ) i X2 N (2 , 22 )
12 = 22 ,
postupak testiranja jednakosti oekivanja sluajnih varijabli X1 i X2 moemo provesti i za male uzorke. Postupak testiranja provodi se na sljedei nain:
Nul-hipoteza:
H0 : 1 = 2
Test-statistika:
T0 =
s2p =
X n1 X n2
q
sp n11 + n12
(6.2)
Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za T 0 (oznait emo je s t) blizu 0, a vjerojatnost da se T 0 realizira u intervalu
dalekom od nule, koja nam treba za odreivanje p-vrijednosti, raunamo na temelju
Razlike u distribuciji
135
Nul-hipoteza:
H0 : 12 = 22
Test-statistika:
V0 =
s2n1
s2n2
(6.3)
Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za V 0 (oznait emo je s v) bliska jedinici. Oznaimo s V sluajnu varijablu
koja ima F distribuciju s (n1 1) i (n2 1) stupnjeva slobode. Nul-hipotezu odbacujemo ako za izraunatu vrijednost v vrijedi jedna od sljedeih nejednakosti:
v c1
ili
v c2 ,
,
2
136
P {V c1 } = /2
P {V c2 } = /2
x
c1
c2
Slika 6.7: P {V c1 } + P {V c1 } =
Brojeve c1 i c2 odreujemo kalkulatorom vjerojatnosti pri emu je kljuno za distribuciju odabrati F distribuciju sa stupnjevima slobode (eng. degrees of freedom,
df) (n1 1) i (n2 1). Npr. ako n1 = n2 = 11, tada su oba stupnja slobode F
distribucije jednaka 10 pa je za = 0.05 c1 = 0.27 i c2 = 3.72, a za = 0.1 je
c1 = 0.34 i c2 = 2.98. Dakle, ako je
v c1 ili v c2
na nivou znaajnosti odbacujemo nul-hipotezu H0 i prihvaamo alternativnu hipotezu o postojanju razlike meu varijancama 12 i 22 . Ako je
v (c1 , c2 ),
tada nemamo dovoljno argumenata koji bi poduprli odluku o odbacivanju hipoteze
o jednakosti varijanci.
Primjer 6.4. Neka su s1 = 3.2 i s2 = 3 procjene standardih devijacija sluajnih varijabli X1
i X2 kojima modeliramo neko obiljeje u prvom i drugom tretmanu, redom. Pretpostavimo da
su procjene s1 i s2 dobivene na temelju uzoraka veliina n1 = n2 = 30. Da bismo na nivou
znaajnosti = 0.05 proveli F -test i donijeli odluku koja se tie jednakosti varijanci 12 i 22 ,
raunamo vrijednost test statistike V 0 :
v =
s2n1
s2n2
3.22
1.14.
32
Razlike u distribuciji
137
Primjer 6.5. Neko poduzee bavi se izdavakom djelatnou. Svoje proizvode na prodajna mjesta
dostavlja koristei usluge dvaju transportnih poduzea. Upravu poduzea zanima razlikuju li se
oekivana vremena trajanja dostave za ta dva poduzea ili ne. Da bi se donio zakljuak koji daje
odgovor na pitanje uprave, potrebno je testirati hipotezu o jednakosti oekivanog vremena trajanja
dostave proizvoda za ta dva transportna poduzea. U tu je svrhu analitiar zabiljeio trajanje 30
dostava koje je obavilo prvo i 30 dostava koje je obavilo drugo transportno poduzee te na temelju
tih podataka procijenio oekivanje promatranih sluajnih uzoraka:
prvo transportno poduzee:
drugo transportno poduzee:
H1 : 1 2 < 0.
Pripadna p-vrijednost je
p = P {T < t} = P {T < 2.49} 0.0077.
Budui da je za nivo znaajnosti = 0.05 oito p < , slijedi da na nivou znaajnosti =
0.05 odbacujemo nul-hipotezu i prihvaamo alternativnu hipotezu da je oekivano vrijeme trajanja
dostave za prvo transportno poduzee krae od oekivanog vremena trajanja dostave za drugo
poduzee.
6.1.2
138
tretman 1
x1
x2
..
.
xn
tretman 2
y1
y2
..
.
yn
razlika
d 1 = x1 y1
d 2 = x1 y2
..
.
dn = x1 yn
Dakle, sluajni uzorak koji se ovdje promatra sastoji se od n ureenih parova sluajnih varijabli (X1 , Y1 ), . . . , (Xn , Yn ) pomou kojih definiramo sluajne varijable
razlika Di = Xi Yi , i {1, . . . , n}, gdje su sluajne varijable X1 , . . . , Xn nezavisne
i jednako distribuirane (isto vrijedi za sluajne varijable Y1 , . . . , Yn ). Pretpostavimo
da su i sluajne varijable D1 , . . . , Dn takoer nezavisne i jednako distribuirane. Oekivanje sluajne varijable razlika Di = Xi Yi , i {1, . . . , n}, moe se dobiti kao
razlika oekivanja 1 i 2 sluajnih varijabli Xi i Yi , tj.
D = 1 2 .
Testiranje hipoteze
H0 : 1 2 = 0
sada se svodi na testiranje ekvivalentne hipoteze
H0 : D = 0
koja se odnosi na oekivanje sluajne varijable razlika. Testovi kojima moemo
testirati ovako postavljenu hipotezu opisani su u poglavlju Statistiko zakljuivanje
jedna varijabla.
Uoimo da sada, uz procjene za parametre varijabli svakog pojedinog tretmana,
trebamo i procjene za parametre varijable razlika koje emo koristiti za testiranje
hipoteze. Procjene za oekivanje razlike i varijance razlike su:
n
dn = xn y n ,
s2n =
1 X
(di dn )2 .
n 1 i=1
Primjer 6.6.
(igre.sta)
U primjeru 6.3 opisali smo istraivanje provedeno u jednoj koli o tome to djeca misle i osjeaju
prema sebi. Provjerimo moemo li na nivou znaajnosti = 0.05 prihvatiti hipotezu o postojanju
razlike u oekivanoj ocjeni djece prije i nakon tretmana igrama.
Budui da prilikom provoenje testa o razlici oekivanja p-vrijednost iznosi 0.009, na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu u korist alternativne hipoteze o poveanju oekivane
ocjene djece prije i nakon tretmana igrama.
Razlike u distribuciji
6.1.3
139
Primjer 6.7. Na temelju tisuu dimenzionalnog reprezentativnog uzorka (n1 = 1000) stanovnika
jednog grada utvreno je da je proporcija ljudi u uzorku koji redovito vjebaju pb1 = 25% dok je
u nekom drugom gradu na temelju 2000 dimenzionalnog uzorka (n2 = 2000) utvreno je da je
proporcija redovitih vjebaa pb2 = 28%. Evidentno je da je proporcija ljudi koji redovito vjebaju
u uzorku iz drugog grada vea od proporcije u uzorku iz prvog grada. Mi elimo utvrditi moemo li
na temelju toga zakljuiti da je proporcija stanovnika koji redovito vjebaju u drugom gradu vea
nego u prvom gradu.
U tu svrhu iskoristit emo uobiajeni postupak modeliranja kod zakljuivanja o proporciji. Prilikom
uzimanja uzorka (ispitavanja odabranih osoba vjebaju li ili ne) oznaimo s 1 odgovor "da", a s
0 odgovor "ne". Za modeliranje uzoraka koristimo dvije Bernoullijeve sluajne varijable
X1 =
0
1
1 p1 p1
!
,
X2 =
0
1
1 p2 p2
!
,
p1 , p2 (0, 1),
gdje je p1 vjerojatnost pojave promatranog dogaaja u prvoj populaciji (odgovara proporciji osoba
koje redovito vjebaju u prvoj populaciji), a p2 vjerojatnost pojave istog dogaaja u drugoj populaciji (odgovara proporciji osoba koje redovito vjebaju u drugoj populaciji). Koritenjem relativne
frekvencije kao procjenitelja za vjerojatnost, na temelju uzoraka stanovnika dvaju promatanih gradova procjenjujemo parametre p1 i p2 s pb1 = 25% i pb2 = 28%. Svjesni smo da su procjenitelji
sluajne varijable. Njihove realizacije, tj. procjene ne daju tonu vrijednost parametara. Moemo li, na temelju informacija koje imamo, rei da je u drugom gradu vea proporcija ljudi koji
redovito vjebaju?
140
testom:
Nul-hipoteza:
H0 : p1 = p2
Test-statistika:
Z0 = q
pb1 pb2
pb(1 pb)( n11 +
pb =
1
n2 )
n1 pb1 + n2 pb2
n1 + n2
141
1
2000
1.74,
a p-vrijednost
p = P {Z 1.74} 0.041.
Budui da je p < , odbacujemo nul-hipotezu i na nivou znaajnosti = 0.05 prihvaamo alternativnu hipotezu koja kae da je u drugom gradu vea proporcija ljudi koji redovito vjebaju.
Primjer 6.9. U jednom sluajnom uzorku od 100 stalnih kupaca dane trgovine 43 kupca plaaju
Master karticom (n1 = 100, pb1 = 0.43), a u drugom sluanom uzorku koji takoer broji 100 kupaca
njih 58 plaa Visa karticom (n2 = 100, pb2 = 0.58). Zanima nas moemo li na razini znaajnosti
= 0.05 tvrditi da je proporcija kupaca te trgovine koja za plaanje koristi Visa karticu vea od
proporcije kupaca koji koriste Master karticu.
Budui da je
pb1 < pb2 ,
alternativna hipoteza je oblika
H1 : p 1 p 2 < 0
pa za vrijednost test statistike Z 0 dobivamo:
pb =
100(0.43 + 0.58)
101
=
= 0.505,
100 + 100
200
0.43 0.58
z = q
1
0.505(1 0.505) 100
+
1
100
2.12.
Pripadna p-vrijednost je
p = P {Z z} = P {Z 2.12} = 0.017.
6.2
U prethodnom poglavlju uveli smo pojam vezanih uzoraka kod kojih se, za svaki pojedinani sluaj, biljei vrijednost jednog obiljeja u dva razliita tretmana. Uoimo
da to rezultira tablicom u kojoj imamo unesene vrijednosti (realizacije) tog obiljeja
u svakom pojedinom sluaju (tablica 6.2).
142
tretman 1
x1
x2
..
.
xn
tretman 2
y1
y2
..
.
yn
6.2.1
143
Primjer 6.10. Tvornica bombona koristi dvije linije za pakiranje bombona u vreice. Svaka
od linija povremeno ne zavari vreicu na odgovarajui nain pa se pakiranje ne moe poslati u
prodaju. Radi analize uzroka ovih problema analitiar eli saznati distribuciju broja pogreno
zavarenih pakiranja u jednom satu na svakoj liniji posebno, ali i njihovu zajedniku distribuciju.
Naime, analitiar eli saznati pojavljuje li se povean broj loe zavarenih pakiranja istovremeno na
obje linije pa moda uzroke treba traiti u npr. povremenim smetnjama u elektrinom napajanju
i slinim moguim zajednikim uzrocima.
U tu svrhu analitiar je brojao pogreno zavarena pakiranja sa svake linije tijekom 400 sati i dobio
podatke koje je biljeio u tablicu 6.3.
sat
1
2
3
..
.
400
Tablica 6.3: Frekvencije pogreno zavarenih vreica na prvoj i drugoj liniji po satima.
Dobivene podatke pregledno (sumarno) moemo prikazati koritenjem zajednike tablice frekvencija oblika 6.4.
prva linija
zbroj
0
1
2
3
4
0
22
20
15
6
5
68
druga linija
1
2
3
12
13
12
24
14
30
20
30
10
5
10
32
7
13
31
68
80
115
4
7
10
7
20
25
69
zbroj
66
98
82
73
81
400
Tablica 6.4: Zajednika tablica frekvencija pogreno zavarenih vreica na obje linije.
Oznaimo li s X sluajnu varijablu kojom opisujemo broj pogreno zavarenih vreica po satu s
prve linije, a Y s druge linije, vidimo da je skup svih moguih realizacija pripadnog sluajnog
vektora (X, Y ) skup R(X, Y ) = {(0, 0), (0, 1), . . . , (0, 4), (1, 0), . . . , (1, 4), . . . , (4, 4)} i da se on lako
moe opisati koritenjem oznaka na gornjoj i lijevoj margini zajednike tablice frekvencija 6.4. Iz
tablice frekvencija 6.4 moemo odrediti empirijsku distribuciju sluajne varijable X (tablica 6.5) i
Y (tablica 6.6) koje mogu posluiti za procjenu stvarne (nepoznate) distribucije sluajnih varijabli
X i Y.
144
0
0.165
1
0.245
2
0.205
3
0.1825
4
0.2025
0
0.17
1
0.17
2
0.2
3
0.2875
4
0.1725
0
1
2
3
4
0
0.0550
0.0500
0.0375
0.0150
0.0125
1
0.0300
0.0600
0.0500
0.0125
0.0175
Y
2
0.0325
0.0350
0.0750
0.0250
0.0325
3
0.0300
0.0750
0.0250
0.0800
0.0775
4
0.0175
0.0250
0.0175
0.0500
0.0625
Tablica 6.7: Zajednika tablica relativnih frekvencija pogreno zavarenih vreica na obje linije.
Ovako dobivena zajednika tablica relativnih frekvencija 6.7 odgovara empirijskoj tablici distribucije diskretnog sluajnog vektora (X, Y ) pa se moe koristiti ako elimo npr. procijeniti
koliko iznosi vjerojatnost da na prvoj liniji ne bude pogreno zavarenih pakiranja, a istovremeno
na drugoj liniji budu 4 pogreke, tj. za procjenu vjerojatnosti pojavljivanja odgovarajuih parova
{X = x} {Y = y}. Uoimo da se empirijske distribucije sluajne varijable X i sluajne varijable
Y mogu dobiti sumiranjem odgovarajuih redaka, odnosno stupaca iz zajednike tablice relativnih
frekvencija 6.7, kao to je prikazano u tablici 6.8.
zbroj
0
1
2
3
4
0
0.0550
0.0500
0.0375
0.0150
0.0125
0.17
1
0.0300
0.0600
0.0500
0.0125
0.0175
0.17
Y
2
0.0325
0.0350
0.0750
0.0250
0.0325
0.2
3
0.0300
0.0750
0.0250
0.0800
0.0775
0.2875
4
0.0175
0.0250
0.0175
0.0500
0.0625
0.1725
zbroj
0.165
0.245
0.205
0.1825
0.2025
1
145
x1
X x2
..
.
xm
Y
y1
y2
p(x1 , y1 ) p(x1 , y2 )
p(x2 , y1 ) p(x2 , y2 )
..
..
.
.
p(xm , y1 ) p(xm , y2 )
...
yn
. . . p(x1 , yn )
. . . p(x2 , yn )
..
.
. . . p(xm , yn )
x1
x2
..
.
xm
zbroj
y1
p(x1 , y1 )
p(x2 , y1 )
..
.
p(xm , y1 )
pY (y1 )
Y
y2
p(x1 , y2 )
p(x2 , y2 )
..
.
p(xm , y2 )
pY (y2 )
...
...
...
...
...
yn
p(x1 , yn )
p(x2 , yn )
..
.
p(xm , yn )
pY (yn )
zbroj
pX (x1 )
pX (x2 )
..
.
pX (xm )
1
Tablica 6.10: Tablica distribucije diskretnog sluajnog vektora s istaknutim marginalnim distribucijama.
146
Primjer 6.11.
(djeca.sta)
U bazi podataka djeca.sta nalazi se dio podataka o nekim ocjenama novoroeneta, nainu poroda
i majci iz istraivanja koje je provedeno u jednoj bolnici (pogledati zadatak 6.11). Varijabla uzv
sadri jednu ocjenu ultrazvunog pregleda mozga novoroeneta (u skali od 1 do 4), a varijabla
konvulzije informaciju o tome je li novoroene imalo konvulzije (vrijednost D) ili ne (vrijednost
N ). Oznaimo s X sluajnu varijablu kojom modeliramo pojavu konvulzija, a Y sluajnu varijablu
kojom modeliramo ocjenu ultrazvunog pregleda. Empirijska distribucija sluajnog vektora (X, Y )
i empirijske distribucije njegovih margina X i Y prikazane su tablicom na slici 6.8.
Slika 6.8: Empirijska distribucija sluajnog vektora (X, Y ) kojim modeliramo pojavu konvulzija
i ocjenu ultrazvunog nalaza novoroeneta.
Pomou empirijske distribucije 6.8 moemo procijeniti vjerojatnosti realizacija sluajnog vektora
(X, Y ):
procjena vjerojatnosti da su konvulzije bile prisutne i da je ocjena ultrazvuka 1 (tj. P{X=D,
Y=1}) iznosi 0.0442
procjena vjerojatnosti da su konvulzije bile prisutne i da je ocjena ultrazvuka 4 (tj. P{X=D,
Y=4}) iznosi 0.0158
procjena vjerojatnosti da konvulzije nisu bile prisutne i da je ocjena ultrazvuka 4 (tj. P{X=N,
Y=4}) iznosi 0.1136
procjena vjerojatnosti da su konvulzije bile prisutne (tj. P{X=D}) iznosi 0.0883
procjena vjerojatnosti da je ocjena ultrazvuka 4 (tj. P{Y=4}) iznosi 0.1293.
6.2.2
147
P {X = xi , Y = yj }
p(xi , yj )
=
,
P {X = xi }
pX (xi )
j = 1, . . . , n.
p(xi , yj )
P {X = xi , Y = yj }
=
,
P {Y = yj }
pY (yj )
i = 1, . . . , m.
yj R(Y ),
j = 1, . . . , , n
Y |X = xi ,
xi R(X),
i = 1, . . . , m.
P {X = xi , Y = yj }
=
P {X = xi }
p(xi , yj )
pX (xi ) pY (yj )
=
= pY (yj ).
pX (xi )
pX (xi )
Dakle, ako su X i Y nezavisne, tada vrijedi:
=
148
Primjer 6.12.
(citanje.sta)
Baza podataka citanje.sta sadri rezultate istraivanja o itateljskim navikama stanovnika jednog
grada. Varijabla citanje sadri informaciju o tome proita li ispitanik svaka tri mjeseca barem
jednu knjigu (1 - proita, 0 - ne proita), varijabla spol sadri informaciju o spolu ispitanika (Z
- ena, M - mukarac), a varijabla obrazovanje stupanj obrazovanja svakog ispitanika (NSS - nia
struna sprema, SSS - srednja struna sprema, VSS - visoka struna sprema).
Neka je (X, Y ) sluajni vektor gdje je X sluajna varijabla koja se realizira jedinicom ako stanovnik
tog grada svaka tri mjeseca proita barem jednu knjigu, a inae se realizira nulom, a Y sluajna
varijabla kojom modeliramo strunu spremu stanovnika tog grada (1 - NSS, 2 - SSS, 3 - VSS).
Ako elimo analizirati itateljske navike stanovnika tog grada s obzirom na njihovo obrazovanje,
zapravo trebamo prouavati sluajnu varijablu X uvjetovanu na poznatu (danu) vrijednost sluajne
varijable Y . Tako dolazimo do tablica frekvencija 6.11, 6.12 i 6.13.
X
frekvencija pod uvjetom Y = 1 (NSS)
0
48
1
16
zbroj
64
0
426
1
51
zbroj
477
0
184
1
19
zbroj
203
Frekvencije iz tablica 6.11, 6.12 i 6.13 moemo interpretirati kao frekvencije realizacija novih
sluajnih varijabli X|Y = 1 (X u uvjetima Y = 1), X|Y = 2 (X u uvjetima Y = 2) i X|Y = 3 (X
u uvjetima Y = 3). Njihove distribucije redom zovemo: uvjetna distribucija od X uz uvjet
da je Y = 1, uvjetna distribucija od X uz uvjet da je Y = 2 i uvjetna distribucija od X
uz uvjet da je Y = 3. Ako se te uvjetne distribucije razlikuju od distribucije sluajne varijable
X, moemo to interpretirati kao injenicu da itateljske navike stanovnika (varijabla X) ovise o
stupnju obrazovanja, tj. to sugerira da su X i Y zavisne sluajne varijable.
Kao to smo ve nauili, u statistici su stvarne distribucije uglavnom nepoznate pa ih treba procijeniti na temelju podataka. Tako je i sa stvarnim uvjetnim distribucijama. U tu svrhu pomou
tablica frekvencija 6.11, 6.12 i 6.13 raunamo empirijske distribucije navedenih uvjetovanih sluajnih varijabli (tablice 6.14, 6.15 i 6.16).
149
0
0.75
1
0.25
zbroj
1
0
0.89
1
0.11
zbroj
1
0
0.91
1
0.09
zbroj
1
Tablica na slici 6.9 sadri empirijsku distribuciju sluajnog vektora (X, Y ) (plavi postoci), njegove
marginalne distribucije (ljubiasti postoci), empirijsku distribuciju sluajne varijable X uvjetovanu
na poznatu vrijednost sluajne varijable Y (crveni postoci u istom redu tablice) te empirijsku
distribuciju sluajne varijable Y uvjetovanu na poznatu vrijednost sluajne varijable X (zeleni
postoci u istom stupcu tablice).
Count
Column Percent
Row Percent
Total Percent
Count
Column Percent
Row Percent
Total Percent
Count
Column Percent
Row Percent
Total Percent
Count
Total Percent
Slika 6.9: Tablica distribucije sluajnog vektora (X, Y ) iz primjera 6.12, njegove marginalne i
uvjetne distribucije.
Ako pretpostavimo da empirijska distribucija sluajnog vektora (X, Y ) dobro opisuje njegovu
stvarnu distribuciju, moemo procijeniti npr. sljedee vjerojatnosti:
ako biramo meu ispitanicima koji svaka tri mjeseca proitaju barem jednu knjigu, procjena
vjerojatnosti da izaberemo osobu s visokom strunom spremom, tj. vjerojatnosti P {Y =
3|X = 1}, iznosi 0.22
150
ako biramo meu ispitanicima s niom strunom spremom, procjena vjerojatnosti da izaberemo
osobu koja svaka tri mjeseca proita barem jednu knjigu, tj. vjerojatnosti P {X = 1|Y = 1},
iznosi 0.25.
Analizom tablice 6.9 dolazimo do zakljuka da se odgovarajue empirijske uvjetne i empirijske
marginalne distribucije sluajnog vektora (X, Y ) ne podudaraju pa to moe sugerirati da stupanj
obrazovanja i itateljske navike ispitanika iz populacije koju promatramo nisu nezavisne varijable. Meutim, nezavisnost sluajnih varijabli definirana je na temelju stvarnih, a ne empirijskih
distribucija. Prema tome, zakljuak sugeriran empirijskim distribucijama moe biti pogrean. U
sljedeem poglavlju opisat emo postupak testiranja hipoteze o nezavisnosti dviju sluajnih varijabli
i tako rijeiti nedoumicu koja je ovdje prisutna.
Primjer 6.13.
(citanje.sta)
Ako elimo analizirati itateljske navike s obzirom na spol stanovnika tog grada, tada trebamo
procijeniti distribuciju sluajne varijable X uvjetovane na vrijednost sluajne varijable koja se
realizira jedinicom ako je osoba enskog spola (vrijednost Z varijable spol), a dvojkom ako je osoba
mukog spola (vrijednost M varijable spol). Oznaimo tu sluajnu varijablu sa Z. Empirijske
distribucije uvjetovanih sluajnih varijabli X|Z = 1 i X|Z = 2 dane su u tablici 6.10.
6.3
Analiza zavisnosti
U prethodnom poglavlju koristili smo podatke dobivene kao realizacije dvodimenzionalnog diskretnog sluajnog vektora te smo uveli pojmove uvjetnih distribucija
sluajnog vektora i zavisnosti sluajnih varijabli. Na temelju podataka odredili smo
empirijsku distribuciju sluajnog vektora (X, Y ), marginalne empirijske distribucije, kao i uvjetne empirijske distribucije koje koristimo za procjenu odgovarajuih
Analiza zavisnosti
151
stvarnih distribucija. Meutim, zavisnost sluajnih varijabli definirana je na temelju pravih, a ne empirijskih distribucija. Prirodno je da procjene odstupaju od
stvarnih distribucija pa se postavlja pitanje kako temeljem prikupljenih podataka
provjeriti jesu li sluajne varijable, koje su margine sluajnog vektora, zavisne ili
ne. U ovom poglavlju opisat emo statistiki test kojim moemo testirati hipotezu
o nezavisnosti sluajnih varijabli.
Da bi test bio jasno prezentiran, prikazat emo zajedniku tablicu frekvencija sluajnog uzorka dvodimenzionalnog sluajnog vektora (X, Y ) tablicom 6.17.
x1
X x2
..
.
xm
zbroj
y1
n(x1 , y1 )
n(x2 , y1 )
..
.
n(xm , y1 )
nY (y1 )
Y
y2
n(x1 , y2 )
n(x2 , y2 )
..
.
n(xm , y2 )
nY (y2 )
...
yn
. . . n(x1 , yn )
. . . n(x2 , yn )
..
.
. . . n(xm , yn )
. . . nY (yn )
zbroj
nX (x1 )
nX (x2 )
..
.
nX (xm )
N
y1
x1 pb(x1 , y1 )
X x2 pb(x2 , y1 )
..
..
.
.
xm pb(xm , y1 )
suma pbY (y1 )
Y
y2
pb(x1 , y2 )
pb(x2 , y2 )
..
.
pb(xm , y2 )
pbY (y2 )
...
yn
. . . pb(x1 , yn )
. . . pb(x2 , yn )
..
.
. . . pb(xm , yn )
. . . pbY (yn )
zbroj
pbX (x1 )
pbX (x2 )
..
.
pbX (xm )
1
152
Kod dovoljno velikih veliina uzorka, za testiranje nul-hipoteze da su sluajne varijable X i Y nezavisne, tj. nul-hipoteze
H0 :
i = 1 . . . , m, j = 1, . . . , n,
m X
n
X
(nij Eij )2
Eij
i=1 j=1
153
Primjer 6.14.
(citanje.sta)
Sjetimo se primjera 6.12 u kojemu smo govorili o istraivanju italakih navika stanovnika jednog
grada. Analiza tablice na slici 6.9 sugerirala je postojanje zavisnosti izmeu sluajnih varijabli X
(italake navike, varijabla citanje) i Y (struna sprema, varijabla obrazovanje). Ako sa Z oznaimo sluajnu varijablu kojom modeliramo spol, moemo analizirati i zavisnost sluajnih varijabli
X i Z. Tablice na slici 6.11 prikazuju p-vrijednosti provedenih 2 testova.
Statistic
Pearson Chi-square
M-L Chi-square
Chi-square df
p
12.62149 df=2 p=.00182
10.23795 df=2 p=.00598
Statistic
Pearson Chi-square
M-L Chi-square
Chi-square df
p
8.168828 df=1 p=.00426
8.258259 df=1 p=.00406
6.4
Ako imamo parove podataka iz dvije neprekidne sluajne varijable i elimo zakljuivati o postojanju zavisnosti izmeu njih, metoda iz prethodnog poglavlja nije
prikladna. Naime, da bismo primijenili navedenu metodu, trebali bismo varijable
kategorizirati, a postupak kategorizacije nerijetko moe znaajno utjecati na statistike zakljuke s obzirom da se u tom postupku uvijek gubi dio informacija. Prije
nego to se upustimo u zakljuivanje o zavisnosti izmeu dvije sluajne varijable,
promotrit emo dva prirodna tipa veza meu varijablama.
6.4.1
Deterministika veza
Deterministika veza izmeu dvije varijable jest veza zadana pravilom oblika
y = f (x)
gdje je y zavisna varijabla, x nezavisna varijabla, a f : R R zadana funkcija. Na
primjer, pravilima y = x + 54, y = x2 14x i y = sin (3x) zadane su deterministike
veze meu varijablama x i y jer za svaku doputenu vrijednost nezavisne varijable x
154
moemo izraunati tonu vrijednost zavisne varijable y. Grafovi ovih triju funkcija
prikazani su na slici 6.12.
y
100
4000
80
3000
60
2000
40
-2
1000
20
-40
y
1
-20
20
40
60
-40
(a) y = x + 54
-20
20
(b) y =
x2
40
60
-1
14x
Slika 6.12: Grafovi jedne linearne funkcije, jednog polinoma drugog stupnja i jedne trigonometrijske funkcije.
Primjer 6.15.
(regresija.sta)
Baza podataka regresija.sta, izmeu ostalih varijabli, sadri simulirane vrijednosti varijable x2,
varijable x3 ije su vrijednosti dobivene dodavanjem broja 54 svakoj vrijednosti varijable x2 (x3
= x2 + 54) i varijable x2kv ije su vrijednosti dobivene pomou pravila x2kv = (x2)2 - 14 x2.
Vidimo da se ovdje radi o deterministikim vezama meu varijablama:
veza izmeu varijabli x2 (nezavisna varijabla) i x3 (zavisna varijabla) je linearna
veza izmeu varijabli x2 (nezavisna varijabla) i x2kv (zavisna varijabla) je polinomijalna drugog
stupnja.
Parovi(x2, x2kv) i (x2, x3) podataka iz baze regresija.sta prikazani su na slici 6.13.
140
120
80
x2kv
x3
100
60
40
20
0
40
20
20
x2
40
(a) x3 = x2 + 54
60
80
4500
4000
3500
3000
2500
2000
1500
1000
500
0
500
40
20
20
x2
40
60
80
Slika 6.13: Parovi podataka (x2, x3) i (x2, x2kv) za sve simulirane vrijednosti varijable x2 iz baze
regresija.sta.
6.4.2
U statistikim analizama nije realno oekivati deterministike veze. To emo najlake uoiti ako promatramo dijagram rasprenosti podataka (eng. scatter plot)
155
kojim je dan prikaz ureenih parova podataka iz dviju sluajnih varijabli u koordinatnom sustavu.
Primjer 6.16.
(pozar.sta)
Baza podataka pozar.sta sadrzi podatke o 100 poara na nekom podruju:
varijabla udaljenost sadri udaljenost u kilometrima od mjesta poara do najblieg vatrogasnog
centra
varijabla steta sadri tetu uzrokovanu poarom izraenu u tisuama kuna.
Intuicija nam govori da materijalna teta uzrokovana poarom ovisi o blizini vatrogasnog centra,
tj. da vea udaljenost vatrogasnog centra od mjesta poara sugerira veu tetu. Jezikom matematike to bi znailo da je sugerirana funkcijska veza izmeu udaljenosti mjesta poara od najblieg
vatrogasnog centra i tete nastale poarom rastua. To moemo provjeriti crtajui dijagram rasprenosti vrijednosti varijabli udaljenost i steta (slika 6.14).
16
14
steta
12
10
8
6
4
2
1
2
3
udaljenost
(6.4)
156
uz ostale zahtjeve o kojima e biti rijei u ovom poglavlju. Primjer 6.17 uvodi nas
u problematiku ovakvog modeliranja.
Primjer 6.17. Iz medicinskih istraivanja poznato je da krvni tlak ovjeka ima tendenciju porasta
s porastom dobi. Htjeli bismo, temeljem prikupljenih podataka, argumentirati tu injenicu te
modelirati vezu izmeu krvnog tlaka i dobi. U tu svrhu oznaimo s x dob ispitanika, a s Y (x)
sluajnu varijablu kojom modeliramo krvni tlak za dob x. Krvni tlak za osobu dobi x moramo
modelirati kao sluajnu varijablu s obzirom da je prirodno da osobe iste dobi nemaju i isti krvni
tlak. Pretpostavimo da krvni tlak u populaciji za dob x, moemo modelirati kao normalnu sluajnu
varijablu s oekivanjem (x) i varijancom 2 . Na taj nain svakoj dobi x pripada odgovarajua
normalna razdioba N ((x), 2 ) krvnog tlaka Y (x). injenica da se starenjem poveava krvni tlak
trebala bi se odraziti na funkciju x 7 (x) koja dobi pridruuje oekivanu vrijednost krvnog tlaka
u toj dobi. Ova bi funkcija, prema oekivanjima, trebala biti rastua.
Dakle, cilj je na temelju sparenih mjerenja (x1 , y1 ), . . . , (xn , yn ) dvaju obiljeja ustanoviti prirodu ovisnosti sluajnih varijabli Y1 , . . . Yn (ije su realizacije realni brojevi
y1 , . . . yn ) o neovisnoj varijabli x (ije su izmjerene vrijednosti x1 , . . . xn ). Ako je
matematiki model oblika
Yi = f (xi ) + i ,
i = 1, . . . , n,
6.4.3
Regresijski pravac
6.4.4
157
Statistiki model
i = 1, . . . , n.
Ovdje su:
x1 , x2 , . . . , xn vrijednosti varijable x koje je analitiar izabrao/izmjerio u svrhu
studije.
Y1 , Y2 . . . , Yn sluajne varijable (njihove izmjerene vrijednosti su y1 , . . . , yn ).
1 , . . . , n predstavljaju varijable greke koja je dodana na linearnu vezu ( +
xi ). Ovo su nemjerljive sluajne varijable za koje pretpostavljamo da
su meusobno nezavisne i da sve imaju normalnu distribuciju s oekivanjem
0 i istom varijancom 2 .
i su nepoznati parametri linearne veze koje treba odrediti u postupku modeliranja, tj. procijeniti. To zapravo znai da trebamo procijeniti regresijski
pravac y = + x.
6.4.5
158
yi
y = + x
yi0 = + xi
xi
Ideja metode najmanjih kvadrata je minimizacija sume kvadrata odstupanja teorijskih od eksperimentalnih vrijednosti, tj. procjene
b i b regresijskih parametara i
trebamo odrediti tako da vrijedi:
b =
D(b
, )
=
n
X
X
(eksperimentalne vrijednosti teorijske vrijednosti)2 =
b i)
yi (b
+ x
i=1
2
min
(,)R2
n
X
(yi ( + xi )) =
i=1
min
(,)R2
D(, ).
b D(b
b prima minimalnu vrijedDakle, i biramo tako da za vrijednosti
b i ,
, )
nost koju moe postii po svim moguim vrijednostima (, ). Takve procjene
b i b
nazivamo procjenama u smislu metode najmanjih kvadrata (eng. least square estimates) regresijskih parametara i . Jasno je da je u tom smislu procjena
b
nepoznatog regresijskog pravca y = + x upravo pravac yb =
b + x.
Za zapis procjena
b i b parametara i potrebne su sljedee veliine:
n
1X
xi ,
xn =
n i=1
s2x =
n
X
(xi xn )2 ,
i=1
s2y =
n
X
(yi y n )2 ,
i=1
1X
yi ,
yn =
n i=1
sxy =
n
X
(xi xn )(yi y n ).
i=1
159
sxy
b = 2 ,
sx
b = y n b xn ,
n
X
e2i .
i=1
Primjer 6.18.
(pozar.sta)
U primjeru 6.16 analizom dijagrama rasprenosti 6.14 zakljuili smo da se parovi vrijednosti
varijabli udaljenost i steta grupiraju oko pravca. Metodom najmanjih kvadrata moemo odrediti
jednadbu tog pravca: y = 4.9275 + 2.0224x.
Promotrimo prvi redak baze podataka pozar.sta. U njemu je zabiljeena vrijednost x1 = 1.27
varijable udaljenost i odgovarajua vrijednost varijable steta y1 = 7.54. Pomou procjene regresijskog pravca sada lako moemo izraunati predikciju ovisne varijable koja odgovara vrijednosti
x1 = 1.27:
b 1 = 2.0224 1.27 + 4.9275 = 7.496.
yb1 =
b + x
Odgovarajui rezidual tada iznosi
b 1 ) = 7.54 (2.0224 1.27 + 4.9275) = 0.044.
e1 = y1 (b
+ x
Reziduale za sve parove (xi , yi ) eksperimenatlnih vrijednosti moemo dobiti u programskom paketu
Statistica (slika 6.16).
1 SSE
160
steta
steta
steta
Predicted
Resids
Case number Observed
1
7,54138
7,49736
0,04402
2
9,53428
9,84628
-0,31200
3
10,44098
11,39049
-0,94951
4
9,61824
10,19044
-0,57220
5
6,36490
6,62169
-0,25679
6
11,13802
10,72266
0,41536
7
7,34543
7,42164
-0,07621
8
6,03117
6,75742
-0,72625
9
12,18975
12,33009
-0,14034
10
10,56394
10,82848
-0,26454
11
9,69733
9,58729
0,11004
12
8,22445
8,25901
-0,03457
13
10,51543
10,27136
0,24407
Slika 6.16: Tablica14nekoliko prvih 11,18414
reziduala za varijablu
iz baze podataka pozar.sta.
10,70682 steta0,47731
15
9,48544
8,80569
0,67975
16
10,27078
9,51090
0,75988
17
10,62041
9,71867
0,90174
18
7,74517
7,27790
0,46726
19
10,01676
9,44250
0,57425
20
9,71209
9,72402
-0,01194
Da bismo mogli koristiti ovako dobiven model potrebno je prvo napraviti analizu
21
9,70876
9,09609
0,61267
prihvatljivosti modela
li ispunjene
osnovne pretpostavke
22 kojom istraujemo
11,28620 jesu
11,55389
-0,26769
23
11,36485
11,34583
0,01902
klasinog regresijskog
modela. Sjetimo
se, greke
modela
trebaju biti meusobno
24
6,02905
6,12469
-0,09564
8,75672 varijable
8,60748
0,14923 distribucijom. Dio
nezavisne i jednako 25
distribuirane sluajne
s normalnom
26
8,66642
8,13166
0,53476
analize modela koji27
se provodi u tu7,00702
svrhu obino
se naziva
analiza reziduala.
6,94694
0,06008
28
11,17078
9,78567
1,38510
29
12,03413
10,80427
1,22986
Analiza reziduala30
10,80082
9,45292
1,34789
31
13,29692
11,84669
1,45023
Detaljna analiza reziduala
sloen je8,68915
postupak 7,02338
koji prelazi1,66577
okvire ove knjige. Za po32
33
10,75398
9,96534
0,78864
trebe osnovne statistike analize ovdje navodimo samo nekoliko vizualnih provjera
34
6,55009
6,26171
0,28837
reziduala na temelju35kojih se moe7,52178
naslutiti da7,03401
postoji sumnja
0,48777 u istinitost pretpos36
11,14245
10,49984
0,64261
tavki modela, to automatski znai da je takav model neprihvatljiv
za bilo kakvu
37
9,65339
9,42647
0,22692
daljnu interpretaciju38ili koritenje.12,02257
12,11305
-0,09048
8,88676
8,36640
0,52036
Prva pretpostavka 39
koju
greke
modela
,
.
.
.
trebaju
ispunjavati jest pretposn
40
12,33846 1 11,60051
0,73794
6,71265zakljuujemo
5,74650 na0,96615
tavka o jednakosti 41
varijanci. O tome
temelju procjena greaka
42
10,38281
10,12102
0,26179
modela, tj. na temelju
reziduala
e
,
.
.
.
,
e
.
Zbog
toga
se
umjesto o zakljuivanju
1
n 10,73375
43
10,98514
0,25139
44 greaka esto
7,78689
-0,20347
o jednakosti varijanci
govori o 7,99036
analizi homogenosti
reziduala. Gra45
10,41312
10,57406
-0,16093
fiki prikaz reziduala
predikcijama,
tj. dijagram
46 u ovisnosti o 6,98898
7,25668
-0,26770rasprenosti za toke
8,83598
-0,35075
(b
yi , ei ), i = 1, . . . , n,47moe pomoi 8,48523
kod uoavanja
nehomogenosti
reziduala. Ako u
48
7,68529
7,51621
0,16908
tom dijagramu uoavamo
sustavno7,98252
poveanje7,70226
ili smanjenje
rasprenosti vezano uz
49
0,28026
6.4.6
Statistiko zakljuivanje
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
161
yb
yb
Druga pretpostavka koja se tie greaka jest pretpostavka da su sluajne varijable 1 , . . . n normalno distribuirane s oekivanjem 0 i varijancom 2 . Normalnost distribucije greaka moemo provjeriti provoenjem Kolmogorov-Smirnovljeva
i Shapiro-Wilkova testa na rezidualima e1 , . . . en te grafiki (analizom stupastog
dijagrama reziduala).
Trea pretpostavka koja se tie sluajnih varijabli greaka modela jest pretpostavka
o njihovoj nezavisnosti. Zavisnost greaka moe se manifestirati na razne naine.
Ovdje navodimo samo dva primjera u kojima je oigledno da treba sumnjati u nezavisnost reziduala, a problem se moe uoiti pomou prikladno izabranog dijagrama
rasprenosti.
Prvi sluaj odnosi se na strukturu podataka u dijagramu rasprenosti reziduala u
odnosu na vrijednosti neovisne varijable. Slikom 6.19 prikazan je jedan takav sluaj.
Uoavamo niz pozitivnih reziduala nakon ega slijedi niz negativnih reziduala, zatim
neto dui niz pozitivnih reziduala, itd.
162
xi
Slika 6.19: Ovakav raspored parova (xi , ei ) sugerira meusobnu zavisnost greaka modela.
Drugi sluaj odnosi se na strukturu podataka u dijagramu rasprenosti parova susjednih reziduala. Pretpostavimo da su podaci numerirani tako da je x1 < x2 <
. . . < xn . Slikom 6.20 prikazan je jedan dijagram rasprenosti susjednih reziduala,
tj. parova (ei , ei1 ), i = 2, . . . , n. Ovakav dijagram jasno sugerira negativnu vezu
izmeu susjednih greaka modela.
ei1
ei
Slika 6.20: Ovakav raspored parova (ei , ei1 ) sugerira meusobnu zavisnost greaka modela .
Ako nemamo razloga sumnjati u ispravnost pretpostavki modela, moemo ga koristiti za zakljuivanje o vezi izmeu neovisne i ovisne varijable. Pri tome su za
primjene posebno zanimljivi odgovori na pitanja je li koeficijent smjera pravca razliit od nule te koliki je udio varijablinosti ovisne varijable objanjen modelom, a
koliko je dio ostao neobjanjen.
163
odnosno H1 : < 0,
164
s2xy
,
s2x s2y
R2 [0, 1].
Koeficijent determinacije R2 daje nam informaciju o tome u kolikoj mjeri je rasipanje eksperimentalnih vrijednosti ovisne varijable objanjeno linearnom funkcijom
x 7 +x, a u kolikoj se mjeri radi o tzv. rezidualnom ili neobjanjenom rasipanju
(tu informaciju oitavamo iz broja (1 R2 )).
Velika vrijednost koeficijenta determinacije (sluaj kada je R2 blizu 1) ukazuje na
to da linearan model objanjava velik dio rasprenosti u eksperimentalnim vrijednostima ovisne varijable, tj. da je samo mali dio ostao neobjanjen modelom i treba
ga pripisati sluajnoj greci. Modeli kod kojih je R2 mali nisu informativni za opis
varijable Y koritenjem vrijednosti neovisne varijable x jer opisuju samo mali dio
varijablnosti u podacima iz Y , dok je veliki dio ostao neobjanjen modelom.
Primjer 6.19.
(automobili.sta)
Varijabla potrosnja baze podataka automobili.sta sadri podatke o potronji goriva novog modela
automobila pri brzini od 110 km/h za 300 nezavisnih mjerenja, dok varijabla mjerenje sadri
vrijednosti nekog parametra izmjerenog na tehnikom pregledu tog automobila nakon svake od tih
vonji, a za kojeg se pretpostavlja da bi kod tehniki ispravnog automobila trebao biti linearno
povezan s prosjenom potronjom automobila pri velikim brzinama.
Stoga emo izraditi linearan regresijski model u kojemu je varijabla potrosnja neovisna varijabla,
a varijabla mjerenje ovisna varijabla te ispitati njegovu prikladnost za modeliranje veze izmeu
spomenutih varijabli. Za poetak, promotrimo dijagram rasprenosti vrijednosti varijabli potrosnja
i mjerenje (slika 6.21).
Sa slike 6.21 vidimo da se parovi vrijednosti varijabli potrosnja i mjerenje grupiraju oko regresijskog
pravca y = 2.138 x + 2.3488. Cilj je ovog primjera provjeriti je li linearan regresijski model
Y = 2.138 x + 2.3488 +
(6.6)
dobar izbor za opisivanje ovisnosti vrijednosti varijable mjerenje o potronji goriva u opisanim
uvjetima. U tu svrhu ispitajmo detaljnije svojstva tog modela.
165
mjerenje
y=2.138x + 2.3488
22
20
18
16
14
12
10
8
6
2
5
6
potrosnja
Raw Residuals
3
2
1
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
0
-1
-2
-3
-4
6
10
12 14 16 18
Predicted Values
20
22
166
reziduali=1.0025E^{-15}-1.2001E^{-15} x
3
reziduali
2
1
0
-1
-2
-3
2
5
6
potrosnja
Slika 6.23: Dijagrama rasprenosti reziduala u odnosu na vrijednosti nezavisne varijable u modelu
6.6.
1
0
-1
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
-2
-3
-3
-2
-1
0
ei
frekvencije
167
Iz tablice 6.26 vidimo da je R2 0.816. To znai da je priblino 81.6% rasipanja eksperimentalnih vrijednosti yi oko procjene regresijskog pravca objanjeno linearnim regresijskim modelom, a
ostatak od 19.4% rasipanja modelom je nebjanjeno (tzv. rezidualno) rasipanje.
H1 : > 0,
168
Effect
Intercept
potrosnja
Slika 6.27: Vrijednost t test statistike i pripadna p-vrijednost t-testa za adekvatnost modela 6.6.
Budui da je p 0, pa je manji od zadanog nivoa znaajnosti , slijedi da odbacujemo nulhipotezu na razini znaajnosti i prihvaamo alternativnu hipotezu koja kae da je model 6.6
bolji od nul-modela.
Na temelju provedene analize reziduala, zakljuivanja o koeficijentu smjera regresijskog pravca i
koeficijenta determinacije zakljuujemo da je linearan regresijski model dobar izbor za opisivanje
zavisnosti izmeu potronje goriva novog modela automobila pri velikim brzinama i vrijednosti
promatranog parametra izmjerenog na tehnikom pregledu.
Primjer 6.20.
(pozar.sta)
U primjeru 6.18 procijenili smo regresijski pravac izmeu varijabli udaljenost i steta. Cilj je ovog
primjera provjeriti je li linearan regresijski model
Y = 2.0224 x + 4.9275 +
(6.7)
dobar izbor za opisivanje zavisnosti tete prouzroene poarom o udaljenosti mjesta poara do
najblieg vatrogasnog centra. U tu svrhu napravimo za model 6.7 analizu reziduala.
Analiza reziduala - homogenost varijanci greaka 1 , . . . , n
O homogenosti varijanci reziduala zakljuujemo analizom grafikog prikaza 6.28 na kojem su prikazani parovi (b
yi , ei ) prediktiranih vrijednosti ovisne varijable i pripadnih reziduala.
Raw Residuals
2,5
1,5
0,5
-0,5
-1,5
-2,5
-3,5
4
8
10 12 14
Predicted Values
16
18
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
Koeficijent korelacije
169
reziduali
-1
-2
-3
-1
udaljenost
Slika 6.29: Dijagram rasprenosti reziduala u odnosu na vrijednosti nezavisne varijable u modelu
6.7.
1
0
-1
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
-2
-3
-3
-2
-1
0
ei
Na temelju provedene analize reziduala zakljuujemo da linearan regresijski model nije dobar izbor za opisivanje zavisnosti tete prouzroene poarom o udaljenosti mjesta poara do najblieg
vatrogasnog centra.
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
170
6.5
Koeficijent korelacije
Koeficijent korelacije jedna je numerika karakteristika dvodimenzionalnog sluajnog vektora koja moe posluiti za analizu zavisnosti meu njegovim komponentama.
Neka je (X, Y ) dvodimenzionalan sluajni vektor kojemu svaka komponenta ima varijancu. Koeficijent korelacije je broj definiran izrazom:
XY =
E(X )(Y )
,
X Y
gdje su
= EX,
= EY,
X =
V ar X,
Y =
V ar Y .
(xi xn )(yi y n )
s
.
r= s
n
n
P
P
2
2
(xi xn )
(yi y n )
i=1
i=1
i=1
Koeficijent korelacije
171
n 2r
t=
.
1 r2
Ako je nul-hipoteza istinita, statistika kojoj smo tako izraunali realizaciju ima
Studentovu distribuciju s (n 1) stupnjeva slobode. Oznaimo li s T sluajnu
varijablu koja ima Studentovu distribuciju s (n 1) stupnjeva slobode, pripadnu
p-vrijednost odreujemo na uobiajeni nain:
p = P {T t} ako je alternativna hipoteza oblika H1 : XY > 0
p = P {T t} ako je alternativna hipoteza oblika H1 : XY < 0.
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti i donosimo odluku:
ako je p < , odbacujemo nul-hipotezu i na razini znaajnosti prihvaamo alternativnu hipotezu, tj. kaemo da su sluajne varijable X i Y zavisne
ako je p > , nemamo dovoljno argumenata koji bi poduprli odluku o odbacivanju
nul-hipoteze, tj. kaemo da nemamo dovoljno argumenata tvrditi da su X i
Y zavisne varijable.
Primjer 6.21.
(pozar.sta)
Vratimo se primjeru 6.16. Oznaimo s X sluajnu varijablu kojom modeliramo udaljenost mjesta
poara do najblieg vatrogasnog centra, a Y sluajnu varijablu kojom modeliramo tetu nastalu
poarom. Budui da ne znamo stvarne distribucije sluajnih varijabli X i Y , ne moemo izraunati
koeficijent korelacije XY . No na temelju podataka sadranih u bazi pozar.sta moemo, koristei
172
Correlations (pozar.sta)
Marked correlations are significant at p < .05000
Mean
Std.Dv.
r(X,Y)
r2
t
p
Var. X &
Var. Y
udaljenost 2.080108 0.956215
9.134346 2.058874 0.939286 0.882257 60.47009 0.00
steta
6.6
Zadaci
Zadatak 6.2. Ekonomisti u nekoj zemlji odluili su provjeriti jesu li oekivane cijene u eurima
uvoznih automobila vie u njihovoj zemlji nego u matinoj zemlji odreenog proizvoaa. Prikupljen je uzorak od 50 cijena u promatranoj zemlji i 30 cijena u matinoj zemlji za isto razdoblje.
Na temelju tih uzoraka procijenjena oekivanja i standardne devijacije sluajnih varijabli kojima
se modelira cijena tog tipa automobila su:
promatrana zemlja
matina zemlja proizvoaa
Zadaci
173
Zadatak 6.3. Menadment jednog velikog medicinskog centra eli provjeriti postoji li razlika
u oekivanoj godinjoj neto-plai izmeu bolniarki i bolniara. Na temelju uzoraka bolniarki i
bolniara procijenjena su oekivanja i standardne devijacije sluajnih varijabli kojima se modeliraju
njihove plae:
bolniarke:
bolniari:
Zadatak 6.4.
(student.sta)
Studentska sluba jednog sveuilita eli vidjeti postoji li razlika u oekivanoj dobi meu studentima koji studiraju na klasian nain i studenata koji studiraju putem interneta (e-learning).
Prikupljeni podaci o dobi za 50 studenata iz svake kategorije nalaze se u bazi student.sta. Moemo
li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanoj dobi studenata?
Rjeenje. p = 0.214 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata koji bi
poduprli odluku o odbacivanju nul-hipoteze.
Zadatak 6.5.
(burza.sta)
U bazi podataka burza.sta zabiljeene su cijene nekih dionica na dvije burze smjetene u dva razliita grada - gradu A i gradu B. U jednom financijskom asopisu proitali smo da je oekivana
cijena dionice via na burzi u gradu A u odnosu na oekivanu cijenu na burzi u gradu B. Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanoj cijeni dionice na
promatranim burzama?
Rjeenje. p = 0.0067 pa na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu i moemo tvrditi
da su oekivane cijene dionice na burzi u gradu A statistiki znaajno razliite od oekivane cijene
na burzi u gradu B.
174
Zadatak 6.6.
(manager.sta)
Jedna grupa istraivaa razvila je indeks koji mjeri uspjeh menadera, pri emu vei indeks sugerira
veu uspjenost menadera. Neki istraiva eli usporediti taj indeks za dvije grupe menadera.
Jedna grupa menadera ima mnogo interakcija s ljudima izvan svog radnog okruenja (telefoniranje, razgovori, sastanci i sl.), dok druga grupa ima vrlo rijetke kontakte izvan svog okruenja.
U bazi podataka manager.sta nalaze se indeksi za uzorak menadera iz grupe koja ima mnogo
interakcija (varijabla mnogo interakcija) i indeksi za uzorak menadera iz grupe koja ima malo
interakcija (varijabla malo interakcija). Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanim indeksima uspjenosti menadera iz te dvije grupe pod uvjetima da su
zadovoljene pretpostavke o jednakosti varijanci i o normalnoj distribuiranosti sluajnih varijabli
kojima modeliramo indekse?
Rjeenje. p = 0 pa na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu te tvrdimo da su
oekivani indeksi uspjenosti za te dvije grupe menadera statistiki znajno razliiti.
Zadatak 6.7.
(potrosac.sta)
Marketinki stratezi eljeli bi predvidjeti prijem nove vrste paste za zube kod potroaa prema
njihovoj dobi. U bazi podataka potrosac.sta raspolaemo podacima o dobi u godinama za 20 potroaa koji su kupili novu pastu za zube (varijabla korisnici) i 20 potroaa koji ju jo uvijek nisu
kupili (varijabla nisu korisnici). Moemo li na nivou znaajnosti = 0.01 potvrditi postojanje
razlike u oekivanoj dobi potroaa iz te dvije grupe pod pretpostavkom da normalna distribucija dobro opisuje distribuciju sluajnih varijabli kojima modeliramo njihovu dob te su varijance
jednake?
Rjeenje. p = 0.0296 pa na nivou znaajnosti = 0.01 odbacujemo nul-hipotezu i potvremo
razliitost oekivane dobi potroaa koji su kupili i onih koji jo uvijek nisu kupili novu vrstu paste
za zube.
Zadatak 6.8.
(restorani.sta)
Pretpostavimo da je neki veliki lanac restorana uloio puno novca u reklamu te menader eli usporediti oekivanu dnevnu zaradu tog lanca restorana prije i nakon tog ulaganja. U bazi podataka
restorani.sta nalaze se informacije o dnevnoj zaradi za 22 restorana prije ulaganja u marketing
(varijabla prije) i nakon ulaganja u marketing (varijabla poslije). Moemo li na nivou znaajnosti
= 0.05 potvrditi postojanje razlike u oekivanoj dnevnoj zaradi tog lanca restorana prije i nakon ulaganja u marketing pod pretpostavkom da razlike dnevnih zarada prije i nakon ulaganja u
reklamu moemo modelirati normalnom sluajnom varijablom?
Rjeenje. p = 0.005845 pa na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu i potvrujemo
razliitost oekivane dnevne zarade lanca restorana prije i nakon ulaganja u marketing.
Zadatak 6.9.
(vitamini.sta)
Jedan lijenik tvrdi da se uzimanjem specijalnog vitamina moe poveati snaga dizaa utega. Kako
bi se provjerila njegova tvrdnja odabrano je osam dizaa utega kojima je izmjerena snaga. Nakon
dva tjedna treninga podranih upotrebom specijalnog vitamina ti isti dizai utega su opet testirani
i dobiveni su sljedei rezultati:
Zadaci
175
prije tretmana:
poslije tretmana:
Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlike u oekivanoj snazi dizaa
utega prije i nakon tretmana specijalnim vitaminima pod pretpostavkom da razliku izmjerene
snage prije i nakon tretmana moemo modelirati normalnom sluajnom varijablom?
Rjeenje. p = 0.43 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje
nul-hipoteze o jednakosti oekivanja.
Zadatak 6.10. U sklopu studije organizacije rada poduzea ispituje se efikasnost zaposlenika u
proizvodnom procesu. Ispitivanje se provodi mjerenjem produktivnosti rada na uzorku radnika.
Radi mogueg poveanja produktivnosti na radnim mjestima radnika u uzorku izmijenjen je red
radnih operacija i prostorni razmjetaj sredstava rada. Rezultati mjerenja produktivnosti rada
prije i nakon izmjena dani su u sljedeoj tablici:
prije izmjena:
poslije izmjena:
45, 34, 42, 28, 35, 39, 50, 41, 27, 29,
49, 40, 43, 32, 40, 39, 51, 42, 30, 24.
Zadatak 6.11.
(gradjevina.sta)
Varijable placa2008 i placa2009 u bazi podataka gradjevina.sta sadre prosjene neto-plae u eurima
u 2008. i 2009. godini za 100 graevinskih poduzea srednje veliine u nekoj zemlji. Moemo li na
nivou znaajnosti = 0.05 prihvatiti hipotezu o postojanju razlike u oekivanoj prosjenoj plai
u graevinskim poduzeima srednje veliine u toj zemlji u 2008. i 2009. godini pod pretpostavkom da razlike prosjenih plaa u 2008. i 2009. godini moemo modelirati normalnom sluajnom
varijablom?
Rjeenje. p = 0.164 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje
nul-hipoteze o jednakosti.
Zadatak 6.12. Istraiva prouava uzorke dvaju tipova automobila koji pripadaju istoj klasi, ali
potjeu od razliitih proizvoaa. Na temelju uzorka koji broji 400 automobila prvog proizvoaa
utvrdio je da se 53 automobila pokvarilo tijekom prve godine koritenja, dok je na temelju uzorka
od 500 automobila drugog proizvoaa utvrdio da ih se pokvarilo ak 78. Moemo li na nivou
znaajnosti = 0.05 tvrditi da je vjerojatnije da e se tijekom prve godine koritenja pokvariti
automobil drugog proizvoaa nego automobil prvog proizvoaa?
Rjeenje. p = 0.16 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje
nul-hipoteze o jednakosti vjerojatnosti.
176
veliina uzorka
proporcija mukaraca
proporcija ljudi u braku
menaderi
162
0.95
0.912
MBA studenti
109
0.689
0.534
a) Moemo li na nivou znaajnosti = 0.01 tvrditi da je proporcija mukaraca meu menaderima vea nego meu MBA studentima?
b) Moemo li na nivou znaajnosti = 0.01 tvrditi da je proporcija menadera koji su u braku
vea nego proporcija studenata koji su u braku?
Rjeenje. U oba zadatka je p < 0.00001 pa odbacujemo nul-hipotezu i na nivou znaajnosti = 0.01
potvrujemo alternativnu hipotezu.
Zadatak 6.14. Financijski analitiar ispituje proporciju tekuih rauna s negativnim saldom
veim od doputenog u prosincu u dvije poslovnice jedne banke. Njegova je pretpostavka da je
proporcija takvih rauna u poslovnici II manja nego u poslovnici I. U uzorku koji broji 562 rauna
poslovnice I 75 ih je s nedoputenim prekoraenjem, a u uzorku koji broji 462 rauna poslovnice
II 44 ih je s nedoputenim prekoraenjem. Moete li na razini znaajnosti = 0.05 potvrditi
pretpostavku financijskog analitiara?
Rjeenje. p = 0.029 pa odbacujemo nul-hipotezu i na nivou znaajnosti = 0.05 potvrujemo
hipotezu financijskog analitiara.
Zadatak 6.15.
(gradjevina.sta)
Varijable zaposleni2008 i zaposleni2009 u bazi podataka gradjevina.sta sadre broj zaposlenika u
2008. i 2009. godini za 100 sluajno izabranih graevinskih poduzea srednje veliine u nekoj
zemlji. Moete li na razini znaajnosti = 0.05 potvrditi hipotezu koja kae da je proporcija
takvih poduzea koja zapoljavaju vie od 150 radnika vea u 2009. godini nego u 2008. godini?
Rjeenje. p = 0.4245 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje nul-hipoteze. Dakle, na toj razini znaajnosti ne moemo potvrditi hipotezu navedenu u
zadatku.
Zadatak 6.16. Klub ljubitelja rock-glazbe eli provjeriti postoji li razlika u proporcijama lanova
mlaih od 30 godina i onih starijih od 30 godina koji osim rocka vole i klasinu glazbu. U svrhu
ovog istraivanja ispitano je 56 lanova mlaih od 30 i 65 lanova starih barem 30 godina. Od
ukupnog ispitanog broja klasiku voli sluati 14 lanova mlaih od 30 i 15 lanova starih barem
30 godina. Moete li na razini znaajnosti = 0.05 potvrditi hipotezu koja kae da se navedene
proporcije razlikuju?
Rjeenje. p = 0.7975 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje nul-hipoteze o jednakosti.
Zadaci
177
Zadatak 6.17.
(djeca.sta)
Varijablom apgar1 dana je jedna ocjena vitalnosti novoroeneta odmah nakon poroda, dok je
varijablom komplikacije dana informacija o tome je li tijekom trudnoe bilo komplikacija ili ne.
Oznaimo s X sluajnu varijablu kojom modeliramo ocjenu vitalnosti apgar, a Y sluajnu varijablu
kojom modeliramo prisutnost komplikacija u trudnoi. Odredite empirijsku distribuciju sluajnog
vektora (X, Y ) i njegove marginalne empirijske distribucije te rijeite sljedee zadatke:
a) procijenite vjerojatnost da je ocjena vitalnosti 1 i da su komplikacije bile prisutne
b) procijenite vjerojatnost da je ocjena vitalnosti 4 i da su komplikacije bile prisutne
c) procijenite vjerojatnost da je ocjena vitalnosti 4 i da komplikacije nisu bile prisutne
d) procijenite vjerojatnost pojave komplikacija u trudnoi u promatranoj populaciji
e) procijenite vjerojatnost pojave ocjene vitalnosti 4 u promatranoj populaciji novoroenadi.
Zadatak 6.18.
(citanje.sta)
Baza podataka citanje.sta, koja sadri rezultate istraivanja o italakim navikama stanovnika
jednog grada, opisana je u primjeru 6.12.
a) Procijenite distribuciju sluajnog vektora (X, Y ), gdje X oznaava sluajnu varijablu koja
se realizira jedinicom ako stanovnik tog grada svaka tri mjeseca proita barem jednu knjigu,
a inae se realizira nulom, a Y sluajnu varijablu kojom modeliramo strunu spremu stanovnika toga grada (za NSS Y se realizira jedinicom, za SSS dvojkom, a za VSS trojkom).
b) Pretpostavite da empirijska distribucija sluajnog vektora (X, Y ) odgovara njegovoj stvarnoj distribuciji te procijenite sljedee vjerojatnosti:
- vjerojatnost da sluajno odabrani ispitanik iz populacije koju promatramo u tom gradu
svaka tri mjeseca proita barem jednu knjigu i ima srednju strunu spremu, tj. vjerojatnost P {X = 1, Y = 2}
- vjerojatnost da sluajno odabrani ispitanik iz populacije koju promatramo u tom gradu
svaka tri mjeseca proita barem jednu knjigu, tj. vjerojatnosti P {X = 1}
- vjerojatnost da sluajno odabrani ispitanik iz populacije koju promatramo u tom gradu
ima srednju strunu spremu, tj. vjerojatnosti P {Y = 2}.
Rjeenje.
a) Empirijska distribucija sluajnog vektora (X, Y ) dana je tablicom 6.32.
Summary Frequency Table (citanje.STA)
Table: citanje(2) x obrazovanje(3)
citanje obrazovanje obrazovanje obrazovanje Row
NSS
SSS
VSS
Totals
Count
0
48
426
184
658
6.45%
57.26%
24.73% 88.44%
Total Percent
1
16
51
19
86
Count
2.15%
6.85%
2.55% 11.56%
Total Percent
All Grps
64
477
203
744
Count
8.60%
64.11%
27.28%
Total Percent
178
Zadatak 6.19.
(planovi.sta)
U bazi podataka planovi.sta nalaze se podaci o dobi (varijabla dob), spolu (varijabla spol: 1 mukarac, 2 - ena) i planovima za posao nakon diplomiranja (varijabla poslovni plan: 1 - raditi
puno radno vrijeme, 2 - raditi pola radnog vremena, 3 - uope ne raditi) za uzorak od 129 studenata
jednog sveuilita. Zanima nas postoji li razlika u planovima za posao s obzirom na spol ispitanika.
Moete li na razini znaajnosti = 0.1 potvrditi zavisnost sluajnih varijabli kojima modeliramo
spol ispitanika i planove za posao nakon diplomiranja?
Rjeenje. Dobivena p-vrijednost manja je od nivoa znaajnosti = 0.1 pa zakljuujemo da odbacujemo nul-hipotezu i na nivou znaajnosti = 0.1 moemo rei da podaci potvruju postojanje
zavisnosti izmeu sluajnih varijabli kojima modeliramo spol ispitanika i planove za posao nakon
diplomiranja.
Zadatak 6.21. U primjeru 6.10 procijenite svih pet uvjetnih distribucija za Y uz uvjet da se
dogodi {X = i}, i = 0, 1, 2, 3, 4. Mijenjaju li se te distribucije promjenom dogaaja na koji
uvjetujemo? Moete li to objasniti i povezati s pojmom zavisnosti i nezavisnosti sluajnih varijabli
X i Y?
Zadatak 6.22.
(krv.sta)
U bazi podataka krv.sta nalaze se podaci o mjerenim vrijednostima nekoliko razliitih analiza krvi
u definiranoj populaciji bolesnih osoba. Analitiar eli istraiti moe li se odrediti veza izmeu
izmjerenih vrijednosti ovih analiza. Utvrivanje veze i jasno uspostavljanje zakona koji ih povezuje
smanjilo bi broj potrebnih pretraga krvi. Naime, trebalo bi napraviti samo one koje su meusobno
neovisne, dok bi se ostale mogle na osnovi njih prognozirati. Za podatke iz baze prikaite svake
dvije varijable u dijagramu rasprenja i kratko ga analizirajte.
f (x) =
1
x + 3,
2
f (x) = 2x
Zadatak 6.24.
(krv.sta, regresija.sta)
a) Koristei bazu podataka krv.sta procijenite regresijski pravac izmeu varijabli CD4 i CD8.
Odredite vrijednosti reziduala. Ponovite postupak za jo nekoliko parova varijabli.
Zadaci
179
b) Koristei bazu podataka regresija.sta procijenite regresijski pravac izmeu varijabli x1 i x2.
Odredite vrijednosti reziduala i prokomentirajte dobiveni rezultat.
Zadatak 6.25.
(statistika.sta)
Mnogi studenti odluili su ispit iz Statistike poloiti putem kolokvija. Pri tome se postignuti
bodovi na sva etiri kolokvija zbrajaju i na temelju zbroja bodova donosi se odluka o tome ima
li student pravo izai na usmeni dio ispita. U bazi podataka statistka.sta nalazi se zbroj bodova
prva dva kolokvija (varijabla kol-1-2) i ukupan broj bodova nakon svih provedenih kolokvija (varijabla ukupno). Koju ete od ovih varijabli promatrati kao neovisnu, a koju kao ovisnu varijablu?
Odredite procjenu regresijskog pravaca te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u izmjerenim vrijednostima ovisne varijable objanjen linearnim
regresijskim modelom?
Zadatak 6.26.
(ptsp.sta)
Baza podataka ptsp.sta sadri podatke o ispitanicima kojima je dijagnosticiran posttraumatski
stresni poremeaj. Na primjer, varijabla ptspb2 sadri rezultate testova nakon terapije nekim
lijekom, a varijabla ptspb odraava stanje prije provedene terapije. Koju ete od ovih varijabli
promatrati kao neovisnu, a koju kao ovisnu varijablu? Odredite procjenu regresijskog pravaca te
odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?
Analogno napravite za parove varijabli ptspc i ptspc2, te ptspd i ptspd2.
Zadatak 6.27.
(gradjevina.sta)
Varijable godisnja placa2009 i troskovi2009 u bazi podataka gradjevina.sta sadre podatke o prosjenoj godinjoj plai zaposlenika i ukupnim trokovima u 2009. godini za 100 graevinskih poduzea
srednje veliine u nekoj zemlji. Ako znamo da se plae zaposlenika uraunavaju u ukupne trokove poduzea, koju ete od ovih varijabli promatrati kao neovisnu, a koju kao ovisnu varijablu?
Odredite procjenu regresijskog pravaca te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?
180
Zadatak 6.28.
(gradjevina.sta)
Koristei bazu podataka gradjevina.sta procijenite koeficijent korelacije za varijable godisnja placa2009
i troskovi2009. Rezultat usporedite s rezultatima regresijske analize za isti par varijabli.
Zadatak 6.29.
(krv.sta, regresija.sta)
Koristei baze podataka krv.sta i regresija.sta procijenite koeficijent korelacije za sve parove varijabli. Rezultat usporedite s rezultatima regresijske analize za iste parove varijabli.
Zadatak 6.30.
(regresija1.sta, regresija2.sta, regresija3.sta, regresija4.sta)
Koristei baze regresija1.sta, regresija2.sta, regresija3.sta i regresija4.sta procijenite regresijski pravac
izmeu varijabli tih baza podataka. to uoavate? Moete li na ovoj razini donijeti grubu ocjenu
o primjerenosti koritenja linearnog modela za opisivanje veze meu ovim varijablama? Koji bi
model bio prikladniji i zato?
Zadatak 6.31.
(gorivo.sta)
U bazi podataka gorivo.sta varijabla udaljenost sadri podatke o udaljenosti radnog mjesta od
mjesta stanovanja za 100 sluajno odabranih zaposlenika jednog poduzea, a varijabla troskovi
iznos u kunama koji ti zaposlenici troe na gorivo da bi se dovezli do posla. Procijenite regresijski
pravac izmeu varijabli udaljenost i troskovi te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?
Zadatak 6.32.
(glukoza.sta)
Koristei bazu podataka glukoza.sta, ije su varijable opisane u primjeru 2.2, procijenite regresijski
pravac izmeu varijabli dob i koncentracija te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?
Zadatak 6.33.
(apartmani.sta)
U bazi podataka apartmani.sta varijabla udaljenost sadri podatke o udaljenosti apartmana do
najblie plae za 100 sluajno izabranih apartmana u nekom turistikom mjestu, a varijabla cijena
cijenu apartmana po danu izraenu u kunama. Procijenite regresijski pravac izmeu varijabli
udaljenost i cijena te odgovorite na sljedea pitanja:
Zadaci
181
Zadatak 6.34.
(servis.sta)
U bazi podataka servis.sta varijabla broj km sadri podatke o prijeenom broju kilometara za 100
automobila istog tipa prije obavljenog prvog servisa, a varijabla servis kn cijenu servisa nakon tog
broja kilometara. Procijenite regresijski pravac izmeu varijabli broj km i servis kn te odgovorite
na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?
182
Poglavlje 7
Zadaci za vjebu
Zadatak 7.1. U razredu koji broji 25 uenika zakljune ocjene iz matematike na kraju kolske
godine raspodijeljene su na sljedei nain: tri uenika imaju peticu, sedam uenika etvorku, osam
uenika trojku, pet uenika dvojku, a dva uenika moraju pristupiti popravnom ispitu (imaju
jedinicu). Ocjene uenika sadrane su u varijabli ocjena baze podataka razred.sta. Sljedee zadatke
rijeite samostalno te rezultate provjerite koritenjem programskog paketa Statistica.
1. Sastavite tablicu frekvencija i relativnih frekvencija za varijablu ocjena.
2. Koristei Statisticu grafiki prikaite frekvencije i relativne frekvencije (stupastim i krunim
dijagramima).
3. Izraunajte aritmetiku sredinu, mod, raspon te varijancu i standardnu devijaciju ovog
skupa podataka.
4. Izraunajte numerike karakteristike ovog skupa podataka koje su vam potrebne za kutijasti
dijagram na bazi medijana te ga nacrtajte.
Zadatak 7.2.
(desno.sta)
Baza podataka desno.sta sadri dio podataka iz istraivanja kojim se prouava uestalost koritenja
desne ruke u skupini denjaka, ljevaka i ambidekstera jedne populacije. Varijabla sum sadri ocjenu
uestalosti koritenja desne ruke u deset izabranih radnji i moe primiti vrijednosti od 0 do 30.
Varijabla objektivno sadri informaciju o tome je li osoba denjak, ljevak ili ambidekster. Sve
opisane varijable moemo modelirati diskretnim sluajnim varijablama koje primaju vrijednosti
iz prikladno konstruiranih skupova - odredite te skupove, tj. slike tih sluajnih varijabli. Uz
pretpostavku o jednakosti stvarnih i empirijskih distribucija tih sluajnih varijabli rijeite sljedee
zadatke.
1. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo denjaka.
2. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo ljevaka.
3. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke manja ili jednaka 10.
4. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke barem 10.
183
184
Zadaci
5. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
uestalost koritenja desne ruke nije 20.
6. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke vea od 20.
7. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke 30.
8. Uz pretpostavku da stvarna distribucija sluajne varijable kojom modeliramo varijablu sum
odgovara empirijskoj distribuciji te varijable, odredite njeno oekivanje, varijancu i standardnu devijaciju.
9. Uz pretpostavku da stvarna distribucija sluajne varijable kojom modeliramo varijablu sum
odgovara empirijskoj distribuciji te uz oznaku = EX, 2 = V ar X odredite sljedee
vjerojatnosti: P {|X | }, P {|X | 2} i P {|X | 3}.
10. Uz pretpostavku da stvarna distribucija sluajne varijable kojom modeliramo varijablu sum
odgovara empirijskoj distribuciji, odredite jedan medijan te sluajne varijable. Takoer,
odredite P {|X m| }, P {|X m| 2} i P {|X m| 3}, gdje je m medijan koji
ste odabrali. Diskutirajte o razlikama u odnosu na prethodno pitanje.
Zadatak 7.3.
(tlak.sta)
Baza podataka tlak.sta sadri podatke o krvnom tlaku utvrene anketom na reprezentativnom
uzorku pacijenata jedne klinike:
varijable spol i dob sadre informacije o spolu i broju godina za svakog ispitanika
varijable sistolicki-tlak i dijastolicki-tlak sadre vrijednosti sistolikog i dijastolikog tlaka za svakog
ispitanika
varijabla tlak klasificira vrijednosti sistolikog i dijastolikog tlaka u tri kategorije: N - nizak tlak,
O - normalan tlak, P - povien tlak
varijabla puls sadri broj otkucaja srca u minuti (puls) za svakog ispitanika
varijabla opce-stanje sadri subjektivnu ocjenu (u standardnoj skali od 1 do 5) vlastitog zdravstvenog stanja svakog ispitanika.
Na temelju podataka sadranih u ovoj bazi rijeite sljedee zadatke:
1. Odredite tablice frekvencija i relativnih frekvencija, nacrtajte i proanalizirajte stupaste dijagrame frekvencija i relativnih frekvencija te kruni dijagram s prikazom relativnih frekvencija za podatke sadrane u varijabli opce-stanje. Kolike su frekvencija i relativna frekvencija
ispitanika koji su svoje ope zdravstveno stanje ocijenili barem ocjenom 4?
2. Odredite tablice frekvencija i relativnih frekvencija za podatke sadrane u varijabli opcestanje posebno za kategoriju ispitanika enskog spola i kategoriju ispitanika mukog spola
te nacrtajte pripadne stupaste dijagrame frekvencija i relativnih frekvencija. Takoer
nacrtajte stupaste dijagrame frekvencija i relativnih frekvencija za podatke sadrane u
varijabli opce-stanje kategorizirane po vrijednostima varijable tlak (N, O, P). Proanalizirajte
dobivene stupaste dijagrame.
3. Odredite i ukratko protumaite sljedee numerike karakteristike podataka sadranih u
varijabli dob: aritmetiku sredinu, medijan, donji i gornji kvartil, mod, raspon i standardnu
Zadaci
185
Zadatak 7.4.
(glukoza.sta)
Baza podataka glukoza.sta opisana je u primjeru 2.2. Poznato je da na nivou znaajnosti = 0.05
moemo prihvatiti hipotezu o normalnoj distribuiranosti podataka sadranih u varijablama dob i
glukoza.
1. Intervalom pouzdanosti 95% procijenite oekivanu koncentraciju glukoze.
2. Postavite potrebne hipoteze i prikladnim testom provjerite je li na nivou znaajnosti =
0.05 oekivana koncentracija glukoze statistiki znaajno vea od 5.5 mMol/L.
3. Intervalom pouzdanosti 95% procijenite proporciju ispitanika kod kojih je koncentracija
glukoze u krvi izmeu 4 i 6 mMol/L.
4. Postavite potrebne hipoteze i prikladnim testom provjerite je li na nivou znaajnosti =
0.05 proporcija ispitanika kod kojih je koncentracija gluoze vea od 8 mMol/l statistiki
znaajno razliita od 0.1.
5. Protumaite sve dobivene rezultate u kontekstu promatranog problema.
Zadatak 7.5.
(uvis.sta)
Baza podataka uvis.sta sadri bodove koje su studenti tree godine preddiplomskog studija matematike prikupili na kolokvijima iz Uvoda u vjerojatnost i statistiku (UVIS):
varijable kol-1 i kol-2 sadre bodove s redovnog prvog i drugog kolokvija
varijable kol-P1 i kol-P2 sadre bodove s popravnih kolokvija
varijable konacno-1 i konacno-2 sadre konane bodove prikupljene na prvom i drugom kolokviju
varijabla ukupno-1-2 sadri ukupan broj bodova nakon provedenih redovnih i popravnih kolokvija
varijabla ocjena sadri prijedlog konane ocjene iz kolokvija
varijabla stanovanje sadri informacije o mjestu stanovanja studenata kategorizirane na sljedei
nain - Osijek (student stanuje u Osijeku), Drugo mjesto (student stanuje u nekom drugom
mjestu).
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
1. Kojeg su tipa varijable kol-1 i ocjena?
2. Odredite empirijsku distribuciju varijable ocjena.
186
Zadaci
Zadatak 7.6.
(uvis.sta)
Analizirajte bazu podataka uvis.sta opisanu u zadatku 7.5.
1. Analizirajte razlike meu rezultatima na redovnim i popravnim kolokvijima za sve studente
te posebno za studente koji stanuju u Osijeku i studente koji stanuju u nekom drugom
mjestu.
2. Analizirajte veze izmeu rezultata na kolokvijima i prijedloga konane ocjene iz kolokvija?
to moete zakljuiti o utjecaju popravnih kolokvija na konanu ocjenu?
3. Napravite usporedbu predloenih konanih ocjena za studente koji ive u Osijeku i studente
koji ive u drugim mjestima.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.
Zadatak 7.7.
(slobodno-vrijeme.sta)
Baza podataka slobodno-vrijeme.sta sadri podatke o slobodnom vremenu ispitanika jedne ankete:
varijable Spol i Godine sadre informacije o spolu, odnosno godinama starosti ispitanika
varijable TV i Kava sadre podatke koliko sati dnevno ispitanici gledaju televiziju, odnosno koliko
alica kave dnevno popiju
varijabla Hobiji sadri informacije o tome ima li ispitanik neki hobi ili ne
varijabla Zadovoljan sadri informacije o tome koliko je ispitanik zadovoljan iskoritenou svoga
slobodnog vremena (1 - nisam zadovoljan, 2 - nije loe, 3 - poprilino sam zadovoljan, 4 zadovoljan sam, 5 - prezadovoljan sam).
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
Zadaci
187
Zadatak 7.8.
(slobodno-vrijeme.sta)
Analizirajte bazu podataka slobodno-vrijeme.sta koja je opisana u zadatku 7.7.
1. Analizirajte spolnu i starosnu strukturu uzorka u ovom primjeru te varijablu TV za sve
kategorije varijable Spol i prikladno kategorizirane vrijednosti varijable Godine.
2. Analizirajte varijablu TV za razliite kategorije varijable Hobiji za sve ispitanike zajedno te
posebno za ispitanike mukog i posebno za ispitanike enskog spola. Napravite usporedbe
rezultata za muki i enski spol.
3. Promatrajte dvije dobne skupine ispitanika - ispitanike mlae od 30 godina i one stare barem
30 godina. Napravite usporedbu zadovoljstva iskoritenou svog slobodnog vremena meu
tim dvjema dobnim skupinama. Za navedene dobne skupine napravite usporedbe varijable
Zadovoljstvo s obzirom na razliite kategorije varijable Hobiji.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.
Zadatak 7.9.
(zdravlje.sta)
Baza podataka zdravlje.sta opisana je u zadatku 2.4. Na temelju podataka dostupnih u ovoj bazi
rijeite sljedee zadatke:
1. Kojeg su tipa varijable dodatno-zdravstveno i cijena?
2. Odredite empirijsku distribuciju varijable zdravlje.
3. Procijenite vjerojatnost da sluajno odabrani ispitanik svoje zdravstveno stanje smatra
barem dobrim.
4. Nacrtajte stupasti dijagram frekvencija i relativnih frekvencija za podatke sadrane u
varijabli spol.
188
Zadaci
5. Za podatke sadrane u varijabli godine odredite broj godina koji se nalazi na centralnoj
poziciji ureenog niza podataka, oekivani broj godina ispitanika te maksimalno odstupanje
od oekivanog broja godina.
6. Skicirajte i proanalizirajte kutijasti dijagram na bazi medijana za podatke sadrane u varijabli cijena.
7. Provoenjem prikladnih statistikih testova provjerite moemo li na nivou znaajnosti =
0.01 tvrditi da je varijabla cijena normalno distribuirana.
8. Provoenjem prikladnog statistikog testa provjerite je li na razini znaajnosti = 0.05
oekivani broj pregleda u tekuoj akademskoj godini (varijabla broj-pregleda) statistiki
znaajno razliit od 0 = 4. Koji ste test odabrali i zato?
Zadatak 7.10.
(zdravlje.sta)
Analizirajte bazu podataka zdravlje.sta koja je opisana u zadatku 2.4.
1. Analizirajte varijablu zdravlje posebno za kategoriju ispitanika koji imaju dodatno zdravstveno osiguranje te posebno za kategoriju ispitanika koji ga nemaju. Napravite usporedbu
rezultata. Isti postupak ponovite posebno za mukarce, a posebno za ene te napravite
usporedbu dobivenih rezultata.
2. Na prikladan nain kategorizirajte vrijednosti varijable godine te napravite usporedbu oekivane cijene najskupljeg zdravstvenog pregleda meu tako napravljenim dobnim skupinama.
3. Procijenite zajedniku distribuciju sluajne varijable koja modelira broj zdravstvenih pregleda i sluajne varijable koja se realizira jedinicom u sluaju da ispitanik ima dodatno
zdravstveno osiguranje, a nulom ako ga nema. Procijenite sve marginalne i uvjetne distribucije tog dvodimenzionalnog sluajnog vektora. Obratite panju na proporcije ispitanika
koje se odnose na najvei broj zdravstvenih pregleda u dobivenim marginalnim i uvjetnim
empirijskim distribucijama te napravite usporedbe koje smatrate korisnima i zabiljeite
svoje zakljuke.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.
Zadatak 7.11.
(novi-stan.sta)
Baza podataka novi-stan.sta sadri podatke potrebne banci da odobri kredit klijentu za kupnju
novog stana:
varijable Spol i Godine sadre informacije o spolu, odnosno godinama starosti klijenta
varijabla God-rad-staa sadri podatke o godinama radnog staa klijenta
varijabla Struna sprema sadri informacije o strunoj spremi klijenta
varijabla Krediti sadri informacije o broju do sada odobrenih kredita tog klijenta
varijabla Kvadratura sadri informacije o eljenoj kvadraturi stana (50, 75, 100 ili 120 m2 )
varijabla Smjetaj sadri informacije o tome ivi li trenutno klijent u Osijeku ili izvan njega
varijabla Broj djece sadri informacije o broju djece klijenta.
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
Zadaci
189
Zadatak 7.12.
(novi-stan.sta)
Analizirajte bazu podataka novi-stan.sta opisanu u zadatku 7.11.
1. Analizirajte razlike varijable Krediti izmeu mukaraca i ena. Jesu li se u prosjeku vie
(pri emu se misli na broj zaduivanja, ne na njihov iznos) kreditno zaduivali mukarci ili
ene? Analizirajte distribuciju broja zaduivanja posebno za svaki spol.
2. Analizirajte broj zaduivanja klijenata enskog spola za razliite kategorije strune spreme.
Isti postupak provedite i za klijente mukog spola.
3. Pod uvjetom da klijent ivi u Osijeku, analizirajte ovisi li eljena kvadratura stana o broju
djece klijenta. Isti postupak provedite i pod uvjetom da klijent ne ivi u Osijeku.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.
Zadatak 7.13.
(kredit.sta)
Baza podataka kredit.sta sadri podatke o kreditnoj povijesti klijenata jedne amerike komercijalne
banke. U nastavku je opisano znaenje svih varijabli.
varijabla KO predstavlja ocjenu klijenta na sljedei nain: L - lo; D- dobar
varijabla RAC sadri podatke o stanju rauna klijenta; BR - klijent nema otvoren raun u banci;
N - klijent nema sredstava na raunu; <=$300 - stanje na raunu je pozitivno i manje ili
jednako od 300; >$300 - klijent ima iznos na raunu vei od $300
varijabla T prestavlja trajanje otplate kredita (u mjesecima)
varijabla NK opisuje namjenu kredita: NA - novi automobil; RA - rabljeni automobil; NM - namjetaj; TV - televizor; KA - kuanski aparati; P - popravak; O - odmor; PKV - prekvalifikacija;
POS - posao; D - drugo
varijabla IK predstavlja iznos kredita
190
Zadaci
varijabla PS predstavlja trajanje zaposlenosti klijenta na trenutnom radnom mjestu: NZ - nezaposlen; <1 god - manje od 1 godine; 1-5 god - izmeu 1 i 5 godina; 5-8 god - izmeu 5 i 8
godina; > 8 god - vie od 8 godina
varijabla BR opisuje brano stanje klijenta: RAZ - razveden; ZR - zivi rastavljeno; SM - samac;
BRU - ivi u branoj zajednici ili kao udovac/ica
varijabla S predstavlja spol klijenta: M - muko; Z - ensko
varijabla DOB predstavlja starosnu dob klijenta.
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
1. Kojeg su tipa varijable RAC i IK?
2. Odredite empirijsku distribuciju varijable NK.
3. Procijenite vjerojatnost da je klijent ostvario kredit ija otplata traje najvie 20, a najmanje
10 godina.
4. Nacrtajte stupasti dijagram frekvencija i stupasti dijagram relativnih frekvencija za podatke koji su sadrani u varijabli PS.
5. Odredite tablicu frekvencija i relativnih frekvencija za podatke sadrane u varijabli RAC
posebno za kategoriju ispitanika enskog spola, a posebno za kategoriju ispitanika mukog
spola.
6. Nacrtajte zajedniki stupasti dijagram frekvencija i relativnih frekvencija tipa Overlaid
svih podataka sadranih u varijabli RAC kategoriziran prema spolu klijenta.
7. Za podatke sadrane u varijabli DOB odredite vrijednosti aritmetike sredine, moda (je li
jedinstven), varijance i standardne devijacije. Protumaite znaenje svake od navedenih
numerikih karakteristika.
8. Skicirajte i protumaite kutijasti dijagram na bazi medijana za podatke sadrane u varijabli
T.
9. Je li mogue na osnovi tablice frekvencija i relativnih frekvencija te stupastog dijagrama
numerike varijable IK dobiti dovoljno informacija o iznosima kredita klijenata promatrane
banke. Obrazloite svoj odgovor.
10. Iskoristite izmjerene vrijednosti iste varijable iz baze podataka kredit-score.sta. Mijenjajte
broj intervala na koji dijelite skup vrijednosti. Prouavajte to se dogaa i pribiljeite svoj
zakljuak.
11. Kategorizaciju izmjerenih vrijednosti varijable IK napravite na nain koji vam izravno daje
procjenu vjerojatnosti da je klijent ostvario kredit u iznosu od najvie $10000, ali ne manje
od $5000.
Zadatak 7.14.
(djelatnici.sta)
Baza podataka djelatnici.sta opisana je u zadatku 2.4. Na temelju opisanih podataka rijeite sljedee zadatke:
1. Kojeg su tipa varijable Obrazovanje i Visina?
2. Odredite empirijsku distribuciju varijable Obrazovanje.
191
Zadaci
3. Procijenite vjerojatnost da djelatnik radi na odjelu za transport ili isporuku.
4. Nacrtajte stupasti dijagram frekvencija i stupasti dijagram relativnih frekvencija za podatke koji su sadrani u varijabli Obrazovanje.
5. Odredite tablicu frekvencija i relativnih frekvencija za podatke sadrane u varijabli Obrazovanje posebno za kategoriju djelatnika enskog spola, a posebno za kategoriju djelatnika
mukog spola.
6. Nacrtajte zajedniki stupasti dijagram frekvencija i relativnih frekvencija svih podataka
sadranih u varijabli Odjel kategoriziran prema varijabli Obrazovanje.
7. Za podatke sadrane u varijabli Rukovodstvo odredite vrijednosti raspona, donjeg i gornjeg
kvartila te medijana. Protumaite znaenje svake od navedenih numerikih karakteristika.
8. Skicirajte i protumaite kutijasti dijagram na bazi medijana za podatke sadrane u varijabli
Dob.
9. Iskoristite izmjerene vrijednosti varijable Placa_prije. Kategorizirajte varijablu na 5 jednakih podintervala (napiite tablicu relativnih frekvencija i skicirajte stupasti dijagram
relativnih frekvencija). Mijenjajte broj intervala na koji dijelite skup vrijednosti. Prouavajte to se dogaa i pribiljeite svoj zakljuak.
10. Kategorizaciju izmjerenih vrijednosti varijable Visina napravite na nain koji vam izravno
daje procjenu vjerojatnosti da je visina djelatnika u intervalu [165, 180i. Koliko iznosi
procjena vjerojatnosti? Napiite tablicu relativnih frekvencija kategorizirane varijable.
11. Kojim tipovima sluajnih varijabli modeliramo varijable ove baze podataka?
12. Intervalom pouzdanosti 95% procijenite oekivanje sluajne varijable kojom je modelirana
dob djelatnika tvornice A.
13. Intervalom puzdanosti 95% procijenite vjerojatnost da je djelatnik tvornice A vii od 170
cm.
14. Moete li na razini znaajnosti = 0.05 tvrditi da je oekivana visina djelatnika tvornice
A manja od 170 cm?
15. Moete li na razini znaajnosti = 0.05 tvrditi da je vjerojatnost da je djelatnik tvornice
A stariji od 30 godina manja od 0.5?
16. Moete li na razini znaajnosti = 0.05 tvrditi da sluajna varijabla kojom je modelirana
dob djelatnika promatrane tvornice nije normalno distribuirana?
17. Moete li na razini znaajnosti = 0.05 tvrditi da se distribucija sluajne varijable kojom
je modelirano radno mjesto (varijabla Odjel) djelatnika tvornice A razlikuje od distribucije
zadane tablicom teorijskih frekvencija
Obrazovanje
Frekvencija
TR
20
P
40
IS
40
18. Ispitajte moe li se zavisnost izmeu visine mjesene neto-plae prije i nakon reorganizacije
sustava poslovanja tvornice A opisati jednostavnim linearnim regresijskim modelom:
- Koju varijablu promatrate kao ovisnu, a koju kao neovisnu (prediktornu) varijablu?
Procijenite koeficijente pripadnog regresijskog pravca i proanalizirajte dobiveni rezultat.
- Kako se raunaju reziduali? Moete li na razini znaajnosti = 0.05 tvrditi da
reziduali nisu normalno distribuirani?
192
Zadaci
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procjenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen
linearnim regresijskim modelom?
Zadatak 7.15.
(rakovi.sta)
Baza podataka rakovi.sta sadri podatke o jednom biolokom istraivanju u kojem su biljeene
reprezentativne karakteristike enki bodljaa Carpilius convexus koje ukljuuju broj satelita (tj.
broj mujaka bodljaa prihvaenih za gnijezdo koje grade enke), stanje bodlje, boju, teinu, itd.
U nastavku je opisano znaenje svih varijabli.
varijabla I pokazuje ima li bodlja satelite ili ne: 1 - bodlja ima vie od 0 satelita; 0- bodlja
nema satelita
varijabla B oznaava boju jedinke iz uzorka: SS - srednje svijetla; S - svijetla; ST - srednje tamna;
T - tamna
varijabla KR prestavlja stanje bodlji: 2D - obje bodlje u dobrom stanju; 1D - jedna bodlja je u
dobrom stanju dok je druga u loem; 0D - obje bodlje su u loem stanju
varijabla D predstavlja irinu karapakse enke bodljaa u centimetrima
varijabla NS predstavlja broj satelita kod jedinke iz uzorka
varijabla M predstavlja masu jedinke iz uzorka (u kg).
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
1. Kojeg su tipa varijable B i D?
2. Odredite empirijsku distribuciju varijable KR.
3. Procijenite vjerojatnost da je broj satelita kod enke bodljaa Carpilius convexus vei od
5.
4. Nacrtajte stupasti dijagram frekvencija i stupasti dijagram relativnih frekvencija za podatke koji su sadrani u varijabli B.
5. Odredite tablicu frekvencija i relativnih frekvencija za podatke sadrane u varijabli KR
posebno za kategoriju jedinki koje imaju satelite, a posebno za kategoriju jedinki koje
nemaju satelite.
6. Nacrtajte zajedniki stupasti dijagram frekvencija i relativnih frekvencija tipa Separate
svih podataka sadranih u varijabli B kategoriziranih prema tome imaju li odgovarajue
jedinke iz uzorka satelite ili ne.
7. Za podatke sadrane u varijabli M odredite vrijednosti aritmetike sredine, moda (je li
jedinstven?), varijance i standardne devijacije. Protumaite znaenje svake od navedenih
numerikih karakteristika.
8. Skicirajte i protumaite kutijasti dijagram na bazi medijana za podatke sadrane u varijabli
NS.
9. Kategorizirajte varijablu D tako da procijenite vjerojatnost da je irina karapakse vea ili
jednaka od 26 a manja od 28.
193
Zadaci
Zadatak 7.16. Prema jednoj anketi provedenoj u RH, da bi posjetitelj ZOO-vrta bio zadovoljan
mnogobrojnou vrsta, u ZOO-vrtu trebalo bi biti 15% divljih maaka, 20% ptica, 10% majmuna,
15% glodavaca, 20% morskih ivotinja te 20% ostalih ivotinja. Podaci o broju ivotinja u jednom
novootvorenom ZOO-vrtu dani su u sljedeoj tablici:
divlje make
24
ptice
36
majmuni
22
glodavci
32
morske .
60
ostale .
.
26
Zadatak 7.17. Prema podacima iz 2007. godine tjedna prodaja cipela u jednoj osjekoj trgovini
cipela bila je oblika: 10% prodano je ponedjeljkom, 13% utorkom, 15% srijedom, 17% etvrtkom,
20% petkom te 25% subotom. Proli tjedan zabiljeene su sljedee frekvencije:
pon
16
uto
20
sri
40
et
26
pet
52
sub
.
46
Vlasnika trgovine zanima odstupaju li na nivou znaajnosti = 0.05 prolotjedni podaci statistiki
znaajno od prologodinjeg tjednog standarda.
voni
12
mlijeni
10
mjeoviti
5
light
.
3
Zadatak 7.19. Po istraivanjima Nacionalne organizacije knjiniara dobro opremljenom smatramo knjinicu u kojoj 40% knjininog fonda ini beletristika, 35% klasici, 20% struna literatura
i 5% rijetke i vrijedne knjige (bez obzira jesu li klasici ili strune knjige). Frekvencije spomenutih
kategorija knjiga u promatranoj knjinici dane su u sljedeoj tablici:
kategorija knjiga
frekvencija
beletristika
430
klasici
330
strune knjige
200
194
Zadaci
Zadatak 7.20. Vlasnika poznate slastiarnice koja prodaje najbolje krempite u gradu zanima
postoji li dio dana u kojemu se kod graana budi vea elja za konzumacijom tog kolaa. Poevi
od 10:00 sati odabrao je 5 vremenskih intervala duljine 2 sata i biljeio broj ljudi koji su kupili
krempitu. Na razini znaajnosti = 0.05 provjerite konzumiraju li graani krempite vie u nekom
od ponuenih vremenskih intervala ili ih konzumiraju jednoliko tijekom cijelog mjerenog perioda.
Vremenski interval
Broj kupaca
10 - 12
16
12 - 14
24
14 - 16
30
16 - 18
20
18 - 20
.
10
Zadatak 7.21. Voditelj pjevakog zbora nastoji potovati zahtjev o jednakoj zastupljenosti prvog,
drugog i treeg glasa u svom zboru. Trenutano zbor broji 90 pjevaa, ije su frekvencije po
glasovima dane u sljedeoj tablici:
Glas
Broj pjevaa
Prvi
33
Drugi
35
Trei
.
23
Razlikuje li se ova distribucija na nivou znaajnosti = 0.05 od zahtijevane distribucije? Koji ste
test koristili?
Zadatak 7.22. Jednog lijenika hitne medicine zanima postoji li dio dana u kojemu ljudi frekventnije trae hitne medicinske intervencije. U svrhu svog istraivanja dan je podijelio na 4 jednaka
vremenska intervala (svaki u trajanju od 6 sati) i prikupio sljedee podatke:
Vremenski interval
Broj intervencija
0:00 - 6:00
20
6:00 - 12:00
27
12:00 - 18:00
31
18:00 - 24:00
22
Na razini znaajnosti = 0.01 provjerite jesu li hitne lijenike intervencije ee u odreeno doba
dana ili su jedoliko distribuirane tijekom cijelog dana.
195
Zadatak 7.24. (kupovina.sta)
Baza kupovina.sta sadri podatke o broju bodova koje je kupac skupio tijekom dosadanje kupovine
u nekom trgovakom centru (varijabla broj-bodova) i iznosu popusta u kunama koje mu isti trgovaki centar poklanja u sljedeoj kupovini (varijabla popust-kn) za 100 promatranih kupaca. Koju
ete od ovih varijabli promatrati kao neovisnu, a koju kao ovisnu varijablu? Odredite procjenu
regresijskog pravaca te odgovorite na sljedea pitanja:
1. to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
2. to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
3. Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?
196
Bibliografija
[1] Bain, L.E, Engelhardt, M. Introduction to Probability and Mathematical
statistics, Duxbury, 2009.
[2] Bhattacharyya, G. K., Johnson, R. A. Statistical Concepts and Methods,
Wiley, New York, 1977.
[3] Daniel, W.W., Terrell, J.C. Business Statistics, Houghton Mifflin Company, Boston, 1989.
[4] Elezovi, N. Diskretna vjerojatnost, Element, Zagreb, 2007.
[5] Elezovi, N. Sluajne varijable, Element, Zagreb, 2007.
[6] Elezovi, N. Statistika i procesi, Element, Zagreb, 2007.
[7] Freund, J. E. Mathematical Statistics, Prentice Hall, 1992.
[8] Ilijaevi, M., Paue, . Rijeeni primjeri i zadaci iz vjerojatnosti i statistike, "Zagreb", Samobor, 1990.
[9] Iversen, G. R. Statistics, the conceptual Approach, Springer, Berlin, 1997.
[10] Ivanovi, B. Teorijska statistika Jugoslavenski institut za ekonomska istraivanja, Beograd, 1966.
[11] Jazbec, A. Osnove statistike, umarski fakultet, Zagreb, 2008.
[12] Juki, D., Scitovski, R. Matematika I Elektrotehniki fakultet, Odjel za
matematiku, Prehrambeno-tehnoloki fakultet, Osijek, 2000.
[13] Jamnik, R. Matematina statistika, Dravna zaloba Slovenije, Ljubljana,
1980.
[14] Javor, P. Uvod u matematiku analizu, kolska knjiga, Zagreb, 1988.
197
198
[15] Lehmann, E.L. Testing Statistical Hypotheses, J. Wiley, 1959.
[16] Lehman, E. L., Casella, G. Theory of Point Estimation, Springer, 1998.
[17] Lipschutz, S., Schiller, J. Introduction to Probability and Statistics, Schaums Outline Series, McGraw-Hill, New York Toronto, 1998.
[18] McClave, J. T., Benson, P. G., Sincich, T. Statistics for Bussiness and
Economics, Prentice Hall, London, 2001.
[19] McPherson, G. Applying and Interpreting Statistics, Springer, Berlin, 2001.
[20] Mittelhammer, R.C. Mathematical Statistics for Economics and Bussines,
Springer, New York, 1996.
[21] Paue, . Uvod u matematiku statistiku, kolska knjiga, Zagreb, 1993.
[22] Paue, . Vjerojatnost, informacija, stohastiki procesi, kolska knjiga, Zagreb, 1988.
[23] Pavli, I. Statistika teorija i primjena, Tehnika knjiga, Zagreb, 1985.
[24] Pogany, T. Teorija vjerojatnosti, zbirka rijeenih ispitnih zadataka, Odjel za
pomorstvo Sveuilita u Rijeci, Rijeka, 1999.
[25] Rawlings, J. O., Pantula, S. G., Dicky, D. A. Applied Regression
Analysis, Springer, Berlin, 1998.
[26] Sarapa, N. Teorija vjerojatnosti, kolska knjiga, Zagreb, 1988.
[27] Sarapa, N. Vjerojatnost i statistika I. dio: osnove vjerojatnosti - kombinatorika, kolska knjiga, Zagreb, 1995.
[28] Sarapa, N. Vjerojatnost i statistika II. dio: osnove statistike - sluajne varijable, kolska knjiga, Zagreb, 1996.
[29] Seber G.A.F, Lee A.J. Linear Regression Analysis, Wiley, Hoboken-New
Jersey, 2003.
[30] Serdar, V., oi, I. Uvod u statistiku, kolska knjiga, Zagreb, 1986.
[31] Triola, M.F. Elementary Statistics, The Benjamin/Cummings Publishing
company, Inc. 1989.
[32] Vrani, V. Vjerojatnost i statistika, Tehnika knjiga, Zagreb, 1971.
199
[33] Vranjkovi, P. Zbirka zadataka iz vjerojatnosti i statistike, kolska knjiga,
Zagreb, 1990.
Indeks
2 test, 117, 152
ebievljeva nejednakost, 72
Greka
u linearnom regresijskom modelu, 157
u modelu s aditivnom grekom, 155
Histogram, 24
Box plot
vidi kutijasti dijagram, 29
Interval pouzdanosti
vidi pouzdani interval, 103
Jedinka, 1
Kategorija, 7
Kategorizacija
diskretne numerike varijable, 8
neprekidne numerike varijable, 24
Koeficijent
determinacije, 164
korelacije, 170
Kruni dijagram
frekvencija, 19, 22
relativnih frekvencija, 19, 22
Kvartil
donji, 27
gornji, 27
Linearni regresijski model, 157
analiza reziduala, 160
Maksimalno odstupanje od prosjeka, 28
Maksimum podataka, 28
Medijan
podataka, 26
200
201
sluajne varijable, 73
Metoda najmanjih kvadrata, 157
Minimum podataka, 28
Mjera
centralne tend. sluajne varijable,
70
centralne tendencije podataka, 25
rasprenosti podataka, 25
rasprenosti sluajne varijable, 70
Mod podataka, 29
Nevezani uzorci, 130
Nezavistnost sluajnih varijabli, 147
Nivo signifikantnosti
vidi razina znaajnosti, 111
Nul-hipoteza, 110
Oekivanje
diskretne sluajne varijable, 70
empirijske distribucije, 81
neprekidne sluajne varijable, 71
p-vrijednost, 113
Pearsonov korelacijski koeficijent, 170
Pogreke statistikog testa
pogreka I. tipa, 111
pogreka II. tipa, 111
Populacija, 2, 5
Postotna vrijednost
dvadeset pet postotna
(vidi donji kvartil), 27
sedamdeset pet postotna
(vidi gornji kvartil), 27
Pouzdani interval, 103
za procjenu oekivanja, 104
za procjenu vjerojatnosti, 107
Predikcija, 159
Procjena
202
Statistiki model
linearni regresijski, 157
s aditivnom grekom, 154
Statistiki test, 110
Statistika, 1
Strea vrijednost, 29, 31
Stupasti dijagram
distribucije diskretne sluajne varijable, 66
frekvencija, 19, 22
relativnih frekvencija, 19, 22
Svojstva vjerojatnosti, 62
monotonost vjerojatnosti, 63
vjerojatnost nemogueg dogaaja, 63
vjerojatnost suprotnog dogaaja, 62
vjerojatnost unije, 63
Tablica
distribucije, 66
distribucije dvodimenzionalnog sluajnog vektora, 145
frekvencija, 16
relativnih frekvencija, 16
Testiranje hipoteza
o distribuciji openito, 117
o jednakosti varijanci (F -test), 135
o normalnosti, 119
o oekivanju, 111
o oekivanju za nevezane uzorke, 132
o oekivanju za uzorke u paru, 137
o proporciji za nevezane uzorke, 139
o vjerojatnosti, 115
Tretman, 132
Uzorak, 3
jednostavni sluajni, 103
reprezentativan, 5
sluajan, 6
Varijabla, 2
diskretna numerika, 7, 22
kvalitativna, 6, 15
neprekidna numerika, 7, 22
sluajna, 54
Varijanca
diskretne sluajne varijable, 71
empirijske distribucije, 81
neprekidne sluajne varijable, 71
podataka, 28
Veliina uzorka, 16
Vezani uzorci (uzorci u paru), 131
Vjerojatnost, 56
Zavisnost
linearna, 154, 156
polinomijalna, 154, 156
sluajnih varijabli, 150