You are on page 1of 211

Mirta Beni

Nenad uvak

Primijenjena statistika

Sveuilite J. J. Strossmayera u Osijeku


Odjel za matematiku
Osijek, 2013.

M. Beni, N. uvak Primijenjena statistika.

Izdava: Sveuilite J.J. Strossmayera, Odjel za matematiku

Recenzenti:

Prof.dr.sc. Bojan Basrak


Prof.dr.sc. Anamarija Jazbec

Lektor: Davor Tanocki, prof.

Tehnika obrada: Prof.dr.sc. Mirta Beni, Doc.dr.sc. Nenad uvak

CIP zapis dostupan u raunalnom katalogu Gradske i sveuiline knjinice Osijek


pod brojem . . .

ISBN 978-953-6931-59-0

Udbenik se objavljuje uz suglasnost Senata Sveuilita J. J. Strossmayera u Osijeku


pod brojem 11/13.

c Mirta Beni i Nenad uvak, 2013.


Tisak: Grafika d.o.o., Osijek

Predgovor

Ova knjiga nastala je s namjerom da pomogne studentima preddiplomskih i diplomskih studija prilikom svladavanja gradiva iz statistikih kolegija primijenjenog
karaktera. Za razumijevanje gradiva prezentiranog u knjizi nije nuno matematiko
predznanje vee od sadraja matematike opih gimnazijskih programa u Republici
Hrvatskoj.
Knjiga je podijeljena u sedam poglavlja: Uvod, Prikupljanje i organizacija podataka, Deskriptivna statistika, Sluajna varijabla, Statistiko zakljuivanje - jedna
varijabla, Statistiko zakljuivanje - dvije varijable i Zadaci za vjebu. U cijeloj je
knjizi teorijski dio ilustriran mnotvom primjera i zadataka temeljenih na podacima
koji su ili simulirani ili potjeu iz stvarnih istraivanja i koriteni su uz odobrenje
voditelja istraivanja. Baze podataka koritene u primjerima i zadacima dostupne
su na mrenim stranicama autora knjige (http://www.mathos.unios.hr/mirta/,
http://www.mathos.unios.hr/nsuvak/) u formatu prikladnom za upotrebu raunalnih programa. Kroz tree poglavlje u primjerima je ilustriran nain koritenja
programskog paketa Statistica (StatSoft, inaica 10) za deskriptivnu statistiku. Statistike procedure navedene u knjizi dostupne su u svim standardnim statistikim
programima (R, Statistica, SPSS, SAS, itd.).
Zadnje poglavlje Zadaci za vjebu sadri zadatke s kolokvija i pismenih ispita odranih tijekom nekoliko posljednjih akademskih godina na Odjelu za matematiku,
Graevinskom fakultetu, Prehrambeno-tehnolokom fakultetu i Uiteljskom fakultetu Sveuilita J.J. Strossmayera u Osijeku.
Zahvaljujemo svima koji su pomogli da se ova knjiga tiska i bude to bolja. To se
posebno odnosi na recenzente koji su paljivo proitali rukopis te svojim primjedbama i sugestijama utjecali na poboljanje mnogih dijelova teksta, kao i na kolege
Natau arliju, Andreu Krajinu, Slobodana Jelia, Mariju Miloloa-Pandur i Ivonu
Pulji jer su svojim sugestijama doprinijeli kvaliteti primjera i zadataka.
Autori e biti zahvalni svim itateljima na primjedbama vezanima uz eventualne
pogreke, nepreciznosti ili nedostatke.

U Osijeku, lipanj 2013.

Mirta Beni i Nenad uvak

Sadraj
1 Uvod

2 Prikupljanje i organizacija podataka


2.1 Populacija i uzorak . . . . . . . . . .
2.2 Izvori podataka . . . . . . . . . . . .
2.3 Tipovi varijabli . . . . . . . . . . . .
2.3.1 Kvalitativne varijable . . . .
2.3.2 Numerike varijable . . . . .
2.3.3 Ordinalne varijable . . . . . .
2.4 Organizacija baze podataka . . . . .
2.5 Zadaci . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

5
5
6
6
6
7
8
9
10

3 Deskriptivna statistika
3.1 Metode opisivanja kvalitativnih podataka . . . . . . . . . . . . .
3.1.1 Tablini prikaz frekvencija i relativnih frekvencija . . . . .
3.1.2 Grafiki prikazi frekvencija i relativnih frekvencija . . . .
3.2 Metode opisivanja numerikih podataka . . . . . . . . . . . . . .
3.2.1 Postupak razvrstavanja numerikih podataka u kategorije
3.2.2 Mjere centralne tendencije i rasprenosti podataka . . . .
3.2.3 Detekcija streih vrijednosti . . . . . . . . . . . . . . . .
3.3 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

15
15
16
19
22
24
25
31
33

4 Sluajna varijabla
4.1 Uvod . . . . . . . . . . . . . . . . . . . . . . .
4.2 Vjerojatnost . . . . . . . . . . . . . . . . . . .
4.2.1 Jednako mogui ishodi . . . . . . . . .
4.2.2 Statistika interpretacija vjerojatnosti
4.2.3 Neka svojstva vjerojatnosti . . . . . .

.
.
.
.
.

.
.
.
.
.

53
53
55
58
60
62

iii

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

iv

Sadraj
4.3
4.4
4.5
4.6

4.7
4.8

Diskretna sluajna varijabla . . . . . . . . . . . . . . . . .


Neprekidna sluajna varijabla . . . . . . . . . . . . . . . .
Mjere centralne tendencije i rasprenosti sluajne varijable
Vani primjeri diskretnih i neprekidnih sluajnih varijabli
4.6.1 Bernoullijeva sluajna varijabala . . . . . . . . . .
4.6.2 Binomna sluajna varijabla . . . . . . . . . . . . .
4.6.3 Normalna sluajna varijabala . . . . . . . . . . . .
Empirijska distribucija . . . . . . . . . . . . . . . . . . . .
Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

5 Statistiko zakljuivanje jedna varijabla


5.1 Procjena distribucije, oekivanja i varijance . . . . . . . . . .
5.1.1 Jednostavni sluajni uzorak i procjenitelj . . . . . . .
5.1.2 Intervalna procjena . . . . . . . . . . . . . . . . . . . .
5.2 Intervalna procjena oekivanja za velike uzorke . . . . . . . .
5.3 Intervalan procjena vjerojatnosti dogaaja za velike uzorke .
5.4 Testiranje hipoteza . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Pogreke statistikog testa . . . . . . . . . . . . . . . .
5.5 Testiranje hipoteza o oekivanju . . . . . . . . . . . . . . . .
5.6 Testiranje hipoteza o vjerojatnosti dogaaja za velike uzorke
5.7 Testiranje hipoteza o distribuciji openito . . . . . . . . . . .
5.7.1 2 test . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.2 Kako saznati dolaze li podaci iz normalne distribucije?
5.8 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Statistiko zakljuivanje dvije varijable
6.1 Razlike u distribuciji izmeu dviju varijabli . . . . . . .
6.1.1 Usporedba oekivanja nevezani uzorci . . . .
6.1.2 Usporedba oekivanja vezani uzorci . . . . . .
6.1.3 Usporedba proporcija u velikim uzorcima . . . .
6.2 Dvodimenzionalan sluajni vektor . . . . . . . . . . . . .
6.2.1 Tablica distribucije diskretnog sluajnog vektora
6.2.2 Uvjetne distribucije. Nezavisnost . . . . . . . . .
6.3 Analiza zavisnosti . . . . . . . . . . . . . . . . . . . . .
6.4 Jednostavna linearna regresija . . . . . . . . . . . . . . .
6.4.1 Deterministika veza . . . . . . . . . . . . . . . .
6.4.2 Statistiki model s aditivnom grekom . . . . . .
6.4.3 Regresijski pravac . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

65
68
70
75
75
76
78
79
83

.
.
.
.
.
.
.
.
.
.
.
.
.

99
99
102
103
104
107
109
111
111
115
117
117
119
121

.
.
.
.
.
.
.
.
.
.
.
.

129
129
132
137
139
141
142
147
150
153
153
154
156

Sadraj

6.5
6.6

6.4.4 Statistiki model . . . . . .


6.4.5 Metoda najmanjih kvadrata
6.4.6 Statistiko zakljuivanje . .
Koeficijent korelacije . . . . . . . .
Zadaci . . . . . . . . . . . . . . . .

7 Zadaci za vjebu

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

157
157
160
170
172
183

Literatura

195

Indeks

199

vi

Sadraj

Poglavlje 1

Uvod
Uporaba rijei statistika u svakodnevnom ivotu najee je povezana s brojanim
vrijednostima kojima pokuavamo opisati bitne karakteristike nekog skupa podataka. Na slubenim mrenim stranicama Dravnog zavoda za statistiku Republike
Hrvatske moemo proitati (http://www.dzs.hr, 5. rujna 2012.):
Prosjena mjesena isplaena neto plaa po zaposlenome u pravnim osobama Republike Hrvatske za lipanj 2012. iznosila je 5492 kune.
Minimalna plaa za razdoblje od 1. lipnja 2012. do 31. svibnja 2012. u Republici
Hrvatskoj iznosila je 2814 kuna.
Stopa registrirane nezaposlenosti za srpanj 2012. iznosila je 17.5%.
Udio aktivnog stanovnitva u radno sposobnom stanovnitvu (stopa aktivnosti) za
sijeanj, veljau i oujak 2012. iznosila je 51.7%, istovremeno 42.9% radno
sposobnih osoba je zaposleno (stopa zaposlenosti), a 17% radne snage je nezaposleno (stopa nezaposlenosti).
Temelj statistike kao znanstvene discipline, kao i svih istraivanja koja se koriste
statistikim metodama, ine skupovi podataka.
Statistika kao znanstvena disciplina bavi se razvojem metoda prikupljanja, opisivanja i analiziranja podataka te primjenom tih metoda u
procesu donoenja zakljuaka na temelju prikupljenih podataka.
Statistiko istraivanje fokusirano je na skup objekata, tj. jedinki (ljudi, ivotinja,
biljaka, stvari, drava, gradova, poduzea, itd.) i skup odabranih veliina koje
1

Uvod

se na njima promatraju. Veliine koje se promatraju zovemo varijablama. Sve


jedinke koje se ele obuhvatiti istraivanjem, tj. o kojima se eli zakljuivati, ine
populaciju.
Primjer 1.1. Bavimo se istraivanjem uspjeha studenata jedne generacije na ispitu iz kolegija
Statistika na nekom sveuilitu (tablica 1.1).
Jedinke

osobe, imenom i prezimenom ili nekom ifrom

Varijabla

ocjena iz Statistike

Tablica 1.1: Primjer jedinki i varijabli obuhvaenih opisanim istraivanjem.


U tom primjeru navedena je samo jedna varijabla koja se analizira na jedinkama
populacije, tj. uspjeh iz kolegija Statistika. Meutim, esto nas zanima nekoliko
varijabli i/ili veze meu njima. Primjerice, elimo li ispitati ovisi li uspjeh iz kolegija
u prethodnom primjeru o spolu studenta, potrebno je u istraivanju populacije za
svaku jedinku zabiljeiti i vrijednost varijable spol (M ili ), a elimo li ispitati
ovisi li uspjeh o pripadnosti pojedinoj grupi vjebi, potrebno je za svaku jedinku
zabiljeiti koju je grupu vjebi pohaala. Zbog preglednosti prikupljene podatke
prikazujemo tablino tako da jedan redak odgovara tono jednoj jedinki, a stupac
tono jednoj varijabli.
Primjer 1.2. Bavimo se istraivanjem uspjeha studenata jedne generacije na ispitu iz kolegija
Statistika na nekom sveuilitu u ovisnosti o spolu ispitanika i grupi vjebi koju je student pohaao.
U ovom sluaju istraivanje se temelji na jedinkama i varijablama prikazanima u tablici 1.2.
Jedinke

studenti, identificirani svojim matinim brojem

Varijable

ocjena iz Statistike, spol, grupa vjebi

Tablica 1.2: Istraivanje uspjeha studenata - jedinke i varijable.


Tablicu za biljeenje prikupljenih podataka treba organizirati na nain prikazan tablicom 1.3.
Matini broj studenta

Ocjena iz Statistike

Spol

Grupa vjebi

1206

1326

942

..
.

..
.

..
.

..
.

Tablica 1.3: Istraivanje uspjeha studenata - tablica prikupljenih podataka.

Uvod

U prethodnim primjerima moemo lako istraiti cijelu populaciju s obzirom da generacija koju prouavamo broji konano mnogo studenata (npr. 83 studenta). Meutim, istraujemo li prije izbora za predsjednika neke drave preferencije graana
prema nekom od kandidata, ne moemo ispitati sve osobe populacije (tj. sve dravljane koji imaju pravo glasa) jer bi to bilo provoenje izbora. Kada nije mogue
istraiti veliine koje nas zanimaju na svim jedinkama populacije, potrebno je iz
populacije izdvojiti uzorak na kojemu e biti prikupljeni podaci. S obzirom da se
o cijeloj populaciji eli zakljuivati na temelju podataka prikupljenih na uzorku, za
istraivanje je vrlo vano znati kako kreirati kvalitetan uzorak.
Primjena statistike u istraivanju podrazumijeva da se u pripremi istraivanja izabranog problema potuju sljedea pravila:
Populaciju koja je predmet istraivanja i ciljeve potrebno je jasno odrediti (detaljno
prouiti populaciju, zabiljeiti njene osnovne karakteristike i ciljeve istraivanja).
Kreirati kvalitetan uzorak i odabrati metodu za prikupljanje podataka.
Izabrati prikladne metode za opis skupa prikupljenih podataka (deskriptivna statistika).
Izabrati prikladne statistike metode za zakljuivanje o populaciji na temelju prikupljenih podataka na uzorku.
U skladu s tim u ovom emo se kolegiju baviti nekim metodama prikupljanja podataka i kreiranja uzorka, metodama deskriptivne statistike i metodama
statistikog zakljuivanja. S obzirom da se metode kojima se kreira uzorak i
metode statistikog zakljuivanja temelje na poznavanju osnovnih pojmova teorije
vjerojatnosti, u kolegiju emo takoer navesti temeljne pojmove i zakone teorije
vjerojatnosti potrebne za razumijevanje osnovnog statistikog aparata.

Uvod

Poglavlje 2

Prikupljanje i organizacija
podataka
2.1

Populacija i uzorak

Statistiko istraivanje usmjereno je na skup jedinki koje zadovoljavaju neka svojstva bitna za obiljeje koje se istrauje, tj. populaciju. Dakle, populaciju ine
sve jedinke koje su predmet istraivanja.

Primjer 2.1. Istraujemo razlike u prehrambenim navikama izmeu stanovnika Slavonije i Baranje i stanovnika Dalmacije. Populaciju ine svi stanovnici Slavonije, Baranje i Dalmacije.
Meutim, ako nas zanimaju samo prehrambene navike studenata iz tih podruja, onda populaciju
ine samo studenti iz Slavonije, Baranje i Dalmacije.

Populacija moe sadravati vrlo velik broj jedinki i stoga je esto teko, ili ak nemogue, istraivanje provesti na svim jedinkama populacije. Rjeenje tog problema
sastoji se u odabiru jednog podskupa populacije, koji nazivamo uzorak, na kojemu
je osigurano kvalitetno provoenje istraivanja.
Da bi zakljuci prilikom istraivanja o populaciji na temelju podataka iz uzorka
bili ispravni, nuno je da uzorak bude reprezentativan, tj. u njemu moraju biti
zastupljene tipine karakteristike populacije bitne za istraivanje.

Primjer 2.2. U prethodnom primjeru, ako populaciju ine svi stanovnici Slavonije, Baranje i
Dalmacije, istraivanje ne moemo provesti samo na uzorku djece koja pohaaju srednju kolu. To
bi moda bilo praktino, ali takav uzorak nije reprezentativan za zakljuivanje o cijeloj populaciji.

Prikupljanje i organizacija podataka

Jedan od naina izbora jedinki iz populacije u uzorak jest formiranje takozvanog


sluajnog uzorka , uz potivanje zahtjeva da svaka jedinka populacije ima jednaku
vjerojatnost (ansu) ui u uzorak.
S obzirom da se u gornjoj definiciji pojavljuje pojam vjerojatnost, metodu formiranja sluajnog uzorka ostavljamo za sljedea poglavlja, nakon to pojasnimo pojam
vjerojatnosti.

2.2

Izvori podataka

Nain prikupljanja podataka ovisi o karakteristikama obiljeja koje je predmet prouavanja. Najee koriteni naini prikupljanja podataka jesu sljedei:
Podaci iz javnih izvora (knjige, asopisi, novine, Internet).
Podaci iz dizajniranog eksperimenta (istraiva rasporeuje eksperimentalne jedinke u skupine s kojima provodi eksperimente te biljei podatke za varijable
koje ga zanimaju).
Podaci iz ankete (istraiva sastavlja anketni upitnik, izabire skupinu ljudi koju
anketira i na osnovi njihovih odgovora prikuplja podatke).
Podaci prikupljeni promatranjem (istraiva promatra eksperimentalne jedinke u
njihovu prirodnom okruenju i biljei podatke za varijable od interesa).
Primjer 2.3. Jedno medicinsko istraivanje prouava snagu nekog lijeka u prevenciji modanog
udara. Ljude s kojima e se provesti istraivanje istraiva dijeli na dvije skupine: tretiranu i
kontrolnu. Ljudima u tretiranoj skupini daje se lijek, dok se ljudima u kontrolnoj skupini daje
placebo (nadomjestak koji izgleda isto kao lijek, ali zapravo nije nita to moe imati bilo kakav utjecaj na organizam). To istraivanje primjer je dizajniranog eksperimenta kojim se mogu
prikupiti odreeni podaci o ispitanicima.

2.3

Tipovi varijabli

U statistikim istraivanjima razlikujemo nekoliko osnovnih tipova varijabli koje se


meusobno razlikuju po svojstvima vrijednosti koje mogu poprimiti.

2.3.1

Kvalitativne varijable

Karakteristika je kvalitativnih varijabli da njihove vrijednosti nisu, po svojim svojstvima koritenim u istraivanju, realni brojevi. Tipian je primjer takve varijable

Tipovi varijabli

spol osobe. Vrijednosti kvalitativne varijable uobiajeno svrstavamo u kategorije.


Kategorije kvalitativnih varijabli mogu biti definirane u skladu s potrebama statistikog istraivanja.
Primjer 2.4. Sljedee su varijable kvalitativnog tipa:
- radna mjesta u koli (spremaica, domar, tajnik, nastavnik, pedagog, ravnatelj)
- opisne ocjene (nita, malo, srednje, puno)
- boja oiju (plava, smea, zelena)
- krvne grupe (A, B, AB, 0)
- spol (m ili ).

2.3.2

Numerike varijable

Numerike varijable prirodno primaju vrijednosti iz skupa realnih brojeva. Tipian


primjeri numerikih varijabli jesu tjelesna masa i visina osobe. Meutim, treba
naglasiti da se i kategorije kvalitativnih varijabli mogu izraavati brojevima, to
ih ne ini numerikim varijablama. Primjerice, spol osobe je jedna kvalitativna
varijabla. Kategoriju "enski spol" moemo oznaiti npr. oznakom "1", a kategoriju
"muki spol" npr. oznakom "2", to moe biti korisno prilikom unoenja podataka u
bazu. Time smo kategorijama kvalitativne varijable pridruili numerike vrijednosti,
ali samu varijablu nismo uinili numerikom po njenim svojstvima.
Primjer 2.5. Sljedee su varijable numerikog tipa:
- postotak prolaznosti na pojedinim ispitima tijekom jedne akademske godine
- broj bodova na dravnoj maturi iz matematike
- broj ulovljenih komaraca u klopku
- temperatura mora
- koncentracija soli u morskoj vodi.

Meu numerikim varijablama razlikujemo diskretne i neprekidne varijable.


Diskretne numerike varijable mogu poprimiti samo konano ili prebrojivo mnogo vrijednosti, dok je skup moguih vrijednosti neprekidnih numerikih varijabli cijeli skup realnih brojeva ili neki interval.
Primjer 2.6. Sljedee su numerike varijable diskretne:
- broj bodova na dravnoj maturi iz matematike
- broj ulovljenih komaraca u klopku
- broj dana u godini s temperaturom zraka veim od 35o C.

Prikupljanje i organizacija podataka

Primjer 2.7. Sljedee su numerike varijable neprekidne:


- postotak prolaznosti na pojedinim ispitima tijekom jedne akademske godine
- temperatura mora
- vodostaj neke rijeke.

Radi prikaza podataka i nekih statistikih analiza vrijednosti numerike varijable


takoer se mogu svrstati u kategorije. Za razliku od kategorija kvalitativne varijable,
meu kategorijama numerike varijable uvijek se moe prepoznati prirodan poredak.

Primjer 2.8.
(auto-centar.sta)
Svrha ovog primjera je prikazati mogunost kategorizacije numerike varijable. Taj se postupak
najee rjeava stvaranjem nove kvalitativne varijable ije su vrijednosti svrstane u kategorije
kojih je (znatno) manje nego svih moguih vrijednosti odgovarajue diskretne numerike varijable.
Baza podataka auto-centar.sta sastoji se od sljedeih varijabli:
automobili - diskretna numerika varijabla koja sadri podatke o broju prodanih automobila u
jednom danu za sto promatranih dana. Budui da broj prodanih automobila u jednom
danu moe biti vrlo mali (npr. samo nekoliko osobnih automobila), ali i vrlo velik (npr.
narudbe automobila za vozni park nekog poduzea), zakljuujemo da varijabla automobili
moe poprimiti velik broj razliitih vrijednosti iz skupa prirodnih brojeva. Zato je u nekim
situacijama korisno kategorizirati vrijednosti ove varijable prema tono odreenom kriteriju. Na primjer, kategrizacija prema broju prodanih automobila u jednom danu moe se
realizirati stvaranjem nove varijable kategorija.
kategorija - kvalitativna varijabla koja podatke iz varijable automobili svrstava u pet kategorija
prema kriteriju prikazanom u tablici 2.8.
broj prodanih automobila

kategorija

0-9
10 i 11
12 i 13
14 i 15
16 i vie

E
D
C
B
A

Tablica 2.1: Primjer kategorizacije diskretne numerike varijable automobili.

2.3.3

Ordinalne varijable

Karakteristika je ordinalnih varijabli da su one po svom karakteru kvalitativne, ali


meu kategorijama se moe uspostaviti prirodan poredak. Tipian je primjer takve
varijable struna sprema osobe.

Organizacija baze podataka

Primjer 2.9.
(matematika.sta)
Baza podataka matematika.sta sadri podatke prikupljene anketiranjem studenata nakon odranih
predavanja, vjebi, kolokvija te usmenog ispita iz jednog matematikog kolegija. Prikupljeni podaci
organizirani su na sljedei nain:
prosjek - varijabla koja sadri podatke o prosjenoj ocjeni studiranja za 49 anketiranih studenata,
polozeno - varijabla koja studente svrstava u dvije kategorije s obzirom na to jesu li poloili ispit
iz promatranog kolegija prema kriteriju prikazanom u tablici 2.2.
poloen/nepoloen ispit
poloen ispit
nepoloen ispit

kategorija
1
0

Tablica 2.2: Kategorizacija studenata prema poloenosti ispita.


predavanja, vjezbe - dvije varijable koje prisutnost studenata na predavanjima/vjebama (p/v)
svrstavaju u tri kategorije na nain prikazan u tablici 2.3.
prisutnost studenta na p/v
student s p/v nije nikada izostao
student je s p/v izostao samo jednom
student je s p/v izostao barem dva puta

kategorija
1
2
3

Tablica 2.3: Kategorizacija studenata prema broju izostanaka s predavanja/vjebi.


tezina kolegija, materijali - dvije varijable koje sadre subjektivne ocjene (u standardnoj skali od
1 do 5) studenata o teini kolegija i dostatnosti dostupnih materijala za pripremanje ispita
iz promatranog kolegija.
Uoimo da se varijabla prosjek moe promatrati kao neprekidna numerika varijabla, varijabla
poloeno je kvalitativna, dok se varijable predavanja, vjezbe, tezina kolegija i materijali mogu svrstati
u ordinalne varijable.

2.4

Organizacija baze podataka

Podaci u bazi podataka mogu biti organizirani na razliite naine ovisno o informacijama koje elimo dobiti istraivanjem. Za ilustraciju navodimo jedan primjer niza
podataka koji su organizirani na dva razliita naina.

Primjer 2.10.
(student.sta, student-grupe.sta)
Svrha je ovog primjera pokazati kako isti podaci u bazi podataka mogu biti organizirani na razliite
naine. Nain organizacije ovisi o informacijama koje iz podataka elimo dobiti statistikom
analizom. Baza podataka student.sta sastoji se od sljedeih varijabli:

10

Prikupljanje i organizacija podataka

klasicno studiranje - neprekidna numerika varijabla koja sadri podatke o godinama starosti
studenata koji studiraju na klasian nain (stanuju u gradu u kojem studiraju ili putuju na
predavanja)
e-learning - neprekidna numerika varijabla koja sadri podatke o godinama starosti studenata
koji studiraju putem interneta (tzv. e-learning).
Baza podataka student-grupe.sta sastoji se od sljedeih varijabli:
dob studenta - neprekidna numerika varijabla koja sadri podatke o godinama starosti za sto
studenata koji studiraju ili na klasian nain ili putem interneta
nacin studiranja - kvalitativna varijabla koja studente, bez obzira na podatke sadrane u varijabli
dob studenta, svrstava u dvije kategorije prema kriteriju prikazanom u tablici 2.4.
nain studiranja
student studira na klasian nain
student studira putem interneta

kategorija
1
0

Tablica 2.4: Primjer kategorizacije studenata prema nainu studiranja.


Dakle, baze podataka student.sta i student-grupe.sta sadre iste podatke (godine starosti sto promatranih studenata) i daju informaciju o nainu studiranja za svakog studenta:
u bazi podataka student.sta podaci o dobi studenata organizirani su u dvije varijable, ovisno o
tome studira li student na klasian nain (klasicno studiranje) ili putem interneta (e-learning)
u bazi podataka student-grupe.sta varijabla dob studenta sadri podatke o dobi studenata, dok
binarna varijabla nacin studiranja za svakog studenta sadri informaciju o nainu studiranja
(tablica 2.4).

2.5

Zadaci

Zadatak 2.1.
(stanovnistvo.sta)
Pretpostavimo da elite saznati starosnu strukturu (prema godinama starosti) stanovnitva u svom
gradu te da ste u tu svrhu prikupili podatke koji su dani u bazi stanovnistvo.sta. Navedena baza
sadri etiri varijable:
osnovna kola - varijabla koja sadri podatke o godinama starosti za pedeset sluajno odabranih
uenika jedne osnovne kole u vaem gradu
kafi - varijabla koja sadri podatke o godinama starosti za pedeset sluajno odabranih gostiju
popularnog kafia u vaem gradu
gradska knjinica - varijabla koja sadri podatke o godinama starosti za pedeset sluajno odabranih
posjetitelja gradske knjinice u vaem gradu
telefonska anketa - varijabla koja sadri podatke o godinama starosti za pedeset osoba iz vaeg
grada ije ste telefonske brojeve na sluajan nain izabrali iz telefonskog imenika.
Nakon kratke analize baze podataka stanovnistvo.sta komentirajte reprezentativnost uzorka. Razmislite o moguim nainima prikupljanja podataka kojima biste kreirali reprezentativan uzorak za
prouavanje starosne strukture populacije.

11

Zadaci
Zadatak 2.2.
(glukoza.sta)
Baza podataka glukoza.sta sastoji se od sljedeih varijabli:

dob - neprekidna numerika varijabla koja sadri podatke o godinama starosti 102 promatrane
osobe.
koncentracija - neprekidna numerika varijabla koja sadri podatke o koncentraciji glukoze u krvi
za svaku od 102 promatrane osobe.
kategorija - kvalitativna varijabla koja podatke iz varijable koncentracija glukoze svrstava u dvije
kategorije (svaka je kategorija jedan interval pozitivnih realnih brojeva) na nain prikazan
u tablici 2.5.
interval koncentracije glukoze

kategorija

koncentracija < 6 mMol/L


koncentracija 6 mMol/L

N - normalna koncentracija
P - poviena koncenracija

Tablica 2.5: Primjer kategorizacije neprekidne numerike varijable koncentracija.


Predloite neku drugu kategorizaciju varijable koncentracija i usporedite je s varijablom kategorija
koju je u istu svrhu formirao istraiva u pokusu.

Zadatak 2.3.
(kolegij.sta)
Baza podataka sastoji se od sljedeih varijabli:
godina upisa - kvalitativna varijabla koja sadri podatke o akademskoj godini upisa na studij za
sto promatranih studenata
kategorija - kvalitativna varijabla koja podatke iz varijable godina upisa svrstava u tri kategorije
(svaka je kategorija jedan konaan skup) na nain prikazan u tablici 2.6.
godina upisa
student upisan prije 1990. godine
student upisan 1990., 1991. ili 1992. godine
student upisan 1993. ili 1994. godine

kategorija
1
2
3

Tablica 2.6: Primjer kategorizacije kvalitativne varijable godina upisa.


opa kemija, organska kemija, anorganska kemija, mikrobiologija - etiri ordinalne varijable koje
sadre podatke o postignutim ocjenama na ispitima iz spomenutih kolegija za svakog od sto
promatranih studenata
prosjek - neprekidna numerika varijabla koja sadri prosjene ocjene iz etiriju spomenuta kolegija za svakog od sto promatranih studenata
uspjeh - kvalitativna varijabla koja vrijednosti varijable prosjek svrstava u etiri kategorije prema
kriteriju prikazanom u tablici 2.7.

12

Prikupljanje i organizacija podataka


prosjek

uspjeh

prosjek

uspjeh

prosjek

uspjeh

prosjek

uspjeh

[2, 2.5 >

dovoljan

[2.5, 3.5 >

dobar

[3.5, 4.5 >

vrlo dobar

[4.5, 5]

izvrstan

Tablica 2.7: Primjer kategorizacije neprekidne numerike varijable prosjek.

Predloite drugaije kategorizacije varijabli godina upisa i uspjeh i obrazloite svoj prijedlog kategorizacije.

Zadatak 2.4. Na slian nain proanalizirajte i odredite tipove varijabli u sljedeim bazama podataka:
a) baza podataka komarci.sta sadri dio rezultata prouavanja komaraca u jednom movarnom
podruju (dostupni su podaci za 210 mjerenja na istoj lokaciji):
varijable brojM i brojZ redom sadre broj mukih i enskih jedinki komaraca
varijabla mjesec sadri mjeseevu mijenu (M - mlaak, U - utap) za svako mjerenje
varijabla doba dana sadri doba dana u kojem je mjerenje obavljeno (P - predveerje, N no, S - svitanje)
varijabla svjetlost sadri tip osvjetljenja pri mjerenju
varijabla temperatura sadri temperaturu pri kojoj je mjerenje izvreno
varijabla rel vlaznost sadri relativnu vlanost zraka za vrijeme mjerenja
b) u bazi podataka navike.sta nalaze se rezultati praenja nekih ivotnih navika u jednom danu
za svakog od 300 ispitanika iz uzorka:
varijabla dnevne novine sadri broj prelistanih razliitih dnevnih novina
varijabla tv vijesti sadri broj pogledanih televizijskih vijesti na dostupnim televizijskim
kanalima
varijabla kava sadri broj ispijenih kava
varijabla troskovi sadrzi informaciju o trokovima hrane za promatrani dan
varijabla vrijeme sadri ispitanikov subjektivan doivljaj vremenskih prilika u njegovu
mjestu stanovanja (O - oblano, S - sunano)
varijabla raspolozenje sadri ispitanikovu subjektivnu ocjenu vlastitog raspoloenja (L loe, D - dobro, O - odlino)
c) u bazi podataka posao.sta nalaze se podaci o udaljenosti mjesta stanovanja od radnog mjesta
(varijabla udaljenost) i mjesenim trokovima putovanja do radnog mjesta (varijabla troskovi) za 100 sluajno odabranih zaposlenih ljudi
d) baza podataka TV-program.sta sastoji se od sljedeih varijabli:
varijabla spol sadri informaciju o spolu ispitanika
varijable P1, P2, P3 i P4 sadre subjektivne ocjene kvalitete ljetne programske sheme
televizijskih programa P1, P2, P3 i P4

Zadaci

13

varijabla prosjek sadri prosjenu ocjenu kvalitete ljetne programske sheme navedenih televizijskih programa
e) u bazi podataka zdravlje.sta nalaze se neki zdravstveni podaci anketiranih ispitanika:
varijable godine i spol sadre podatke o starosti u godinama i spolu ispitanika
vrijednosti varijable zdravlje su subjektivne ocjene vlastitog zdravstvenog stanja ispitanika
varijabla broj pregleda sadri informacije o ukupnom broju zdravstvenih pregleda svakog
ispitanika u tekuoj kalendarskoj godini
varijabla dodatno zdravstveno sadri podatke o dodatnom zdravstvenom osiguranju svakog
ispitanika (1 - ispitanik je dodatno osiguran; 0 - ispitanik nije dodatno osiguran)
varijabla cijena sadri cijenu u kunama najskupljeg zdravstvenog pregleda svakog ispitanika
(u tekuoj kalendarskoj godini)
f ) baza podataka djelatnici.sta sadri podatke o uzorcima djelatnika dviju konkurentskih tvornica - tvornice A i tvornice B. U tablici s imenom "tvornica A" zabiljeene su vrijednosti
sljedeih varijabli za djelatnike tvornice A:
varijabla spol sadri informaciju o spolu (M - muki spol, Z - enski spol)
varijabla odjel sadri naziv odjela u kojem je djelatnik zaposlen (TR - transport, P- pakiranje, IS - isporuka)
varijabla obrazovanje sadri strunu spremu djelatnika (SSS - srednja struna sprema,
VSS - via struna sprema, VSS - visoka struna sprema)
varijabla dob sadri starost djelatnika u godinama
varijabla visina sadri visinu djelatnika u centimetrima
varijabla rukovostvo sadri broj godina rada koje je djelatnik proveo na nekoj od rukovodeih pozicija u toj tvornici
varijabla placa prije sadri iznos godinje plae djelatnika prije reorganizacije poslovnog
sustava
varijabla placa poslije sadri iznos godinje plae djelatnika nakon reorganizacije poslovnog
sustava.
U tablici s imenom "tvornica B", u varijabli placa konkurencija, zabiljeeni su iznosi godinje plae za svakog djelatnika iz uzorka iz tvornice B.

14

Prikupljanje i organizacija podataka

Poglavlje 3

Deskriptivna statistika
3.1

Metode opisivanja kvalitativnih podataka

Kvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije. Pri prouavanju takvih varijabli panju usmjeravamo na zastupljenost pojedine kategorije
u uzorku na kojem provodimo istraivanje. Primjer 3.1 uvodi nas u problematiku
opisivanja kvalitativnih varijabli.
Primjer 3.1. Svaki ovjek prema spolu pripada jednoj od dviju kategorija (enskom spolu () ili
mukom spolu (M)), a prema tipu svoje krvne grupe jednoj od etiriju kategorija (A, B, AB ili
0). Tablica 3.1 sadri podatke o spolu i tipu krvne grupe za deset ispitanika iz nekog medicinskog
istraivanja.
ispitanik

spol

krvna grupa

1
2
3
4
5
6
7
8
9
10

M
M

A
B
0
0
AB
B
B
A
AB
A

Tablica 3.1: Tablini prikaz podataka o spolu i krvnoj grupi.


Iz tablice 3.1 vidimo da za svakog ispitanika iz promatranog uzorka vrijednost varijable spol pripada
kategoriji M ili kategoriji , a vrijednost varijable krvna grupa jednoj od kategorija A, B, AB ili

15

16

Deskriptivna statistika

0. Prema tome, varijable spol i krvna grupa jesu kvalitativne varijable. Informacije koje je mogue
dobiti iz prethodne tablice vezane su uz zastupljenost pojedine kategorije u promatranom uzorku.
Tako je npr. mogue dobiti odgovore na sljedea i slina pitanja:
Koliko ispitanika enskog spola ima u promatranom uzorku?
Koliki je udio ispitanika s krvnom grupom 0 u promatranom uzorku?
Koliko ispitanika enskog spola iz promatranog uzorka ima krvnu grupu A?
Koliki udio ispitanika mukog spola iz promatranog uzorka ima krvnu grupu B ili AB?

Kako izmjeriti zastupljenost pojedine kategorije u uzorku?


Osnovna mjera kojom opisujemo zastupljenost jedne kategorije u uzorku jest frekvencija kategorije.
Neka varijabla, koju emo oznaiti s X, ima k kategorija (recimo k = 4 znai
da varijabla ima 4 kategorije - npr. krvne grupe). Oznaimo pojedine kategorije
s x1 , x2 , . . . , xk , odnosno u drugom zapisu {xi : i = 1, . . . , k}. Frekvencija
kategorije xi je broj izmjerenih vrijednosti varijable koje pripadaju kategoriji xi , i = 1, . . . , k. Frekvenciju kategorije xi oznaavamo s
fi .

Frekvencija pojedine kategorije ovisi o broju izvrenih mjeranja, tj. veliini uzorka.
Da bismo lake usporedili i tumaili rezultate raznih istraivanja, u opisu zastupljenosti jedne kategorije u uzorku esto koristimo i relativnu frekvenciju kategorije.
Relativna frekvencija kategorije xi je broj izmjerenih vrijednosti varijable koje pripadaju kategoriji xi podijeljen ukupnim brojem izmjerenih
vrijednosti za ispitivanu varijablu, i = 1, . . . , k. Ako je n veliina uzorka,
tj. broj svih izmjerenih vrijednosti ispitivane varijable, relativnu frekvenciju kategorije xi raunamo kao
fi
.
n
Relativna frekvencija kategorije je mjera zastupljenosti koja daje informaciju o
udjelu kategorije u uzorku poznate veliine i esto se izraava kao postotak. Frekvencije i relativne frekvencije pojedinih kategorija prikazujemo tablino
i grafiki.

3.1.1

Tablini prikaz frekvencija i relativnih frekvencija

U tablinom prikazu frekvencija i relativnih frekvencija trebaju biti zastupljene sve


kategorije promatrane varijable.

17

Metode opisivanja kvalitativnih podataka

Primjer 3.2. Frekvencije i relativne frekvencije svih kategorija varijabli spol i krvna grupa iz
primjera 3.1 prikazane su u tablicama 3.2 i 3.3.
spol

frekvencija

relativna frekvencija

6
4

6/10 = 0.6 = 60%


4/10 = 0.4 = 40%

Tablica 3.2: Tablica frekvencija i relativnih frekvencija svih kategorija varijable spol.

krvna grupa

frekvencija

relativna frekvencija

A
B
AB
0

3
3
2
2

3/10 = 0.3 = 30%


3/10 = 0.3 = 30%
2/10 = 0.2 = 20%
2/10 = 0.2 = 20%

Tablica 3.3: Tablica frekvencija i relativnih frekvencija svih kategorija varijable krvna grupa.

Primjer 3.3. Od velike su vanosti u mnogim istraivanjima i kategorizirane tablice frekvencija


i relativnih frekvencija. Frekvencije i relativne frekvencije za izmjerene vrijednosti varijable krvna
grupa iz primjera 3.1 kategorizirane prema spolu ispitanika dane su u tablicama 3.4 (za enski
spol) i 3.5 (za muki spol).

krvna grupa
A
B
AB
0

spol =
frekvencija relativna frekvencija
2
2
1
1

2/6
2/6
1/6
1/6

Tablica 3.4: Frekvencije i relativne frekvencije krvnih grupa za enski spol.

krvna grupa
A
B
AB
0

spol = M
frekvencija relativna frekvencija
1
1
1
1

1/4 = 0.25 = 25%


1/4 = 0.25 = 25%
1/4 = 0.25 = 25%
1/4 = 0.25 = 25%

Tablica 3.5: Frekvencije i relativne frekvencije krvnih grupa za muki spol.

18

Deskriptivna statistika

Na temelju prethodnih dviju tablica i tablica iz primjera 3.2 moemo redom odgovoriti na pitanja
postavljena u primjeru 3.1:
U uzorku ima est ispitanika enskog spola (tj. frekvencija ena u uzorku je est).
U uzorku ima 20% ispitanika s krvnom grupom 0 (tj. relativna frekvenicja krvne grupe nula u
uzorku je 20%).
U uzorku ima dvije ene s krvnom grupom A (tj. frekvencija ena s krvnom grupom A u uzorku
je dva).
Od svih ispitanika mukog spola njih 50% ima krvnu grupu B ili AB.

Primjer 3.4.
(krvne-grupe.sta)
U ovom primjeru nauit emo kako bazu podataka te tablice frekvencija i relativnih frekvencija
napraviti u programskom paketu Statistica. Rezultat postupka u tom programskom paketu prikazan
je za varijable krvna grupa i spol iz primjera 3.1, tj. iz baze podataka krvne-grupe.sta. Tabline prikaze frekvencija i relativnih frekvencija u programskom paketu Statistica moemo dobiti provodei
sljedei postupak (koji provodimo slijedei navedeni niz opcija u izborniku):
Statistics Basic Statistics/Tables Freq. Tables Variables Summary.
Rezultat provedbe prethodnog postupka jesu tablice prikazane na slici 3.1.

Category
0
A
B
AB
Missing

Frequency table: krvna_grupa (krvne-grupe.sta)


Count Cumulative Percent Cumulative
Count
Percent
2
2
20,00
20,00
3
5
30,00
50,00
3
8
30,00
80,00
2
10
20,00
100,00
0
10
0,00
100,00

(a) krvna grupa

Category

M
Missing

Frequency table: spol (krvne-grupe.sta)


Count Cumulative Percent Cumulative
Count
Percent
6
6
60,00
60,00
4
10
40,00
100,00
0
10
0,00
100,00

(b) spol

Slika 3.1: Frekvencije i relativne frekvencija svih kategorija varijabli krvna grupa i spol.
Promatranje vrijednosti varijable spol kategorizirane prema krvnoj grupi ispitanika omoguuju
kategorizirane tablice frekvencija i relativnih frekvencija. Za izradu takvih tablica podatke iz varijabli od interesa moramo profiltrirati, tj. moramo zadati uvjet prema kojemu e u daljnju analizu
biti ukljuena samo uvjetom odreena kategorija podataka. Kategorizirane tablice frekvencija i
relativnih frekvencija u programskom paketu Statistica moemo dobiti provodei sljedei postupak:
Selection oznaiti Enable Selection Conditions pod Include Cases odabrati opciju "Specific,
selected by expression" (u polje za unos teksta upisati krvna grupa="A" ako elimo u obzir uzeti
samo ispitanike s krvnom grupom A; analogno se postavlja uvjet krvna grupa="B" za krvnu grupu B,
krvna grupa="AB" za krvnu grupu AB, krvna grupa="0" za krvnu grupu 0) OK.
Rezultat provedbe prethodnog postupka jesu tablice prikazane na slici 3.2.

19

Metode opisivanja kvalitativnih podataka


Frequency table: spol (krvne-grupe.sta)
Include condition: krvna_grupa="A"
Count Cumulative Percent Cumulative
Count
Percent
Category

2
2
66,67
66,67
M
1
3
33,33
100,00
Missing
0
3
0,00
100,00

(a) kategorija: krvna grupa A


Frequency table: spol (krvne-grupe.sta)
Include condition: krvna_grupa="AB"
Count Cumulative Percent Cumulative
Count
Percent
Category

1
1
50,00
50,00
M
1
2
50,00
100,00
Missing
0
2
0,00
100,00

(c) kategorija: krvna grupa AB

Frequency table: spol (krvne-grupe.sta)


Include condition: krvna_grupa="B"
Count Cumulative Percent Cumulative
Count
Percent
Category

2
2
66,67
66,67
M
1
3
33,33
100,00
Missing
0
3
0,00
100,00

(b) kategorija: krvna grupa B


Frequency table: spol (krvne-grupe.sta)
Include condition: krvna_grupa=0
Count Cumulative Percent Cumulative
Count
Percent
Category

1
1
50,00
50,00
M
1
2
50,00
100,00
Missing
0
2
0,00
100,00

(d) kategorija: krvna grupa 0

Slika 3.2: Frekvencije i relativne frekvencije kategorija varijable spol za krvne grupe A, B, AB i
0.

3.1.2

Grafiki prikazi frekvencija i relativnih frekvencija

Frekvencije i relativne frekvencije kategorija kvalitativnih varijabli grafiki prikazujemo koritenjem stupastog dijagrama (eng. Bar Chart ili Bar Plot) frekvencija
i stupastog dijagrama relativnih frekvencija. U istu svrhu moe se koristiti i kruni
dijagram (eng. Pie Chart) frekvencija i relativnih frekvencija . Popularni naziv za
isti grafiki prikaz je "pita").
Primjer 3.5.
(hormon.sta)
Grafike prikaze frekvencija i relativnih frekvencija kvalitativnih varijabli prikazat emo na primjeru varijable dijagnoza iz baze podataka hormon.sta (koja je opisana u zadatku 3.1). Stupasti
dijagram frekvencija u programskom paketu Statistica moemo dobiti provodei sljedei postupak:
Statistics Basic Statistics/Tables Frequency Tables Choose variables Histograms.
Stupasti dijagram koji prikazuje i frekvencije i relativne frekvencije u programskom paketu Statistica moemo dobiti provodei sljedei postupak:
Graphs Histograms Choose variables Advanced Pod "Y axis" ukljuiti "% and N" OK.
Stupasti dijagrami frekvencija i relativnih frekvencija svih kategorija varijable dijagnoza prikazani
su na slici 3.3. Drugi nain grafikog prikazivanja mjera zastupljenosti pojedinih kategorija neke
kvalitativne varijable u uzorku jesu kruni dijagrami frekvencija i relativnih frekvencija koje u
You created
this PDF from
an application
that is not
licensed to
print toYou
novaPDF
createdprinter
thissljedei
PDF
(http://www.novapdf.com)
frompostupak:
an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)
programskom
paketu
Statistica
moemo
dobiti
provodei
Graphs 2D Graphs Graph type (opcija "Pie Chart - Counts") Choose variables Advanced
Pie Legend - odabrati opciju "Text and Value" za kruni dijagram frekvencija, a opciju "Text and
Percent" za kruni dijagram relativnih frekvencija OK.
Kruni dijagrami frekvencija i relativnih frekvencija kategorija varijable dijagnoza prikazani su na
slici 3.4.
You created this PDF from an application that is not licensed to print toYou
novaPDF
createdprinter
this PDF
(http://www.novapdf.com)
from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

Deskriptivna statistika
35

43%

30

37%

relativnefrekvencije

frekvencije

20

25
20
15
10
5
0

Eb

Ub Uz
dijagnoza

Ez

(a) frekvencije

30%
24%
18%
12%
6%
0%

Eb

Ub Uz
dijagnoza

Ez

(b) relativne frekvencije

Slika 3.3: Stupasti dijagrami frekvencija i relativnih frekvencija svih kategorija varijable dijagnoza.

Ez;14

G;21

Uz;13

Eb;4

Ez;17%

G;26%

Uz;16%

Eb;5%

Ub;30

Ub;37%

dijagnoza

dijagnoza

(a) frekvencije

(b) relativne frekvencije

Slika 3.4: Kruni dijagrami frekvencija i relativnih frekvencija svih kategorija varijable dijagnoza.

Primjer 3.6.
(djelatnici.sta)
esto se u praksi pokazuje korisnim poznavanje zastupljenosti kategorija jedne varijable za svaku
od kategorija neke druge kvalitativne varijable prouavane na istom uzorku. U ovom emo primjeru tablino i grafiki prikazati frekvencije i relativne frekvencije svih kategorija varijable obrazovanje iz baze podataka djelatnici.sta opisane u primjeru 2.4 posebno za ispitanike enskog spola,
a posebno za ispitanike mukog spola. Tablice tako kategoriziranih frekvencija i relativnih frekvencija varijable obrazovanje prikazane su u tablici 3.5.

21

Metode opisivanja numerikih podataka


Frequency table: obrazovanje (djelatnici.sta)
Include condition: spol="Z"
Count Cumulative Percent Cumulative
Count
Percent
Category
SSS
21
21
51.22
51.22
VSS
18
39
43.90
95.12
VSS
2
41
4.88
100.00
Missing
0
41
0.00
100.00

Frequency table: obrazovanje (djelatnici.sta)


Include condition: spol="M"
Count Cumulative Percent Cumulative
Count
Percent
Category
SSS
30
30
50.85
50.85
VSS
25
55
42.37
93.22
VSS
4
59
6.78
100.00
Missing
0
59
0.00
100.00

(a) spol = Z

(b) spol = M

Slika 3.5: Tablica frekvencija i relativnih frekvencija svih kategorija varijable obrazovanje posebno
za svaku kategoriju varijable spol.

54%
49%
44%
39%
34%
29%
24%
20%
15%
10%
5%
0%

59%
51%
relativne frekvencije

relativne frekvencije

Stupasti dijagrami frekvencija i relativnih frekvencija svih kategorija varijable obrazovanje za


kategorije Z i M varijable spol prikazani su na slici 3.6, a kruni dijagramovi na slici 3.7.

42%
34%
25%
17%
8%

SSS

VSS

VSS

0%

(a) spol=Z

SSS

VSS

VSS

(b) spol=M

Slika 3.6: Stupasti dijagrami relativnih frekvencija svih kategorija varijable obrazovanje posebno
za svaku kategoriju varijable spol.

VSS; 4; 7%

VSS; 2; 5%

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

SSS; 21; 51%

VSS; 18; 44%

(a) spol=Z

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

SSS; 30; 51%

VSS; 25; 42%

(b) spol=M

Slika 3.7: Kruni dijagram frekvencija i relativnih frekvencija svih kategorija varijable obrazovanje
posebno za svaku kategoriju varijable spol.

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

22

3.2

Deskriptivna statistika

Metode opisivanja numerikih podataka

Numeriki podaci mogu biti prikupljeni promatranjem (mjerenjem) numerike ili


ordinalne varijable. Ordinalne varijable najee se zadaju tako da mogu primiti
samo nekoliko meusobno razliitih vrijednosti, dok kod numerikih varijabli to
vrlo esto nije sluaj. Numerike varijable, po svojoj prirodi, mogu biti diskretne
ili neprekidne, kao to je opisano u poglavlju 2.3.2. U oba sluja, a posebno kod
neprekidnih varijabli, moe se dogoditi da u prikupljenim podacima postoji mnogo
meusobno razliitih vrijednosti. U takvim sluajevima tablini i grafiki prikazi
uvedeni za kvalitativne varijable mogu biti nedovoljno informativni. Ilustracija tog
problema dana je sljedeim primjerom.
Primjer 3.7.

(cijena.sta, hormon.sta, komarci.sta, matematika.sta)

Baza podataka cijena.sta sadri informacije o prodajnim mjestima (varijabla trgovina) i cijenama
nekog proizvoda na tim prodajnim mjestima (varijabla cijena). Evidentirane vrijednosti obje
varijable jesu brojevi, ali varijabla trgovina je, po svojoj prirodi, kvalitativna, a varijabla
cijena neprekidna. Uoite da su svi prikupljeni podaci za varijablu cijena meusobno razliiti.
U bazi podataka komarci.sta (opisanoj u zadatku 3.1) varijable brojM i brojZ su diskretne numerike varijable, a varijable temperatura i rel-vlaznost neprekidne numerike varijable. Uoite
da se u podacima za sve te varijable pojavljuje mnogo meusobno razliitih vrijednosti.

Ako su numerike varijable diskretne s malo moguih vrijednosti ili ako su varijable ordinalne, za opis podataka moemo koristiti iste metode kao pri opisivanju
kvalitativnih podataka, tj. frekvencije i relativne frekvencije te ih grafiki prikazivati
stupastim dijagramima i krunim dijagramima.
Primjer 3.8.
(matematika.sta)
Tablini i grafiki prikazi (stupasti dijagram i kruni dijagram) frekvencija i relativnih frekvencija
svih vrijednosti ordinalne varijable tezina-kolegija prikazani su na slikama 3.8 i 3.9.

Frequency table: tezina kolegija (matematika.sta)


Count Cumulative
Percent
Cumulative
Count
Percent
Category
1
1
1
2.04
2.04
3
9
10
18.37
20.41
4
18
28
36.73
57.14
5
21
49
42.86
100.00
Missing
0
49
0.00
100.00

Slika 3.8: Tablica frekvencija i relativnih frekvencija za varijablu tezina-kolegija.

23

frekvencijeirelativnefrek.

Metode opisivanja numerikih podataka

20

41%

16

33%

12

24%

16%

8%

0%

2
3
4
tezinakolegija

(a) stupasti dijagram

1;1;2%
3;9;18%
5;21;43%

4;18;37%
tezinakolegija

(b) kruni dijagram

Slika 3.9: Grafiki prikazi frekvencija i relativnih frekvencija za varijablu tezina-kolegija.


Iz prikazanih opisa varijable tezina-kolegija moemo dobiti npr. sljedee informacije:
Ocjenom veom od 3 teinu kolegija ocijenilo je ak 39 ispitanika, tj. ak 39/49 79.59% od
ukupnog broja ispitanika.
Ocjenom 3 teinu kolegija ocijenilo je 9 (9/49 18.37%), a ocjenom 4 ak 18 (18/49 36.73%)
ispitanika. Dakle, dvostruko vie ispitanika teinu kolegija ocijenilo je ocjenom 4 nego
ocjenom 3.

U sljedeem primjeru prikazano je ta se dogaa ako koristimo uobiajeni stupasti


dijagram za prikazivanje numerikih podataka meu kojima ima velik broj razliitih
vrijednosti.
Primjer 3.9.
(matematika.sta)
Stupasti dijagram za podatke neprekidne numerike varijable prosjek iz baze podataka matematika.sta (vidi primjer 2.9) prikazan je na slici 3.10. Pri opisivanju ove varijable pretpostavili smo
da svi meusobno razliiti podaci varijable prosjek ine zasebne kategorije. Zbog velikog broja razliitih podataka broj kategorija je prevelik i rezultat analize grafikog prikaza 3.10 ne daje eljene
informacije.

Radi dobivanja korisnijih stupastih i krunih dijagrama za podatke iz neprekidnih numerikih varijabli vrijednosti je potrebno kategorizirati, tj. razvrstati ih
u odabrane kategorije. Pri tome podatke kategoriziramo u disjunktne intervale po
kriteriju za koji smatramo da e nam dati eljene rezultate. Za potrebe opisivanja
skupa podataka obino biramo disjunktne intervale tako da dobivenim tablinim i
grafikim prikazima moemo ilustrirati karakteristike skupa podataka koje elimo
naglasiti.

24
4

8%

6%

4%

2%

0%

4,76
3,35
4,48
3,56
3,16
2,45
4,58
3,36
3,23
4,36
4,87
3,00
4,40
3,57
4,63
4,03
3,43
2,88
4,43
4,13
2,93

frekvencijeirelativnefrek.

Deskriptivna statistika

prosjek

Slika 3.10: Stupasti dijagram za podatke varijable prosjek.

3.2.1

Postupak razvrstavanja numerikih podataka u kategorije

Razvrstavanje vrijednosti neprekidne numerike varijable u kategorije mogue je


provesti na nekoliko naina, npr. mogue je skup svih podataka (ili neto vei
skup koji sadri skup svih podataka, ali koji je jednostavnije podijeliti na jednake
dijelove) podijeliti na disjunktne intervale jednake duljine. No, nije nuno da su
intervali jednake duljine, tj. nema tono definiranog pravila po kojemu bi trebalo
definirati duljine intervala niti nihov broj, ali je jasno da ih ne smije biti ni previe
ni premalo da bi cijeli postupak imao smisla i sluio svrsi (a to je u ovom asu
prikazivanje skupa podataka).
Za prikaz frekvencija ili relativnih frekvencija tako kategoriziranih podataka moemo koristiti i specifian stupasti dijagram koji zovemo histogram. Histogram
mora imati stupce postavljene u koordinatni sustav nad odgovarajuim intervalima.
irina svakog stupca histograma odgovara duljini odgovarajueg intervala, a visina
frekveniciji, odnosno relativnoj frekvenciji intervala.
Primjer 3.10.
(matematika.sta)
Primjerom 3.9 pokazali smo da je teko analizirati varijablu prosjek iz baze matematika.sta ako za
kategorije uzmemo sve razliite izmjerene vrijednosti te varijable. Stoga emo provesti kategorizaciju izmjerenih vrijednosti.
Dva primjera kategorizacije, tj. podjele izmjerenih vrijednosti u disjunkte intervale, rezultiraju
histogramima prikazanim na slici 3.11.

25

8%

4%

0%

5,000

4,432

12%

3,864

3,296

16%

2,728

18
16
14
12
10
8
6
4
2
0

2,160

20%
frekvencijeirel.frek.

10

2,160
2,444
2,728
3,012
3,296
3,580
3,864
4,148
4,432
4,716
5,000

frekvencijeirel.frek.

Metode opisivanja numerikih podataka


37%
33%
29%
24%
20%
16%
12%
8%
4%
0%

prosjek

prosjek

(a) kategorizacija na 10 disjunktnih intervala

(b) kategorizacija na 5 disjunktnih intervala

Slika 3.11: Stupasti dijagrami za podatke varijable prosjek.

frekvencijeirelativnefrek.

Kriterij kategorizacije treba biti prilagoen zahtjevima istraivanja, tj. treba omoguiti dobivanje
odgovora na postavljena pitanja. Npr. ako nas zanima zastupljenost studenata s prosjekom veim
od 3.5 u promatranom uzorku, tada podatke iz varijable prosjek moemo kategorizirati u est
disjunktnih intervala duljine 0.5, poevi od 2.0. Iz grafikih prikaza sa slike 3.12 oitavamo da je
frekvencija takvih studenata 33, a relativna frekvencija 33/49 67.35%.

16
14
12
10
8
6
4
2
0

2,0 2,5 3,0 3,5 4,0 4,5 5,0


prosjek

33%
29%
24%
20%
16%
12%
8%
4%
0%

(4,5;5];15;31%

(2;2,5];2;4%
(2,5;3];5;10%
(3;3,5];9;18%

(4;4,5];13;27%

(3,5;4];5;10%

prosjek

Slika 3.12: Stupasti i kruni dijagram za podatke varijable prosjek razvrstane u 6 disjunktnih
intervala poevi od ocjene 2.0.

3.2.2

Mjere centralne tendencije i rasprenosti podataka

Karakteristika numerikih i ordinalnih varijabli jest da meu njihovim vrijednostima postoji prirodan ureaj. Na osnovi te injenice moemo definirati numerike
karakteristike podataka iz tih varijabli koje imaju loginu interpretaciju i mogu se
iskoristiti za prikazivanje skupa podataka. U ovom poglavlju navodimo osnovne
numerike karakteristike skupa podataka te primjerima ilustriramo njihovu inter-

26

Deskriptivna statistika

pretaciju u praktinim problemima.


Aritmetika sredina
Aritmetika sredina (eng. arithmetic mean) niza podataka x1 , x2 , . . . , xn iz varijable
X definirana je izrazom
n
1X
x
n =
xi .
n i=1
Aritmetika sredina je numerika karakteristika koja spada u mjere centralne tendencije, tj. ona mjeri "srednju vrijednost" podataka.
Primjer 3.11. Neka su izmjerene vrijednosti jedne varijable sljedee:
1.2, 2.1, 3.2, 4.3, 5.4, 6.5, 7.6, 8.7, 9.8.
S obzirom da ih ima ukupno devet, aritmetika sredina ovog skupa izmjerenih vrijednosti je
1.2 + 2.1 + 3.2 + 4.3 + 5.4 + 6.5 + 7.6 + 8.7 + 9.8
5.42.
9

Medijan
Da bismo razumjeli i odredili medijan potrebno je prvo poredati izmjerene vrijednosti x1 , x2 , . . . , xn varijable X po veliini (u rastuem poretku, tj. od manjeg
prema veem). Medijan je takoer jedna mjera centralne tendencije kao i aritmetika sredina, a karakterizira ga injenica da je barem pola podataka manje ili
jednako medijanu, a istovremeno je barem pola podataka vee ili jednako od medijana. Nain njegova izrauna ovisi o tome imamo li neparan ili paran broj
podataka. Ako imamo neparan broj podataka, onda postoji vrijednost koja je na
srednjoj poziciji u ureenom skupu podataka pa nju definiramo kao medijan.
Primjer 3.12. Neka su izmjerene vrijednosti jedne varijable sljedee:
1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3.
Prvo ove vrijednosti poredamo po veliini:
1, 1, 2, 2, 2, 2, 3, 5, 5, 6, 7.
S obzirom da ih ima ukupno jedanaest, medijan je vrijednost koja je na estoj poziciji u tako
dobivenom nizu, tj. broj 2.

Ako imamo paran broj podataka, onda ne postoji podatak koji je na srednjoj
poziciji jer srednju poziciju "zauzimaju" dva podatka. Zapravo, zahtjev na temelju
kojega elimo odrediti medijan ispunjavaju svi brojevi iz intervala ije su granice
dva srednja podatka. Da bismo jedinstveno odredili medijan podataka, u tom ga
sluaju definiramo kao broj na polovini tog intervala, tj. kao aritmetiku sredinu
tih dvaju podataka.

Metode opisivanja numerikih podataka

27

Primjer 3.13. Neka su izmjerene vrijednosti jedne varijable sljedee:


1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.
Prvo ove vrijednosti poredamo po veliini:
1, 1, 2, 2, 2, 2, 3, 3, 5, 5, 6, 7.
S obzirom da ih ima dvanaest, "sredinu" ine esti i sedmi podatak, tj. brojevi 2 i 3. Medijan
ovog skupa podataka je aritmetika sredina ta dva broja, tj. medijan je (2 + 3)/2 = 2.5.

Postotna vrijednost, donji i gornji kvartil


Medijan je karakteriziran injenicom da je barem pola (50%) podataka manje ili
jednko od medijana, dok je istovremeno i barem 50% podataka vee ili jednako
njemu. Analognim rezoniranjem karakterizirat emo postotnu vrijednost. Postotna
vrijednost (eng. percentile value) za neki izabrani broj p h0, 100i, oznaimo je
s x0p , definira se potujui zahtjev da je barem p% izmjerenih vrijednosti manje
ili jednako x0p , dok je barem (100 p)% vrijednosti vee ili jednako x0p . Dvadeset
pet postotna vrijednost zove se donji kvartil (eng. lower quartile), a sedamdeset pet
postotna vrijednost zove se gornji kvartil (eng. upper quartile). Donji i gornji kvartil
su mjere koje spadaju u grupu mjera rasprenosti podataka.
Analogno kao i kod odreivnja medijana, navedena karakterizacija postotne vrijednosti esto ne odreuje postotnu vrijednost podataka jedinstveno, tj. esto postoji
cijeli intarval realnih brojeva koji zadovoljava zadani kriterij. Predloeno je nekoliko
metoda za odreivanje postotne vrijednosti u takvim sluajevima. Programski paket Statistica u inaici 10 nudi est naina raunanja postotne vrijednosti iji opis
zainteresirani itatelj moe nai u elektronskom priruniku programskog paketa.
Jedan od tih naina navodimo u nastavku teksta.
Postupak raunanja postotne vrijednosti
Pretpostavimo da imamo n podataka i da elimo odrediti p-tu postotnu vrijednost
x0p , p h0, 100i. Prvo je potrebno podatke poredati u rastuem poretku i odrediti
"poziciju" j koja je kljuna za odreivanje zadanog percentila kao j = np/100.
Ako j nije prirodan broj, onda podatak na poziciji j + 1 odgovara p-toj postotnoj
vrijednosti. Ako je j prirodan broj onda, se p-ta postotna vrijednost rauna kao
aritmetika sredina podataka na pozicijama j i j + 1.
Primjer 3.14. Neka su izmjerene vrijednosti jedne varijable sljedee:
1, 2, 5, 6, 6, 1, 3, 7, 3, 3, 3, 3.
Prvo ove vrijednosti poredamo po veliini:
1, 1, 2, 3, 3, 3, 3, 3, 5, 6, 6, 7.

28

Deskriptivna statistika

elimo li odrediti donji kvartil, potrebno je prvo odrediti etvrtinu podataka (25%). S obzirom da
imamo 12 podataka, etvrtinu (25%) ine tri podatka. Trei podatak u gornjem skupu je broj 2,
a etvrti 3. Donji kvartil je 2.5. Deveti broj u gornjem skupu podataka je broj 5, a deseti 6 pa je
gornji kvartil 5.5.

Najmanja i najvea vrijednost, raspon podataka


Raspon (eng. range) podataka je mjera koja pokazuje koliko su podaci raspreni,
tj. to je jedna od mjera rasprenosti podataka. Definiran je kao razlika najvee i
najmanje vrijednosti u skupu mjerenih vrijednosti varijable (tj. razlika maksimalne
i minimalne izmjerene vrijednosti varijable). Ako su x1 , x2 , . . . , xn izmjerene vrijednosti varijable X, oznaimo najmanju od njih (minimum) s xmin , a najveu s
xmax .
Primjer 3.15. Neka su izmjerene vrijednosti jedne varijable sljedee:
1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.
Vidimo da je vrijednost 1 najmanja izmjerena vrijednost, a 7 najvea. Prema tome, raspon ovog
skupa izmjerenih vrijednosti je 7 1 = 6.

U mnogim primjerima zanimljivo je promatrati maksimalno odstupanje izmjerenih vrijednosti varijable od "prosjeka", tj. aritmetike sredine, izmjerenih vrijednosti. Ta je numerika karakteristika definirana kao vei od brojeva
(
xn xmin ) i (xmax x
n ), tj. broj
max {(
xn xmin ), (xmax x
n )}.

Primjer 3.16. Neka su 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3 izmjerene vrijednosti neke varijable X. Tada


je
1+2+5+6+5+1+2+7+2+2+3+3
xmin = 1, xmax = 7, x
n =
= 3.25.
12
Maksimalno odstupanje izmjerenih vrijednosti ove varijable od prosjeka izmjerenih vrijednosti je
max {3.25 1, 7 3.25} = max {2.25, 3.75} = 3.75.

Varijanca i standardna devijacija


Varijanca i standardna devijacija takoer spadaju u grupu mjera rasprenosti podataka. One karakteriziraju rasprenost podataka oko aritmetike sredine. Varijanca
niza izmjerenih vrijednosti x1 , x2 , . . . , xn varijable X definirana je izrazom:
n

s2n =

1X
(xi x
)2 ,
n i=1

Metode opisivanja numerikih podataka

29

a standardna devijacija je kvadratni korijen varijance, tj.


v
u n
p
u1 X
2
sn = sn = t
(xi x
)2 .
n i=1
Primjer 3.17. Neka su izmjerene vrijednosti jedne varijable sljedee:
1.2, 2.1, 3.2, 4.3, 5.4, 6.5, 7.6, 8.7, 9.8.
Iz primjera 3.11 znamo da je aritmetika sredina ovog skupa podataka priblino jednaka 5.42.
Varijanca ovog skupa podataka jest
s2n

9
1X
(xi 5.42)2 7.87,
9 i=1

a standardna devijacija
v
u
9
u1 X
sn t
(xi 5.42)2 2.81.
9 i=1

Mod
Mod je vrijednost iz niza izmjerenih vrijednosti varijable X kojoj pripada najvea
frekvencija, tj. izmjerena je najvie puta. Mod ne mora biti jedinstven.
Primjer 3.18. Neka su izmjerene vrijednosti jedne varijable sljedee:
1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.
Vidimo da je vrijednost 2 izmjerena najvie puta (etiri puta) pa je 2 mod ovog skupa podataka.

Primjer 3.19. Neka su izmjerene vrijednosti jedne varijable sljedee:


1, 2, 5, 6, 5, 3, 1, 2, 7, 2, 2, 3, 3.
Vidimo da su najvie puta izmjerene dvije vrijednosi - 2 i 3 su obje izmjerene tono etiri puta.
Dakle, mod ovog skupa podataka nije jedinstven. U programskom paketu Statistica za mod ovog
skupa izmjerenih vrijednosti pisalo bi mod = multiple te bismo u tom sluaju sve vrijednosti moda
saznali analizom pripadne tablice frekvencija.

Koritenjem numerikih karakteristika podataka skup podataka moe se prikazati


grafiki pomou kutijastog dijagrama (eng. box plot, boxplot ili box-and-whiskers
plot).
Kutijastim dijagramom prikazujemo odnos pet numerikih karakteristika
skupa izmjerenih vrijednosti: minimalnu vrijednost, donji kvartil, medijan, gornji kvartil i maksimalnu vrijednost. Na kutijastom dijagramu
takoer se oznaavaju takozvane stree vrijednosti (eng. outliers) ako
postoje.

30

Deskriptivna statistika

Primjer 3.20.
(trgovacki-centri.sta)
Paljivim prouavanjem kretanja cijena prehrambenih proizvoda analitiar trita uoio je da isti
proizvodi nemaju jednaku cijenu u razliitim trgovakim centrima. Promatrajui deset trgovakih
centara, zabiljeio je cijene proizvoda kod kojega su razlike bile najizraenije (tablica 3.6).

trg. centar
cijena

1
45.52

2
44.64

3
39.99

4
48.95

5
51.59

6
46.89

7
52.02

8
56.89

9
50.21

10
49.99

Tablica 3.6: Cijene jednog proizvoda u deset razliitih trgovakih centara.

Numerike karakteristike ovog skupa izmjerenih vrijednosti u programskom paketu Statistica moemo izraunati koristei bazu podataka trgovacki-centri.sta i provodei sljedei postupak:
Statistics Basic Statistics/Tables Descriptive Statistics Variables Advanced oznaiti
mean (aritmetika sredina), mod, range (raspon), variance, standard deviation, median, minimum &
maximum i lower & upper quartiles (donji i gornji kvartil) Summary.
Rezultat ovog postupka (mjere deskriptivne statistike promatranog skupa izmjerenih vrijednosti)
jesu tablice prikazane na slici 3.13.

Variable
cijena-proizvoda

Descriptive Statistics (trgovacki-centri.sta)


Valid N Mean
Mode Frequency Range Variance Std.Dev.
of Mode
10 48,66900 Multiple
1 16,90000 21,79821 4,668855

Variable
cijena-proizvoda

Descriptive Statistics (trgovacki-centri.sta)


Valid N Median Minimum Maximum Lower
Upper
Range
Quartile Quartile
10 49,47000 39,99000 56,89000 45,52000 51,59000 16,90000

Slika 3.13: Deskriptivna statistika cijena iz tablice 3.6.


Uoimo da mod nije jedinstven - naime sve su izmjerene vrijednosti meusobno razliite, tj. svaka
je vrijednost izmjerena tono jedanput.
Za analiziranje rasprenosti cijena iz tablice 3.6 korisno je skicirati kutijasti dijagram na bazi
medijana (slika 3.14) koji prikazuje odnos numerikih karakteristika iz donje tablice sa slike 3.13
i koji u programskom paketu Statistica moemo napraviti provodei sljedei postupak:

Statistics Basic Statistics/Tables Descriptive Statistics Variables Options pod


"Options for Box-Whisker Plots" oznaiti opciju "Median/Quartiles/ Range" Quick Box and
whisker Plot for all variables.

31

Metode opisivanja numerikih podataka


58
56
54
52
50
48
46
44
42
40
38

Median=49,47
25%75%
=(45,52,51,59)
MinMax
=(39,99,56,89)

Slika 3.14: Kutijasti dijagram na bazi medijana za cijene iz tablice 3.6.

3.2.3

Detekcija streih vrijednosti

Podatak koji je znaajno vei ili manji u odnosu na druge izmjerene vrijednosti
jedne varijable nazivamo strea vrijednost (eng. outlier). Pojavljivanje streih
vrijednosti najee je vezano uz jedan od sljedeih razloga:
- podatak je ili netono izmjerena ili krivo unesen u bazu podataka
- podatak dolazi iz druge populacije (ne iz populacije koju promatramo u kontekstu problema koji prouavamo) - npr. ako u varijablu ije su izmjerene
vrijednosti godinje plae 1000 poreznih obveznika u Hrvatskoj upiemo godinju plau Microsoftovog managera iz SAD-a, taj e podatak biti strea
vrijednost
- podatak je tono izmjeren i unesen u bazu, ali predstavlja rijetku pojavu u
populaciji - npr. ako se u varijabli ije su izmjerene vrijednosti koncentracije
glukoze u krvi za 1000 osoba nae tono izmjerena vrijednost 46.7, taj emo
podatak smatrati streom vrijednou jer se radi o vrlo visokoj koncentraciji
glukoze koja se rijetko pojavljuje.
Vrlo korisna grafika metoda za detekciju streih vrijednosti jest kutijasti dijagram
na bazi medijana. U programskom paketu Statistica kutijasti dijagrami osjetljivi
na stree vrijednosti izrauju se na sljedei nain:
Graphs 2D Graphs BoxPlots Variables Advanced pod Whisker odabrati
"Non-outlier range" pod Outliers odabrati "Outl. & Extremes" OK.

32

Deskriptivna statistika

Primjer 3.21.
(zdravlje.sta)
Baza podataka zdravlje.sta sadri neke zdravstvene podatke za 51 ispitanika. Kratkom analizom
mjera deskriptivne statistike moemo uoiti da je maksimum skupa izmjerenih vrijednosti 235, to
u ovom primjeru znai da na najstariji ispitanik ima 235 godina (slika 3.15).

Descriptive Statistics (zdravlje.sta)


Valid N Mean
Median
Mode
Variable
godine

51.00

46.61

40.00

Frequency Minimum Maximum Lower


Upper
of Mode
Quartile Quartile
39.00000
7.00
25.00
235.00
35.00
54.00

Slika 3.15: Deskriptivna statistika izmjerenih vrijednosti varijable godine.


Taj je podatak strea vrijednost skupa izmjerenih vrijednosti varijable godine. Meutim, ovaj
nain analize i detekcije streih vrijednosti nije prikladan za velike skupove podataka. Zato
za detekciju streih vrijednosti esto koristimo kutijaste dijagrame. Na slici 3.16 prikazan je
kutijasti dijagram za varijablu godine sa streom vrijednou te kutijasti dijagram koji dobivamo
kad uklonimo stree vrijednosti.
260
240
220
200
180
160
140
120
100
80
60
40
20
0

Median=40
25%75%
=(35,54)
NonOutlierRange
=(25,66)
Outliers
Extremes

(a) ukljuena strea vrijednost

70
65
60
55
50
45
40
35
30
25
20

Median=40
25%75%
=(35,54)
NonOutlierRange
=(25,66)

(b) uklonjena strea vrijednost

Slika 3.16: Kutijasti dijagrami na bazi medijana za varijablu godine.


Uklanjanjem stree vrijednosti mijenjaju se i vrijednosti mjera deskriptivne statistike. Iz tablica
sa slike 3.17 vidimo da su se uklanjanjem stree vrijednosti aritmetika sredina i gornji kvartil
smanjili, dok su mod, medijan i donji kvartil ostali nepromijenjeni. Openito, uklanjanjem streih
vrijednosti mod e najee ostati nepromijenjen.
Descriptive Statistics (zdravlje.sta)
Include condition: godine < 150
Valid N Mean
Median
Mode
Variable
godine

50.00

42.84

39.50

Frequency Minimum Maximum Lower


Upper
of Mode
Quartile Quartile
39.00000
7.00
25.00
66.00
35.00
53.00

Slika 3.17: Deskriptivna statistika izmjerenih vrijednosti varijable godine nakon uklanjanja stree vrijednosti.

33

Zadaci

3.3

Zadaci

Zadatak 3.1.
(hormon.sta, nalaz.sta)
Baza podataka hormon.sta sadri neke informacije i rezultate nekih medicinskih testova za svakog
od 82 ispitanika:
varijabla spol sadri informaciju o spolu ispitanika (m - ispitanik je mukog spola, z - ispitanik
je enskog spola)
varijable gastrS, somatS i somatZ sadre izmjerene koncentracije odreenih enzima utvrene prilikom medicinske analize ispitanika
varijable pusenje, alkohol i kava sadre informaciju o tome konzumira li ispitanik cigarete, alkohol
i kavu (0 - ne konzumira, 1 - konzumira)
varijabla CLOtest sadri rezultate testa na zarazu bakterijom helicobacter pilory (0 - test je
negativan, 1 - test je pozitivan)
varijabla dijagnoza sadri oznake dijagnoze ispitanika.
Baza podataka nalaz.sta sadri neke informacije i rezultate testova o koncentraciji nekih tvari u
krvi za svakog od 102 ispitanika:
varijabla skupina sadri informaciju o pripadnosti ispitanika jednoj od devet dobnih skupina (g1
- g9)
varijable k1 - k8 sadre izmjerene koncentracije promatranih tvari u krvi
varijabla stupanj sadri stupnjevanje rezultata provedenih testova s obzirom na dobnu skupinu
kojoj ispitanik pripada (u skali od 1 do 10).
Prouite varijable u prethodno opisanim bazama podataka te pomou programskog paketa Statistica odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rezultate prikaite tablino.
Rjeenje. Tablice frekvencija i relativnih frekvencija za kvalitativne varijable s najveim brojem
kategorija - varijable dijagnoza iz baze podataka hormon.sta i varijable stupanj iz baze podataka
nalaz.sta prikazane su na slici 3.18.

Frequency table: dijagnoza (hormon.sta)


Count Cumulative Percent Cumulative
Count
Percent
Category
G
21
21
25,61
25,61
Eb
4
25
4,88
30,49
Ub
30
55
36,59
67,07
Uz
13
68
15,85
82,93
Ez
14
82
17,07
100,00
Missing
0
82
0,00
100,00

(a) varijabla dijagnoza (hormon.sta)

Frequency table: stupanj (nalaz.sta)


Count Cumulative Percent Cumulative
Count
Percent
Category
1
12
12
11,76
11,76
2
11
23
10,78
22,55
3
12
35
11,76
34,31
4
9
44
8,82
43,14
5
11
55
10,78
53,92
6
10
65
9,80
63,73
7
12
77
11,76
75,49
8
8
85
7,84
83,33
9
8
93
7,84
91,18
10
9
102
8,82
100,00
Missing
0
102
0,00
100,00

(b) varijabla stupanj (nalaz.sta)

Slika 3.18: Frekvencije i relativne frekvencije svih kategorija varijabli dijagnoza i stupanj.

34

Deskriptivna statistika

Zadatak 3.2.
(djelatnici.sta)
Baza podataka djelatnici.sta opisana je u primjeru 2.4. Za kvalitativnu varijablu obrazovanje, ije
su vrijednosti svrstane u tri kategorije: SSS - srednja struna sprema, VSS - via struna sprema,
VSS - visoka struna sprema, odredite zastupljenost tih kategorija u promatranom uzorku od 100
djelatnika.
Rjeenje. Zastupljenost kategorija opisana je tablicom frekvencija i relativnih frekvencija 3.19 te
stupastim dijagramom i krunim dijagramom frekvencija i relativnih frekvencija koji su prikazani
na slici 3.20.
Frequency table: obrazovanje (djelatnici.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
SSS
51
51
51.00
51.00
VSS
43
94
43.00
94.00
VSS
6
100
6.00
100.00
Missing
0
100
0.00
100.00

frekvencijeirelativnefrek.

Slika 3.19: Frekvencije i relativne frekvencije svih kategorija varijabli obrazovanje.

60

60%

50

50%

40

40%

30

30%

20

20%

10

10%

SSS

VSS
VSS
obrazovanje

(a) stupasti dijagram

VSS;6;6%

SSS;51;51%

VSS;43;43%

0%
obrazovanje

(b) kruni dijagram

Slika 3.20: Grafiki prikazi podataka varijable obrazovanje.

Zadatak 3.3.
(nalaz.sta)
U bazi podataka nalaz.sta (opisanoj u zadatku 3.1) odredite frekvencije i relativne frekvencije svih
kategorija za varijable koje smatrate kvalitativnima.
a) Rezultate prikaite grafiki koristei programski paket Statistica.
b) Za koliko je ispitanika vrijednost varijable stupanj manja od tri, za koliko je vrijednost barem
etiri, ali manja od sedam, a za koliko je vrijednost barem osam?
c) Za frekvencije iz zadatka b) odredite pripadne relativne frekvencije.

35

Zadaci
Rjeenje.

frekvencijeirelativnefrek.

a) Grafiki prikazi frekvencija i relativnih frekvencija kategorija kvalitativne varijable stupanj


prikazani su na slici 3.21.
14

14%

12

12%

10

10%

8%

6%

4%

2%

0%

1 2 3 4 5 6 7 8 9 10
stupanj

10;9;9% 1;12;12%
9;8;8%
2;11;11%

8;8;8%

3;12;12%

7;12;12%
6;10;10%

4;9;9%
5;11;11%
stupanj

Slika 3.21: Grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable stupanj.
b) Frekvencija ispitanika za koje je vrijednost varijable stupanj manja od tri je 23, frekvencija ispitanika za koje je vrijednost barem etiri, ali manja od sedam je 30, a frekvencija
ispitanika za koje je vrijednost barem osam je 25.
c) Pripadne relativne frekvencije su redom 23/102 22.55%, 30/102 29.41% i 25/102
24.51%.

Zadatak 3.4.
(djeca.sta)
U bazi podataka djeca.sta nalazi se dio podataka o nekim ocjenama novoroeneta, nainu poroda
i majci iz istraivanja koje je provedeno u jednoj bolnici:
varijabla spol sadri spol novoroeneta
varijabla nacin-poroda informaciju o nainu poroda
varijable RM, apgar1 i apgar5 izmjerene vrijednosti nekih obiljeja novoroeneta
varijabla majka-dob godine starosti majke
varijabla majka-bolest informaciju o bolesti majke tijekom trudnoe (N - nije bila bolesna, D bila je bolesna)
varijabla komplikacije stupanj komplikacija za vrijeme trudnoe (u skali od 0, to oznaava da
komplikacija nije bilo, do 7)
varijabla konvulzije informaciju o konvulzijama kod novoroeneta (N - konvulzija nije bilo, D konvulzije su bile prisutne)
varijabla uzv jednu ocjenu ultrazvunog pregleda mozga novoroeneta (u skali od 1 do 4).
Odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima.
a) Rezultate prikaite tablino i grafiki koristei programski paket Statistica.
b) Broji li ovaj uzorak vie djevojica ili djeaka? Koliki je udio majki starijih od 35 godina?

36

Deskriptivna statistika

Rjeenje.
a) Tablini i grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable spol
prikazani su na slikama 3.22 i 3.23.
Frequency table: spol (djeca.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
M
178
178
52,66
52,66

160
338
47,34
100,00
Missing
0
338
0,00
100,00

frekvencijeirelativnefrek.

Slika 3.22: Tablica frekvencija i relativnih frekvencija svih kategorija varijable spol.

200
180
160
140
120
100
80
60
40
20
0

spol

(a) stupasti dijagram

59%
53%
47%
41%
36%
30%
24%
18%
12%
6%
0%

;160;47%

M;178;53%

spol

(b) kruni dijagram

Slika 3.23: Grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable spol.
b) Uzorkom je obuhvaeno 338 novoroenadi - 160 djevojica i 178 djeaka. Dakle, u uzorku
ima vie djeaka. Majki starijih od 35 godina ima 29/338 8.58%.

Zadatak 3.5.
(navike.sta)
U bazi podataka navike.sta (opisanoj u zadatku 2.4) odredite frekvencije i relativne frekvencije
svih kategorija za varijable koje smatrate kvalitativnima.
a) Rezultate prikaite tablino i grafiki koristei programski paket Statistica.
b) Koliko je ispitanika dobro raspoloeno? Je li vie ispitanika raspoloeno dobro ili osrednje
ili ih je najvie loeg raspoloenja?
Rjeenje.
a) Tablini i grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable raspolozenje prikazani su na slikama 3.24 i 3.25.

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

37

Zadaci
Frequency table: raspolozenje (navike.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
D
84
84
28,00
28,00
O
84
168
28,00
56,00
L
132
300
44,00
100,00
Missing
0
300
0,00
100,00

frekvencijeirelativnefrek.

Slika 3.24: Tablica frekvencija i relativnih frekvencija svih kategorija varijable raspolozenje.

140

47%

120

40%

100

33%

80

27%

60

20%

40

13%

20

7%

O
L
raspolozenje

(a) stupasti dijagram

0%

D;84;28%
L;132;44%

O;84;28%
raspolozenje

(b) kruni dijagram

Slika 3.25: Grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable raspolozenje.
b) Uzorkom je obuhvaeno 300 ispitanika. Dobro je raspoloeno njih 84, to ini 84/300 = 28%
od ukupnog broja ispitanika. Osrednje je raspoloeno takoer 84 (28%) ispitanika, a loe
njih 132 (44%). Dakle, vie je ispitanika koji su raspoloeni dobro ili osrednje - u te dvije
kategorije spada 168 (56 %) ispitanika.

Zadatak 3.6.
(zdravlje.sta)
esto ima smisla analizirati frekvencije i relativne frekvencije numerikih ili ordinalnih varijabli
za pojedine kategorije zadane kvalitativne varijable. Na primjer, korisno je analizirati odreene
zdravstvene karakteristike posebno za osobe enskog, a posebno za osobe mukog spola. Analizirajte ordinalnu varijablu zdravlje po kvalitativnoj varijabli spol iz baze podataka zdravlje.sta koja
je opisana u zadatku 2.4.
Rjeenje. Prvo emo tablino i grafiki prikazati frekvencije i relativne frekvencije za podatke
sadrane u varijablama zdravlje i spol (slike 3.26, 3.27 i 3.28).

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

38

Deskriptivna statistika
Frequency table: spol (zdravlje.sta)
Count Cumulative Percent Cumulative
Count
Percent
Category
Z: ena
11
11
21,57
21,57
M: mukarac
40
51
78,43
100,00
Missing
0
51
0,00
100,00

Frequency table: zdravlje (zdravlje.sta)


Count Cumulative Percent Cumulative
Count
Percent
Category
1
4
4
7,84
7,84
2
8
12
15,69
23,53
3
18
30
35,29
58,82
4
12
42
23,53
82,35
5
9
51
17,65
100,00
Missing
0
51
0,00
100,00

(a) varijabla spol

(b) varijabla zdravlje

frekvencijeirelativnefrek.

Slika 3.26: Tablice frekvencija i relativnih frekvencija svih podataka varijabli spol i zdravlje.
45
40
35
30
25
20
15
10
5
0

88%
78%
69%
59%
49%
39%
29%
20%
10%
0%

Z;11;22%

M;40;78%
spol

spol

frekvencjeirelativnefrek.

Slika 3.27: Grafiki prikazi frekvencija i relativnih frekvencija svih podataka varijable spol.

20
18
16
14
12
10
8
6
4
2
0

3
4
zdravlje

39%
35%
31%
27%
24%
20%
16%
12%
8%
4%
0%

1;4;8%
5;9;18%
2;8;16%

4;12;24%
3;18;35%
zdravlje

Slika 3.28: Grafiki prikazi frekvencija i relativnih frekvencija svih podataka varijable zdravlje.
Tablini i grafiki prikazi podataka sadranih u varijabli zdravlje posebno za kategoriju ispitanika
enskog spola, a posebno za kategoriju ispitanika mukog spola prikazani su na slikama 3.29, 3.30
i 3.31. Krune dijagrame relativnih frekvencija sa slike 3.31 u programskom paketu Statistica
moemo dobiti provodei sljedei postupak:
Graphs Categorized Graphs Pie Charts Graph Type: Pie Chart - Counts Variables (Vars zdravlje, X-Category - spol) Advanced Pie Legend (Text and Value za krune dijagrame

39

Zadaci
frekvencija, Text and Percent za krune dijagrame relativnih frekvencija).

Frequency table: zdravlje (zdravlje.sta)


Include condition: spol="Z"
Count Cumulative Percent Cumulative
Count
Percent
Category
1
1
1
9,09
9,09
2
2
3
18,18
27,27
3
5
8
45,45
72,73
4
2
10
18,18
90,91
5
1
11
9,09
100,00
Missing
0
11
0,00
100,00

Frequency table: zdravlje (zdravlje.sta)


Include condition: spol="M"
Count Cumulative Percent Cumulative
Count
Percent
Category
1
3
3
7,50
7,50
2
6
9
15,00
22,50
3
13
22
32,50
55,00
4
10
32
25,00
80,00
5
8
40
20,00
100,00
Missing
0
40
0,00
100,00

(a) ene (spol=Z)

(b) mukarci (spol=M)

55%

45%

36%

27%

18%

9%

0%

3
4
zdravlje

frekvencijeirelativnefrek.

frekvencijeirelativnefrek.

Slika 3.29: Tablini prikaz podataka za varijablu zdravlje kategoriziranih prema spolu ispitanika.

14

35%

12

30%

10

25%

20%

15%

10%

5%

(a) ene (spol=Z)

3
4
zdravlje

0%

(b) mukarci (spol=M)

Slika 3.30: Stupasti dijagrami podataka varijable zdravlje kategoriziranih prema spolu ispitanika.

5;1;2% 1;1;2%
4;2;4%

1;3;6%
5;8;16%

2;6;12%

2;2;4%

4;10;20%
3;13;25%

3;5;10%

ene (spol=Z)
spol: Z

mukarci (spol=M)
spol: M

Slika 3.31: Kruni dijagrami podataka varijable


zdravlje kategoriziranih prema spolu ispitanika.
zdravlje
Radi usporeivanja rezultata po spolu korisno je stupaste dijagrame frekvencija i relativnih frek-

40

Deskriptivna statistika

vencija podataka sadranih u varijabli zdravlje kategoriziranih prema spolu ispitanika prikazati
na jednoj slici, tj. grafu (slika 3.32). Objedinjene dijagramske prikaze frekvencija i relativnih
frekvencija neke varijable ije su vrijednosti kategorizirane po nekom kriteriju moemo dobiti u
programskom paketu Statistica provodei sljedei postupak:

14
12
10
8
6
4
2
0

1 2 3 4 5

1 2 3 4 5

spol: Z

spol: M

zdravlje

27%
24%
20%
16%
12%
8%
4%
0%

frekvencijeirelativnefrek.

frekvencijeirelativnefrek.

Graphs Categorized Graphs Histograms Variables (Variable - zdravlje, X-Category - spol)


Layout (Separate - za odvojene stupaste dijagrame kategorija varijable zdravlje kategoriziranih s
obzirom na vrijednosti varijable spol; Overlaid - za prikaz frekvencija kategorija varijable zdravlje
kategoriziranih s obzirom na vrijednosti varijable spol na istom stupastom dijagramu)

14

27%

12

24%

10

20%

16%

12%

8%

4%

4 5
zdravlje

0%

spol:Z
spol:M

Slika 3.32: Stupasti dijagrami podataka varijable zdravlje kategoriziranih prema spolu ispitanika.

Zadatak 3.7.
(TV-program.sta)
Za varijable iz baze podataka TV-program.sta napravite sljedee tabline i grafike prikaze:
a) napravite tablice i nacrtajte stupaste dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijablama spol i P1,
b) napravite tablice i nacrtajte stupaste dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijabli P1 posebno za kategoriju ispitanika enskog spola, a posebno za
kategoriju ispitanika mukog spola,
c) nacrtajte krune dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijablama spol i P3,
d) nacrtajte krune dijagrame frekvencija i relativnih frekvencija za podatke sadrane u varijabli P3 posebno za kategoriju ispitanika enskog spola, a posebno za kategoriju ispitanika
mukog spola.
Rjeenje.
a) Tablini i grafiki prikazi frekvencija i relativnih frekvencija svih kategorije varijable spol i
svih razliitih vrijednosti varijable P1 prikazani su na slikama 3.33 i 3.34.

41

Frequency table: spol (TV-program.sta)


Count Cumulative Percent Cumulative
Count
Percent
Category
m
54
54
54,00
54,00
z
46
100
46,00
100,00
Missing
0
100
0,00
100,00

frekvencijeirelativnefrek.

Zadaci
60

60%

50

50%

40

40%

30

30%

20

20%

10

10%

0%

z
spol

Frequency table: P1 (TV-program.sta)


Count Cumulative Percent Cumulative
Count
Percent
Category
2
43
43
43,00
43,00
3
28
71
28,00
71,00
4
21
92
21,00
92,00
5
8
100
8,00
100,00
Missing
0
100
0,00
100,00

frekvencijeirelativnefrek.

Slika 3.33: Tablica i stupasti dijagram za podatke varijable spol.


45
40
35
30
25
20
15
10
5
0

45%
40%
35%
30%
25%
20%
15%
10%
5%
0%

P1

Slika 3.34: Tablica i stupasti dijagram za podatke varijable P1.

Frequency table: P1 (TV-program.sta)


Include condition: spol="z"
Count Cumulative Percent Cumulative
Count
Percent
Category
2
23
23
50,00
50,00
3
11
34
23,91
73,91
4
8
42
17,39
91,30
5
4
46
8,70
100,00
Missing
0
46
0,00
100,00

frekvencijeirelativnefrek.

b) Tablini i grafiki prikazi frekvencija i relativnih frekvencija svih kategorija varijable P1


kategoriziranih prema spolu ispitanika prikazani su na slikama 3.35, 3.36 i 3.37.

24

52%

20

43%

16

35%

12

26%

17%

9%

P1

Slika 3.35: Tablica i stupasti dijagram za podatke varijable P1 za enski spol.

0%

42

Frequency table: P1 (TV-program.sta)


Include condition: spol="m"
Count Cumulative Percent Cumulative
Count
Percent
Category
2
20
20
37,04
37,04
3
17
37
31,48
68,52
4
13
50
24,07
92,59
5
4
54
7,41
100,00
Missing
0
54
0,00
100,00

frekvencijeirelativnefrek.

Deskriptivna statistika

20

37%

16

30%

12

22%

15%

7%

0%

P1

24

24%

20

20%

16

16%

12

12%

8%

4%

0%

2 3 4 5

2 3 4 5

spol: m

spol: z

frekvencijeirelativnefrek.

frekvencijeirelativnefrek.

Slika 3.36: Tablica i stupasti dijagram za podatke varijable P1 za muki spol.


24

24%

20

20%

16

16%

12

12%

8%

4%

P1

5
P1

0%

spol:m
spol:z

Slika 3.37: Stupasti dijagrami za podatke varijable P1 kategorizirane prema spolu ispitanika.
d) Kruni dijagrami frekvencija i relativnih frekvencija svih kategorija varijable spol i svih
razliitih vrijednosti varijable P3 prikazani su na slici 3.38.

5;15;15%
2;39;39%

4;11;11%

z;46;46%
m;54;54%

3;35;35%
spol
(a) varijabla spol

P3
(b) varijabla P3

Slika 3.38: Kruni dijagrami za podatke varijabli spol i P3.

43

Zadaci

e) Kruni dijagrami relativnih frekvencija za podatke iz varijable P3 kategorizirane prema


spolu ispitanika prikazani su na slici 3.39.

5;6;13%

5;9;17%

4;6;13%

2;19;41%

2;20;37%

4;5;9%

3;15;33%

3;20;37%
P3

P3

(a) spol = z

(b) spol = m

Slika 3.39: Kruni dijagrami za podatke varijable P3 kategorizirane prema spolu ispitanika.

Zadatak 3.8.
(djelatnici.sta)
Promotrite varijablu placa prije iz baze podataka djelatnici.sta opisane u primjeru 2.4. Razvrstajte
vrijednosti u disjunktne intervale duljine 10000 poevi od nule te prikaite podatke tablino i
histogramom.
Rjeenje. Tablini prikaz frekvencija i relativnih frekvencija dan je tablicom 3.7, a pripadni histogram slikom 3.40. Ovakakv histogram jasno ilustrira injenicu da najvie djelatnika u uzorku
ima godinju plau od 20000 do 30000 novanih jedinica, dok je plaa iz intervala 40000 do 50000
rijetkost. Intervale za kategorizaciju u ovakvim i slinim sluajevima obino radimo tako da bismo
zadovoljili potrebe za prezentiranjem informacija koje elimo istaknuti.

iznos plae
[0, 10000i
[10000, 20000i
[20000, 30000i
[30000, 40000i
[40000, 50000i

frekvencija

relativna frekvencija

0
15
69
14
2

0
0.15
0.69
0.14
0.02

Tablica 3.7: Tablica frekvencija i relativnih frekvencija kategoriziranih podataka varijable placa
prije.

44

50000

40000

30000

20000

80
70
60
50
40
30
20
10
0

10000

frekvencijeirel.frek.

Deskriptivna statistika
80%
70%
60%
50%
40%
30%
20%
10%
0%

placaprije

Slika 3.40: Histogram frekvencija i relativnih frekvencija kategoriziranih podataka varijable placa
prije.

Zadatak 3.9.

(hormon.sta)

a) Odredite tablicu frekvencija i stupasti dijagram za neprekidnu numeriku varijablu gastrS


iz baze podataka hormon.sta (koja je opisana u zadatku 3.1) tako da za kategorije uzmete
sve meusobno razliite izmjerene vrijednosti.
b) Iskoristite izmjerene vrijednosti varijable gastrS, kategorizirajte podatke i prikaite ih histogramom. Mijenjajte broj intervala na koji dijelite skup vrijednosti. Prouavajte to se
dogaa i pribiljeite svoj zakljuak.
Rjeenje.

4%

3%

1%

0%

92,30
42,90
67,50
38,08
58,96
32,50
49,97
76,80
92,47
41,90
45,40
50,70

frekvencijeirel.frek.

a) Stupasti dijagram frekvencija i relativnih frekvencija te kruni dijagram izmjerenih vrijednosti varijable gastrS u kojima su kao kategorije uzete sve razliite izmjerene vrijednosti
prikazani su na slici 3.41.

gastrS

Slika 3.41: Stupasti dijagram svih izmjerenih vrijednosti varijable gastr S.


b) Kategorizacija izmjerenih vrijednosti varijable gastrS na disjunktne intervale daje preglednije grafike prikaze iz kojih je lake analizirati izmjerene vrijednosti i donijeti neke zakljuke. Grafiki prikazi frekvencija i relativnih fekvencija izmjerenih vrijednosti varijable
gastrS razvrstanih u 10 i 15 disjunktnih intervala prikazani su na slici 3.42.

45

30

38%

20

26%

10

13%

0%

40
35
30
25
20
15
10
5
0

0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150

51%

frekvencijeirel.frek.

40

16,230
28,637
41,044
53,451
65,858
78,265
90,672
103,079
115,486
127,893
140,300

frekvencijeirel.frek.

Zadaci

gastrS

51%
45%
38%
32%
26%
19%
13%
6%
0%

gastrS

Slika 3.42: Histogram za podatke varijable gastrS.


Zadatak 3.10.
(djelatnici.sta)
Odredite numerike karakteristike skupa izmjerenih vrijednosti varijable placa prije iz baze podataka djelatnici.sta opisane u primjeru 2.4.
Rjeenje. Numerike karakteristike prikazane su u tablicama na slici 3.43.

Variable
placa prije

Descriptive Statistics (djelatnici.sta)


Valid N Mean
Mode Frequency
Variance Std.Dev.
of Mode
100.00 24522.00 24600.00
4.00
26069208.08 5105.80

Variable
placa prije

Descriptive Statistics (djelatnici.sta)


Median Minimum Maximum Lower
Upper
Range
Quartile Quartile
23650.00 16000.00 42400.00 20950.00 26250.00 26400.00

Slika 3.43: Deskriptivna statistika izmjerenih vrijednosti varijable placa prije.


Odnos minimuma, donjeg kvartila, medijana, gornjeg kvartila i maksimuma izmjerenih vrijednosti
varijable placa prije prikazani su kutijastim dijagramom 3.44.
44000
42000
40000
38000
36000
34000
32000
30000
28000
26000
24000
22000
20000
18000
16000
14000

Median=23650
25%75%
=(20950,26250)
MinMax
=(16000,42400)

Slika 3.44: Kutijasti dijagram na bazi medijana za varijablu placa prije.

46

Deskriptivna statistika

Iz tablice 3.43 i kutijastog dijagrama 3.44 moemo izvesti sljedee i sline zakljuke:
- najnia godinja plaa u uzorku iznosi 16000, a najvia 42400
- bar 25% ispitanika iz uzorka ima plau manju ili jednaku 20950
- bar 25% ispitanika iz uzorka ima plau veu ili jednaku 26250
- bar 50% ispitanika iz uzorka ima plau manju ili jednaku medijanu, tj. 23650
- bar 50% ispitanika iz uzorka ima plau veu ili jednaku 23650.

Zadatak 3.11.
(nastava.sta)
Baza podataka nastava.sta sadri ocjene u skali od 0 (najnia ocjena) do 10 (najvia ocjena)
razliitih komponenti probnog nastavnog sata za 65 studenata (buduih nastavnika):
varijabla znanje sadri ocjene znanja studenta o temi nastavnog sata
varijabla literatura sadri ocjene primjerenosti koritene literature za pripremu nastavnog sata
varijabla predavac sadri ocjene predavaeva stava i nastupa pred razredom
varijabla atmosfera sadri ocjene radne atmosfere na nastavnom satu
varijabla govor sadri ocjene studentova izraavanja tijekom nastavnog sata
varijabla interes sadri ocjene pobuenosti interesa kod uenika za temu nastavnog sata
varijabla bitan sadrzaj sadri ocjene naglaenosti bitnih sadraja tijekom nastavnog sata
varijabla primjeri sadri ocjene odabira i primjerenosti primjera prezentiranih tijekom nastavnog
sata
varijabla ukupno sadri ocjene koje odraavaju ukupan ocjenjivaev dojam o odranom nastavnom
satu.
Ako elimo donijeti opi zakljuak o uspjenosti buduih nastavnika u stvarnoj nastavnoj situaciji,
logino je panju usmjeriti na analizu varijable ukupno. Odredite numerike karakteristike te
varijable i kutijasti dijagram na bazi medijana. Diskutirajte o rezultatima.
Rjeenje. Numerike karakteristike te varijable prikazane su u tablici 3.45.

Descriptive Statistics (nastava.sta)


Valid N Mean
Mode Frequency Variance Std.Dev.
of Mode
Variable
ukupno 65.00
8.11
Multiple
19.00
2.16
1.47
Descriptive Statistics (nastava.sta)
Median Minimum Maximum Lower
Upper
Quartile Quartile
Variable
ukupno
8.00
4.00
10.00
7.00
9.00

Range
6.00

Slika 3.45: Deskriptivna statistika podataka za varijablu ukupno.


Iz tablice frekvencija za varijablu ukupno lako se vidi da skup podataka te varijable ima dva moda
- to su ocjene 8 i 9. Dakle, probno je predavanje za ak 19 studenata ocijenjeno visokom ocjenom
8 te za isto toliko ocjenom 9, dok je prosjena ocjena ukupnog dojma probnog nastavnog sata 8.11.
Analizu rasprenosti ocjena napravit emo pomou kutijastog dijagrama (slika 3.46).

47

Zadaci
11
10
9
8
7
6
5
4
3

Median=8
25%75%
=(7,9)
MinMax
=(4,10)

Slika 3.46: Kutijasti dijagram na bazi medijana za podatke varijable ukupno.


Analiza kutijastog dijagrama sugerira sljedee zakljuke: nitko od ispitanika predavanje nije ocijenio ocjenom niom od etiri, barem 25% ispitanika predavanje je ocijenilo ocjenama 4, 5, 6 ili
7, barem 25% ocjenama 7 ili 8, barem 25% ocjenama 8 ili 9 te barem 25% ocjenama 9 ili 10.
Zanimljivo je uoiti da je barem 75% ispitanika predavanje ocijenilo ocjenom 7 i vie.

Zadatak 3.12.
(matematika.sta)
Baza podataka matematika.sta (opisana u primjeru 2.9) sadri rezultate ankete o kvaliteti izvoenja nekog matematikog kolegija. Ukoliko nas zanima prilagoenost teine sadraja kolegija
predznanju studenata, analizirat emo varijablu tezina kolegija. Odredite numerike karakteristike
podataka te varijable i prikaite ih kutijastim dijagramom.
Rjeenje. Mjere deskriptivne statistike varijable tezina kolegija prikazane su u tablici na slici 3.47.

Variable
tezina kolegija

Descriptive Statistics (matematika.sta)


Valid N Mean
Mode Frequency Variance Std.Dev.
of Mode
49.00
4.18
5.00
21.00
0.78
0.88

Variable
tezina kolegija

Descriptive Statistics (matematika.sta)


Median Minimum Maximum Lower
Upper
Quartile Quartile
4.00
1.00
5.00
4.00
5.00

Range
4.00

Slika 3.47: Deskriptivna statistika podataka varijable tezina kolegija.


Uoimo da je ak 21 ispitanik prilagoenost teine kolegija predznanju studenata ocijenio ocjenom
5 (ocjena 5 je mod ovog skupa podataka) te da je prosjena ocjena 4.18. Za analizu rasprenosti
ocjena koristimo kutijasti dijagram prikazan na slici 3.48.

48

Deskriptivna statistika
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5

Median=4
25%75%
=(4,5)
MinMax
=(1,5)

Slika 3.48: Kutijasti dijagram na bazi medijana za varijablu tezina kolegija.


Analizom kutijastog dijagrama donosimo sljedei zakljuak: barem 25% ispitanika teinu kolegija
ocijenilo je ocjenama 1, 2, 3 ili 4, barem 50% ocjenom 4 te barem 25% ocjenama 4 ili 5. Zanimljivo
je uoiti da je barem 75% ispitanika teinu kolegija ocijenilo ocjenam 4 ili 5.

Zadatak 3.13.
(djelatnici.sta)
Varijabla dob iz baze podataka djelatnici.sta opisane u primjeru 2.4 za svakog ispitanika iz uzorka
djelatnika promatranog poduzea sadri informaciju o dobi u godinama. Odredite numerike karakteristike podataka iz te varijable, analizirajte postojanje streih vrijednosti, prikaite podatke
kutijastim dijagramom i diskutirajte o rezultatima.
Rjeenje. Iz deskriptivne statistike varijable dob (tablica 3.49) vidimo da je maksimalna podatak za
dob 333 godine pa je oigledno da postoji strei podatak koji je pogreno upisan u bazu podataka.

Descriptive Statistics (djelatnici.sta)


Valid N Mean
Mode Frequency Variance Std.Dev.
of Mode
Variable
dob
100.00 33.83 28.00000
12.00
964.28
31.05
Descriptive Statistics (djelatnici.sta)
Median Minimum Maximum Lower
Upper
Quartile Quartile
Variable
dob
29.00
18.00
333.00
26.00
36.00

Range
315.00

Slika 3.49: Deskriptivna statistika podataka varijable dob.


Osim iz tablice 3.49, stree vrijednosti meu podacima varijable dob mogli smo detektirati i
pomou kutijastog dijagrama na bazi medijana.

49

Zadaci
350
300
250
200
150
Median=29
25%75%
=(26,36)
NonOutlierRange
=(18,49)
Outliers
Extremes

100
50
0

Slika 3.50: Kutijasti dijagram na bazi medijana s prikazom streih vrijednosti varijable dob.

Kao to vidimo iz kutijastog dijagrama 3.50, i dob od 54 godine prepoznata je kao strea vrijednost. Budui da je sasvim razumljivo da promatrano poduzee moe imati djelatnika starog
54 godine, taj podatak smatramo tonim, no radi se o dobi koja se rijetko pojavljuje u populaciji
djelatnika tog poduzea.

Zadatak 3.14.
(glukoza.sta)
Varijabla dob baze podataka glukoza.sta sadri godine starosti, a varijabla koncentracija izmjerene vrijednosti koncentracije glukoze u krvi za 102 ispitanika. Koritenjem programskog paketa
Statistica rijeite sljedee zadatke:
a) Napravite deskriptivnu statistiku podataka sadranih u varijabli koncentracija. Grafikom
metodom odredite streu vrijednost u ovom skupu podataka. Moete li se sloiti s tvrdnjom da je identificirani podatak mogua izmjerena vrijednost ili ipak sumnjate u dobiveni
rezultat? Obrazloite svoj odgovor.
b) Grafikom metodom identificirajte stree vrijednosti meu podacima u varijabli dob. to
se dogaa s numerikim karakteristikama podataka nakon uklanjanja stree vrijednosti?
Rjeenje.
a) Deskriptivna statistika i kutijasti dijagram s oznaenim streim vrijednostima skupa izmjerenih vrijednosti varijable koncentracija prikazani su na slikama 3.51 i 3.52.
Descriptive Statistics (glukoza.sta)
Valid N Mean
Median
Mode
Variable
koncentracija

102.00

7.70

6.65

Frequency Minimum Maximum Lower


of Mode
Quartile
5.500000
14.00
4.70
16.70
5.70

Slika 3.51: Deskriptivna statistika izmjerenih vrijednosti varijable koncentracija.

50

Deskriptivna statistika
18
16
14
12
10
Median=6.65
25%75%
=(5.7,9.5)
NonOutlierRange
=(4.7,13.8)
Outliers
Extremes

8
6
4

Slika 3.52: Kutijasti dijagram na bazi medijana s prikazom streih vrijednosti varijable dob.

Statistica je kao streu vrijednost detektirala podatak 16.7. Kako se ta koncentracija glukoze u krvi moe zaista pojaviti pri mjerenjima, taj podatak neemo tretirati kao streu
vrijednost.
b) Kutijasti dijagram s oznaenim streim vrijednostima i deskriptivna statistika skupa izmjerenih vrijednosti varijable dob prikazani su na slikama 3.53 i 3.54.
800
700
600
500
400
300
200
100
0
100

Median=56
25%75%
=(40,73)
NonOutlierRange
=(12,101)
Outliers
Extremes

Slika 3.53: Kutijasti dijagram na bazi medijana s prikazom streih vrijednosti varijable dob.

51

Zadaci
Descriptive Statistics (glukoza.sta)
Valid N Mean Median Mode Frequency Minimum Maximum Lower
Upper
of Mode
Quartile Quartile
Variable
dob
102
66.73 56.00 Multiple
4.00
12.00
688.00
40.00
73.00

(a) ukljuene stree vrijednosti


Descriptive Statistics (glukoza.sta)

Variable
dob

Valid N

Mean

Median

100

56.18

55.50

Mode

Frequency Minimum Maximum Lower


Upper
of Mode
Quartile Quartile
Multiple
4.00
12.00
101.00
40.00
71.50

(b) uklonjene stree vrijednosti

Slika 3.54: Deskriptivna statistika izmjerenih vrijednosti varijable dob.


Statistica je kao stree vrijednosti meu izmjerenim vrijednostima varijable dob detektirala podatke 500 i 688. Zakljuujemo da uklanjanjem tih vrijednosti dolazi do smanjenja
aritmetike sredine i medijana izmjerenih vrijednosti.

Zadatak 3.15.
(komarci.sta)
Prouite bazu podataka komarci.sta koja je opisana u zadatku 2.4. Odredite tablicu i histogram
frekvencija i relativnih frekvencija varijable brojM tako da za kategorije uzmete sve meusobno
razliite izmjerene vrijednosti te varijable. Zatim podijelite skup izmjerenih vrijednosti na odreen
broj disjunktnih intervala i ponovno odredite frekvencije i relativne frekvencije pojedinih kategorija
(tj. intervala). Mijenjajte broj intervala, prouavajte to se dogaa i pribiljeite svoj zakljuak.

Zadatak 3.16. Koristei javne izvore podataka ili podatke koje ste prikupljali u sklopu nekog istraivanja formirajte jednu bazu podataka koja e sadravati najmanje dvije kvalitativne varijable,
najmanje jednu diskretnu numeriku varijablu i jednu neprekidnu numeriku varijablu. Opiite o
kakvom se istraivanju radi i zato se mjere vrijednosti navedenih varijabli. Vodite rauna da baza
sadri to vie jedinki. Navedite toan izvor podataka. Iskoristite prethodno opisane postupke i
pojmove te opiite svoju bazu podataka.

52

Deskriptivna statistika

Poglavlje 4

Sluajna varijabla
4.1

Uvod

U prethodnom poglavlju nauili smo da su predmet istraivanja, u kojemu elimo


napraviti statistiku analizu, varijable ije vrijednosti mjerimo na jedinkama.
Primjer 4.1. Pretpostavimo da je graanima iz reprezentativnog uzorka stanovnika grada Osijeka
jednog dana u podne izmjerena koncentracija glukoze u krvi. Rezultat tog istraivanje je podatak
o koncentraciji glukoze u krvi za svaku osobu iz uzorka - te izmjerene vrijednosti radi statistike
analize podataka organiziramo u varijablu koncentracija glukoze. U tablici 4.1 prikazano je samo
nekoliko izmjerenih vrijednosti te varijable.
osoba

koncentracija
glukoze (mmol/L)

1
2
3
..
.

5.635
12.560
19.817
..
.

Tablica 4.1: Izmjerene vrijednosti varijable koncentracija glukoze.

Meutim, jasno je da su ove izmjerene vrijednosti samo neke od svih vrijednosti koje koncentracija
glukoze u krvi moe poprimiti. Medicinska istraivanja pokazuju da koncentracija glukoze u krvi
ovjeka moe biti bilo koji realan broj iz intervala (0, 131]. Dakle, izmjerena vrijednost varijable
koncentracija glukoze za svaku osobu iz ovog uzorka je jedna vrijednost iz skupa svih moguih
vrijednosti koje koncentracija glukoze u krvi ovjeka moe poprimiti.

53

54

Sluajna varijabla

Primjer 4.2. Na nekoj mjernoj postaji svakog se sata mjeri vodostaj rijeke Drave. Nekoliko
zadnjih izmjerenih vodostaja prikazao je u tablici 4.2.
dan i sat

vodostaj (cm)

17.11.2010. - 9:00
17.11.2010. - 8:00
17.11.2010. - 7:00
..
.

174
161
152
..
.

Tablica 4.2: Izmjerene vrijednosti varijable vodostaj.

Prema povijesnim podacima najnii izmjereni vodostaj Drave na ovoj mjernoj postaji bio je 105
cm (1978.), a najvii ak 511 cm (1972.). Ove injenice opravdavaju visok stupanj vjerovanja da
vodostaj rijeke Drave na promatranoj mjernoj postaji moe biti bilo koji realan broj iz intervala
[105, 511]. Prema tome, svaka izmjerena vrijednost varijable vodostaj iz gornje tablice jedna je
vrijednost iz skupa svih moguih vrijednosti koje vodostaj Drave moe poprimiti na toj mjernoj
postaji. Podaci su preuzeti sa http://www.voda.hr.

Varijable koje su navedene u prethodnim primjerima (koncentracija glukoze u krvi


ili vodostaj rijeke Drave) elimo opisati matematikim modelom. Pri tome smo
svjesni da prije samog mjerenja i tijekom mjerenja istraiva ne zna koji e rezultat
mjerenja dobiti, ali zna iz kojeg skupa izmjerena vrijednost te varijable moe biti
(iz (0, 131] za varijablu koncentracija glukoze te iz [105, 511] za varijablu vodostaj).
Da bismo napravili model na osnovi kojega moemo raditi statistiko zakljuivanje,
varijable emo modelirati kao sluajne varijable. Zato ove varijable treba nazvati
sluajnima? Razlog je taj to one mogu primiti mnogo razliitih vrijednosti, a mi
u trenutku njihova prouavanja ne moemo sa sigurnou znati koja e se od tih
vrijednosti realizirati. Zapravo, mjerenje varijable provodimo, izmeu ostalog, zato
da ocijenimo stupanj izvjesnosti da varijabla u odreenim uvjetima primi dane
vrijednosti.
Sluajna varijabla i nain kako je opisujemo predmet su ovog poglavlja. Sluajne
varijable oznaavat emo velikim slovima, recimo X, Y, Z. Podsjetimo da se u matematici varijable obino oznaavaju malim slovima x, y, z. Biranjem velikog slova
za oznaku varijable naglaavamo da se ovdje radi o sluajnoj varijabli.
Varijablu nazivamo sluajnom varijablom ako su njene mogue realizacije
(ishodi) realni brojevi, ali vrijednost koja e se realizirati u pojedinom
eksperimentu nije jednoznano odreena uvjetima koje moemo sagledati prilikom istraivanja.

Vjerojatnost

55

Ve iz primjera 4.1 i 4.2 moemo vidjeti da je osnovni objekt koji slui za modeliranje sluajne varijable skup svih moguih realizacija sluajne varijable (u
matematici taj skup zovemo slika sluajne varijable ). Skup svih moguih realizacija
sluajne varijable X oznait emo s R(X).

Primjer 4.3. Bacamo novi i smatramo uspjehom ako je palo pismo. Realizacije ovog pokusa
moemo modelirati sluajnom varijablom. Recimo, kaemo da sluajna varijabla X prima vrijednost 1 ako je palo pismo, a 0 ako nije palo pismo (tj. ako je pala glava). Na taj nain dolazimo
do skupa moguih realizacija te sluajne varijable: R(X) = {0, 1} R.

Primjer 4.4. Bacamo igrau kockicu. Broj koji se okrene prilikom jednog bacanja na gornjoj
strani kockice je realizacija jedne sluajne varijable, oznaimo je s X. Prirodno, skup svih moguih
realizacija te sluajne varijable je R(X) = {1, 2, 3, 4, 5, 6} R.

Primjer 4.5. Bacamo igrau kockicu dva puta. Zbroj brojeva koji se okrenu prilikom tih dvaju
bacanja je realizacija jedne sluajne varijable X. Skup svih moguih realizacija te sluajne varijable
je R(X) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} R.

Primjer 4.6. Broj ulovljenih komaraca u jednu klopku u Osijeku, u jednom danu lipnja 2012.
godine, moemo modelirati kao sluajnu varijablu. Naime, jedan dan u klopku smo uhvatili, npr.
20 komaraca, drugi dan 25, trei dan 45, etvrti dan opet 20. Koliko emo ih uhvatiti sutra,
prekosutra? Ne znamo kako e se ta varijabla realizirati sutra i prekosutra, ali znamo da e to
svakako biti neki prirodan broj ili nula. Osim toga, ako smo postavili dvije identine klopke jednu
pored druge, moe se dogoditi da je u istom danu na jednu klopku uhvaeno 20 komaraca, a na
drugu 23. Dakle, prirodno je smatrati tu varijablu sluajnom varijablom (oznaimo je s X) jer,
u uvjetima koje mi moemo sagledati, ne moemo sa sigurnou znati kako e se realizirati. Skup
svih moguih realizacija ove sluajne varijable je skup R(X) = {0, 1, 2, . . . , n}, gdje je n N
najvei broj komaraca koji mogu biti ulovljeni koritenom klopkom.

4.2

Vjerojatnost

Promatrajui skup vrijednosti koji moe primiti sluajna varijabla X moe se dogoditi da je nae uvjerenje u realizaciju nekog podskupa A R(X) vee od uvjerenja
da e se realizirati poskup B R(X). U tom sluaju uobiajeno kaemo da skup
A ima vee anse za realizaciju nego podskup B.

56

Sluajna varijabla

Primjer 4.7. U primjeru bacanja igrae kockice ishod jednog bacanja modelirali smo sluajnom
varijablom X iji je skup svih moguih realizacija R(X) = {1, 2, 3, 4, 5, 6}. Pretpostavite da je
igraa kockica pravilno izraena. Razmislite i odgovorite na sljedea pitanja:
Kojim biste realnim brojem iskazali anse za realizaciju skupa {3}?
Oekujete li da se anse za realizaciju skupa {3} razlikuje od ansi za realizaciju skupa {5}?
Kojim biste realnim brojem iskazali anse za realizaciju parnog broja pri bacanju ove kockice (tj.
da se na kockici okrene paran broj)?

Ima smisla takoer govoriti i o ansama za realizaciju nekog podskupa skupa iji
elementi nisu realni brojevi, nego proizvoljni objekti (npr. slova, neki specijalni
znakovi, razne kategorije). Sljedei primjer ilustrira jedan takav sluaj.

Primjer 4.8. Promotrimo skup = {, , , }. Elementi ovog skupa su oznake za crne karte
(tref i pik) i crvene karte (karo i herc) u standardnom svenju angloamerikih igraih karata.
Dakle skup ima etiri elementa i moemo rei da njegovi elementi opisuju ishod pokusa koji
se sastoji od izvlaenja jedne karte iz svenja pri emu nas za izvuenu kartu zanima samo boja
(crvena ili crna) i tip (tref, pik, karo ili herc). Razmislite i odgovorite na sljedea pitanja:
Kojim biste realnim brojem iskazali anse za realizaciju skupa {} ?
Oekujete li da se anse za realizaciju skupa {, } razlikuje od ansi za realizaciju skupa
{, }?
Kojim biste realnim brojem iskazali anse za realizaciju skupa {, , } , a kojim anse za
realizaciju skupa {}?

Broj kojim izraavamo anse za realizaciju nekog podskupa moemo definirati openito za neprazan skup , bez obzira jesu li njegovi elementi brojevi ili neki drugi
objekti. Mjeru koja modelira ansu da e se realizirati neki podskup promatranog
nepraznog skupa zvat emo vjerojatnost. Podskupove skupa zvat emo dogaajima. U ovom poglavlju navodimo definiciju vjerojatnosti, naine kako u konkretnim
primjerima moemo modelirati vjerojatnost te neka osnovna svojstva vjerojatnosti.
Neka je neprazan skup te neka familija skupova F sadri odreene
podskupove od (tj. odreene dogaaje). Vjerojatnost (oznaka P ) je
funkcija koja svakom dogaaju A F pridruuje realan broj iz intervala
[0, 1] (tj. 0 P (A) 1) tako da vrijede sljedei zahtjevi:
V1. P () = 1,
V2. ako su A1 i A2 dogaaji iz F koji nemaju zajednikih elemenata, tj.
A1 , A2 F i A1 A2 = , tada vrijedi
P (A1 A2 ) = P (A1 ) + P (A2 ),

Vjerojatnost

57

tj. vjerojatnost unije dogaaja A1 i A2 jednaka je zbroju vjerojatnosti P (A1 ) i P (A2 ).1
Vidimo da je na ovaj nain definirana vjerojatnost na familiji podskupova proizvoljnog nepraznog skupa . Uzmemo li da je = R(X), dobivamo definiciju
vjerojatnosti na familiji podskupova skupa svih moguih realizacija (slike) sluajne
varijable X.

Uobiajene oznake i nazivi


Neka je R(X) skup svih moguih realizacija sluajne varijable X i F familija podskupova od R(X) na kojoj je definirana vjerojatnost P . Familiju F obino zovemo
familija dogaaja.
Zbog lakeg razumijevanja i opisivanja dogaaja koje razmatramo, tj. podskupova
od R(X), skup C R(X) oznaavat emo oznakom {X C}. Naime, skup C e
se dogoditi (realizirati) ako sluajna varijabla X primi vrijednosti (realizacije) iz
skupa C. Na taj nain lake povezujemo dogaaje sa sluajnom varijablom na koju
se odnose.
Primjer 4.9. Skup {X [2, 3]} definira dogaaj koji se dogodi ako se sluajna varijabla realizira
nekom vrijednou iz intervala [2, 3]. Uoimo da isti dogaaj moemo zapisati i na sljedei nain:
{2 X 3}.
Skup {4 < X 7} definira dogaaj koji se dogodi ako se sluajna varijabla realizira brojem koji
je vei od 4, ali manji ili jednak 7.

Sluajnu varijablu X definirali smo ako smo definirali R(X) i vjerojatnost P na


familiji podskupova F. Tada kaemo da smo zadali razdiobu (distribuciju) sluajne varijable X.
Definiranje vjerojatnosti za pojedine primjere temelji se na dosadanjem iskustvu u
istraivanju danog sluajnog pokusa i moe biti vrlo sloen postupak. U nastavku
opisujemo metodu odreivanja vjerojatnosti na konanom skupu pod uvjetom
da su svi ishodi jednako mogui. Takav pristup temelji se na intuitivnoj ideji
1 Ukoliko

familija F sadri beskonano mnogo dogaaja, ovaj zahtjev mora se pojaati. Tada se
T
trai da za proizvoljan niz dogaaja (An , n N) koji nemaju zajednikih toaka, tj. Ai Aj = ,
za sve i 6= j, vrijedi:
[
X
P(
Ai ) =
P (Ai ).
iN

iN

58

Sluajna varijabla

koju je formulirao jedan od osnivaa teorije vjerojantnsoti James Bernoulli (1654.


1705.), a moemo je prevesti kao "Vjerojatnost se prema sigurnosti odnosi kao dio
prema cjelini".

4.2.1

Jednako mogui ishodi

Pretpostavimo da prilikom izvoenje pokusa vrijede vrijede sljedei uvjeti:


(1) skup 6= ima konano mnogo elemenata, tj. je oblika
= {1 , . . . , n },

n N,

(2) svi jednolani podskupovi skupa su jednako vjerojatni, tj.


P ({i }) = P ({j }) ,

za sve i, j {1, . . . , n}.

Tada vjerojatnost skupa (dogaaja) A definiramo na sljedei nain:


P (A) =

k(A)
broj elemenata od A
=
,
broj elemenata od
k()

gdje je k() oznaka za broj elemenata skupa (tj. k(A) je oznaka za broj elemenata
skupa A, a k() za broj elemenata skupa ).
Taj pristup modeliranju vjerojatnosti temelji se na ideji da vjerojatnost predstavlja
mjeru dijela u odnosu na cjelinu. Problemi u primjeni ovog pristupa odnose se
na provjeru pretpostavki. Npr. kako moemo biti sigurni da su svi jednolani
podskupovi skupa jednako vjerojatni?
Na potpuno isti nain moemo definirati vjerojatnost na familiji podskupova skupa
svih moguih realizacija sluajne varijable X, tj. skupu R(X), pod uvjetom da
R(X) ima konano mnogo jednako vjerojatnih elemenata. Dakle, ako je = R(X),
tada vjerojatnost skupa B R(X) definiramo na sljedei nain:
P (B) =

k(B)
.
k (R(X))

Primjer 4.10. Iz svenja koji se sastoji od 32 karte2 izvlaimo jednu kartu. Odredimo:
vjerojatnost da je izvuena karta as
vjerojatnost da izvuena karta nije as
vjerojatnost da je izvuena karta as ili kralj.
2 Sveanj od 32 karte koji se spominje u ovoj knjizi podrazumijeva karte dolaze u etiri "boje"
(crvena, zelena, ir i bundeva) i osam tipova (sedmica, osmica, devetka, desetka, deko, dama,
kralj i as)

Vjerojatnost

59

Uoimo da ovakav sveanj moemo podijeliti na osam skupina karata koje se sastoje od po etiri
karte istog tipa (etiri sedmice, etiri asa, etiri kralja, etiri dame, . . . ). Prema tome, tipove
karata u svenju moemo oznaiti brojevima 1, . . . , 8. U skladu s ovim oznaavanjem zakljuujemo da se izvlaenjem jedne karte zapravo realizira jedan od brojeva 1, . . . , 8. Time smo zapravo
definirali sluajnu varijablu X koja svakoj karti iz svenja (koji moemo shvatiti kao skup )
pridruuje tono jedan od brojeva 1, 2, 3, 4, 5, 6, 7, 8. Dakle, skup svih moguih realizacija sluajne
varijable X je R(X) = {1, 2, 3, 4, 5, 6, 7, 8}. To je skup koji ima 8 elemenata koji su, zbog jednakobrojnosti svih osam skupina karata, svi jednako vjerojatni. Prema tome, odgovori na prethodno
postavljena pitanja su:
vjerojatnost da izvuemo asa je 1/8,
vjerojatnost da ne izvuemo asa je 7/8,
iz zahtjeva V2. iz definicije vjerojatnosti slijedi da je vjerojatnost da izvuemo asa ili kralja
1/8 + 1/8 = 1/4.

Primjer 4.11. Pri bacanju pravilno izraene igrae kockice moe pasti bilo koji od brojeva
1, . . . , 6, tj. skup svih moguih ishoda ovog pokusa je = {1, 2, 3, 4, 5, 6}. Pretpostavimo da
se ovo bacanje kockice vri u sklopu igre u kojoj zaraujemo jednu kunu ako se na kockici okrene
paran broj, a gubimo jednu kunu ako se okrene neparan broj.
Kolika je vjerojatnost zarade jedne kune?
Budui da jednu kunu zaraujemo ako se okrene 2 ili 4 ili 6, slijedi da je skup svih za nas povoljnih
ishoda skup A = {2, 4, 6} . Slijedi da je vjerojatnost zarade jedne kune
P (A) =

k(A)
3
1
= = .
k()
6
2

Drugi nain rjeavanja ovog problema ukljuuje definiranje sluajne varijable X ija je realizacija
1 ako se pri bacanju kockice okrene paran broj, a (1) ako se pri bacanju kockice okrene neparan
broj. Dakle, R(X) = {1, 1}. Povoljan dogaaj u ovom kontekstu je dogaaj {1} R(X), pa je
vjerojatnost zarade jedne kune
P {X = 1} =

1
k({1})
= .
k(R(X))
2

Primjer 4.12. Bacamo jednom dvije pravilno izraene igrae kockice. Budui da se pri bacanju
na svakoj od kockica realizira neki od brojeva iz skupa {1, 2, 3, 4, 5, 6}, zakljuujemo da je jedna
realizacija bacanja dviju kockica ureeni par brojeva. Dakle, skup svih moguih ishoda ovog pokusa
je skup = {(i, j) : i, j {1, 2, 3, 4, 5, 6}} koji se sastoji od 36 elemenata. Pitamo se:
Kolika je vjerojatnost da je suma brojeva koji su pali na obje kockice jednaka 6?
Kolika je vjerojatnost da je suma brojeva koji su pali na obje kockice manja od 6?
Neka je A skup koji sadri one ureene parove iz za koje je suma prve i druge komponente
jednaka 6, tj.
A = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)},
a B skup koji sadri one ureene parove iz za koje je suma prve i druge komponente manja od
6, tj.
B = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)}.
Slijedi:

60

Sluajna varijabla
P (A) =

k(A)
5
=
,
k()
36

P (B) =

k(B)
10
5
=
=
.
k()
36
18

Drugi nain rjeavanja istih problema ukljuuje definiranje sluajne varijable X ija je realizacija
zbroj brojeva koji su pali pri bacanju dviju kockica, dakle R(X) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Vjerojatnosti skupova {X = 2}, . . . , {X = 12} mogu se pregledno prikazati tablicom 4.3.
k
P {X = k}

2
1
36

3
2
36

4
3
36

5
4
36

6
5
36

7
6
36

8
5
36

9
4
36

10
3
36

11
2
36

12
1
36

Tablica 4.3: Tablini prikaz vjerojatnosti skupova {X = 2}, . . . , {X = 12}.

4.2.2

Statistika interpretacija vjerojatnosti

Prethodno opisan nain odreivanja vjerojatnosti moe se primijeniti pod pretpostavkom da je broj jednako moguih ishoda sluajnog pokusa konaan. Mnogo je
pokusa koji ne zadovoljavaju te pretpostavke. Kako tada pridruiti vjerojatnost
skupu? U ovom poglavlju ilustrirat emo statistiku interpretaciju vjerojatnosti
koja moe biti od pomoi ako elimo odrediti vjerojatnost dogaaja u pokusu koji
moemo puno puta nezavisno3 izvoditi. Za ilustraciju zakonitosti o kojoj e biti rijei izvedite pokus tako da bacite novi 40 puta. Biljeite realizacije pisma (oznaka
1) ili glave (oznaka 0) kao to je to prikazano u tablici 4.4.
Redni broj bacanja
1
2
3
4
..
.

Realizacija
0
1
0
0
..
.

Tablica 4.4: Realizacije bacanja novia.

Izraunajte relativne frekvencije pojavljivanja pisma u prvih n bacanja za svaki


n = 1, . . . , 40. Grafiki prikaz relativnih frekvencija pojavljivanja pisma za 40 bacanja novia zabiljeenih u Excel dokumentu novcic.xls prikazan je na slici 4.1.
Usporedite svoje rezultate s navedenim grafom!
3 Smatramo da se pokusi izvode nezavisno ako injenica da se dogodio neki dogaaj prilikom
izvoenja jednog od njih ne mijenja anse za realizaciju bilo kojeg dogaaja drugog pokusa. Npr.
bacanje igrae kocke dva puta ini dva nezavisna pokusa, ali izvlaenje drugog broja u igri loto
pokus je koji nije nezavisan od izvlaenja prvog broja u toj igri.

Vjerojatnost

61

Slika 4.1: Grafiki prikaz relativnih frekvencija pojavljivanja pisma za 40 bacanja novia.
Ako ste imali pravilan novi (tj. novi kod kojeg su realizacije pisma i glave
jednako mogui ishodi), moete uoiti dvije slinosti vaeg grafa s grafom 4.4: za
velike n relativna frekvencija stabilizira se i to blizu 0.5. Uoite da je u svakom
pojedinom bacanju novia vjerojatnost pojavljivanja pisma ista jer bacamo isti
novi u istim uvjetima. Osim toga, tu vjerojatnost moemo izraunati na temelju
pretpostavke jednako moguih ishoda i ona iznosi tono 0.5.
Ovaj primjer ilustrira zakonitost o kojoj e biti rijei u poglavlju 5, a moe se saeti
u sljedeu formulaciju:
Ako je pokus takav da ga moemo nezavisno ponavljati mnogo puta,
relativna frekvencija pojavljivanja dogaaja A e se s poveanjem broja
ponavljanja pokusa stabilizirati oko broja koji predstavlja vjerojatnost
pojavljivanja dogaaja A.
Primjer 4.13.
(kockica.xls)
Pokus koji moemo nezavisno ponavljati mnogo puta je i bacanje igrae kockice. Znamo da se pri
jednom bacanju igrae kockice realizira broj iz skupa {1, 2, 3, 4, 5, 6} te da su, uz pretpostavku da
je kockica pravilno izraena, svi ishodi jednako mogui, tj.
P ({1}) = P ({2}) = P ({3}) = P ({4}) = P ({5}) = P ({6}) =

1
.
6

Oekujemo da e se s poveanjem broja bacanja igrae kockice relativne frekvencije moguih realizacija stabilizirati oko 1/6. Baza podataka kockica.xls sadri ishode za 100 bacanja igrae kockice
zajedno s pripadnim frekvencijama i relativnim frekvencijama. Relativne frekvencije realizacija jedinice i estice u ovisnosti o broju bacanja grafiki su prikazane na slici 4.2 - vidimo da se relativne
frekvencije stabiliziraju oko 1/6 0.1667.

62

Sluajna varijabla

Bacanjeigraekockice

relativnafrekvencija

0.35
0.3
0.25
0.2

jedinica

0.15

estica
jednaestina

0.1
0.05
1
10
19
28
37
46
55
64
73
82
91
100

Slika 4.2: Grafiki prikaz relativnih frekvencija pojavljivanja 1 i 6 za 100 bacanja igrae kockice.

4.2.3

Neka svojstva vjerojatnosti

Da bismo lake raunali vjerojatnosti dogaaja za razne podskupove konkretnog


skupa , u ovom poglavlju navest emo osnovna svojstva vjerojatnosti.
S1. Vjerojatnost suprotnog dogaaja
Ako je A F, tada je
P (Ac ) = 1 P (A),
gdje je Ac = \ A komplement skupa A.
Dokaz. Zahtjev V1. iz definicije vjerojatnosti glasi P () = 1. Cijeli skup moemo
prikazati kao uniju skupova A i Ac (slika 4.3).

=AA

Slika 4.3: Dogaaj A (zeleno podruje) i njegov komplemet Ac (uto podruje).


Ti skupovi nemaju zajednikih elemenata, tj. A Ac = . Sada prema zahtjevu
V2. iz definicije vjerojatnosti slijedi
1 = P () = P (A Ac ) = P (A) + P (Ac ) P (Ac ) = 1 P (A).

Vjerojatnost

63

S2. Vjerojatnost nemogueg dogaaja


P () = 0.
Dokaz.
S obzirom da je = c , primjenom zahtjeva V1. iz definicije vjerojatnosti i prethodno dokazanog svojstva S1. slijedi da je
P () = P (c ) = 1 P () = 0.
S3. Monotonost vjerojatnosti
Ako su A i B skupovi iz F takvi da je A B, tada je P (A) P (B). Osim
toga vrijedi i da je P (B \ A) = P (B) P (A).
Dokaz. Prikaimo skup B kao uniju skupova koji nemaju zajednikih elemenata:
B = A (B \ A), A (B \ A) = .

B\A

B=A(B \ A)

Slika 4.4: Skup B kao unija skupova A (manje uto podruje) i (B \ A) (zeleno
podruje).
Sada prema zahtjevu V2. iz definicije vjerojatnosti slijedi da je
P (B) = P (A (B \ A)) = P (A) + P (B \ A) P (A),
jer je zbog nenegativnosti vjerojatnosti P (B \ A) 0. Slijedi da je u tom sluaju
P (B) P (A), tj. P (A) P (B). Primjenom istog pristupa kao u dokazu prethodne
tvrdnje takoer slijedi da je P (B) = P (A (B \ A)) = P (A) + P (B \ A), tj.
P (B \ A) = P (B) P (A).
(S4) Vjerojatnost unije
Ako su A, B F proizvoljni dogaaji (koji ne moraju biti disjunktni), tada
je
P (A B) = P (A) + P (B) P (A B).
Dokaz. Sa slike 4.5 vidimo da se skup A B moe prikazati kao unija triju skupova
koji nemaju zajednikih elemenata.

64

Sluajna varijabla

A \ (AB) AB B \ (AB)

Slika 4.5: Skup A B (zeleno podruje) kao unija skupova A \ (A B), (A B) i


B \ (A B).
Dakle,
A B = (A \ B) (A B) (B \ A) = (A \ (A B)) (A B) (B \ (A B)) ,
gdje je A B A i A B B. Sada prema zahtjevu V2. iz definicije vjerojatnosti
slijedi
P (A B) = P (A \ (A B)) + P (A B) + P (B \ (A B)) =
P (A) P (A B) + P (A B) + P (B) P (A B) = P (A) + P (B) P (A B).

Primjer 4.14. Raunalo sluajno generira posljednju znamenku telefonskog broja. Skup svih
moguih ishoda generiranja zadnje znamenke je
= {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},

k() = 10.

Koritenjem svojstava S1., S2. S3. i S4. moemo odredite vjerojatnost sljedeih i slinih dogaaja:
a) vjerojatnost da je sluajno generirana znamenka jednaka 8 je
P ({8}) = 1/10
b) vjerojatnost da je sluajno generirana znamenka jednaka 8 ili 9 je
P ({8} {9}) = P ({8, 9}) = 2/10 = 1/5
c) vjerojatnost da je sluajno generirana znamenka neparna ili 2 je
P ({1} {3} {5} {7} {9} {2}) = P ({1, 2, 3, 5, 7, 9}) = 6/10 = 3/5
d) vjerojatnost da je sluajno generirana znamenka parna ili 2 je
P ({0} {2} {4} {6} {8} {2}) = P ({0, 2, 4, 6, 8}) = 5/10 = 1/2
e) vjerojatnost da je sluajno generirana znamenka neparna, ali nije 3, je
P ({1, 5, 7, 9}) = P ({1, 3, 5, 7, 9} \ {3}) = (5/10) (1/10) = 4/10 = 2/5.

Diskretna sluajna varijabla

4.3

65

Diskretna sluajna varijabla

Kao to smo opisali u poglavlju o tipovima varijabli koje su predmet statistikog


opisivanja i istraivanja, bitna je razlika u opisu numerikih varijabli koje su diskretnog tipa i onih koje su neprekidnog tipa. Te razlike vidljive su i u nainu koji
koristimo kada opisujemo vjerojatnosna svojstva sluajnih varijabli kojima modeliramo varijable u istraivanju. Mi emo razlikovati dva tipa sluajnih varijabli:
diskretne sluajne varijable i neprekidne sluajne varijable
Ako je R(X) konaan skup ili ga moemo prikazati kao R(X) = {xi R; i
N} (prebrojiv skup), kaemo da je sluajna varijabla X diskretna.
U tom sluaju skup svih moguih realizacija oznait emo s R(X) = {x1 , x2 , x3 , . . . , xn }
ako je on konaan, odnosno, s R(X) = {x1 , x2 , x3 , . . .} ako je beskonaan. Vjerojatnosti dogaaja vezanog uz realizaciju diskretne sluajne varijable moemo najjednostavnije raunati koristei vjerojatnosti da se dogode pojedinane realizacije.
Zato, uz skup svih moguih realizacija diskretne sluajne varijable X, u njezinu
opisu kljunu ulogu ima i pridrueni niz pozitivnih realnih brojeva (p1 , p2 , p3 , . . . , pn )
(odnosno (pi , i N), ako je R(X) beskonaan) kojim su zadane vjerojatnosti da se
dogode pojedinane realizacije iz R(X). Preciznije to moemo iskazati na sljedei
nain.
Neka je X diskretna sluajna varijabla s konanim skupom svih moguih
realizacija R(X) = {x1 , x2 , x3 , . . . , xn } (odnosno prebrojivim skupom svih
moguih realizacija R(X) = {x1 , x2 , x3 , . . .}). Za svaku pojedinu realizaciju
xi definiramo realan broj
pi = P {X = xi }.
Distribucija (razdioba) diskretne sluajne varijable X u potpunosti je
zadana skupom R(X) i pripadnim nizom (pi , i = 1, . . . , n) (odnosno nizom
(pi , i N) ako je R(X) prebrojiv skup).
Uoimo da za ovako definiran niz realnih brojeva (pi , i = 1, . . . , n), odnosno (pi , i
N), moraju vrijediti sljedea dva bitna svojstva kako bi on definirao vjerojatnost na
R(X):
1. pi 0 za sve pripadne xi R(X),
P
2.
pi = 1.
xi R(X)

66

Sluajna varijabla

Takoer, koritenjem zahtjeva V2 iz definicije vjerojatnosti izvodimo nain raunanja vjerojatnosti da diskretna sluajna varijabla primi vrijednosti iz nekog skupa
A R(X). Naime, vrijedi:
X
P {X A} =
pi .
xi A

Zaista, svaki skup A R(X) moemo prikazati kao uniju jednolanih podskupova
{xi } od R(X) gdje je i IA , tj.
[
{xi }.
A=
iIA

Odavde koritenjem poopenja svojstva V2. iz definicije vjerojatnosti slijedi:


(
)
[
X
X
P {X A} = P X
{xi } =
P {X = xi } =
pi .
iIA

xi A

iIA

Koritenjem ovih rezultata, diskretna sluajna varijabla se esto prikazuje pomou


ta dva bitna niza na sljedei nain:
X

x1 x2 . . . x n
p1 p2 . . . pn

!
,

odnosno X

x1 x2 x3 . . .
p1 p2 p3 . . .

!
,

pri emu se prvom tablicom zadaje diskretna sluajna varijabla karakterizirana


konanim skupom R(X), a drugom tablicom diskretna sluajna varijabla karakterizirana prebrojivim skupom R(X). Ovakvu tablicu zovemo tablica distribucije
diskretne sluajne varijable. Tablice distribucije moemo prikazivati i u klasinom
tablinom obliku (tablica 4.5) (usporedite s tabicom iz primjera 4.12).
vrijednosti od X
vjerojatnosti P {X = xi }

x1
p1

x2
p2

...
...

xn
pn

Tablica 4.5: Tablica distribucije diskretne sluajne varijable karakterizirane konanim skupom
R(X).

Distribuciju diskretne sluajne varijable X moemo slikovito prikazati stupastim


dijagramom u kojem svaki stupi odgovara jednoj vrijednosti xi koju ta sluajna
varijabla moe poprimiti (tj. jednom elementu iz R(X)), a visina stupia jednaka
je vjerojatnosti pi = P {X = xi }.
Primjer 4.15. Diskretna sluajna varijabla X koja moe poprimiti vrijednosti 1, 2, 3, 4, 5 zadana
je tablicom distribucije 4.6.

Diskretna sluajna varijabla


vrijednosti
vjerojatnosti

67
1
1/5

2
1/5

3
1/10

4
1/10

5
2/5

Tablica 4.6: Tablica distribucije sluajne varijable sa slikom {1, 2, 3, 4, 5}.

Stupasti dijagram distribucije sluajne varijable zadane tablicom distribucije 4.6 prikazan je na
slici 4.6.

1/2
vjerojatnosti

2/5
3/10
1/5
1/10
0

1
2
3
4
5
realizacije sluajne varijable X

Slika 4.6: Grafiki prikaz distribucije sluajne varijable X zadane tablicom distribucije 4.6.
Pomou tablice distribucije sluajne varijable X moemo odrediti vjerojatnosti za podskupove od
R(X). Npr.
P {X = 5} =

2
,
5

P {X {2, 3}} = P {X = 2} + P {X = 3} =

1
1
3
+
=
.
5
10
10

Primjer 4.16. Procjenjuje se uinak investicije na jednom podruju izraen u obliku dobiti,
odnosno gubitka. Neka je X diskretna sluajna varijabla ije su realizacije iznosi dobitka (odnosno
gubitka) u tisuama kuna. Distribucija vjerojatnosti uinka investicije zadana je tablicom 4.7.
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

dobit (gubitak) u tisuama kn


400
200
100
0
100
200
300
400

vjerojatnost
0.05
0.15
0.3
0.1
0.3
0.03
0.04
0.03

Tablica 4.7: Tablica distribucije vjerojatnosti uinka investicije.


Prema tablici 4.7 je
R(X) = {400, 200, 100, 0, 100, 200, 300, 400},

68

Sluajna varijabla

a pripadne vjerojatnosti su sljedee:


P {X = 400} = 0.05, P {X = 200} = 0.15, P {X = 100} = P {X = 100} = 0.3,
P {X = 0} = 0.1, P {X = 200} = P {X = 400} = 0.03, P {X = 300} = 0.04.
Dakle, tablicom 4.7 zadana je distribucija diskretne sluajne varijable X te pomou nje moemo
odrediti vjerojatnosti sljedeih dogaaja:
Investicija rezultira gubitkom ako sluajna varijabla X primi neku od vrijednosti iz skupa
{400, 200, 100} R(X),
pa je vjerojatnost da e investicija rezultirati gubitkom
P {X {400, 200, 100}} = 0.05 + 0.15 + 0.3 = 0.5.
Investicija nee rezultirati dobitkom ako sluajna varijabla X primi neku od vrijednosti iz skupa
{400, 200, 100, 0} R(X),
pa je vjerojatnost da investicija nee rezultirati dobitkom
P {X {400, 200, 100, 0}} = 0.05 + 0.15 + 0.3 + 0.1 = 0.6.
Vjerojatnost da e dobit biti barem 100000, ali manje od 300000 kuna je
P {X {100, 200}} = 0.3 + 0.03 = 0.33.

4.4

Neprekidna sluajna varijabla

Diskretne sluajne varijable posluit e kao matematiki model kojim opisujemo


diskretne numerike varijable u istraivanju. Za modeliranje neprekidnih numerikih
varijabli u istraivanjima trebat e nam model sluajne varijable iji je skup svih
moguih realizacija R(X) interval ili segment realnih brojeva ili je R(X) = R. Za
takve sluajne varijable bit e karakteristino da se, openito, njihova vjerojatnosna
svojstva ne mogu modelirati koritenjem niza vjerojatnosti pojedinanih realizacija
kao u diskretnom sluaju. Kao to smo ve uoili kod neprekidnih varijabli, naglasak
pri njihovu opisivanju stavljen je na interval vrijednosti koje takva varijabla prima,
a ne na pojedinane realizacije.
Za sluajnu varijablu X kaemo da je neprekidna sluajna varijabla ako
postoji nenegativna realna funkcija f , definirana na skupu realnih brojeva, takva da je za a, b R (a b) vjerojatnost
Zb
P {a X b} = P {a < X b} =

f (x) dx.
a

Takvu funkciju f zovemo funkcija gustoe neprekidne sluajne varijable


X.
Uoimo da vjerojatnost P {a X b} = P {a < X < b} zapravo predstavlja
povrinu izmeu osi x i grafa funkcije f na intervalu [a, b] (slika 4.7).

Neprekidna sluajna varijabla

69
f (x)

P {a X b}
a

Slika 4.7: Vjerojatnost kao povrina izmeu osi x i grafa funkcije f na intervalu [a, b]
Na taj nain lako vizualiziramo znaenje vjerojatnosti da neprekidna sluajna varijabla primi vrijednost iz nekog podskupa skupa R. Dakle, prilikom raunanja vjerojatnosti za neprekidnu sluajnu varijablu treba prvo skicirati graf njene funkcije
gustoe i koristiti ga prilikom analiziranja sluajne varijable i raunanja vjerojatnosti da ona primi vrijednost iz nekog skupa.
Neprekidna sluajna varijabla zadana je ako je poznata njena funkcija gustoe. Tada
kaemo da poznajemo razdiobu ili distribuciju neprekidne sluajne varijable.
Primjer 4.17. Funkcija gustoe neprekidne sluajne varijable X dana je izrazom
(
|x| + 1 , x [1, 1]
f (x) =
.
0
, x
/ [1, 1]
Graf funkcije f prikazan je slikom 4.8.
y

0.8
0.6
0.4
0.2
-1.5 -1.0 -0.5

0.5

1.0

Slika 4.8: Graf funkcije gustoe f .


Raunanjem povrine ispod grafa funkcije f moemo odrediti vjerojatnost da se X realizira realnim
brojem iz nekog intervala. Na primjer:

70

Sluajna varijabla
y

0.8
0.6
0.4
0.2

0.8
0.6
0.4
0.2
x

-1.5-1.0-0.5 0.0 0.5 1.0

(a) P {X (0, 1)} =

-1.5-1.0-0.5 0.0 0.5 1.0

1
2

(b) P {X (1, 21 )} =

1
8

y
0.8
0.6
0.4
0.2
x

-1.5-1.0-0.5 0.0 0.5 1.0

(c) P {X ( 12 , 1)} =

4.5

7
8

Mjere centralne tendencije i rasprenosti sluajne varijable

Kao to smo kod podataka prikupljenih mjerenjem numerikih varijabli koristili


mjere centralne tendencije i rasprenosti da bismo lake opisali skup podataka, tako
i kod sluajnih varijabli moemo koristiti analogne mjere za laki opis svojstava
sluajnih varijabli. Meutim, teorijska analiza takvih mjera precizno definiranih na
osnovi tablice distribucije kod diskretnih, odnosno funkcije gustoe kod neprekidnih,
sluajnih varijabli donosi i neke njihove bitne znaajke koje se koriste u statistikom
zakljuivanju. U ovom poglavlju definirat emo mjere centralne tendencije i rasprenosti sluajne varijable posebno za diskretne, a posebno za neprekidne sluajne
varijable.
Neka je X diskretna sluajna varijabla zadana tablicom distribucije
!
!
x1 x2 . . . x n
x1 x2 x3 . . .
X
, odnosno X
.
p1 p2 . . . pn
p1 p2 p3 . . .
Ako red

|xi |pi konvergira, moemo definirati oekivanje sluajne varijable

xi R(X)

X kao realan broj


= EX =

X
xi R(X)

xi pi .

Mjere centralne tendencije i rasprenosti


Ako i red

71

x2i pi konvergira, moemo definirati varijancu kao realan broj

P
xi R(X)

2 = VarX =

(xi )2 pi .

xi R(X)

Primjer 4.18. Promotrimo bacanje pravilno izraene igrae kockice. Znamo da e se pri jednom
bacanju te kockice okrenuti jedan broj iz skupa {1, 2, 3, 4, 5, 6}, no ne znamo tono koji. Kako
je kockica pravilo izraena, znamo da se svaki od brojeva iz tog skupa realizira s vjerojatnou
1/6. Dakle, ishod jednog bacanja ovakve kockice modeliramo diskretnom sluajnom varijablom X
s tablicom distribucije
!
1 2 3 4 5 6
.
1/6 1/6 1/6 1/6 1/6 1/6
Oekivanje ove sluajne varijable je broj
EX =

1
(1 + 2 + 3 + 4 + 5 + 6) = 3.5,
6

a njezina varijanca broj


VarX =

6
X
1
(k 3.5)2 2.92.
6
k=1

Neka je X neprekidna sluajna varijabla s funkcijom gustoe f . Ako postoji


R
|x| f (x) dx, onda definiramo oekivanje ove sluajne varijable kao realan broj

Z
= EX =

x f (x) dx.

Ako postoji i

x2 f (x) dx, definiramo varijancu kao realan broj

= VarX =

(x )2 f (x) dx.

Primjer 4.19. Neprekidna sluajna varjabla iz zadatka 4.14 zadana je funkcijom gustoe
(
1/2 , x [1, 1]
f (x) =
.
0 , x
/ [1, 1]
Izraunajmo oekivanje i varijancu ove neprekidne sluajne varijable:
Z
Z 1
x
dx = 0,
EX =
x f (x) dx =

1 2
Z
Z 1 2
x
1
VarX =
(x EX)2 f (x) dx =
dx = .
3

1 2

72

Sluajna varijabla

Drugi korijen iz varijance zovemo standardna devijacija sluajne varijable i oznaavamo ga sa .


Oekivanje je jedna od mjera centralne tendencije, a varijanca i standardna devijacija mjere rasprenja oko oekivanja. Tu injenicu potkrijepljuju mnogi rezultati
teorije vjerojatnosti, a jedan od njih je i takozvana ebievljeva nejednakost.
ebievljeva nejednakost:
Neka je X sluajna varijabla koja ima varijancu. Neka je standardna
devijacija te sluajne varijable, a njeno oekivanje. Tada za svaki prirodan broj k vrijedi:
P {|X | k}

1
,
k2

k N.

Primjenom svojstva vjerojatnosti suprotnog dogaaja slijedi da je


P {|X | < k} 1

1
.
k2

Interpretacije:
Vjerojatnost da se sluajna varijabla realizira vrijednostima koje su od oekivanja
udaljene vie ili jednako k manja je ili jednaka 1/k 2 .
Vjerojatnost da se sluajna varijabla realizira vrijednostima koje su od oekivanja
udaljene manje od k vea je od 1 1/k 2 .
Uvrtavajui k = 3, vidimo da realizacija sluajne varijable pada u interval (
3, +3) s vjerojatnou veom od 0.88 ( 0.9). Ta injenica praktino znai
da barem 88% realizacija sluajne varijable X padne u interval (3, +3).
Ove tvrdnje vrijede za sve sluajne varijable koje imaju varijancu pa je za oekivati
da tako dobivena ocjena nije jako precizna, ali ona svakako svjedoi o standardnoj devijaciji kao jednoj mjeri rasprenosti realizacija sluajne varijable oko njenog
oekivanja.
Na slikama 4.9 i 4.10 prikazana je vjerojatnost P {|X | < k} za k = 1 i k = 3
za normalnu sluajnu varijablu X s parametrima = 0 i = 1.

Mjere centralne tendencije i rasprenosti

73
f (x)

P {|X | < }

Slika 4.9: Prema ebievljevoj nejednakosti je P {|X | < } = P {X ( , + )} 0.


f (x)

P {|X | < 3}

x
3

8
9

Slika 4.10: Prema ebievljevoj nejednakosti je P {|X | < 3} = P {X ( 3, + 3)} .

Medijan sluajne varijable X je realan broj m za koji vrijedi da je


P {X m}

1
2

i P {X m}

1
.
2

Medijan je takoer jedna mjera centralne tendencije, ali ne mora nuno biti jedinstven.
Primjer 4.20. Kockar sudjeluje u igri u kojoj dobiva kada se pri bacanju igrae kockice okrene
estica. No, odluio je varati i u tu je svrhu nabavio nepravilno izraenu igrau kockicu za koju
je
1
P ({k}) =
, k {1, 2, 3, 4, 5}
15
i P ({6}) = 2/3. Dakle, bacanje te kockice modeliramo sluajnom varijablom X ija je distribucija
dana tablicom
!
1
2
3
4
5
6
X=
.
1/15 1/15 1/15 1/15 1/15 2/3

74

Sluajna varijabla

Uoimo da je
2
,
3
pa je 6 medijan sluajne varijable X. Takoer uoimo da ova sluajna varijabla ima jedinstven
medijan.
P {X 6} = 1

P {X 6} =

Primjer 4.21.
a) U primjeru 4.18 definirali smo diskretnu sluajnu varijablu X kojom modeliramo bacanje pravilno izraene igrae kockice i ija je distribucija dana tablicom
!
1 2 3 4 5 6
.
X=
1/6 1/6 1/6 1/6 1/6 1/6
Uoimo da je
P {X 3} =

1
2

P {X 3} =

2
3

te da je
2
1
i P {X 4} = ,
3
2
pa slijedi da je svaki realan broj iz intervala [3, 4] medijan ove sluajne varijable.
P {X 4} =

b) U primjeru 4.16 definirali smo diskretnu sluajnu varijablu X ije su realizacije iznosi
dobitka, odnosno gubitka, od neke investicije izraeni u tisuama kuna i ija je distribucija
dana tablicom 4.7 koju moemo zapisati i na sljedei nain:
!
400 200 100 0 100 200 300 400
X=
.
0.05 0.15 0.3 0.1 0.3 0.03 0.04 0.03
Uoimo da je
P {X 0} = P {X {400, 200, 100, 0}} = 0.6

P {X 0} = P {X {0, 100, 200, 300, 400}} = 0.5,

te da je
P {X 100} = P {X {400, 200, 100}} = 0.5

P {X 100} = P {X {100, 0, 100, 200, 300, 400}} = 0.8,

pa slijedi da je svaki realan broj iz intervala [100, 0] medijan ove sluajne varijable.

Primjer 4.22. Promotrimo normalnu sluajnu varijablu s parametrima 0 i 1. Iz kalkulatora


vjerojatnosti u programskom paketu Statistica moemo proitati da je = EX = 0, 2 = VarX =
1, = 1 i medijan = 0. Iz distribucije ove sluajne varijable slijedi:
P {|X | < 3} = P {|X| < 3} = P {3 < X < 3} = P {X < 3} P {X 3} =
Z 3
Z 3
Z 3
=
f (x) dx =
f (x) dx
f (x) dx = 0.998650 0.001350 = 0.9973.
3

Ocjena ove vjerojatnosti dobivena pomou ebievljeve nejednakosti je (pogledajte sliku 4.10)
P {|X | < 3} = P {|X| < 3} 1

8
1
= 0.888.
9
9

Uoimo da je ocjena dobivena pomou ebievljeve nejednakosti realno gruba.

Primjeri sluajnih varijabli

4.6

4.6.1

75

Vani primjeri diskretnih i neprekidnih sluajnih varijabli


Bernoullijeva sluajna varijabala

Ako varijabla koju istraujemo moe primiti samo dvije vrijednosti (npr. 0 ili 1),
moemo je modelirati koritenjem Bernoullijeve sluajne varijable.
Bernoullijeva sluajna varijabla s parametrom p (0, 1) je svaka sluajna varijabla
koja ima tablicu distribucije sljedeeg oblika:
X=

0 1
q p

!
,

p (0, 1),

q = 1 p.

Parametar p (0, 1) ima znaenje vjerojatnosti da sluajna varijabla X primi vrijednost 1.

Primjer 4.23. Igramo kockarsku igru u kojoj ostvarujemo dobitak ako se na igraoj kocki okrene
estica.
!
0 1
X=
.
5/6 1/6
Dakle, realizaciju estice moemo modelirati Bernoullijevom sluajnom varijablom: ako se pri
bacanju kockice realizira estica, Bernoullijeva sluajna varijabla X poprima vrijednost 1, a inae
poprima vrijednost 0. Uoite da su vjerojatnosti u tablici distribucije sluajne varijable X odreene
na temelju pretpostavke jednko moguih ishoda.

Primjer 4.24. Izvlaimo jedan proizvod iz velike poiljke u kojoj je 2% loih proizvoda (oznake:
0 - lo proizvod, 1 - dobar proizvod). Rezultat izvlaenja modeliramo Bernoullijevom sluajnom
varijablom s tablicom distribucije
!
X=

0
1
0.02 0.98

Oekivanje Bernoulijeve sluajne varijable s parametrom p je


EX = 1 p + 0 q = p,
a varijanca
VarX = pq.

76

4.6.2

Sluajna varijabla

Binomna sluajna varijabla

Binomna sluajna varijabla vezana je uz n nezavisnih ponavljanja pokusa koji ima


samo dva mogua ishoda - uspjeh i neuspjeh (oznake: 1 - uspjeh; 0 - neuspjeh).
Pri tome se u svakom izvoenju pokusa uspjeh realizira s vjerojatnou p (0, 1).
Svako ponavljanje takvog pokusa opisano je Bernoullijevom sluajnom varijablom.
Binomna sluajna varijabla s parametrima n N i p (0, 1) (oznaka X B(n, p))
broji uspjehe u tih n nezavisnih ponavljanja pokusa. Njena distribucija zadana je
sljedeom tablicom:

0
1
2
.
.
.
n
!
!

X= n n
n
, q = 1 p.
n1
q
pq
p2 q n2 . . . pn
1
2

Objanjenje: pokus ijim se jednim izvoenjem moe realizirati ili uspjeh (1) ili
neuspjeh (0) ponavljamo nezavisno n puta. Zanima nas kolika je vjerojatnost da
se pojavi tono k uspjeha (tj. tono k jedinica), k = 0, 1, . . . , n. Prema tablici
distribucije binomne sluajne varijable slijedi da je
!
n
P {X = k} =
pk q nk
k
jer se u n nezavisnih ponavljanja pokusa tono k puta (svaki puta s vjerojatnou
p) pojavila realizacija koju nazivamo uspjeh i tono (n k) puta realizacija koju
nazivamo neuspjeh (svaki puta s vjerojatnou q).
Znaenje parametara binomne distribucije:
n - broj nezavisnih ponavljanja pokusa sa samo dva mogua ishoda,
p - vjerojatnost realizacije uspjeha (oznaenog brojem 1) u jednom izvoenju tog
pokusa.
Primjer 4.25. Broj realizacija estice pri n nezavisnih bacanja pravilno izraene igrae kockice
moemo modelirati binomnom sluajnom varijablom X s parametrima n i p = 1/6. Neka je
n = 100, dakle X B(100, 1/6). Stupasti dijagram koji prikazuje distribuciju (tj. vjerojatnosti
iz tablice distribucije) sluajne varijable X prikazan je slikom 4.11, pri emu je u koordinatnom
sustavu na x-osi prikazan broj bacanja kockice, a na y-osi vjerojatnost realizacije estice u tom
broju bacanja.

Primjeri sluajnih varijabli

77

y
0.10
0.08
0.06
0.04
0.02
20

40

60

80

Slika 4.11: Graf binomne distribucije s parametrima n = 100 i p = 1/6.


Nadalje, jedna realizacija sluajne varijabe Y B(100, 5/6) u ovom kontekstu je broj koji nam
kae koliko se puta estica nije pojavila u 100 nezavisnih bacanja ove igrae kockice. Stupasti
dijagram koji prikazuje distribuciju sluajne varijable Y prikazan je slikom 4.12.
y
0.10
0.08
0.06
0.04
0.02
20

40

60

80

Slika 4.12: Graf binomne distribucije s parametrima n = 100 i p = 5/6.


Oekivanje binomne sluajne varijable s parametrom p je
EX = np,
a varijanca
VarX = npq.
Primjer 4.26. Neka je X binomna sluajna varijabla s parametrima n = 10 i p = 0.1, tj.
X B(10, 0.1). Prema tome oekivanje, varijanca i standardna devijacija sluajne varijable X
su

EX = 1, V ar(X) = 0.9, = 0.9 0.95.


Vjerojatnost da realizacija sluajne varijable X padne u interval (EX , EX + ) = (0.05, 1.95)
je
P {|X 1| < 0.95} = P {X (0.05, 1.95)} = P {X = 1} = 0.38742.

78

Sluajna varijabla

Nadalje, vjerojatnost da realizacija sluajne varijable X padne u interval (EX 3, EX + 3) =


(1.85, 3.85) je
P {|X 1| < 3 0.95} = P {X (1.85, 3.85)} =
= P {X = 0} + P {X = 1} + P {X = 2} + P {X = 3} =
!
3
X
10
0.1k 0.910k 0.987205.
=
k
k=0

4.6.3

Normalna sluajna varijabala

Normalna sluajna varijabla najvanija je neprekidna sluajna varijabla. Njena


vanost posljedica je injenice da se suma mnogo nezavisnih i jednako distribuiranih sluajnih varijabli koje imaju konanu varijancu moe dobro
aproksimirati sluajnom varijablom s normalnom distribucijom. Analogna
tvrdnja esto vrijedi i ako sve sluajne varijable u sumi nisu jednako distribuirane,
a takoer i u nekim sluajevima kada nisu nezavisne.
Normalna sluajna varijabla (oznaka X N (, 2 )) je neprekidna sluajna
varijabla za koju je R(X) = R, a funkcija gustoe vjerojatnosti definirana
je izrazom
(x)2
1
f (x) = e 22 , x R,
2
gdje je bilo koji realan broj, a > 0.
Graf funkcije gustoe normalne sluajne varijable ovisi o izboru parametara i 2 .
Na slici 4.13 prikazani su grafovi funkcije gustoe normalne distribucije za razliite
vrijednosti parametara i 2 .

y
0.8

=0, 2 =1

0.6

=-2, 2 =0.25

0.4
=2, 2 =4
0.2

-4

-2

Slika 4.13: Graf funkcije gustoe normalne distribucije za razliite and 2 .

Empirijska distribucija

79

Specijalno, ako je = 0, 2 = 1, normalnu sluajnu varijablu zovemo standardna


normalna sluajna varijabla.
Znaenje parametara normalne distribucije:
= EX,

2 = V ar X.

Uoimo:
- funkcija gustoe normalne sluajne varijable ima maksimum za x =
- funkcija gustoe normalne sluajne varijable simetrina je u odnosu na pravac
koji prolazi maksimumom krivulje i paralelan je y osi
- standardna devijacija je pozitivan broj i ona odreuje koliko je funkcija gustoe
"iroka".
Postupak standardizacije.
Neka je X normalna sluajna varijabla X N (, 2 ). Tada je sluajna
varijabla
X
Z=

standardna normalna sluajna varijabla (tj. normalna sluajna varijabla


s oekivanjem 0 i varijancom 1).
Primjer 4.27. Pokaite da za X N (, 2 ) vrijede sljedee tvrdnje:
- Vjerojatnost da realizacija od X padne u interval [ , + ] iznosi 0.68.
- Vjerojatnost da realizacija od X padne u interval [ 2, + 2] iznosi 0.95.
- Vjerojatnost da realizacija od X padne u interval [ 3, + 3] iznosi 0.9972.
(Koristite postupak standardizacije i neki kalkulator povrine ispod grafa funkcije gustoe standardne normalne sluajne varijable, npr. kalkulator vjerojatnosti iz programskog paketa Statistica.)

4.7

Empirijska distribucija

Pretpostavimo da u statistikom ispitivanju biljeimo realizacije jedne diskretne


numerike varijable u M promatranja. Uvjereni smo da svi ti podaci predstavljaju
nezavisne realizacije iste diskretne sluajne varijable X. Za sada pretpostavljamo

80

Sluajna varijabla

da ta diskretna sluajna varijabla X moe primiti samo konano mnogo vrijednosti


x1 , . . . , xn . Tada je X zadana tablicom distribucije
!
x1 x2 . . . xn
X
,
p1 p2 . . . pn
ali pripadni niz vjerojatnosti pi , i = 1, . . . , n, ne znamo i elimo ga odrediti na
temelju prikupljenih podataka. U tu svrhu prisjetit emo se statistike interpretacije vjerojatnosti po kojoj se relativna frekvencija pojavljivanja realizacije xi u
prikupljenim podacima moe dovesti u vezu s pi ako je broj mjerenja dovoljno velik.
Empirijska distribucija diskretne sluajne varijable X koristi upravo ovu logiku
i definira pi tono kao relativnu frekvenciju pojavljivanja xi u M ponavljanja mjerenja.
Dakle, ako s fi oznaimo frekvenciju pojavljivanja realizacije xi u podacima, onda
je empirijska distribucija ove sluajne varijable zadana tablicom
!
x1 x2 . . . x n
,
f1 + f2 + fn = M.
fn
f1 f2
M M ... M
Rezultati koji su dokazani u okviru matematike statistike pokazuju da e empirijska
distribucija to bolje oslikavati stvarnu distribuciju sluajne varijable to je broj
promatranja (tj. izmjerenih vrijednosti varijable od interesa) vei.
Primjer 4.28. U jednoj trgovini uveden je novi proizvod. Nakon nekog vremena vlasnika zanima
svia li se kupcima taj proizvod ili ne pa je provedeno ispitivanje sluajnog uzorka kupaca. Pri
tome je provedeno sljedee kodiranje odgovora:
odgovor "ne svia mi se" oznaen je s 1
odgovor "niti mi se svia niti mi se ne svia" oznaen je s 0
odgovor "svia mi se" oznaen je s 1.
Biljeenjem odgovora na ovaj nain, ispitivanjem 50 kupaca dobiven je niz nula, jedinica i minus
jedinica koji preglednije prikazujemo tablicom frekvencija 4.8.
xi
ni

-1
24

0
11

1
15

Tablica 4.8: Tablica frekvencija odgovora kupaca.


Iz tablice 4.8 moemo odrediti empirijsku distribuciju sluajne varijable X kojom modeliramo
odgovor na postavljeno pitanje sluajno odabranog kupca. Ta sluajna varijabla moe primiti
vrijednosti 1, 0, 1, no pripadne vjerojatnosti P {X = 1}, P {X = 0} i P {X = 1} nisu nam
poznate. Dakle, distribuciju sluajne varijable X ne znamo. Meutim, pomou tablice frekvencija
4.8 moemo odrediti empirijsku distribuciju sluajne varijable X (tablica 4.9).

Empirijska distribucija

81
1 0
1
0.48 0.22 0.3

!
.

Tablica 4.9: Empirijska distribucija sl. var. kojom modeliramo odnos kupca prema proizvodu.
Ako pretpostavimo da empirijska distribucija odgovara stvarnoj distribuciji varijable X, moemo
donijeti npr. sljedee zakljuke:
vjerojatnost da se sluajno odabanom kupcu iz populacije svia novi proizvod je P {X = 1} = 0.3
ako u trgovinu doe 200 kupaca iz pripadne populacije, meu njima e biti priblino 200 0.3 = 60
kupaca kojima se ovaj proizvod svia.

Varijable o kojima elimo zakljuivati ne moraju biti uvijek diskretnog tipa s konanim skupom vrijednosti. Da bismo bili u stanju koristiti prikupljene podatke
za aproksimativno raunanje vjerojatnosti vezane uz sluajnu varijablu i kod ostalih tipova varijabli, definirat emo empirijsku distribuciju dobivenu koritenjem
podataka v1 , . . . , vM koji predstavljaju nezavisne realizacije sluajne varijable X.
Prije svega, uoimo da je broj prikupljenih podataka mjerenjem vrijednosti sluajne varijable uvijek konaan. Meu izmjerenim podacima moe biti i jednakih
pa pretpostavimo da se u nizu v1 , . . . , vM pojavljuju razliite vrijednosti x1 , . . . , xn
s odgovarajuim frekvencijma f1 , . . . fn . Na temelju dobivenih podataka moemo
definirati empirijsku distribuciju tablicom
!
x1 x2 . . . x n
,
f1 + f2 + fn = M.
f1 f2
fn
M M ... M
Neovisno o stvarnom tipu distribucije sluajne varijable iz koje dolaze navedeni
podaci, ovako definiranu empirijsku distribuciju moemo koristiti za aproksimativno
raunanje vjerojatnosti realiziranja varijable X u nekom skupu ako je M velik broj.
Tada, npr. vrijedi:
P {X [a, b]} relativna frekvencija pojavljivanja realizacije iz intervala [a, b].
Treba takoer uoiti da oekivanje empirijske distribucije odgovara aritmetikoj
sredini podataka, a varijanca empirijske distribucije varijanci podataka, tj. ako
je S sluajna varijabla definirana empirijskom tablicom distribucije gore opisanih
podataka
S

x1 x2 . . . xn
f1 f2
fn
M M ... M

!
,

f1 + f2 + fn = M,

onda je
ES =

1X
xi = x
n ,
n i

VarS =

1X
(xi x
n )2 = sn .
n i

82

Sluajna varijabla

Upitno je koliko je opravdano empirijsku distribuciju podataka prikupljenih na osnovi nezavisnih realizacija sluajne varijable smatrati njezinom pravom distribucijom. Kod varijabli koje su po karakteru neprekidne i elimo ih modelirati kao
neprekidne sluajne varijable, oigledno je da raunanje vjerojatnosti koritenjem
empirijske distribucije moe biti samo aproksimacija stvarnih vjerojatnosti (vidi
definiciju neprekidne sluajne varijable).
Zapravo, empirijska distribucija podataka prikupljenih na osnovi nezavisnih realizacija sluajne varijable X samo je procjena za njenu stvarnu distribuciju dok su
aritmetika sredina, varijanca, standardna devijacija i medijan tih podataka procjene za oekivanje, varijancu, standardnu devijaciju i medijan sluajne varijable,
ali to je tema sljedeih poglavlja.
Primjer 4.29.
(gradjevina.sta)
U bazi podataka gradjevina.sta u varijabli placa2009 nalaze se iznosi u eurima prosjenih mjesenih plaa zaposlenika u 2009. godini za 100 graevinskih poduzea srednje veliine u nekoj zemlji.
Prirodno je tu varijablu modelirati neprekidnom sluajnom varijablom X koja prima vrijednosti iz
intervala [0, x], gdje je x broj koji je vei ili jednak najvioj ikad zabiljeenoj plai u graevinskom
poduzeu srednje veliine u toj zemlji. Za raunanje vjerojatnosti vezanih uz realizacije sluajne
varijable X trebali bismo poznavati njezinu distribuciju, tj. funkciju gustoe vjerojatnosti. To
ovdje, kao i u veini praktinih problema, nije sluaj. Meutim, raspolaemo sa 100 izmjerenih vrijednosti (realizacija) neprekidne sluajne varijable X. Iz tih realizacija moemo odrediti
empirijsku distribuciju od X (odreujemo ju iz tablice relativnih frekvencija):
!
121 . . . 479 . . . 1559
.
1/100 . . . 2/100 . . . 1/100
Uz pretpostavku da empirijska distribucija zadana gornjom tablicom dobro aproksimira stvarnu
(nepoznatu) distribuciju neprekidne sluajne varijable X, moemo ju iskoristiti za odreivanje
priblinih vrijednosti vjerojatnosti vezanih uz realizacije od X. Tako je npr. vjerojatnost da
je prosjena mjesena plaa u sluajno odabranom graevinskom poduzeu srednje veliine u toj
zemlji vea od 500 eura priblino jednaka 0.66, tj.
P {X > 500} 0.66,
dok je vjerojatnost da je prosjena mjesena plaa barem 300 eura, ali manja od 500 eura priblino
jednaka 0.32, tj.
P {300 X < 500} 0.32.
Oekivanje od X procjenjujemo aritmetikom sredinom 100 dostupnih realizacija, tj. brojem
xn = 600.13,
a standardnu devijaciju procjenjujemo standardnom devijacijom tih podataka, tj. brojem
sn = 194.63.

Zadaci

4.8

83

Zadaci

Zadatak 4.1. Ako imamo jako preciznu vagu i mjerimo neto masu eera koji je pakiran u
vreice deklarirane mase 1 kg, hoemo li dobiti tono 1 kg? Ako uzmemo drugo pakiranje istog
tipa, koliko vam se ini izvjesno da e neto teina biti ista kao u prethodno vaganom pakiranju?
Oekujete li velika odstupanja? Ako neto masu eera u toj seriji pakiranja modeliramo sluajnom
varijablom X, koji biste skup svih moguih realizacija Vi definirali za tu sluajnu varijablu?

Zadatak 4.2. Iz svenja koji se sastoji od 32 karte izvlaimo dvije karte za redom. Kolika je
vjerojatnost da su obje izvuene karte asovi?
Rjeenje. Budui da iz svenja izvlaimo dvije karte jednu za drugom, skup ovdje se sastoji od
svih parova razliitih karata iz svenja. Zanima nas koliko elemenata ima skup . Odgovor nam
daje sljedee razmatranje:
- sveanj se sastoji od 32 karte i prva izvuena karta (koja se nakon izvlaenja ne vraa u sveanj)
moe biti bilo koja karta iz svenja
- prvu izvuenu kartu moemo spariti sa svakom od preostale 31 karte u svenju
- takvih parova karata ima 32 31 = 992, tj. k () = 992.
Na slian nain odreujemo broj elemenata skupa A koji se sastoji od svih parova razliitih asova.
Budui da u svenju ima etiri razliita asa, za svakog prvog izvuenog asa drugog asa biramo od
preostala tri asa pa takvih parova ima 4 3 = 12, tj. k(A) = 12. Prema tome vrijedi:
P (A) =

k(A)
12
3
=
=
.
k()
992
248

Zadatak 4.3. Pravilno izraena igraa kockica baca se dva puta. Zanimaju nas vjerojatnosti
sljedeih dogaaja:
a) A - pali su jednaki brojevi
b) B - suma brojeva koji su pali je 8
c) C - produkt brojeva koji su pali je 8.

Rjeenje.
a) A = {(i, j) : i = j}, P (A) = 6/36 = 1/6
b) B = {(i, j) : i + j = 8}, P (B) = 5/36
c) C = {(i, j) : i j = 8}, P (C) = 2/36 = 1/18.

Zadatak 4.4. U kutiji se nalazi 100 papiria numeriranih brojevima 1, 2, . . . , 100. Realizacija sluajne varijable X je broj na jednom sluajno izvuenom papiriu. Odredite vjerojatnosti sljedeih
dogaaja:
a) A - izvueni je broj jednoznamenkast

84

Sluajna varijabla
b) B - izvueni je broj dvoznamenkast
c) C - izvueni je broj manji ili jednak 57
d) D - izvueni je broj strogo vei od 57.

Rjeenje.
a) A = {1, . . . , 9}, P (A) = 9/100
b) B = {10, . . . , 99}, P (B) = 9/10
c) C = {1, . . . , 57}, P (C) = 57/100
d) D = {58, . . . , 100}, P (D) = 1 (57/100) = 43/100.

Zadatak 4.5. Ako ispunite listi s 12 kombinacija u igri LOTO 6 od 45, kolika je vjerojatnost
da osvojite dobitak na pogoenih svih est brojeva, a kolika je vjerojatnost da osvojite dobitak na
pet pogoenih brojeva?

Zadatak 4.6. Pravilno izraena igraa kockica baca se dva puta. Zanimaju nas vjerojatnosti
sljedeih dogaaja:
a) A - barem se jednom okrenuo broj 2
b) B - suma brojeva koji su pali je 7
c) C - produkt brojeva koji su pali je 4.

Zadatak 4.7. Na raspolaganju nam je kutija u kojoj se nalazi 150 papiria numeriranih brojevima 1, 2, . . . , 150. Realizacija sluajne varijable je broj na jednom sluajno izvuenom papiriu.
Odredite vjerojatnosti sljedeih dogaaja:
a) A - izvueni je broj djeljiv s tri
b) B - izvueni je broj troznamenkast
c) C - izvueni je broj manji ili jednak od 99
d) D - izvueni je broj strogo vei od 99.

Zadatak 4.8. Iz svenja od 52 karte na sluajan nain biramo 5 karata. Izraunajte vjerojatnost
da su izvuene tono tri dame ili tono dva asa.

Zadatak 4.9. Izmeu 100 istovrsnih objekata oznaenih razliitim brojevima od 1 do 100, na
sluajan nain izabiremo jedan objekt. Odredite vjerojatnosti sljedeih dogaaja:
a) izabran je objekt oznaen brojem veim ili jednakom 30 (Rjeenje: 71/100)
b) izabran je objekt oznaen brojem veim od 30 ili manjim od 10 (Rjeenje: 79/100)

Zadaci

85

c) izabran je objekt oznaen parnim brojem (Rjeenje: 1/2)


d) izabran je objekt oznaen parnim brojem ili brojem veim od 30 (Rjeenje: 17/20)
e) izabran je objekt oznaen brojem ija je zadnja znamenka 8 (Rjeenje: 1/10)
f) izabran je objekt oznaen brojem ija zadnja znamenka nije 8 (Rjeenje: 9/10)
g) izabran je objekt oznaen parnim brojem ija zadnja znamenka nije 8 (Rjeenje: 41/100).

Zadatak 4.10. Pretpostavimo da jednom bacamo pravilno izraen novi:


- ako pri bacanju novi padne na glavu (G), tada jednom gaamo metu jednostavnog karaktera (to znai da su jedine mogue realizacije gaanja mete promaaj (0) ili pogodak(1))
- ako pri bacanju novi padne na pismo (P ), tada jednom bacamo pravilno izraenu igrau
kockicu.
Odredite skup elementarnih dogaaja tog sluajnog pokusa te koritenjem elementarnih dogaaja
odredite sljedee dogaaje:
a) A - pismo je palo tono jednom
b) B - glava je pala tono jednom.
Primjenom skupovne operacije prikaite dogaaj A pomou dogaaja B. Ako je zadana vjerojatnost dogaaja A, tj. ako je P (A) = 0.5, odredite vjerojatnost dogaaja B.

Zadatak 4.11. Diskretna sluajna varijabla koja moe primiti vrijednosti 2, 3, 8 i 10 zadana je
tablicom distribucije 4.10.
vrijednosti
vjerojatnosti

2
0.15

3
0.10

8
0.25

10
0.5

Tablica 4.10: Tablica distribucije sluajne varijable sa slikom {2, 3, 8, 10}.


Odredite vjerojatnost da ova sluajna varijabla primi vrijednosti manje ili jednake 8.
Rjeenje. Vjerojatnost da ova sluajna varijabla primi vrijednosti manje ili jednake 8 je
P {X 8} = P {X {2, 3, 8}} = P {X = 2} + P {X = 3} + P {X = 8} = 0.5.

Zadatak 4.12. Promotrimo tablicu 4.11.


vrijednosti
vjerojatnosti

2
0.15

3
0

8
0.21

10
0.2

Tablica 4.11: Tablica kojom nije zadana distribucija sluajne varijable sa slikom {2, 3, 8, 10}.
Moe li ovom tablicom biti zadana distribucija jedne sluajne varijable?

86

Sluajna varijabla

Rjeenje. Zanima nas je li ovom tablicom zadana distribucija sluajne varijable X sa slikom
R(X) = {2, 3, 8, 10}. Vidimo da su brojevi u drugom retku tablice nenegativni (tj. 0) i manji od
jedan, ali u sumi daju 0.56 to nije u skladu s drugim navedenim svojstvom distribucije diskretne
sluajne varijable. Dakle, konaan niz brojeva 0.15, 0, 0.21, 0.2 ne definira vjerojatnost na skupu
{2, 3, 8, 10}.

Zadatak 4.13. Funkcija gustoe neprekidne sluajne varijable X dana je izrazom


(
|x| , x [1, 1]
f (x) =
.
0 , x
/ [1, 1]
Graf funkcije gustoe prikazan je slikom 4.14. Odredite vjerojatnosti P {X (0, 1)}, P {X
(1, 1/2)} i P {X (1/2, 1)}.

0.8
0.6
0.4
0.2
-1.5 -1.0 -0.5

0.5

1.0

Slika 4.14: Graf funkcije gustoe sluajne varijable iz zadatka 4.13.


Rjeenje. Analognim postupkom kao u primjeru 4.17 moemo odrediti vjerojatnost da se X realizira realnim brojem iz nekog intervala realnih brojeva.
y

0.8
0.6
0.4
0.2

0.8
0.6
0.4
0.2
x

-1.5-1.0-0.5 0.0 0.5 1.0

(a) P {X (0, 1)} =

-1.5-1.0-0.5 0.0 0.5 1.0

1
2

(b) P {X (1, 1/2)} =


y
0.8
0.6
0.4
0.2
x

-1.5-1.0-0.5 0.0 0.5 1.0

(c) P {X (1/2, 1)} =

5
8

x
3
8

Zadaci

87

Zadatak 4.14. Funkcija gustoe neprekidne sluajne varijable dana je izrazom


(
1/2 , x [1, 1]
.
f (x) =
0 , x
/ [1, 1]

y
1
2

-2

-1

Slika 4.15: Graf funkcije gustoe sluajne varijable iz zadatka 4.14.

Odredite vjerojatnosti sljedeih dogaaja:


a) P {X (0, 1)} (Rjeenje: 1/2),
b) P {X (1, 1/2)} (Rjeenje: 1/4),
c) P {X (1/2, 1)} (Rjeenje: 3/4),
d) P {X (3/2, 1/2)} (Rjeenje: 3/4),
e) P {X (2, 2)} (Rjeenje: 1).

Zadatak 4.15. Pokrenite programski paket Statistica te izaberite:


Statistics

Probability Calculator4

Distributions.

Pogledajte grafove nekih funkcija gustoa vjerojatnosti koje se koriste u primjenama. Diskutirajte
o razlikama u grafovima. Odaberite jednu sluajnu varijablu koja prima brojeve bliske nuli s
velikom vjerojatnou.

Zadatak 4.16. U programskom paketu Statistica pod opcijom Distributions u kalkulatoru vjerojatnosti (probability calculator) prouite grafove funkcija gustoa normalne sluajne varijable.
Uoite da se u izborniku nalaze i imana drugih neprekidnih sluajnih varijabli koje nismo spominjali. Potraite u dodatnoj literaturi opis Studentove, Fisherove, eksponencijalne i 2 sluajne
varijable i za svaku od njih, koritenjem programskog paketa Statistica, odredite P {X 1},
P {X 1}, P {X 1} i P {0 < X 1}. Pri tome koristite vrijednosti parametara koji su zadani
u programskom paketu.
4 kalkulator

vjerojatnosti

88

Sluajna varijabla

Rjeenje.
1. Normalna distribucija s parametrima = 0 i = 1 (mean=0, st.dev.=1):

0.3

0.3

0.2

0.2

0.1

0.1

-4 -3 -2 -1

-4 -3 -2 -1

(a) P {X 1}

(b) P {X 1}

0.3

0.3

0.2

0.2

0.1

0.1

-4 -3 -2 -1

-4 -3 -2 -1

(c) P {X 1}

(d) P {0 < X 1}

Slika 4.16: Normalna distribucija - geometrijski prikaz vjerojatnosti.


Z1
P {X 1}

f (x) dx = 0.158655

Z1
P {X 1}

f (x) dx = 0.841345

Z1
P {X 1}

f (x) dx = 1 0.841345 = 0.158655

Z1
P {0 < X 1}

Z0
f (x) dx

f (x) dx = 0.841345 0.341345 = 0.341345.

Zadaci

89

2. Studentova distribucija s jednim stupnjem slobode (df=1):

0.30
0.25
0.20
0.15
0.10
0.05
-4 -3 -2 -1

0.30
0.25
0.20
0.15
0.10
0.05
1

-4 -3 -2 -1

(a) P {X 1}

(b) P {X 1}

0.30
0.25
0.20
0.15
0.10
0.05
-4 -3 -2 -1

0.30
0.25
0.20
0.15
0.10
0.05
1

-4 -3 -2 -1

(c) P {X 1}

(d) P {0 < X 1}

Slika 4.17: Studentova distribucija - geometrijski prikaz vjerojatnosti.


Z1
P {X 1}

f (x) dx = 0.25

Z1
P {X 1}

f (x) dx = 0.75

Z1
P {X 1}

f (x) dx = 1 0.75 = 0.25

Z1
P {0 < X 1}

Z0
f (x) dx

f (x) dx = 0.75 0.25 = 0.25.

90

Sluajna varijabla
3. Fisherova distribucija sa stupnjevima slobode m = 10 i n = 10 (df1=10, df2=10):

0.6

0.6

0.4

0.4

0.2

0.2

-1

-1

(a) P {X 1} = P {0 < X 1}

(b) P {X 1}

Slika 4.18: Fisherova distribucija - geometrijski prikaz vjerojatnosti.


Z1
P {X 1}

f (x) dx = 0

Z1
P {X 1}

f (x) dx = 0.5

Z1
P {X 1}

f (x) dx = 1 0.5 = 0.5

Z1
P {0 < X 1}

Z0
f (x) dx

f (x) dx = 0.5 0 = 0.5.

4. Eksponencijalna distribucija s parametrom = 1:

0.8

0.8

0.6

0.6

0.4

0.4

0.2
-1

0.2
1

(a) P {X 1} = P {0 < X 1}

-1

(b) P {X 1}

Slika 4.19: Eksponencijalna distribucija - geometrijski prikaz vjerojatnosti.

Zadaci

91

Z1
P {X 1}

f (x) dx = 0

Z1
P {X 1}

f (x) dx = 0.632121

Z1
P {X 1}

f (x) dx = 1 0.632121 = 0.367879

Z1
P {0 < X 1}

Z0
f (x) dx

f (x) dx = 0.632121 0 = 0.632121.

5. 2 distribucija s 3 stupnja slobode (df=3):

0.20

0.20

0.15

0.15

0.10

0.10

0.05
-1

0.05
1 2 3 4 5 6 7 8 9

-1

(a) P {X 1} = P {0 < X 1}

1 2 3 4 5 6 7 8 9

(b) P {X 1}

Slika 4.20: 2 distribucija - geometrijski prikaz vjerojatnosti.


Z1
P {X 1}

f (x) dx = 0

Z1
P {X 1}

f (x) dx = 0.198748

Z1
P {X 1}

f (x) dx = 1 0.198748 = 0.801252

Z1
P {0 < X 1}

Z0
f (x) dx

f (x) dx = 0.198748 0 = 0.198748.

92

Sluajna varijabla

Uoavamo da je kod normalne distribucije s parametrima 0 i 1 i Studentove distribucije s parametrom df = 1 (tj. s jednim stupnjeva slobode) P {X 1} = P {X 1}, to ukazuje
na simetrinost tih distribucija. Budui da je kod Fisherove, eksponencijalne i 2 distribucije
P {X 1} = P {X 0} = 0, zakljuujemo da su te tri distribucije nenegativne, tj. da sluajne
varijable s tim distribucijama ne poprimaju negativne vrijednosti.
Uoimo slinost grafa funkcija gustoa normalne distribucije s parametrima 0 i 1 i Studentove
distribucije. Graf funkcije gustoe Studentove distribucije s poveanjem vrijednoste parametra
df (tj. s poveanjem broja stupnjeva slobode) sve vie nalikuje grafu funkcije gustoe normalne
distribucije s parametrima 0 i 1. to je broj stupnjeva slobode vei, to je vjerojatnost da sluajna
varijabla sa Studentovom distribucijom poprimi vrijednosti iz nekog intervala realnih brojeva blia
vjerojatnosti da sluajna varijabla s normalnom distribucijom poprimi vrijednosti iz tog istog
intervala.
Kada vrijednost parametra mean normalne distribucije nije 0 nego npr. 1, uoimo da je P {X
1} = 0.022750, a P {X 1} = 0.5. No u ovom je sluaju P {X 1} = P {X 1} = 0.5 i
takoer P {X 0} = P {X 2} = 0.158655. Zakljuujemo da je normalna distribucija simetrina
s obzirom na vrijednost parametra mean.

Zadatak 4.17. Po uzoru na primjer 4.37 odredite oekivanje, varijancu, standardnu devijaciju
i medijan diskretnih sluajnih varijabli kojima modeliramo diskretne numerike varijable iz primjera poglavlja 4.3 (pretpostavite da se stvarna i empirijska distribucija tih sluajnih varijabli
podudaraju). Za svaku od promatranih sluajnih varijabli odredite P {|X | < 3} koritenjem
distribucije te dobiveni rezultat usporedite s ocjenom vjerojatnosti dobivenom pomou ebievljeve nejednakosti.

Zadatak 4.18. Neka je distribucija sluajne varijable X dana tablicom:


!
3 2 1 4 5 6
X=
.
1
1
1
1
1
5
6

12

12 12 12

a) Odredite vjerojatnost skupova: {X < 0}, {X = 3}, {X = 0}, {X > 6}, {X 5}.
b) Odredite njeno oekivanje, varijancu i standardnu devijaciju.
c) Odredite P {|X | 2}, gdje je oekivanje a 2 varijanaca.

Zadatak 4.19. Poznato je da je u velikom skladitu trgovine informatikom opremom vjerojatnost


pojavljivanja prijenosnog raunala s grekom nastalom u proizvodnji jednaka 0.02. Pretpostavimo
da iz tog skladita biramo 10 prijenosnih raunala. Odredite sljedee vjerojatnosti:
a) vjerojatnost da je tono 5 prijenosnih raunala s grekom (Rjeenje: 7.28922 107 )
b) vjerojatnost da su s grekom najvie 3 prijenosna raunala (Rjeenje: 0.999969)
c) vjerojatnost da je s grekom barem 6 prijenosnih raunala (Rjeenje: 1.25423 108 ).

Zadaci

93

Zadatak 4.20. Jedno je istraivanje pokazalo da se 5% Amerikanaca boje biti sami u kui tijekom
noi. Ako na reprezentativan nain odaberemo uzorak od 20 Amerikanaca, odredite sljedee
vjerojatnosti:
a) ima tono pet ljudi u uzorku koji se boje biti sami nou (Rjeenje: 0.00224465)
b) ima najvie tri osobe u uzorku koje se boje biti same nou (Rjeenje: 0.984098)
c) ima barem tri osobe u uzorku koje se boje biti sami nou (Rjeenje: 0.0754837).

Zadatak 4.21. Raunovodstvena sluba nekog poduzea utvrdila je da 40% kupaca ne plaa
raune na vrijeme. Iz skupa svih kupaca koji su neto kupili od tog poduzea na sluajan nain
odabire se 6 kupaca.
a) Kolika je vjerojatnost da su svi odabrani kupci podmirili raune na vrijeme?
(Rjeenje: 0.046656)
b) Kolika je vjerojatnost da je preko 3/4 odabranih kupaca podmirilo raune?
(Rjeenje: 0.23328)
c) Kolika je vjerojatnost da 50% odabranih kupaca nije platilo raune na vrijeme?
(Rjeenje: 0.27648)

Zadatak 4.22. Vjerojatnost da izvjetaj o povratu poreza neke osobe bude ponovo pregledan
iznosi 1.5% za prihod manji od 100000 dolara, a 3% ako je prihod jednak 100000 dolara i vei
(izvor: Statistical Abstract of the USA, 1998).
a) Kolika je vjerojatnost da poreznom obvezniku, iji je prihod manji od 100000 $, porezna
kartica bude ponovno pregledana, a kolika za onoga iji je prihod jednak ili vei od 100000 $?
(Rjeenje: 0.015, 0.03.)
b) Ako se odabere pet poreznih obveznika s prihodom manjim od 100000 $, kolika je vjerojatnost da e biti pregledana samo jedna porezna prijava, a kolika da e ih biti pregledano vie
od jedne? (Rjeenje: 0.0706002, 0.00218326.)
c) Isto izraunajte za pet poreznih obveznika s prihodom veim od 100000 $.
(Rjeenje: 0.132794, 0.00847205.)
d) Koje ste pretpostavke morali postaviti da biste rijeili prethodne zadatke upotrebom binomne distribucije? (Rjeenje: pretpostavljamo da se radi o malom uzorku (pet osoba)
iz velike populacije, to aproksimativno odgovara modelu u kojem pet puta nezavisno ponavljamo isti Bernoullijev pokus. Ta pretpostavka ovdje omoguuje upotrebu binomne
distribucije.)

Zadatak 4.23. U poiljci od 100 okolada iz neke tvornice nalazi se samo 5% okolada s ljenjacima, a sve su ostale obine mlijene okolade. Pretpostavimo da elimo kuati okoladu s
ljenjacima:
- prvo na sluajan nain iz poiljke odaberemo jednu okoladu i bez obzira na to je li sa ljenjacima
ili ne, pojedemo ju
- nakon toga od preostalih okolada u poiljci odaberemo jo jednu okoladu.

94

Sluajna varijabla

Kolika je vjerojatnost da je druga odabrana okolada s ljenjacima, ako znamo da je:


a) prva odabrana okolada bila obina mlijena okolada
b) prva odabrana okolada bila okolada s ljenjacima.

Zadatak 4.24. Neka je Z standardna normalna sluajna varijabla, tj Z N (0, 1). Odredite
sljedee vjerojatnosti:
a) P {0.5 Z 1.1} (Rjeenje: 0.555796)
b) P {0.38 Z 1.72} (Rjeenje: 0.605311)
c) P {Z 1.6} (Rjeenje: 0.054799)
d) P {Z 1.8} (Rjeenje: 0.035930).

Zadatak 4.25. Prinos usjeva odreenog gospodarstva mjeri se koliinom proizvoda koji se proizvede po hektaru. Poznato je da se normalna sluajna varijabla moe upotrijebiti za opis prinosa
kroz vrijeme (izvor: American Journal of Agricultural Economics, 1999). Povijesni podaci pokazuju da prinos pamuka za iduu godinu moe biti opisan normalnom distribucijom s oekivanjem
1500 funti po hektaru i standardnom devijacijom 250. Poljoprivredno gospodarstvo koje promatramo bit e profitabilno ako proizvede barem 1600 funti po hektru.
a) Kolika je vjerojatnost da e to gospodarstvo izgubiti novac sljedee godine?
(Rjeenje: 0.655422.)
b) Kolika je vjerojatnost da sljedee godine prinos padne unutar dvije standardne devijacije
oko 1500? (Rjeenje: 0.9545.)

Zadatak 4.26. Koliina novca koji aviokompanije troe na hranu po jednom putniku normalno
je distribuirana s oekivanjem 64 kn i standardnom devijacijom 16. Koritenjem statistike interpretacije vjerojatnosti odgovorite na pitanja:
a) Koliki postotak aviokompanija troi vie od 100 kn po putniku? (Rjeenje: 0.012224.)
b) Koliki postotak aviokompanija troi izmeu 48 i 80 kn po putniku? (Rjeenje: 0.68269.)

Zadatak 4.27. Dnevna zarada nekog kafia moe se opisati sluajnom varijablom koja ima normalnu distribuciju s oekivanjem 2000 i standardnom devijacijom 250. Koritenjem programskog
paketa Statistica odredite vjerojatnost da dnevna zarada tog kafia padne unutar dvije standardne
devijacije oko oekivanja, tj. u interval ( 2, + 2)?

Zadatak 4.28. Odredite vjerojatnosti skupova {X 1}, {X 5}, {1 < X < 3}, ako je X
normalna sluajna varijabla s oekivanjem 2 i varijancom 4.

Zadaci

95

Zadatak 4.29.
(kafic.sta)
Broj gostiju koji dnevno dolaze na kavu u jedan kafi nalazi se u bazi podataka kafic.sta.
a) Kojim tipom sluajne varijable moemo modelirati broj gostiju koji dnevno dolaze na kavu
u promatrani kafi? Odredite njezinu empirijsku distribuciju.
b) Pretpostavimo da empirijska distribucija odgovara stvarnoj distribuciji te sluajne varijable.
Tada moemo odrediti vjerojatnosti vezane uz broj gostiju, to vlasniku kafia moe pomoi
pri donoenju poslovnih odluka. Na primjer, pretpostavimo da je prije biljeenja broja
gostiju vlasnik odluio da e zaposliti jo jednog konobara ako vjerojatnost da e dnevno biti
vie od 55 gostiju iznosi vie od 0.5. Pomou empirijske distribucije odredite tu vjerojatnost
te odgovorite hoe li vlasnik kafia zaposliti jo jednog konobara ili ne.
c) Pomou empirijske distribucije (koja prema pretpostavci odgovara teorijskoj diistribuciji)
odredite vjerojatnost da e u jednom danu kafi posjetiti izmedu 50 i 54 gosta.
Rjeenje.
a) Empirijska distribucija diskretne sluajne varijable kojom modeliramo broj gostiju koji u
jednom danu posjete promatrani kafi dana je tablicom 4.12.
45
46 . . .
67
0.057 0.0143 . . . 0.0143

!
.

Tablica 4.12: Empirijska distribucija varijable broj-gostiju.


b) P {X 56} = 0.53, pa vlasnik kafia ima osnovu zaposliti jo jednog konobara.
c) P {50 < X < 54} = 0.086.

Zadatak 4.30.
(zdravlje.sta)
Varijabla zdravlje baze podataka zdravlje.sta (baza podataka opisana je u primjeru 2.4) sadri
subjektivne ocjene u standardnoj skali od jedan do pet osobnog zdravstvenog stanja za svakog
ispitanika. Subjektivnu ocjenu zdravstvenog stanja moemo modelirati sluajnom varijablom X
koja moe primati vrijednosti iz skupa {1, 2, 3, 4, 5}.
a) Pomou zabiljeenih vrijednosti varijable zdravlje odredite empirijsku distribuciju te sluajne varijable X i prikaite je stupastim dijagramom.
b) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji sluajne varijable
X, odredite vjerojatnost da sluajno odabrani ispitanik svoje zdravstveno stanje ocijeni
ocjenom veom od 3. (Rjeenje: P {X > 3} = 0.4118.)
c) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji sluajne varijable
X, odredite to je vjerojatnije - da sluajno odabrani ispitanik svoje zdravlje ocijeni kao
nedovoljno (ocjena 1) ili da ga ocijeni kao izvrsno (ocjena 5)?
(Rjeenje: P {X = 1} = 0.0784, P {X = 5} = 0.1765.)
d) Oznaimo sa Z sluajnu varijablu kojom modeliramo subjektivnu ocjenu zdravstvenog stanja ispitanika enskog spola, a M sluajnu varijablu kojom modeliramo subjektivnu ocjenu
zdravstvenog stanja ispitanika mukog spola. Odredite empirijske distribucije sluajnih varijabli Z i M . Uz pretpostavku o jednakosti empirijskih distribucija stvarnim distribucijama

96

Sluajna varijabla
sluajnih varijabli Z i M odredite je li vjerojatnije da ocjenom izvrstan svoje zdravstveno
stanje ocijeni sluajno odabrana ena ili sluajno odabrani mukarac.
(Rjeenje: P {Z = 5} = 0.0909, P {M = 5} = 0.2.)

Zadatak 4.31.
(gradjevina.sta)
Varijable zaposleni2007, zaposleni2008 i zaposleni2009 baze podataka gradjevina.sta sadre podatke
o broju zaposlenika u 100 graevinskih poduzea srednje veliine u jednoj tranzicijskoj zemlji u
2007., 2008. i 2009. godini. Broj zaposlenika u graevinskim poduzeima srednje veliine moemo modelirati diskretnom sluajnom varijablom X koja prima vrijednosti iz konanog skupa
{0, 1, . . . , n}, gdje je n N. Koristei zabiljeeni broj zaposlenih u promatranim poduzeima
u 2007., 2008. i 2009. godini odredite empirijske distribucije pripadnih sluajnih varijabli (oznaimo ih s X2007 , X2008 i X2009 ). Ako pretpostavimo da dobivene empirijske distribucije odgovaraju stvarnim distribucijama sluajnih varijabli X2007 , X2008 i X2009 , tada nam one mogu
biti svojevrsni indikatori kretanja broja zaposlenih u graevinskim poduzeima srednje veliine u
promatranom trogodinjem periodu. Rijeite sljedee zadatke:
a) Kolika je proporcija (relativna frekvencija) srednje velikih graevinskih poduzea s brojem
zaposlenika veim od 50 u 2007., kolika u 2008., a kolika u 2009. godini?
(Rjeenje: proporcije su 0.83 za 2007., 0.93 za 2008. te 0.95 za 2009. godinu.)
b) Ako sluajno odaberemo jedno srednje veliko graevinsko poduzee, kolika je vjerojatnost
da ono ima vie od 50 zaposlenih u 2007., kolika u 2008., a kolika u 2009. godini?
(Rjeenje: P {X2007 > 50} = 0.83, P {X2008 > 50} = 0.93, P {X2009 > 50} = 0.95.)
c) Rijeite sljedee zadatke za sluaj da je broj zaposlenika vei od 100 te za sluaj da je broj
zaposlenika vei od 200.
(Rjeenje:
P {X2007 > 100} = 0.32, P {X2008 > 100} = 0.38, P {X2009 > 100} = 0.36,
P {X2007 > 200} = 0.03, P {X2008 > 200} = 0.04, P {X2009 > 200} = 0.03.)

Zadatak 4.32.
(komarci.sta)
Baza podataka komarci.sta sadri dio rezultata prouavanja komaraca u jednom movarnom podruju i detaljnije je opisana u zadatku 2.4. Varijable brojM i brojZ sadre broj mukih i enskih
jedinki komaraca uhvaenih jednom klopkom za svako od promatranih 210 mjerenja. Ako elimo broj uhvaenih komaraca tom klopkom modelirati kao sluajnu varijablu, moemo koristiti
diskretnu sluajnu varijablu sa skupom vrijednosti {0, 1, . . . , n}, pri emu je n N ogranienje
klopke (tj. najvei broj komaraca koji mogu biti ulovljeni koritenom klopkom). Sluajnu varijablu kojom modeliramo broj mukih jedinki komaraca oznaimo s M , a sluajnu varijablu kojom
modeliramo broj mukih jedinki komaraca oznaimo sa Z.
a) Koristei zabiljeeni broj mukih i enskih jedinki komaraca u varijablama brojM i brojZ,
odredite empirijske distrbucije sluajnih varijabli M i Z te ih prikaite stupastim dijagramom.
b) Pod pretpostavkom o jednakosti empirijskih i stvarnih distribucija sluajnih varijabli M i
Z odgovorite na sljedee pitanje: to je vjerojatnije - da je u sluajno odabranom mjerenju
u klopku uhvaeno vie od 50 mukih ili vie od 50 enskih jedinki komaraca?
(Rjeenje: P {Z > 50} = 0.1857, P {M > 50} = 0.0381.)

Zadaci

97

Zadatak 4.33.
(auto-centar.sta)
Broj dnevno prodanih automobila u jednom autocentru za proteklih 100 dana dan je u varijabli
automobili u bazi podataka auto-centar.sta opisanoj u primjeru 2.8.
a) Odredite empirijsku distribuciju sluajne varijable kojom modeliramo broj automobila prodanih u jednom danu u promatranom autocentru.
b) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji voditelj autocentra
moe donijeti izvjesne zakljuke o dnevoj prodaji to mu moe pomoi u donoenju poslovnih
odluka. U tom kontekstu odredite vjerojatnost da e u jednom danu biti prodano vie od
13 automobila te vjerojatnost da e biti prodano vie od 9, ali manje od 12 automobila.
Rjeenje.
a) Empirijska distribucija sluajne varijable X kojom modeliramo broj automobila prodanih u
jednom danu dana je tablicom 4.13).
9
10 11 12 13 14 15 16 17
0.07 0.15 0.08 0.11 0.12 0.09 0.11 0.13 0.14

!
.

Tablica 4.13: Empirijska distribucija varijable automobili.


b) P {X > 13} = 0.47, P {9 < X < 12} = 0.23.

Zadatak 4.34.
(prihod.sta)
Raspolaemo podacima o prihodima za 153 trgovaka poduzea srednje veliine u jednoj zemlji.
Pretpostavimo da prihod takvih poduzea u promatranoj zemlji moemo modelirati neprekidnom
sluajnom varijablom koja prima vrijednosti iz konanog intervala [0, r], gdje je realan broj r vei
ili jednak od ikada zabiljeenog prihoda trgovakog poduzea srednje veliine u toj zemlji.
a) Koji je najei prijavljeni prihod za ispitana poduzea? (Rjeenje: mod je 999999.)
b) Nacrtajte stupasti dijagram i izraunajte oekivanje i standardnu devijaciju empirijske
distribucije. (Rjeenje: xn = 742398.4, sn = 525905.9.)
c) Uz pretpostavku da empirijska distribucija dobro aproksimira stvarnu distribuciju ove neprekidne sluajne varijable, odredite vjerojatnost da e prihod biti 1200000 i vei te da e
prihod biti izmedu 300000 i 700000 eura? (Rjeenje: 0.196078, 0.078432.)

Zadatak 4.35.
(poduzetnici.sta)
Raspolaemo podacima o dobi 200 poduzetnika u nekoj zemlji. Poznato je da dob poduzetnika
u toj zemlji moemo modelirati kontunuiranom sluajnom varijablom X koja prima vrijednosti
iz konanog intervala [0, s], gdje je s starost najstarijeg poduzetnika u toj zemlji. Pretpostavimo
da u uvjetima ovog primjera empirijska distribucija dobro aproksimira stvarnu distribuciju ove
neprekidne sluajne varijable.
a) Odredite oekivanje i standardnu devijaciju empirijske distribucije.
(Rjeenje: = xn = 42.605, sn = 8.994078.)
b) Koritenjem empirijske distribucije i statistikog naina raunanja vjerojatnosti ocijenite
proporciju poduzetnika mlaih od 35 godina u toj zemlji. (Rjeenje: P {X < 35} = 0.19.)

98

Sluajna varijabla
c) Ocijenite kolika je vjerojatnost da sluajno odabrani poduzetnik ima izmeu 46 i 60 godina.
(Rjeenje: P {46 < X < 60} = 0.275.)

Zadatak 4.36. Uz pretpostavku o dobroj aproksimiranosti stvarne distribucije empirijskom odredite oekivanje, varijancu i standardnu devijaciju svake neprekidne sluajne varijable iz primjera
poglavlja 4.4. Za svaku od navedenih sluajnih varijabli odredite P {|X | < 3} koritenjem
empirijske distribucije. Dobiveni rezultat usporedite s ocjenom vjerojatnosti dobivenom pomou
ebievljeve nejednakosti.

Zadatak 4.37.
(auto-centar.sta)
Varijablu automobili baze podataka auto-centar moemo modelirati diskretnom sluajnom varijablom koja prima vrijednosti iz konanog skupa {0, 1, . . . , n}, gdje je n N najvei ikada prodani
broj automobila u jednom danu u promatranom autocentru. Pretpostavimo da se stvarna i empirijska distribucija (tablica 4.13) ove sluajne varijable podudaraju.
a) Odredite oekivanje, varijancu, standardnu devijaciju i medijan te sluajne varijable.
b) Pomou empirijske distribucije odredite vjerojatnost da ta sluajna varijabla odstupa od
svog oekivanja za manje od tri standardne devijacije te dobiveni rezultat usporedite s
ebievljevom ocjenom te vjerojatnsoti.
Rjeenje.
a) Oekivanje, varijanca, standardna devijacija i medijan sluajne varijable kojom modeliramo broj
automobila prodanih u jednom danu dani su u tablici 4.21.

Variable
automobili

Descriptive Statistics (auto-centar)


Valid N Mean
Median Variance Std.Dev.
100 13,26
13,00
6,84
2,62

Slika 4.21: Numerike karakteristike sluajne varijable kojom modeliramo varijablu automobili.
b) Iz empirijske distribucije 4.13 ove sluajne varijable slijedi da je
P {|X | < 3} = P { 3 < X < + 3} = P {5.413518 < X < 21.106482} = 1.
Ocjena ove vjerojatnosti dobivena pomou ebievljeve nejednakosti je (pogledajte sliku 4.10)
P {|X | < 3} 1

8
1
= 0.888.
9
9

Poglavlje 5

Statistiko zakljuivanje
jedna varijabla
5.1

Procjena distribucije, oekivanja i varijance

U prethodnim poglavljima nauili smo da se veliine promatrane na jedinkama obuhvaenim nekim istraivanjem nazivaju varijablama te da ih u statistici modeliramo
koritenjem sluajnih varijabli. U ovom poglavlju vrijednosti varijable izmjerene na
jedinkama iz uzorka (tj. vrijednosti zabiljeene u stupac baze podataka) smatramo
nezavisnim realizacijama sluajne varijable kojom modeliramo promatranu veliinu.
Sluajna varijabla u potpunosti je zadana svojom distribucijom - tablicom distribucije ako se radi o diskretnoj sluajnoj varijabli, odnosno funkcijom gustoe vjerojatnosti ako se radi o neprekidnoj sluajnoj varijabli. Poznavanje distribucije sluajne
varijable omoguuje izraunavanje vjerojatnosti vezanih uz njezine realizacije te izraunavanje njezinih numerikih karakteristika kao to su npr. oekivanje, varijanca
i standardna devijacija. Problem se javlja u sluaju kad distribucija sluajne varijable nije poznata jer tada ne moemo tono izraunati vjerojatnosti vezane uz
njezine realizacije niti moemo izraunati njezino oekivanje, varijancu i standardnu
devijaciju. Problem ovog tipa ilustriran je u primjeru 5.1.

Primjer 5.1.
(automobili.sta)
Raspolaemo podacima o realizaciji sluajne varijable X koja opisuje potronju goriva novog modela automobila pri brzini od 110 km/h na autocesti za 300 nezavisnih mjerenja. Podaci se nalaze
u bazi podataka automobili.sta. esto nas zanimaju odgovori na pitanja sljedeeg tipa:
Kolika je vjerojatnost da je potronja goriva tog modela u ovim uvjetima manja od 5.5 l?

99

100

Statistiko zakljuivanje jedna varijabla

Kolika je oekivana potronja goriva u ovim uvjetima?


Kolika je standardna devijacija sluajne varijable koja opisuje potronju goriva u ovim uvjetima?

Kao to je ve reeno, problem pri odgovaranju na ova pitanja jest injenica da


ne znamo stvarnu distribuciju sluajne varijable X koja opisuje potronju goriva
u danim uvjetima. Ta nam distribucija treba za precizno odgovaranje na postavljena pitanja. Temeljem statistike interpretacije vjerojatnosti znamo da ima smisla
koristiti empirijsku distribuciju ovih podataka kao osnovu za raunanje vjerojatnosti dogaaja oblika P {X [a, b]}, a, b R, ako imamo velik broj realizacija (tj.
mnogo izmjerenih vrijednosti potronje goriva u prethodnom primjeru). to je broj
realizacija vei, koritenje empirijske distribucije za raunanje ovih vjerojatnosti je
opravdanije. Zato kaemo da je empirijska distribucija podataka (x1 , . . . , xn ),
koji predstavljaju nezavisne realizacije jedne sluajne varijable X, dobar
procjenitelj za distribuciju sluajne varijable X. to je tih podataka vie,
empirijska distribucija bit e blia stvarnoj distribuciji sluajne varijable X.
Ako razmislimo o tipu sluajne varijable koja opisuje potronju goriva u gornjem
primjeru, prirodno je modelirati je kao neprekidnu sluajnu varijablu. Meutim,
empirijska distribucija podataka koju koristimo kao temelj za raunanje vjerojatnosti u upravo predloenom postupku je diskretna. Na osnovi poznavanja svojstava
varijable koju prouavamo esto moemo unaprijed odrediti oblik neprekidne distribucije koju je opravdano koristiti prilikom modeliranja sluajne varijable. Npr.,
ve je spomenuto da suma puno nezavisnih sluajnih utjecaja na varijablu osigurava
da se sluajan karakter varijable moe opisati koritenjem normalne distribucije s
nepoznatim oekivanjem i varijancom 2 . U takvim sluajevima za odraivanje
distribucije iz podataka moemo koristiti pretpostavljeni tip distribucije te procijeniti nepoznate parametre: oekivanje i varijancu.
Za procjenu oekivanja sluajne varijable koristimo aritmetiku sredinu
podataka (x1 , x2 , . . . , xn ) dobivenih mjerenjem realizacija navedene sluajne varijable u meusobno nezavisnim ponavljanjima pokusa, tj.
n

x
n =

1X
xi .
n i=1

Za procjenu varijance sluajne varijable koristimo korigiranu varijancu


podataka (x1 , x2 , . . . , xn ) dobivenih mjerenjem realizacija navedene sluajne varijable u meusobno nezavisnim ponavljanjima pokusa, tj.
n

s2n =

1 X
(xi x
n )2 ,
n 1 i=1

Procjena distribucije, oekivanja i varijance

101

p
a za procjenu standardne devijacije koristimo s2n .
Koritenjem metoda opisanih u prethodnom razmatranju moemo doi do aproksimativnog odgovora na pitanja koja smo postavili u primjeru 5.1.

70

23%

60

20%

50

17%

40

13%

30

10%

20

7%

10

3%

0%

2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0

frekvencijeirel.frek.mjerenja

Primjer 5.2.
(automobili.sta)
Promotrimo podatke o potronji goriva iz baze podataka automobili.sta. Pretpostavimo da su izmjerene vrijednosti potronje goriva u primjeru 5.1. realizacije neprekidne sluajne varijable X.
Pokuajmo odrediti o kojem se tipu neprekidne sluajne varijable radi tako da kategoriziramo
podatke i nacrtamo histogram frekvencija i relativnih frekvencija (slika 5.1).

potrosnja

Slika 5.1: Histogram izmjerenih vrijednosti potronje goriva kategoriziranih u intervale duljine
0.5.

Histogram sa slike 5.1 sugerira da potronju goriva u danim uvjetima ima smisla modelirati kao
normalnu sluajnu varijablu. Dakle, potrebno je jo odrediti oekivanje i varijancu da bi distribucija bila potpuno odreena. Stvarno oekivanje i varijancu znamo, no obje ove numerike
karakteristike moemo procijeniti na temelju 300 izmjerenih vrijednosti potronje goriva iz baze
podataka automobili.sta:
procjena oekivanja sluajne varijable X:
procjena varijance sluajne varijable X:

x300 = 5.12,
s2300 = 0.972 .

Procjene za oekivanje i varijancu moemo iskoristiti kao parametre normalne distribucije kojom
vrimo modeliranje, tj. moemo uzeti da je X N (5.12, 0.972 ). Sada, pomou ovako odreene
normalne distribucije, moemo izraunati vjerojatnost da je potronja goriva tog modela u navedenim uvjetima manja od 5.5 l. Koritenjem kalkulatora vjerojatnosti u programskom paketu
Statistica slijedi da je
P {X < 5.5} 0.652.
Istu vjerojatnost mogli smo izraunati i koritenjem empirijske distribucije sluajne varijable X.
Tim pristupom dobivamo da je
P {X < 5.5} 0.657.

U prethodnom primjeru dobili smo dva razliita broja kao aproksimacije za P {X <
5.5}. Logino je da se oni razlikuju jer su to samo procjene za stvarnu vjerojatnost

102

Statistiko zakljuivanje jedna varijabla

P {X < 5.5} koritenjem razliitih metoda. Uoimo da se razlika u ovom primjeru


pojavljuje tek na treoj decimali. Odgovor na pitanje koja metoda daje bolje rezultate nije jednostavan. To je podruje kojim se bavi matematika statistika. U ovoj
knjizi navest emo metode koje je primjereno koristiti pod zadanim pretpostavkama
bez detaljnog obrazloenja kriterija na temelju kojih su metode odreene.
Za razumijevanje procjene potrebno je uoiti da broj kojim smo aproksimirali
P {X < 5.5} ne ovisi samo o primijenjenoj metodi, nego i o podacima. Ako se
promijene podaci, taj broj vie ne mora biti isti niti kod primjene iste metode. Isto
se dogaa i s brojevima kojima smo aproksimirali oekivanje i varijancu. Ilustrirajmo tu injenicu sljedeim primjerom.
Primjer 5.3.
(automobili.sta)
Odredimo procjene za oekivanje i standardnu devijaciju koritenjem samo sto podataka iz baze
automobili.sta.
Ako koristimo samo prvih 100 podataka (1-100), procjena za oekivanje je 5.17, a za standardnu
devijaciju 1.03.
Ako koristimo samo drugih 100 podataka (101-200), procjena za oekivanje je 5.02, a za standardnu devijaciju 0.89.
Ako koristimo samo treih 100 podataka (201-300), procjena za oekivanje je 5.15, a za standardnu devijaciju 0.10.
(Ponovite procjenu tako da samostalno izaberete 150 podataka na razliite naine.)

Kako interpretirati dobivene rezultate i to nam zapravo govore izraunate aproksimacije o stvarnim vrijednostima vjerojatnosti, oekivanja i standardne devijacije,
lake emo razumjeti nakon to opiemo matematiki model jednostavnog sluajnog uzorka koji koristimo za modeliranje skupa prikupljenih podataka jedne
varijable te pojam procjenitelj.

5.1.1

Jednostavni sluajni uzorak i procjenitelj

Do sada smo nauili da varijablu koju istraujemo modeliramo kao sluajnu varijablu, oznaimo je s X. Podatak x koji smo pri tome dobili mjerenjem (odnosno
nekom drugom metodom prikupljanja podataka opisanom u uvodu) jedna je realizacija te sluajne varijable. S obzirom da smo iz te varijable prikupili n podataka,
oznaili smo ih s x1 , . . . , xn . Pri tome je svaki xi jedna realizacija sluajne varijable Xi , i {1, . . . , n} koja je distribuirana jednako kao sluajna varijabla X.
Osim toga, postupak prikupljanja podataka mora biti takav da su mjerenja meusobno nezavisna. Prema tome prirodno je izmjerene podatke x1 , . . . , xn smatrati

Procjena distribucije, oekivanja i varijance

103

jednom realizacijom od n sluajnih varijabli X1 , . . . , Xn koje imaju distribuciju kao


X i meusobno su nezavisne. Takav model u statistici zovemo model jednostavnog
sluajnog uzorka iz distribucije koja je zadana sluajnom varijablom X.
Jednostavni sluajni uzorak iz distribucije zadane sluajnom varijablom
X je ureena n-torka sluajnih varijabli (X1 , . . . , Xn ) od kojih svaka ima
istu distribuciju kao X i meusobno su nezavisne.1
S obzirom da emo u ovom poglavlju koristiti samo model jednostavnog sluajnog
uzorka, umjesto ovog dugakog naziva koristit emo termin uzorak za taj model,
a realizacija uzorka za prikupljene podatke.
U trenutku kada radimo procjenu neke numerike karakteristike sluajne varijable
X, primjenjujemo zadanu formulu na jednu realizaciju uzorka (npr. formulu za
aritmetiku sredinu jedne realizacije uzorka ako procjenjujemo oekivanje, formulu
za korigiranu varijancu realizacije uzorka ako procjenjujemo varijancu, . . . ). S obzirom da uzorak ima sluajan karakter, u ponovnom prikupljanju podataka dobivamo
neku drugu realizaciju koja rezultira drugom vrijednosti za procjenu. Samim tim
procjenu ne moemo smatrati deterministikom, ve sluajnom veliinom. Dakle,
pojedinana procjena nije nita drugo do realizacija jedne sluajne varijable, zovemo
je procjenitelj, slino kao to je jedno mjerenje samo jedna realizacija sluajne varijable koja nas zanima i o kojoj nastojimo neto zakljuiti.

5.1.2

Intervalna procjena

Iako elimo izvriti procjenu neke numerike vrijednosti jednim brojem, valja priznati realnost, tj. sluajan karakter procjenitelja te pokuati dobiti to kvalitetniju
informaciju iz postupka procjene. U tu svrhu koristimo injenicu da je procjenitelj sluajna varijabla i vrimo procjenu intervalom uz unaprijed izabran broj
(0, 1) koji emo zvati pouzdanost intervalne procjene.
Neka je (0, 1) odabrani broj. Interval pouzdanosti (pouzdani interval) za procjenu neke veliine (recimo oekivanja) ustvari nije pravi
interval s granicama koje su realni brojevi. To je interval koji ima sluajne varijable kao granice i odreen je temeljem zahtjeva da se stvarna
1 Intuitivno smatramo da su sluajne varijable nezavisne ako injenica da se dogodio neki dogaaj prilikom realizacije nekoliko od njih ne mijenja vjerojatnost za pojavu bilo kojeg dogaaja
prilikom realizacije preostalih sluajnih varijabli. Precizniji opis nezavisnosti sluajih varijabli
ostavljemo za Poglavlje 6.

104

Statistiko zakljuivanje jedna varijabla

vrijednost veliine koju procjenjujemo nalazi u takvom, sluajnom, intervalu s vjerojatnou barem . Svaki puta kad primijenimo formule za
odreivanje granica intervala pouzdanosti na podatke iz uzorka sluajne
varijable, dobit emo obian interval s realnim brojevima kao granicama.
U 100 % sluajeva taj izraunati interval realnih brojeva sadravat e
stvarnu vrijednost veliine koju procjenjujemo.
Dakle, interval pouzdanosti takozvani je sluajni interval, tj. granice su mu
sluajne varijable. Jedna realizacija intervala pouzdanosti , odreena na osnovi
prikupljenog uzorka, obian je interval realnih brojeva. Uobiajeno je u praksi i tu
realizaciju pouzdanog intervala takoer zvati pouzdani interval. Meutim, vano je
znati razliku izmeu pouzdanog intervala kao sluajnog intervala i njegove realizacije
- obinog intervala realnih brojeva. Pri tome je vano voditi rauna o interpretaciji.
Ako smo izabrali pouzdanost 95 %, kaemo da smo procijenili danu veliinu intervalom s pouzdanou 95 %.

5.2

Intervalna procjena oekivanja za velike uzorke

Predmet je ovog poglavlja odreivanje intervala izabrane pouzdanosti za oekivanje sluajne varijable iz koje smo sakupili velik uzorak.
Neka je X n aritmetika sredina uzorka veliine n iz sluajne varijable X. Pretpostavimo da je oekivanje sluajne varijable X nepoznato i iznosi , a varijanca je
poznata i iznosi 2 . Teorija vjerojatnosti pokazuje da aritmetika sredina uzorka,
za velike uzorke, ima priblino normalnu distribuciju s oekivanjem i varijancom
2
n . Koritenjem postupka standardizacije odavde slijedi da sluajna varijabla
X n EX n
Xn
=
Z0 = q
n

V ar(X n )
ima priblino standardnu normalnu distribuciju. Oznaimo sa Z sluajnu varijablu
s N (0, 1) distribucijom. Neka je z broj za koji vrijedi
P {|Z| z } = .
Uoimo da vrijednost pretstavljaju povrinu ispod grafa funkcije gustoe standardne normalne distribucije nad intervalom [z , z ] (slika 5.2), tj.
1
P {|Z| z } =
2

Zz
z

ex

/2

dx = .

Intervalna procjena oekivanja

105
f (x)

P {|Z| z } =

x
z
z
Slika 5.2: Vjerojatnost P {|Z| z }.
Uvrtavanjem izraza Z 0 =

X n
n

u izraz P {|Z| z } umjesto Z slijedi:

P {|Z 0 | z } = P {z Z 0 z } =


Xn
= P z
n z =




= P X n z X n + z
.
n
n
Dakle, vrijedi:

P




.
X n z , X n + z
n
n

Ovo razmatranje dovodi do sljedeeg zakljuka: ako je (x1 , . . . , xn ) realizacija uzorka


iz sluajne varijable X, xn aritmetika sredina koju smo izraunali iz te realizacije
i (0, 1), onda e u priblino 100 % sluajeva interval izraunat po formuli


xn z , xn + z
n
n

xn aritmetika sredina uzorka


standardna devijacija sluajne varijable X
z broj za koji vrijedi da je P {|Z| z } =
Z standardna normalna sluajna varijabla
sadravati stvarnu (nepoznatu) vrijednost oekivanja sluajne varijable X.
U praksi najee ne znamo stvarnu vrijednost standardne devijacije . U tom
sluaju za velike uzorke procjenjujemo korijenom korigirane varijance uzorka, tj.

106

Statistiko zakljuivanje jedna varijabla

brojem sn , i tu procjenu koristimo za izraunavanje realizacije pouzdanog intervala


kojim procjenjujemo oekivanje. Isti postupak koristit emo i u nastavku, u dijelu
koji govori o testiranju statistikih hipoteza.

Primjer 5.4.
(automobili.sta)
Za izmjerene vrijednosti potronje goriva u uvjetima danim u primjeru 5.1 intervalom pouzdanosti 95 % procijenit emo oekivanu potronju goriva. Mjere deskriptivne statistike potrebne za
raunanje jedne realizacije intervala pozdanosti 95 % su
n = 300,

x300 = 5.12,

s300 = 0.97.

Vrijednost z za = 0.95 odreujemo pomou kalkulatora vjerojatnosti u Statistici:


z = 1.959964 1.96.
Sada uvrtavanjem slijedi:
s300
0.97
xn z = 5.12 1.96
5.01023,
n
300
s300
0.97
xn + z = 5.12 + 1.96
5.22977.
n
300
Dakle, realizacija intervala pouzdanosti 95 % za izmjerene vrijednosti varijable potrosnja je
[5.01023, 5.22977].
Realizaciju intervala pouzdanosti 95 % moemo izraunati i u Statistici provodei sljedei postupak:
Statistics Basic Statistics/Tables Descriptive Statistics Variables Advanced oznaiti
"Conf. limits for means interval" i odabrati vrijednost 95 % Summary.
Interval pouzdanosti koji kao rjeenje daje Statistica je [5.004597, 5.225560]. Razlike u rezultatima
posljedica su zaokruivanja vrijednosti mjera deskriptivne statistike u prvom nainu rjeavanja.

Primjer 5.5.
(poduzetnici.sta)
Varijabla dob poduzetnika baze podataka poduzetnici.sta sadri dob u godinama za 200 poduzetnika
u nekoj zemlji. Procijenimo oekivanje neprekidne sluajne varijable X kojom modeliramo dob
poduzetnika u toj zemlji intervalima pouzdanosti 95 % i 97 % i usporedimo rezultate. Realizacije
intervala pouzdanosti 95 % i 97 % temeljene na godinama starosti 200 promatranih poduzetnika
jesu
I0.95 = [41.35088, 43.85912], I0.97 = [41.21490, 43.99510].
Uoimo da za ove intervale vrijedi I0.95 I0.97 . Objanjenje lei u injenici da za intervale
razliitih pouzdanosti 1 i 2 takve da je 1 < 2 (npr. 1 = 0.95, 2 = 0.97) vrijedi da je
z1 < z2 ,
pa za istu realizaciju (x1 , . . . , xn ) sluajnog uzorka (X1 , . . . , Xn ) vrijedi

 


xn z1 , xn + z1
xn z2 , xn + z2
.
n
n
n
n

Intervalan procjena vjerojatnosti

5.3

107

Intervalan procjena vjerojatnosti dogaaja za


velike uzorke

Vjerojatnost pojavljivanja nekog unaprijed izabranog dogaaja na osnovi nezavisnih ponavljanja istog pokusa moe se dovesti u vezu s pojmom proporcije. To je
posljedica interpretacije vjerojatnosti kao odnosa dijela i cjeline, to je ilustrirano
u primjeru 5.6.
Primjer 5.6. Vjerojatnost izvlaenja asa iz svenja karata odgovara kvocijentu broja asova u
svenju i broja svih karata u svenju.
Vjerojatnost pobjede izabrane stranke na izborima odgovara kvocijentu broja osoba koje e glasati
za tu stranku i ukupnog broja glasaa.
Vjerojatnost izbora pokvarenog proizvoda iz nekog skupa proizvoda odgovara kvocijentu broja
pokvarenih proizvoda i broja proizvoda u skupu iz kojeg biramo.

Na primjer, ako elimo procijeniti proporciju loih proizvoda u nekoj velikoj poiljci
moemo se zapitati: "Kolika je vjerojatnost da izvuem lo proizvod iz poiljke?" Ta
vjerojatnost odgovara proporciji loih proizvoda u poiljci. Dakle, u ovom poglavlju
govorimo i o procjeni proporcije i o procjeni vjerojatnosti pojavljivanja izabranog
dogaaja prilikom nezavisnog ponavljanja istog pokusa istovremeno, tj. za oba
problema koristimo isti tip statistikog modela.
Statitiki model emo opisati za problem procjene vjerojatnosti pojavljivanja izabranog dogaaja, a primjerima emo pokazati kako se on koristi u problemu procjene
proporcije.
Model za rezultat jednog pokusa u kojem se izabrani dogaaj dogodi s vjerojatnou
p je Bernoullijeva sluajna varijaba koja je zadana tablicom distribucije
!
0 1
X=
p (0, 1), q = 1 p.
q p
Pri tome 1 oznaava realizaciju "uspjeha", a 0 realizaciju "neuspjeha". Dakle,
p = P {X = 1} je vjerojatnost realizacije "uspjeha".
Nezavisnim ponavljanjem pokusa n puta biljeimo je li se realizirao "uspjeh" (1)
ili "neuspjeh" (0). Tako prikupljeni uzorak niz je jedinica i nula (ukupno n njih).
elimo na neki nain procijeniti vjerojatnost realizacije "uspjeha", tj. elimo procijeniti parametar p. Meutim, uoimo da je p oekivanje Bernoullijeve sluajne varijable X (potpoglavlje 4.6.1) pa se problem procjene vjerojatnosti p svodi na problem

108

Statistiko zakljuivanje jedna varijabla

procjene oekivanja sluajne varijable X. Oekivanje sluajne varijable procjenjujemo aritmetikom sredinom uzorka. S obzirom da se ovdje uzorak (x1 , . . . , xn )
sastoji od samih nula i jedinica, aritmetika sredina uzorka odgovara relativnoj
frekvenciji jedinica u uzorku.

Za procjenu vjerojatnosti realizacije uspjeha u Bernoullijevoj sluajnoj


varijabli, na osnovi n nezavisnih ponavljanja pokusa, koristimo relativnu
frekvenciju (proporciju) uspjeha u uzorku, tj. broj

p =

f1
.
n

Odreivanje pouzdanog intervala za vjerojatnost p moemo ponovo temeljiti na


injenici da, za velike uzorke (n > 30), aritmetika sredina uzorka ima priblino
normalnu distribuciju s oekivanjem koje je jednako oekivanju Bernoullijeve distribucije i varijanci koja je jednaka kvocijentu varijance Bernoullijeve distribucije
i veliine uzorka. S obzirom da je, u ovom problemu, oekivanje jednako p, a pq
(potpoglavlje 4.6.1), onda sluajna varijabla
p p
n
Z0 =
pq
ima priblino standardnu normalnu distribuciju.
Neka je z broj za koji vrijedi da je
P {|Z| z } = ,

pp

gdje je Z N (0, 1) (slika 5.2). Uvrtavanjem izraza Z 0 =


pq n u izraz P {|Z|

pp

z } = umjesto Z i analiziranjem nejednakosti


pq n z moe se pokazati da
vrijedi
(
"
r
r #)
pq
pq
P p p z
, p + z
.
n
n

Ovo razmatranje dovodi do sljedeeg zakljuka: ako je p relativna frekvencija jedinica u n-dimenzionalnom uzorku iz Bernoullijeve distribucije i (0, 1), onda e u

Testiranje hipoteza

109

priblino 100 % sluajeva interval izraunat po formuli

"
p z

pq
, p + z
n

#
pq
,
n

p relativna frekvencija jedinice (uspjeha) u uzorku


q relativna frekvencija nula (neuspjeha) u uzorku, q = 1 p
z broj za koji vrijedi P {|Z| z } =
Z standardna normalna sluajna varijabla
sadravati pravu (nepoznatu) vrijednost vjerojatnosti p. Takoer se moe pokazati
da je broj elemenata u uzorku (n) dovoljno velik za primjenu ovakvog zakljuivanja
ako interval
"
r
r #
pq
pq
p 3
, p + 3
n
n
ne sadri ni 0 ni 1. Uoimo da iz ovog razmatranja moemo odrediti veliinu uzorka
koja e osigurati zadanu preciznost procjene pouzdanim intervalom, tj. zadanu
duljinu intervala.
Primjer 5.7. Jedna tvornica hrane eli provesti istraivanje trita intervjuirajui 1000 potroaa
kako bi odredila koju marku pahuljica za doruak preferiraju. Prikupljeni podaci pokazali su da
313 potroaa odabire upravo marku tvornice koja je provela istraivanje. Na temelju rezultata
tog istraivanja moemo odrediti jednu realizaciju intervala pouzdanosti 95 % kojim procjenjujemo
vjerojatnost da sluajno odabrani potroa preferira pahuljice tvornice koja je provela istraivanje:
r
r
pq
0.313 0.687
= 0.313 1.96
= 0.284,
p z
n
1000
r
r
pq
0.313 0.687
p + z
= 0.313 + 1.96
= 0.342.
n
1000
Dakle, realizacija intervala pouzdanosti 95 % temeljena na rezultatima istraivanja je interval realnih brojeva [0.284, 0.342]. Uoimo da taj pouzdani interval moemo interpretirati i kao pouzdani
interval proporcije potroaa koji preferiraju danu marku pahuljica za doruak.

5.4

Testiranje hipoteza

Pretpostavimo da elimo provjeriti je li oekivana vrijednost vremena ekanja u redu


studentske menze u vrijeme ruka vea od pet minuta. Naime, ako je vea, onda
emo u vrijeme ruka pokrenuti jo jednu traku u menzi. U tu svrhu od sto sluajno
izabranih studenata koji odlaze na ruak u studentsku menzu prikupljamo podatke

110

Statistiko zakljuivanje jedna varijabla

o vremenu ekanja za vrijeme ruka. Tako dolazimo do podataka (x1 , . . . , x100 )


koji su jedna realizacija sluajnog uzorka (X1 , . . . , X100 ) iz neke, nama nepoznate,
distribucije. Da bismo donijeli odluku o pokretanju jo jedne trake u menzi, potrebno je testirati hipotezu o iznosu oekivanog vremena ekanja u redu na temelju
prikupljenih podataka (x1 , . . . , x100 ). Takvim i slinim problemima bavi se teorija
testiranja statistikih hipoteza.
Za testiranje hipoteze vezane uz varijablu koja nas zanima koristimo modeliranje
varijable kao to je opisano u prethodnim poglavljima, tj. varijable u ispitavanju
su sluajne varijable. Sluajna varijabla odreena je svojom distribucijom. Kao to
je ve reeno, distribucije nam nisu u potpunosti poznate, ali smo nauili kako moemo pribaviti neke informacije o distribuciji na osnovi teorije procjene. Hipotezu
koju elimo testirati koritenjem statistikog testa moramo izraziti u terminima hipoteze koja se odnosi na distribuciju sluajne varijable. Tako u
postupku donoenja odluke o otvaranju nove trake u studentskoj menzi treba testirati jednu hipotezu o vrijednosti oekivanja sluajne varijable koja opisuje vrijeme
ekanja u redu studentske menze za vrijeme ruka. Hipotezu koja je formulirana u
terminima distribucije sluajne varijable zovemo statistika hipoteza.
Postupak testiranja hipoteza uvijek poinje postupkom prevoenja problema koji
nas zanima u statistiku hipotezu. Primjerice, u uvodnom primjeru u kojem govorimo o mogunosti otvaranja jo jedne trake u studentskoj menzi, u donoenju
odluke moe nam pomoi testiranje statistike hipoteze da je oekivanje ekanja u
redu vee od pet minuta. Statistiku hipotezu standardno oznaavamo s H. Testirati hipotezu znai donijeti odluku o tome hoemo li H odbaciti ili
prihvatiti. Zbog toga esto govorimo o testiranju dviju hipoteza u statistikom
testu. Jednu od njih zovemo nul-hipoteza i oznaavamo s H0 , a drugu alternativna hipoteza i oznaavamo s H1 . Alternativna hipoteza je ona koju
prihvaamo u sluaju odbacivanja nul-hipoteze.
Statistiki test koji emo koristiti za testiranje statistike hipoteze dizajniran je tako
da koritenjem informacija iz prikupljenih podataka o realizacijama sluajne varijable donosimo odluku o odbacivanju nul-hipoteze u korist alternativne hipoteze
ili neodbacivanju nul-hipoteze. Uoimo da nul-hipoteza i alternativna hipoteza
u ovoj formulaciji nisu ravnopravne, npr. nigdje nije napisano da prihvaamo nulhipotezu. Razlog za ovakvo neobino izraavanje lei u injenici da se odluivanje u
statistikom testu provodi uz toleranciju malih vjerojatnosti pogrene odluke. Da
bismo bolje razumjeli ovaj koncept, opisat emo vrste pogreaka statistikog testa i
mogunosti koje daje test u odnosu na njihovu kontrolu.

Testiranje hipoteza o oekivanju

5.4.1

111

Pogreke statistikog testa

Odluka koja je donesena statistikim testom moe biti ili pogrena ili ispravna. Pri
tome se mogu dogoditi dva tipa pogrene odluke:
pogreka I. tipa: odbaciti H0 ako je ona istinita
pogreka II. tipa: ne odbaciti H0 ako je H1 istinita.
Vjerojatnost pogreke prvog tipa i pogreke drugog tipa ovisi o stvarnoj distribuciji
sluajne varijable o kojoj testiramo hipotezu. Htjeli bismo da su te vjerojatnosti
pogreke to je mogue manje. Postupak kreiranja statistikog testa, tj. definiranje
pravila na osnovi kojih emo odluivati, vodi rauna upravo o tom zahtjevu. Statistiki test dizajniran je tako da doputa istraivau izbor maksimalne vjerojatnosti
pogreke prvog tipa koju istraiva eli prihvatiti. Te vrijednosti uglavnom se biraju izmeu brojeva 0.01, 0.05 ili 0.1. Odabrana maksimalna vjerojatnost pogreke
prvog tipa zove se razina znaajnosti testa ili nivo signifikantnosti testa i
standardno oznaava s . Vjerojatnost pogreke drugog tipa odreena je dizajnom
testa uz izabrani nivo signifikantnosti. Testovi se dizajniraju uz nastojanje da se
maksimalna vjerojatnost pogreke drugog tipa uini to manjom i ona se, u pravilu,
ne iskazuje u primjeni statistikih testova.
Uzimajui u obzir da emo biti u mogunosti birati maksimalnu vjerojatnost pogreke prilikom odbacivanja nul-hipoteze, to je informacija koju u primjeni testa
referiramo. Npr. rei emo da odbacujemo nul-hipotezu na nivou znaajnosti i prihvaamo hipotezu H1 , to e znaiti da prihvaamo alternativnu
hipotezu uz vjerojatnost najvie da smo pri tome pogrijeili. U suprotnom emo
rei kako podaci ne podupiru tvrdnju da H0 treba odbaciti.
Ovakav neravnopravan odnos izmeu nul-hipoteze i alternativne hipoteze prilikom
kreiranja statistikog testa upuuje na injenicu da nije svejedno kako smo izabrali
hipoteze i pripadni test. Ako je mogue, uputno je u primjeni birati statistiki test tako da alternativna hipoteza odgovara tvrdnji koju elimo
dokazati.

5.5

Testiranje hipoteza o oekivanju

U ovom poglavlju pokazat emo nekoliko statistikih testova koje moemo koristiti
prilikom rjeavanja problema koji se mogu modelirati analogno kao problem u primjeru o otvaranju nove trake u studentskoj menzi iz prethodnog poglavlja. Nain
razmiljanja koji treba slijediti u problemima tog tipa objanjen je u primjeru 5.8.

112

Statistiko zakljuivanje jedna varijabla

Primjer 5.8. Pretpostavimo da elimo provjeriti je li oekivana vrijednost vremena ekanja u


redu studentske menze u vrijeme ruka vea od pet minuta. U tu svrhu od sto sluajno izabranih
studenata koji odlaze na ruak u studentsku menzu prikupljamo podatke o vremenu ekanja za
vrijeme ruka. Tako dolazimo do podataka (x1 , . . . , x100 ). Na osnovi tih podataka aritmetikom
sredinom procijenili smo oekivanje sluajne varijable X iz koje potjeu ti podaci - procjena je
iznosila 6.5 minuta. Znajui iz prethodnih prouavanja ove sluajne varijable da je njena varijanca
25, ispitajmo je li oekivano vrijeme ekanja u redu za rijeme ruka statistiki znaajno vee od
pet minuta.
Neka je oekivanje sluajne varijable koja modelira vrijeme ekanja u redu menze za vrijeme
ruka. Postavimo hipoteze na sljedei nain:
H0 :
H1 :

= 5 = 0
>5

Ako je H0 istinita hipoteza, onda je distribucija aritmetike sredine uzorka priblino normalna s
oekivanjem 0 i varijancom 2 /100. Dakle, pod pretpostavkom istinitosti nul-hipoteze je distribucija sluajne varijable
X 100 0
Z0 =
100

priblino standardna normalna i velika je vjerojatnost realizacije Z 0 blizu nule (slika 5.3). Na
primjer, uoimo da se realizacije vee ili jednake 1.64 pojavljuju s vjerojatnou priblino 0.05, tj.
da je
P {Z 0 1.64} 0.05.

f (x)

P {Z 1.64} = 0.05
x
1.64

Slika 5.3: Vjerojatnost P {Z 1.64}.

Pretpostavimo da u naem sluaju Z 0 realizirala brojem 3. Ako je H0 istinita hipoteza, vjerojatnost


da se sluajna varijabla Z 0 realizira brojem veim ili jednakim 3 iznosi priblino 0.00135, tj.
P {Z 0 3} = P {Z 0 [3, )} 0.00135.
Sada zakljuujemo na sljedei nain. Broj 3 relativno je daleko od nule. Ako je H0 istinita
hipoteza, realizacije vee ili jednake 3 mogu se pojaviti, ali je vjerojatnost za to tek oko 0.00135.

Testiranje hipoteza o oekivanju

113

Dakle, ako odbacimo nul-hipotezu, vjerojatnost da emo time pogrijeiti najvie je oko 0.00135,
to je manje od standardno prihvaenih vrijednosti za maksimalnu vjerojatnost pogreke prvog tipa
(tj. nivoa znaajnosti testa). To znai da je, na nivou znaajnosti = 0.05, opravdano odbaciti
nul-hipotezu i prihvatiti hipotezu da je oekivanje vremena ekanja u redu studentske menze za
vrijeme ruka vee od pet minuta. Za na problem to znai da treba pokrenuti novu traku u menzi.
Izraunatu aproksimaciju maksimalne vjerojatnosti da smo ovom odlukom pogrijeili (vjerojatnost
koja iznosi 0.00135) zovemo p-vrijednost.

Na slian bismo nain proveli postupak testiranja na nivou znaajnosti = 0.05


u sluaju da je alternativna hipoteza oblika H1 : < 0 . Tada vjerojatnost p =
P {Z 0 z} P {Z z}, Z N (0, 1), usporeujemo s nivoom znaajnosti = 0.05
koji je u ovom sluaju povrina ispod grafa funkcije gustoe standardne normalne
distribucije nad intervalom (, 1.64] (slika 5.4).
f (x)

P {Z 1.64} = 0.05
x
1.64

Slika 5.4: Vjerojatnost P {Z 1.64}.


U ovim postupcima aritmetiku sredinu uzorka xn koristimo kao procjenu za oekivanje. Objanjeni postupak openito zapisujemo na sljedei nain:

Nul-hipoteza:
H0 : = 0 .
Test-statistika:
Z0 =

X n 0
.
/ n

Ovdje je n veliina uzorka, X n aritmetika sredina uzorka, a standardna devijacija.


Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za Z 0 (oznait emo je sa z) blizu 0 jer varijabla Z 0 ima priblino standardnu

114

Statistiko zakljuivanje jedna varijabla

normalnu distribuciju. Meutim, ne moemo zanemariti injenicu da se tako distribuirana sluajna varijablo moe realizirati i u intervalu daleko od nule (dodue,
vjerojatnost za to je mala, ali ipak je vea od 0).
Ako oznaimo sa Z sluajnu varijablu s N (0, 1) distribucijom, na osnovi realizacije
z statistike Z 0 na podacima moemo odrediti p-vrijednost kao:
p = P {Z z} ako je alternativna hipoteza oblika H1 : > 0
p = P {Z z} ako je alternativna hipoteza oblika H1 : < 0 .
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju da je
p < , odbacujemo nul-hipotezu na nivou znaajnosti i prihvaamo alternativnu
hipotezu H1 . Ako je p > , zakljuujemo da nemamo dovoljno informacija koje bi
poduprle odluku o odbacivanju nul-hipoteze.
Ukoliko pretpostavimo da na uzorak potjee iz normalne distribucije,
analogno testiranje moemo provesti i na malom uzorku.

Nul-hipoteza:
H0 : = 0 .
Test-statistika:
T =

X n 0
.
sn / n

Ovdje je n veliina uzorka, X n aritmetika sredina uzorka, a sn standardna devijacija uzorka.


Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za T (oznait emo je s t) blizu 0. Zapravo, moe se pokazati da, ako je
nul-hipoteza istinita, sluajna varijabla T ima Studentovu distribuciju s (n1) stupnjeva slobode (oznaka za broj stupnjeva slobode u Statistici je df, od eng. degrees
of freedom). Na osnovi realizacije t na naem uzorku moemo odrediti p-vrijednost
kao:
p = P {T t} ako je alternativna hipoteza oblika H1 : > 0
p = P {T t} ako je alternativna hipoteza oblika H1 : < 0 .
Na osnovi tako izraunate p-vrijednost zakljuujemo o odbacivanju ili neodbacivanju
nul-hipoteze kao i do sada.

Testiranje hipoteza o vjerojatnosti

115

Primjer 5.9.
(televizija.sta)
Godine 1979. osnovna kablovska televizija u SAD-u u prosjeku je stajala 7.37 dolara mjeseno.
Godine 1983. udruenje kablovskih televizija, koje broji vie od 4000 kablovskih sustava, zakljuilo
je da je kablovska televizija poskupjela za samo 8% u odnosu na 1979. te da ne stoji statistiki
znaajno vie od 8 dolara mjeseno. No udruenje potroaa sumnja u te izjave pa emo ih mi,
na temelju 33 podatka u bazi televizija.sta, provjeriti. U tu svrhu postavljamo sljedee hipoteze:
H0 :
H1 :

= 0 = 8,
> 8.

Da bismo izraunali vrijednost z, trebaju nam izraunate vrijednosti xn i sn :


xn = 8.33,

sn = 2.18.

Sada slijedi da je
z =

8.33 8
xn 0

= 0.87.
=
sn / n
2.18 33

Koritenjem kalkulatora vjerojatnosti u Statistici slijedi da je u uvjetima istinitosti nul-hipoteze


P {Z 0 z} p = P {Z z} = P {Z 0.87} = 0.19.
Neka je nivo znaajnosti testa = 0.05. Budui da je u ovom sluaju p > , na nivou znaajnosti
= 0.05 ne odbacujemo nul-hipotezu, tj. na nivou znaajnosti = 0.05 nemamo argumenata
tvrditi da kablovska televizija stoji statistiki znaajno vie od 8 dolara mjeseno.

5.6

Testiranje hipoteza o vjerojatnosti dogaaja za


velike uzorke

U ovom poglavlju ponovno se bavimo statistikim zakljuivanjem o Bernoullijevoj


distribuciji. Neka je sluajan pokus modeliran Bernoullijevom sluajnom varijablom
s tablicom distribucije

X=

0 1
q p

!
,

p (0, 1),

q = 1 p.

Testirat emo hipotezu o vrijednosti parametra p koji ima znaenje vjerojatnosti


realizacije "uspjeha" u jednom izvoenju pokusa koji se realizira ili "uspjehom"
(oznaka 1) ili "neuspjehom" (oznaka 0). U ovom postupku koristimo relativnu
frekvenciju (proporciju) realiziranih "uspjeha" (tj. jedinica) kao procjenu za vjerojatnost p.

116

Statistiko zakljuivanje jedna varijabla

Nul-hipoteza:
H0 : p = p0 .
Test-statistika:

p p0
Z0 = q

p0 (1p0 )
n

n je veliina uzorka, a p relativna frekvencija "uspjeha".

Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za Z 0 (oznait emo je sa z) blizu 0. Moe se pokazati da, ako je nul-hipoteza
istinita, sluajna varijabla Z 0 ima standardnu normalnu distribuciju. Oznaimo li
sa Z sluajnu varijablu s N (0, 1) distribucijom, na osnovi realizacije z na naem
uzorku moemo odrediti p-vrijednost kao:
p = P {Z z} ako je alternativna hipoteza oblika H1 : p > p0
p = P {Z z} ako je alternativna hipoteza oblika H1 : p < p0 .
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju
da je p < , na nivou znaajnosti odbacujemo nul-hipotezu H0 i prihvaamo
alternativnu hipotezu H1 . Ako je p > , nemamo dovoljno informacija koje bi
poduprle odluku o odbacivanju nul-hipoteze.
Pokazuje se da je uzorak dovoljno velik za provoenje ovog statistikog testa ako
interval
"
#
r
r
p0 (1 p0 )
p0 (1 p0 )
p0 3
, p0 + 3
n
n
ne sadri ni 0 ni 1.
Primjer 5.10.
(vrtic.sta)
U nekom poduzeu zaposleno je vie od 3000 ljudi. Uprava poduzea eli ponuditi pomo svojim
zaposlenicima oko organizacije uvanja djece. Predloene su dvije opcije - otvaranje vrtia u
sklopu poduzea ili plaanje dijela trokova uvanja djece koje bi roditelji organizirali sami. Da
bi se utvrdilo koja je od ovih dviju mjera popularnija meu zaposlenicima, odabran je uzorak od
60 roditelja s malom djecom koji su se izjasnili o tome koju opciju preferiraju. Njihovi odgovori
oznaeni su na sljedei nain:
0
1

radije bih novanu pomo za samostalno organiziranje uvanja djece


radije bih da se otvori vrti u sklopu poduzea.

Testiranje hipoteza o vjerojatnosti

117

Pretpostavimo da uprava nee organizirati vrti u sklopu poduzea ako se pokae da je proporcija
roditelja koji podravaju tu ideju manja od 0.75. Da bismo to provjerili, postavljamo sljedee
hipoteze:
H0 :
H1 :

p = p0 = 0.75,
p < 0.75.

Za izraunavanje vrijednosti z treba nam relativna frekvencija (proporcija) roditelja iz uzorka koji
podravaju ideju o organizaciji vrtia u sklopu poduzea:
p = 38/60 = 0.63.
Sada slijedi da je
z = q

p p0
p0 (1p0 )
n

0.63 0.75
= 2.15.
= q
0.750.25
60

Koritenjem kalkulatora vjerojatnosti u Statistici slijedi da je, pod pretpostavkom istinitosti nulhipoteze,
P {Z 0 z} p = P {Z z} = P {Z 2.15} = 0.016.
Neka je nivo znaajnosti testa = 0.05. Budui da je u ovom sluaju p < na nivou znaajnosti
= 0.05 odbacujemo nul-hipotezu i prihvaamo alternativnu hipotezu to u ovoj situaciji znai
da uprava nema osnovu organizirati vrti u sklopu poduzea.

5.7

Testiranje hipoteza o distribuciji openito

U ovom poglavlju kao procjenu za stvarnu (nepoznatu) distribuciju sluajne varijable koristimo empirijsku distribuciju odreenu na temelju podataka koje smo skupili
kao nezavisne realizacije sluajne varijable. elimo testirati ima li naa sluajna varijabla neku pretpostavljenu distribuciju (zovemo je teorijska distribucija).

5.7.1

2 test

Neka je teorijska distribucija sluajne varijable zadana tablicom 5.1.

x1 x2 . . . x k
p1 p2 . . . p k

!
.

Tablica 5.1: Teorijska distribucija diskretne sluajne varijable.


Oito se ovdje radi o distribuciji jedne diskretne sluajne varijable X s konanom
slikom R(X) = {x1 , . . . , xk }. Testiranje hipoteze da podaci dolaze iz pretpostavljene
teorijske distribucije moe se provesti tzv. 2 -testom.

118

Statistiko zakljuivanje jedna varijabla

Hipoteze 2 testa su:


H0 :
H1 :

distribucija iz koje dolaze podaci jednaka je teorijskoj


distribucija iz koje dolaze podaci razlikuje se od teorijske.

Neka je n broj prikupljenih podataka. Za testiranje ove hipoteze koristi se teststatistika temeljena na odstupanju stvarnih frekvencija podataka (fi , i = 1, . . . , k)
od teorijskih (npi , i = 1, . . . , k) definirana izrazom
D=

k
X
(npi fi )2
i=1

npi

Pokazuje se da, pod pretpostavkom istinitosti hipoteze H0 , sluajna varijabla D za


velike n ima priblino 2 distribuciju sa stupnjem slobode (k 1) pa se ta statistika
moe iskoristiti za testiranje H0 na uobiajeni nain.
2 test moemo provesti u veini statistikih programskih paketa. U programskom
paketu Statistica potrebno je formirati bazu podataka koja sadri eksperimentalno
dobivene frekvencije i teorijske frekvencije izraunate na bazi teorijske distribucije
i veliine uzorka.
S obzirom da je distribucija statistike D priblino 2 za velike uzorke, potrebno je
voditi rauna o veliini uzorka prilikom provoenja ovog testa. Moe se pokazati da
je koritenje 2 testa prikladno ako su sve teorijske frekvencije vee od 5, tj. ako je
umnoak veliine uzorka n sa svakom vjerojatnou pi vei od 5.
2 test moe se koristiti takoer i za diskretne distribucije s prebrojivim skupom
stanja kao i za neprekidne teorijske distribucije. Pri tome je potrebno sliku R(X)
neprekidne sluajne varijable razdvojiti na disjunktne intervale i suprotstaviti teorijske frekvencije tih intervala njihovim uzorakim frekvencijama. Meutim, pokazuje
se da je test jako osjetljiv na izbor podjele slike R(X) na disjunktne intervale.
Primjer 5.11. Trini analitiar eli istraiti imaju li potroai neke posebne sklonosti prema
jednom od okusa sokova koji su se pojavili na tritu. Na uzorku od 100 ljudi prikupio je preferencije prema ponuenih pet okusa. Frekvencije zabiljeene tim istraivanjem dane su u tablici
5.2.
vinja
32

jagoda
28

narana
16

limun
14

grejp
10

Tablica 5.2: Tablica empirijskih frekvencija za pet ponuenih okusa sokova.

Testiranje hipoteza o vjerojatnosti

119

Ako elimo ispitati postoji li, na nivou znaajnosti = 0.05, statistiki znaajna preferencija potroaa prema nekom od ponuenih okusa ili je sklonost potroaa jednaka prema svim ponuenim
okusima, moemo provesti 2 test, pri emu je teorijsku distribuciju zadajemo tablicom:
!
vinja jagoda narana limun grejp
.
1/5
1/5
1/5
1/5 1/5
Za provoenje 2 testa u Statistici trebamo napraviti tablicu s empirijskim i teorijskim frekvencijama svih vrijednosti koje sluajna varijabla s danom distribucijom moe primiti. Empirijske
frekvencije dane su u tablici 5.2. Teorijske frekvencije odreujemo iz poznate teorijske distribucije. U naem sluaju sve su teorijske frekvencije jednake i iznose 100 (1/5) = 20. Frekvencije
na temelju kojih provodimo 2 test dane su u tablici 5.3.
okus
vinja
jagoda
narana
limun
grejp

empirijske frekvencije

teorijske frekvencije

32
28
16
14
10

20
20
20
20
20

Tablica 5.3: Tablica empirijskih i teorijskih frekvencija za 2 test.

p-vrijednost dobivena u Statistici je 0.001234, to je manje od nivoa znaajnosti = 0.05. Dakle,


na tom nivou znaajnosti odbacujemo nul-hipotezu i prihvaamo alternativnu hipotezu, tj. moemo tvrditi da postoji statistiki znaajna preferencija potroaa prema nekim od ponuenih vrsta
sokova.

5.7.2

Kako saznati dolaze li podaci iz normalne distribucije?

Ako se radi o neprekidnoj sluajnoj varijabli, u ovom kolegiju prvenstveno emo se


baviti odgovorom na pitanje ima li ona normalnu distribuciju ili ne. Odgovor na
ovo pitanje od iznimne je vanosti za tonost statistikih analiza s obzirom da su
mnogi statistiki testovi kreirani uz pretpostavku normalnosti obiljeja.
Za prvi uvid u mogua odstupanja od normalne distribucije moemo koristiti razne
mjere deskriptivne statistike i grafike prikaze (npr. stupaste dijagrame relativnih
frekvencija), no to nije dovoljno za donoenje zakljuka o normalnoj distribuiranosti
varijable.
Navodimo dva testa koji se mogu koristiti za testiranje hipoteza:
H0 :
H1 :

varijabla ima normalnu distribuciju


varijabla nema normalnu distribuciju,

a ugraeni su u veinu statistikih aplikativnih programa. To su:

120

Statistiko zakljuivanje jedna varijabla


Lillieforsova inaica Kolmogorov-Smirnovljeva testa
Shapiro-Wilk W test.

Vano je naglasiti da su oba testa primjenjiva samo u sluaju velikog broja podataka. Ovdje neemo opisivati test statistike na osnovi kojih su testovi kreirani.
Bit e dovoljno da ih nauimo koristiti i pravilno interpretirati njihove rezultate.
U tu svrhu treba voditi rauna o tome da nul-hipoteza kod oba testa ide u prilog
normalnosti distribucije. Ako je p-vrijednost dobivena provoenjem tih testova na
podacima manja od izabranog nivoa znaajnosti , tada odbacujemo nul-hipotezu
koja kae da podaci dolaze iz normalne distribucije.

Primjer 5.12.
(automobili.sta)
U bazi podataka automobili.sta nalaze se rezultati mjerenja prosjene potronje novog tipa automobila pri brzini od 110 km/h na autocesti za 300 nezavisnih mjerenja. Sjetimo se da smo u primjeru
5.2, na temelju stupastih dijagrama 5.1, zakljuili kako ima smisla modelirati ovu varijablu kao
normalnu sluajnu varijablu s oekivanjem x300 = 5.12 i varijancom s2300 = 0.972 . Sada moemo testirati hipotezu o normalnosti distribucije. Zanima nas moemo li, na nivou znaajnosti
= 0.05, tvrditi da je sluajna varijabla kojom modeliramo ovu potronju normalno distribuirana.

KSLillieforsp>0.20
ShapiroWilkp=0.71612
140

frekvencije

120
100
80
60
40
20
0

kategoriziranevrijednostivarijablepotrosnja

Slika 5.5: Stupasti dijagram izmjerenih vrijednosti potronje goriva s p-vrijednostima za Shapiro
Wilk test i Lilleforsovu inaicu Kolmogorov-Smirnovljeva testa.

Sa stupastog dijagrama 5.5 vidimo da su i kod Shapiro Wilk testa i Lilleforsove inaice KolmogorovSmirnovljeva testa p-vrijednosti vee od 0.05. Dakle, na nivou znaajnosti = 0.05 ne odbacujemo
nul-hipotezu da je varijabla normalno distribuirana.

Zadaci

5.8

121

Zadaci

Zadatak 5.1.
(poduzetnici.sta)
Baza podataka poduzetnici.sta sadri podatke o godinama starosti za 200 poduzetnika (varijabla
dob poduzetnika).
a) Procijenite oekivanje i standardnu devijaciju sluajne varijable X kojom se modelira dob
poduzetnika. (Rjeenje: x200 = 42.61, s200 = 8.99.)
b) Kategorizirajte podatke s kojima raspolaete te odluite ima li smisla modelirati ovu varijablu kao normalnu sluajnu varijablu. Ako ima, koritenjem normalne distribucije s
procijenjenim vrijednostima oekivanja i varijance odredite vjerojatnost da je poduzetnik
stariji od 30, ali mlai od 40 godina. Istu vjerojatnost izraunajte i koritenjem empirijske
distribucije sluajne varijable X te usporedite rezultate.
Rjeenje: Iz empirijske distribucije sluajne varijable X slijedi da je P (30 < X < 40) =
0.265. Ako X modeliramo kao N (42.61, 8.99) slijedi da je P {30 < X < 40} = 0.31.

Zadatak 5.2.
(gradjevina.sta)
Baza podataka gradjevina.sta sadri neke podatke o organizaciji i poslovanju za 100 graevinskih
poduzea srednje veliine u nekoj zemlji (za detaljniji opis pogledajte zadatak 4.31).
a) Procijenite oekivanje i standardnu devijaciju sluajne varijable X kojom se modelira prosjena plaa zaposlenika u graevinskim poduzeima srednje veliine u toj zemlji u 2009.
godini. (Rjeenje: x100 = 600.13, s100 = 194.63.)
b) Kategorizirajte podatke s kojima raspolaete te odluite ima li smisla modelirati ovu varijablu kao normalnu sluajnu varijablu. Ako smatrate da ima, koritenjem normalne distribucije s procijenjenim vrijednostima oekivanja i varijance odredite vjerojatnost da je u
2009. godini u sluajno odabranom poduzeu srednje veliine u toj zemlji prosjena plaa
bila via od 500 eura. Istu vjerojatnost izraunajte i koritenjem empirijske distribucije
sluajne varijable X te usporedite rezultate.
Rjeenje: Iz stupastog dijagrama relativnih frekvencija vidimo da normalna distribucija
nije prikladna za modeliranje ovih podataka, a to sugeriraju i izraunate traene vjerojatnosti: iz empirijske distribucije sluajne varijable X slijedi da je P (X > 500) = 0.66, a
ako X modeliramo kao N (600.13, 194.632 ) slijedi da je P {X > 500} = 0.696536.

Zadatak 5.3.
(farmakologija.sta)
Baza podataka farmakologija.sta sadri podatke o koncentraciji nekog lijeka u organizmu za 101
mjerenje provedeno od trenutka unosa lijeka u organizam do trenutka njegove eliminacije iz organizma (varijabla koncentracija lijeka).
a) Kategorizirajte izmjerene vrijednosti varijable koncentracija lijeka i nacrtajte stupasti dijagram frekvencija i relativnih frekvencija. Je li, na temelju nacrtanog stupastog dijagrama,
normalna sluajna varijabla prikladna za modeliranje ovih podataka?
b) Ima li, na temelju nacrtanog stupastog dijagrama, smisla izmjerene vrijednosti varijable
koncentracija lijeka modelirati eksponencijalnom distribucijom? Obrazloite zato.

122

Statistiko zakljuivanje jedna varijabla

c) Procijenite oekivanje i varijancu sluajne varijable X kojom modeliramo koncentraciju


promatranog lijeka u organizmu.
d Pretpostavimo da je sluajna varijabla X eksponencijalna s parametrom > 0. Odredite
vjerojatnost da je koncentracija lijeka u krvi u sluajno odabranom trenutku prije njegove
eliminacije iz organizma manja od pet te dobiveni rezultat usporedite s rezultatom dobivenim pomou empirijske distribucije te sluajne varijable.
Rjeenje.

80

79%

70

69%

60

59%

50

50%

40

40%

30

30%

20

20%

10

10%

2 0

2 4 6 8 10 12 14 16
koncentracijalijeka

frekvencijeirelativnefrek.

frekvencijeirelativnefrek.

a) Ako kategoriziramo izmjerene vrijednosti (tj. podatke iz varijable koncentracija lijeka) i


nacrtamo stupasti dijagram frekvencija i relativnih frekvencija, uoavamo da normalna
sluajna varijabla nije prikladna za modeliranje ovih podataka (uoite crvenu krivulju na
slici 5.6 (a)).

99%

80

79%

60

59%

40

40%

20

20%

0%

(a) X normalna sluajna varijabla

100

2 0 2 4 6 8 10 12 14 16
koncentracijalijeka

0%

(b) X eksponencijalna sluajna varijabla

Slika 5.6: Stupasti dijagram frekvencija i relativnih frekvencija izmjerenih vrijednosti koncentracije lijeka u organizmu.
b) Meutim, mogue je prepoznati drugu neprekidnu distribuciju kojom je opravdano modelirati varijablu koncentracija lijeka, a to je eksponencijalna distribucija (slika 5.6 (b)). Da
biste na slici 5.6 (b) dobili crvenu krivulju koja predstavlja graf funkcije gustoe eksponencijalne distribucije u programskom paketu Statistica slijedite postupak
Graphs Histograms Advanced Fit type - Exponential.
c) Procjene oekivanja i varijance neprekidne sluajne varijable X kojom modeliramo koncentraciju ovog lijeka u organizmu jesu
x101 = 2.14,

s2101 = 13.96.

d) Koritenjem empirijske distribucije slijedi da je


P (0 X < 5) = 0.84.

Poznato je da je parametar eksponencijalne distribucije jednak recipronoj vrijednosti njezina oekivanja. Tako u ovom primjeru moemo parametar eksponencijalne distribucije

Zadaci

123

procijeniti s = 1/x101 = 0.47 te pomou kalkulatora vjerojatnosti u Statistici izraunati


da je
P {0 X < 5} = 0.9.
Iako se vjerojatnosti dobivene koritenjem empirijske distribucije i eksponencijalne distribucije s parametrom = 0.47 razlikuju, stupasti dijagrami sa slike 5.6 sugeriraju da je u
ovom je sluaju eksponencijalna distribucija prikladnija za modeliranja koncentracije lijeka
u organizmu od normalne distribucije.

Zadatak 5.4.
(iq.sta)
U nekoj zemlji zakon o diskriminaciji na temelju dobi oznaava ilegalnim postupak diskriminacije
radnika starih 40 godina i vie. Oni koji se ne slau sa zakonom argumentiraju da postoje opravdani
razlozi zato poslodavci nerado zapoljavaju osobe koje su blie mirovini. Takoer govore da je
radna sposobnost ljudi te dobi upitna. U bazi podataka iq.sta nalaze se rezultati testa inteligencije
za dvije generacije ispitanika od kojih je jedna mlae dobi, a druga starije (varijable iq1, iq2).
Procijenite oekivanje sluajne varijable kojom je modeliran rezultat provedenog testa inteligencije
intervalom pouzdanosti 95 % za obje dobi. Dajte objanjenje tih intervala i komentar u kontekstu
problema koji je opisan.
Rjeenje. Realizacije intervala pouzdanosti 95 % za oekivanje ovih sluajnih varijabli, temeljene
na podacima iz baze iq.sta, jesu [61.98, 71.69] (za stariju generaciju) i [41.01, 49.6] (za mlau
generaciju).

Zadatak 5.5.
(gradjevina.sta)
Varijabla placa2009 baze podataka gradjevina.sta (za detaljniji opis pogledajte zadatak 4.31) sadri
prosjene mjesene plae zaposlenika u 100 graevinskih poduzea srednje veliine u nekoj zemlji
za 2009. godinu. Intervalom pouzdanosti 95 % procijenite oekivanje sluajne varijable kojom se
modelira prosjena mjesena plaa zaposlenika u 2009. godini u graevinskom poduzeu srednje
veliine u toj zemlji.
Rjeenje. Realizacije intervala pouzdanosti 95 % za oekivanje ove sluajne varijable, temeljena
na podacima iz varijable placa2009, jest [561.51, 638.75].

Zadatak 5.6.
(glukoza.sta)
Baza podataka glukoza.sta (za detaljniji opis pogledajte zadatak 2.2) u varijabli dob sadri podatke
o dobi te u varijabli koncentracija koncentraciju glukoze u krvi za 100 ispitanika (podatke za zadnja
dva ispitanika ne ukljuujemo u postupak jer smo u zadatku 3.14 njihove dobi detektirali kao stree
vrijednosti). Procijenite oekivanje sluajne varijable kojom je modelirana koncentraciju glukoze
u krvi intervalom pouzdanosti 95 %. Interpretirajte rezultat.
Rjeenje. Realizacija intervala pouzdanosti za oekivanje ove sluajne varijable, temeljena na izmjerenim koncentracijama, jest [7.15, 8.24].

124

Statistiko zakljuivanje jedna varijabla

Zadatak 5.7.
(turizam.sta)
U bazi podataka turizam.sta nalaze se podaci o cijenama sedmodnevnih turistikih aranmana za
dvije osobe u nekim ljetovalitima na obali (varijabla obala) i nekim ljetovalitima na otocima
(varijabla otoci).
a) Ima li smisla varijable obala i otoci modelirati normalnim sluajnim varijablama? Ako
smatrate da ima, koje ete vrijednosti parametara normalne sluajne varijable koristiti i
zato?
b) Procijenite oekivanja sluajnih varijabli kojima modeliramo cijene sedmodnevnih turistikih aranmana na obali i na otocima intervalima pouzdanosti 95 %. to je vee - oekivana
cijena turistikog aranmana na obali ili oekivana cijena turistikog aranmana na otocima?
Na temelju ega izvodite taj zakljuak?
Rjeenje.
a) Varijable obala i otoci ima smisla modelirati normalnim sluajnim varijablama. Parametre
tih normalnih distribucija procjenjujemo aritmetikom sredinom i varijancom podataka iz
promatranih varijabli: Obala N (1672.49, 245.24), Otoci N (2349.29, 269.29).
b) Realizacije intervala pouzdanosti 95 %, temeljene na cijenama sadranima u varijablama
obala i otoci, redom su [1588.24, 1756.73] i [2256.78, 2441.79].

Zadatak 5.8.
(vrtic.sta)
Intervalom pouzdanosti 95 % procijenite proporciju zaposlenika iz primjera 5.10 koji preferiraju
otvaranje vrtia u okviru poduzea.
Rjeenje. Realizacija intervala pouzdanosti 95 % za ovu vjerojatnost, temeljena na zabiljeenim
odgovorima 60 odabranih roditelja, jest [0.51, 0.76].

Zadatak 5.9.
(gradjevina.sta)
Varijabla placa2009 baze podataka gradjevina.sta (za detaljniji opis pogledajte zadatak 4.31) sadri
prosjene mjesene plae zaposlenika u 100 graevinskih poduzea srednje veliine u nekoj zemlji za
2009. godinu. Intervalom pouzdanosti 95 % procijenite vjerojatnost da je u sluajno odabranom
takvom poduzeu prosjena mjesena plaa zaposlenika via od procijenjene oekivane plae u
2009. godini u srednje velikim graevinskim poduzeima u toj zemlji.
Rjeenje. Realizacija intervala pouzdanosti 95 % za traenu vjerojatnost, temeljena na podacima
iz varijable placa2009, jest [0.34, 0.54].

Zadatak 5.10. Neka agencija provela je istraivanje koje je obuhvatilo 1252 osobe iz populacije
osoba koje imaju kreditnu karticu. Njih 180 koristilo je karticu za kupovinu putem interneta.
a) Je li uzorak dovoljno velik za konstruiranje valjanog pouzdanog intervala proporcije korisnika kreditne kartice koji je koriste za kupovinu putem interneta? Obrazloite odgovor.
b) Odredite interval pouzdanosti 98 % za navedenu proporciju. Da ste konstruirali interval
pouzdanosti 90 %, bi li on bio ui ili iri?

Zadaci

125

Rjeenje.
a) Budui da interval


q
q 
q
q
p 3 p
, p + 3 p
= [0.11, 0.17] ne sadrni ni nulu ni jedinicu,
n
n

uzorak je dovoljno velik za konstruiranje traenog pouzdanog intervala.


b) Realizacija intervala pouzdanosti 98 % jest [0.121, 0.167]. Realizacija intervala pouzdanosti
90 % jest [0.127, 0.160]. Temeljeno na istim podacima, realizacija intervala pouzdanosti
90 % podskup je realizacije intervala pouzdanosti 98 %.

Zadatak 5.11.
(glukoza.sta)
Baza podataka glukoza.sta (za detaljniji opis pogledajte zadatak 2.2) u varijabli dob sadri podatke
o dobi te u varijabli koncentracija koncentraciju glukoze u krvi za 100 ispitanika (podatke za
zadnja dva ispitanika ne ukljuujemo u postupak jer smo u zadatku 3.14 njihove dobi detektirali
kao stree vrijednosti). Odredite interval pouzdanosti 95 % za vjerojatnost da je koncentracija
glukoze za sluajno odabranog ispitanika via od 4, ali nia od 6 mMol/L. Objasnite rezultat.
Rjeenje. [0.213772, 0.39407].

Zadatak 5.12.
(kolokvij.sta)
U bazi podataka kolokvij.sta nalaze se rezultati dvaju kolokvija iz nekog kolegija. Varijabla ocjena
sadri prijedloge ocjena s kojima ispitani studenti pristupaju usmenom ispitu, a varijabla stanovanje
informaciju o mjestu stanovanja studenta (Osijek - student stanuje u Osijeku; drugo mjesto student stanuje u nekom drugom mjestu). Intervalom pouzdanosti 95 % procijenite vjerojatnost da
sluajno odabrani student usmenom ispitu pristupa s ocjenom veom od 3 za svaku od spomenutih
kategorija po mjestu stanovanja. Odredite i interval pouzdanosti 95 % bez obzira na kategorizaciju
studenata po mjestu stanovanja.
Rjeenje.
Procjena vjerojatnosti intervalom pouzdanosti 95 % za studente koji ive u Osijeku:
[0.00473237, 0.357732].
Procjena vjerojatnosti intervalom pouzdanosti 95 % za studente koji ne ive u Osijeku:
[0.00437127, 0.146629].
Procjena vjerojatnosti intervalom pouzdanosti 95 % bez obzira na mjesto stanovanja:
[0.0297206, 0.170279].

Zadatak 5.13.
(lopta.sta)
Jedan se poduzetnik bavi proizvodnjom loptica za golf. U suradnji s projektantima u poduzeu
napravio je preinake na jednom dijelu stroja (ubrizgavalici). Cijeli je proces dizajniran tako da
proizvodi loptice prosjene mase 0.25 unci2 . Kako bi istraio radi li nova ubrizgavalica zadovoljavajue, odabire 40 loptica i biljei njihove mase (podaci su dostupni u bazi lopta.sta). Je li na
nivou znaajnosti = 0.05 oekivana masa loptice statistiki znaajno vea od 0.25 unci?
Rjeenje. H0 : = 0.25, H1 : > 0.25, na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu.
21

unca = 28.35 g

126

Statistiko zakljuivanje jedna varijabla

Zadatak 5.14. Kako bi odgovorili na pitanje koji faktori ometaju proces uenja u razredu, istraivai na nekom sveuilitu ispitali su 40 uenika koji su trebali ocjenama od 1 (uope ne) do
7 (u velikoj mjeri) ocijeniti razinu do koje odreeni faktori ometaju proces uenja. Faktor koji
je dobio najveu ocjenu je "profesori koji inzistiraju na jednom tonom odgovoru radije nego da
evaluiraju cjelokupno razmiljanje i kreativnost". Deskriptivna statistika za ocjenu razine utjecaja
ovog faktora je x40 = 4.70, s40 = 1.62. Premauje li na nivou znaajnosti = 0.05 oekivanje
ocjene za navedeni faktor znaajno ocjenu 4? Interpretirajte rezultat.
Rjeenje. H0 : = 4, H1 : > 4, na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu.

Zadatak 5.15.
(perec.sta)
Odluili ste prodavati nove perece u svojoj pekari, no niste sigurni sviaju li se oni vaim kupcima.
O tome ovisi hoete li nastaviti prodavati te perece ili ne. U bazi podataka perec.sta nalaze se
podaci dobiveni iz uzorka od 50 kupaca, pri emu su njihovi odgovori oznaeni na sljedei nain:
0
1
2

pereci mi se ne sviaju
pereci mi se sviaju
neodluan sam.

a) Odredite interval pouzdanosti 95 % za proporciju kupaca kojima se sviaju novi pereci.


Rjeenje: [0.17, 0.43].
b) to ete uiniti s veliinom uzorka ako elite poveati preciznost procjene?
c) Moete li na nivou znaajnosti = 0.05 prihvatiti hipotezu da je proporcija kupaca kojima
se ne sviaju pereci vea od 0.5?
Rjeenje: H0 : p = 0.5, H1 : p > 0.5, na nivou znaajnosti = 0.05 ne odbacujemo nulhipotezu, tj. na tom nivou znaajnosti nemamo dovoljno argumenata tvrditi da je proporcija
znaajno vea od 0.5.

Zadatak 5.16. Reputacija mnogih poslova moe biti snano naruena poiljkom proizvedene
robe koja sadri velik postotak (proporciju) oteenih proizvoda. Na primjer, proizvoa alkalnih
baterija eli biti siguran da je manje od 5% baterija u poiljci oteeno. Pretpostavimo da je
sluajnim izborom iz vrlo velike poiljke odabrano 300 baterija od kojih je 10 oteenih. Je li to
dovoljan dokaz proizvoau da, na nivou znaajnosti = 0.01, zakljui da je proporcija neispravnih
baterija u poiljci manja od 0.05?
Rjeenje. H0 : p = 0.05, H1 : p < 0.05, na nivou znaajnosti = 0.01 ne odbacujemo nulhipotezu. To nije dovoljan dokaz!

Zadatak 5.17. Savjetnik ekolokog kluba na jednom sveuilitu eli potovati zahtjev da klub
ini 10% brucoa, 20% studenata druge godine, 40% studenata tree godine te 30% apsolvenata.
lanstvo ekolokog kluba za ovu godinu brojilo je 14 brucoa, 19 studenata druge godine, 51
studenta tree godine i 16 apslovenata. Provjerite postoji li statistiki znaajna razlika trenutnog
sastava kluba od traenog standarda na nivou znaajnosti = 0.1.

Zadaci

127

Rjeenje. Na nivou znaajnosti = 0.1 odbacujemo nul-hipotezu, tj. na tom nivou znaajnosti
moemo tvrditi da postoji statistiki znaajno odstupanje sastava kluba od traenog standarda.

Zadatak 5.18. U studiji temeljenoj na istraivanju razloga povratka umirovljenih ljudi na posao
postavljena je sljedea teorijska distribucija:
38%
32%
23%
7%

ponovo se zaposli u drugom poduzeu


osnuje obrt
rade kao konzultanti
osnuje vlastito poduzee.

Podudaraju li se, na nivou znaajnosti = 0.05, rezultati prikazani u sljedeoj tablici


122
85
76
17

ponovo se zaposlilo u drugom poduzeu


osnovalo je obrt
rade kao konzultanti
osnovalo je vlastito poduzee.

s prethodno postavljenom teorijskom distribucijom?


Rjeenje. Na nivou znaajnosti = 0.05 ne odbacujemo nul-hipotezu, tj. na tom nivou znaajnosti
nemamo dovoljno argumenata tvrditi da se te dvije distribucije znaajno razlikuju.

Zadatak 5.19.
(gradjevina.sta)
Varijabla napredovanje baze podataka gradjevina.sta sadri ocjene kadrovskih slubi 100 graevinskih poduzea srednje veliine u nekoj zemlji o tome u kolikoj mjeri uspjeno obavljanje posla
utjee na mogunost napredovanja na bolje radno mjesto. Zabiljeene ocjene interpretiramo na
sljedei nain: 1 - uspjenost obavljanja posla uope ne utjee na mogunost napredovanja, . . . , 5
- napredovanje na bolje radno mjesto iskljuivo ovisi o uspjenosti u obavljanju posla. Pretpostavimo da bi u idealnom sluaju teorijska distribucija sluajne varijable kojom se modelira ta ocjena
bila zadana tablicom
!
1
2
3
4 5
.
1/10 1/10 1/10 1/5 1/2
Postoji li, na nivou znaajnosti = 0.01, statistiki znaajno odstupanje empirijske distribucije
te sluajne varijable od pretpostavljene teorijske distribucije?
Rjeenje. Na nivou znaajnosti = 0.01 odbacujemo nul-hipotezu.

Zadatak 5.20.
(poduzetnici.sta)
Podaci o dobi 200 poduzetnika u nekoj zemlji nalaze se u bazi podataka poduzetnici.sta. Je li
neprekidna sluajna varijabla kojom modeliramo dob poduzetnika u toj zemlji normalno distribuirana? Statistike testove provedite na nivou znaajnosti = 0.05 te komentirajte dobiveni
rezultat s obzirom na konkretan problem koji prouavate.
Rjeenje. Na nivou znaajnosti = 0.05 ne odbacujemo nul-hipotezu da je varijabla normalno
distribuirana.

128

Statistiko zakljuivanje jedna varijabla

Zadatak 5.21.
(MBA-studij.sta)
Baza podataka MBA-studij.sta sadri podatke o broju bodova na GMAT (Graduate Management
Admission Test) testu za 100 studenata koji ele upisati neki studij. Moemo li na nivou znaajnosti
= 0.05 tvrditi da je sluajna varijabla kojom modeliramo broj bodova na tom testu normalno
distribuirana?
Rjeenje. Na nivou znaajnosti = 0.05 ne odbacujemo nul-hipotezu da je varijabla normalno
distribuirana.

Zadatak 5.22.
(gradjevina.sta)
Baza podataka gradjevina.sta sadri neke podatke o organizaciji i poslovanju za 100 graevinskih
poduzea srednje veliine u nekoj zemlji (za detaljniji opis pogledajte zadatak 4.31). Moemo li na
nivou znaajnosti = 0.05 tvrditi da su sluajne varijable kojima modeliramo prosjenu starost
te plae, trokove i prihode u 2007., 2008. i 2009. godini normalno distribuirane?
Rjeenje. Za sve sluajne varijable na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu i prihvaamo alternativnu hipotezu, tj. zakljuujemo da na tom nivou znaajnosti spomenute sluajne
varijable nisu normalno distribuirane.

Poglavlje 6

Statistiko zakljuivanje
dvije varijable
6.1

Razlike u distribuciji izmeu dviju varijabli

U praksi nas esto zanima dolazi li do promjene obiljeja koje prouavamo zbog
provoenja neke aktivnosti, u nekom drugom trenutku ili openito u nekim drugim
uvjetima. Sljedei primjer ilustrira problematiku tog tipa.

Primjer 6.1.
(student.sta)
Neko sveuilite osim klasinog naina studiranja nudi i studiranje temeljeno na konceptu elearninga. Povjerenstvo za praenje kvalitete studiranja eli vidjeti postoji li razlika u dobi izmeu
studenata koji studiraju na klasian nain i onih koji studiraju putem e-learninga. Podaci o dobi
studenata nalaze se u bazi student.sta (primjer 2.10). Uvidom u dobnu strukturu tih dvaju uzoraka
studenata moemo dobiti procjenu distribucije i numerikih karakteristika sluajne varijable kojom
modeliramo dob studenata koji studiraju klasino i dob studenata koji studiraju putem e-learninga
(slike 6.1, 6.2 i 6.3).

From
To
18<=x<23
23<=x<28
28<=x<33
33<=x<38

Frequency table: student.sta


Count
Percent
Count
Percent
(e-learning) (e-learning) (klasicno
(klasicno
studiranje) studiranje)
30
13
3
4

60.00000
26.00000
6.00000
8.00000

30
16
4
0

60.00000
32.00000
8.00000
0.00000

Slika 6.1: Varijable klasicno studiranje i e-learning - tablica kategoriziranih frekvencija i relativnih
frekvencija

129

130

Statistiko zakljuivanje dvije varijable

Variable
klasicno studiranje
e-learning

Descriptive Statistics (student.sta)


Valid N Mean
Mode Frequency Variance Std.Dev.
of Mode
50
22.12 Multiple
9
13.58
3.68
50
22.80 19.00000
9
22.94
4.79

Variable
klasicno studiranje
e-learning

Descriptive Statistics (student.sta)


Valid N Mean
Mode Frequency Variance Std.Dev.
of Mode
50
22.12 Multiple
9
13.58
3.68
50
22.80 19.00000
9
22.94
4.79

Variable
klasicno studiranje
e-learning

Descriptive Statistics (student.sta)


Median Minimum Maximum Lower
Upper
Range
Quartile Quartile
21.5
18
32
19
25
14
21.5
18
36
19
25
18

Slika 6.2: Varijable klasicno studiranje i e-learning - deskriptivna statistika.


38
36
34
32
30
28
26
24
22
20
18
16

klasicnostudiranje
elearning

Median
25%75%
MinMax

Slika 6.3: Varijable klasicno studiranje i e-learning - kutijasti dijagrami na bazi medijana.
Budui da se ovdje radi o pruavanju istog obiljeja (dobi) na dva uzorka studenata koji nemaju
zajednikih jedinki, kaemo da prouavamo nevezane uzorke.

Primjer 6.2. Pretpostavimo da elimo usporediti daje li novi tip sjemana kukuruza, razvijen
genetikim metodama, vee prinose nego do sada najee koritena sorta kukuruza na ovim podrujima. Pokusi moraju biti izvedeni sijanjem ovih sorti na poljima koja osiguravaju iste uvjete
za rast. Urod kukuruza po kvadratnom metru parceliranih polja predstavlja bazu podataka na osnovi
koje moemo statistiki zakljuivati o pitanjima razlika. I u ovom se primjeru radi o prouavanju
nevezanih uzoraka.

Primjer 6.3.
(igre.sta)
U jednoj je koli napravljeno istraivanje o tome to djeca misle i osjeaju prema sebi. Test se
sastojao od toga da na poetku testiranja djeca ocjenom od 1 (ne slaem se) do 5 (slaem se)

Razlike u distribuciji

131

ocijene tvrdnju "imam mnogo dobrih osobina". Nakon toga u razdoblju od est tjedana djeca su
igrala etiri igre koje potiu pozitivan stav prema sebi. Poslije tih igara ponovno im je postavljeno
isto pitanje koje su na isti nain ocijenili. U bazi podataka igre.sta nalaze se ocjene prije i nakon
provoenja igara. Uvidom u utjecaj igara na miljenje djece o samima sebi moemo dobiti procjenu
distribucije i numerikih karakteristika sluajne varijable kojom modeliramo ocjene prije i nakon
tretmana igrama (slike 6.4, 6.5 i 6.6).

Variable
prije igara
poslije igara

Descriptive Statistics (igre.sta)


Valid N Mean
Mode Frequency Variance Std.Dev.
of Mode
33
4.55
5
21
0.44
0.67
33
4.79
5
27
0.23
0.48
Descriptive Statistics (igre.sta)
Median Minimum Maximum

Variable
prije igara
poslije igara

5
5

3
3

Lower
Upper
Range
Quartile Quartile
5
4
5
2
5
5
5
2

Slika 6.4: Varijable prije igara i poslije igara - deskriptivna statistika.


Frequency table: igre.sta
Count
Percent
Count
(prije
(prije igara)
(poslije
igara)
igara)
Category
3
3
9.09
1
4
9
27.27
5
5
21
63.64
27

Percent
(poslije
igara)
3.03
15.15
81.82

Slika 6.5: Varijable prije igara i poslije igara - tablice kategoriziranih frekvencija i relativnih
frekvencija
5.2
5.0
4.8
4.6
4.4
4.2
4.0
3.8
3.6
3.4
3.2
3.0
2.8

prijeigara
poslijeigara

Median
25%75%
MinMax

Slika 6.6: Varijable prije igara i poslije igara - kutijasti dijagrami na bazi medijana.
Budui da se ovdje radi o analizi subjektivnog miljenja djeteta o samom sebi na istom uzorku
djece prije i poslije tretmana igrama, kaemo da prouavamo vezane uzorke.

132

Statistiko zakljuivanje dvije varijable

Na temelju tablica frekvencija i relativnih frekvencija u primjerima 6.1 i 6.3 (tablice


6.1 i 6.5) uoavamo razlike u empirijskoj distribuciji sluajne varijable kojom modeliramo promatrano obiljeje na danim vezanim ili nevezanim uzorcima. Preciznije,
uoavamo razlike u empirijskoj distribuciji sluajne varijable kojom modeliramo
dob studenata koji studiraju na klasian nain i sluajne varijable kojom modeliramo dob studenata koji studiraju putem e-learninga u primjeru 6.1 te razlike u
empirijskim distribucijama sluajnih varijabli kojima modeliramo ocjenu miljenja
djece o sebi prije i nakon igara u primjeru 6.3. Takoer, na temelju deskriptivnih
statistika 6.2 i 6.4 uoavamo postojanje razlika u npr. aritmetikoj sredini (procjeni za oekivanje sluajne varijable) i standardnoj devijaciji podataka (procjeni
za standardnu devijaciju sluajne varijable). Postavlja se pitanje jesu li ove razlike
uoene na uzorcima statistiki znaajne ili ne. U tu svrhu u ovom emo se poglavlju baviti zakljuivanjem o statistikoj znaajnosti uoenih razlika u ovim i slinim
primjerima.
Prvi korak u ovakvim analizama uvijek je analiza obiljeja koje nas zanima posebno za svaki od dva dana uzorka pa kaemo da analiziramo jedno obiljeje u dva
tretmana. Cilj je utvrditi postoje li razlike u distribuciji obiljeja za razliite tretmane. S obzirom da ne znamo stvarnu distribuciju promatranog obiljeja, o njoj
zakljuujemo na osnovi prikupljenih podataka. U tu emo svrhu usporediti empirijske distribucije obiljeja po tretmanima, kao i procijenjene vrijednosti parametara
(primjeri 6.1 i 6.3). S obzirom na injenicu da su procjenitelji koje pri tome koristimo sluajne varijable, prirodno je oekivati da dobivene procijenjene vrijednosti
po tretmanima nee biti jednake. Pitanje na koje elimo odgovoriti jest mogu li
se razlike koje uoavamo pripisati samo injenici da su procjenitelji sluajne varijable ili ima razloga vjerovati da su izazvane postojanjem razlika izmau stvarnih
distribucija promatranih sluajnih varijabli (tada kaemo da su razlike statistiki
znaajne). Ukratko, pitanje na koje odgovaramo u ovom poglavlju jest: "Jesu li
uoene razlike po tretmanima statistiki znaajne?" Postupak koji emo pri
tome primjenjivati jest testiranje statistikih hipoteza. Vano je takoer naglasiti
da je prilikom ovakvog analiziranja razlika meu distribucijama sluajnih varijabli
vano paljivo pripremanje pokusa tako da se osiguraju dva sluajna uzorka koja se
bitno razlikuju samo po tretmanu.

6.1.1

Usporedba oekivanja nevezani uzorci

Zanima nas postoji li razlika u oekivanju sluajne varijable kojom modeliramo


neko obiljeje u dva tretmana. U svakom od tretmana biramo jedinke u uzorak na

Razlike u distribuciji

133

sluajni nain. Uzorci ne sadre iste jedinke. Neka su n1 , 1 i 1 veliina uzorka,


oekivanje i standardna devijacija sluajne varijable kojom modeliramo obiljeje u
prvom tretmanu, a n2 , 2 i 2 veliina uzorka, oekivanje i standardna devijacija
sluajne varijable kojom modeliramo obiljeje u drugom tretmanu.
Veliki uzorci
U uvjetima kada imamo velike uzorke, moemo testirati hipotezu o jednakosti oekivanja sluajnih varijabli kojima modeliramo promatrano obiljeje u dva tretmana
neovisno o distribuciji tih sluajnih varijabli. Postupak testiranja provodi se
na sljedei nain:

Nul-hipoteza:
H0 : 1 = 2
Test-statistika:
X n X n2
Z0 = q 12
1
22
n1 + n2

(6.1)

Ovdje su n1 i n2 veliine uzoraka iz nevezanih tretmana, X n1 i X n2 su


redom aritmetike sredine, a 1 i 2 poznate standardne devijacije tih
uzoraka, redom. Test-statistika Z 0 , u sluaju velikih uzoraka te ako je
nul-hipoteza istinita, ima priblino standardnu normalnu distribuciju.

Ako je nul-hipoteza istinita, oekujemo da, na temelju podataka izraunata vrijednost za Z 0 (oznait emo je sa z), nije daleko od 0. Meutim, sluajna varijabla Z 0
ima priblino standardnu normalnu distribuciju pa ne moemo zanemariti mogunost realizacije te varijable i u intervalu koji je daleko od nule. Ako oznaimo sa Z
sluajnu varijablu s N (0, 1) distribucijom, na osnovi realizacije z statistike Z 0 na
podacima moemo odrediti p-vrijednost kao:
p = P {Z z} ako je alternativna hipoteza oblika H1 : 1 2 > 0
p = P {Z z} ako je alternativna hipoteza oblika H1 : 1 2 < 0.
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju da je
p < odbacujemo nul-hipotezu na nivou znaajnosti i prihvaamo alternativnu
hipotezu H1 . Ako je p > , zakljuujemo da nemamo dovoljno argumenata koji bi
poduprli odluku o odbacivanju nul-hipoteze.

134

Statistiko zakljuivanje dvije varijable

U ovim postupcima aritmetike sredine uzoraka X n1 i X n2 koristimo kao procjenitelje za oekivanja 1 i 2 (njihove realizacije za izmjerene vrijednosti u prvom i
drugom tretmanu su procjene xn1 i xn2 oekivanja 1 i 2 ). Za primjenu ovog testa
potrebno je poznavati i varijancu obiljeja (tj. vrijednosti 12 i 22 ), to u primjenama najee nije sluaj. Meutim, u sluaju velikih uzoraka moemo iskoristiti
korigirane varijance uzoraka s2n1 i s2n2 kao procjene nepoznatih varijanci.
Mali uzorci
Ako pretpostavimo da su varijable u tretmanima normalno distribuirane i da imaju
jednake varijance, tada moemo primijeniti test koji e biti opisan u ovom odjeljku.
Dakle, ako za sluajne varijable X1 i X2 , kojima modeliramo obiljeje u prvom,
odnosno drugom tretmanu, vrijede pretpostavke
X1 N (1 , 12 ) i X2 N (2 , 22 )
12 = 22 ,
postupak testiranja jednakosti oekivanja sluajnih varijabli X1 i X2 moemo provesti i za male uzorke. Postupak testiranja provodi se na sljedei nain:

Nul-hipoteza:
H0 : 1 = 2
Test-statistika:
T0 =

s2p =

X n1 X n2
q
sp n11 + n12

(6.2)

(n1 1)s2n1 + (n2 1)s2n2


n1 + n2 2

Ovdje su n1 i n2 veliine uzoraka iz nevezanih tretmana, X n1 i X n2 su


redom aritmetike sredine tih uzoraka, a s2n1 i s2n2 korigirane uzorake
varijance za svaki tretman. Ako je nul-hipoteza istinita, test-statistika
T 0 ima Studentovu t-distribuciju s (n1 + n2 2) stupnjeva slobode.

Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za T 0 (oznait emo je s t) blizu 0, a vjerojatnost da se T 0 realizira u intervalu
dalekom od nule, koja nam treba za odreivanje p-vrijednosti, raunamo na temelju

Razlike u distribuciji

135

Studentove t-distribuciju s (n1 +n2 2) stupnjeva slobode. Oznaimo li s T sluajnu


varijablu koja ima t-distribuciju s (n1 + n2 2) stupnjeva slobode, imamo:
p = P {T t} ako je alternativna hipoteza oblika H1 : 1 2 > 0
p = P {T t} ako je alternativna hipoteza oblika H1 : 1 2 < 0.
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju da je
p < , odbacujemo nul-hipotezu na nivou znaajnosti i prihvaamo alternativnu
hipotezu H1 . Ako je p > , zakljuujemo da nemamo dovoljno argumenata koji bi
poduprli odluku o odbacivanju nul-hipoteze.
Za primjenu ovog testa od velike je vanosti ispunjenost pretpostavke o jednakosti
varijanci varijabli po tretmanima. Budui da nam stvarne varijance 12 i 22 u
veini sluajeva nisu poznate, korisno je prije primjene ovog testa testirati hipotezu
o jednakosti varijanci. U tu svrhu moemo koristiti tzv. F -test o jednakosti
varijanci.

Nul-hipoteza:
H0 : 12 = 22
Test-statistika:
V0 =

s2n1
s2n2

(6.3)

Ovdje su s21 i s22 procjene varijanci 12 i 22 . Ako je nul-hipoteza istinita,


test-statistika V 0 ima F distribuciju s (n1 1) i (n2 1) stupnjeva
slobode.

Ako je nul-hipoteza istinita, oekujemo da je na temelju podataka izraunata vrijednost za V 0 (oznait emo je s v) bliska jedinici. Oznaimo s V sluajnu varijablu
koja ima F distribuciju s (n1 1) i (n2 1) stupnjeva slobode. Nul-hipotezu odbacujemo ako za izraunatu vrijednost v vrijedi jedna od sljedeih nejednakosti:
v c1

ili

v c2 ,

gdje su c1 i c2 pozitivni realni brojevi takvi da je


P (V c1 ) = P (V c2 ) =
gdje je je nivo znaajnosti testa (slika 6.7).

,
2

136

Statistiko zakljuivanje dvije varijable


f (x)

P {V c1 } = /2

P {V c2 } = /2
x
c1

c2

Slika 6.7: P {V c1 } + P {V c1 } =
Brojeve c1 i c2 odreujemo kalkulatorom vjerojatnosti pri emu je kljuno za distribuciju odabrati F distribuciju sa stupnjevima slobode (eng. degrees of freedom,
df) (n1 1) i (n2 1). Npr. ako n1 = n2 = 11, tada su oba stupnja slobode F
distribucije jednaka 10 pa je za = 0.05 c1 = 0.27 i c2 = 3.72, a za = 0.1 je
c1 = 0.34 i c2 = 2.98. Dakle, ako je
v c1 ili v c2
na nivou znaajnosti odbacujemo nul-hipotezu H0 i prihvaamo alternativnu hipotezu o postojanju razlike meu varijancama 12 i 22 . Ako je
v (c1 , c2 ),
tada nemamo dovoljno argumenata koji bi poduprli odluku o odbacivanju hipoteze
o jednakosti varijanci.
Primjer 6.4. Neka su s1 = 3.2 i s2 = 3 procjene standardih devijacija sluajnih varijabli X1
i X2 kojima modeliramo neko obiljeje u prvom i drugom tretmanu, redom. Pretpostavimo da
su procjene s1 i s2 dobivene na temelju uzoraka veliina n1 = n2 = 30. Da bismo na nivou
znaajnosti = 0.05 proveli F -test i donijeli odluku koja se tie jednakosti varijanci 12 i 22 ,
raunamo vrijednost test statistike V 0 :
v =

s2n1
s2n2

3.22
1.14.
32

Pomou kalkulatora vjerojatnosti slijedi da je za sluajnu varijablu V koja ima F distribuciju s


oba stupnja slobode jednaka 29
P {V 0.48} = P {V 2.1} = 0.025
{V 0.48} + P {V 2.1} = 0.05,
pa je c1 = 0.48, a c2 = 2.1. Budui da je izraunata vrijednost v = 1.14 sadrana u intervalu
(c1 , c2 ) = (0.48, 2.1), na nivou znaajnosti = 0.05, nemamo dovoljno argumenata koji bi poduprli
tvrdnju o odbacivanju nul-hipoteze. Dakle, ne moemo tvrditi da su varijnce razliite.

Razlike u distribuciji

137

Primjer 6.5. Neko poduzee bavi se izdavakom djelatnou. Svoje proizvode na prodajna mjesta
dostavlja koristei usluge dvaju transportnih poduzea. Upravu poduzea zanima razlikuju li se
oekivana vremena trajanja dostave za ta dva poduzea ili ne. Da bi se donio zakljuak koji daje
odgovor na pitanje uprave, potrebno je testirati hipotezu o jednakosti oekivanog vremena trajanja
dostave proizvoda za ta dva transportna poduzea. U tu je svrhu analitiar zabiljeio trajanje 30
dostava koje je obavilo prvo i 30 dostava koje je obavilo drugo transportno poduzee te na temelju
tih podataka procijenio oekivanje promatranih sluajnih uzoraka:
prvo transportno poduzee:
drugo transportno poduzee:

n1 = 30, xn1 = 16 sati, s1 = 3.2 sata


n2 = 30, xn2 = 18 sati, s2 = 3 sata.

Pretpostavimo da vremena trajanja dostave proizvoda u organizaciji prvog i drugog transportnog


poduzea moemo modelirati normalnim sluajnim varijablama. U primjeru 6.4 proveli smo F -test
o jednakosti varijanci za ovaj sluaj i pokazali da, na nivou znaajnosti = 0.05, ne odbacujemo
nul-hipotezu. Dakle, za testiranje hipoteze o jednakosti oekivanog vremena trajanja dostave za
dva promatrana transportna poduzea, tj. za testiranje hipoteze
H0 : 1 = 2 ,
moemo koristiti statistiki test temeljen na test statistici 6.2 koja u ovom sluaju prima vrijednost
16 18
 2.49,
t =
1
1
sp 30
+ 30
gdje je
s

(30 1)3.22 + (30 1)32


= 3.1.
30 + 30 2
Uoimo da za procjene xn1 = 16 i xn2 = 18 nepoznatih oekivanja 1 i 2 vrijedi nejednakost
x1 < x2 , tj. nejednakost x1 x2 < 0, to odgovara alternativnoj hipotezi
sp =

H1 : 1 2 < 0.
Pripadna p-vrijednost je
p = P {T < t} = P {T < 2.49} 0.0077.
Budui da je za nivo znaajnosti = 0.05 oito p < , slijedi da na nivou znaajnosti =
0.05 odbacujemo nul-hipotezu i prihvaamo alternativnu hipotezu da je oekivano vrijeme trajanja
dostave za prvo transportno poduzee krae od oekivanog vremena trajanja dostave za drugo
poduzee.

6.1.2

Usporedba oekivanja vezani uzorci

esto u praksi imamo potrebu za usporeivanjem varijabli u vezanim tretmanima.


Npr. ako elimo usporeivati rezultate testa za iste bolesnike prije i nakon lijeenja.
Prethodni test ovdje nije adekvatan jer smo svjesni da mjerena vrijednost varijable
u svakom pojedinom sluaju drugog tretmana moe ovisiti o tome kolika je bila
vrijednost varijable odgovarajueg sluaja u prvom tretmanu. Dakle, pretpostavka
o nezavisnosti varijabli po tretmanima nije opravdana. U ovakvim primjerima sluajevi se moraju pratiti u paru, a zakljuci o postojanju razlika meu tretmanima
donose se na osnovu razlika varijabli u pojedinim tretmanima kao to je prikazano
u tablici 6.1.

138

Statistiko zakljuivanje dvije varijable


ispitanik
1
2
..
.
n

tretman 1
x1
x2
..
.
xn

tretman 2
y1
y2
..
.
yn

razlika
d 1 = x1 y1
d 2 = x1 y2
..
.
dn = x1 yn

Tablica 6.1: Razlike vrijednosti varijabli u promatranim tretmanima.

Dakle, sluajni uzorak koji se ovdje promatra sastoji se od n ureenih parova sluajnih varijabli (X1 , Y1 ), . . . , (Xn , Yn ) pomou kojih definiramo sluajne varijable
razlika Di = Xi Yi , i {1, . . . , n}, gdje su sluajne varijable X1 , . . . , Xn nezavisne
i jednako distribuirane (isto vrijedi za sluajne varijable Y1 , . . . , Yn ). Pretpostavimo
da su i sluajne varijable D1 , . . . , Dn takoer nezavisne i jednako distribuirane. Oekivanje sluajne varijable razlika Di = Xi Yi , i {1, . . . , n}, moe se dobiti kao
razlika oekivanja 1 i 2 sluajnih varijabli Xi i Yi , tj.
D = 1 2 .
Testiranje hipoteze
H0 : 1 2 = 0
sada se svodi na testiranje ekvivalentne hipoteze
H0 : D = 0
koja se odnosi na oekivanje sluajne varijable razlika. Testovi kojima moemo
testirati ovako postavljenu hipotezu opisani su u poglavlju Statistiko zakljuivanje
jedna varijabla.
Uoimo da sada, uz procjene za parametre varijabli svakog pojedinog tretmana,
trebamo i procjene za parametre varijable razlika koje emo koristiti za testiranje
hipoteze. Procjene za oekivanje razlike i varijance razlike su:
n

dn = xn y n ,

s2n =

1 X
(di dn )2 .
n 1 i=1

Primjer 6.6.
(igre.sta)
U primjeru 6.3 opisali smo istraivanje provedeno u jednoj koli o tome to djeca misle i osjeaju
prema sebi. Provjerimo moemo li na nivou znaajnosti = 0.05 prihvatiti hipotezu o postojanju
razlike u oekivanoj ocjeni djece prije i nakon tretmana igrama.
Budui da prilikom provoenje testa o razlici oekivanja p-vrijednost iznosi 0.009, na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu u korist alternativne hipoteze o poveanju oekivane
ocjene djece prije i nakon tretmana igrama.

Razlike u distribuciji

6.1.3

139

Usporedba proporcija u velikim uzorcima

Kao to je ve objanjeno do sada, problem procjene proporcije i problem procjene


vjerojatnosti pojavljivanja dogaaja mogu se uklopiti u statistiki model s istim
tipom distribucije. Ovdje se bavimo utvrivanjem postojanja razlika meu vjerojatnostima pojavljivanja izabranog dogaaja u dvije nezavisne populacije. Primjerima emo pokazati kako se ta procedura moe iskoristiti za utvrivanje postajanja
razlika u proporcijama.

Dakle, elimo na temelju uestalosti pojave nekog dogaaja u uzorcima iz dvije


populacije usporediti vjerojatnosti pojavljivanja tog dogaaja u te dvije populacije.
Za modeliranje emo iskoristiti Bernoullijevu sluajnu varijablu. Jedan problem tog
tipa prikazan je u primjeru 6.7.

Primjer 6.7. Na temelju tisuu dimenzionalnog reprezentativnog uzorka (n1 = 1000) stanovnika
jednog grada utvreno je da je proporcija ljudi u uzorku koji redovito vjebaju pb1 = 25% dok je
u nekom drugom gradu na temelju 2000 dimenzionalnog uzorka (n2 = 2000) utvreno je da je
proporcija redovitih vjebaa pb2 = 28%. Evidentno je da je proporcija ljudi koji redovito vjebaju
u uzorku iz drugog grada vea od proporcije u uzorku iz prvog grada. Mi elimo utvrditi moemo li
na temelju toga zakljuiti da je proporcija stanovnika koji redovito vjebaju u drugom gradu vea
nego u prvom gradu.
U tu svrhu iskoristit emo uobiajeni postupak modeliranja kod zakljuivanja o proporciji. Prilikom
uzimanja uzorka (ispitavanja odabranih osoba vjebaju li ili ne) oznaimo s 1 odgovor "da", a s
0 odgovor "ne". Za modeliranje uzoraka koristimo dvije Bernoullijeve sluajne varijable

X1 =

0
1
1 p1 p1

!
,

X2 =

0
1
1 p2 p2

!
,

p1 , p2 (0, 1),

gdje je p1 vjerojatnost pojave promatranog dogaaja u prvoj populaciji (odgovara proporciji osoba
koje redovito vjebaju u prvoj populaciji), a p2 vjerojatnost pojave istog dogaaja u drugoj populaciji (odgovara proporciji osoba koje redovito vjebaju u drugoj populaciji). Koritenjem relativne
frekvencije kao procjenitelja za vjerojatnost, na temelju uzoraka stanovnika dvaju promatanih gradova procjenjujemo parametre p1 i p2 s pb1 = 25% i pb2 = 28%. Svjesni smo da su procjenitelji
sluajne varijable. Njihove realizacije, tj. procjene ne daju tonu vrijednost parametara. Moemo li, na temelju informacija koje imamo, rei da je u drugom gradu vea proporcija ljudi koji
redovito vjebaju?

Da bismo odgovorili na pitanje postavljeno u primjeru 6.7, sluimo se sljedeim

140

Statistiko zakljuivanje dvije varijable

testom:
Nul-hipoteza:
H0 : p1 = p2
Test-statistika:
Z0 = q

pb1 pb2
pb(1 pb)( n11 +

pb =

1
n2 )

n1 pb1 + n2 pb2
n1 + n2

Ovdje su n1 i n2 veliine uzoraka iz dviju promatranih populacija, a pb1 i


pb2 proporcije realizacija dogaaja od interesa u prvom i drugom uzorku,
redom. Za velike uzorke i ako je nul-hipoteza istinita, sluajna varijabla
Z 0 ima priblino standardnu normalnu distribuciju.

Ako je nul-hipoteza istinita, oekujemo da e se Z 0 realizirati blizu nule. Kao i do


sada, ne smijemo zanemariti injenicu da postoji mala vjerojatnost realizacije Z 0
u intervalu daleko od nule i ako je nul-hipoteza istinita, to je osnova za raunanje p-vrijednosti. Oznaimo sa z realizaciju od Z 0 na uzorku (tj. z je izraunata
vrijednost za Z 0 na temelju podataka). Ako sa Z oznaimo sluajnu varijablu koja
ima standardnu normalnu distribuciju, na osnovi z moemo odrediti p-vrijednost
na sljedei nain:
p = P {Z z} ako je alternativna hipoteza oblika H1 : p1 p2 > 0
p = P {Z z} ako je alternativna hipoteza oblika H1 : p1 p2 < 0.
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti . U sluaju da je
p < , odbacujemo nul-hipotezu i na nivou znaajnosti prihvaamo alternativnu
hipotezu H1 . Ako je p > , zakljuujemo da nemamo dovoljno argumenata koji bi
poduprli odluku o odbacivanju nul-hipoteze.
Primjer 6.8. Provedimo navedeni test za problem iz primjera 6.7 uz nivo znaajnosti = 0.05.
Budui da je
pb1 < pb2 ,
alternativna hipoteza je oblika
H1 : p1 p2 < 0.
Za n1 = 1000, pb1 = 0.25, n2 = 2000 i pb2 = 0.28 je
1000 0.25 + 2000 0.28
pb =
= 0.27
1000 + 2000

Dvodimenzionalan sluajni vektor

141

pa je vrijednost test statistike Z 0


0.25 0.28
z = q
1
0.27(1 0.27) 1000
+

1
2000

 1.74,

a p-vrijednost
p = P {Z 1.74} 0.041.
Budui da je p < , odbacujemo nul-hipotezu i na nivou znaajnosti = 0.05 prihvaamo alternativnu hipotezu koja kae da je u drugom gradu vea proporcija ljudi koji redovito vjebaju.

Primjer 6.9. U jednom sluajnom uzorku od 100 stalnih kupaca dane trgovine 43 kupca plaaju
Master karticom (n1 = 100, pb1 = 0.43), a u drugom sluanom uzorku koji takoer broji 100 kupaca
njih 58 plaa Visa karticom (n2 = 100, pb2 = 0.58). Zanima nas moemo li na razini znaajnosti
= 0.05 tvrditi da je proporcija kupaca te trgovine koja za plaanje koristi Visa karticu vea od
proporcije kupaca koji koriste Master karticu.
Budui da je
pb1 < pb2 ,
alternativna hipoteza je oblika
H1 : p 1 p 2 < 0
pa za vrijednost test statistike Z 0 dobivamo:
pb =

100(0.43 + 0.58)
101
=
= 0.505,
100 + 100
200

0.43 0.58
z = q
1
0.505(1 0.505) 100
+

1
100

 2.12.

Pripadna p-vrijednost je
p = P {Z z} = P {Z 2.12} = 0.017.

Za nivo znaajnosti = 0.05 slijedi da je p < pa zakljuujemo da odbacujemo nul-hipotezu i na


razini znaajnosti = 0.05 prihvaamo alternativnu hipotezu da je proporcija kupaca te trgovine
koji za plaanje koriste Visa karticu vea od proporcije kupaca koji za plaanje koriste Master
karticu.

6.2

Dvodimenzionalan sluajni vektor

U prethodnom poglavlju uveli smo pojam vezanih uzoraka kod kojih se, za svaki pojedinani sluaj, biljei vrijednost jednog obiljeja u dva razliita tretmana. Uoimo
da to rezultira tablicom u kojoj imamo unesene vrijednosti (realizacije) tog obiljeja
u svakom pojedinom sluaju (tablica 6.2).

142

Statistiko zakljuivanje dvije varijable


broj
1
2
..
.
n

tretman 1
x1
x2
..
.
xn

tretman 2
y1
y2
..
.
yn

Tablica 6.2: Tablica vrijednosti obiljeja za n mjerenja u svakom od dva tretmana.


Za ovakve podatke kaemo da su realizacije sluajnog vektora (X, Y ), gdje je
X sluajna varijabla kojom modeliramo realizacije prvog tretmana, a Y sluajna
varijabla kojom modeliramo ralizacije drugog tretmana. Sline tablice pojavljuju
se ako na istim jedinkama biljeimo realizacije dviju varijabli, bilo da one opisuju
istu karakteristiku bilo neku drugu karakteristiku. Npr. ako za skupinu osoba
na kojoj vrimo ispitivanje mjerimo istovremeno tjelesnu masu i visinu, biljeimo
realizacije dviju razliitih karakteristika osobe, ali opet imamo vezane varijable.
Naime, sasvim je prirodno da masa osobe nije potpuno neovisna o visini, meutim
nije ni jednoznano odreena visinom osobe. U ovakvim sluajevima od interesa
je ustanoviti postoje li neke ovisnosti meu varijablama koje se prate u paru ili su
one neovisne jedna o drugoj. Da bismo to bili u stanju, potrebno je prvo nauiti
osnovne pojmove vezane uz sluajni vektor. U ovom poglavlju opisat emo sluajni
vektor, njegovu distribuciju i osnovne karakteristike u diskretnom sluaju.
Treba takoer naglasiti da sluajni vektor ne mora uvijek biti ureeni par sluajnih
varijabli, tj. ne mora biti dvodimenzionalan. On moe biti ureena n-torka sluajnih
varijabli (tj. n-dimenzionalan sluajni vektor) kao npr. kada za svaki pojedini
sluaj biljeimo realizacije vie razliitih karakteristika, a ne samo dvije. Meutim,
za nae potrebe i osnove statistike analize kojom utvrujemo postojanje ovisnosti
meu varijablama bit e dovoljno razmatranje dvodimenzionalnog sluaja.

6.2.1

Tablica distribucije diskretnog sluajnog vektora

Jedna realizacija dvodimenzionalnog sluajnog vektora uvijek je ureeni par realnih


brojeva. Ako je takav sluajni vektor ujedno diskretan, onda realizacija moe biti
samo konano ili prebrojivo mnogo, kao i kod diskretne sluajne varijable. Radi jednostavnosti promatat emo samo sluajne vektore s konanim skupom svih moguih
vrijednosti. Da bismo zadali distribuciju takvog sluajnog vektora, potrebno je zadati pripadnu vjerojatnost na skupu svih njegovih moguih realizacija. Postupak
zadavanja distribucije sluajnog vektora opisat emo prvo na jednom primjeru.

Dvodimenzionalan sluajni vektor

143

Primjer 6.10. Tvornica bombona koristi dvije linije za pakiranje bombona u vreice. Svaka
od linija povremeno ne zavari vreicu na odgovarajui nain pa se pakiranje ne moe poslati u
prodaju. Radi analize uzroka ovih problema analitiar eli saznati distribuciju broja pogreno
zavarenih pakiranja u jednom satu na svakoj liniji posebno, ali i njihovu zajedniku distribuciju.
Naime, analitiar eli saznati pojavljuje li se povean broj loe zavarenih pakiranja istovremeno na
obje linije pa moda uzroke treba traiti u npr. povremenim smetnjama u elektrinom napajanju
i slinim moguim zajednikim uzrocima.
U tu svrhu analitiar je brojao pogreno zavarena pakiranja sa svake linije tijekom 400 sati i dobio
podatke koje je biljeio u tablicu 6.3.

sat
1
2
3
..
.
400

prva linija - broj greaka


0
1
2
..
.
3

druga linija - broj greaka


0
0
2
..
.
1

Tablica 6.3: Frekvencije pogreno zavarenih vreica na prvoj i drugoj liniji po satima.
Dobivene podatke pregledno (sumarno) moemo prikazati koritenjem zajednike tablice frekvencija oblika 6.4.

prva linija

zbroj

0
1
2
3
4

0
22
20
15
6
5
68

druga linija
1
2
3
12
13
12
24
14
30
20
30
10
5
10
32
7
13
31
68
80
115

4
7
10
7
20
25
69

zbroj
66
98
82
73
81
400

Tablica 6.4: Zajednika tablica frekvencija pogreno zavarenih vreica na obje linije.
Oznaimo li s X sluajnu varijablu kojom opisujemo broj pogreno zavarenih vreica po satu s
prve linije, a Y s druge linije, vidimo da je skup svih moguih realizacija pripadnog sluajnog
vektora (X, Y ) skup R(X, Y ) = {(0, 0), (0, 1), . . . , (0, 4), (1, 0), . . . , (1, 4), . . . , (4, 4)} i da se on lako
moe opisati koritenjem oznaka na gornjoj i lijevoj margini zajednike tablice frekvencija 6.4. Iz
tablice frekvencija 6.4 moemo odrediti empirijsku distribuciju sluajne varijable X (tablica 6.5) i
Y (tablica 6.6) koje mogu posluiti za procjenu stvarne (nepoznate) distribucije sluajnih varijabli
X i Y.

144

Statistiko zakljuivanje dvije varijable


vrijednost od X
relativna frekvencija

0
0.165

1
0.245

2
0.205

3
0.1825

4
0.2025

Tablica 6.5: Empirijska distribucija sluajne varijable X.


vrijednost od Y
relativna frekvencija

0
0.17

1
0.17

2
0.2

3
0.2875

4
0.1725

Tablica 6.6: Empirijska distribucija sluajne varijable Y .


Razmislite: kolika je procjena vjerojatnosti da na drugoj liniji budu 4 loe zavarene vreice bombona po satu, a koliko na prvoj liniji?
Takoer, iz zajednike tablice frekvencija 6.4 moemo izraunati relativnu frekvenciju pojavljivanja
svakog ureenog para iz skupa moguih realizacija sluajnog vektora (X, Y ) dijeljenjem odgovarajuih frekvencija ukupnim brojem sluajeva u uzorku, tj. s 400 (tablica 6.7).

0
1
2
3
4

0
0.0550
0.0500
0.0375
0.0150
0.0125

1
0.0300
0.0600
0.0500
0.0125
0.0175

Y
2
0.0325
0.0350
0.0750
0.0250
0.0325

3
0.0300
0.0750
0.0250
0.0800
0.0775

4
0.0175
0.0250
0.0175
0.0500
0.0625

Tablica 6.7: Zajednika tablica relativnih frekvencija pogreno zavarenih vreica na obje linije.
Ovako dobivena zajednika tablica relativnih frekvencija 6.7 odgovara empirijskoj tablici distribucije diskretnog sluajnog vektora (X, Y ) pa se moe koristiti ako elimo npr. procijeniti
koliko iznosi vjerojatnost da na prvoj liniji ne bude pogreno zavarenih pakiranja, a istovremeno
na drugoj liniji budu 4 pogreke, tj. za procjenu vjerojatnosti pojavljivanja odgovarajuih parova
{X = x} {Y = y}. Uoimo da se empirijske distribucije sluajne varijable X i sluajne varijable
Y mogu dobiti sumiranjem odgovarajuih redaka, odnosno stupaca iz zajednike tablice relativnih
frekvencija 6.7, kao to je prikazano u tablici 6.8.

zbroj

0
1
2
3
4

0
0.0550
0.0500
0.0375
0.0150
0.0125
0.17

1
0.0300
0.0600
0.0500
0.0125
0.0175
0.17

Y
2
0.0325
0.0350
0.0750
0.0250
0.0325
0.2

3
0.0300
0.0750
0.0250
0.0800
0.0775
0.2875

4
0.0175
0.0250
0.0175
0.0500
0.0625
0.1725

zbroj
0.165
0.245
0.205
0.1825
0.2025
1

Tablica 6.8: Zajednika tablica relativnih frekvencija s marginama.

Dvodimenzionalan sluajni vektor

145

Openito, distribucija dvodimenzionalnog sluajnog vektora (X, Y ), pri emu su


{x1 , . . . , xm } vrijednosti koje moe primiti sluajna varijabla X (prva komponenta
ovog vektora), a {y1 , . . . , yn } sluajna varijabla Y (druga komponenta ovog vektora),
dana je tablicom distribucije 6.9.

x1
X x2
..
.
xm

Y
y1
y2
p(x1 , y1 ) p(x1 , y2 )
p(x2 , y1 ) p(x2 , y2 )
..
..
.
.
p(xm , y1 ) p(xm , y2 )

...
yn
. . . p(x1 , yn )
. . . p(x2 , yn )
..
.
. . . p(xm , yn )

Tablica 6.9: Tablica distribucije dvodimenzionalnog diskretnog sluajnog vektora.


Broj p(xi , yj ) je vjerojatnost da sluajna varijabla X primi vrijednost xi
i sluajna varijabla Y vrijednost yj , tj. vjerojatnost da se dogode oba
dogaaja {X = xi } i {Y = yj }:
p(xi , yj ) = P ({X = xi } {Y = yj }) = P {X = xi , Y = yj }.
Uoimo da se distribucije sluajnih varijabli koje ine ovaj sluajni vektor (tj. posebno distribucija od X i distribucija od Y ) mogu takoer dobiti iz tablice distribucije sluajnog vektora zbrajanjem vjerojatnosti u odgovarajuim redovima,
odnosno stupcima. Te distribucije zovemo marginalne distribucije sluajnog
vektora (X, Y ) te ih dodajemo u zajedniku tablicu distribucije kako je prikazano
tablicom 6.10.

x1
x2
..
.
xm
zbroj

y1
p(x1 , y1 )
p(x2 , y1 )
..
.
p(xm , y1 )
pY (y1 )

Y
y2
p(x1 , y2 )
p(x2 , y2 )
..
.
p(xm , y2 )
pY (y2 )

...
...
...
...
...

yn
p(x1 , yn )
p(x2 , yn )
..
.
p(xm , yn )
pY (yn )

zbroj
pX (x1 )
pX (x2 )
..
.
pX (xm )
1

Tablica 6.10: Tablica distribucije diskretnog sluajnog vektora s istaknutim marginalnim distribucijama.

146

Statistiko zakljuivanje dvije varijable

Pri tome smo koristili oznake:


pY (y1 ) = P {Y = y1 }, . . . , pY (yn ) = P {Y = yn }
pX (x1 ) = P {X = x1 }, . . . , pX (xm ) = P {X = xm }.
Kao to je ve navedeno, empirijsku distribuciju diskretnog sluajnog vektora dobijemo tako da elemente zajednike tablice frekvencija dobivene temeljem
nezavisnih mjerenja realizacija sluajnog vektora (X, Y ) podijelimo ukupnim brojem mjerenja N .

Primjer 6.11.
(djeca.sta)
U bazi podataka djeca.sta nalazi se dio podataka o nekim ocjenama novoroeneta, nainu poroda
i majci iz istraivanja koje je provedeno u jednoj bolnici (pogledati zadatak 6.11). Varijabla uzv
sadri jednu ocjenu ultrazvunog pregleda mozga novoroeneta (u skali od 1 do 4), a varijabla
konvulzije informaciju o tome je li novoroene imalo konvulzije (vrijednost D) ili ne (vrijednost
N ). Oznaimo s X sluajnu varijablu kojom modeliramo pojavu konvulzija, a Y sluajnu varijablu
kojom modeliramo ocjenu ultrazvunog pregleda. Empirijska distribucija sluajnog vektora (X, Y )
i empirijske distribucije njegovih margina X i Y prikazane su tablicom na slici 6.8.

Summary Frequency Table (djeca.sta)


Table: konvulzije(2) x uzv(4)
konvulzije
uzv
uzv
uzv
uzv
Row
1
2
3
4
Totals
Count
N
182
12
59
36
289
57.41% 3.79% 18.61% 11.36% 91.17%
Total Percent
D
14
0
9
5
28
Count
4.42% 0.00% 2.84% 1.58% 8.83%
Total Percent
All Grps
196
12
68
41
317
Count
61.83% 3.79% 21.45% 12.93%
Total Percent

Slika 6.8: Empirijska distribucija sluajnog vektora (X, Y ) kojim modeliramo pojavu konvulzija
i ocjenu ultrazvunog nalaza novoroeneta.
Pomou empirijske distribucije 6.8 moemo procijeniti vjerojatnosti realizacija sluajnog vektora
(X, Y ):
procjena vjerojatnosti da su konvulzije bile prisutne i da je ocjena ultrazvuka 1 (tj. P{X=D,
Y=1}) iznosi 0.0442
procjena vjerojatnosti da su konvulzije bile prisutne i da je ocjena ultrazvuka 4 (tj. P{X=D,
Y=4}) iznosi 0.0158
procjena vjerojatnosti da konvulzije nisu bile prisutne i da je ocjena ultrazvuka 4 (tj. P{X=N,
Y=4}) iznosi 0.1136
procjena vjerojatnosti da su konvulzije bile prisutne (tj. P{X=D}) iznosi 0.0883
procjena vjerojatnosti da je ocjena ultrazvuka 4 (tj. P{Y=4}) iznosi 0.1293.

Dvodimenzionalan sluajni vektor

6.2.2

147

Uvjetne distribucije. Nezavisnost

esto se javlja potreba za prouavanjem distribucije jedne komponente sluajnog


vektora ako je poznata realizacija njegove druge komponente. Takve distribucije
nazivamo uvjetnim distribucijama sluajnog vektora.
Teorijske uvjetne distribucije i koncept zavisnosti dviju sluajnih varijabli definirat emo na temelju tablice distribucije 6.10 dvodimenzionalnog sluajnog vektora (X, Y ) koristei princip koji je ilustriran na empirijskoj distribuciji sluajnog vektora. Ako je teorijska distribucija dvodimenzionalnog sluajnog vektora
(X, Y ) dana tablicom distribucije 6.10, tada uvjetne distribucije sluajne varijable Y uz uvjet da se dogodio {X = xi } za one xi R(X) za koje je
P {X = xi } = pX (xi ) 6= 0 dobijemo kao niz brojeva
p{Y |X=xi } (yj ) =

P {X = xi , Y = yj }
p(xi , yj )
=
,
P {X = xi }
pX (xi )

j = 1, . . . , n.

Analogno, za one yj R(Y ) za koje je P {Y = yj } = pY (yj ) 6= 0 dobivamo uvjetne


distribucije od X uz uvjet da se dogodio dodaaj {Y = yj }
p{X|Y =yj } (yj ) =

p(xi , yj )
P {X = xi , Y = yj }
=
,
P {Y = yj }
pY (yj )

i = 1, . . . , m.

Za sluajne varijable X i Y , ija je zajednika distribucija dana tablicom


6.10, kaemo da su nezavisne ako za sve i = 1, . . . , m, j = 1, . . . , n vrijedi
da je
p(xi , yj ) = pX (xi ) pY (yj ),
tj. vjerojatnosti iz distribucije sluajnog vektora mogu se dobiti mnoenjem odgovarajuih vjerojatnosti iz marginalnih distribucija. U suprotnom kaemo da su sluajne varijable X i Y zavisne.
Koncept nezavisnosti sluajnih varijabli X i Y usko je vezan uz uvjetne distribucije,
tj. distribucije uvjetovanih sluajnih varijabli
X|Y = yj ,

yj R(Y ),

j = 1, . . . , , n

Y |X = xi ,

xi R(X),

i = 1, . . . , m.

Naime, ako su sluajne varijable X i Y nezavisne, tada za svaki xi R(X) za koji


je pX (xi ) 6= 0 i za svaki yj R(Y ) vrijedi da je
p{Y |X=xi } (yj ) =

P {X = xi , Y = yj }
=
P {X = xi }

p(xi , yj )
pX (xi ) pY (yj )
=
= pY (yj ).
pX (xi )
pX (xi )
Dakle, ako su X i Y nezavisne, tada vrijedi:
=

148

Statistiko zakljuivanje dvije varijable

- za svaki xi R(X) za koji je pX (xi ) 6= 0 sluajne varijable Y i Y |X = xi imaju


jednake distribucije
- za svaki yj R(Y ) za koji je pY (yj ) 6= 0 sluajne varijable X i X|Y = yj imaju
jednake distribucije.

Primjer 6.12.
(citanje.sta)
Baza podataka citanje.sta sadri rezultate istraivanja o itateljskim navikama stanovnika jednog
grada. Varijabla citanje sadri informaciju o tome proita li ispitanik svaka tri mjeseca barem
jednu knjigu (1 - proita, 0 - ne proita), varijabla spol sadri informaciju o spolu ispitanika (Z
- ena, M - mukarac), a varijabla obrazovanje stupanj obrazovanja svakog ispitanika (NSS - nia
struna sprema, SSS - srednja struna sprema, VSS - visoka struna sprema).
Neka je (X, Y ) sluajni vektor gdje je X sluajna varijabla koja se realizira jedinicom ako stanovnik
tog grada svaka tri mjeseca proita barem jednu knjigu, a inae se realizira nulom, a Y sluajna
varijabla kojom modeliramo strunu spremu stanovnika tog grada (1 - NSS, 2 - SSS, 3 - VSS).
Ako elimo analizirati itateljske navike stanovnika tog grada s obzirom na njihovo obrazovanje,
zapravo trebamo prouavati sluajnu varijablu X uvjetovanu na poznatu (danu) vrijednost sluajne
varijable Y . Tako dolazimo do tablica frekvencija 6.11, 6.12 i 6.13.
X
frekvencija pod uvjetom Y = 1 (NSS)

0
48

1
16

zbroj
64

Tablica 6.11: Tablica frekvencija sluajne varijable X uvjetovane na {Y = 1}.


X
frekvencija pod uvjetom Y = 2 (SSS)

0
426

1
51

zbroj
477

Tablica 6.12: Tablica frekvencija sluajne varijable X uvjetovane na {Y = 2}.


X
frekvencija pod uvjetom Y = 3 (VSS)

0
184

1
19

zbroj
203

Tablica 6.13: Tablica frekvencija sluajne varijable X uvjetovane na {Y = 3}.

Frekvencije iz tablica 6.11, 6.12 i 6.13 moemo interpretirati kao frekvencije realizacija novih
sluajnih varijabli X|Y = 1 (X u uvjetima Y = 1), X|Y = 2 (X u uvjetima Y = 2) i X|Y = 3 (X
u uvjetima Y = 3). Njihove distribucije redom zovemo: uvjetna distribucija od X uz uvjet
da je Y = 1, uvjetna distribucija od X uz uvjet da je Y = 2 i uvjetna distribucija od X
uz uvjet da je Y = 3. Ako se te uvjetne distribucije razlikuju od distribucije sluajne varijable
X, moemo to interpretirati kao injenicu da itateljske navike stanovnika (varijabla X) ovise o
stupnju obrazovanja, tj. to sugerira da su X i Y zavisne sluajne varijable.
Kao to smo ve nauili, u statistici su stvarne distribucije uglavnom nepoznate pa ih treba procijeniti na temelju podataka. Tako je i sa stvarnim uvjetnim distribucijama. U tu svrhu pomou
tablica frekvencija 6.11, 6.12 i 6.13 raunamo empirijske distribucije navedenih uvjetovanih sluajnih varijabli (tablice 6.14, 6.15 i 6.16).

Dvodimenzionalan sluajni vektor


X
relativna frekvencija pod uvjetom Y = 1 (NSS)

149
0
0.75

1
0.25

zbroj
1

Tablica 6.14: Empirijska distribucija sluajne varijable X|Y = 1.


X
relativna frekvencija pod uvjetom Y = 2 (SSS)

0
0.89

1
0.11

zbroj
1

Tablica 6.15: Empirijska distribucija sluajne varijable X|Y = 2.


X
relativna frekvencija pod uvjetom Y = 3 (VSS)

0
0.91

1
0.09

zbroj
1

Tablica 6.16: Empirijska distribucija sluajne varijable X|Y = 3.

Tablica na slici 6.9 sadri empirijsku distribuciju sluajnog vektora (X, Y ) (plavi postoci), njegove
marginalne distribucije (ljubiasti postoci), empirijsku distribuciju sluajne varijable X uvjetovanu
na poznatu vrijednost sluajne varijable Y (crveni postoci u istom redu tablice) te empirijsku
distribuciju sluajne varijable Y uvjetovanu na poznatu vrijednost sluajne varijable X (zeleni
postoci u istom stupcu tablice).

Count
Column Percent
Row Percent
Total Percent
Count
Column Percent
Row Percent
Total Percent
Count
Column Percent
Row Percent
Total Percent
Count
Total Percent

Summary Frequency Table (citanje.sta)


Table: obrazovanje(3) x citanje(2)
obrazovanje citanje citanje Row
0
1
Totals
NSS
48
16
64
7.29% 18.60%
75.00% 25.00%
6.45% 2.15% 8.60%
SSS
426
51
477
64.74% 59.30%
89.31% 10.69%
57.26% 6.85% 64.11%
VSS
184
19
203
27.96% 22.09%
90.64% 9.36%
24.73% 2.55% 27.28%
All Grps
658
86
744
88.44% 11.56%

Slika 6.9: Tablica distribucije sluajnog vektora (X, Y ) iz primjera 6.12, njegove marginalne i
uvjetne distribucije.
Ako pretpostavimo da empirijska distribucija sluajnog vektora (X, Y ) dobro opisuje njegovu
stvarnu distribuciju, moemo procijeniti npr. sljedee vjerojatnosti:
ako biramo meu ispitanicima koji svaka tri mjeseca proitaju barem jednu knjigu, procjena
vjerojatnosti da izaberemo osobu s visokom strunom spremom, tj. vjerojatnosti P {Y =
3|X = 1}, iznosi 0.22

150

Statistiko zakljuivanje dvije varijable

ako biramo meu ispitanicima s niom strunom spremom, procjena vjerojatnosti da izaberemo
osobu koja svaka tri mjeseca proita barem jednu knjigu, tj. vjerojatnosti P {X = 1|Y = 1},
iznosi 0.25.
Analizom tablice 6.9 dolazimo do zakljuka da se odgovarajue empirijske uvjetne i empirijske
marginalne distribucije sluajnog vektora (X, Y ) ne podudaraju pa to moe sugerirati da stupanj
obrazovanja i itateljske navike ispitanika iz populacije koju promatramo nisu nezavisne varijable. Meutim, nezavisnost sluajnih varijabli definirana je na temelju stvarnih, a ne empirijskih
distribucija. Prema tome, zakljuak sugeriran empirijskim distribucijama moe biti pogrean. U
sljedeem poglavlju opisat emo postupak testiranja hipoteze o nezavisnosti dviju sluajnih varijabli
i tako rijeiti nedoumicu koja je ovdje prisutna.

Primjer 6.13.
(citanje.sta)
Ako elimo analizirati itateljske navike s obzirom na spol stanovnika tog grada, tada trebamo
procijeniti distribuciju sluajne varijable X uvjetovane na vrijednost sluajne varijable koja se
realizira jedinicom ako je osoba enskog spola (vrijednost Z varijable spol), a dvojkom ako je osoba
mukog spola (vrijednost M varijable spol). Oznaimo tu sluajnu varijablu sa Z. Empirijske
distribucije uvjetovanih sluajnih varijabli X|Z = 1 i X|Z = 2 dane su u tablici 6.10.

Summary Frequency Table (citanje.STA)


Table: spol(2) x citanje(2)
spol
citanje
citanje
Row
0
1
Totals
Count
Z
313
55
368
85.05% 14.95%
Row Percent
M
345
31
376
Count
91.76%
8.24%
Row Percent
All Grps
658
86
744
Count

Slika 6.10: Empirijske distribucije uvjetovanih sluajnih varijabli X|Z = 1 i X|Z = 2.


Sada moemo procijeniti vjerojatnosti sljedeeg tipa:
ako je sluajno odabrani stanovnik tog grada ena, tada procjena vjerojatnosti da ona svaka tri
mjeseca proita bar jednu knjigu, tj. vjerojatnosti P {X = 1|Z = 1}, iznosi 0.15
ako je sluajno odabrani stanovnik tog grada mukarac, tada procjena vjerojatnosti da on svaka
tri mjeseca proita bar jednu knjigu, tj. vjerojatnosti P {X = 1|Z = 2}, iznosi 0.08.

6.3

Analiza zavisnosti

U prethodnom poglavlju koristili smo podatke dobivene kao realizacije dvodimenzionalnog diskretnog sluajnog vektora te smo uveli pojmove uvjetnih distribucija
sluajnog vektora i zavisnosti sluajnih varijabli. Na temelju podataka odredili smo
empirijsku distribuciju sluajnog vektora (X, Y ), marginalne empirijske distribucije, kao i uvjetne empirijske distribucije koje koristimo za procjenu odgovarajuih

Analiza zavisnosti

151

stvarnih distribucija. Meutim, zavisnost sluajnih varijabli definirana je na temelju pravih, a ne empirijskih distribucija. Prirodno je da procjene odstupaju od
stvarnih distribucija pa se postavlja pitanje kako temeljem prikupljenih podataka
provjeriti jesu li sluajne varijable, koje su margine sluajnog vektora, zavisne ili
ne. U ovom poglavlju opisat emo statistiki test kojim moemo testirati hipotezu
o nezavisnosti sluajnih varijabli.
Da bi test bio jasno prezentiran, prikazat emo zajedniku tablicu frekvencija sluajnog uzorka dvodimenzionalnog sluajnog vektora (X, Y ) tablicom 6.17.

x1
X x2
..
.
xm
zbroj

y1
n(x1 , y1 )
n(x2 , y1 )
..
.
n(xm , y1 )
nY (y1 )

Y
y2
n(x1 , y2 )
n(x2 , y2 )
..
.
n(xm , y2 )
nY (y2 )

...
yn
. . . n(x1 , yn )
. . . n(x2 , yn )
..
.
. . . n(xm , yn )
. . . nY (yn )

zbroj
nX (x1 )
nX (x2 )
..
.
nX (xm )
N

Tablica 6.17: Zajednika tablica frekvencija sluajnog vektora (X, Y ).


Procjenu za teorijsku distribuciju ovog sluajnog vektora dobijemo na temelju zajednike empirijske distribucije, kako je ilustrirano u prethodnom poglavlju, a prikazat
emo je (u skladu s teorijskom distribucijom iz tablice 6.9) tablicom 6.18.

y1
x1 pb(x1 , y1 )
X x2 pb(x2 , y1 )
..
..
.
.
xm pb(xm , y1 )
suma pbY (y1 )

Y
y2
pb(x1 , y2 )
pb(x2 , y2 )
..
.
pb(xm , y2 )
pbY (y2 )

...
yn
. . . pb(x1 , yn )
. . . pb(x2 , yn )
..
.
. . . pb(xm , yn )
. . . pbY (yn )

zbroj
pbX (x1 )
pbX (x2 )
..
.
pbX (xm )
1

Tablica 6.18: Zajednika empirijska distribucija sluajnog vektora (X, Y ).


Uoimo da je stvarna tablica distribucije (tablica 6.9) sluajnog vektora (X, Y ) dana
na analogan nain kao empirijska, samo su pripadne vjerojatnosti oznaene s p bez
"kapice".

152

Statistiko zakljuivanje dvije varijable

Kod dovoljno velikih veliina uzorka, za testiranje nul-hipoteze da su sluajne varijable X i Y nezavisne, tj. nul-hipoteze
H0 :

p(xi , yj ) = pX (xi ) pY (yj ),

i = 1 . . . , m, j = 1, . . . , n,

moemo koristiti 2 test. On se temelji na usporedbi oekivanih frekvencija po


poljima tablice u uvjetima istinitosti nul-hipoteze s frekvencijama koje u tom polju
stvarno imamo na osnovi podataka. Oekivana frekvencija ij-tog polja tablice u
uvjetima istinitosti nul-hipoteze je
Eij = N pbX (xi )b
pY (yj ) =

nX (xi )nY (yj )


,
N

dok je eksperimentalna (utvrena) frekvencija


nij = n(xi , yj ).
Ako su X i Y nezavisne sluajne varijable, test-statistika
2 =

m X
n
X
(nij Eij )2
Eij
i=1 j=1

ima 2 distribuciju s (n 1)(m 1) stupnjeva slobode. Na temelju realizacije


test statistike odreujemo pripadnu p-vrijednost na uobiajeni nain i usporedbom
dobivene p-vrijednosti s nivoom znaajnosti donosimo odluku:
ako je p < , odbacujemo nul-hipotezu i na razini znaajnosti prihvaamo alternativnu hipotezu, tj. kaemo da podaci potvruju postojanje zavisnosti
izmeu varijabli X i Y na nivou znaajnosti
ako je p > , nemamo dovoljno argumenata koji bi poduprli odluku o odbacivanju
nul-hipoteze, tj. kaemo da podaci ne daju potvrdu o postojanju zavisnosti
meu varijablama X i Y .
Veliina uzorka koja je dovoljna za primjenu ovog testa analizirana je detaljno u
statistikoj literaturi i moe se odrediti na nekoliko razliitih naina. Tako npr.
znamo da je uzorak dovoljno velik ako su oekivane frekvencije u svakom polju
tablice frekvencija vee od 5.
Valja napomenuti da zavisnost sluajnih varijabli jo uvijek ne znai i uzronu
vezu. Naime, moe se dogoditi da varijable nisu uzrono povezane, ali imaju neku
zajedniku varijablu koja je s objema u uzronoj vezi (analizirajte u tom kontekstu
primjer 6.10.)

Jednostavna linearna regresija

153

Primjer 6.14.
(citanje.sta)
Sjetimo se primjera 6.12 u kojemu smo govorili o istraivanju italakih navika stanovnika jednog
grada. Analiza tablice na slici 6.9 sugerirala je postojanje zavisnosti izmeu sluajnih varijabli X
(italake navike, varijabla citanje) i Y (struna sprema, varijabla obrazovanje). Ako sa Z oznaimo sluajnu varijablu kojom modeliramo spol, moemo analizirati i zavisnost sluajnih varijabli
X i Z. Tablice na slici 6.11 prikazuju p-vrijednosti provedenih 2 testova.

Statistic
Pearson Chi-square
M-L Chi-square

Chi-square df
p
12.62149 df=2 p=.00182
10.23795 df=2 p=.00598

Statistic
Pearson Chi-square
M-L Chi-square

(a) citanje i obrazovanje

Chi-square df
p
8.168828 df=1 p=.00426
8.258259 df=1 p=.00406

(b) citanje i spol

Slika 6.11: p-vrijednosti 2 testa za testiranje hipoteze o nezavisnosti sluajnih varijabli iz


primjera 6.14.
Kako su u oba sluaja p-vrijednosti manje on zadanog nivoa znaajnosti = 0.05, zakljuujemo
da u oba sluaja odbacujemo nul-hipotezu i na nivou znaajnosti 0.05 prihvaamo alternativnu
hipotezu koja kae da su sluajne varijable X i Y , odnosno X i Z, zavisne. Dakle, na nivou
znaajnosti = 0.05 moemo tvrditi da je sluajna varijabla kojom modeliramo itateljske navike
zavisna o sluajnim varijablama kojima modeliramo spol i strunu spremu.

6.4

Jednostavna linearna regresija

Ako imamo parove podataka iz dvije neprekidne sluajne varijable i elimo zakljuivati o postojanju zavisnosti izmeu njih, metoda iz prethodnog poglavlja nije
prikladna. Naime, da bismo primijenili navedenu metodu, trebali bismo varijable
kategorizirati, a postupak kategorizacije nerijetko moe znaajno utjecati na statistike zakljuke s obzirom da se u tom postupku uvijek gubi dio informacija. Prije
nego to se upustimo u zakljuivanje o zavisnosti izmeu dvije sluajne varijable,
promotrit emo dva prirodna tipa veza meu varijablama.

6.4.1

Deterministika veza

Deterministika veza izmeu dvije varijable jest veza zadana pravilom oblika
y = f (x)
gdje je y zavisna varijabla, x nezavisna varijabla, a f : R R zadana funkcija. Na
primjer, pravilima y = x + 54, y = x2 14x i y = sin (3x) zadane su deterministike
veze meu varijablama x i y jer za svaku doputenu vrijednost nezavisne varijable x

154

Statistiko zakljuivanje dvije varijable

moemo izraunati tonu vrijednost zavisne varijable y. Grafovi ovih triju funkcija
prikazani su na slici 6.12.
y

100

4000

80

3000

60

2000

40

-2

1000

20
-40

y
1

-20

20

40

60

-40

(a) y = x + 54

-20

20

(b) y =

x2

40

60

-1

14x

(c) y = sin (3x)

Slika 6.12: Grafovi jedne linearne funkcije, jednog polinoma drugog stupnja i jedne trigonometrijske funkcije.
Primjer 6.15.
(regresija.sta)
Baza podataka regresija.sta, izmeu ostalih varijabli, sadri simulirane vrijednosti varijable x2,
varijable x3 ije su vrijednosti dobivene dodavanjem broja 54 svakoj vrijednosti varijable x2 (x3
= x2 + 54) i varijable x2kv ije su vrijednosti dobivene pomou pravila x2kv = (x2)2 - 14 x2.
Vidimo da se ovdje radi o deterministikim vezama meu varijablama:
veza izmeu varijabli x2 (nezavisna varijabla) i x3 (zavisna varijabla) je linearna
veza izmeu varijabli x2 (nezavisna varijabla) i x2kv (zavisna varijabla) je polinomijalna drugog
stupnja.
Parovi(x2, x2kv) i (x2, x3) podataka iz baze regresija.sta prikazani su na slici 6.13.

140
120

80

x2kv

x3

100

60
40
20
0
40

20

20
x2

40

(a) x3 = x2 + 54

60

80

4500
4000
3500
3000
2500
2000
1500
1000
500
0
500
40

20

20
x2

40

60

80

(b) x2kv = (x2)2 - 14 x2

Slika 6.13: Parovi podataka (x2, x3) i (x2, x2kv) za sve simulirane vrijednosti varijable x2 iz baze
regresija.sta.

6.4.2

Statistiki model s aditivnom grekom

U statistikim analizama nije realno oekivati deterministike veze. To emo najlake uoiti ako promatramo dijagram rasprenosti podataka (eng. scatter plot)

Jednostavna linearna regresija

155

kojim je dan prikaz ureenih parova podataka iz dviju sluajnih varijabli u koordinatnom sustavu.
Primjer 6.16.
(pozar.sta)
Baza podataka pozar.sta sadrzi podatke o 100 poara na nekom podruju:
varijabla udaljenost sadri udaljenost u kilometrima od mjesta poara do najblieg vatrogasnog
centra
varijabla steta sadri tetu uzrokovanu poarom izraenu u tisuama kuna.
Intuicija nam govori da materijalna teta uzrokovana poarom ovisi o blizini vatrogasnog centra,
tj. da vea udaljenost vatrogasnog centra od mjesta poara sugerira veu tetu. Jezikom matematike to bi znailo da je sugerirana funkcijska veza izmeu udaljenosti mjesta poara od najblieg
vatrogasnog centra i tete nastale poarom rastua. To moemo provjeriti crtajui dijagram rasprenosti vrijednosti varijabli udaljenost i steta (slika 6.14).
16
14

steta

12
10
8
6
4
2
1

2
3
udaljenost

Slika 6.14: Dijagram rasprenosti vrijednosti varijabli udaljenost i steta.


Vidimo da se parovi vrijednosti varijabli udaljenost (neovisna varijabla) i steta (ovisna varijabla)
grupiraju oko pravca koji ima pozitivan koeficijent smjera. To sugerira da bi rastua linearna veza
meu ovim varijablama bila dobar odabir za modeliranje zavisnosti meu ovim varijablama, ali
vidimo da ne moemo odrediti pravac tako da svi podaci lee na njemu. Prirodna je pretpostavka
da se meu ovim varijablama moe uspostaviti funkcijska veza do na neku greku.

Regresijska metoda modeliranja koju emo opisati u ovom poglavlju pretpostavlja


da moemo uspostaviti funkcijsku vezu do na dodanu greku, tj. da e veza izmeu
neovisne varijable x i ovisne sluajne varijable Y (x) biti oblika
Y (x) = f (x) + ,

(6.4)

gdje pretpostavljamo da je sluajna varijabla koja opisuje greku u modeliranju.


Koristei se injenicom da mnogo nezavisnih sluajnih smetnji u pravilu ima normalnu distribuciju, u primjenama se u klasinom nainu modeliranja prihvaa da
je model adekvatan ako je u njemu postignuta normalna distribuiranost greaka ,

156

Statistiko zakljuivanje dvije varijable

uz ostale zahtjeve o kojima e biti rijei u ovom poglavlju. Primjer 6.17 uvodi nas
u problematiku ovakvog modeliranja.
Primjer 6.17. Iz medicinskih istraivanja poznato je da krvni tlak ovjeka ima tendenciju porasta
s porastom dobi. Htjeli bismo, temeljem prikupljenih podataka, argumentirati tu injenicu te
modelirati vezu izmeu krvnog tlaka i dobi. U tu svrhu oznaimo s x dob ispitanika, a s Y (x)
sluajnu varijablu kojom modeliramo krvni tlak za dob x. Krvni tlak za osobu dobi x moramo
modelirati kao sluajnu varijablu s obzirom da je prirodno da osobe iste dobi nemaju i isti krvni
tlak. Pretpostavimo da krvni tlak u populaciji za dob x, moemo modelirati kao normalnu sluajnu
varijablu s oekivanjem (x) i varijancom 2 . Na taj nain svakoj dobi x pripada odgovarajua
normalna razdioba N ((x), 2 ) krvnog tlaka Y (x). injenica da se starenjem poveava krvni tlak
trebala bi se odraziti na funkciju x 7 (x) koja dobi pridruuje oekivanu vrijednost krvnog tlaka
u toj dobi. Ova bi funkcija, prema oekivanjima, trebala biti rastua.

Dakle, cilj je na temelju sparenih mjerenja (x1 , y1 ), . . . , (xn , yn ) dvaju obiljeja ustanoviti prirodu ovisnosti sluajnih varijabli Y1 , . . . Yn (ije su realizacije realni brojevi
y1 , . . . yn ) o neovisnoj varijabli x (ije su izmjerene vrijednosti x1 , . . . xn ). Ako je
matematiki model oblika
Yi = f (xi ) + i ,

i = 1, . . . , n,

gdje je t 7 f (t) realna funkcija jedne realne varijable, a 1 , . . . , n meusobno


nezavisne sluajne varijable t.d. je E i = 0 i Var(i ) = 2 , onda govorimo o
regresijskom modelu.
Prvi korak u uspostavljanju ovakvih veza meu varijablama Y i x prikaz je podataka u dijagramu rasprenosti iz kojeg se lako vidi grupiraju li se sparena mjerenja
oko pravca (linearna zavisnost) ili neke krivulje (neka druga funkcijska zavisnost polinomijalna (n 2), logaritamska, . . . ).

6.4.3

Regresijski pravac

Pretpostavimo da je graf funkcije f (x) u modelu 6.4 pravac. To znai da f (x)


moemo algebarski prikazati formulom f (x) = + x. Slobodni koeficijent zove
se odsjeak na y-osi, a koeficijent uz neovisnu varijablu x zove se koeficijent smjera
i vaan je iz sljedeeg razloga:
ako je < 0 funkcija f (x) = + x je padajua
ako je > 0 funkcija f (x) = + x je rastua.
U kontekstu ovog statistikog modela graf funkcije f (x) = + x nazivamo regresijskim pravcem, a koeficijente i regresijskim parametrima.

Jednostavna linearna regresija

6.4.4

157

Statistiki model

Linearni regresijski model moe se zapisati u obliku


Yi = + xi + i ,

i = 1, . . . , n.

Ovdje su:
x1 , x2 , . . . , xn vrijednosti varijable x koje je analitiar izabrao/izmjerio u svrhu
studije.
Y1 , Y2 . . . , Yn sluajne varijable (njihove izmjerene vrijednosti su y1 , . . . , yn ).
1 , . . . , n predstavljaju varijable greke koja je dodana na linearnu vezu ( +
xi ). Ovo su nemjerljive sluajne varijable za koje pretpostavljamo da
su meusobno nezavisne i da sve imaju normalnu distribuciju s oekivanjem
0 i istom varijancom 2 .
i su nepoznati parametri linearne veze koje treba odrediti u postupku modeliranja, tj. procijeniti. To zapravo znai da trebamo procijeniti regresijski
pravac y = + x.

6.4.5

Metoda najmanjih kvadrata

Problem procjene nepoznatih parametara i moemo identificirati s procjenom


nepoznatog regresijskog pravca y = + x. Pretpostavimo da je u dijagramu
rasprenosti dodan graf pravca y = + x (slika 6.15).
Za svaku izmjerenu vrijednost xi moemo odrediti broj yi0 = + xi koji odgovara
vrijednosti oekivanja ovisne varijable u xi . Taj broj zovemo teorijska vrijednost
ovisne varijable u xi (eng. predicted value). Izmjerena ili eksperimentalna vrijednost
ovisne varijable u xi (eng. observed value) je yi . Ona se u pravilu razlikuje od
teorijske vrijednosti pa toke (xi , yi ), i = 1, . . . , n, uglavnom ne lee na regresijskom
pravcu.
Da bi model bio dobar, trebale bi razlike meu izmjerenim i teorijskim vrijednosti
ovisne varijable, tj. razlika izmeu yi i ( + xi ) biti to manje. U skladu s tom idejom regresijske parametre i standardno procjenjujemo metodom najmanjih
kvadrata.

158

Statistiko zakljuivanje dvije varijable


y

yi

y = + x

yi0 = + xi

xi

Slika 6.15: Regresijski pravac y = + x.

Ideja metode najmanjih kvadrata je minimizacija sume kvadrata odstupanja teorijskih od eksperimentalnih vrijednosti, tj. procjene
b i b regresijskih parametara i
trebamo odrediti tako da vrijedi:
b =
D(b
, )
=

n 
X

X
(eksperimentalne vrijednosti teorijske vrijednosti)2 =

b i)
yi (b
+ x

i=1

2

min

(,)R2

n
X

(yi ( + xi )) =

i=1

min

(,)R2

D(, ).

b D(b
b prima minimalnu vrijedDakle, i biramo tako da za vrijednosti
b i ,
, )
nost koju moe postii po svim moguim vrijednostima (, ). Takve procjene
b i b
nazivamo procjenama u smislu metode najmanjih kvadrata (eng. least square estimates) regresijskih parametara i . Jasno je da je u tom smislu procjena
b
nepoznatog regresijskog pravca y = + x upravo pravac yb =
b + x.
Za zapis procjena
b i b parametara i potrebne su sljedee veliine:
n

1X
xi ,
xn =
n i=1
s2x =

n
X
(xi xn )2 ,
i=1

s2y =

n
X
(yi y n )2 ,
i=1

1X
yi ,
yn =
n i=1
sxy =

n
X
(xi xn )(yi y n ).
i=1

Koritenjem tih veliina procjene za nepoznate regresijske parametre i u smislu


najmanjih kvadrata su:

Jednostavna linearna regresija

159

sxy
b = 2 ,
sx

b = y n b xn ,

tj. regresijski pravac y = + x procjenjujemo pravcem


b
yb =
b + x
koji emo zvati procjena regresijskog pravca.
b za
Uoimo da, koristei formulu procijenjenog regresijskog pravca yb =
b + x,
svaku vrijednost x moemo izraunati pripadnu procjenu teorijske vrijednosti, tj.
vrijednost yb. Te vrijednosti zovemo predikcije. To znai da za svaku vrijednost
xi nezavisne varijable moemo izraunati iznos odstupanja procijenjene teorijske
vrijednosti ybi od izmjerene vrijednosti yi ovisne varijable:
b i ).
ei = yi ybi = yi (b
+ x
Tako dobivene vrijednosti ei , . . . , en zovemo rezidualima i moemo ih smatrati
procjenama greaka 1 , . . . , n iz modela Yi = + xi + i . Suma kvadrata svih
b i predstavlja
reziduala upravo je minimalna postignuta vrijednost za D, tj. D(b
, ),
1
jednu mjeru kvalitete modela koju oznaavamo SSE :
SSE =

n
X

e2i .

i=1

Primjer 6.18.
(pozar.sta)
U primjeru 6.16 analizom dijagrama rasprenosti 6.14 zakljuili smo da se parovi vrijednosti
varijabli udaljenost i steta grupiraju oko pravca. Metodom najmanjih kvadrata moemo odrediti
jednadbu tog pravca: y = 4.9275 + 2.0224x.
Promotrimo prvi redak baze podataka pozar.sta. U njemu je zabiljeena vrijednost x1 = 1.27
varijable udaljenost i odgovarajua vrijednost varijable steta y1 = 7.54. Pomou procjene regresijskog pravca sada lako moemo izraunati predikciju ovisne varijable koja odgovara vrijednosti
x1 = 1.27:
b 1 = 2.0224 1.27 + 4.9275 = 7.496.
yb1 =
b + x
Odgovarajui rezidual tada iznosi
b 1 ) = 7.54 (2.0224 1.27 + 4.9275) = 0.044.
e1 = y1 (b
+ x
Reziduale za sve parove (xi , yi ) eksperimenatlnih vrijednosti moemo dobiti u programskom paketu
Statistica (slika 6.16).

1 SSE

je kratica za sum of squares of errors.

160

Statistiko zakljuivanje dvije varijable


Observed, Predicted, and Residual Values

steta
steta
steta
Predicted
Resids
Case number Observed
1
7,54138
7,49736
0,04402
2
9,53428
9,84628
-0,31200
3
10,44098
11,39049
-0,94951
4
9,61824
10,19044
-0,57220
5
6,36490
6,62169
-0,25679
6
11,13802
10,72266
0,41536
7
7,34543
7,42164
-0,07621
8
6,03117
6,75742
-0,72625
9
12,18975
12,33009
-0,14034
10
10,56394
10,82848
-0,26454
11
9,69733
9,58729
0,11004
12
8,22445
8,25901
-0,03457
13
10,51543
10,27136
0,24407
Slika 6.16: Tablica14nekoliko prvih 11,18414
reziduala za varijablu
iz baze podataka pozar.sta.
10,70682 steta0,47731
15
9,48544
8,80569
0,67975
16
10,27078
9,51090
0,75988
17
10,62041
9,71867
0,90174
18
7,74517
7,27790
0,46726
19
10,01676
9,44250
0,57425
20
9,71209
9,72402
-0,01194
Da bismo mogli koristiti ovako dobiven model potrebno je prvo napraviti analizu
21
9,70876
9,09609
0,61267
prihvatljivosti modela
li ispunjene
osnovne pretpostavke
22 kojom istraujemo
11,28620 jesu
11,55389
-0,26769
23
11,36485
11,34583
0,01902
klasinog regresijskog
modela. Sjetimo
se, greke
modela
trebaju biti meusobno
24
6,02905
6,12469
-0,09564
8,75672 varijable
8,60748
0,14923 distribucijom. Dio
nezavisne i jednako 25
distribuirane sluajne
s normalnom
26
8,66642
8,13166
0,53476
analize modela koji27
se provodi u tu7,00702
svrhu obino
se naziva
analiza reziduala.
6,94694
0,06008
28
11,17078
9,78567
1,38510
29
12,03413
10,80427
1,22986
Analiza reziduala30
10,80082
9,45292
1,34789
31
13,29692
11,84669
1,45023
Detaljna analiza reziduala
sloen je8,68915
postupak 7,02338
koji prelazi1,66577
okvire ove knjige. Za po32
33
10,75398
9,96534
0,78864
trebe osnovne statistike analize ovdje navodimo samo nekoliko vizualnih provjera
34
6,55009
6,26171
0,28837
reziduala na temelju35kojih se moe7,52178
naslutiti da7,03401
postoji sumnja
0,48777 u istinitost pretpos36
11,14245
10,49984
0,64261
tavki modela, to automatski znai da je takav model neprihvatljiv
za bilo kakvu
37
9,65339
9,42647
0,22692
daljnu interpretaciju38ili koritenje.12,02257
12,11305
-0,09048
8,88676
8,36640
0,52036
Prva pretpostavka 39
koju
greke
modela

,
.
.
.

trebaju
ispunjavati jest pretposn
40
12,33846 1 11,60051
0,73794
6,71265zakljuujemo
5,74650 na0,96615
tavka o jednakosti 41
varijanci. O tome
temelju procjena greaka
42
10,38281
10,12102
0,26179
modela, tj. na temelju
reziduala
e
,
.
.
.
,
e
.
Zbog
toga
se
umjesto o zakljuivanju
1
n 10,73375
43
10,98514
0,25139
44 greaka esto
7,78689
-0,20347
o jednakosti varijanci
govori o 7,99036
analizi homogenosti
reziduala. Gra45
10,41312
10,57406
-0,16093
fiki prikaz reziduala
predikcijama,
tj. dijagram
46 u ovisnosti o 6,98898
7,25668
-0,26770rasprenosti za toke
8,83598
-0,35075
(b
yi , ei ), i = 1, . . . , n,47moe pomoi 8,48523
kod uoavanja
nehomogenosti
reziduala. Ako u
48
7,68529
7,51621
0,16908
tom dijagramu uoavamo
sustavno7,98252
poveanje7,70226
ili smanjenje
rasprenosti vezano uz
49
0,28026

6.4.6

Statistiko zakljuivanje

vrijednosti yb, to je znak da varijance nisu homogene. Nekoliko ilustrativnih primjera


dano je slikama 6.17 i 6.18.

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

Jednostavna linearna regresija

161

yb

Slika 6.17: Parovi (b


yi , ei ) koji sugeriraju homogenost varijanci reziduala.

yb

Slika 6.18: Ovakav raspored parova (b


yi , ei ) sugerira stalan rast varijance, dakle varijance nisu homogene.

Druga pretpostavka koja se tie greaka jest pretpostavka da su sluajne varijable 1 , . . . n normalno distribuirane s oekivanjem 0 i varijancom 2 . Normalnost distribucije greaka moemo provjeriti provoenjem Kolmogorov-Smirnovljeva
i Shapiro-Wilkova testa na rezidualima e1 , . . . en te grafiki (analizom stupastog
dijagrama reziduala).
Trea pretpostavka koja se tie sluajnih varijabli greaka modela jest pretpostavka
o njihovoj nezavisnosti. Zavisnost greaka moe se manifestirati na razne naine.
Ovdje navodimo samo dva primjera u kojima je oigledno da treba sumnjati u nezavisnost reziduala, a problem se moe uoiti pomou prikladno izabranog dijagrama
rasprenosti.
Prvi sluaj odnosi se na strukturu podataka u dijagramu rasprenosti reziduala u
odnosu na vrijednosti neovisne varijable. Slikom 6.19 prikazan je jedan takav sluaj.
Uoavamo niz pozitivnih reziduala nakon ega slijedi niz negativnih reziduala, zatim
neto dui niz pozitivnih reziduala, itd.

162

Statistiko zakljuivanje dvije varijable


ei

xi

Slika 6.19: Ovakav raspored parova (xi , ei ) sugerira meusobnu zavisnost greaka modela.

Drugi sluaj odnosi se na strukturu podataka u dijagramu rasprenosti parova susjednih reziduala. Pretpostavimo da su podaci numerirani tako da je x1 < x2 <
. . . < xn . Slikom 6.20 prikazan je jedan dijagram rasprenosti susjednih reziduala,
tj. parova (ei , ei1 ), i = 2, . . . , n. Ovakav dijagram jasno sugerira negativnu vezu
izmeu susjednih greaka modela.
ei1

ei

Slika 6.20: Ovakav raspored parova (ei , ei1 ) sugerira meusobnu zavisnost greaka modela .

Ako nemamo razloga sumnjati u ispravnost pretpostavki modela, moemo ga koristiti za zakljuivanje o vezi izmeu neovisne i ovisne varijable. Pri tome su za
primjene posebno zanimljivi odgovori na pitanja je li koeficijent smjera pravca razliit od nule te koliki je udio varijablinosti ovisne varijable objanjen modelom, a
koliko je dio ostao neobjanjen.

Jednostavna linearna regresija

163

Zakljuivanje o koeficijentu smjera regresijskog pravca


U ovom nas sluaju najvie zanima je li model Yi = + xi + i bolji od nulmodela Yi = + i , tj. modela u kojemu je = 0. Potrebno je utvrditi koji
od navedena dva modela bolje opisuje promjene u oekivanju sluajnih varijabli
Yi u ovisnosti o vrijednostima xi . Naime, ako je = 0, takav regresijski pravac
bio bi paralelan s x-osi pa promjena vrijednosti neovisne varijable ne bi rezultirala
promjenom oekivanja ovisne varijable. U svrhu analize moemo koristiti statistiki
test ije su hipoteze
H0 : = 0,
H1 : > 0,

odnosno H1 : < 0,

ovisno o tome je li procjena b nepoznatog parametra pozitivna ili negativna. Ovaj


se test temelji na test-statistici iju vrijednost t za eksperimentalne vrijednosti xi i
yi raunamo formulom
sx b
n 1,
t =
s
gdje je
v
sP
r
u
n
n
2
u 1 X
SSE
i=1 ei
sx = t
(xi xn )2 , s =
=
,
(6.5)
n 1 i=1
n2
n2
a b procjena regresijskog koeficijenta metodom najmanjih kvadrata. Ako je nulhipoteza istinita, test-statistika ima Studentovu distribuciju s (n 2) stupnja slobode. Na temelju realizacije t test statistike raunamo pripadnu p-vrijednost na
sljedei nain:
p = P {T t} ako je alternativna hipoteza oblika H1 : > 0
p = P {T t} ako je alternativna hipoteza oblika H1 : < 0.
Ovdje je T sluajna varijabla koja ima Studentovu distribuciju s (n 2) stupnja
slobode. Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti i donosimo odluku kako slijedi:
ako je p < , odbacujemo nul-hipotezu i na razini znaajnosti prihvaamo alternativnu hipotezu, tj. podaci potvruju da se promjene u vrijednosti nezavisne
varijable odraavaju na promjene u oekivanju zavisne varijable na nivou znaajnosti
ako je p > , nemamo dovoljno argumenata tvrditi da se promjene u vrijednosti
nezavisne varijable odraavaju na promjene u oekivanju zavisne varijable na
nivou znaajnosti .

164

Statistiko zakljuivanje dvije varijable

Dio varijablinosti objanjen modelom


Ovdje se bavimo pitanjem koliki je dio promjena u eksperimentalnim vrijednostima
ovisne varijable objanjen dobivenim modelom. U tu svrhu moemo koristiti broj
koji se zove koeficijent determinacije.
On se standardno oznaava s R2 i definiran je izrazom
R2 =

s2xy
,
s2x s2y

R2 [0, 1].

Koeficijent determinacije R2 daje nam informaciju o tome u kolikoj mjeri je rasipanje eksperimentalnih vrijednosti ovisne varijable objanjeno linearnom funkcijom
x 7 +x, a u kolikoj se mjeri radi o tzv. rezidualnom ili neobjanjenom rasipanju
(tu informaciju oitavamo iz broja (1 R2 )).
Velika vrijednost koeficijenta determinacije (sluaj kada je R2 blizu 1) ukazuje na
to da linearan model objanjava velik dio rasprenosti u eksperimentalnim vrijednostima ovisne varijable, tj. da je samo mali dio ostao neobjanjen modelom i treba
ga pripisati sluajnoj greci. Modeli kod kojih je R2 mali nisu informativni za opis
varijable Y koritenjem vrijednosti neovisne varijable x jer opisuju samo mali dio
varijablnosti u podacima iz Y , dok je veliki dio ostao neobjanjen modelom.
Primjer 6.19.
(automobili.sta)
Varijabla potrosnja baze podataka automobili.sta sadri podatke o potronji goriva novog modela
automobila pri brzini od 110 km/h za 300 nezavisnih mjerenja, dok varijabla mjerenje sadri
vrijednosti nekog parametra izmjerenog na tehnikom pregledu tog automobila nakon svake od tih
vonji, a za kojeg se pretpostavlja da bi kod tehniki ispravnog automobila trebao biti linearno
povezan s prosjenom potronjom automobila pri velikim brzinama.
Stoga emo izraditi linearan regresijski model u kojemu je varijabla potrosnja neovisna varijabla,
a varijabla mjerenje ovisna varijabla te ispitati njegovu prikladnost za modeliranje veze izmeu
spomenutih varijabli. Za poetak, promotrimo dijagram rasprenosti vrijednosti varijabli potrosnja
i mjerenje (slika 6.21).
Sa slike 6.21 vidimo da se parovi vrijednosti varijabli potrosnja i mjerenje grupiraju oko regresijskog
pravca y = 2.138 x + 2.3488. Cilj je ovog primjera provjeriti je li linearan regresijski model
Y = 2.138 x + 2.3488 +

(6.6)

dobar izbor za opisivanje ovisnosti vrijednosti varijable mjerenje o potronji goriva u opisanim
uvjetima. U tu svrhu ispitajmo detaljnije svojstva tog modela.

Jednostavna linearna regresija

165

mjerenje

y=2.138x + 2.3488
22
20
18
16
14
12
10
8
6
2

5
6
potrosnja

Slika 6.21: Dijagram rasprenosti vrijednosti varijabli potrosnja i mjerenje.

Analiza reziduala - homogenost varijanci greaka 1 , . . . , n


O homogenosti varijanci reziduala zakljuujemo analizom grafikog prikaza 6.22 na kojem su
prikazani parovi (b
yi , ei ) prediktiranih vrijednosti ovisne varijable i pripadnih reziduala.
4

Raw Residuals

3
2
1

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

0
-1
-2
-3
-4
6

10

12 14 16 18
Predicted Values

20

22

Slika 6.22: Analiza homogenosti varijanci reziduala u modelu 6.6.

Grafiki prikaz 6.22 sugerira homogenost varijanci reziduala.

Analiza reziduala - nezavisnost greaka 1 , . . . , n


O nezavisnosti greaka zakljuujemo na temelju dijagrama rasprenosti 6.23 reziduala u odnosu na
vrijednosti neovisne varijable i dijagrama rasprenja 6.24 susjednih reziduala, tj. parova (ei , ei1 ),
i = 2, . . . , 300.
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

166

Statistiko zakljuivanje dvije varijable

reziduali=1.0025E^{-15}-1.2001E^{-15} x
3

reziduali

2
1
0
-1
-2
-3
2

5
6
potrosnja

Slika 6.23: Dijagrama rasprenosti reziduala u odnosu na vrijednosti nezavisne varijable u modelu
6.6.

ei-1 = 0.0059 ei + 0.001


3
2
ei-1

1
0
-1

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

-2
-3
-3

-2

-1

0
ei

Slika 6.24: Dijagram rasprenosti susjednih reziduala u modelu 6.6.

Dijagrami rasprenosti 6.23 i 6.24 sugeriraju nezavisnost greaka 1 , . . . , n .

Analiza reziduala - normalnost greaka 1 , . . . , n


Provoenjem Kolmogorov-Smirnovljeva i Shapiro-Wilksova testa za normalnost slijedi da su pripadne p-vrijednosti (vidi sliku 6.25) u oba sluaja vee od nivoa znaajnosti = 0.05. Dakle,
nemamo dovoljno argumenata da bismo odbacili hipotezu o normalnosti greaka 1 , . . . , n .
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

frekvencije

Jednostavna linearna regresija

167

K-S d=,02674, p> .20; Lilliefors p> .20


Shapiro-Wilk W=,99579, p=,60100
140
120
100
80
60
40
20
0
-4 -3 -2 -1
0
1
2
reziduali

Slika 6.25: Analiza normalnosti greaka u modelu 6.6.

O varijablinosti objanjenoj modelom


Iznos koeficijenta determinacije R2 u programskom paketu Statistica dobivamo u sastavu tablice
6.26.

Dependent Multiple Multiple


R
R2
Variable
mjerenje 0,903208 0,815784
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

Slika 6.26: Koeficijent determinacije linearnog regresijskog modela 6.6.

Iz tablice 6.26 vidimo da je R2 0.816. To znai da je priblino 81.6% rasipanja eksperimentalnih vrijednosti yi oko procjene regresijskog pravca objanjeno linearnim regresijskim modelom, a
ostatak od 19.4% rasipanja modelom je nebjanjeno (tzv. rezidualno) rasipanje.

O koeficijentu smjera pravca


Ovom analizom donosimo odluku o tome opisuje li model 6.6 vezu izmeu potronje automobila
pri velikim brzinama i vrijednosti promatranog parametra bolje od nul-modela, tj. modela u kojem
je = 0. Budui da je b > 0, problem se svodi na provoenje statistikog testa ije su hipoteze
H0 : = 0,

H1 : > 0,

a pripadna test-statistika T u uvjetima istinitosti nul-hipoteze ima Studentovu T distribuciju s


(n 2) stupnja slobode. Vrijednost t test statistike T moemo izraunati pomou formule 6.4.6.
Pripadnu p-vrijednost p = P {t t} tada raunamo u kalkulatoru vjerojatnosti i usporeujemo ga
sa zadanim nivoom znaajnosti , npr. = 0.05. Vrijednost t i pripadnu p-vrijednost moemo
dobiti i u proramskom paketu Statistica (tablica na slici 6.27).

168

Statistiko zakljuivanje dvije varijable

Effect
Intercept
potrosnja

mjerenje mjerenje mjerenje mjerenje


Param.
Std.Err
t
p
2,348824 0,306415 7,66549 0,000000
2,137996 0,058854 36,32725 0,000000

Slika 6.27: Vrijednost t test statistike i pripadna p-vrijednost t-testa za adekvatnost modela 6.6.
Budui da je p 0, pa je manji od zadanog nivoa znaajnosti , slijedi da odbacujemo nulhipotezu na razini znaajnosti i prihvaamo alternativnu hipotezu koja kae da je model 6.6
bolji od nul-modela.
Na temelju provedene analize reziduala, zakljuivanja o koeficijentu smjera regresijskog pravca i
koeficijenta determinacije zakljuujemo da je linearan regresijski model dobar izbor za opisivanje
zavisnosti izmeu potronje goriva novog modela automobila pri velikim brzinama i vrijednosti
promatranog parametra izmjerenog na tehnikom pregledu.

Primjer 6.20.
(pozar.sta)
U primjeru 6.18 procijenili smo regresijski pravac izmeu varijabli udaljenost i steta. Cilj je ovog
primjera provjeriti je li linearan regresijski model
Y = 2.0224 x + 4.9275 +

(6.7)

dobar izbor za opisivanje zavisnosti tete prouzroene poarom o udaljenosti mjesta poara do
najblieg vatrogasnog centra. U tu svrhu napravimo za model 6.7 analizu reziduala.
Analiza reziduala - homogenost varijanci greaka 1 , . . . , n
O homogenosti varijanci reziduala zakljuujemo analizom grafikog prikaza 6.28 na kojem su prikazani parovi (b
yi , ei ) prediktiranih vrijednosti ovisne varijable i pripadnih reziduala.

Raw Residuals

2,5
1,5
0,5
-0,5
-1,5
-2,5
-3,5
4

8
10 12 14
Predicted Values

16

18

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

Slika 6.28: Analiza homogenosti varijanci reziduala u modelu 6.7.

Grafiki prikaz 6.28 sugerira homogenost varijanci reziduala.

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

Koeficijent korelacije

169

Analiza reziduala - nezavisnost greaka 1 , . . . , n

O nezavisnosti greaka zakljuujemo na temelju dijagrama rasprenosti 6.29 reziduala u odnosu


na vrijednosti nezavisne varijable i dijagrama rasprenja 6.30 susjednih reziduala, tj. parova
(ei , ei1 ), i = 2, . . . , 100.
reziduali = 1.5234e-15 udaljenost - 3.0864e-15
3

reziduali

-1

-2

-3
-1

udaljenost

Slika 6.29: Dijagram rasprenosti reziduala u odnosu na vrijednosti nezavisne varijable u modelu
6.7.

ei-1 = 0.702 ei + 0.0012


3
2
ei-1

1
0
-1
You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

-2
-3
-3

-2

-1

0
ei

Slika 6.30: Dijagram rasprenosti susjednih reziduala u modelu 6.7.

Dijagram rasprenosti 6.30 ne sugerira nezavisnost greaka 1 , . . . , n .

Na temelju provedene analize reziduala zakljuujemo da linearan regresijski model nije dobar izbor za opisivanje zavisnosti tete prouzroene poarom o udaljenosti mjesta poara do najblieg
vatrogasnog centra.

You created this PDF from an application that is not licensed to print to novaPDF printer (http://www.novapdf.com)

170

6.5

Statistiko zakljuivanje dvije varijable

Koeficijent korelacije

Koeficijent korelacije jedna je numerika karakteristika dvodimenzionalnog sluajnog vektora koja moe posluiti za analizu zavisnosti meu njegovim komponentama.
Neka je (X, Y ) dvodimenzionalan sluajni vektor kojemu svaka komponenta ima varijancu. Koeficijent korelacije je broj definiran izrazom:
XY =

E(X )(Y )
,
X Y

gdje su

= EX,

= EY,

X =

V ar X,

Y =

V ar Y .

O koeficijentu korelacije valja znati sljedee injenice:


- XY [1, 1]
- ako su X i Y nezavisne sluajne varijable tada je XY = 0
- Y = aX + b, gdje je a > 0, onda i samo onda ako je XY = 1
- Y = aX + b, gdje je a < 0, onda i samo onda ako je XY = 1.
Ako je XY = 0, kaemo da su sluajne varijable X i Y nekorelirane.
Navedena svojstva koeficijenta korelacije upuuju na injenicu da zavisnost izmeu
sluajnih varijabli X i Y moemo potvrditi ako pokaemo da je njihov koeficijent
korelacije razliit od 0. Osim toga, ako je koeficijent korelacije 1 ili -1, onda znamo
i tip veze izmeu X i Y , tj. u tim sluajevima ta je veza linearna.
Za procjenu koeficijenta korelacije moemo koristiti nekoliko procjenitelja. Ovdje
emo spomenuti samo procjenitelja koji se zove Pearsonov korelacijski koeficijent i
koristi se kod neprekidnih sluajnih varijabli. Ako su (x1 , y1 ), . . . , (xn , yn ) parovi
nezavisnih realizacija sluajnog vektora (X, Y ), onda se iznos Pearsonova korelacijskog koeficijenta rauna pomou izraza
n
P

(xi xn )(yi y n )
s
.
r= s
n
n
P
P
2
2
(xi xn )
(yi y n )
i=1

i=1

i=1

Koeficijent korelacije

171

Ako usporedimo izraz za Pearsonov korelacijski koeficijent r s izrazima navedenim


u poglavlju o linearnoj regresiji, moemo uoiti da je r2 jednak koeficijentu determinacije za koji je reeno da mjeri jakost linearne veze izmeu varijabli u linearnom
regresijskom modelu.
Da bismo koritenjem procjene koeficijenta korelacije potvrdili zavisnost sluajnih
varijabli, potrebno je odbaciti statistiku hipotezu
H0 : XY = 0.
Ovdje navodimo jedan od testova koji se moe koristiti u tu svrhu. On je kreiran
pod pretpostavkom normalnosti distribucije sluajnog vektora (X, Y ) koritenjem
Pearsonova korelacijskog koeficijenta. Za testiranje navedene nul-hipoteze raunamo
vrijednost test statistike po formuli:

n 2r

t=
.
1 r2
Ako je nul-hipoteza istinita, statistika kojoj smo tako izraunali realizaciju ima
Studentovu distribuciju s (n 1) stupnjeva slobode. Oznaimo li s T sluajnu
varijablu koja ima Studentovu distribuciju s (n 1) stupnjeva slobode, pripadnu
p-vrijednost odreujemo na uobiajeni nain:
p = P {T t} ako je alternativna hipoteza oblika H1 : XY > 0
p = P {T t} ako je alternativna hipoteza oblika H1 : XY < 0.
Tako izraunatu p-vrijednost usporeujemo s nivoom znaajnosti i donosimo odluku:
ako je p < , odbacujemo nul-hipotezu i na razini znaajnosti prihvaamo alternativnu hipotezu, tj. kaemo da su sluajne varijable X i Y zavisne
ako je p > , nemamo dovoljno argumenata koji bi poduprli odluku o odbacivanju
nul-hipoteze, tj. kaemo da nemamo dovoljno argumenata tvrditi da su X i
Y zavisne varijable.

Primjer 6.21.
(pozar.sta)
Vratimo se primjeru 6.16. Oznaimo s X sluajnu varijablu kojom modeliramo udaljenost mjesta
poara do najblieg vatrogasnog centra, a Y sluajnu varijablu kojom modeliramo tetu nastalu
poarom. Budui da ne znamo stvarne distribucije sluajnih varijabli X i Y , ne moemo izraunati
koeficijent korelacije XY . No na temelju podataka sadranih u bazi pozar.sta moemo, koristei

172

Statistiko zakljuivanje dvije varijable

Pearsonov korelacijski koeficijent, procijeniti koeficijent korelacije sluajnih varijabli X i Y . U


tablici na slici 6.31 prikazane su procjene oekivanja i varijanci sluajnih varijabli X i Y , njihov
koeficijent korelacije te vrijednost test statistike i pripadna p-vrijednost statistikog testa kojim se
testira hipoteza
H0 : XY = 0.

Correlations (pozar.sta)
Marked correlations are significant at p < .05000
Mean
Std.Dv.
r(X,Y)
r2
t
p
Var. X &
Var. Y
udaljenost 2.080108 0.956215
9.134346 2.058874 0.939286 0.882257 60.47009 0.00
steta

Slika 6.31: Procjena koeficijenta korelacije sluajnih varijabli X i Y iz primjera 6.21.

Procjena koeficijenta korelacije XY je


r 0.94 > 0.
p-vrijednost testa kojim se testira hipoteza o nekoreliranosti sluajnih varijabli X i Y manja je
od 0.01 pa to znai da odbacujemo hipotezu o nekoreliranosti sluajnih varijabli X i Y i na nivou
znaajnosti = 0.01 prihvaamo alternativnu hipotezu koja kae da su X i Y zavisne varijable.
Uoimo da se u tablici nalazi i vrijednost kvadrata procjene koeficijenta korealcije (oznaka r2) to je upravo koeficijent determinacije R2 .

6.6

Zadaci

Zadatak 6.1. Moete li u sljedeim zadacima na nivou znaajnosti = 0.05 potvrditi da su


varijance 12 i 22 razliite (varijance su procijenjene s s2n1 i s2n2 )?
a) sn1 = 1989, n1 = 50, sn2 = 1843, n2 = 30, = 0.05.
b) sn1 = 250, n1 = 20, sn2 = 300, n2 = 16, = 0.05.
Rjeenje. U oba zadatka nemamo dovoljno argumenata koji bi poduprli odluku o odbacivanju nulhipoteze da su varijance jednake pa ne moemo potvrditi da su varijance razliite.

Zadatak 6.2. Ekonomisti u nekoj zemlji odluili su provjeriti jesu li oekivane cijene u eurima
uvoznih automobila vie u njihovoj zemlji nego u matinoj zemlji odreenog proizvoaa. Prikupljen je uzorak od 50 cijena u promatranoj zemlji i 30 cijena u matinoj zemlji za isto razdoblje.
Na temelju tih uzoraka procijenjena oekivanja i standardne devijacije sluajnih varijabli kojima
se modelira cijena tog tipa automobila su:
promatrana zemlja
matina zemlja proizvoaa

n1 = 50, xn1 = 16545, sn1 = 1989


n2 = 30, xn2 = 17243, sn2 = 1843.

Zadaci

173

Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanim cijenama


automobila?
Rjeenje. p = 0.0613 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata koji bi poduprli odluku o odbacivanju nul-hipoteze (jednakost oekivanja!) pa ne moemo potvrditi postojanje
razlika u oekivanim cijenama automobila.

Zadatak 6.3. Menadment jednog velikog medicinskog centra eli provjeriti postoji li razlika
u oekivanoj godinjoj neto-plai izmeu bolniarki i bolniara. Na temelju uzoraka bolniarki i
bolniara procijenjena su oekivanja i standardne devijacije sluajnih varijabli kojima se modeliraju
njihove plae:
bolniarke:
bolniari:

n1 = 20, xn1 = 23750, sn1 = 250


n2 = 16, xn2 = 23800, sn2 = 300.

Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanim plaama


bolniarki i bolniara pod uvjetima da su zadovoljene pretpostavke o jednakosti varijanci i o
normalnoj distribuiranosti sluajnih varijabli kojima modeliramo njihove plae?
Rjeenje. p = 0.2944 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata koji bi
poduprli odluku o odbacivanju nul-hipoteze pa ne moemo potvrditi postojanje razlika u oekivanim
plaama.

Zadatak 6.4.
(student.sta)
Studentska sluba jednog sveuilita eli vidjeti postoji li razlika u oekivanoj dobi meu studentima koji studiraju na klasian nain i studenata koji studiraju putem interneta (e-learning).
Prikupljeni podaci o dobi za 50 studenata iz svake kategorije nalaze se u bazi student.sta. Moemo
li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanoj dobi studenata?
Rjeenje. p = 0.214 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata koji bi
poduprli odluku o odbacivanju nul-hipoteze.

Zadatak 6.5.
(burza.sta)
U bazi podataka burza.sta zabiljeene su cijene nekih dionica na dvije burze smjetene u dva razliita grada - gradu A i gradu B. U jednom financijskom asopisu proitali smo da je oekivana
cijena dionice via na burzi u gradu A u odnosu na oekivanu cijenu na burzi u gradu B. Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanoj cijeni dionice na
promatranim burzama?
Rjeenje. p = 0.0067 pa na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu i moemo tvrditi
da su oekivane cijene dionice na burzi u gradu A statistiki znaajno razliite od oekivane cijene
na burzi u gradu B.

174

Statistiko zakljuivanje dvije varijable

Zadatak 6.6.
(manager.sta)
Jedna grupa istraivaa razvila je indeks koji mjeri uspjeh menadera, pri emu vei indeks sugerira
veu uspjenost menadera. Neki istraiva eli usporediti taj indeks za dvije grupe menadera.
Jedna grupa menadera ima mnogo interakcija s ljudima izvan svog radnog okruenja (telefoniranje, razgovori, sastanci i sl.), dok druga grupa ima vrlo rijetke kontakte izvan svog okruenja.
U bazi podataka manager.sta nalaze se indeksi za uzorak menadera iz grupe koja ima mnogo
interakcija (varijabla mnogo interakcija) i indeksi za uzorak menadera iz grupe koja ima malo
interakcija (varijabla malo interakcija). Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlika u oekivanim indeksima uspjenosti menadera iz te dvije grupe pod uvjetima da su
zadovoljene pretpostavke o jednakosti varijanci i o normalnoj distribuiranosti sluajnih varijabli
kojima modeliramo indekse?
Rjeenje. p = 0 pa na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu te tvrdimo da su
oekivani indeksi uspjenosti za te dvije grupe menadera statistiki znajno razliiti.

Zadatak 6.7.
(potrosac.sta)
Marketinki stratezi eljeli bi predvidjeti prijem nove vrste paste za zube kod potroaa prema
njihovoj dobi. U bazi podataka potrosac.sta raspolaemo podacima o dobi u godinama za 20 potroaa koji su kupili novu pastu za zube (varijabla korisnici) i 20 potroaa koji ju jo uvijek nisu
kupili (varijabla nisu korisnici). Moemo li na nivou znaajnosti = 0.01 potvrditi postojanje
razlike u oekivanoj dobi potroaa iz te dvije grupe pod pretpostavkom da normalna distribucija dobro opisuje distribuciju sluajnih varijabli kojima modeliramo njihovu dob te su varijance
jednake?
Rjeenje. p = 0.0296 pa na nivou znaajnosti = 0.01 odbacujemo nul-hipotezu i potvremo
razliitost oekivane dobi potroaa koji su kupili i onih koji jo uvijek nisu kupili novu vrstu paste
za zube.

Zadatak 6.8.
(restorani.sta)
Pretpostavimo da je neki veliki lanac restorana uloio puno novca u reklamu te menader eli usporediti oekivanu dnevnu zaradu tog lanca restorana prije i nakon tog ulaganja. U bazi podataka
restorani.sta nalaze se informacije o dnevnoj zaradi za 22 restorana prije ulaganja u marketing
(varijabla prije) i nakon ulaganja u marketing (varijabla poslije). Moemo li na nivou znaajnosti
= 0.05 potvrditi postojanje razlike u oekivanoj dnevnoj zaradi tog lanca restorana prije i nakon ulaganja u marketing pod pretpostavkom da razlike dnevnih zarada prije i nakon ulaganja u
reklamu moemo modelirati normalnom sluajnom varijablom?
Rjeenje. p = 0.005845 pa na nivou znaajnosti = 0.05 odbacujemo nul-hipotezu i potvrujemo
razliitost oekivane dnevne zarade lanca restorana prije i nakon ulaganja u marketing.

Zadatak 6.9.
(vitamini.sta)
Jedan lijenik tvrdi da se uzimanjem specijalnog vitamina moe poveati snaga dizaa utega. Kako
bi se provjerila njegova tvrdnja odabrano je osam dizaa utega kojima je izmjerena snaga. Nakon
dva tjedna treninga podranih upotrebom specijalnog vitamina ti isti dizai utega su opet testirani
i dobiveni su sljedei rezultati:

Zadaci

175
prije tretmana:
poslije tretmana:

210, 230, 182, 205, 262, 253, 219, 216


219, 236, 179, 204, 270, 250, 222, 216.

Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlike u oekivanoj snazi dizaa
utega prije i nakon tretmana specijalnim vitaminima pod pretpostavkom da razliku izmjerene
snage prije i nakon tretmana moemo modelirati normalnom sluajnom varijablom?
Rjeenje. p = 0.43 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje
nul-hipoteze o jednakosti oekivanja.

Zadatak 6.10. U sklopu studije organizacije rada poduzea ispituje se efikasnost zaposlenika u
proizvodnom procesu. Ispitivanje se provodi mjerenjem produktivnosti rada na uzorku radnika.
Radi mogueg poveanja produktivnosti na radnim mjestima radnika u uzorku izmijenjen je red
radnih operacija i prostorni razmjetaj sredstava rada. Rezultati mjerenja produktivnosti rada
prije i nakon izmjena dani su u sljedeoj tablici:
prije izmjena:
poslije izmjena:

45, 34, 42, 28, 35, 39, 50, 41, 27, 29,
49, 40, 43, 32, 40, 39, 51, 42, 30, 24.

Moemo li na nivou znaajnosti = 0.05 potvrditi postojanje razlike u oekivanoj produktivnosti


radnika prije i nakon uvedenih izmjena pod pretpostavkom da razliku izmjerene produktivnosti
prije i nakon izmjena moemo modelirati normalnom sluajnom varijablom?
Rjeenje. p = 0.077 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje
nul-hipoteze o jednakosti oekivanja.

Zadatak 6.11.
(gradjevina.sta)
Varijable placa2008 i placa2009 u bazi podataka gradjevina.sta sadre prosjene neto-plae u eurima
u 2008. i 2009. godini za 100 graevinskih poduzea srednje veliine u nekoj zemlji. Moemo li na
nivou znaajnosti = 0.05 prihvatiti hipotezu o postojanju razlike u oekivanoj prosjenoj plai
u graevinskim poduzeima srednje veliine u toj zemlji u 2008. i 2009. godini pod pretpostavkom da razlike prosjenih plaa u 2008. i 2009. godini moemo modelirati normalnom sluajnom
varijablom?
Rjeenje. p = 0.164 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje
nul-hipoteze o jednakosti.

Zadatak 6.12. Istraiva prouava uzorke dvaju tipova automobila koji pripadaju istoj klasi, ali
potjeu od razliitih proizvoaa. Na temelju uzorka koji broji 400 automobila prvog proizvoaa
utvrdio je da se 53 automobila pokvarilo tijekom prve godine koritenja, dok je na temelju uzorka
od 500 automobila drugog proizvoaa utvrdio da ih se pokvarilo ak 78. Moemo li na nivou
znaajnosti = 0.05 tvrditi da je vjerojatnije da e se tijekom prve godine koritenja pokvariti
automobil drugog proizvoaa nego automobil prvog proizvoaa?
Rjeenje. p = 0.16 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje
nul-hipoteze o jednakosti vjerojatnosti.

176

Statistiko zakljuivanje dvije varijable

Zadatak 6.13. Raspolaete sljedeim podacima:

veliina uzorka
proporcija mukaraca
proporcija ljudi u braku

menaderi
162
0.95
0.912

MBA studenti
109
0.689
0.534

a) Moemo li na nivou znaajnosti = 0.01 tvrditi da je proporcija mukaraca meu menaderima vea nego meu MBA studentima?
b) Moemo li na nivou znaajnosti = 0.01 tvrditi da je proporcija menadera koji su u braku
vea nego proporcija studenata koji su u braku?
Rjeenje. U oba zadatka je p < 0.00001 pa odbacujemo nul-hipotezu i na nivou znaajnosti = 0.01
potvrujemo alternativnu hipotezu.

Zadatak 6.14. Financijski analitiar ispituje proporciju tekuih rauna s negativnim saldom
veim od doputenog u prosincu u dvije poslovnice jedne banke. Njegova je pretpostavka da je
proporcija takvih rauna u poslovnici II manja nego u poslovnici I. U uzorku koji broji 562 rauna
poslovnice I 75 ih je s nedoputenim prekoraenjem, a u uzorku koji broji 462 rauna poslovnice
II 44 ih je s nedoputenim prekoraenjem. Moete li na razini znaajnosti = 0.05 potvrditi
pretpostavku financijskog analitiara?
Rjeenje. p = 0.029 pa odbacujemo nul-hipotezu i na nivou znaajnosti = 0.05 potvrujemo
hipotezu financijskog analitiara.

Zadatak 6.15.
(gradjevina.sta)
Varijable zaposleni2008 i zaposleni2009 u bazi podataka gradjevina.sta sadre broj zaposlenika u
2008. i 2009. godini za 100 sluajno izabranih graevinskih poduzea srednje veliine u nekoj
zemlji. Moete li na razini znaajnosti = 0.05 potvrditi hipotezu koja kae da je proporcija
takvih poduzea koja zapoljavaju vie od 150 radnika vea u 2009. godini nego u 2008. godini?
Rjeenje. p = 0.4245 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje nul-hipoteze. Dakle, na toj razini znaajnosti ne moemo potvrditi hipotezu navedenu u
zadatku.

Zadatak 6.16. Klub ljubitelja rock-glazbe eli provjeriti postoji li razlika u proporcijama lanova
mlaih od 30 godina i onih starijih od 30 godina koji osim rocka vole i klasinu glazbu. U svrhu
ovog istraivanja ispitano je 56 lanova mlaih od 30 i 65 lanova starih barem 30 godina. Od
ukupnog ispitanog broja klasiku voli sluati 14 lanova mlaih od 30 i 15 lanova starih barem
30 godina. Moete li na razini znaajnosti = 0.05 potvrditi hipotezu koja kae da se navedene
proporcije razlikuju?
Rjeenje. p = 0.7975 pa na nivou znaajnosti = 0.05 nemamo dovoljno argumenata za odbacivanje nul-hipoteze o jednakosti.

Zadaci

177

Zadatak 6.17.
(djeca.sta)
Varijablom apgar1 dana je jedna ocjena vitalnosti novoroeneta odmah nakon poroda, dok je
varijablom komplikacije dana informacija o tome je li tijekom trudnoe bilo komplikacija ili ne.
Oznaimo s X sluajnu varijablu kojom modeliramo ocjenu vitalnosti apgar, a Y sluajnu varijablu
kojom modeliramo prisutnost komplikacija u trudnoi. Odredite empirijsku distribuciju sluajnog
vektora (X, Y ) i njegove marginalne empirijske distribucije te rijeite sljedee zadatke:
a) procijenite vjerojatnost da je ocjena vitalnosti 1 i da su komplikacije bile prisutne
b) procijenite vjerojatnost da je ocjena vitalnosti 4 i da su komplikacije bile prisutne
c) procijenite vjerojatnost da je ocjena vitalnosti 4 i da komplikacije nisu bile prisutne
d) procijenite vjerojatnost pojave komplikacija u trudnoi u promatranoj populaciji
e) procijenite vjerojatnost pojave ocjene vitalnosti 4 u promatranoj populaciji novoroenadi.

Zadatak 6.18.
(citanje.sta)
Baza podataka citanje.sta, koja sadri rezultate istraivanja o italakim navikama stanovnika
jednog grada, opisana je u primjeru 6.12.
a) Procijenite distribuciju sluajnog vektora (X, Y ), gdje X oznaava sluajnu varijablu koja
se realizira jedinicom ako stanovnik tog grada svaka tri mjeseca proita barem jednu knjigu,
a inae se realizira nulom, a Y sluajnu varijablu kojom modeliramo strunu spremu stanovnika toga grada (za NSS Y se realizira jedinicom, za SSS dvojkom, a za VSS trojkom).
b) Pretpostavite da empirijska distribucija sluajnog vektora (X, Y ) odgovara njegovoj stvarnoj distribuciji te procijenite sljedee vjerojatnosti:
- vjerojatnost da sluajno odabrani ispitanik iz populacije koju promatramo u tom gradu
svaka tri mjeseca proita barem jednu knjigu i ima srednju strunu spremu, tj. vjerojatnost P {X = 1, Y = 2}
- vjerojatnost da sluajno odabrani ispitanik iz populacije koju promatramo u tom gradu
svaka tri mjeseca proita barem jednu knjigu, tj. vjerojatnosti P {X = 1}
- vjerojatnost da sluajno odabrani ispitanik iz populacije koju promatramo u tom gradu
ima srednju strunu spremu, tj. vjerojatnosti P {Y = 2}.
Rjeenje.
a) Empirijska distribucija sluajnog vektora (X, Y ) dana je tablicom 6.32.
Summary Frequency Table (citanje.STA)
Table: citanje(2) x obrazovanje(3)
citanje obrazovanje obrazovanje obrazovanje Row
NSS
SSS
VSS
Totals
Count
0
48
426
184
658
6.45%
57.26%
24.73% 88.44%
Total Percent
1
16
51
19
86
Count
2.15%
6.85%
2.55% 11.56%
Total Percent
All Grps
64
477
203
744
Count
8.60%
64.11%
27.28%
Total Percent

Slika 6.32: Empirijska distribucija sluajnog vektora (X, Y ) iz primjera ??.

178

Statistiko zakljuivanje dvije varijable

b) Procjena vjerojatnosti P {X = 1, Y = 2} iznosi 0.0685, procjena vjerojatnosti P {X = 1}


iznosi 0.1156, procjena vjerojatnosti P {Y = 2} iznosi 0.6411.

Zadatak 6.19.
(planovi.sta)
U bazi podataka planovi.sta nalaze se podaci o dobi (varijabla dob), spolu (varijabla spol: 1 mukarac, 2 - ena) i planovima za posao nakon diplomiranja (varijabla poslovni plan: 1 - raditi
puno radno vrijeme, 2 - raditi pola radnog vremena, 3 - uope ne raditi) za uzorak od 129 studenata
jednog sveuilita. Zanima nas postoji li razlika u planovima za posao s obzirom na spol ispitanika.
Moete li na razini znaajnosti = 0.1 potvrditi zavisnost sluajnih varijabli kojima modeliramo
spol ispitanika i planove za posao nakon diplomiranja?
Rjeenje. Dobivena p-vrijednost manja je od nivoa znaajnosti = 0.1 pa zakljuujemo da odbacujemo nul-hipotezu i na nivou znaajnosti = 0.1 moemo rei da podaci potvruju postojanje
zavisnosti izmeu sluajnih varijabli kojima modeliramo spol ispitanika i planove za posao nakon
diplomiranja.

Zadatak 6.20. U primjerima 6.10 i 6.11 testirajte hipotezu o nezavisnosti.

Zadatak 6.21. U primjeru 6.10 procijenite svih pet uvjetnih distribucija za Y uz uvjet da se
dogodi {X = i}, i = 0, 1, 2, 3, 4. Mijenjaju li se te distribucije promjenom dogaaja na koji
uvjetujemo? Moete li to objasniti i povezati s pojmom zavisnosti i nezavisnosti sluajnih varijabli
X i Y?

Zadatak 6.22.
(krv.sta)
U bazi podataka krv.sta nalaze se podaci o mjerenim vrijednostima nekoliko razliitih analiza krvi
u definiranoj populaciji bolesnih osoba. Analitiar eli istraiti moe li se odrediti veza izmeu
izmjerenih vrijednosti ovih analiza. Utvrivanje veze i jasno uspostavljanje zakona koji ih povezuje
smanjilo bi broj potrebnih pretraga krvi. Naime, trebalo bi napraviti samo one koje su meusobno
neovisne, dok bi se ostale mogle na osnovi njih prognozirati. Za podatke iz baze prikaite svake
dvije varijable u dijagramu rasprenja i kratko ga analizirajte.

Zadatak 6.23. Skicirajte grafove funkcija


f (x) = 2x 1,

f (x) =

1
x + 3,
2

f (x) = 2x

i komentirajte znaenje koeficijenata i . Koji koeficijent opisuje iznos poveanja vrijednosti


ovisne varijable za jedinino poveanje vrijednosti neovisne varijable?

Zadatak 6.24.

(krv.sta, regresija.sta)

a) Koristei bazu podataka krv.sta procijenite regresijski pravac izmeu varijabli CD4 i CD8.
Odredite vrijednosti reziduala. Ponovite postupak za jo nekoliko parova varijabli.

Zadaci

179

b) Koristei bazu podataka regresija.sta procijenite regresijski pravac izmeu varijabli x1 i x2.
Odredite vrijednosti reziduala i prokomentirajte dobiveni rezultat.

Zadatak 6.25.
(statistika.sta)
Mnogi studenti odluili su ispit iz Statistike poloiti putem kolokvija. Pri tome se postignuti
bodovi na sva etiri kolokvija zbrajaju i na temelju zbroja bodova donosi se odluka o tome ima
li student pravo izai na usmeni dio ispita. U bazi podataka statistka.sta nalazi se zbroj bodova
prva dva kolokvija (varijabla kol-1-2) i ukupan broj bodova nakon svih provedenih kolokvija (varijabla ukupno). Koju ete od ovih varijabli promatrati kao neovisnu, a koju kao ovisnu varijablu?
Odredite procjenu regresijskog pravaca te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u izmjerenim vrijednostima ovisne varijable objanjen linearnim
regresijskim modelom?

Zadatak 6.26.
(ptsp.sta)
Baza podataka ptsp.sta sadri podatke o ispitanicima kojima je dijagnosticiran posttraumatski
stresni poremeaj. Na primjer, varijabla ptspb2 sadri rezultate testova nakon terapije nekim
lijekom, a varijabla ptspb odraava stanje prije provedene terapije. Koju ete od ovih varijabli
promatrati kao neovisnu, a koju kao ovisnu varijablu? Odredite procjenu regresijskog pravaca te
odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?
Analogno napravite za parove varijabli ptspc i ptspc2, te ptspd i ptspd2.

Zadatak 6.27.
(gradjevina.sta)
Varijable godisnja placa2009 i troskovi2009 u bazi podataka gradjevina.sta sadre podatke o prosjenoj godinjoj plai zaposlenika i ukupnim trokovima u 2009. godini za 100 graevinskih poduzea
srednje veliine u nekoj zemlji. Ako znamo da se plae zaposlenika uraunavaju u ukupne trokove poduzea, koju ete od ovih varijabli promatrati kao neovisnu, a koju kao ovisnu varijablu?
Odredite procjenu regresijskog pravaca te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?

180

Statistiko zakljuivanje dvije varijable

Zadatak 6.28.
(gradjevina.sta)
Koristei bazu podataka gradjevina.sta procijenite koeficijent korelacije za varijable godisnja placa2009
i troskovi2009. Rezultat usporedite s rezultatima regresijske analize za isti par varijabli.

Zadatak 6.29.
(krv.sta, regresija.sta)
Koristei baze podataka krv.sta i regresija.sta procijenite koeficijent korelacije za sve parove varijabli. Rezultat usporedite s rezultatima regresijske analize za iste parove varijabli.

Zadatak 6.30.
(regresija1.sta, regresija2.sta, regresija3.sta, regresija4.sta)
Koristei baze regresija1.sta, regresija2.sta, regresija3.sta i regresija4.sta procijenite regresijski pravac
izmeu varijabli tih baza podataka. to uoavate? Moete li na ovoj razini donijeti grubu ocjenu
o primjerenosti koritenja linearnog modela za opisivanje veze meu ovim varijablama? Koji bi
model bio prikladniji i zato?

Zadatak 6.31.
(gorivo.sta)
U bazi podataka gorivo.sta varijabla udaljenost sadri podatke o udaljenosti radnog mjesta od
mjesta stanovanja za 100 sluajno odabranih zaposlenika jednog poduzea, a varijabla troskovi
iznos u kunama koji ti zaposlenici troe na gorivo da bi se dovezli do posla. Procijenite regresijski
pravac izmeu varijabli udaljenost i troskovi te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?

Zadatak 6.32.
(glukoza.sta)
Koristei bazu podataka glukoza.sta, ije su varijable opisane u primjeru 2.2, procijenite regresijski
pravac izmeu varijabli dob i koncentracija te odgovorite na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?

Zadatak 6.33.
(apartmani.sta)
U bazi podataka apartmani.sta varijabla udaljenost sadri podatke o udaljenosti apartmana do
najblie plae za 100 sluajno izabranih apartmana u nekom turistikom mjestu, a varijabla cijena
cijenu apartmana po danu izraenu u kunama. Procijenite regresijski pravac izmeu varijabli
udaljenost i cijena te odgovorite na sljedea pitanja:

Zadaci

181

- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?


- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?

Zadatak 6.34.
(servis.sta)
U bazi podataka servis.sta varijabla broj km sadri podatke o prijeenom broju kilometara za 100
automobila istog tipa prije obavljenog prvog servisa, a varijabla servis kn cijenu servisa nakon tog
broja kilometara. Procijenite regresijski pravac izmeu varijabli broj km i servis kn te odgovorite
na sljedea pitanja:
- to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?

182

Statistiko zakljuivanje dvije varijable

Poglavlje 7

Zadaci za vjebu
Zadatak 7.1. U razredu koji broji 25 uenika zakljune ocjene iz matematike na kraju kolske
godine raspodijeljene su na sljedei nain: tri uenika imaju peticu, sedam uenika etvorku, osam
uenika trojku, pet uenika dvojku, a dva uenika moraju pristupiti popravnom ispitu (imaju
jedinicu). Ocjene uenika sadrane su u varijabli ocjena baze podataka razred.sta. Sljedee zadatke
rijeite samostalno te rezultate provjerite koritenjem programskog paketa Statistica.
1. Sastavite tablicu frekvencija i relativnih frekvencija za varijablu ocjena.
2. Koristei Statisticu grafiki prikaite frekvencije i relativne frekvencije (stupastim i krunim
dijagramima).
3. Izraunajte aritmetiku sredinu, mod, raspon te varijancu i standardnu devijaciju ovog
skupa podataka.
4. Izraunajte numerike karakteristike ovog skupa podataka koje su vam potrebne za kutijasti
dijagram na bazi medijana te ga nacrtajte.

Zadatak 7.2.
(desno.sta)
Baza podataka desno.sta sadri dio podataka iz istraivanja kojim se prouava uestalost koritenja
desne ruke u skupini denjaka, ljevaka i ambidekstera jedne populacije. Varijabla sum sadri ocjenu
uestalosti koritenja desne ruke u deset izabranih radnji i moe primiti vrijednosti od 0 do 30.
Varijabla objektivno sadri informaciju o tome je li osoba denjak, ljevak ili ambidekster. Sve
opisane varijable moemo modelirati diskretnim sluajnim varijablama koje primaju vrijednosti
iz prikladno konstruiranih skupova - odredite te skupove, tj. slike tih sluajnih varijabli. Uz
pretpostavku o jednakosti stvarnih i empirijskih distribucija tih sluajnih varijabli rijeite sljedee
zadatke.
1. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo denjaka.
2. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo ljevaka.
3. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke manja ili jednaka 10.
4. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke barem 10.

183

184

Zadaci

5. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
uestalost koritenja desne ruke nije 20.
6. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke vea od 20.
7. Procijenite vjerojatnost da sluajnim izborom osobe iz ove populacije odaberemo osobu ija
je uestalost koritenja desne ruke 30.
8. Uz pretpostavku da stvarna distribucija sluajne varijable kojom modeliramo varijablu sum
odgovara empirijskoj distribuciji te varijable, odredite njeno oekivanje, varijancu i standardnu devijaciju.
9. Uz pretpostavku da stvarna distribucija sluajne varijable kojom modeliramo varijablu sum
odgovara empirijskoj distribuciji te uz oznaku = EX, 2 = V ar X odredite sljedee
vjerojatnosti: P {|X | }, P {|X | 2} i P {|X | 3}.
10. Uz pretpostavku da stvarna distribucija sluajne varijable kojom modeliramo varijablu sum
odgovara empirijskoj distribuciji, odredite jedan medijan te sluajne varijable. Takoer,
odredite P {|X m| }, P {|X m| 2} i P {|X m| 3}, gdje je m medijan koji
ste odabrali. Diskutirajte o razlikama u odnosu na prethodno pitanje.

Zadatak 7.3.
(tlak.sta)
Baza podataka tlak.sta sadri podatke o krvnom tlaku utvrene anketom na reprezentativnom
uzorku pacijenata jedne klinike:
varijable spol i dob sadre informacije o spolu i broju godina za svakog ispitanika
varijable sistolicki-tlak i dijastolicki-tlak sadre vrijednosti sistolikog i dijastolikog tlaka za svakog
ispitanika
varijabla tlak klasificira vrijednosti sistolikog i dijastolikog tlaka u tri kategorije: N - nizak tlak,
O - normalan tlak, P - povien tlak
varijabla puls sadri broj otkucaja srca u minuti (puls) za svakog ispitanika
varijabla opce-stanje sadri subjektivnu ocjenu (u standardnoj skali od 1 do 5) vlastitog zdravstvenog stanja svakog ispitanika.
Na temelju podataka sadranih u ovoj bazi rijeite sljedee zadatke:
1. Odredite tablice frekvencija i relativnih frekvencija, nacrtajte i proanalizirajte stupaste dijagrame frekvencija i relativnih frekvencija te kruni dijagram s prikazom relativnih frekvencija za podatke sadrane u varijabli opce-stanje. Kolike su frekvencija i relativna frekvencija
ispitanika koji su svoje ope zdravstveno stanje ocijenili barem ocjenom 4?
2. Odredite tablice frekvencija i relativnih frekvencija za podatke sadrane u varijabli opcestanje posebno za kategoriju ispitanika enskog spola i kategoriju ispitanika mukog spola
te nacrtajte pripadne stupaste dijagrame frekvencija i relativnih frekvencija. Takoer
nacrtajte stupaste dijagrame frekvencija i relativnih frekvencija za podatke sadrane u
varijabli opce-stanje kategorizirane po vrijednostima varijable tlak (N, O, P). Proanalizirajte
dobivene stupaste dijagrame.
3. Odredite i ukratko protumaite sljedee numerike karakteristike podataka sadranih u
varijabli dob: aritmetiku sredinu, medijan, donji i gornji kvartil, mod, raspon i standardnu

Zadaci

185

devijaciju. Je li mod jedinstven? Koliko iznosi maksimalno odstupanje podataka sadranih


u varijabli dob od njihove aritmetike sredine? Nacrtajte i detaljno proanalizirajte kutijasti
dijagram na bazi medijana za podatke sadrane u varijabli dob. Obrazloite svoj odgovor.
4. Nacrtajte i detaljno proanalizirajte kutijasti dijagram na bazi medijana za podatke sadrane
u varijabli dob. Obrazloite svoj odgovor.
5. Crtanjem i analizom kutijastog dijagrama na bazi medijana neosjetljivog na stree vrijednosti i kutijastog dijagrama na bazi medijana osjetljivog na stree vrijednosti donesite
zakljuak o tome pojavljuju li se meu podacima sadranima u varijabli puls stree vrijednosti ili ne. Ako ste se uvjerili u njihovo postojanje, koritenjem kategoriziranih tablica
frekvencija odredite sve prisutne stree vrijednosti meu podacima u varijabli puls. Kako
biste neutralizirali njihov utjecaj na numerike karakteristike podataka?

Zadatak 7.4.
(glukoza.sta)
Baza podataka glukoza.sta opisana je u primjeru 2.2. Poznato je da na nivou znaajnosti = 0.05
moemo prihvatiti hipotezu o normalnoj distribuiranosti podataka sadranih u varijablama dob i
glukoza.
1. Intervalom pouzdanosti 95% procijenite oekivanu koncentraciju glukoze.
2. Postavite potrebne hipoteze i prikladnim testom provjerite je li na nivou znaajnosti =
0.05 oekivana koncentracija glukoze statistiki znaajno vea od 5.5 mMol/L.
3. Intervalom pouzdanosti 95% procijenite proporciju ispitanika kod kojih je koncentracija
glukoze u krvi izmeu 4 i 6 mMol/L.
4. Postavite potrebne hipoteze i prikladnim testom provjerite je li na nivou znaajnosti =
0.05 proporcija ispitanika kod kojih je koncentracija gluoze vea od 8 mMol/l statistiki
znaajno razliita od 0.1.
5. Protumaite sve dobivene rezultate u kontekstu promatranog problema.

Zadatak 7.5.
(uvis.sta)
Baza podataka uvis.sta sadri bodove koje su studenti tree godine preddiplomskog studija matematike prikupili na kolokvijima iz Uvoda u vjerojatnost i statistiku (UVIS):
varijable kol-1 i kol-2 sadre bodove s redovnog prvog i drugog kolokvija
varijable kol-P1 i kol-P2 sadre bodove s popravnih kolokvija
varijable konacno-1 i konacno-2 sadre konane bodove prikupljene na prvom i drugom kolokviju
varijabla ukupno-1-2 sadri ukupan broj bodova nakon provedenih redovnih i popravnih kolokvija
varijabla ocjena sadri prijedlog konane ocjene iz kolokvija
varijabla stanovanje sadri informacije o mjestu stanovanja studenata kategorizirane na sljedei
nain - Osijek (student stanuje u Osijeku), Drugo mjesto (student stanuje u nekom drugom
mjestu).
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
1. Kojeg su tipa varijable kol-1 i ocjena?
2. Odredite empirijsku distribuciju varijable ocjena.

186

Zadaci

3. Procijenite vjerojatnost da je student kolokvij iz UVIS-a poloio ocjenom veom od 2, ali


manjom od 5.
4. Nacrtajte stupasti dijagram frekvencija i relativnih frekvencija za podatke koji su sadrani
u varijabli ocjena.
5. Za podatke sadrane u varijabli kol-1 odredite vrijednosti aritmetike sredine, moda (je li
mod ovog niza podataka jedinstven?), donjeg kvartila, medijana i gornjeg kvartila. Ukratko
protumaite znaenje svake od navedenih numerikih karakteristika.
6. Skicirajte i proanalizirajte kutijasti dijagram na bazi medijana za podatke sadrane u varijabli kol-2.
7. Provoenjem prikladnih statistikih testova provjerite moemo li na nivou znaajnosti =
0.05 tvrditi da je varijabla kol-2 normalno distribuirana.
8. Provoenjem prikladnog statistikog testa provjerite je li na razini znaajnosti = 0.05
oekivani broj bodova na prvom popravnom kolokviju (varijabla kol-P1) statistiki znaajno
vei od 0 = 42.17391. Koji ste test odabrali i zato?
9. Provoenjem prikladnog statistikog testa provjerite je li na razini znaajnosti = 0.05
proporcija studenata koji su na drugom popravnom kolokviju (varijabla kol-P2) prikupili
vie od 80 bodova statistiki znaajno razliita od p0 = 0.1. Koji ste test odabrali i zato?

Zadatak 7.6.
(uvis.sta)
Analizirajte bazu podataka uvis.sta opisanu u zadatku 7.5.
1. Analizirajte razlike meu rezultatima na redovnim i popravnim kolokvijima za sve studente
te posebno za studente koji stanuju u Osijeku i studente koji stanuju u nekom drugom
mjestu.
2. Analizirajte veze izmeu rezultata na kolokvijima i prijedloga konane ocjene iz kolokvija?
to moete zakljuiti o utjecaju popravnih kolokvija na konanu ocjenu?
3. Napravite usporedbu predloenih konanih ocjena za studente koji ive u Osijeku i studente
koji ive u drugim mjestima.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.

Zadatak 7.7.
(slobodno-vrijeme.sta)
Baza podataka slobodno-vrijeme.sta sadri podatke o slobodnom vremenu ispitanika jedne ankete:
varijable Spol i Godine sadre informacije o spolu, odnosno godinama starosti ispitanika
varijable TV i Kava sadre podatke koliko sati dnevno ispitanici gledaju televiziju, odnosno koliko
alica kave dnevno popiju
varijabla Hobiji sadri informacije o tome ima li ispitanik neki hobi ili ne
varijabla Zadovoljan sadri informacije o tome koliko je ispitanik zadovoljan iskoritenou svoga
slobodnog vremena (1 - nisam zadovoljan, 2 - nije loe, 3 - poprilino sam zadovoljan, 4 zadovoljan sam, 5 - prezadovoljan sam).
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:

Zadaci

187

1. Kojeg su tipa varijable Hobiji i Zadovoljan?


2. Odredite empirijsku distribuciju varijable Zadovoljan.
3. Procijenite vjerojatnost da je ispitanik poprilino zadovoljan ili zadovoljan iskoritenou
svoga slobodnog vremena.
4. Nacrtajte stupasti dijagram frekvencija i relativnih frekvencija za podatke koji su sadrani
u varijabli Zadovoljan.
5. Za podatke sadrane u varijabli Godine odredite oekivani broj godina ispitanika, najei
broj godina te maksimalno odstupanje od oekivanog broja godina.
6. Skicirajte i proanalizirajte kutijasti dijagram na bazi aritmetike sredine za podatke sadrane u varijabli TV.
7. Provoenjem prikladnih statistikih testova provjerite moemo li na nivou znaajnosti =
0.05 tvrditi da je varijabla TV normalno distribuirana.
8. Provoenjem prikladnog statistikog testa provjerite je li na razini znaajnosti = 0.01
oekivani broj ispijenih kava (varijabla Kava) statistiki znaajno vei od 0 = 1. Koji ste
test odabrali i zato?

Zadatak 7.8.
(slobodno-vrijeme.sta)
Analizirajte bazu podataka slobodno-vrijeme.sta koja je opisana u zadatku 7.7.
1. Analizirajte spolnu i starosnu strukturu uzorka u ovom primjeru te varijablu TV za sve
kategorije varijable Spol i prikladno kategorizirane vrijednosti varijable Godine.
2. Analizirajte varijablu TV za razliite kategorije varijable Hobiji za sve ispitanike zajedno te
posebno za ispitanike mukog i posebno za ispitanike enskog spola. Napravite usporedbe
rezultata za muki i enski spol.
3. Promatrajte dvije dobne skupine ispitanika - ispitanike mlae od 30 godina i one stare barem
30 godina. Napravite usporedbu zadovoljstva iskoritenou svog slobodnog vremena meu
tim dvjema dobnim skupinama. Za navedene dobne skupine napravite usporedbe varijable
Zadovoljstvo s obzirom na razliite kategorije varijable Hobiji.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.

Zadatak 7.9.
(zdravlje.sta)
Baza podataka zdravlje.sta opisana je u zadatku 2.4. Na temelju podataka dostupnih u ovoj bazi
rijeite sljedee zadatke:
1. Kojeg su tipa varijable dodatno-zdravstveno i cijena?
2. Odredite empirijsku distribuciju varijable zdravlje.
3. Procijenite vjerojatnost da sluajno odabrani ispitanik svoje zdravstveno stanje smatra
barem dobrim.
4. Nacrtajte stupasti dijagram frekvencija i relativnih frekvencija za podatke sadrane u
varijabli spol.

188

Zadaci

5. Za podatke sadrane u varijabli godine odredite broj godina koji se nalazi na centralnoj
poziciji ureenog niza podataka, oekivani broj godina ispitanika te maksimalno odstupanje
od oekivanog broja godina.
6. Skicirajte i proanalizirajte kutijasti dijagram na bazi medijana za podatke sadrane u varijabli cijena.
7. Provoenjem prikladnih statistikih testova provjerite moemo li na nivou znaajnosti =
0.01 tvrditi da je varijabla cijena normalno distribuirana.
8. Provoenjem prikladnog statistikog testa provjerite je li na razini znaajnosti = 0.05
oekivani broj pregleda u tekuoj akademskoj godini (varijabla broj-pregleda) statistiki
znaajno razliit od 0 = 4. Koji ste test odabrali i zato?

Zadatak 7.10.
(zdravlje.sta)
Analizirajte bazu podataka zdravlje.sta koja je opisana u zadatku 2.4.
1. Analizirajte varijablu zdravlje posebno za kategoriju ispitanika koji imaju dodatno zdravstveno osiguranje te posebno za kategoriju ispitanika koji ga nemaju. Napravite usporedbu
rezultata. Isti postupak ponovite posebno za mukarce, a posebno za ene te napravite
usporedbu dobivenih rezultata.
2. Na prikladan nain kategorizirajte vrijednosti varijable godine te napravite usporedbu oekivane cijene najskupljeg zdravstvenog pregleda meu tako napravljenim dobnim skupinama.
3. Procijenite zajedniku distribuciju sluajne varijable koja modelira broj zdravstvenih pregleda i sluajne varijable koja se realizira jedinicom u sluaju da ispitanik ima dodatno
zdravstveno osiguranje, a nulom ako ga nema. Procijenite sve marginalne i uvjetne distribucije tog dvodimenzionalnog sluajnog vektora. Obratite panju na proporcije ispitanika
koje se odnose na najvei broj zdravstvenih pregleda u dobivenim marginalnim i uvjetnim
empirijskim distribucijama te napravite usporedbe koje smatrate korisnima i zabiljeite
svoje zakljuke.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.

Zadatak 7.11.
(novi-stan.sta)
Baza podataka novi-stan.sta sadri podatke potrebne banci da odobri kredit klijentu za kupnju
novog stana:
varijable Spol i Godine sadre informacije o spolu, odnosno godinama starosti klijenta
varijabla God-rad-staa sadri podatke o godinama radnog staa klijenta
varijabla Struna sprema sadri informacije o strunoj spremi klijenta
varijabla Krediti sadri informacije o broju do sada odobrenih kredita tog klijenta
varijabla Kvadratura sadri informacije o eljenoj kvadraturi stana (50, 75, 100 ili 120 m2 )
varijabla Smjetaj sadri informacije o tome ivi li trenutno klijent u Osijeku ili izvan njega
varijabla Broj djece sadri informacije o broju djece klijenta.
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:

Zadaci

189

1. Kojeg su tipa varijable Smjetaj i Kvadratura?


2. Odredite empirijsku distribuciju varijable Struna sprema.
3. Procijenite vjerojatnost da stranka ima vie od dva djeteta.
4. Nacrtajte stupasti dijagram frekvencija i stupasti dijagram relativnih frekvencija za podatke koji su sadrani u varijabli Spol.
5. Za podatke sadrane u varijabli Godine odredite vrijednosti aritmetike sredine, moda (je
li jedinstven), varijance i standardne devijacije. Ukratko protumaite znaenje svake od
navedenih numerikih karakteristika.
6. Skicirajte kutijasti dijagram na bazi medijana za podatke sadrane u varijabli Godine.
7. Provoenjem prikladnih statistikih testova provjerite moemo li na nivou znaajnosti =
0.05 tvrditi da je varijabla Krediti normalno distribuirana.
8. Provoenjem prikladnog statistikog testa provjerite je li na razini znaajnosti = 0.05
proporcija klijenata koji imaju dvoje djece (varijabla Broj djece) statistiki znaajno manja
od p0 = 0.4. Koji ste test odabrali i zato?

Zadatak 7.12.
(novi-stan.sta)
Analizirajte bazu podataka novi-stan.sta opisanu u zadatku 7.11.
1. Analizirajte razlike varijable Krediti izmeu mukaraca i ena. Jesu li se u prosjeku vie
(pri emu se misli na broj zaduivanja, ne na njihov iznos) kreditno zaduivali mukarci ili
ene? Analizirajte distribuciju broja zaduivanja posebno za svaki spol.
2. Analizirajte broj zaduivanja klijenata enskog spola za razliite kategorije strune spreme.
Isti postupak provedite i za klijente mukog spola.
3. Pod uvjetom da klijent ivi u Osijeku, analizirajte ovisi li eljena kvadratura stana o broju
djece klijenta. Isti postupak provedite i pod uvjetom da klijent ne ivi u Osijeku.
Odaberite prikladne mjere da biste ilustrirali tvrdnje te ih potkrijepite prikladnim statistikim
testovima.

Zadatak 7.13.
(kredit.sta)
Baza podataka kredit.sta sadri podatke o kreditnoj povijesti klijenata jedne amerike komercijalne
banke. U nastavku je opisano znaenje svih varijabli.
varijabla KO predstavlja ocjenu klijenta na sljedei nain: L - lo; D- dobar
varijabla RAC sadri podatke o stanju rauna klijenta; BR - klijent nema otvoren raun u banci;
N - klijent nema sredstava na raunu; <=$300 - stanje na raunu je pozitivno i manje ili
jednako od 300; >$300 - klijent ima iznos na raunu vei od $300
varijabla T prestavlja trajanje otplate kredita (u mjesecima)
varijabla NK opisuje namjenu kredita: NA - novi automobil; RA - rabljeni automobil; NM - namjetaj; TV - televizor; KA - kuanski aparati; P - popravak; O - odmor; PKV - prekvalifikacija;
POS - posao; D - drugo
varijabla IK predstavlja iznos kredita

190

Zadaci

varijabla PS predstavlja trajanje zaposlenosti klijenta na trenutnom radnom mjestu: NZ - nezaposlen; <1 god - manje od 1 godine; 1-5 god - izmeu 1 i 5 godina; 5-8 god - izmeu 5 i 8
godina; > 8 god - vie od 8 godina
varijabla BR opisuje brano stanje klijenta: RAZ - razveden; ZR - zivi rastavljeno; SM - samac;
BRU - ivi u branoj zajednici ili kao udovac/ica
varijabla S predstavlja spol klijenta: M - muko; Z - ensko
varijabla DOB predstavlja starosnu dob klijenta.
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
1. Kojeg su tipa varijable RAC i IK?
2. Odredite empirijsku distribuciju varijable NK.
3. Procijenite vjerojatnost da je klijent ostvario kredit ija otplata traje najvie 20, a najmanje
10 godina.
4. Nacrtajte stupasti dijagram frekvencija i stupasti dijagram relativnih frekvencija za podatke koji su sadrani u varijabli PS.
5. Odredite tablicu frekvencija i relativnih frekvencija za podatke sadrane u varijabli RAC
posebno za kategoriju ispitanika enskog spola, a posebno za kategoriju ispitanika mukog
spola.
6. Nacrtajte zajedniki stupasti dijagram frekvencija i relativnih frekvencija tipa Overlaid
svih podataka sadranih u varijabli RAC kategoriziran prema spolu klijenta.
7. Za podatke sadrane u varijabli DOB odredite vrijednosti aritmetike sredine, moda (je li
jedinstven), varijance i standardne devijacije. Protumaite znaenje svake od navedenih
numerikih karakteristika.
8. Skicirajte i protumaite kutijasti dijagram na bazi medijana za podatke sadrane u varijabli
T.
9. Je li mogue na osnovi tablice frekvencija i relativnih frekvencija te stupastog dijagrama
numerike varijable IK dobiti dovoljno informacija o iznosima kredita klijenata promatrane
banke. Obrazloite svoj odgovor.
10. Iskoristite izmjerene vrijednosti iste varijable iz baze podataka kredit-score.sta. Mijenjajte
broj intervala na koji dijelite skup vrijednosti. Prouavajte to se dogaa i pribiljeite svoj
zakljuak.
11. Kategorizaciju izmjerenih vrijednosti varijable IK napravite na nain koji vam izravno daje
procjenu vjerojatnosti da je klijent ostvario kredit u iznosu od najvie $10000, ali ne manje
od $5000.

Zadatak 7.14.
(djelatnici.sta)
Baza podataka djelatnici.sta opisana je u zadatku 2.4. Na temelju opisanih podataka rijeite sljedee zadatke:
1. Kojeg su tipa varijable Obrazovanje i Visina?
2. Odredite empirijsku distribuciju varijable Obrazovanje.

191

Zadaci
3. Procijenite vjerojatnost da djelatnik radi na odjelu za transport ili isporuku.

4. Nacrtajte stupasti dijagram frekvencija i stupasti dijagram relativnih frekvencija za podatke koji su sadrani u varijabli Obrazovanje.
5. Odredite tablicu frekvencija i relativnih frekvencija za podatke sadrane u varijabli Obrazovanje posebno za kategoriju djelatnika enskog spola, a posebno za kategoriju djelatnika
mukog spola.
6. Nacrtajte zajedniki stupasti dijagram frekvencija i relativnih frekvencija svih podataka
sadranih u varijabli Odjel kategoriziran prema varijabli Obrazovanje.
7. Za podatke sadrane u varijabli Rukovodstvo odredite vrijednosti raspona, donjeg i gornjeg
kvartila te medijana. Protumaite znaenje svake od navedenih numerikih karakteristika.
8. Skicirajte i protumaite kutijasti dijagram na bazi medijana za podatke sadrane u varijabli
Dob.
9. Iskoristite izmjerene vrijednosti varijable Placa_prije. Kategorizirajte varijablu na 5 jednakih podintervala (napiite tablicu relativnih frekvencija i skicirajte stupasti dijagram
relativnih frekvencija). Mijenjajte broj intervala na koji dijelite skup vrijednosti. Prouavajte to se dogaa i pribiljeite svoj zakljuak.
10. Kategorizaciju izmjerenih vrijednosti varijable Visina napravite na nain koji vam izravno
daje procjenu vjerojatnosti da je visina djelatnika u intervalu [165, 180i. Koliko iznosi
procjena vjerojatnosti? Napiite tablicu relativnih frekvencija kategorizirane varijable.
11. Kojim tipovima sluajnih varijabli modeliramo varijable ove baze podataka?
12. Intervalom pouzdanosti 95% procijenite oekivanje sluajne varijable kojom je modelirana
dob djelatnika tvornice A.
13. Intervalom puzdanosti 95% procijenite vjerojatnost da je djelatnik tvornice A vii od 170
cm.
14. Moete li na razini znaajnosti = 0.05 tvrditi da je oekivana visina djelatnika tvornice
A manja od 170 cm?
15. Moete li na razini znaajnosti = 0.05 tvrditi da je vjerojatnost da je djelatnik tvornice
A stariji od 30 godina manja od 0.5?
16. Moete li na razini znaajnosti = 0.05 tvrditi da sluajna varijabla kojom je modelirana
dob djelatnika promatrane tvornice nije normalno distribuirana?
17. Moete li na razini znaajnosti = 0.05 tvrditi da se distribucija sluajne varijable kojom
je modelirano radno mjesto (varijabla Odjel) djelatnika tvornice A razlikuje od distribucije
zadane tablicom teorijskih frekvencija
Obrazovanje
Frekvencija

TR
20

P
40

IS
40

18. Ispitajte moe li se zavisnost izmeu visine mjesene neto-plae prije i nakon reorganizacije
sustava poslovanja tvornice A opisati jednostavnim linearnim regresijskim modelom:
- Koju varijablu promatrate kao ovisnu, a koju kao neovisnu (prediktornu) varijablu?
Procijenite koeficijente pripadnog regresijskog pravca i proanalizirajte dobiveni rezultat.
- Kako se raunaju reziduali? Moete li na razini znaajnosti = 0.05 tvrditi da
reziduali nisu normalno distribuirani?

192

Zadaci
- to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procjenjenog regresijskog pravca?
- Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen
linearnim regresijskim modelom?

Zadatak 7.15.
(rakovi.sta)
Baza podataka rakovi.sta sadri podatke o jednom biolokom istraivanju u kojem su biljeene
reprezentativne karakteristike enki bodljaa Carpilius convexus koje ukljuuju broj satelita (tj.
broj mujaka bodljaa prihvaenih za gnijezdo koje grade enke), stanje bodlje, boju, teinu, itd.
U nastavku je opisano znaenje svih varijabli.
varijabla I pokazuje ima li bodlja satelite ili ne: 1 - bodlja ima vie od 0 satelita; 0- bodlja
nema satelita
varijabla B oznaava boju jedinke iz uzorka: SS - srednje svijetla; S - svijetla; ST - srednje tamna;
T - tamna
varijabla KR prestavlja stanje bodlji: 2D - obje bodlje u dobrom stanju; 1D - jedna bodlja je u
dobrom stanju dok je druga u loem; 0D - obje bodlje su u loem stanju
varijabla D predstavlja irinu karapakse enke bodljaa u centimetrima
varijabla NS predstavlja broj satelita kod jedinke iz uzorka
varijabla M predstavlja masu jedinke iz uzorka (u kg).
Na temelju podataka dostupnih u ovoj bazi rijeite sljedee zadatke:
1. Kojeg su tipa varijable B i D?
2. Odredite empirijsku distribuciju varijable KR.
3. Procijenite vjerojatnost da je broj satelita kod enke bodljaa Carpilius convexus vei od
5.
4. Nacrtajte stupasti dijagram frekvencija i stupasti dijagram relativnih frekvencija za podatke koji su sadrani u varijabli B.
5. Odredite tablicu frekvencija i relativnih frekvencija za podatke sadrane u varijabli KR
posebno za kategoriju jedinki koje imaju satelite, a posebno za kategoriju jedinki koje
nemaju satelite.
6. Nacrtajte zajedniki stupasti dijagram frekvencija i relativnih frekvencija tipa Separate
svih podataka sadranih u varijabli B kategoriziranih prema tome imaju li odgovarajue
jedinke iz uzorka satelite ili ne.
7. Za podatke sadrane u varijabli M odredite vrijednosti aritmetike sredine, moda (je li
jedinstven?), varijance i standardne devijacije. Protumaite znaenje svake od navedenih
numerikih karakteristika.
8. Skicirajte i protumaite kutijasti dijagram na bazi medijana za podatke sadrane u varijabli
NS.
9. Kategorizirajte varijablu D tako da procijenite vjerojatnost da je irina karapakse vea ili
jednaka od 26 a manja od 28.

193

Zadaci

Zadatak 7.16. Prema jednoj anketi provedenoj u RH, da bi posjetitelj ZOO-vrta bio zadovoljan
mnogobrojnou vrsta, u ZOO-vrtu trebalo bi biti 15% divljih maaka, 20% ptica, 10% majmuna,
15% glodavaca, 20% morskih ivotinja te 20% ostalih ivotinja. Podaci o broju ivotinja u jednom
novootvorenom ZOO-vrtu dani su u sljedeoj tablici:
divlje make
24

ptice
36

majmuni
22

glodavci
32

morske .
60

ostale .
.
26

Razlikuje li se ova distribucija na nivou znaajnosti = 0.05 statistiki znaajno od distribucije


predviene anketom? Koji ste test koristili?

Zadatak 7.17. Prema podacima iz 2007. godine tjedna prodaja cipela u jednoj osjekoj trgovini
cipela bila je oblika: 10% prodano je ponedjeljkom, 13% utorkom, 15% srijedom, 17% etvrtkom,
20% petkom te 25% subotom. Proli tjedan zabiljeene su sljedee frekvencije:
pon
16

uto
20

sri
40

et
26

pet
52

sub
.
46

Vlasnika trgovine zanima odstupaju li na nivou znaajnosti = 0.05 prolotjedni podaci statistiki
znaajno od prologodinjeg tjednog standarda.

Zadatak 7.18. Po istraivanjima Dravne udruge ljubitelja sladoleda, da bi sladokusci slastiarnicu


ocijenili ocjenom izvrstan mora im biti ponueno 30% vonih vrsta sladoleda, 40% mlijenih vrsta
sladoleda, 20% mijeanih vrsta sladoleda i 10% light vrsta sladoleda (bez obzira jesu li po sastavu
voni, mlijeni ili mjeoviti). Frekvencije spomenutih kategorija sladoleda u poznatoj osjekoj
slastiarnici Petar Pan dane su u sljedeoj tablici:
kategorija sladoleda
frekvencija

voni
12

mlijeni
10

mjeoviti
5

light
.
3

Razlikuje li se ova distribucija na nivou znaajnosti = 0.1 od distribucije dobivene istraivanjem?


Koji ste test koristili?

Zadatak 7.19. Po istraivanjima Nacionalne organizacije knjiniara dobro opremljenom smatramo knjinicu u kojoj 40% knjininog fonda ini beletristika, 35% klasici, 20% struna literatura
i 5% rijetke i vrijedne knjige (bez obzira jesu li klasici ili strune knjige). Frekvencije spomenutih
kategorija knjiga u promatranoj knjinici dane su u sljedeoj tablici:
kategorija knjiga
frekvencija

beletristika
430

klasici
330

strune knjige
200

rijetke i vrijedne knjige


.
40

Razlikuje li se ova distribucija na nivou znaajnosti = 0.05 statistiki znaajno od distribucije


dobivene istraivanjem? Koji ste test koristili?

194

Zadaci

Zadatak 7.20. Vlasnika poznate slastiarnice koja prodaje najbolje krempite u gradu zanima
postoji li dio dana u kojemu se kod graana budi vea elja za konzumacijom tog kolaa. Poevi
od 10:00 sati odabrao je 5 vremenskih intervala duljine 2 sata i biljeio broj ljudi koji su kupili
krempitu. Na razini znaajnosti = 0.05 provjerite konzumiraju li graani krempite vie u nekom
od ponuenih vremenskih intervala ili ih konzumiraju jednoliko tijekom cijelog mjerenog perioda.
Vremenski interval
Broj kupaca

10 - 12
16

12 - 14
24

14 - 16
30

16 - 18
20

18 - 20
.
10

Zadatak 7.21. Voditelj pjevakog zbora nastoji potovati zahtjev o jednakoj zastupljenosti prvog,
drugog i treeg glasa u svom zboru. Trenutano zbor broji 90 pjevaa, ije su frekvencije po
glasovima dane u sljedeoj tablici:
Glas
Broj pjevaa

Prvi
33

Drugi
35

Trei
.
23

Razlikuje li se ova distribucija na nivou znaajnosti = 0.05 od zahtijevane distribucije? Koji ste
test koristili?

Zadatak 7.22. Jednog lijenika hitne medicine zanima postoji li dio dana u kojemu ljudi frekventnije trae hitne medicinske intervencije. U svrhu svog istraivanja dan je podijelio na 4 jednaka
vremenska intervala (svaki u trajanju od 6 sati) i prikupio sljedee podatke:
Vremenski interval
Broj intervencija

0:00 - 6:00
20

6:00 - 12:00
27

12:00 - 18:00
31

18:00 - 24:00
22

Na razini znaajnosti = 0.01 provjerite jesu li hitne lijenike intervencije ee u odreeno doba
dana ili su jedoliko distribuirane tijekom cijelog dana.

Zadatak 7.23. (sport.sta)


U bazi podataka sport.sta nalaze se rezultati istraivanja o bavljenju sportom (varijabla sport: 0
- osoba se u slobodno vrijeme ne bavi sportom; 1 - osoba se u slobodno vrijeme bavi sportom) s
obzirom na spol ispitanika (varijabla Spol: Z - osoba je enskog spola; M - osoba je mukog spola).
Rijeite sljedee zadatke:
1. Odredite zajedniku tablicu frekvencija varijabli sport i spol te procijenite zajedniku tablicu
distribucije ovih varijabli.
2. Pomou zajednike tablice distribucije varijabli sport i spol procijenite empirijske distribucije
varijabli sport i spol.
3. Procijenite uvjetnu distribuciju varijable sport posebno za svaku vrijednost varijable spol.
4. Moemo li na nivou znaajnosti = 0.05 govoriti o nezavisnosti varijabli sport i spol? Koji
ste test koristili?

195
Zadatak 7.24. (kupovina.sta)
Baza kupovina.sta sadri podatke o broju bodova koje je kupac skupio tijekom dosadanje kupovine
u nekom trgovakom centru (varijabla broj-bodova) i iznosu popusta u kunama koje mu isti trgovaki centar poklanja u sljedeoj kupovini (varijabla popust-kn) za 100 promatranih kupaca. Koju
ete od ovih varijabli promatrati kao neovisnu, a koju kao ovisnu varijablu? Odredite procjenu
regresijskog pravaca te odgovorite na sljedea pitanja:
1. to o linearnom regresijskom modelu moete rei na temelju analize reziduala?
2. to o linearnom regresijskom modelu moete rei na temelju koeficijenta smjera procijenjenog regresijskog pravca?
3. Koliki je dio promjena u eksperimentalnim vrijednostima ovisne varijable objanjen linearnim regresijskim modelom?

196

Bibliografija
[1] Bain, L.E, Engelhardt, M. Introduction to Probability and Mathematical
statistics, Duxbury, 2009.
[2] Bhattacharyya, G. K., Johnson, R. A. Statistical Concepts and Methods,
Wiley, New York, 1977.
[3] Daniel, W.W., Terrell, J.C. Business Statistics, Houghton Mifflin Company, Boston, 1989.
[4] Elezovi, N. Diskretna vjerojatnost, Element, Zagreb, 2007.
[5] Elezovi, N. Sluajne varijable, Element, Zagreb, 2007.
[6] Elezovi, N. Statistika i procesi, Element, Zagreb, 2007.
[7] Freund, J. E. Mathematical Statistics, Prentice Hall, 1992.
[8] Ilijaevi, M., Paue, . Rijeeni primjeri i zadaci iz vjerojatnosti i statistike, "Zagreb", Samobor, 1990.
[9] Iversen, G. R. Statistics, the conceptual Approach, Springer, Berlin, 1997.
[10] Ivanovi, B. Teorijska statistika Jugoslavenski institut za ekonomska istraivanja, Beograd, 1966.
[11] Jazbec, A. Osnove statistike, umarski fakultet, Zagreb, 2008.
[12] Juki, D., Scitovski, R. Matematika I Elektrotehniki fakultet, Odjel za
matematiku, Prehrambeno-tehnoloki fakultet, Osijek, 2000.
[13] Jamnik, R. Matematina statistika, Dravna zaloba Slovenije, Ljubljana,
1980.
[14] Javor, P. Uvod u matematiku analizu, kolska knjiga, Zagreb, 1988.
197

198
[15] Lehmann, E.L. Testing Statistical Hypotheses, J. Wiley, 1959.
[16] Lehman, E. L., Casella, G. Theory of Point Estimation, Springer, 1998.
[17] Lipschutz, S., Schiller, J. Introduction to Probability and Statistics, Schaums Outline Series, McGraw-Hill, New York Toronto, 1998.
[18] McClave, J. T., Benson, P. G., Sincich, T. Statistics for Bussiness and
Economics, Prentice Hall, London, 2001.
[19] McPherson, G. Applying and Interpreting Statistics, Springer, Berlin, 2001.
[20] Mittelhammer, R.C. Mathematical Statistics for Economics and Bussines,
Springer, New York, 1996.
[21] Paue, . Uvod u matematiku statistiku, kolska knjiga, Zagreb, 1993.
[22] Paue, . Vjerojatnost, informacija, stohastiki procesi, kolska knjiga, Zagreb, 1988.
[23] Pavli, I. Statistika teorija i primjena, Tehnika knjiga, Zagreb, 1985.
[24] Pogany, T. Teorija vjerojatnosti, zbirka rijeenih ispitnih zadataka, Odjel za
pomorstvo Sveuilita u Rijeci, Rijeka, 1999.
[25] Rawlings, J. O., Pantula, S. G., Dicky, D. A. Applied Regression
Analysis, Springer, Berlin, 1998.
[26] Sarapa, N. Teorija vjerojatnosti, kolska knjiga, Zagreb, 1988.
[27] Sarapa, N. Vjerojatnost i statistika I. dio: osnove vjerojatnosti - kombinatorika, kolska knjiga, Zagreb, 1995.
[28] Sarapa, N. Vjerojatnost i statistika II. dio: osnove statistike - sluajne varijable, kolska knjiga, Zagreb, 1996.
[29] Seber G.A.F, Lee A.J. Linear Regression Analysis, Wiley, Hoboken-New
Jersey, 2003.
[30] Serdar, V., oi, I. Uvod u statistiku, kolska knjiga, Zagreb, 1986.
[31] Triola, M.F. Elementary Statistics, The Benjamin/Cummings Publishing
company, Inc. 1989.
[32] Vrani, V. Vjerojatnost i statistika, Tehnika knjiga, Zagreb, 1971.

199
[33] Vranjkovi, P. Zbirka zadataka iz vjerojatnosti i statistike, kolska knjiga,
Zagreb, 1990.

Indeks
2 test, 117, 152
ebievljeva nejednakost, 72

Greka
u linearnom regresijskom modelu, 157
u modelu s aditivnom grekom, 155

Alternativna hipoteza, 110


Aritmetika sredina, 26

Histogram, 24

Box plot
vidi kutijasti dijagram, 29

Interval pouzdanosti
vidi pouzdani interval, 103

Deterministika veza, 153


Dijagram
kutijasti, 29
rasprenosti, 154
Distribucija, 57
diskretne sluajne varijable, 65
dvodimenzionalnog diskretnog sluajnog vektora, 145
marginalna, 145
neprekidne sluajne varijable, 69
teorijska, 117
uvjetna, 147
Dogaaj, 56
Empirijska distribucija
diskretne sluajne varijable, 80
diskretnog sluajnog vektora, 144
sluajne varijable openito, 79
Familija dogaaja, 57
Frekvencija, 16
Funkcija gustoe, 68

Jedinka, 1
Kategorija, 7
Kategorizacija
diskretne numerike varijable, 8
neprekidne numerike varijable, 24
Koeficijent
determinacije, 164
korelacije, 170
Kruni dijagram
frekvencija, 19, 22
relativnih frekvencija, 19, 22
Kvartil
donji, 27
gornji, 27
Linearni regresijski model, 157
analiza reziduala, 160
Maksimalno odstupanje od prosjeka, 28
Maksimum podataka, 28
Medijan
podataka, 26

200

201
sluajne varijable, 73
Metoda najmanjih kvadrata, 157
Minimum podataka, 28
Mjera
centralne tend. sluajne varijable,
70
centralne tendencije podataka, 25
rasprenosti podataka, 25
rasprenosti sluajne varijable, 70
Mod podataka, 29
Nevezani uzorci, 130
Nezavistnost sluajnih varijabli, 147
Nivo signifikantnosti
vidi razina znaajnosti, 111
Nul-hipoteza, 110
Oekivanje
diskretne sluajne varijable, 70
empirijske distribucije, 81
neprekidne sluajne varijable, 71
p-vrijednost, 113
Pearsonov korelacijski koeficijent, 170
Pogreke statistikog testa
pogreka I. tipa, 111
pogreka II. tipa, 111
Populacija, 2, 5
Postotna vrijednost
dvadeset pet postotna
(vidi donji kvartil), 27
sedamdeset pet postotna
(vidi gornji kvartil), 27
Pouzdani interval, 103
za procjenu oekivanja, 104
za procjenu vjerojatnosti, 107
Predikcija, 159
Procjena

distribucije, 82, 100


koeficijenta korelacije, 170
medijana, 82
oekivanja, 82, 100
regresijskog pravca, 157, 159
standardne devijacije, 82
varijance, 82, 101
Procjenitelj, 102, 103
Raspon podataka, 28
Razdioba
vidi distribucija, 57, 65, 69
Razina znaajnosti testa, 111
Regresijski parametri, 156
Regresijski pravac, 156
Relativna frekvencija, 16
Rezidual, 159
Slika sluajne varijable, 55
Sluajna varijabla, 54
Bernoullijeva, 75
binomna, 76
diskretna, 65
eksponencijalna, 90
Fisherova, 90
hi-kvadrat (2 ), 91
neprekidna, 68
normalna, 78
standardna normalna, 79
Studentova, 89
Sluajni vektor
n-dimenzionalan, 142
dvodimenzionalan, 142
dvodimenzionalan diskretan, 141
Standardna devijacija
podataka, 28
sluajne varijable, 72
Statistika hipoteza, 110

202
Statistiki model
linearni regresijski, 157
s aditivnom grekom, 154
Statistiki test, 110
Statistika, 1
Strea vrijednost, 29, 31
Stupasti dijagram
distribucije diskretne sluajne varijable, 66
frekvencija, 19, 22
relativnih frekvencija, 19, 22
Svojstva vjerojatnosti, 62
monotonost vjerojatnosti, 63
vjerojatnost nemogueg dogaaja, 63
vjerojatnost suprotnog dogaaja, 62
vjerojatnost unije, 63
Tablica
distribucije, 66
distribucije dvodimenzionalnog sluajnog vektora, 145
frekvencija, 16
relativnih frekvencija, 16
Testiranje hipoteza
o distribuciji openito, 117
o jednakosti varijanci (F -test), 135
o normalnosti, 119
o oekivanju, 111
o oekivanju za nevezane uzorke, 132
o oekivanju za uzorke u paru, 137
o proporciji za nevezane uzorke, 139
o vjerojatnosti, 115
Tretman, 132
Uzorak, 3
jednostavni sluajni, 103
reprezentativan, 5
sluajan, 6

Varijabla, 2
diskretna numerika, 7, 22
kvalitativna, 6, 15
neprekidna numerika, 7, 22
sluajna, 54
Varijanca
diskretne sluajne varijable, 71
empirijske distribucije, 81
neprekidne sluajne varijable, 71
podataka, 28
Veliina uzorka, 16
Vezani uzorci (uzorci u paru), 131
Vjerojatnost, 56
Zavisnost
linearna, 154, 156
polinomijalna, 154, 156
sluajnih varijabli, 150

You might also like