Professional Documents
Culture Documents
STATISTIKA Skripta Cizmic 2009 PDF
STATISTIKA Skripta Cizmic 2009 PDF
STATISTIKA
Doc.dr.sc.Draenka izmi
- predavanja 2009.g -
SADRAJ:
1. UVOD
Statistiki skup...................................................................................
Vrste i izvori statistikih podataka....................................................
4
4
2. UREIVANJE PODATAKA
5
7
10
10
Mod....................................................................................................
Medijan............................................................................................. .
Aritmetika sredina...........................................................................
Geometrijska sredina.......................................................................
Skupni indeksi.................................................................................. .
12
13
15
17
18
5. MJERE DISPERZIJE
19
22
23
25
6. MJERE ASIMETRIJE
26
7. MJERE ZAOBLJENOSTI
Koeficijent zaobljenosti....................................................................
29
8. MJERE KONCENTRACIJE
31
32
34
Plan uzorka....................................................................................... .
Sampling distribucija........................................................................
37
38
39
42
44
44
49
52
52
57
58
58
59
60
61
PREDAVANJE #1
STATISTIKA znanstvena metoda koja se bavi prikupljanjem, ureivanjem, analizom i tumaenjem
podataka.
STATISTIKI SKUP ine jedinice koje su predmetom promatranja statistikom metodom. Moemo
promatrati osobe, poduzea, zemlje, proizvode itd.
OPSEG SKUPA broj jedinica. S obzirom na opseg statistiki skupovi se dijele na:
KONANI STATISTIKI SKUP studenti upisani na efzg
BESKONANI STATISTIKI SKUP bacanje novia ili proizvodnja
Statistiki skupovi definiraju se pojmovno, prostorno i vremenski.
OSNOVNI SKUP (POPULACIJA) skup podataka o promatranom svojstvu za svaku jedinicu statistikog
skupa.
UZORAK podskup, dio osnovnog skupa. Dio podataka izdvojen iz cjelovite evidencije.
STATISTIKO OBILJEJE (VARIJABLA) svojstvo koje stupnjem ili oblikom varira od jedinice do jedinice
statistikog skupa.
VRSTE STATISTIKOG OBILJEJA:
1. NUMERIKO (KVANTITATIVNO) izraava se brojevima
DISKRETNO (diskontinuirano) poprima iskljuivo cjelobrojne vrijednosti. npr. broj uenika u
razredu, broj djece u obitelji
KONTINUIRANO moe poprimiti bilo koju vrijednost iz nekog intervala. npr. visina, teina,
cijena...
2. KVALITATIVNO
NOMINALNO (atributivno i geografsko) izraava se opisno ili rijeima. npr. atributivno
spol, zanimanje ; geografsko mjesto roenja
REDOSLIJEDNO (obiljeje ranga) npr. ocijena, stupanj kvalitete
MJERENJE postupak pridruivanja numerikih i nenumerikih oznaka jedinicama statistikih skupova na
temelju odreenog pravila. Temelji se na primjeni mjerih skala.
MJERNE SKALE:
1. NOMINALNA sastoji se od liste naziva
2. ORDINALNA ovom skalom jedinicama statistikih skupova pridruuju se slovne oznake, simboli ili
brojevi sukladno intenzitetu mjernog svojstva
3. INTERVALNA - ovom skalom jedinicama statistikih skupova pridruuju se brojevi sukladno
intenzitetu mjernog svojstva. Za ovu skalu karakteristino je da ima definiranu mjernu jedinicu i
dogovorno utvrenu nulu. npr. temperaturna ljestvica.
4. OMJERNA - ovom skalom jedinicama statistikih skupova pridruuju se brojevi sukladno intenzitetu
mjernog svojstva. Za ovu skalu karakteristino je da ima definiranu mjernu jedinicu i nulu koja
oznaava nepostojanje svojstva. npr. plaa, broj zastoja rada stroja.
4
IZVORI PODATAKA:
PRIMARNI prikupljaju se u skladu s ciljem istraivanja.
SEKUNDARNI prikupljaju ih razne institucije (dravni zavod za statistiku, banke, agencije
za istraivanje trita, osiguravajui zavodi...)
PREDAVANJE #2
UREIVANJE PODATAKA ureivanjem podataka nastaju statistiki nizovi
STATISTIKI NIZOVI:
1. NOMINALNI NIZ nastaje ureivanjem podataka o nominalnom obiljeju
2. REDOSLIJEDNI NIZ nastaje ureivanjem podataka o rang varijabli
3. NUMERIKI NIZ nastaje ureenjem podataka koji predstavljaju vrijednosti numerike varijable
4. VREMENSKI NIZ nastaje kronolokim nizanjem podataka o nekoj pojavi (proizvodnja,uvoz,izvoz)
STATISTIKE TABELE:
JEDNOSTAVNA
Poljoprivredna povrina po kategorijama u tisuama
hektara u RH, 2003.g
KATEGORIJE
POVRINA
oranice i vrtovi
1460
vonjaci
68
vinogradi
57
livade
396
panjaci
1156
izvor: SLJRH, 2004.g., str.250
SKUPNA sadri barem dva niza koji su grupirani prema modalitetima istog obiljeja
Izvoz i uvoz prema pretenoj ekonomskoj namjeni u
milijunima am. $ u RH, 2003.g.
EKONOMSKA NAMJENA
IZVOZ
UVOZ
proizvodi za reprodukciju
2959
6583
proizvodi za investicije
1341
3316
proizvodi za iroku potronju
1886
4311
izvor: SLJRH, 2004.g., str.386
KOMBINIRANA (TABELA KONTIGENCE, TABELA S DVA ULAZA) podaci su grupirani prema
modalitetima dvaju ili vie varijabli
Stanovnitvo prema spolu i starosti u tisuama u RH, popis iz 2001.g.
STAROST
SPOL
0 14
15 64
65 -
M
388
1482
266
izvor: SLJRH, 2004.g., str.95
5
370
1501
430
fi
k
i 1
fi
fi
i 1
100
fi
NUMERIKI NIZOVI nastaju ureenjem numerikih podataka. Nain njihova ureivanja ovisi o tome
da li su podaci diskretni ili kontinuirani.
NAINI UREIVANJA:
1. mali broj podataka - ureuje se nizanjem po veliini. Pojedinani numeriki podaci grafiki se
prikazuju dijagramom s tokama i dijagramom stablo-list (S-L dijagram)
Primjer 1.
Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:
Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29
Podaci ureeni po veliini:
Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34
dijagram s tokama:
dijagram stablo-list:
0
1
2
3
8
0
0
0
9
4 5 7 8 8
4 5 7 9
4
O|8 predstavlja 8
2. diskretno obiljeje - velik broj podataka i manji broj oblika pristupa se grupiranju. Numeriki niz
odnosno distribucija frekvencija se sastoji od parova (xi, fi), i=1,2,....,k
xi modaliteti numerikog obiljeja
fi pripadajue frekvencije
Primjer 2.
Dnevna prodaja garnitura sobnog namjetaja
BROJ GARNITURA
BROJ DANA
xi
fi
1
1
2
5
3
8
4
26
5
19
6
12
ukupno
71
3. kontinuirano obiljeje/ diskretno obiljeje s veim brojem oblika grupiranje se provodi na temelju
razreda. Svaki razred ima donju i gornju granicu.
frekvencija razreda broj podataka omeen donjom i gornjom granicom razreda
Numeriki niz odnosno distribucija frekvencija sastoji se od parova razreda i pripadajuih
frekvencija (Li1 xi Li2, fi), i= 1,2,....,k
Li1 donja granica i-tog razreda; Li2 gornja granica i-tog razreda; fi frekvencija i-tog razreda
7
Primjer 3.
Radnici poduzea A prema
starosti
STAROST
BROJ RADNIKA
18 26
5
26 34
6
34 42
10
42 50
5
50 58
4
ukupno
30
Formiranju distribucije frekvencija prethodi odreivanje broja razreda i njihove veliine. Za
odreivanje broja razreda koristi se Sturgesovo pravilo: k 1 + 3,3 logN
k-broj razreda; N-zbroj frekvencija
Ako su razredi jednakih veliina, veliina im se aproksimira tako da se raspon varijacije podijeli sa
brojem razreda:
ii
x max x min
k
Primjer 4.
Nepismeno stanovnitvo staro 10.g. i vie prema starosti u RH prema popisu iz 2001.g.
STAROST
BROJ
PRAVE
RAZREDNA
VELIINA
KORIGIRANE
OSOBA
GRANICE
SREDINA
REZREDA
FREKVENCIJE
fi
xi
ii
1
2
3
4
5
6
10-19
1845
9.5-19.5
14.5
10
2768
20-34
3160
19.5-34.5
27
15
3160
35-49
4457
34.5-49.5
42
15
4457
50-64
11108
49.5-64.5
57
15
11108
65-(99)
49207
64.5-(99.5)
82
35
21089
UKUPNO
69777
Prvi i posljednji razred mogu biti otvoreni razredi. Njihove se veliine procjenjuju i procjena se
stavlja u zagradu.
Kada su razredi razliitih veliina potrebno je korigirati frekvencije:
f ci
fi
- ova se formula koristi kada su svi razredi razliitih veliina, a moe se
ii
koristiti i generalno
f ci
fi
i i - bazna veliina razreda (najee se pojavljuje)
ib
IZVEDENI NIZOVI:
PREDAVANJE #3
VREMENSKI NIZ skup kronoloki ureenih vrijednosti koje predstavljaju neku pojavu (proizvodnja,
uvoz, izvoz).
LANOVI NIZA vrijednosti koje tvore niz
Vremenski niz noe biti:
INTERVALNI nastaje trajanjem vrijednosti pojave po intervalima vremena (godina,
kvartal, mjesec) npr. proizvodnja, uvoz, izvoz...
TRENUTANI sastoji se od kronoloki ureenih vrijednosti koje predstavljaju stanja
pojave u odabranim vremenskim tokama (poetak, sredina, kraj) npr. stanje na
raunima, zakljune cijene dionica..
Radi lakeg praenja u grafikon se ucrtava mrea. Prikaz je u pravokutnom koordinatnom sustavu s
aritmetikim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za
lanove vremenskog niza.
OKOMITI PREKID GRAFIKONA ako se ne raspolae podacima za dio razdoblja mogue je izostaviti dio
mjerila na osi apscisa.
VODORAVNI PREKID GRAFIKONA ako neka pojava varira na velikim razinama mogue je izostaviti dio
mjerila osi ordinata.
Prekidaju se samo linijski grafikoni.
POLULOGARITAMSKI GRAFIKON koristi se ako se na istom grafikonu usporeuju raznorodni podaci
(nizovi izraeni u razliitim mjernim jedinicama). To je grafikon sa aritmetikim mjerilom na osi apscisa, a
logaritamskim na osi ordinata.
verini indeksi njima se prati razvoj pojave u uzastopnim vremenskim razdobljima. Verini
indeks Vt razdoblja t dobije se tako da se vrijednost toga razdoblja podijeli s vrijednou
yt
V
100
t
prethodnog razdoblja te se pomnoi sa sto
y t 1
Verini indeksi se grafiki prikazuju specifinim linijskim grafikonom i grafikonom
jednostavnih stupaca.
KOEFICIJENT DINAMIKE vrijednost tekueg razdoblja podijeljena sa vrijednou
prethodnog razdoblja ne pomnoena sa sto Vt
yt
y t 1
10
S t Vt 100
Primjer 1.
Izvoz RH u milijunima US$ u razdoblju od 1999. do 2003.g.
GODINA
IZVOZ
VERINI INDEKSI
STOPA PROMJENE
yt
Vt
St
1999
4302
2000
4432
103,2
3,02
2001
4665
105,26
5,26
2002
4904
105,12
5,12
2003
6197
126,36
26,36
izvor: SLJRH 2004., str.384
Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je vei od 100
predstavlja postotno poveanje, a ako je manji od 100 predstavlja postotno smanjenje.
npr. Izvoz u RH u 2003.g. poveao se za 26.36% u odnosu na 2002.g.
indeksi na stalnoj bazi njima se mjere promjene u odnosu na neko odabrano bazno
razdoblje. Izraunavaju se tako da se svaki lan niza podijeli s vrijednou baznog razdoblja
te pomnoi sa 100 I t
yt
100
yb
BAZNO RAZDOBLJE razdoblje u kojemu pojava nije bila izloena nekim neuobiajenim
utjecajima (prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili
nekakav prosjek.
STOPA PROMJENE kad od indeksa odbijemo sto S t I t 100
Bazni indeksi se grafiki prikazuju linijskim grafikonom jednostavnih stupaca.
*
Primjer 2.
GODINA
IZVOZ
BAZNI INDEKSI
STOPA PROMJENE
1999 = 100
1999
4302
100,00
0,00
2000
4432
103,02
3,02
2001
4665
108,44
8,44
2002
4904
113,99
13,99
2003
6197
144,05
44,05
U 2003.g. izvoz se poveao za 44.05% u odnosu na baznu 1999.g.
M o L1
(b a )
i
(b a ) (b c )
MEDIJAN srednja vrijednost koja numeriki niz ureen po veliini dijeli na dva jednakobrojna dijela
1. pojedinani podaci (neparan broj) MEDIJAN je jednak vrijednosti varijable sredinjeg lana u nizu
N
INT
2
M e xr
N
r INT 1
2
Primjer 6.
Podaci moraju biti ureeni po veliini
1 3 5 8 10 12 14 7/2 = 3.5 ; r =4 ; Me = x4 = 8
2. pojedinani podaci (paran broj) MEDIJAN je jednak poluzbroju vrijednosti varijable sredinjih
dvaju lanova niza ureenog po veliini N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2
Primjer 7.
11 24 29 37 40 53 65 72 N=8 ; r=4 ; Me = (37+40)/2 = 38.5
3. distribucija frekvencija formirana na temelju pojedinanih vrijednosti odreivanje MEDIJANA se
pojednostavljuje uporabom kumulativnog niza manje od. MEDIJAN je jednak vrijednosti varijable
ija kumulativna frekvencija prva ukljuuje N/2.
Primjer 8.
Dnevna prodaja
BROJ GARNITURA
BROJ DANA
KUMULATIVNI NIZ
xi
fi
S(xi)
1
1
1
2
5
6
N/2 = 35.5
3
8
14
Me = 4
4
26
40
5
19
59
6
12
71
UKUPNO
71
4. distribucija frekvencija s razredima MEDIJAN se aproksimira pomou izraza:
N
fi
2
M e L1
i
f med
L1 donja prava granica medijalnog razreda
N zbroj apsolutnih ili relativnih frekvencija
fi zbroj frekvencija do medijalnog razreda
fmed frekvencija medijalnog razreda
i veliina medijalnog razreda
MEDIJALNI RAZRED onaj ija kumulativna frekvencija prvi put ukljuuje N/2.
Primjer 9.
STAROST
BROJ OSOBA
PRAVE
VELIINE
KUMULATIVNE
GRANICE
RAZREDA
FREKVENCIJE
fi
ii
S(xi)
15-24
216
14,5-24,5
10
216
25-49
1152
24,5-49,5
25
1368
50-64
370
49,5-64,5
15
1738
65-(74)
55
64,5-(74,5)
10
1793
13
N/2 = 896.5
Me = 24.5 + (896.5-216)/1152 * 25 = 39.27 god
Prvih 50% osoba imalo je 39 godina i manje, a preostalih 50% osoba bilo je starije od 39 godina
KVANTILI numeriki niz ureen po veliini dijele na jednakobrojne dijelove. Medijan spada meu kvantile
KVARTILI niz ureen po veliini dijele na 4 jednakobrojna dijela
DECILI niz ureen po veliini dijele na 10 jednakobrojnih dijelova
PERCENTILI niz ureen po veliini dijele na 100 jednakobrojnih dijelova
Broj kvartila je za jedan manji od njihova reda, tj. 3 su kvartila, 9 decila i 99 percentila
PREDAVANJE #4
ARITMETIKA SREDINA dobije se tako da se zbroje vrijednosti numerike varijable i podijele sa
njihovim brojem.
TOTAL zbroj vrijednosti numerike varijable; aritmetika sredina je jednaki dio totala po jedinici
Svojstva aritmetike sredine:
1. zbroj vrijednosti odstupanja numerike varijable od njezine aritmetike sredine jednak je nuli
2. zbroj kvadrata odstupanja vrijednosti numerike varijable od njezine aritmetike sredine minimalan
je
3. aritmetika sredina nalazi se izmeu najmanje i najvee vrijednosti niza za koji je izraunata
N
x
i 1
Primjer 1.
Slijedei niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:
25 24 25 23 25 22 21 25 20 25 235/10=23.5 prosjena prodaja iznosila je 23.5 kn
Aritmetika sredina izraena je u istim mjernim jedinicama kao i obiljeje.
VAGANA (PONDERIRANA) ARITMETIKA SREDINA primjenjuje se za grupirane podatke, tj. za distribuciju
frekvencija
k
fixi
x
fi
i 1
pixi
i 1
100
k
pixi
i 1
14
306
4,31 4 garniture dnevno
71
PROCIJENJENI
PODTOTALI
71748,5
40,02 godina
1793
Prosjena starost aktivnog stanovnitva iznosila je 40.02 godina.
x
ARITMETIKA SREDINA ARITMETIKIH SREDINA odreuje se kao vagana sredina u kojoj se za pondere
uzima broj podataka za koje su pojedine sredine raunate ili tom broju proporcionalne veliine.
k
Nixi
i 1
k
Ni
i 1
15
Primjer 4.
Odabrane kompanije zaposlenih i prosjene mjesene plae u kn
KOMPANIJA
BROJ
PROSJENA
UKUPNA
ZAPOSLENIH
PLAA
PLAA
Ni
x
Ni xi
ALFA
550
3500
1925000
GAMA
320
2300
736000
TRADE
250
4200
1050000
UKUPNO
1120
3711000
3711000
3313,39
1120
Ako se svaka individualna vrijednost numerikog obiljeja zamijeni aritmetikom sredinom dobiva se
polazna veliina tj. total ili zbroj vrijednosti numerikog obiljeja.
ARITMETIKA SREDINA RELATIVNIH BROJEVA KOORDINACIJE odreuje se kao vagana sredina u kojoj su
k
BiRi
i 1
k
Bi
i 1
RELATIVNI BROJEVI KOORDINACIJE omjerni su brojevi koji nastaju diobom dviju koordinirajuih veliina
Vi
Ri
Bi
Grafiki se prikazuju na 2 naina:
1. jednostavnim stupcima
2. pravokutnicima ije su osnovice proporcionalne bazama tih brojeva, a visine samim relativnim
brojevima koordinacije
Primjer 5.
Najvee drave svijeta, povrina u km2 i broj stanovnika na km2
DRAVA
POVRINA U km2
STANOVNITVO/ km2
UKUPAN BROJ
STANOVNIKA
Bi
Ri
Vi= Ri*Bi
RUSIJA
17075400
8
136603200
KANADA
9970610
3
29911830
SAD
9629091
30
288872730
KINA
9596961
135
1295589735
BRAZIL
8514215
21
178798515
UKUPNO
54786277
1929776010
16
x1 x 2 .... x i .... x N
x1 1 x 2 2 .... x i i .... x k
fk
2004
1,02
S (G 1) 100
G n 1 V2V3 .....Vn
N
N
x
i 1
grupirani podaci H
f
i 1
k
fi
x
i 1
8405535
45697
8405535
184 tis . kn
45697
Ako nazivnici relativnih brojeva koordinacije nisu poznati, a brojnici jesu ili se lake procjenjuju do sredine
e se doi pomou izraza za vaganu ponderiranu harmonijsku sredinu:
k
V
i 1
k
Vi
R
i 1
Ako imamo zadano Bi koristimo formulu za aritmetiku, a ako su nam zadane Vi koristimo harmonijsku
vaganu sredinu.
SKUPNI INDEKSI njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz, izvoz....
SKUPNI INDEKSI CIJENA
SKUPNI INDEKSI KOLIINA
SKUPNI INDEKS VRIJEDNOSTI
U pravilu se raunaju kao vagana aritmetika sredina individualnih indeksa. Ponderi su obino vrijednosti.
Uglavnom se izraunavaju:
LASPEYRESOV INDEKS CIJENA I KOLIINA
PAASCHEOV INDEKS CIJENA I KOLIINA
FISHEROV INDEKS CIJENA I KOLIINA
INDEKS VRIJEDNOSTI
Skupne indekse izraunavaju i objavljuju statistiki uredi. Obino su Laspeyresova tipa: INDEKS
POTROAKIH CIJENA mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJE
Skupni indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na
vrijednosno izraene pojave.
PREDAVANJE #5
MJERE DISPERZIJE
Reprezentativnost srednje vrijednosti ovisi o stupnju varijabilnosti podataka.Varijabilnost numerikog
obiljeja predoava se i pomou grafikih prikaza: dijagram s tokama i dijagram s pravokutnikom
Mjere za varijabilnost podataka su:
1. raspon varijacije
2. interkvartil
3. koeficijent kvartilne devijacije
4. varijanca
5. standardna devijacija
6. koeficijent varijacije
7. srednje apsolutno odstupanje (MAD)
18
1. RASPON VARIJACIJE
pojedinani podaci odreuje se kao razlika izmeu najvee i najmanje vrijednosti
Rx xmax xmin
R x x k x1
distribucija frekvencija s razredima aproksimira se kao razlika izmeu gornje granice
posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog
razreda.
Raspon varijacije je apsolutna (izraena je u istim mjernim jedinicama kao i obiljeje) i nepotpuna (dobiva
se iz samo dvije vrijednosti) mjera disperzije.
2. INTERKVARTIL
KVARTILI:
PRVI ILI DONJI KVARTIL (Q1) vrijednost numerike varijable koja lanove niza dijeli u dvije
skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili manja od
donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima veim od donjeg kvartila.
DRUGI ILI MEDIJAN (Q2)
TREI ILI GORNJI KVARTIL (Q3) - vrijednost numerike varijable koja lanove niza dijeli u dvije
skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili manja od
gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima veim od gornjeg kvartila.
Interkvartil se odreuje kao razlika kvartila I Q Q3 Q1
Interpretira se kao raspon varijacije sredinjih 50% podataka:
50%
IQ = Q3 Q1 = 30 - 25=5 min
Raspon varijacije sredinjih 50% studenata iznosio je 5 min, tj. njihova vremena bila su
izmeu 25 i 30 min.
koeficijent kvartilne devijacije
VQ= (Q3-Q1)/(Q3+Q1) = (30-25)/(30+25) = 0.09
Raspon varijacije sredinjih 50% studenata u relativnom iznosu je 0.09.
B-P dijagram
N/2 = 10/2 = 5 = INT , r=5
Me = (xr+Xr+1)/2 = (x5+x6)/2 = (28+28)/2 = 28
20
raspon varijacije
Rx = 30 10 = 20 min
Rx = 27.5 12.5 = 15 min
interkvartil
N/4 = 75/4 = 18.75
Kvartilni razred je razred ija kumulativna frekvencija prva ukljuuje vrijednost N/4
21
N
f1
4
Q1 L1
i
f k var
3N
f1
4
Q3 l1
i
f k var
Q1 15
Q3 20
18.75 15
5 15.9 min
20
56.25 35
5 23.5 min
30
x
i 1
x
i 1
Me
MADMe
N
N
za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim
frekvencijama
Primjer 4.
Dnevna prodaja hladnjaka u 10 prodavaonica iznosila je: 2 5 3 3 7 3 4 6 4 3
x 40 4
x
PRODAJA
PRODAJA
N
10
xi
xi
x x
i
2
5
3
3
7
3
4
6
4
3
40
2
1
1
1
3
1
0
2
0
1
12
2
5
3
3
7
3
4
6
4
3
40
xi M e
1,5
1,5
0,5
0,5
3,5
0,5
0,5
2,5
0,5
0,5
12,0
PREDAVANJE #6
5. VARIJANCA aritmetika sredina kvadrata odstupanja vrijednosti numerike varijable od njezine
aritmetike sredine. Varijanca je mjera disperzije u drugom stupnju koju je potrebno vratiti u prvi stupanj.
22
2
negrupirani podaci
x
i 1
2
grupirani podaci
f (x
i 1
x)2
f
i 1
6. STANDARDNA DEVIJACIJA pozitivni drugi korijen iz varijance. Potpuna i apsolutna mjera disperzije.
N
(x
negrupirani podaci
i 1
N
k
grupirani podaci
x)2
f (x
i 1
x )2
f
i 1
7. KOEFICIJENT VARIJACIJE realtivna mjera disperzije. Odreuje se kao omjer srtandardne devijacije i
aritmetike sredine pomnoen sa sto.
V
100
xi
( xi x )2
278
i 1
x
27.8 min
20
60.84
N
10
22
33.64
N
25
.
( xi x ) 2
27
.
191.60
2 i 1
19.16
28
.
N
10
28
.
30
.
2 19.16 4.38 min
30
.
33
.
4.38
35
.
V 100
100 15.76%
UKUPNO
191.60
x
27.8
23
Interpretacija:
Prosjeno vrijeme rjeavanja zadataka iznosilo je 27.8 minuta s prosjenim odstupanjem od 4.38 minute
odnosno 15.76%.
Primjer 2. Distribucija frekvencija formirana na temelju pojedinanih podataka
Pismeni ispit iz statistike sadri 5 zadataka. Distribucija studenata prema broju rjeenih zadataka dana je
u tabeli:
k
BROJ
BROJ
kol. 1x2
f i xi
ZADATAKA STUDENATA
785
i 1
x k
2.80 zadataka
2
xi
fi
fixi
280
f ( x x)
i
i 1
0
1
2
3
4
5
UKUPNO
10
25
55
125
50
15
280
0
25
110
375
200
75
785
78.4
81.0
.
.
.
.
344.2
f
i 1
( xi x ) 2
k
f
i 1
344.2
1.23
280
1.11
100
2.80
100 39.64%
Prosjeni broj rjeenih zadataka iznosio je 2.80 zadatka. S prosjenim odstupanjem od 1.11 zadataka
odnosno 39.64%.
Primjer 3. Distribucija frekvencija s razredima
Struktura aktivnog stanovnitva u drugom polugoditu 2003.g. u RH
STAROST STAROST%
PRAVE
RAZREDNE kol. 2x4
VELIINA
GRANICE
SREDINE
RAZREDA
Pi
xi
Pixi
P ( x x)2
i
15-24
25-49
50-64
65-(74)
UKUPNO
12
64
21
3
100
14.5-24.5
24.5-49.5
49.5-64.5
64.5-(74.5)
-
19.5
37.0
57.0
69.5
-
234.0
2368.0
1197.0
208.5
4007.5
5043.00
.
.
.
14298.75
10
25
15
10
-
KORIGIRANE
FREKVENCIJE
Pci
12
25.6
14.0
3.0
-
Px
i
i 1
100
k
P (x
i 1
4007.5
40 godina
100
x) 2
Pi
14298.75
142.99
100
i 1
11.96
100
40.00
Interpretacija:
Prosjena starost aktivnog stanovnitva iznosila je 40
godina. S prosjenim odstupanjem od 11.96 godina
odnosno 30%.
100 30%
24
x x
z 0 ; z 1
PRAVILO EBIEVA govori da je najmanja proporcija lanova bilo kojeg niza obuhvaenih bilo kojim
intervalom x k , k 1 , jednaka 1 12 .
k
Primjer 4.
Prosjean broj bodova na 1. kolokviju iz statistike iznosi 15, a prosjeno odstupanje od prosjeka iznosi 5.
Na drugom kolokviju postignut je prosjean broj bodova 17 s prosjenim odstupanjem od prosjeka 4.
Student je na prvom kolokviju postigao 20, a na drugome 22 boda. to se moe zakljuiti o uspjehu
studenta na kolokvijima?
x1 15
x2 17
1 5
x1 20
2 4
x2 22
x1 x
20 15
1.00
1
5
x x 22 17
Vrijednost standardiziranog obiljeja na drugom kolkviju: z 2 2
1.25
2
4
Student je na oba kolokvija postigao iznad prosjean rezultat. Bolji je na drugom kolokviju jer je
odstupanje od prosjeka na vie 1.25 , a na prvome 1 .
Primjer 5.
Mjereno je vrijeme u minutama potrebno za rjeavanje jednog zadatka iz statistike za 10 studenata.
Dobiveni su ovi rezultati: 20 22 25 27 28 28 30 30 33 35
Je li vrijeme rjeavanja od 35 minuta netipino?
Netipian je podatak koji se nalazi izvan pojasa x 2 tj. ako od prosjeka odstupa za vie od 2.
Ako se podaci rasporeuju po normalnoj distribuciji netipian je podatak koji se nalazi izvan pojasa
x 3 tj. ako od prosjeka odstupa za vie od 3.
25
x 27.8 min
4.38 min
z
xx
35 27.8
1.64
4.38
smatrati netipinim.
PREDAVANJE #7
MJERE ASIMETRIJE njima se mjeri nain rasporeda podataka prema aritmetikoj sredini ili nekoj
drugoj vrijednosti.Najvanije su:
1. Koeficijent asimetrije 3 - potpuna mjera
2. Pearsonova mjera
nepotpune
3. Bowleyeva mjera
mjere
1. KOEFICIJENT ASIMETRIJE 3
MOMENTI OKO SREDINE aritmetike sredine odstupanja vrijednosti numerike varijable od
njezine aritmetike sredine podignuti na neku potenciju
N
pojedinani podaci r
(x
i 1
grupirani podaci r
f (x
i 1
x)
x)r
f
i 1
- s obzirom na veliinu r govori se o nultom, prvom, drugom, treem ili etvrtom momentu oko
sredine
- koeficijent asimetrije 3 je omjeru treeg momenta oko sredine i standardne devijacije podignute
M3
na treu potenciju 3 3 obino se kree u intervalu z, a u odreenim sluajevima moe
simetrina distribucija
26
- Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od
aritmetike sredine:
St
3( x Me)
St
( x Mo)
St = 0 simetrina distribucija
St > 0 pozitivno asimetrina distribucija
St < 0 negativno asimetrina distribucija
3. BOWLEYJEVA MJERA temelji se na odnosu medijana i kvartila
simetrina distribucija
Me Q1 Q3 Me
Q1 Q3 2 Me 0
27
kree se u intervalu
Q1 Q3 2 Me 0
S ka
Q1 Q3 2 Me
Q3 Q1
kree se u intervalu 1
Ska = 0 simetrina distribucija
Ska > 0 pozitivno asimetrina distribucija
Ska < 0 negativno asimetrina distribucija
11.5 g
2
2
2
11
.
.
.
N
12
.
.
.
2.5 Q1 x3 11
4
11
.
.
.
11
.
.
.
3N
7.5 Q3 x8 15
15
.
.
.
4
120
0
30
36
1.koeficijent asimetrije
N
(x
i 1
x )3
N
N
2 2
(x
i 1
36
3.6
10
x)2
30
3
10
2 3 1.73g
3
M3
3.6
0.69
1.733
Sk
x Mo 12 11
0.53
173
3. Bowleyjeva mjera
Q Q3 2Me 11 13 2 11.5
S ka 1
0.5
Q3 Q1
13 11
28
15
20
30
10
75
12.5
17.5
2.5
17.5
-
187.5
350
675
275
1487.5
187.5
1716.67
75
f
f ( x x ) 1716.67 22.87
75
f
i
-5907.49
-1076.29
M3
Mo 21.67 min
M2
Me 20.42 min
Q1 15.94 min
M3
Q3 23.54 min
14.35
0.13
4.783
4.78
Q Q3 2Me 15.94 23.54 2 80.42
1
0.18
Q3 Q1
23.54 15.94
Pearsonova mjera: S k
Bowleyjeva mjera: S ka
x Mo
MJERA ZAOBLJENOSTI
KOEFICIJENT ZAOBLJENOSTI 4 njime se mjeri zaobljenost modalnog vrha distribucije. Izraunava se kao
M
omjer etvrtog momenta oko sredine i standardne devijacije podignute na 4. potenciju 4 44
negrupirani podaci M 4
(x
i 1
grupirani podaci M 4
f
i 1
x )4
( x i x )4
k
f
i 1
29
4 1.8 pravokutna
4 < 1.8 U-distibucija
distribucija
x 12 g
1.73g
M4
(x
x)4
198
19.8
10
N
M
19.8
4 44
2.21
1.73 4
K 3 3 2.21 3 0.79
x 19.83 min
4.78 min
fi
xi
f i ( xi x )
15
20
30
10
75
12.5
17.5
22.5
27.5
-
13 301.92
.
.
.
80 024.41
30
M4
f (x x)
f
i
M4
80024.41
1066.99
75
1066.99
2.04
4.78 4
K 4 3 2.04 3 0.96
Cr
i 1
N
i 1
1
Cr 1
N
negrupirani podaci
i 1
i 1
2 ixi ( N 1) xi
N
N xi
i 1
31
PREDAVANJE #8
OSNOVNI POJMOVI VJEROJATNOSTI
VJEROJATNOST brojana mjera nastanka neizvjesnih, tj. sluajnih dogaaja. Vjerojatnost nastanka
dogaaja A jednaka je P(A) pri emu je 0 P(A) 1. Nekada se izraava i u obliku postotka.
DEFINICIJE VJEROJATNOSTI
SLUAJNI POKUS pokus je sluajan ako se u definiranim uvjetima moe ponavljati, ako postoje barem 2
razliita ishoda te ako se ishodi ne mogu predvidjeti sa sigurnou.
PROSTOR UZORKA S skup svih moguih ishoda sluajnog pokusa
SLUAJNI DOGAAJ jednolani ili vielani podskup skupa S te su sa dogaajima doputene skupovne
operacije.
1. KLASINA DEFINICIJA (vjerojatnost a priori) pretpostavlja se da se pokus ponavlja konaan broj puta,
pri emu se vjerojatnost odreuje kao omjer povoljnog broja ishoda m i ukupnog broja ishoda n
m
P ( A)
n
2. STATISTIKA VJEROJATNOST (vjerojatnost a posteriori) broj ponavljanja pokusa je beskonaan, a
vjerojatnost se aproksimira relativnom frekvencijom, tj.omjerom apsolutne frekvencije opsega i opsega
statistikog skupa.
3. SUBJEKTIVNA VJEROJATNOST to je broj iz intervala [0,1] odreen na temelju prosudbe okolnosti
relevantnih za nastup sluajnog dogaaja.
SVOJSTVA VJEROJATNOSTI:
1) vjerojatnost da dogaaj A nee nastupiti jednaka je P()=1-P(A)
2) vjerojatnost istodobnog nastupa dogaaja A1 i A2 jednaka je P(A1A2)
3) ako su dogaaji meusobno iskljuivi, vjerojatnost da e nastupiti dogaaj A1 ili A2 jednaka je
P(A1UA2)=P(A1)+P(A2)
4) ako dogaaji nisu meusobno iskljuivi, vjerojatnost nastupa barem jednog od njih jednaka je
P(A1UA2)=P(A1)+P(A2)-P(A1A2)
5) ponekad je potrebno odrediti vjerojatnost nastupa dogaaja A uz uvjet da se dogodio dogaaj B.
P( A B)
Takva se vjerojatnost naziva uvjetnom vjerojatnou P( A | B)
P( B)
6) ako su dogaaji neovisni tada vrijedi da je P(AB)=P(A)P(B)
SLUAJNA VARIJABLA X numerika funkcija koja svakom ishodu sluajnog pokusa pridruuje realan broj.
diskretne sluajne varijable skup ureenih parova razliitih vrijednosti sluajne varijable xi i
pripadajuih vjerojatnosti p(xi). Ima slijedea svojstva:
- p(xi) 0
- p(xi) = 1
Kumulativna funkcija ili funkcija distribucije F(xi) pokazuje kolika je vjerojatnost da sluajna
varijabla x poprimi vrijednost xi ili manju.
32
f ( x)dx 1
Primjer 1.
KVALITETA PROIZVODA
(KLASA)
I
II
III
UKUPNO
BROJ PROIZVODA
DOB A
DOB B
20
10
10
10
30
20
60
40
UKUPNO
KVALITETA PROIZVODA
(KLASA)
I (A1)
II (A2)
III (A3)
UKUPNO
BROJ PROIZVODA
DOB A (B1) DOB B (B2)
0.2
0.1
0.1
0.1
0.3
0.2
0.6
0.4
UKUPNO
30
20
50
100
0.3
0.2
0.5
1
marginalne vjerojatnosti
0.6
P( A3 )
0.5
g) Jesu li varijable kvaliteta i dobavlja neovisne?
Ako bi varijable kvaliteta i dobavlja bile neovisne, vjerojatnosti bi u polju tabele bile jednake umnoku
P( Ai B j ) P( Ai ) P( B j )
marginalnih vjerojatnosti
P( A1 B1 ) P( A1 ) P( B1 ) 0.3 0.6 0.18
Budui da je 0.20.18, izmeu kvalitete proizvoda i dobavljaa postoji zavisnost.
Primjer 2.
xi
0
1
2
3
4
UKUPNO
p(xi)
0.1
0.2
0.4
0.2
0.1
1.0
xi p(xi)
0
0.2
0.8
0.6
0.4
2.0
F(xi)
0.1
0.3
0.7
0.9
1.0
-
33
n
n!
x x!( n x )!
Oekivana vrijednost Ex n p
2
Varijanca n p q
2
Varijanca
Primjer 3.
Prema raspoloivim podaciima banke u prosjeku 5 stranaka po satu zahtijeva usluge oroavanja depozita.
Pretpostavi li se da stranke prispjevaju u banku neovisno, po satima u random vremenu s itom
vjerojatnosti, kolika je vjerojatnost da se pred elterom za oroavanje nau: (broj stranaka koje u jednom
satu za radnog vremena dolaze neovisno i s istom vjerojatnosti diskretna je sluajna varijabla koja se
ravna prema Poissonovoj distribuciji s parametrom = 5.)
a) 3 stranke?
P(3)
e 5
0.14037
3!
b) vie od 1 stranke?
P( x 1) 1 p(0) p(1) 0.95957
e 5 5 0
0.00674
0!
e 5 51
p(1)
0.03369
1!
p(0)
34
PREDAVANJE #9
Distribucije vjerojatnosti kontinuirane sluajne varijable:
1. NORMALNA (GAUSSOVA)
2. STUDENTOVA (T-DISTRIBUCIJA)
3. 2 (HI-KVADRAT)
4. F-DISTRIBUCIJA
5. UNIFORMNA KONTINUIRANA
6. EKSPONENCIJALNA
1. NORMALNA (GAUSSOVA) DISTRIBUCIJA najvanija distribucija vjerojatnosti.
- dvoparametarska funkcija (odreena s 2 parametra) : oekivana vrijednost i varijanca N ( , 2 )
- zvonolika je i simtrina
- budui da aritmetika sredina i standardna devijacija ovise o mjernim jedinicama varijable uvodi se
x
2
jedinina (standardizirana) normalna distribucija z
N (0,1); 2 0; 2
Jedinina normalna distribucija je tabelirana. U poljima tabele nalaze se povrine koje predstavljaju
vjerojatnosti. U pred-stupcu tabele su sve vrijednosti izraene kao brojevi s jednom decimalom. Druga
decimala nalazi se u zaglavlju.Budui da je distribucija simetrina u tabeli su dane samo vrijednosti z.
Primjer 1.
Sluajna varijabla x distribuirana je po normalnoj distribuciji N ( ,2 ). Odredite vjerojatnost da varijabla
poprimi vrijednost:
a) - < x < +
z
( z)
z
1
( z)
z
1
p( x ) p(1 z 1)
2 P( z 1.00) 2 0.3413 0.6826
Kaemo da je 68.26% vjerojatno da e sluajna varijabla z zauzeti vrijednosti izmeu -1 i 1 ili da e
sluajna varijabla x zauzeti vrijednost izmeu - i +.
35
b) -2 < x < +2
p( 2 x 2 )
p(2 z 2) 2 P( z 2.00)
2 0.4772 0.9544
Kaemo da je 95,44% vjerojatno da e sluajna varijabla z zauzeti vrijednost izmeu -2 i 2 ili da e
sluajna varijabla x zauzeti vrijednost izmeu -2 i +2.
2. STUDENTOVA DISTRIBUCIJA
- njen oblik je odreen veliinom n
- za n>30 (veliki uzorak) distribucija se po obliku pribliava normalnoj distribuciji
- za n<30 (mali uzorak) distribucija je vie razvuena na obje strane uzdu apscise
- i ona je zvonolika i simetrina te tabelirana
- u pred-stupcu tablice nalaze se stupnjevi slobode, u zaglavlju su vjerojatnosti. U poljima tabele su
kritine vrijednosti.
Primjer 2.
Sluajna varijabla t distibuirana je po Studentovoj distribuciji s 8 stupnjeva slobode. Odredite slijedee
vjerojatnosti:
a) P (t 1.397)
b) P (t -1.397)
36
37
PREDAVANJE #10
SAMPLING DISTRIBUCIJA teorijska distribucija vjerojatnosti procjenitelja parametra. Zasniva se na
konceptu ponovljenih izbora sluajnih uzoraka iz danog osnovnog skupa pri emu razliiti uzorci dovode do
razliitih vrijednosti procjena.
Primjer 1.
Vrijednosti numerike varijable x koje tvore osnovni skup su 1, 3 i 5. Iz skupa se izabiru uzorci veliine
n=2. Izbor je s jednakom vjerojatnou svakog elementa skupa odnosno svakog uzorka.
N
9
3
3
(x
)2
i 1
1;1
1;3
1;5
3;3
3;1
8
3
3;5
5;1
5;3
5;5
Provest emo izbor s ponavljanjem izbor u kojem se svaki izabrani element za uzorak nakon izbora vraa
u osnovni skup i tako sudjeluje u izboru sljedeeg elementa za uzorak.
Budui da je vjerojatnost izbora svakog sluajnog uzorka veliine n=2 jednaka, iznosi 1/9, distribucija je
sredina:
aritmetika
P ( xi )
xi P ( x i )
sredina uzorka xi
1
1/9
1/9
2
2/9
4/9
Ex xi p( xi ) 3
3
3/9
9/9
4
2/9
8/9
5
1/9
5/9
ukupno
1
27/9=3
sampling distribucija
Oekivana vrijednost sampling distribucije aritmetikih sredina uzoraka jednaka je aritmetikoj sredini
osnovnog skupa. Standardna devijacija sampling distribucije sredina prosjeno je odstupanje aritmetikih
sredina od aritmetike sredine osnovnog skupa. Ona izraava pogreku koja nastaje zbog primjene uzorka,
stoga se naziva standardnom pogrekom aritmetike sredine.
38
P x z x x z x 1
2
2
2
studentove distribucije
Primjer 2.
Odredite vrijednost standardne pogreke procjene aritmetike sredine osnovnog skupa za ove
sluajeve:
a) Procjenjuje se sredina konanog skupa od 125 768 lanova pomou sluajnog uzorka veliine 1250
lanova. Standardna devijacija osnovnog skupa iznosi 64.
N 125768
n 1250
f
n
1250
0.0099 ;
N 125768
N n
, f 0.05
N 1
, f 0.05
n
39
64
1.81019
1250
b) Sredina se procjenjuje pomou sluajnog uzorka veliine 600 formiranog izborom svakog desetog lana
konanog osnovnog skupa, a varijanca skupa iznosi 100.
n
600
n 600
f
0.1, f 0.05
N 6000
N
10 N 10 n 6000
N n
10
6000 600
n
x
0.38733
2
6000 1
100 10
n N 1
600
c) Uzorak veliine 36 izabran je iz beskonanog osnovnog skupa N(, 52)
beskonani skup f<0.05 (kad u zadatku nemamo N pretpostavljamo da je skup beskonaan i f<0.05)
5
5
x
0.83333
n
36 6
d)
N 35679
n 2500
10
N n
, f 0.05
n N 1
, f 0.05
n
n
2500
0.07 , f 0.05
N 35679
N n
10
N 1
2500
35679 2500
0.19287
35679 1
e) Veliina je uzorka 256 i ini 2% osnovnog skupa, a standardna devijacija uzorka je 32.
s standardna devijacija uzorka
s 32
n 256
256
2
100 N 12800
N
f 0.02 , f 0.05
32.06268
x
2.00392
n
n
n1
faktor korekcije
Primjer 3.
Tvrtka isporuuje vijke pakovanih po 100 komada. Kupac je primio poiljku od 10000 pakovanja. Radi
kontrole izabran je sluajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedei broj neispravnih
vijaka po pakovanju: 4, 3, 3, 1, 3,. Njihov zbroj je 117.
60
xi 117 ,
i 1
60
x
i 1
293
Procjenite brojem i intervalom prosjean broj neispravnih vijaka po pakovanju za cijelu poiljku. Razina
povjerenja je 95%.
40
n 60 veliki uzorak
f
n
60
0.006 , f 0.05
N 10000
intervalni procjenitelj
P x z x x z x 1
2
2
0.95:2 = 0.4750
z(P=0.4750) = 1.96
Kako nije poznata standardna devijacija osnovnog skupa potrebno je izraunati njezinu procjenu pomou
podataka iz uzorka.
1
293 117 2
2
1
2
60
1.04840
xi
xi
59
n
1.04840
n1
x
0.13535
n
60
41
n 10 mali uzorak
P x t x x t x 1
2
2
xi 20 2 min
x
n
10
1 0.90
0.05
2
s.s. n 1 9
t0(.905) 1.833
2
1
20 2
50
xi n xi
10 1.05409
n 1
9
1.05409
x
0.33333
n
10
n
10
f
0.0011152 f 0.05
N 8967
2
S vjerojatnou od 90% oekuje se da e se prosjeno trajanje razgovora za osnovni skup kretati izmeu
1.38901 i 2.61099.
PREDAVANJE #11
PROCJENA TOTALA OSNOVNOG SKUPA
TOTAL zbroj vrijednosti numerikog obiljeja. Taj je parametar povezan s aritmetikom sredinom.
x
N
T
N
T N
Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetike sredine.
T N x
42
- koeficijent pouzdanosti
z
2
z
2
z .V
2
n , f 0.05
0
0
n
frakcija:
n
, f o 0.05
f
0
f0
n0
N
Primjer 1.
U grafikoj djelatnosti zaposlena su 9 754 zaposlenika. Koliko zaposlenika treba izabrati u uzorak pomou
kojega se procjenjuje prosjeni radni sta svih zaposlenika. Procjenjuje se s 95% pouzdanosti. Tolerira se
pogreka od najvie 0.5 godine. Pretpostavlja se da je osnovnog skupa 6 godina.
N 9754
n0 2
d
0.95
2
0.4750
(1 ) 0.95
1.96 6
2
n0
0. 5
d 0.5
z P 0.4750 1.96
n0 553
6
n0
553
0.05669 f 0 0.05
N 9754
n0
553
n
523
1 f 0 1 0.05669
f0
neparametarski
Svaki postupak testiranja polazi od nulte (H0) i alternativne hipoteze (H1)
U postupku donoenja odluka mogu se pojaviti dvije vrste pogreaka:
dvosmjeran
Z-test ; T-test
Primjer 2.
Prema standardu prosjena trajnost elektrinih arulja od 75W iznosi 2000 h s prosjenim odstupanjem
250 h. Iz serije arulja izabran je, uz frakciju izbora manju od 5%, sluajni uzorak 64 arulje. Ispitivanjem
je ustanovljeno da je prosjena trajnost arulja u uzorku 1935 h. Moe li se prihvatiti pretpostavka da je
uzorak izabran iz osnovnog skupa kojemu je aritmetika sredina prema standardu tj.2000 h. testirati na
razini znaajnosti 5%.
H 0 ........ 2000
veliki uzorak normalna distribucija
H1........ 2000
250
f 0.05
n 64
x 1935
250
64
31.25
5%
Koeficijent znaajnosti za danu razinu znaajnosti odreuje se pomou povrina ispod normalne krivulje.
Postupak odreivanja toga koeficijenta jednak je postupku odreivanja koeficijenta povjerenja pri procjeni
parametra. Meutim koeficijent znaajnosti odraava razinu znaajnosti tj. vjerojatnost pogreke tipa I., a
koeficijent povjerenja razinu povjerenja procjene.
zP 0.5 0.025 zP 0.4750) 1.96
1. C1 0 z x 200 1.96 31.25 1938.75
2
1935 1938.75 H1
x C2 H1
45
Na danoj razini znaajnosti odbacuje se nulta hipoteza tj. ne prihvaa se pretpostavka da je uzorak
izabran iz skupa arulja s prosjenom trajnou 2000 h.
2. Z-test
test veliina ( empirijski z-omjer)
x 0
1935 2000
2.08
31.25
ODLUKA:
z z H 0
2
z z
H1
2.08 1.96 H1
ODLUKA:
p H0
p H1
0.0376 0.05 H1
Primjer 3.
Radi poveanja produktivnosti strojeva predloena je njihova preinaka. Prema proraunima preinaka je
poslovno opravdana ako se postigne povean broj operacija po satu i ako u prosjeku iznosi vie od 120.
Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosjean
broj operacija po satu iznosi je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2 307 600. Do kojeg se
zakljuka dolazi na temelju provedenog ispitivanja? Vjerojatnost odbacivanja istinite nulte hipoteze iznosi
5%.
H 0 ....... 120
H1....... 120
46
2
i
2307600
nx 2
20.06981
x
1.67248
n
144
z P 0.5 0.05 z P 0.4500 1.65
125 122.76 H1
x C2 H1
Odstupanje aritmetike sredine uzorka na vie znaajno je pa se prihvaa pretpostavka da je preinaka
strojeva opravdana.
2. Z-test
x 0 125 120
z
2.99
x
1.67248
ODLUKA:
z z H 0
z z H 1
2.99 1.65 H1
ODLUKA:
P H0
P H1
0.0014 0.05 H1
47
PREDAVANJE#12
JEDNOSMJERNI TEST NA DONJU GRANICU od interesa je promatrati odstupanje na nie. Pretpostavlja se
da je aritmetika sredina osnovnog skupa manja od pretpostavljene. Pretpostavka se formulira kao
alternativna hipoteza. (manje od, najvie, ne vie od)
H o ......... 0
H 1 ......... 0
Primjer 1.
Poslovodstvo banke odluilo je promijeniti programsku potporu alterskog poslovanja kako bi se smanjio
prosjeni utroak vremena obrade naloga stranaka i time skratilo vrijeme ekanja stranaka. Analizom je
utvreno da se promjena potpore isplati ako prosjeno vrijeme obrade iznosi najvie 30 sekundi po
nalogu. Razvojna sluba banke izradila je programsku potporu koja se testira u odabranom broju
poslovnica. Na temelju podataka o trajanju obrade pomou nove programske potpore za 453 sluajno
odabrana naloga izraunano je prosjeno utroeno vrijeme po nalogu koje iznosi 28 sekundi s prosjenim
odstupanjem 4 sekunde. Do kojeg se zakljuka dolazi na temelju provjere rada s novim programom?
Testirati na razini znaajnosti 2%.
H 0 ........ 30
Uzorak je velik pa koristimo normalnu distribuciju.
H1........ 30
n 453
x 28
s4
2% 0.02
n
453
4
4.0042
n 1
452
4.0042
x
0.18814
453
besk.skup f 0.05
10.630
x
0.18814
ODLUKA:
z z H 0
10.630 2.05 H1
z z H 1
Empirijski z-omjer manji je od teorijske vrijednosti pa se na danoj razini signifikantnosti odbacuje nulta
hipoteza.
48
Primjer 2.
Pomou uzorka se ispituje razlika u prosjenoj mjesenoj potronji mlijeka etverolanih kuanstava u dva
naselja. U naselju Lug je 2500 etverolanih kuanstava, a u naselju Gaj 2000. Kod etverolanih
kuanstava u naselju Lug izabrano je u uzorak svako 50. kuanstvo, a od ukupnog broja etverolanih
kuanstava u naselju Gaj u uzorak je izabrano 2% kuanstava. Na temelju podataka iz uzorka kuanstava
naselja Lug utvrena je prosjena mjesena potronja po kuanstvu 53 litre s prosjenim odstupanjem od
1 litre. Pomou vrijednosti iz uzorka kuanstava iz naselja Gaj utvrena je prosjena mjesena potronja
po kuanstvu 50 litara s prosjenim odstupanjem od 1.41 litre. Moe li se prihvatiti pretpostavka da se
prosjena mjesena potronja mlijeka etverolanih kuanstava u naseljima Lug i Gaj signifikantno ne
razlikuju? Razini signifikantnosti je 3%.
H 0 ........1 2 0
H1........1 2 0
n1 50
n2 40
x1 53 l
x 2 50 l
s1 1l
s 2 1.41l
1 2 s1 2
n1
50
12
1.02041
n1 1
43
2 2 s 2 2
n2
40
1.412
2.03908
n2 1
39
0.03
1 2
n1
2 2
n2
1.02041 2.03908
0.26719
50
40
test veliina: D x1 x2 53 50 3
49
3 0.57980 H1
D C 2 H 1
11.22997
x1 x2
0.26719
ODLUKA:
z z H 0
2
11.22797 2.17 H1
z z H 1
2
Primjer 3.
Ispituje se pretpostavka da su prosjeni izdaci za odjeu poljoprivrednih kuanstava vei od prosjenih
izdataka za odjeu nepoljoprivrednih kuanstava. U tu svrhu odabrani su sluajni uzorci od po 500
kuanstava. Promatrani su godinji izdaci.
poljoprivredna kuanstva
x1 5900.50kn
nepoljoprivredna kuanstva
x 2 5830.70kn
s1 520.30kn
s 2 480.50kn
H 0 .......1 2 0
H1.......1 2 0
0.01
x x
1
1 2
n1
2 2
n2
1 2 s1 2
n1
500
520.30 2
271254,5992
n1 1
499
2 2 s 2 2
n2
500
480.50 2
231342.9359
n2 1
499
271254.5992 231342.9359
31.7048
500
500
50
2.20
x1 x2
31.7048
ODLUKA:
z z H 0
2.20 2.33 H 0
z z H 1
3. pomou empirijske razine signifikantnosti (p-vrijednost)
z 2.20
Primjer 4.
Ispituje se tvrdnja da su maloprodajne cijene prehrambenih proizvoda nie u diskontima nego u klasinim
prodavaonicama. U tu su svrhu odabrani sluajni uzorci od 50 maloprodajnih cijena u diskontima i 80
maloprodajnih cijena u klasinim prodavaonicama. Uzorci cijena prikupljeni su u istom vremenskom
razdoblju i za isti prehrambeni proizvod.
diskonti
x1 9.90kn
s1 2.30kn
klasine prodavaonice
x 2 11.42kn
s 2 2.10kn
H o ........1 2 0
H1........1 2 0
z P 0.5 0.01 z P 0.4900 2.33
n1
50
2.30 2
5.3980
n1 1
49
1 2 s1 2
n2
80
2.10 2
4.4658
n2 1
79
standardna pogreka za velike uzorke:
2 2 s 2 2
x x
1
1 2
n1
2 2
n2
5.3980 4.4658
0.4047
50
80
1. Z-test
test veliina (empirijski z-omjer)
x x2 9.90 11.40
z 1
3.7064
x1 x2
0.4047
ODLUKA:
z z H 0
3.7064 2.33 H1
z z H 1
Moe se prihvatiti pretpostavka da je prosjena maloprodajna cijena prehrambenih proizvoda nia u
diskontima nego u klasinim prodavaonicama.
PREDAVANJE #13
REGRESIJSKA ANALIZA njom se ispituje ovisnost jedne varijable o drugoj varijabli ili o vie drugih
varijabli, npr.proizvodnja o broju zaposlenih, potronja o visini plae
ZAVISNA VARIJABLA varijabla ije se varijacije objanjavaju
NEZAVISNE VARIJABLE varijable kojima se objanjavaju varijacije zavisne varijable
REGRESIJSKI MODEL jednadba ili skup jednadbi s konanim brojem parametara i varijabli
linearni
nelinearni
MODEL JEDNOSTAVNE LINEARNE REGRESIJE njime se izraava odnos meu dvjema pojavama.
Model sadri jednu zavisnu i jednu nezavisnu varijablu. Primjenjuje se za varijable koje su u linearnom
statistikom odnosu.
DESKRIPITVNO STATISTIKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE
opi oblik modela jednostavne regresije: y f x e
f(x) funkcionalni dio modela
e stohastika varijabla koja odraava nesistemske utjecaje na zavisnu varijablu
Ako je funkcionalni dio modela oblika f x x model postaje: y x e
52
x y nxy
x nx
i
a y bx
KONSTANTNI LAN a - predstavlja vrijednost regresije u sluaju kada je nezavisna varijabla jednaka nuli
REGRESIJSKI KOEFICIJENT b - pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna
varijabla povea za jedinicu.
JEDNADBA ANALIZE VARIJANCE
2
2
2
y y i y yi y i
ST
SP
SR
2
y i
SR
n
SR
n
100
y
Standardna devijacija regresije interpretira se kao prosjeno odstupanje empirijskih vrijednosti od
regresijskih izraeno apsolutno.
Koeficijent varijacije je to isto odstupanje izraeno relativno.
Specifian pokazatelj reprezentativnosti regresije je koeficijent determinacije:
SP
r
ST
y
y
0 r2 1
2
y
i
Regresija je to reprezentativnija to se koeficijent determinacije vie pribliava jedinici.
2
53
KORELACIJSKA ANALIZA njome se odreuju jakosti veze. Mjera jakosti veze je koeficijent korelacije.
2
Koeficijent korelacije drugi je korijen iz koeficijenta determinacije: r r
sign r sign b
1 r 1
30
5
60
326
54.33
6
54
178
5
x
n
x
i
y 6.08 9.65 x
a y bx 54.33 9.65 5 6.08
Interpretacija:
a (konstantni lan) Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08
tisua kuna.
b (regresijski koeficijent) Ako se broj zaposlenih povea za jednu osobu tada e se ukupan promet
poveati linearno i u prosjeku za 9.65 tisua kuna.
d) Odredite regresijske vrijednosti i vrijednosti rezidualnih odstupanja te relativnih rezidualnih odstupanja!
Regresijske vrijednosti odreuju se tako da se u regresijsku jednadbu redom uvrtavaju stvarne
vrijednosti nezavisne varijable.
y1 6.08 9.65 2 25.38
.
.
.
.
Interpretacija:
Za dva zaposlena oekivana vrijednost ukupnog prometa iznosi 25.38 tisua kuna.
yi y i
ui ,rel
yi y i
100
yi
u1,rel
25 25.38
100 1.52%
25
Interpretacija:
Prema regresiji za 2 zaposlena precijenjen je ukupan promet za 0.38 tisua kuna ili 1,52%.
e) Regresijski pravac ucrtajte u dijagram rasipanja!
f) Kolika varijanca, standardna devijacija i koeficijent varijacije regresije?
2
SR y i a y i b xi y i 20298 6.08 326 9.65 1900 80.92
2
SR y i y i
80.92
y
13.49
n
n
6
SR
y
13.49 3.67 tis .kn
n
2
V y
y
y
100
3.67
100 6.76%
54.33
55
Prosjeno odstupanje empirijskih vrijednosti prometa od regresijskih vrijednosti iznosi 3.67 tisua kuna
ili relativno 6.76%
g) Izraunajte vrijednosti lanova u jednadbi ralambe zbroja kvadrata odstupanja vrijednosti zavisne
varijable od njezine aritmetike sredine! (jednadba analize varijance)
ST yi ny 20398 6 54.33 2 2687.51
2
0.97
ST 2687.51
Interpretacija:
Linearnom regresijskom vezom protumaeno je 97% svih odstupanja. Na temelju toga moe se
zakljuiti da je model reprezentativan.
r r 2 0.97 0.98
koeficijent determinacije
r2
0
0,00-0,25
0,25-0,64
0,64-1
1
apsolutna vrijednost
koeficijenta linearne
korelacije
r
0
0,00-0,50
0,50-0,80
0,80-1
1
tumaenje
odsutnost korelacije
slaba korelacija
korelacija srednje jaine
vrsta korelacija
potpuna korelacija (perfektna)
sredina kvadrata
SP/1
2606.59
n-2
4
SR
80.92
SR/(n-2)
20.23
n-1
5
ST
2687.51
/
56
empirijski t-omjer
SP
128.85
SR
n 2
/
/
PREDAVANJE #14
INFERENCIJALNO-STATISTIKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE empirijske
vrijednosti zavisne varijable smatraju se uzorkom iz zamiljenoga beskonanoga osnovnog skupa. U
sklopu inferencijalno-statistike analize provodi se procjenjivanje parametara i testiranje hipoteza.
yi x i ei
model osnovnog skupa (populacije):
i nepoznati parametri populacije
e nepoznate vrijednosti sluajne varijable
y i x i e i
model uzorka:
i - procjene nepoznatih parametara
e - procjene nepoznatih vrijednosti sluajne varijable
2
procjena varijance brojem:
y
i 1
2
y i
n2
n
y
i 1
2
y i
n2
P t t 1
2
2
mali uzorak
veliki uzorak P z z 1
2
2
2
i
nx 2
Primjer 1.
x
Dana je regresijska jednadba : y 125 0.092
.03
U kojim se granicama moe oekivati da e se nai parametar ? Pouzdanost procjene je 95%, a n=25.
s.s. n k 1 n 2 23
n 2
23
t 0.025 2.069
57
y
i 1
30.667
H 1 ....... 0
t 023
0.03
.025 2.069
ODLUKA:
t t H o
2
t t
H1
30.667 2.069 H1
y i y i
100
yi
y i y i
100
2
y i
n k 1
SR
n k 1
2
y i
n k 1
i
i
SP
opi pokazatelj kvalitete modela
ST
Model je to reprezentativniji to je
koeficijent determinacije blie
jedinici.
TESTIRANJE HIPOTEZA O MODELU VIESTRUKE REGRESIJE najee se koriste slijedei testovi:
1. PARCIJALNI TEST testira se znaajnost podskupa nezavisne varijable
2. POJEDINANI TEST testira se znaajnost jedne nezavisne varijable. Moe se
provesti i kao f-test i kao t-test
3. SKUPNI TEST testira se znaajnost svih nezavisnih varijabli u modelu. Uvijek
se provodi kao f-test.
H 0 ........ 1 2 .... j k 0
H 1 ........ j 0
59
neprotumaena
modelom
(rezidualna)
odstupanja
ukupno
sredine
kvadrata
SP
k
n-(k+1)
SR
SR
n k 1
n-1
ST
PREDAVANJE #15
MODELI VREMENSKIH SERIJA njima se opisuje razvoj pojava u vremenu.
Vremenska serija se moe ralaniti na slijedee komponente:
I s sezonska komponenta
I slu . komponenta
60
1. ADITIVNI MODEL: Y T e
2. MULTIPLIKATIVNI MODEL: Y T I
, parametri
Primjer 1. Linearni trend
Model linearnog trenda identian je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna
varijabla. Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za priblino isti
apsolutni iznos, tj. kada su prve diferencije priblino konstantne.
Stanovnitvo SAD-a u milijunima, stanje sredinom godine
2
2
godina stanovnitvo
prve
varijabla xt yt
trend
rezidualna
yt
xt
diferencije vrijeme
vrijednosti odstupanja
y t
Ut
yt
xt
y t
1992
255
1
255
1
65025
255.32
-0.32
1993
258
3
2
516
4
.
257.93
0.07
1994
261
3
3
.
.
.
260.53
0.47
1995
263
2
4
.
.
.
263.13
-0.13
1996
266
3
5
.
.
.
265.73
0.27
1997
268
2
6
.
.
.
268.33
-0.33
ukupno
1571
21
5544 91 411459 1571.00
0.00
a) Odredite vrijednosti prvih diferencija! to se zakljuuje na temelju grafa i prvih diferencijacija?
Yt Yt Yt 1
Ako su prve diferencije priblino konstantne radi se o linearnom trendu.
b) Procijenite parametre modela linearnog trenda metodom najmanjih kvadrata!
Yt a bxt
Varijabla vrijeme koliko podataka imamo toliko brojeva poprima (1,.,n)
xt 21 3.5
x
xt yt nxy 5544 6 3.5 261.83 2.604
b
n
6
2
91 6 3.5 2
xt nx 2
y
t 1571 261.83
y
a Y bx 261.83 2.604 3.5 252.716
n
6
jednadba linearnog trenda:
Y 252.716 2.604 x
x 1, 30.06.1992
61
Interpretacija:
a (konstantni lan) = 252.716
Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi
252.716 milijuna.
b (koeficijent linearnog trenda) = 2.604
Pokazuje prosjenu linearnu pojavu razine pojave za jedinini porast vrijednostii varijable vrijeme,
dakle broj stanovnika poveavao se u prosjeku linearno 2.604 milijuna godinje
c) Odredite trend vrijednosti!
Raunaju se uvrtavanjem varijable vrijeme u jednadbu trenda.
Y1 252.716 2.604 1 255.32
Procjena broja stanovnika prema trendu za 1992. iznosi 255.32 milijuna.
Y Y
t
SP ST SR 123.72
izvor varijacije
protumaen
modelom
neprotumaena
odstupanja
ukupno
stupnjevi
slobode
k
1
zbroj
kvadrata
SP
123.72
sredina
kvadrata
SP/k
123.72
n-(k+1)
4
n-1
5
SR
5.59
ST
129.31
SR/n-(k+1)
1.40
/
empirijski f-omjer
SP k
88.37
SR n (k 1)
/
0.93
Prosjeno odstupanje stvarnog broja stanovnika od
n
n
6
vrijednosti trenda iznosi 0.30 milijuna ili relativno
2
y y 0.30 milijuna s tan ovnika
0.11%. Na temelju ovih pokazatelja moe se zakljuiti
da je reprezentativnost trenda velika.
y
0.30
Vy
100
100 0.11%
y
261.83
62
log Yt x log Yt
2
t
nx 2
log Y
log bx
n
Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U
linegriziranom modelu se umjesto originalnih vrijednosti koriste njihovi logaritmi.
t
Interpretacija:
a (konstantni lan)
To je trend vrijednost za razdoblje prije prvoga.
b (koeficijent eksponencijalnog trenda)
Pokazuje za koliko e se puta promijeniti trend vrijednost ako se varijabla vrijeme povea za 1.
63