You are on page 1of 63

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.

hr

STATISTIKA
Doc.dr.sc.Draženka Čizmić
- predavanja 2009.g -

1
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

SADRŢAJ:
1. UVOD
 Statistiĉki skup................................................................................... 4
 Vrste i izvori statistiĉkih podataka.................................................... 4
2. UREĐIVANJE PODATAKA
 Statistiĉki nizovi i tabele ................................................................... 5
 Numeriĉki nizovi ................................................................................ 7
3. OSNOVNA ANALIZA VREMENSKIH NIZOVA
 Grafiĉko prikazivanje vremenskih nizova ........................................ 10
 Individualni indeksi ........................................................................... 10
4. SREDNJE VRIJEDNOSTI STATISTIĈKOG NIZA
 Mod.................................................................................................... 12
 Medijan............................................................................................. . 13
 Aritmetiĉka sredina........................................................................... 15
 Geometrijska sredina....................................................................... 17
 Skupni indeksi.................................................................................. . 18
5. MJERE DISPERZIJE
 Raspon varijacije, Interkvartil, Koeficijent kvartilne devijacije....... 19
 Srednje apsolutno odstupanje (MAD).............................................. 22
 Varijanca, Standardna devijacija, Koeficijent varijacije.................. 23
 Standardizirana varijabla.................................................................. 25
6. MJERE ASIMETRIJE
 Koeficijent asimetrije, Pearsonova mjera, Bowleyjeva mjera........ 26
7. MJERE ZAOBLJENOSTI
 Koeficijent zaobljenosti.................................................................... 29
8. MJERE KONCENTRACIJE
 Koncentracijski omjer, Ginijev koeficijent....................................... 31
9. OSNOVNI POJMOVI VJEROJATNOSTI
 Definicije i svojstva vjerojatnosti...................................................... 32
 Modeli distribucija vjerojatnosti....................................................... 34
10. OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE
 Plan uzorka....................................................................................... . 37
 Sampling distribucija........................................................................ 38
11. PROCJENE PARAMETRA
 Procjena aritmetiĉke sredine........................................................... 39
 Procjena totala osnovnog skupa...................................................... 42
 Procjena proporcije osnovnog skupa............................................. . 44

2
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

12. TESTIRANJE HIPOTEZA O PARAMETRU


 Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetiĉke
sredine osnovnog skupa................................................................ .. 44
 Testiranje hipoteza o razlici aritmetiĉkih sredina dvaju
osnovnih skupova nezavisnim uzorcima.......................................... 49
13. REGRESIJSKA ANALIZA
 Model jednostavne linearne regresije............................................... 52
- deskriptivno statistiĉka analiza modela............................... 52
- inferencijalno statistiĉka analiza modela............................ 57
- testiranje hipoteza o modelu................................................ 58
14. MODEL VIŠESTRUKE REGRESIJE
 Analiza modela višestruke regresije................................................ 58
 Testiranje hipoteza o modelu višestruke regresije......................... 59
15. MODELI VREMENSKIH SERIJA
 Komponente vremenskih serija....................................................... 60
 Modeli trenda.................................................................................... 61

3
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PREDAVANJE #1
STATISTIKA – znanstvena metoda koja se bavi prikupljanjem, uređivanjem, analizom i tumaĉenjem
podataka.
 DESKRIPTIVNA – u okviru deskriptivne statistike zakljuĉci se donose na temelju svih
podataka. Ona obuhvaća postupke uređivanja, grupiranja, tabeliranja, grafiĉkog prikazivanja
te izraĉunavanja razliĉitih statistiĉko-analitiĉkih veliĉina
 INFERENCIJALNA – u sklopu inferencijalne statistike zakljuĉci se dodose na temelju dijela
podataka (uzoraka). Temelji se na teoriji vjerojatnosti

STATISTIĈKI SKUP – ĉine jedinice koje su predmetom promatranja statistiĉkom metodom. Moţemo
promatrati osobe, poduzeća, zemlje, proizvode itd.
OPSEG SKUPA – broj jedinica. S obzirom na opseg statistiĉki skupovi se dijele na:
 KONAĈNI STATISTIĈKI SKUP – studenti upisani na efzg
 BESKONAĈNI STATISTIĈKI SKUP – bacanje novĉića ili proizvodnja
Statistiĉki skupovi definiraju se pojmovno, prostorno i vremenski.

OSNOVNI SKUP (POPULACIJA) – skup podataka o promatranom svojstvu za svaku jedinicu statistiĉkog
skupa.
UZORAK – podskup, dio osnovnog skupa. Dio podataka izdvojen iz cjelovite evidencije.

STATISTIĈKO OBILJEŢJE (VARIJABLA) – svojstvo koje stupnjem ili oblikom varira od jedinice do jedinice
statistiĉkog skupa.

VRSTE STATISTIĈKOG OBILJEŢJA:


1. NUMERIĈKO (KVANTITATIVNO) – izraţava se brojevima
 DISKRETNO (diskontinuirano) – poprima iskljuĉivo cjelobrojne vrijednosti. npr. broj uĉenika u
razredu, broj djece u obitelji
 KONTINUIRANO – moţe poprimiti bilo koju vrijednost iz nekog intervala. npr. visina, teţina,
cijena...
2. KVALITATIVNO
 NOMINALNO (atributivno i geografsko) – izraţava se opisno ili rijeĉima. npr. atributivno –
spol, zanimanje ; geografsko – mjesto rođenja
 REDOSLIJEDNO (obiljeţje ranga) – npr. ocijena, stupanj kvalitete

MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih skupova na


temelju određenog pravila. Temelji se na primjeni mjerih skala.
MJERNE SKALE:
1. NOMINALNA – sastoji se od liste naziva
2. ORDINALNA – ovom skalom jedinicama statistiĉkih skupova pridruţuju se slovne oznake, simboli ili
brojevi sukladno intenzitetu mjernog svojstva
3. INTERVALNA - ovom skalom jedinicama statistiĉkih skupova pridruţuju se brojevi sukladno
intenzitetu mjernog svojstva. Za ovu skalu karakteristiĉno je da ima definiranu mjernu jedinicu i
dogovorno utvrđenu nulu. npr. temperaturna ljestvica.
4. OMJERNA - ovom skalom jedinicama statistiĉkih skupova pridruţuju se brojevi sukladno intenzitetu
mjernog svojstva. Za ovu skalu karakteristiĉno je da ima definiranu mjernu jedinicu i nulu koja
oznaĉava nepostojanje svojstva. npr. plaća, broj zastoja rada stroja.

4
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

IZVORI PODATAKA:
 PRIMARNI – prikupljaju se u skladu s ciljem istraţivanja.
 SEKUNDARNI – prikupljaju ih razne institucije (drţavni zavod za statistiku, banke, agencije
za istraţivanje trţišta, osiguravajući zavodi...)

PREDAVANJE #2

UREĐIVANJE PODATAKA – uređivanjem podataka nastaju statistiĉki nizovi


STATISTIĈKI NIZOVI:
1. NOMINALNI NIZ – nastaje uređivanjem podataka o nominalnom obiljeţju
2. REDOSLIJEDNI NIZ – nastaje uređivanjem podataka o rang varijabli
3. NUMERIĈKI NIZ – nastaje uređenjem podataka koji predstavljaju vrijednosti numeriĉke varijable
4. VREMENSKI NIZ – nastaje kronološkim nizanjem podataka o nekoj pojavi (proizvodnja,uvoz,izvoz)

STATISTIĈKE TABELE:
 JEDNOSTAVNA
Poljoprivredna površina po kategorijama u tisućama
hektara u RH, 2003.g
KATEGORIJE POVRŠINA
oranice i vrtovi 1460
voćnjaci 68
vinogradi 57
livade 396
pašnjaci 1156
izvor: SLJRH, 2004.g., str.250

 SKUPNA – sadrţi barem dva niza koji su grupirani prema modalitetima istog obiljeţja
Izvoz i uvoz prema preteţnoj ekonomskoj namjeni u
milijunima am. $ u RH, 2003.g.
EKONOMSKA NAMJENA IZVOZ UVOZ
proizvodi za reprodukciju 2959 6583
proizvodi za investicije 1341 3316
proizvodi za široku potrošnju 1886 4311
izvor: SLJRH, 2004.g., str.386

 KOMBINIRANA (TABELA KONTIGENCE, TABELA S DVA ULAZA) – podaci su grupirani prema


modalitetima dvaju ili više varijabli
Stanovništvo prema spolu i starosti u tisućama u RH, popis iz 2001.g.
STAROST SPOL
M Ţ
0 – 14 388 370
15 – 64 1482 1501
65 - 266 430
izvor: SLJRH, 2004.g., str.95

5
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

RELATIVNI BROJEVI – omogućavaju elementarnu analizu podataka u sklopu deskriptivne statistike


 proporcije (dio/cjelina), postoci (dio/cjelina*100) odnosno relativne frekvencije
 indeksi
 relativni brojevi koordinacije – omjerni brojevi koji nastaju diobom dvaju koordinirajućih
veliĉina (npr.gustoća stanovništva, dohodak po stanovniku, BDP per capita)

NIZOVI KVALITATIVNIH PODATAKA


Kvalitativni podaci su oblici nominalne ili redoslijedne varijable.
 ako ih je mali broj navode se nekim redom odabranim po volji ili prema intenzitetu mjernog
obiljeţja kod redoslijednih podataka (npr.ocjene od najmanje prema najvećoj)
 ako se radi o većem broju podataka pristupa se grupiranju. Grupiranjem se skup podataka
rašĉlanjuje na podskupove koji se međusobno ne preklapaju.
FREKVENCIJA – broj podataka istog ili sliĉnog modaliteta varijable

NOMINALNI ILI REDOSLIJEDNI NIZ ĉine parovi razliĉitog oblika kvalitativne varijable oi i pripadajućih
frekvencija fi  (oi, fi), i=1,2,....,k

Uĉenici i studenti koji su završili osnovnu ili


srednju školu odnosno diplomirai na visokim
uĉilištima u RH, 2003.g.
STUPANJ OBRAZOVANJA BROJ OSOBA
oi fi
osnovno 51211
srednje 47092
struĉni studij 6489
sveuĉ.studij 9243
ukupno 114035
izvor: SLJRH, 2004.g., str.487

OPSEG SKUPA – zbroj frekvencija


RELATIVNA FREKVENCIJA – omjer frekvencije i opsega skupa  p  fi
i k


i 1
fi

POSTOTNA RELATIVNA FREKVENCIJA – relativna frekvencija pomonoţena sa 100  P  fi


 100
i k


i 1
fi

nizovi sa relativnim frekvencijama  (oi, pi) ili (oi, Pi)


Kvalitativni nizovi grafički se prikazuju površinskim grafikonima:
 STUPCI (poloţeni, uspravni)
 STRUKTURNI KRUGOVI I POLUKRUGOVI
 RAZDIJELNI STUPCI
 VIŠESTRUKI STUPCI

6
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

NUMERIĈKI NIZOVI – nastaju uređenjem numeriĉkih podataka. Naĉin njihova uređivanja ovisi o tome
da li su podaci diskretni ili kontinuirani.
NAĈINI UREĐIVANJA:
1. mali broj podataka - uređuje se nizanjem po veliĉini. Pojedinaĉni numeriĉki podaci grafiĉki se
prikazuju dijagramom s toĉkama i dijagramom stablo-list (S-L dijagram)
Primjer 1.
Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:
Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29
Podaci uređeni po veliĉini:
Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34

dijagram s točkama:

dijagram stablo-list:

0 8 9
1 0 4 5 7 8 8
2 0 4 5 7 9
3 0 4

O|8 predstavlja 8

2. diskretno obiljeţje - velik broj podataka i manji broj oblika – pristupa se grupiranju. Numeriĉki niz
odnosno distribucija frekvencija se sastoji od parova (xi, fi), i=1,2,....,k
xi – modaliteti numeriĉkog obiljeţja
fi – pripadajuće frekvencije
Primjer 2.
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA
xi fi
1 1
2 5
3 8
4 26
5 19
6 12
ukupno 71

3. kontinuirano obiljeţje/ diskretno obiljeţje s većim brojem oblika – grupiranje se provodi na temelju
razreda. Svaki razred ima donju i gornju granicu.
frekvencija razreda – broj podataka omeđen donjom i gornjom granicom razreda
Numeriĉki niz odnosno distribucija frekvencija sastoji se od parova razreda i pripadajućih
frekvencija  (Li1 ≤ xi ≤ Li2, fi), i= 1,2,....,k
Li1 – donja granica i-tog razreda; Li2 – gornja granica i-tog razreda; fi – frekvencija i-tog razreda
7
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 3.
Radnici poduzeća A prema
starosti
STAROST BROJ RADNIKA
18 – 26 5
26 – 34 6
34 – 42 10
42 – 50 5
50 – 58 4
ukupno 30

Formiranju distribucije frekvencija prethodi određivanje broja razreda i njihove veliĉine. Za


određivanje broja razreda koristi se Sturgesovo pravilo: k ≈ 1 + 3,3 logN
k-broj razreda; N-zbroj frekvencija

Ako su razredi jednakih veliĉina, veliĉina im se aproksimira tako da se raspon varijacije podijeli sa
x max  x min
brojem razreda: ii 
k
Razredi jednakih veličina primjenjuju se kada su podaci simetriĉno raspoređeni.
Razredi različitih veličina primjenjuju se kada su podaci asimetriĉno raspoređeni.

Pri brojĉanoj analizi numeriĉkog niza potrebno je utvrditi da li su granice prave, a nakon toga
odrediti veliĉinu razreda i rezredne sredine.

GRANICE RAZREDA:
 PRAVE – donja granica tekućeg razreda je jednaka gornjoj granici prethodnog razreda
 NOMINALNE – pretvaraju se u prave tako da se svaka donja granica umanji za
polovicu jedinice, a svaka gornja se uveća za polovicu jedinice. To vrijedi za sve
sluĉajeve osim za navršene godine ţivota. Kod navršenih godina ţivota svaka se
gornja granica poveća za jedinicu.

VELIĈINA RAZREDA – određuje se kao razlika gornje i donje prave granice razreda
REZREDNA SREDINA i-tog razreda – određuje se kao poluzbroj gornje i donje prave granice razreda

Distribucija frekvencija grafiĉki se prikazuje histogramom i poligonom frekvencija.

8
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 4.
Nepismeno stanovništvo staro 10.g. i više prema starosti u RH prema popisu iz 2001.g.
STAROST BROJ PRAVE RAZREDNA VELIĈINA KORIGIRANE
OSOBA GRANICE SREDINA REZREDA FREKVENCIJE
fi xi ii
1 2 3 4 5 6
10-19 1845 9.5-19.5 14.5 10 2768
20-34 3160 19.5-34.5 27 15 3160
35-49 4457 34.5-49.5 42 15 4457
50-64 11108 49.5-64.5 57 15 11108
65-(99) 49207 64.5-(99.5) 82 35 21089
UKUPNO 69777 - - - -

Prvi i posljednji razred mogu biti otvoreni razredi. Njihove se veliĉine procjenjuju i procjena se
stavlja u zagradu.

Kada su razredi razliĉitih veliĉina potrebno je korigirati frekvencije:


fi
 f ci  - ova se formula koristi kada su svi razredi razliĉitih veliĉina, a moţe se
ii
koristiti i generalno

fi
f ci 
 i i - bazna veliĉina razreda (najĉešće se pojavljuje)
ib

IZVEDENI NIZOVI:
 KUMULATIVNI NIZ – nastaje postupnim zbrajanjem apsolutnih ili relativnih frekvencija.
On se grafiĉki prikazuje kumulantom.

Primjer 5.
Stanovništvo prema starosti u RH u tisućama prema popisu iz 2001.g.
STAROST BROJ OSOBA PRAVE GRANICE KUMULATIVNI NIZ
0-14 758 -0.5 – 14.5 758
15-64 2983 14.5 – 64.5 3741
65-(99) 696 64.5 – (99.5) 4437

9
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PREDAVANJE #3

VREMENSKI NIZ – skup kronološki uređenih vrijednosti koje predstavljaju neku pojavu (proizvodnja,
uvoz, izvoz).
ĈLANOVI NIZA – vrijednosti koje tvore niz

Vremenski niz noţe biti:


 INTERVALNI – nastaje trajanjem vrijednosti pojave po intervalima vremena (godina,
kvartal, mjesec) npr. proizvodnja, uvoz, izvoz...
 TRENUTAĈNI – sastoji se od kronološki uređenih vrijednosti koje predstavljaju stanja
pojave u odabranim vremenskim toĉkama (poĉetak, sredina, kraj) npr. stanje na
raĉunima, zakljuĉne cijene dionica..

GRAFIĈKO PRIKAZIVANJE VREMENSKIH NIZOVA:


 INTERVALNI NIZOVI prikazuju se površinskim i linijskim grafikonima.
 TRENUTNI NIZOVI prikazuju se samo linijskim grafikonima

Radi lakšeg praćenja u grafikon se ucrtava mreţa. Prikaz je u pravokutnom koordinatnom sustavu s
aritmetiĉkim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za
ĉlanove vremenskog niza.

OKOMITI PREKID GRAFIKONA – ako se ne raspolaţe podacima za dio razdoblja moguće je izostaviti dio
mjerila na osi apscisa.
VODORAVNI PREKID GRAFIKONA – ako neka pojava varira na velikim razinama moguće je izostaviti dio
mjerila osi ordinata.
Prekidaju se samo linijski grafikoni.

POLULOGARITAMSKI GRAFIKON – koristi se ako se na istom grafikonu uspoređuju raznorodni podaci


(nizovi izraţeni u razliĉitim mjernim jedinicama). To je grafikon sa aritmetiĉkim mjerilom na osi apscisa, a
logaritamskim na osi ordinata.

INDIVIDUALNI INDEKSI – njima se prati razvoj jedne pojave u vremenu


 verižni indeksi – njima se prati razvoj pojave u uzastopnim vremenskim razdobljima. Veriţni
indeks Vt razdoblja t dobije se tako da se vrijednost toga razdoblja podijeli s vrijednošću
yt
prethodnog razdoblja te se pomnoţi sa sto  Vt   100
y t 1
Veriţni indeksi se grafički prikazuju specifičnim linijskim grafikonom i grafikonom
jednostavnih stupaca.
KOEFICIJENT DINAMIKE – vrijednost tekućeg razdoblja podijeljena sa vrijednošću
yt
prethodnog razdoblja ne pomnoţena sa sto  Vt 
y t 1
STOPA PROMJENE – od veriţnog indeksa se odbije sto  S t  Vt  100

10
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 1.

Izvoz RH u milijunima US$ u razdoblju od 1999. do 2003.g.


GODINA IZVOZ VERIŢNI INDEKSI STOPA PROMJENE
yt Vt St
1999 4302 - -
2000 4432 103,2 3,02
2001 4665 105,26 5,26
2002 4904 105,12 5,12
2003 6197 126,36 26,36
izvor: SLJRH 2004., str.384

Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je veći od 100
predstavlja postotno povećanje, a ako je manji od 100 predstavlja postotno smanjenje.
npr. Izvoz u RH u 2003.g. povećao se za 26.36% u odnosu na 2002.g.

 indeksi na stalnoj bazi – njima se mjere promjene u odnosu na neko odabrano bazno
razdoblje. Izraĉunavaju se tako da se svaki ĉlan niza podijeli s vrijednošću baznog razdoblja
yt
te pomnoţi sa 100  I t   100
yb
BAZNO RAZDOBLJE – razdoblje u kojemu pojava nije bila izloţena nekim neuobiĉajenim
utjecajima (prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili
nekakav prosjek.

STOPA PROMJENE – kad od indeksa odbijemo sto  S t  I t  100


*

Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca.

Primjer 2.
GODINA IZVOZ BAZNI INDEKSI STOPA PROMJENE
1999 = 100
1999 4302 100,00 0,00
2000 4432 103,02 3,02
2001 4665 108,44 8,44
2002 4904 113,99 13,99
2003 6197 144,05 44,05
U 2003.g. izvoz se povećao za 44.05% u odnosu na baznu 1999.g.

SREDNJE VRIJEDNOSTI STATISTIĈKOG NIZA – konstante kojima se predstavljaju nizovi varijabilnih


podataka.
 POTPUNE – raĉunaju se na temelju svih podataka. U njih se ubrajaju aritmetiĉka,
geometrijska i harmonijska sredina.
 POLOŢAJNE – u pravilu su jednake jednom modalitetu statistiĉke varijable. U njih se ubrajaju
MOD i MEDIJAN.

11
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

MOD – najĉešći modalitet varijable, odnosno to je modalitet varijable s najvećom frekvencijom


1. pojedinačni podaci – kod pojedinaĉnih podataka MOD je vrijednost koja se najĉešće pojavljuje
Primjer 3.
Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:
25 24 25 23 25 22 21 25 20 25  Najĉešća prodajna cijena (MOD) je 25 kn.

2. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – tu je MOD modalitet


varijable s najvećom frekvencijom

Primjer 4.
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA
xi fi
1 1 MOD distribucije dnevne prodaje garnitura
namještaja iznosi 4, tj. najĉešća dnevna prodaja
2 5
iznosila je 4 garniture
3 8
4 26
5 19
6 12
UKUPNO 71

3. distribucija frekvencija sa razredima – MOD se aproksimira pomoću izraza:


(b  a )
M o  L1  i
(b  a )  (b  c )
b – najveća korigirana frekvencija
a – frekvencija ispred nje
c – frekvencija iza nje
L1 – donja prava granica modalnoga razreda
i – njegova veliĉina

MODALNI RAZRED – razred s najvećom korigiranom frekvencijom

Primjer 5.

Aktivno stanovništvo u RH u 2003.g. (2.polugodište) u tisućama


STAROST BROJ PRAVE VELIĈINE KORIGIRANE
OSOBA GRANICE RAZREDA FREKVENCIJE
fi ii fci
15-24 216 14,5-24,5 10 216,0
25-49 1152 24,5-49,5 25 460,8
50-64 370 49,5-64,5 15 246,7
65-(74) 55 64,5-(74.5) 10 55,0

Mo = 24.5 + (460.8-216.0)/(460.8-216.0)+(460.8-246.7) * 25 = 37.84 god


Najĉešća starost aktivnog stanovništva u RH u 2003.g. iznosi 37.84 godine.

12
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

MEDIJAN – srednja vrijednost koja numeriĉki niz uređen po veliĉini dijeli na dva jednakobrojna dijela
1. pojedinačni podaci (neparan broj) – MEDIJAN je jednak vrijednosti varijable središnjeg ĉlana u nizu
N
 INT M e  xr N
r  INT    1
2  2
Primjer 6.
Podaci moraju biti uređeni po veliĉini
1 3 5 8 10 12 14  7/2 = 3.5 ; r =4 ; Me = x4 = 8

2. pojedinačni podaci (paran broj) – MEDIJAN je jednak poluzbroju vrijednosti varijable središnjih
dvaju ĉlanova niza uređenog po veliĉini  N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2
Primjer 7.
11 24 29 37 40 53 65 72  N=8 ; r=4 ; Me = (37+40)/2 = 38.5

3. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – određivanje MEDIJANA se


pojednostavljuje uporabom kumulativnog niza manje od. MEDIJAN je jednak vrijednosti varijable
ĉija kumulativna frekvencija prva ukljuĉuje N/2.
Primjer 8.
Dnevna prodaja
BROJ GARNITURA BROJ DANA KUMULATIVNI NIZ
xi fi S(xi)
1 1 1
2 5 6
N/2 = 35.5
3 8 14 Me = 4
4 26 40
5 19 59
6 12 71
UKUPNO 71 -

4. distribucija frekvencija s razredima – MEDIJAN se aproksimira pomoću izraza:


N
  fi
M e  L1  2 i
f med
L1 – donja prava granica medijalnog razreda
N – zbroj apsolutnih ili relativnih frekvencija
∑fi – zbroj frekvencija do medijalnog razreda
fmed – frekvencija medijalnog razreda
i – veliĉina medijalnog razreda
MEDIJALNI RAZRED – onaj ĉija kumulativna frekvencija prvi put ukljuĉuje N/2.
Primjer 9.
STAROST BROJ OSOBA PRAVE VELIĈINE KUMULATIVNE
GRANICE RAZREDA FREKVENCIJE
fi ii S(xi)
15-24 216 14,5-24,5 10 216
25-49 1152 24,5-49,5 25 1368
50-64 370 49,5-64,5 15 1738
65-(74) 55 64,5-(74,5) 10 1793
13
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

N/2 = 896.5
Me = 24.5 + (896.5-216)/1152 * 25 = 39.27 god
Prvih 50% osoba imalo je 39 godina i manje, a preostalih 50% osoba bilo je starije od 39 godina

KVANTILI – numeriĉki niz uređen po veliĉini dijele na jednakobrojne dijelove. Medijan spada među kvantile
 KVARTILI – niz uređen po veliĉini dijele na 4 jednakobrojna dijela
 DECILI – niz uređen po veliĉini dijele na 10 jednakobrojnih dijelova
 PERCENTILI – niz uređen po veliĉini dijele na 100 jednakobrojnih dijelova
Broj kvartila je za jedan manji od njihova reda, tj. 3 su kvartila, 9 decila i 99 percentila

PREDAVANJE #4

ARITMETIĈKA SREDINA – dobije se tako da se zbroje vrijednosti numeriĉke varijable i podijele sa


njihovim brojem.
TOTAL – zbroj vrijednosti numeriĉke varijable; aritmetiĉka sredina je jednaki dio totala po jedinici
Svojstva aritmetiĉke sredine:
1. zbroj vrijednosti odstupanja numeriĉke varijable od njezine aritmetiĉke sredine jednak je nuli
2. zbroj kvadrata odstupanja vrijednosti numeriĉke varijable od njezine aritmetiĉke sredine minimalan
je
3. aritmetiĉka sredina nalazi se između najmanje i najveće vrijednosti niza za koji je izraĉunata

x
i 1
i

JEDNOSTAVNA ARITMETIĈKA SREDINA – raĉuna se kod pojedinaĉnih kvantitavnih podataka  x 


N
Primjer 1.
Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:
25 24 25 23 25 22 21 25 20 25  235/10=23.5 prosjeĉna prodaja iznosila je 23.5 kn

Aritmetiĉka sredina izraţena je u istim mjernim jedinicama kao i obiljeţje.


VAGANA (PONDERIRANA) ARITMETIĈKA SREDINA – primjenjuje se za grupirane podatke, tj. za distribuciju
frekvencija
k

 fixi
i 1
1. ponderi: APSOLUTNE FREKVENCIJE (fi)  x
 fi
k

 pixi
2. ponderi: RELATIVNE FREKVENCIJE U VIDU POSTOTAKA (Pi)  x 
i 1

100

k
3. ponderi: RELATIVNE FREKVENCIJE U VIDU PROPORCIJA (pi)  x   pixi
i 1

14
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih vrijednosti


Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA kol. 1*2
xi fi fixi
1 1 1
2 5 10
3 8 24
4 26 104
5 19 95
6 12 72
UKUPNO 71 306 PRAVI TOTAL – ukupan broj
prodanih garnitura

306
x  4,31  4 garniture dnevno
71

Primjer 3. Distribucija frekvencija formirana na temelju razreda


Aktivno stanovništvo u RH u 2003.g. (drugo polugodište) u tisućama
STAROST BROJ PRAVE RAZREDNE kol.2*4
OSOBA GRANICE SREDINE
fi xi fixi
15-24 216 14.5-24.5 19.5 4212.0 PROCIJENJENI
PODTOTALI
25-49 1152 24.5-49.5 37.0 42624.0
50-64 370 49.5-64.5 57.0 21090.0
65-(74) 55 64.5-(74.5) 69.5 3822.5
UKUPNO 1793 - - 71746.5 PROCIJENJENI TOTAL-
ukupna starost
promatranih osoba

71748,5
x  40,02 godina
1793
Prosjeĉna starost aktivnog stanovništva iznosila je ≈ 40.02 godina.

ARITMETIĈKA SREDINA ARITMETIĈKIH SREDINA – određuje se kao vagana sredina u kojoj se za pondere
uzima broj podataka za koje su pojedine sredine raĉunate ili tom broju proporcionalne veliĉine.
k

 Nixi
i 1
X  k

 Ni
i 1

15
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 4.
Odabrane kompanije zaposlenih i prosjeĉne mjeseĉne plaće u kn
KOMPANIJA BROJ PROSJEĈNA UKUPNA
ZAPOSLENIH PLAĆA PLAĆA Prosjeĉna plaća za sve kompanije:
Ni x Ni xi
3711000
ALFA 550 3500 1925000 X   3313,39
GAMA 320 2300 736000 1120
TRADE 250 4200 1050000
UKUPNO 1120 - 3711000

Ako se svaka individualna vrijednost numeriĉkog obiljeţja zamijeni aritmetiĉkom sredinom dobiva se
polazna veliĉina tj. total ili zbroj vrijednosti numeriĉkog obiljeţja.

ARITMETIĈKA SREDINA RELATIVNIH BROJEVA KOORDINACIJE – određuje se kao vagana sredina u kojoj su
k

 BiRi
i 1
ponderi baze tih brojeva  R  k

 Bi
i 1

RELATIVNI BROJEVI KOORDINACIJE – omjerni su brojevi koji nastaju diobom dviju koordinirajućih veliĉina
Vi
Ri 
Bi
Grafiĉki se prikazuju na 2 naĉina:
1. jednostavnim stupcima
2. pravokutnicima ĉije su osnovice proporcionalne bazama tih brojeva, a visine samim relativnim
brojevima koordinacije

Primjer 5.
Najveće drţave svijeta, površina u km2 i broj stanovnika na km2
DRŢAVA POVRŠINA U km2 STANOVNIŠTVO/ km2 UKUPAN BROJ Prosjeĉan broj stanovnika
STANOVNIKA na km2 za sve navedene
Bi Ri Vi= Ri*Bi drţave:
RUSIJA 17075400 8 136603200 1929776010
R  35.22  35st. / km2
KANADA 9970610 3 29911830 54786277
SAD 9629091 30 288872730
KINA 9596961 135 1295589735
BRAZIL 8514215 21 178798515
UKUPNO 54786277 - 1929776010

16
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

GEOMETRIJSKA SREDINA – jednaka je N-tom korijenu produkta N pojedinaĉnih vrijednosti


G N x1 x 2 .... x i .... x N

G N f f f fk
Za grupirane podatke geometrijska sredina dana je izrazom: x1 1 x 2 2 .... x i i .... x k
Primjer 6. zadani su koeficijenti dinamike
GODINA 2000 2001 2002 2003 2004
Vt - 1,06 1,05 1,03 1,02
prosjeĉna stopa raĉunata pomoću geometrijske sredine:
S  (G  1)  100
G  n 1 V2V3 .....Vn
Promatrana pojava prosjeĉno se godišnje
G  4 1.06  1.05  1.03  1.02  1.03988 povećavala
S  (1.03988  1)  100  3.99% za 3.99%.

Geometrijska i harmonijska sredina relativno se rijetko primjenjuju. Geometrijska sredina se primjenjuje u


analizi vremenskih nizova. Pomoću nje se računa prosječna stopa promjene pojave. Geometrijska sredina
poprima nižu vrijednost od aritmetičke sredine.

HARMONIJSKA SREDINA – reciproĉna vrijednost aritmetiĉke sredine reciproĉnih vrijednosti varijable x

N
 negrupirani pojedinaĉni podaci  H  N
1
x
i 1 i
k

f
i 1
i

 grupirani podaci  H  k
fi
x
i 1 i

Harmonijska sredina manja je od aritmetiĉke i geometrijske sredine

Primjer 7.
Ugostiteljska poduzeća, ukupan promet (u tisućama kn) i promet po zaposlenom (u tisućama kn)
UGOSTITELJSKA PROMET PROMET PO ZAPOSLENI
PODUZEĆA ZAPOSLENOM
Vi Ri Vi/Ri = Bi
HOTELI 6272146 199 31518
KAMPOVI 272070 158 1722
RESTORANI 814160 178 4574
BAROVI 716065 131 5466
KANTINE 331094 137 2417
17
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

UKUPNO 8405535 - 45697


8405535
Prosjeĉan promet po zaposlenom za sva ugostiteljska poduzeća: R   184 tis . kn
45697

Ako nazivnici relativnih brojeva koordinacije nisu poznati, a brojnici jesu ili se lakše procjenjuju do sredine
će se doći pomoću izraza za vaganu ponderiranu harmonijsku sredinu:
k

V
i 1
i
R k
Vi
R
i 1 i
Ako imamo zadano Bi koristimo formulu za aritmetiĉku, a ako su nam zadane Vi koristimo harmonijsku
vaganu sredinu.

SKUPNI INDEKSI – njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz, izvoz....
 SKUPNI INDEKSI CIJENA
 SKUPNI INDEKSI KOLIĈINA
 SKUPNI INDEKS VRIJEDNOSTI
U pravilu se raĉunaju kao vagana aritmetiĉka sredina individualnih indeksa. Ponderi su obiĉno vrijednosti.
Uglavnom se izraĉunavaju:
 LASPEYRESOV INDEKS CIJENA I KOLIĈINA
 PAASCHEOV INDEKS CIJENA I KOLIĈINA
 FISHEROV INDEKS CIJENA I KOLIĈINA
 INDEKS VRIJEDNOSTI
Skupne indekse izraĉunavaju i objavljuju statistiĉki uredi. Obiĉno su Laspeyresova tipa: INDEKS
POTROŠAĈKIH CIJENA – mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJE
Skupni indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na
vrijednosno izraţene pojave.

PREDAVANJE #5

MJERE DISPERZIJE
Reprezentativnost srednje vrijednosti ovisi o stupnju varijabilnosti podataka.Varijabilnost numeriĉkog
obiljeţja predoĉava se i pomoću grafiĉkih prikaza: dijagram s toĉkama i dijagram s pravokutnikom
Mjere za varijabilnost podataka su:
1. raspon varijacije
2. interkvartil
3. koeficijent kvartilne devijacije
4. varijanca
5. standardna devijacija
6. koeficijent varijacije
7. srednje apsolutno odstupanje (MAD)

18
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

1. RASPON VARIJACIJE
 pojedinaĉni podaci – određuje se kao razlika između najveće i najmanje vrijednosti

Rx  xmax  xmin
 distribucija frekvencija formirana na temelju pojedinaĉnih podataka – određuje se kao
razlika između posljednje i prve vrijednosti
R x  x k  x1
 distribucija frekvencija s razredima – aproksimira se kao razlika između gornje granice
posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog
razreda.
Raspon varijacije je apsolutna (izraţena je u istim mjernim jedinicama kao i obiljeţje) i nepotpuna (dobiva
se iz samo dvije vrijednosti) mjera disperzije.

2. INTERKVARTIL
KVARTILI:
 PRVI ILI DONJI KVARTIL (Q1) – vrijednost numeriĉke varijable koja ĉlanove niza dijeli u dvije
skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili manja od
donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima većim od donjeg kvartila.
 DRUGI ILI MEDIJAN (Q2)
 TREĆI ILI GORNJI KVARTIL (Q3) - vrijednost numeriĉke varijable koja ĉlanove niza dijeli u dvije
skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili manja od
gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima većim od gornjeg kvartila.

Interkvartil se određuje kao razlika kvartila  I Q  Q3  Q1 50%


Interpretira se kao raspon varijacije središnjih 50% podataka:

Interkvartil je također apsolutna i nepotpuna mjera disperzije.

3. KOEFICIJENT KVARTILNE DEVIJACIJE – njime se uspoređuje stupanj disperzije raznorodnih nizova.


Određuje se kao omjer interkvartila i zbroja kvartila:
Q  Q1
VQ  3 0 ≤ VQ < 1
Q3  Q1
Ovo je relativna i nepotpuna mjera disperzije.

GRAFIĈKI PRIKAZ VARIJABILNOSTI PODATAKA – dijagram s pravokutnikom  box-plot (B-P) dijagram


Za njegovu konstrukciju koristi se 5 pokazatelja numeriĉkog niza – 5's (five summary numbers)
 najmanja vrijednost
 najveća vrijednost
 medijan
 donji kvartil
 gornji kvartil
Na ovom grafiĉkom prikazu ouĉava se raspon varijacije i interkvartilni raspon te se prosuđuje o mogućoj
asimetriji kao i o pojavi netipiĉnih vrijednosti ( out lier)

19
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 1. Negrupirani tj. pojedinaĉni podaci


Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata.
Dobiveni su ovi rezultati : 20 22 25 27 28 28 30 30 33 35
Podaci moraju biti uređeni po veliĉini.
 raspon varijacije: 30–15 = 15 min
Vrijeme potrebno za rješavanje zadatka bilo je između 20 i 35 min. Odnosno u raponu od 15
min.
 interkvartil:
donji kvartil: N/4 = 10/4 = 2.5 ≠ INT
r = INT (N/4) + 1 = 2+1 = 3, Q1=x3=25
Prva ĉetvrtina studenata imala je vrijeme 25 min i manje, a preostale 3
ĉetvrtine imale su vrijeme veće od 25 min.
gornji kvartil: 3N/4 = 30/4 = 7.5 ≠ INT
r = INT (3N/4) + 1 =7+1=8, Q3=xr=x8=30
Prve tri ĉetvrtine studenata imale su vrijeme 30 min i manje, a preostala
ĉetvrtina imala je vrijeme veće od 30 min.

IQ = Q3 – Q1 = 30 - 25=5 min
Raspon varijacije središnjih 50% studenata iznosio je 5 min, tj. njihova vremena bila su
između 25 i 30 min.
 koeficijent kvartilne devijacije
VQ= (Q3-Q1)/(Q3+Q1) = (30-25)/(30+25) = 0.09
Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.09.
 B-P dijagram
N/2 = 10/2 = 5 = INT , r=5
Me = (xr+Xr+1)/2 = (x5+x6)/2 = (28+28)/2 = 28

20
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih vrijednosti


Pismeni ispit iz statistike sadrţi 5 zadataka. Distribucija frekvencija prema broju rješenih zadataka dana je
u tabeli:
BROJ BROJ KUMULATIVNI NIZ
ZADATAKA STUDENATA „manje od“
xi fi S(xi)
0 10 10
1 25 35
2 55 90
3 125 215
4 50 265
5 15 280
UKUPNO 280 -

 raspon varijacije: Rx = xk – x1 = 5-0 = 5 zadataka


Broj rješenih zadataka bio je između 0 i 5 odnosno u rasponu od 5 zadataka.
 interkvartil:
donji kvartil: N/4 = 70 ; Za Q1 se uzima vrijednosti varijable s prvom kumulativnom frekvencijom
koja sadrţi vrijednost N/4  Q1= 2
gornji kvartil: 3N/4 = 210  Q3=3
IQ = Q3 – Q1= 3 – 2= 1
Raspon varijacije središnjih 50% studenata iznosio je 1 zadatak, tj. broj rješenih zadataka bio je
između 2 i 3.
 koeficijent kvartilne devijacije
VQ= (Q3-Q1)/(Q3+Q1) = (3-2)/(3+2) = 0.2
Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.2

Primjer 3. Distribucija frekvencija s razredima


Distribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz statistike u min.
UTROŠENO BROJ KUMULATIVNI NIZ VELIĈINA
VRIJEME STUDENATA „manje od“ RAZREDA
fi S(xi) ii
10-15 15 15 5
15-20 20 35 5
20-25 30 65 5
25-30 10 75 5
UKUPNO 75 - -

 raspon varijacije
Rx = 30 – 10 = 20 min
Rx = 27.5 – 12.5 = 15 min
 interkvartil
N/4 = 75/4 = 18.75
Kvartilni razred je razred ĉija kumulativna frekvencija prva ukljuĉuje vrijednost N/4

21
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

N
  f1
Q1  L1  4 i 18.75  15
Q1  15   5  15.9 min
f k var 20
3N
  f1
Q3  l1  4 i 56.25  35
f k var Q3  20   5  23.5 min
30

IQ = 23.5 – 15.9 = 7.6 min


Raspon varijacije središnjih 50% studenata iznosio je 7.6 min.

VQ= (Q3-Q1)/(Q3+Q1) = (23.5 – 15.9)/(23.5 – 15.9) = 0.19


Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.19.

4. SREDNJE APSOLUTNO ODSTUPANJE (MAD) – za mjerenje disperzije moţe se koristiti i prosjeĉno


apsolutno odstupanje vrijednosti varijable od njezine aritmetiĉke sredine ili medijana:
N N

x
i 1
i x x i  Me
pojedinaĉni podaci: MAD 
i 1
 MADMe 
N N
 za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim
frekvencijama

Primjer 4.
Dnevna prodaja hladnjaka u 10 prodavaonica iznosila je: 2 5 3 3 7 3 4 6 4 3

PRODAJA x
 x  40  4 PRODAJA
N 10
xi x x xi xi  M e
i

2 2 2 1,5
5 1 5 1,5
3 1 MAD = 12/10 = 1,2 3 0,5
3 1 3 0,5
2 3 3 3 3 4 4 5 6 7
7 3 7 3,5
3 1 N/2 = 5 = INT, r = 5 3 0,5
4 0 4 0,5
6 2 Me = (x5+x6)/2 = (3+4)/2 = 3.5 6 2,5
4 0 4 0,5
3 1 3 0,5
40 12 40 12,0

PREDAVANJE #6
5. VARIJANCA – aritmetiĉka sredina kvadrata odstupanja vrijednosti numeriĉke varijable od njezine
aritmetiĉke sredine. Varijanca je mjera disperzije u drugom stupnju koju je potrebno vratiti u prvi stupanj.

22
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

x
2
i x
negrupirani podaci  
2 i 1

N
k

 f (x i i  x)2
grupirani podaci  
2 i 1
 k

f i 1
i

6. STANDARDNA DEVIJACIJA – pozitivni drugi korijen iz varijance. Potpuna i apsolutna mjera disperzije.
N

(x i  x)2
negrupirani podaci  
i 1

N

 f (x i i  x )2
grupirani podaci  
i 1
 k

f i 1
i

7. KOEFICIJENT VARIJACIJE – realtivna mjera disperzije. Određuje se kao omjer srtandardne devijacije i
aritmetiĉke sredine pomnoţen sa sto.

V   100
x

Standardna devijacija se interpretira kao prosječno odstupanje od prosjeka izraženo apsolutno, a


koeficijent varijacije kao to isto odstupanje izraženo relativno i to u vidu postotka.

Primjer 1. Negrupirani tj. pojedinaĉni podaci


Mjereno je vrijeme (u minutama) potrebno za rješavanje jednog zadatka iz statistike za 10 stuudenata.
Dobiveni su ovi rezultati:
VRIJEME N

xi ( xi  x )2
 xi
278
x i 1
  27.8 min
20 60.84 N 10
22 33.64
25 . N

27 .  ( xi  x ) 2
191.60
28 .  2  i 1   19.16
N 10
28 .
30 .
30 .    2  19.16  4.38 min
33 .
35 .  4.38
V   100   100  15.76%
UKUPNO 191.60 x 27.8
23
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Interpretacija:
Prosjeĉno vrijeme rješavanja zadataka iznosilo je 27.8 minuta s prosjeĉnim odstupanjem od 4.38 minute
odnosno 15.76%.

Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih podataka


Pismeni ispit iz statistike sadrţi 5 zadataka. Distribucija studenata prema broju rješenih zadataka dana je
u tabeli:
BROJ BROJ kol. 1x2 k

ZADATAKA STUDENATA  f i xi
785
x ki 1
  2.80 zadataka
xi fi fixi f ( x  x) 2
f
280
i i i
i 1
k
0 10 0 78.4 f i ( xi  x ) 2
1 25 25 81.0 344.2
 
2 i 1
k
  1.23
2 55 110 . f i
280
3 125 375 . i 1

4 50 200 .    2  1.23  1.11 zadataka


5 15 75 .  1.11
V   100   100  39.64%
UKUPNO 280 785 344.2 x 2.80

Prosjeĉni broj rješenih zadataka iznosio je 2.80 zadatka. S prosjeĉnim odstupanjem od 1.11 zadataka
odnosno 39.64%.

Primjer 3. Distribucija frekvencija s razredima


Struktura aktivnog stanovništva u drugom polugodištu 2003.g. u RH
STAROST STAROST% PRAVE RAZREDNE kol. 2x4 VELIĈINA KORIGIRANE
GRANICE SREDINE RAZREDA FREKVENCIJE
Pi xi Pixi P ( x  x)2 Pci
i i

15-24 12 14.5-24.5 19.5 234.0 5043.00 10 12


25-49 64 24.5-49.5 37.0 2368.0 . 25 25.6
50-64 21 49.5-64.5 57.0 1197.0 . 15 14.0
65-(74) 3 64.5-(74.5) 69.5 208.5 . 10 3.0
UKUPNO 100 - - 4007.5 14298.75 - -
k

Px i i
4007.5
x i 1
  40 godina
100 100
k

 P (x i i  x) 2
14298.75
2  i 1
k
  142.99 Interpretacija:
 Pi
100
Prosjeĉna starost aktivnog stanovništva iznosila je 40
i 1
godina. S prosjeĉnim odstupanjem od 11.96 godina
   2  142.99  11.96 godina odnosno 30%.
 11.96
V 100  100  30%
x 40.00

24
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

STANDARDIZIRANA VARIJABLA – linearna transformacija numeriĉke varijable x. Određuje se tako da


se odstupanja numeriĉke varijable od njezine aritmetiĉke sredine podijele sa standardnom devijacijom, tj.
da se izraze u jedinicama standardnih devijacija. Aritmetiĉka sredina standardizirane varijable jednaka je
nuli, a standardna devijacija jednaka je jedan.
x x
z z  0 ; z  1

PRAVILO ĈEBIŠEVA – govori da je najmanja proporcija ĉlanova bilo kojeg niza obuhvaćenih bilo kojim
intervalom x  k , k  1 , jednaka 1  12 .
k
U pojasu x  2 nalazi se najmanje 0.75 tj. 75% svih podataka.
U pojasu x  3 nalazi se najmanje 0.889 tj. 88.89% svih podataka.

Ako su podaci raspoređeni po normalnoj distribuciji onda:


 pojas x  1 obuhvaća oko 68% podataka
 pojas x  2 obuhvaća oko 95% podataka
 pojas x  3 obuhvaća oko 99.73% podataka

 3  2  1 x 1 2 3

Primjer 4.
Prosjeĉan broj bodova na 1. kolokviju iz statistike iznosi 15, a prosjeĉno odstupanje od prosjeka iznosi 5.
Na drugom kolokviju postignut je prosjeĉan broj bodova 17 s prosjeĉnim odstupanjem od prosjeka 4.
Student je na prvom kolokviju postigao 20, a na drugome 22 boda. Što se moţe zakljuĉiti o uspjehu
studenta na kolokvijima?
x1  15 x2  17
1  5 2  4
x1  20 x2  22
x1  x20  15
Vrijednost standardiziranog obiljeţja na prvom kolokviju: z 1    1.00
1 5
x  x 22  17
Vrijednost standardiziranog obiljeţja na drugom kolkviju: z 2  2   1.25
2 4
Student je na oba kolokvija postigao iznad prosjeĉan rezultat. Bolji je na drugom kolokviju jer je
odstupanje od prosjeka na više 1.25 σ, a na prvome 1 σ.

Primjer 5.
Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata.
Dobiveni su ovi rezultati: 20 22 25 27 28 28 30 30 33 35
Je li vrijeme rješavanja od 35 minuta netipiĉno?

Netipičan je podatak koji se nalazi izvan pojasa x  2 tj. ako od prosjeka odstupa za više od 2σ.
Ako se podaci raspoređuju po normalnoj distribuciji netipičan je podatak koji se nalazi izvan pojasa
x  3 tj. ako od prosjeka odstupa za više od 3σ.

25
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

x  27.8 min
  4.38 min
Budući da se vrijeme od 35 minuta nalazi u pojasu x  2 ne moţe se

xx 35  27.8 smatrati netipiĉnim.


z   1.64 
 4.38

PREDAVANJE #7

MJERE ASIMETRIJE – njima se mjeri naĉin rasporeda podataka prema aritmetiĉkoj sredini ili nekoj
drugoj vrijednosti.Najvaţnije su:
1. Koeficijent asimetrije α3 - potpuna mjera
2. Pearsonova mjera nepotpune
3. Bowleyeva mjera mjere

1. KOEFICIJENT ASIMETRIJE α3
MOMENTI OKO SREDINE – aritmetiĉke sredine odstupanja vrijednosti numeriĉke varijable od
njezine aritmetiĉke sredine podignuti na neku potenciju
N

(x i  x)
pojedinaĉni podaci   r 
i 1

N
k

 f (x i i  x)r
grupirani podaci   r 
i 1
 k

fi 1
i

- s obzirom na veliĉinu r govori se o nultom, prvom, drugom, trećem ili ĉetvrtom momentu oko
sredine

- koeficijent asimetrije α3 je omjeru trećeg momenta oko sredine i standardne devijacije podignute
M3
na treću potenciju   3  3 obiĉno se kreće u intervalu ±z, a u određenim sluĉajevima moţe

biti izvan toga intervala:
α3 = 0  simetriĉna distribucija
α3 < 0  negativno asimetriĉna distribucija
α3 > 0  pozitivno asimetriĉna distribucija

2. PEARSONOVA MJERA – temelji se na odnosu srednjih vrijednosti u distribucijama frekvencija

 simetriĉna distribucija 

26
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

 pozitivno asimetriĉna distribucija 

 negativno asimetriĉna distibucija 

- Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od
aritmetiĉke sredine:
3( x  Me) ( x  Mo)
St  St  kreće se u intervalu ±
 
St = 0  simetriĉna distribucija
St > 0  pozitivno asimetriĉna distribucija
St < 0  negativno asimetriĉna distribucija

3. BOWLEYJEVA MJERA – temelji se na odnosu medijana i kvartila

 simetriĉna distribucija 
Me  Q1  Q3  Me
Q1  Q3  2 Me  0

 pozitivno asimetriĉna distribucija 


Me  Q1  Q3  Me
Q1  Q3  2 Me  0

27
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

 negativno asimetriĉna distibucija 


Me  Q1  Q3  Me
Q1  Q3  2 Me  0

Q1  Q3  2 Me
S ka  kreće se u intervalu ±1
Q3  Q1
Ska = 0  simetriĉna distribucija
Ska > 0  pozitivno asimetriĉna distribucija
Ska < 0  negativno asimetriĉna distribucija

Primjer 1. pojedinaĉni podaci


Radi kontrole deklarirane teţine izabran je uzorak od 10 proizvoda pakiranih u vrećice. Mjerenjem su
dobiveni ovi rezultati u gramima: 10 12 15 13 10 11 12 11 11 15
xi ( xi  x ) ( xi  x )2 ( xi  x )3
10 -2 4 -8
x
 xi  120  12 g
12 0 0 0 N 10
15 . . . Mo  11g
13 . . .
N x  x6 11  12
10 . . . Me   5  INT  5   11.5 g
11 . . . 2 2 2
12 . . . N
 2.5 Q1  x3  11
11 . . . 4
11 . . . 3N
15 . . .  7.5 Q3  x8  15
4
120 0 30 36

1.koeficijent asimetrije
N

 (x i  x )3
36
3  i 1
  3.6    2  3  1.73g
N 10
M3 3.6
3    0.69
N

 (x i  x)2
30  3
1.733
2   2  i 1
 3
N 10
- α3 je pozitivan, distibucija je umjereno pozitivno asimetriĉna

2. Pearsonova mjera 3. Bowleyjeva mjera


x  Mo 12  11 Q  Q3  2Me 11  13  2 11.5
Sk    0.53 S ka  1   0.5
 173 Q3  Q1 13  11

28
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 2. distribucija frekvencija s razredima


Distribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz
statistike
UTROŠENO BROJ RAZREDNE
VRIJEME STUDENATA SREDINE
fi xi f i xi f i ( xi  x )2 f i ( x i  x)3
10-15 15 12.5 187.5 187.5 -5907.49
15-20 20 17.5 350 - -
20-25 30 2.5 675 - -
25-30 10 17.5 275 - -
UKUPNO 75 - 1487.5 1716.67 -1076.29

x
 f x  14875.5  19.83 min
i i

f i75

M3 
 f ( x  x )   1076.29  14.35
i i
3

f 75
i

M2  
2  f ( x  x )  1716.67  22.87
i i
2
Mo  21.67 min
f 75 i
Me  20.42 min
Q1  15.94 min
   2  22.89  4.78 min
Q3  23.54 min
M3  14.35
3    0.13
3 4.783

Distribucija je blago negativno asimetriĉna.

x  Mo 19.83  21.67
Pearsonova mjera: S k    0.38
 4.78
Q  Q3  2Me 15.94  23.54  2  80.42
Bowleyjeva mjera: S ka  1   0.18
Q3  Q1 23.54  15.94

MJERA ZAOBLJENOSTI

KOEFICIJENT ZAOBLJENOSTI α4 – njime se mjeri zaobljenost modalnog vrha distribucije. Izraĉunava se kao
M
omjer ĉetvrtog momenta oko sredine i standardne devijacije podignute na 4. potenciju   4  44

N

(x i  x )4
 negrupirani podaci  M 4  i 1

N
k

f i ( x i  x )4
 grupirani podaci  M 4  i 1
k

fi 1
i

29
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

- α4 = 3  NORMALNA DISTRIBUCIJA – najvaţnija teorijska


distribucija
- α4 > 3  šiljatija distribucija od normalne
- α4 < 3  plosnatija distribucija od normalne

- α4 ≈ 1.8  pravokutna distribucija


- α4 < 1.8  U-distibucija

EKSCES – alternativna mjera zaobljenosti  K   1  3


K = 0 ---- normalna distribucija
K > 0 ---- šiljatija distribucija
K < 0 ---- plosnatija distribucija

Primjer 3. pojedinaĉni podaci


xi ( xi  x )4 x  12 g
10 16   1.73g
12 0
15 . M4 
 (x i  x)4

198
 19.8
13 . N 10
10 . M 19.8
 4  44   2.21
11 .  1.73 4
12 . K   3  3  2.21  3  0.79
11 .
11 .
15 . Distribucija je plosnatija od normalne.
120 198

Primjer 4. distribucija frekvencija s razredima


UTROŠENO BROJ RAZREDNE x  19.83 min
VRIJEME STUDENATA SREDINE   4.78 min
fi xi f i ( xi  x ) 4
M4 
 f (x  x)
i i
4


80024.41
 1066.99
10-15 15 12.5 13 301.92 f i 75
15-20 20 17.5 . M4 1066.99
4    2.04
20-25 30 22.5 .  4
4.78 4
25-30 10 27.5 . K   4  3  2.04  3  0.96
UKUPNO 75 - 80 024.41
30
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Distribucija je plosnatija od normalne.


MJERE KONCENTRACIJE – njima se mjeri naĉin rasporeda totala po jedinicama niza
 apsolutne – najĉešće se koriste koncentracijski omjeri
 relativne – najĉešće se koristi Ginijev koeficijent koncentracije

1. KONCENTRACIJSKI OMJER reda r se određuje tako da se zbroj r vrijednosti (od njih N) podijeli sa
zbrojem N vrijednosti. Pri tome se pretpostavlja da su podaci poredani od najvećeg prema
najmanjem.
r

x
i 1
i
1
Cr  N
 Cr  1
N
x
i 1
i

Ako se radi o ravnomjernoj raspodjeli, koncentracijski omjer poprima vrijednost od 1 do N.


A ako se radi o maksimalnoj raspodijeli, koncentracijski omjer poprima vrijednost 1.
- u analizi koncentracije koristi se grafiĉki prikaz – LORENZOVA KRIVULJA
1) na osi apscisa nalazi se aritmetiĉko mjerilo za kumulativni niz relativnih frekvencija
2) na osi ordinata nalazi se aritmetiĉko mjerilo za kumulativni niz proporcija podtotala
3) prva toĉka ima koordinate (0,0); posljednja toĉka ima koordinate (1,1); koordinate ostalih
toĉaka određene su vrijednostima ĉlanova kumulativnih nizova
4) u grafiĉki prikaz ucrtava se pravac jednolike raspodjele, on prolazi toĉkama (0,0) i (1,1)

2. GINIJEV KOEFICIJENT – temelj za njegovo utvrđivanje je površina između pravca jednolike


raspodjele i Lorenzove krivulje. Što je koncentacija veće to se Lorenzova krivulja više udaljuje od
toga pravca
N N
2 ixi  ( N  1) xi xi - pojedinaĉne vrijednosti varijable
 negrupirani podaci  G i 1 i 1
N
i - redni broj podatka
N  xi
i 1

- podaci moraju biti uređeni od najmanjeg prema najvećem


- kreće se u intervalu od 0 do 1
- G = 0  ravnomjerna raspodjela
- G = 1  maksimalna koncentracija
 N
- NORMIRANI KOEFICIJENT GINIJA  G  G 
N 1

31
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PREDAVANJE #8

OSNOVNI POJMOVI VJEROJATNOSTI


VJEROJATNOST – brojĉana mjera nastanka neizvjesnih, tj. sluĉajnih događaja. Vjerojatnost nastanka
događaja A jednaka je P(A) pri ĉemu je 0 ≤ P(A) ≤ 1. Nekada se izraţava i u obliku postotka.

DEFINICIJE VJEROJATNOSTI

SLUĈAJNI POKUS – pokus je sluĉajan ako se u definiranim uvjetima moţe ponavljati, ako postoje barem 2
razliĉita ishoda te ako se ishodi ne mogu predvidjeti sa sigurnošću.
PROSTOR UZORKA S – skup svih mogućih ishoda sluĉajnog pokusa
SLUĈAJNI DOGAĐAJ – jednoĉlani ili višeĉlani podskup skupa S te su sa događajima dopuštene skupovne
operacije.

1. KLASIĈNA DEFINICIJA (vjerojatnost a priori) – pretpostavlja se da se pokus ponavlja konaĉan broj puta,
pri ĉemu se vjerojatnost određuje kao omjer povoljnog broja ishoda m i ukupnog broja ishoda n 
m
P ( A) 
n
2. STATISTIĈKA VJEROJATNOST (vjerojatnost a posteriori) – broj ponavljanja pokusa je beskonaĉan, a
vjerojatnost se aproksimira relativnom frekvencijom, tj.omjerom apsolutne frekvencije opsega i opsega
statistiĉkog skupa.
3. SUBJEKTIVNA VJEROJATNOST – to je broj iz intervala [0,1] određen na temelju prosudbe okolnosti
relevantnih za nastup sluĉajnog događaja.

SVOJSTVA VJEROJATNOSTI:
1) vjerojatnost da događaj A neće nastupiti jednaka je P(Ā)=1-P(A)
2) vjerojatnost istodobnog nastupa događaja A1 i A2 jednaka je P(A1∩A2)
3) ako su događaji međusobno iskljuĉivi, vjerojatnost da će nastupiti događaj A1 ili A2 jednaka je
P(A1UA2)=P(A1)+P(A2)
4) ako događaji nisu međusobno iskljuĉivi, vjerojatnost nastupa barem jednog od njih jednaka je
P(A1UA2)=P(A1)+P(A2)-P(A1∩A2)
5) ponekad je potrebno odrediti vjerojatnost nastupa događaja A uz uvjet da se dogodio događaj B.
P( A  B)
Takva se vjerojatnost naziva uvjetnom vjerojatnošću  P( A | B) 
P( B)
6) ako su događaji neovisni tada vrijedi da je P(A∩B)=P(A)P(B)

SLUĈAJNA VARIJABLA X – numeriĉka funkcija koja svakom ishodu sluĉajnog pokusa pridruţuje realan broj.
 diskretna- ako poprima konaĉan broj vrijednosti
 kontinuirana – moţe poprimiti bilo koju vrijednost iz nekog intervala

DISTRIBUCIJA VJEROJATNOSTI
 diskretne sluĉajne varijable – skup uređenih parova razliĉitih vrijednosti sluĉajne varijable xi i
pripadajućih vjerojatnosti p(xi). Ima slijedeća svojstva:
- p(xi) ≥ 0
- ∑p(xi) = 1
Kumulativna funkcija ili funkcija distribucije F(xi) – pokazuje kolika je vjerojatnost da sluĉajna
varijabla x poprimi vrijednost xi ili manju.
32
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

 kontinuirane sluĉajne varijable – opisuje razdiobu vjerojatnosti na intervalu vrijednosti varijable.


Njena svojstva:
- f(x) ≥ 0

-  f ( x)dx  1


Primjer 1.
KVALITETA PROIZVODA BROJ PROIZVODA UKUPNO
(KLASA) DOB A DOB B
I 20 10 30
II 10 10 20
III 30 20 50
UKUPNO 60 40 100

KVALITETA PROIZVODA BROJ PROIZVODA UKUPNO


(KLASA) DOB A (B1) DOB B (B2)
I (A1) 0.2 0.1 0.3
II (A2) 0.1 0.1 0.2
III (A3) 0.3 0.2 0.5
UKUPNO 0.6 0.4 1  marginalne vjerojatnosti

a) Kolika je vjerojatnost odabira proizvoda I. klase? P(A1)=0.3


b) Kolika je vjerojatnost odabira proizvoda dobavljaĉa B? P(B2) = 0.4
c) Kolika je vjerojatnost izbora proizvoda III. klase dobavljaĉa A? P(A3∩B1) = 0.3
d) Kolika je vjerojatnost izbora proizvoda I. ili III. klase? P(A1UA3) = P(A1)+P(A3) = 0.3+0.5 = 0.8
e) Kolika je vjerojatnost da se izabere proizvod III. klase ili proizvod dobavljaĉa B?
P(A3UB2) = P(A3)+P(B2)-P(A3∩B2)= 0.5 + 0.4 – 0.2 =0.7
f) Kolika je vjerojatnost izbora proizvoda dobavljaĉa A ako je poznato da je III. klase?
P( A3  B1 ) 0.3
P( B1 | A3 )    0.6
P( A3 ) 0.5
g) Jesu li varijable kvaliteta i dobavljaĉ neovisne?
Ako bi varijable kvaliteta i dobavljaĉ bile neovisne, vjerojatnosti bi u polju tabele bile jednake umnošku
P( Ai  B j )  P( Ai ) P( B j )
marginalnih vjerojatnosti
P( A1  B1 )  P( A1 ) P( B1 )  0.3  0.6  0.18
Budući da je 0.2≠0.18, između kvalitete proizvoda i dobavljaĉa postoji zavisnost.

Primjer 2.
xi p(xi) xi p(xi) F(xi) a) Pokaţite da je navedena distribucija, distribucija vjerojatnosti!
0 0.1 0 0.1 1) p( xi )  0
1 0.2 0.2 0.3 DA
2)  p( xi )  1
2 0.4 0.8 0.7
3 0.2 0.6 0.9 b) Odredite oĉekivanu vrijednost! F x     xi  p( xi )  2.00
4 0.1 0.4 1.0 c) Odredite vrijednosti funkcije distribucije! (tablica)
UKUPNO 1.0 2.0 - d) Odredite vjerojatnost p(x≤2)! p( x  2)  0.1  0.2  0.4  0.7

33
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

MODELI DISTRIBUCIJA VJEROJATNOSTI – temelj inferencijalne statistike


Distribucije vjerojatnosti diskretne sluĉajne varijable: (najĉešće se koriste binomna i poissonova)
1. BINOMNA
2. POISSONOVA
3. HIPERGEOMETRIJSKA
4. UNIFORMNA

1. BINOMNA DISTRIBUCIJA – njena je definicija povezana sa Bernaulijevim pokusom. Bernaulijev pokus je


sluĉajni pokus slijedećih svojstava: - ima dva ishoda (uspjeh i neuspjeh)
- vjerojatnost ishoda uspjeh je p, a neuspjeh q=1-p
- pokusi su neovisni
 n  n n!
P ( x )     p x  q n x   
 x  x  x!( n  x )!
n-broj ponavljanja Bernaulijevih pokusa
p-vjerojatnst ishoda uspjeh
x-sluĉajni broj ishoda uspjeha

Oĉekivana vrijednost  Ex   n  p


Varijanca    n  p  q
2

2. POISSONOVA DISTRIBUCIJA – graniĉni sluĉaj binomne distribucije. Prikladna je za opis rijetkih


događaja, tj. događaja koji se javljaju s malom vjerojatnošću.
e n x
p( x )  x-broj povoljnih ishoda
x!
Oĉekivana vrijednost  E x   
Varijanca    
2

Primjer 3.
Prema raspoloţivim podaciima banke u prosjeku 5 stranaka po satu zahtijeva usluge oroĉavanja depozita.
Pretpostavi li se da stranke prispjevaju u banku neovisno, po satima u random vremenu s itom
vjerojatnosti, kolika je vjerojatnost da se pred šelterom za oroĉavanje nađu: (broj stranaka koje u jednom
satu za radnog vremena dolaze neovisno i s istom vjerojatnosti diskretna je sluĉajna varijabla koja se
ravna prema Poissonovoj distribuciji s parametrom  = 5.)

e 5
a) 3 stranke? P(3)   0.14037
3!
b) više od 1 stranke?
P( x  1)  1   p(0)  p(1)  0.95957
e 5 5 0
p(0)   0.00674
0!
e 5 51
p(1)   0.03369
1!

34
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PREDAVANJE #9
Distribucije vjerojatnosti kontinuirane sluĉajne varijable:
1. NORMALNA (GAUSSOVA)
2. STUDENTOVA (T-DISTRIBUCIJA)
3.  2 (HI-KVADRAT)
4. F-DISTRIBUCIJA
5. UNIFORMNA KONTINUIRANA
6. EKSPONENCIJALNA

1. NORMALNA (GAUSSOVA) DISTRIBUCIJA – najvaţnija distribucija vjerojatnosti.


- dvoparametarska funkcija (određena s 2 parametra) : oĉekivana vrijednost i varijanca N ( ,  2 )
- zvonolika je i simtriĉna
- budući da aritmetiĉka sredina i standardna devijacija ovise o mjernim jedinicama varijable uvodi se
x
jediniĉna (standardizirana) normalna distribucija  z  N (0,1);  2  0;  2
2


Jediniĉna normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje predstavljaju
vjerojatnosti. U pred-stupcu tabele su sve vrijednosti izraţene kao brojevi s jednom decimalom. Druga
decimala nalazi se u zaglavlju.Budući da je distribucija simetriĉna u tabeli su dane samo vrijednosti z.

 oznaĉena površina oznaĉava vjerojatnost da


sluĉajna varijabla poprimi vrijednost iz intervala od 0
do z.

Primjer 1.
Sluĉajna varijabla x distribuirana je po normalnoj distribuciji N ( μ,σ2 ). Odredite vjerojatnost da varijabla
poprimi vrijednost:
a) μ-σ < x < μ+σ

x
z 0

(  z)  
z  1

(  z)  
z 1

p(     x     )  p(1  z  1)
 2 P( z  1.00)  2  0.3413  0.6826
Kaţemo da je 68.26% vjerojatno da će sluĉajna varijabla z zauzeti vrijednosti između -1 i 1 ili da će
sluĉajna varijabla x zauzeti vrijednost između μ-σ i μ+σ.

35
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

b) μ-2σ < x < μ+2σ

 p(   2  x    2 ) 
p(2  z  2)  2 P( z  2.00) 
2  0.4772  0.9544

Kaţemo da je 95,44% vjerojatno da će sluĉajna varijabla z zauzeti vrijednost između -2 i 2 ili da će


sluĉajna varijabla x zauzeti vrijednost između μ-2σ i μ+2σ.

2. STUDENTOVA DISTRIBUCIJA
- njen oblik je određen veliĉinom n
- za n>30 (veliki uzorak) distribucija se po obliku pribliţava normalnoj distribuciji
- za n<30 (mali uzorak) distribucija je više razvuĉena na obje strane uzduţ apscise
- i ona je zvonolika i simetriĉna te tabelirana
- u pred-stupcu tablice nalaze se stupnjevi slobode, u zaglavlju su vjerojatnosti. U poljima tabele su
kritiĉne vrijednosti.

Vjerojatnost da će sluĉajna varijabla koja se ravna po Studentovoj


distribuciji poprimiti vrijednost veću od tα iznosi α.

Primjer 2.
Sluĉajna varijabla t distibuirana je po Studentovoj distribuciji s 8 stupnjeva slobode. Odredite slijedeće
vjerojatnosti:
a) P (t ≤ 1.397)

pt  1.397  1  pt  1.397  1  0.100  0.900

b) P (t ≤ -1.397)

Pt  1.397  Pt  1.397  0.100

36
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE


INFERENCIJALNA STATISTIKA – skup analitiĉkih metoda koje polaze od uzorka.. Budući da se zakljuĉci
donose na temelju dijela podataka oni sadrţe pogrešku nastalu zbog primjene uzorka (Sampling error).

Faktori koji uvjetuju primjenu uzorka su slijedeći:


1. pojedini konaĉni skupovi sadrţe veliki broj ĉlanova pa bi njihovo istraţivanje zahtijevalo velika
financijska sredstva
2. do rezultata se dolazi u kraćem vremenu
3. uzorak se primjenjuje kada bi se istraţivanjem uništio ĉitav statistiĉki skup (npr.istraţivanje
trajnosti elektriĉnih ţarulja)
4. beskonaĉni skupovi istraţuju se iskljuĉivo metodom uzorka (pr.beskonaĉnog skupa:proizvodnja)

Dvije su osnovne zadaće metode uzorka:


1. procjenjivanje parametra
2. testiranje hipoteza

PLAN UZORKA – plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka, tj.
uzorak mora biti umanjena slika osnovnog skupa.
S obzirom na naĉin izbora jedinica uzorka razlikuju se namjerni i slučajni uzorci.

1. namjerni uzorci – jedinice uzorka izabiru se prema odluci istraţivaĉa


 prigodni uzorak – ispituju se dostupne jedinice (npr.javno mišljenje)
 uzorak izabran na temelju prosudbe istraživača – istraţivaĉ izabire reprezentativne
jedinice pri ĉemu je potrebno da dobro poznaje osnovni skup
 kvotni uzorak – anketari se slobodno odluĉuju za jedinice u sklopu kvota
Namjerni uzorci jednostavni su za primjenu te se ĉesto koriste. Analiziraju se metodama
deskriptivne statistike.
Nedostatak: nije moguće izraĉunati grešku nastalu zbog primjene uzorka.
2. sluĉajni uzorci – svaki elemnt ima vjerojatnost izbora veću od nule. Kod ovih uzoraka moguće je
izraĉunati grešku. Analiziraju se metodama inferencijalne statistike.
 jednostavni slučajni uzorak – svaki element ima jednaku vjerojatnost izbora.
primjenjuje se kod homogenih skupova.
 stratificirani uzorak – prikladniji je kod skupova koji pokazuju veći stupanj
varijabilnosti. Jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju
STRATUMI.
 uzorak skupina – u uzorak se ne izabiru pojedini elementi nego njihove skupine.
Ponekad se primjenjuje sistematski izbor (npr.ako iz skupa od 10 000 ĉlanova biramo uzorak
veliĉine 1000 birat ćemo svaki 10. ĉlan). Budući da se radi o sluĉajnom uzorku potrebno je
odrediti sluĉajni poĉetak.

OKVIR IZBORA – popis ĉlanova statistiĉkog skupa (npr.biraĉki popis)

37
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PREDAVANJE #10
SAMPLING DISTRIBUCIJA – teorijska distribucija vjerojatnosti procjenitelja parametra. Zasniva se na
konceptu ponovljenih izbora sluĉajnih uzoraka iz danog osnovnog skupa pri ĉemu razliĉiti uzorci dovode do
razliĉitih vrijednosti procjena.

Primjer 1.
Vrijednosti numeriĉke varijable x koje tvore osnovni skup su 1, 3 i 5. Iz skupa se izabiru uzorci veliĉine
n=2. Izbor je s jednakom vjerojatnošću svakog elementa skupa odnosno svakog uzorka.

x i
9
aritmetiĉka sredina osnovnog skupa (μ)   i 1
 3
N 3

standardna devijacija osnovnog skupa   


 (x i  )2

8
N 3
vrijednosti varijabla 1;1 1;3 1;5 3;3 3;1 3;5 5;1 5;3 5;5
elemenata u uzorku
aritmetiĉka sredina 1 2 3 3 2 4 3 4 5
uzorka xi

Provest ćemo izbor s ponavljanjem – izbor u kojem se svaki izabrani element za uzorak nakon izbora vraća
u osnovni skup i tako sudjeluje u izboru sljedećeg elementa za uzorak.
Budući da je vjerojatnost izbora svakog sluĉajnog uzorka veliĉine n=2 jednaka, iznosi 1/9, distribucija je
sredina:
aritmetiĉka P ( xi ) xi  P ( x i )
sredina uzorka xi
1 1/9 1/9
2 2/9 4/9
3 3/9 9/9 Ex    xi  p( xi )  3  
4 2/9 8/9
5 1/9 5/9
ukupno 1 27/9=3

sampling distribucija

Oĉekivana vrijednost sampling distribucije aritmetiĉkih sredina uzoraka jednaka je aritmetiĉkoj sredini
osnovnog skupa. Standardna devijacija sampling distribucije sredina prosjeĉno je odstupanje aritmetiĉkih
sredina od aritmetiĉke sredine osnovnog skupa. Ona izraţava pogrešku koja nastaje zbog primjene uzorka,
stoga se naziva standardnom pogreškom aritmetiĉke sredine.

38
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PROCJENE PARAMETARA – parametar se procjenjuje brojem i intervalom.


Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.
(ˆ  greška. procjene  .. ..  ˆ  greška. procjene )
ˆ - karakteristika uzorka, a ujedno i procjena broja
 - karakteristika osnovnog skupa koja se procjenjuje (npr. aritmetiĉka sredina, total i proporcija)
Procjenitelj  :
 nepristran – ako je njegova oĉekivana vrijednost jednaka parametru koji se procjenjuje E ˆ  
 konzistentan – ako njegova standardna devijacija s porastom uzorka teţi nuli

PROCJENA ARITMETIĈKE SREDINE – moţe biti brojem i intervalom


 procjena brojem – jednaka je aritmetiĉkoj sredini uzorka
 intervalna procjena za veliki uzorak (n>30) – koristi se normalna distribucija (Gaussova) 

  x  aritmetiĉka sredina uzorka


P  x  z  x    x  z  x   1    z   koeficijent pouzdanosti koji se određuje na temelju
 2 2  2
površina ispod normalne krivulje
 x  standardna pogreška procjene aritm.sredine
  aritmetĉka sredina osnovnog skupa,a ujedno i
parametar koji se procjenjuje
1     razina signifikantnosti

 intervalna promjena za mali uzorak (n≤30) – koristi se Studentova T – distribucija


 
P  x  t  x    x  t  x   1    t  -koeficijent pouzdanosti koji se određuje na temelju
 2 2  2
studentove distribucije

Primjer 2.
Odredite vrijednost standardne pogreške procjene aritmetiĉke sredine osnovnog skupa za ove
sluĉajeve:
a) Procjenjuje se sredina konaĉnog skupa od 125 768 ĉlanova pomoću sluĉajnog uzorka veliĉine 1250
ĉlanova. Standardna devijacija osnovnog skupa iznosi 64.
N  125768 N-broj elemenata osnovnog skupa
n  1250 n-broj elemanata uzorka
n 1250
f    0.0099 ; f  0.05 Frakcija izbora (f) pokazuje da je u uzorak izabrano
N 125768
pribliţno 1% osnovnog skupa.
  N n 
 , f  0.05
N 1  64


n 
 x    1.81019
x    n 1250
  
 , f  0.05 
 n 
39
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

b) Sredina se procjenjuje pomoću sluĉajnog uzorka veliĉine 600 formiranog izborom svakog desetog ĉlana
konaĉnog osnovnog skupa, a varijanca skupa iznosi 100.
n  600 n 600
f    0.1, f  0.05
N N 6000
 10   N  10  n  6000
n  N n 10 6000  600
x    0.38733
  100     10
2
n N 1 600 6000  1

c) Uzorak veliĉine 36 izabran je iz beskonaĉnog osnovnog skupa N(μ, 52)


beskonaĉni skup  f<0.05 (kad u zadatku nemamo N pretpostavljamo da je skup beskonaĉan i f<0.05)
 5 5
x     0.83333
n 36 6

d)
N  35679
n  2500 ˆ - nepristrani procjenitelj standardne devijacije populacije (osnovnog skupa)
ˆ  10
n 2500
 ˆ N  n  f    0.07 , f  0.05
 , f  0.05 N 35679
 n N 1 
 
x  
 ˆ  ˆ N n 10 35679  2500
x    0.19287
 , f  0.05  n N 1 2500 35679  1
 n 

e) Veliĉina je uzorka 256 i ĉini 2% osnovnog skupa, a standardna devijacija uzorka je 32.
s  32 s – standardna devijacija uzorka
n  256
256
2 100   N  12800
N

f  0.02 , f  0.05 n
ˆ  32.06268
ˆ  s
n1  faktor korekcije
ˆ
x   2.00392
n

Primjer 3.
Tvrtka isporuĉuje vijke pakovanih po 100 komada. Kupac je primio pošiljku od 10000 pakovanja. Radi
kontrole izabran je sluĉajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedeći broj neispravnih
60 60
vijaka po pakovanju: 4, 3, 3, 1, 3,…. Njihov zbroj je 117.  xi  117 , x  293
2
i
i 1 i 1
Procjenite brojem i intervalom prosjeĉan broj neispravnih vijaka po pakovanju za cijelu pošiljku. Razina
povjerenja je 95%.
40
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

n  60   veliki uzorak
n 60
f    0.006 , f  0.05
N 10000

 procjena brojem – procjenitelj aritmetiĉke sredine je aritmetiĉka sredina uzorka

x
 xi  117  1.95  2  procjena prosjeĉnog broja neispravnih vijaka po pakovanju
N 60
 intervalni procjenitelj
P x  z  x    x  z  x   1   
 2 2 

0.95:2 = 0.4750
z(P=0.4750) = 1.96

Kako nije poznata standardna devijacija osnovnog skupa potrebno je izraĉunati njezinu procjenu pomoću
podataka iz uzorka.
1
293  117 2
 xi 
2 1
n
 
xi
2
ˆ  60
59
 1.04840
ˆ  ˆ 1.04840
n1 x    0.13535
n 60

P1.95  1.96  0.13535    1.95  1.96  0.13535  0.95


P0.68471    2.21529  0.95

Interpretacija: S vjerojatnošću od 0.95 odnosno 95% oĉekuje se da će se prosjeĉan broj neispravnih


vijaka po pakovanju kretati između 0.68471 i 2.21529.

Primjer 4.
Ispituje se prosjeĉno trajanje pozivnih telefonskih razgovora preko telefonske centrale poduzeća Market.
Trajanje u minutama 10 sluĉajno odabranih razgovora iz evidencije 8967 razgovora bilo je slijedeće:
xi : 2 1 1 2 3 4 2 1 1 3
Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom
aritmetiĉkom sredinom i nepoznatom standardnom devijacijom.
Odredite granice za koje se moţe oĉekivati da obuhvaćaju prosjeĉno trajanje razgovora za osnovni skup.
Pouzdanost procjene je 90%.

41
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

n  10   mali uzorak

P x  t   x    x  t   x   1   
 2 2 

x
 xi  20  2 min
n 10

koeficijent pouzdanosti t određuje se pomoću tablice studentove T-distribucije.

1  0.90
 0.05
2
s.s.  n  1  9

t0(.905)  1.833

 xi  n  xi 
1 2 20 2
50 
2

ˆ   10  1.05409
n 1 9
ˆ 1.05409
x    0.33333
n 10 P2  1.833  0.33333    2  1.833  0.33333  0.90
n 10 P1.38901    2.61099  0.90
f    0.0011152   f  0.05
N 8967

S vjerojatnošću od 90% oĉekuje se da će se prosjeĉno trajanje razgovora za osnovni skup kretati između
1.38901 i 2.61099.

PREDAVANJE #11

PROCJENA TOTALA OSNOVNOG SKUPA


TOTAL – zbroj vrijednosti numeriĉkog obiljeţja. Taj je parametar povezan s aritmetiĉkom sredinom.


x i

T
 T  N 
N N
Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetiĉke sredine.
 procjena totala brojem - Tˆ  N  x

-  Tˆ  N   x
 
 intervalna procjena za veliki uzorak - P Tˆ  z  Tˆ  T  Tˆ  z  Tˆ   1   
 2 2 

42
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

z - koeficijent pouzdanosti
2

 Tˆ - standardna pogreška procjene totala


1    - razina pouzdanosti (povjerenja)
 intervalna procjena za mali uzorak – kao koeficijent korisnosti koristi se t  .
2

ODREĐIVANJE VELIĈINE UZORKA ZA PROCJENU ARITMETIĈKE SREDINE OSNOVNOGA SKUPA


Veliĉina uzorka ovisi o slijedećim elementima:
1. vrsti osnovnog skupa (konaĉan ili beskonaĉan)
2. razini pouzdanosti procjene
3. ţeljenoj pouzdanosti procjene
4. stupnju varijabilnosti podataka

PRETHODNA VELIĈINA UZORKA n0 :


 z  
2

ako su pogreška (d) i stupanj varijabilnosti izraţeni apsolutno: n0   


2

 d 
 
 z  .V 
ako su pogreška (dr) i stupanj varijabilnosti izraţeni relativno: n0   
2

 dr 
 

KONAĈNA VELIĈINA UZORKA:

 
 n , f  0.05 


0 0


n   frakcija: f0 
n0
 n  N
 0
, f o  0.05

 1  f 0 

Primjer 1.
U grafiĉkoj djelatnosti zaposlena su 9 754 zaposlenika. Koliko zaposlenika treba izabrati u uzorak pomoću
kojega se procjenjuje prosjeĉni radni staţ svih zaposlenika. Procjenjuje se s 95% pouzdanosti. Tolerira se
pogreška od najviše ±0.5 godine. Pretpostavlja se da je σ osnovnog skupa 6 godina.
 z  
2

 
n0   2 
 d
N  9754   n0 553
0.95 f0    0.05669   f 0  0.05
(1   )  0.95  0.4750  1.96  6 
2
N 9754
 2  n0    
d  0.5  0. 5  n0 553
z P  0.4750  1.96 n   523
 6 n0  553 1  f 0 1  0.05669

Prema navedenim uvjetima u uzorak treba izabrati 523 zaposlenika.


43
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PROCJENA PROPORCIJE OSNOVNOG SKUPA


PROPORCIJA OSNOVNOG SKUPA – parametar koji predstavlja omjer broja ĉlanova osnovnog skupa s
određenim modalitetom obiljeţja i opsega statistiĉkog skupa

m
procjenitelj procjene brojem: Pˆ  m - broj elemenata s određenim modalitetom obiljeţja u uzorku
n
n - broj elemenata uzorka
Sampling distribucija proporcija uzoraka ima oblik binomne ili hipergeometrijske distribucije. Za dovoljno
veliki uzorak aproksimira se normalnom distribucijom.

 
intervalna procjena za veliki uzorak: P  pˆ  z  pˆ  p  pˆ  z  pˆ   1   
 2 2 
p-proporcija osnovnog skupa

TESTIRANJE HIPOTEZA O PARAMETRU


STATISTIĈKA HIPOTEZA – tvrdnja o veliĉini parametra ili o obliku distribucije osnovnog skupa ĉija se
istinitost ispituje pomoću sluĉajnog uzorka.
TESTIRANJE STATISTIĈKIH HIPOTEZA – postupak kojim se donosi odluka o prihvaćanju ili ne prihvaćanju
tvrdnje.

STATISTIĈKI TESTOVI:
 parametarski – polazi se od danog oblika numeriĉke varijable u osnovnom skupu
 neparametarski

Svaki postupak testiranja polazi od nulte (H0) i alternativne hipoteze (H1)

U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka:


 POGREŠKA TIPA I – nastaje ako se odbaci istinita nulta hipoteza
 POGREŠKA TIPA II – nastaje ako se prihvati laţna nulta hipoteza

RAZINA ZNAĈAJNOSTI (RAZINA SIGNIFIKANTNOSTI) α – vjerojatnost odbacivanja istinite nulte hipoteze


β – vjerojatnost prihvaćanja laţne nulte hipoteze
SNAGA TESTA (1-β)– vjerojatnost odbacivanja laţne nulte hipoteze

TESTIRANJE HIPOTEZA O PRETPOSTVLJENOJ VRIJEDNOSTI ARITMETIĈKE SREDINE


OSNOVNOG SKUPA – ovo se testiranje provodi na temelju sluĉajnog uzorka od N ĉlanova
N > 30 veliki uzorak – TEST VELIKIM UZORKOM
N ≤ 30 mali uzorak – TEST MALIM UZORKOM

Testiranje se provodi u slijedećim koracima:


1. postavljanje hipoteza
2. identificiranje izraza za testnu veliĉinu i određivanje njene vrijednosti
3. odabir razine signifikantnosti i određivanje kritiĉnih granica
4. donošenje odluke
44
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Test moţe biti:


 dvosmjeran
 jednosmjeran (na donju ili na gornju granicu)

Odluka se moţe donijeti na iduće naĉine:


 pomoću kritiĉnih granica
 Z-test ; T-test
 pomoću empirijske razine signifikantnosti tj. p-vrijednosti

DVOSMJERNI TEST – nije ograniĉen smjer odstupanja. Pretpostavka je da je aritmetiĉka sredina jednaka
pretpostavljenoj. Pretpostavka se formulira kao nulta hipoteza.
H 0 ...........   0
H 1 ...........   0

Primjer 2.
Prema standardu prosjeĉna trajnost elektriĉnih ţarulja od 75W iznosi 2000 h s prosjeĉnim odstupanjem
250 h. Iz serije ţarulja izabran je, uz frakciju izbora manju od 5%, sluĉajni uzorak 64 ţarulje. Ispitivanjem
je ustanovljeno da je prosjeĉna trajnost ţarulja u uzorku 1935 h. Moţe li se prihvatiti pretpostavka da je
uzorak izabran iz osnovnog skupa kojemu je aritmetiĉka sredina prema standardu tj.2000 h. testirati na
razini znaĉajnosti 5%.
H 0 ........  2000
veliki uzorak  normalna distribucija
H1........  2000

  250
f  0.05
 250
n  64 x    31.25
n 64
x  1935
  5%
Koeficijent znaĉajnosti za danu razinu znaĉajnosti određuje se pomoću površina ispod normalne krivulje.
Postupak određivanja toga koeficijenta jednak je postupku određivanja koeficijenta povjerenja pri procjeni
parametra. Međutim koeficijent znaĉajnosti odraţava razinu znaĉajnosti tj. vjerojatnost pogreške tipa I., a
koeficijent povjerenja razinu povjerenja procjene.
zP  0.5  0.025  zP  0.4750)  1.96

1. C1   0  z  x  200  1.96  31.25  1938.75


2

C 2   0  z  x  2000  1.96  31.25  2061.25


2

Ove kritiĉne granice izraţene su u mjernim jedinicama varijable.

ODLUKA:
C1  x  C 2  H 0
x  C1  H 1 1935  1938.75  H1
x  C2  H1

45
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Na danoj razini znaĉajnosti odbacuje se nulta hipoteza tj. ne prihvaća se pretpostavka da je uzorak
izabran iz skupa ţarulja s prosjeĉnom trajnošću 2000 h.

2. Z-test
test veliĉina ( empirijski z-omjer)

x  0 1935  2000
z   2.08
x 31.25

ODLUKA:
z  z  H 0
2
2.08  1.96  H1
z  z  H1
2

3. Pomoću empirijske razine signifikantnosti tj. p-vrijednosti


Teorijska razina signifikantnosti sastavni je element. Ona predstavlja odabranu vjerojatnost
odbacivanja istinite nulte hipoteze.
Empirijska razina signifikantnosti ili opaţena razina signifikantnosti (p-vrijednost) vjerojatnost je
odbacivanja istinite nulte hipoteze izraĉunata pomoću podataka iz uzorka odnosno test veliĉina
(empirijskog z odnosno t omjera)

z  2.08
p  vrijednost  2 P z  z   2 Pz  2.08  20.5  0.4812  0.0376

ODLUKA:
p    H0
p    H1 0.0376  0.05  H1

JEDNOSMJERNI TEST NA GORNJU GRANICU - od interesa je promatrati odstupanje na više. Pretpostavlja


se da je aritmetiĉka sredina osnovnog skupa veća od pretpostavljene. Pretpostavka se formulira kao
alternativna hipoteza. (“više od”, “najmanje”, “barem”)
H 0 ...........  0
H 1 ...........  0

Primjer 3.
Radi povećanja produktivnosti strojeva predloţena je njihova preinaka. Prema proraĉunima preinaka je
poslovno opravdana ako se postigne povećan broj operacija po satu i ako u prosjeku iznosi više od 120.
Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosjeĉan
broj operacija po satu iznosi je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2 307 600. Do kojeg se
zakljuĉka dolazi na temelju provedenog ispitivanja? Vjerojatnost odbacivanja istinite nulte hipoteze iznosi
5%.
H 0 .......  120
H1.......  120

46
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

n  144  veliki uzorak


x  125
x  2307600
2
i

ˆ 
x i  nx 2
2307600  144  1252
  20.06981
n 1 143
f  0.05  besk .skup
ˆ 20.06981
x    1.67248
n 144
z P  0.5  0.05  z P  0.4500  1.65

1. pomoću kritiĉnih granica


C2   0  z  x  120  1.65  1.67248  122.76

ODLUKA:
x  C2  H 0
125  122.76  H1
x  C2  H1
Odstupanje aritmetiĉke sredine uzorka na više znaĉajno je pa se prihvaća pretpostavka da je preinaka
strojeva opravdana.

2. Z-test
x   0 125  120
z   2.99
x 1.67248

ODLUKA:
z  z  H 0
2.99  1.65  H1
z  z  H 1

3. pomoću empirijske razine signifikantnosti tj. p-vrijednost


z  2.99
p  vrijednost  Pz  z   Pz  2.99  0.5  0.4986  0.0014

ODLUKA:
P    H0
0.0014  0.05  H1
P    H1

47
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PREDAVANJE#12

JEDNOSMJERNI TEST NA DONJU GRANICU – od interesa je promatrati odstupanje na niţe. Pretpostavlja se


da je aritmetiĉka sredina osnovnog skupa manja od pretpostavljene. Pretpostavka se formulira kao
alternativna hipoteza. (“manje od”, “najviše”, “ne više od”)
H o .........  0
H 1 .........  0

Primjer 1.
Poslovodstvo banke odluĉilo je promijeniti programsku potporu šalterskog poslovanja kako bi se smanjio
prosjeĉni utrošak vremena obrade naloga stranaka i time skratilo vrijeme ĉekanja stranaka. Analizom je
utvrđeno da se promjena potpore isplati ako prosjeĉno vrijeme obrade iznosi najviše 30 sekundi po
nalogu. Razvojna sluţba banke izradila je programsku potporu koja se testira u odabranom broju
poslovnica. Na temelju podataka o trajanju obrade pomoću nove programske potpore za 453 sluĉajno
odabrana naloga izraĉunano je prosjeĉno utrošeno vrijeme po nalogu koje iznosi 28 sekundi s prosjeĉnim
odstupanjem 4 sekunde. Do kojeg se zakljuĉka dolazi na temelju provjere rada s novim programom?
Testirati na razini znaĉajnosti 2%.
H 0 ........  30
Uzorak je velik pa koristimo normalnu distribuciju.
H1........  30

n  453 n 453
ˆ  s 4  4.0042
x  28 n 1 452 besk.skup f  0.05
s4 4.0042 z P  0.5  0.02  z P  0.4800  2.05
x   0.18814
  2% 0.02 453

1. pomoću kritiĉne granice


C2    z  x  30  2.05  0.18814  29.61430
ODLUKA:
x  C1  H 0
 28  29.61430  H1
x  C1  H 1

Odstupanje aritmetiĉke sredine uzorka naniţe je znaĉajno na danoj razini signifikantnosti pa se


zakljuĉuje da nova programska potpora skraćuje vrijeme obrade naloga.

2. Z-test
test veliĉina (empirijski z-omjer) je:
x  0 28  30
z   10.630
x 0.18814
ODLUKA:
z   z  H 0
  10.630  2.05  H1
z   z  H 1

Empirijski z-omjer manji je od teorijske vrijednosti pa se na danoj razini signifikantnosti odbacuje nulta
hipoteza.
48
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

TESTIRANJE HIPOTEZA O RAZLICI ARITMETIĈKIH SREDINA DVAJU OSNOVNIH SKUPOVA


NEZAVISNIM UZORCIMA
Uzorci su nezavisni ako rezultati opaţanja i mjerenja u jednome uzorku ne ovise o rezultatima opaţanja i
mjerenja u drugome uzorku, npr. ispitivanje efikasnosti rada radnika u dvije tvornice.

Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opaţanjem odnosno mjerenjem
odabrane varijable na istim jedinicama u razliĉitim vremenskim terminima, npr. mjerenje efikasnosti rada
radnika u istoj tvornici prije i nakon provedenog programa struĉnog usavršavanja.

DVOSMJERNI TEST – pretpostavlja se da su aritmetiĉke sredine osnovnih skupova jednake (μ1,μ2).


Pretpostavka se formulira kao nulta hipoteza.
H 0 ........1   2  0
H 1 ........1   2  0

Primjer 2.
Pomoću uzorka se ispituje razlika u prosjeĉnoj mjeseĉnoj potrošnji mlijeka ĉetveroĉlanih kućanstava u dva
naselja. U naselju Lug je 2500 ĉetveroĉlanih kućanstava, a u naselju Gaj 2000. Kod ĉetveroĉlanih
kućanstava u naselju Lug izabrano je u uzorak svako 50. kućanstvo, a od ukupnog broja ĉetveroĉlanih
kućanstava u naselju Gaj u uzorak je izabrano 2% kućanstava. Na temelju podataka iz uzorka kućanstava
naselja Lug utvrđena je prosjeĉna mjeseĉna potrošnja po kućanstvu 53 litre s prosjeĉnim odstupanjem od
1 litre. Pomoću vrijednosti iz uzorka kućanstava iz naselja Gaj utvrđena je prosjeĉna mjeseĉna potrošnja
po kućanstvu 50 litara s prosjeĉnim odstupanjem od 1.41 litre. Moţe li se prihvatiti pretpostavka da se
prosjeĉna mjeseĉna potrošnja mlijeka ĉetveroĉlanih kućanstava u naseljima Lug i Gaj signifikantno ne
razlikuju? Razini signifikantnosti je 3%.
H 0 ........1   2  0
H1........1   2  0

n1  50 n2  40
  0.03
x1  53 l x 2  50 l
z P  0.5  0.015  z P  0.4850  2.17
s1  1l s 2  1.41l

n1 50
ˆ 1 2  s1 2   12   1.02041
n1  1 43
n2 40
ˆ 2 2  s 2 2   1.412   2.03908
n2  1 39
ˆ 1 2 ˆ 2 2 1.02041 2.03908
standardna pogreška za velike uzorke:  x1  x2      0.26719
n1 n2 50 40

1. pomoću kritiĉnih granica


C1  0  z  x1  x2  0  2.17  0.26719  0.57980
2
test veliĉina: Dˆ  x1  x2  53  50  3
C 2  0  z  x1  x2  0  2.17  0.26719  0.57980
2

49
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

ODLUKA:
C1  Dˆ  C 2  H 0
Dˆ  C  H
1 1  3  0.57980  H1
Dˆ  C 2  H 1

Ne moţe se prihvatiti pretpostavka da se prosjeĉna mjeseĉna potrošnja mlijeka ĉetveroĉlanih


kućanstava u naselju Lug i Gaj signifikantno se ne razlikuju.

2. Z-test
test veliĉina (empirijski z-omjer)
x  x2 53  50
z 1   11.22997
 x1 x2 0.26719
ODLUKA:
z  z  H 0
2
 11.22797  2.17  H1
z  z  H 1
2

JEDNOSMJERNI TEST NA GORNJU GRANICU – pretpostavlja se da je aritmetiĉka sredina prvog osnovnog


skupa veća od aritmetiĉke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna
hipoteza.
H 0 .......1   2  0
H 1 .......1   2  0

Primjer 3.
Ispituje se pretpostavka da su prosjeĉni izdaci za odjeću poljoprivrednih kućanstava veći od prosjeĉnih
izdataka za odjeću nepoljoprivrednih kućanstava. U tu svrhu odabrani su sluĉajni uzorci od po 500
kućanstava. Promatrani su godišnji izdaci.

poljoprivredna kućanstva nepoljoprivredna kućanstva


x1  5900.50kn x 2  5830.70kn
s1  520.30kn s 2  480.50kn

H 0 .......1   2  0
H1.......1   2  0

n1 500
ˆ 1 2  s1 2   520.30 2   271254,5992
  0.01 n1  1 499
z P  0.5  0.01  z P  0.4900  2.33 n2 500
ˆ 2 2  s 2 2   480.50 2   231342.9359
n2  1 499
standardna pogreška za velike uzorke:
ˆ 1 2 ˆ 2 2 271254.5992 231342.9359
 x x      31.7048
1 2
n1 n2 500 500
50
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

1. pomoću kritiĉne granice


C2  0  z  x1 x2  0  2.33  31.7048  73.8722
test veliĉina: Dˆ  x1  x2  5900.50  5830.70  69.8
ODLUKA:
Dˆ  C 2  H 0
 69.80  73.8722  H 0
Dˆ  C  H
2 1

Ne moţe se prihvatiti pretpostavka da su prosjeĉni izdaci za odjeću poljoprivrednih kućanstava veĉi od


prosjeĉnih izdataka za odjeću nepoljoprivrednih kućanstava.

2. Z-test
test veliĉina (empirijski z-omjer)
x  x2 5900.50  5830.70
z 1   2.20
 x1 x2 31.7048
ODLUKA:
z  z  H 0
 2.20  2.33  H 0
z  z  H 1

3. pomoću empirijske razine signifikantnosti (p-vrijednost)


z  2.20
p  vrijednost  PZ  z   PZ  2.20  0.5  0.4861  0.0139
ODLUKA:
p    H0
 0.0139  0.01  H 0
p    H1

JEDNOSMJERNI TEST NA DONJU GRANICU – pretpostavlja se da je aritmetiĉka sredina prvog osnovnog


skupa manja od aritmetiĉke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna
hipoteza.
H o ........1   2  0
H 1 ........1   2  0

Primjer 4.
Ispituje se tvrdnja da su maloprodajne cijene prehrambenih proizvoda niţe u diskontima nego u klasiĉnim
prodavaonicama. U tu su svrhu odabrani sluĉajni uzorci od 50 maloprodajnih cijena u diskontima i 80
maloprodajnih cijena u klasiĉnim prodavaonicama. Uzorci cijena prikupljeni su u istom vremenskom
razdoblju i za isti prehrambeni proizvod.

diskonti klasiĉne prodavaonice


x1  9.90kn x 2  11.42kn
s1  2.30kn s 2  2.10kn

Moţe li se na osnovi podataka iz uzorka zakljuĉiti da je prosjeĉna maloprodajna cijena prehrambenih


proizvoda niţa u diskontima nego u klasiĉnim prodavaonicama? Razina signifikantnosti je 1%.

51
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

H o ........1   2  0
H1........1   2  0

z P  0.5  0.01  z P  0.4900  2.33


n1 50
ˆ 1 2  s1 2   2.30 2   5.3980
n1  1 49
n2 80
ˆ 2 2  s 2 2   2.10 2   4.4658
n2  1 79
standardna pogreška za velike uzorke:
ˆ 1 2 ˆ 2 2 5.3980 4.4658
 x x      0.4047
1 2
n1 n2 50 80
1. Z-test
test veliĉina (empirijski z-omjer)
x  x2 9.90  11.40
z 1   3.7064
 x1 x2 0.4047
ODLUKA:
z   z  H 0
  3.7064  2.33  H1
z   z  H 1
Moţe se prihvatiti pretpostavka da je prosjeĉna maloprodajna cijena prehrambenih proizvoda niţa u
diskontima nego u klasiĉnim prodavaonicama.

PREDAVANJE #13

REGRESIJSKA ANALIZA – njom se ispituje ovisnost jedne varijable o drugoj varijabli ili o više drugih
varijabli, npr.proizvodnja o broju zaposlenih, potrošnja o visini plaće

ZAVISNA VARIJABLA – varijabla ĉije se varijacije objašnjavaju


NEZAVISNE VARIJABLE – varijable kojima se objašnjavaju varijacije zavisne varijable
REGRESIJSKI MODEL – jednadţba ili skup jednadţbi s konaĉnim brojem parametara i varijabli
 linearni
 nelinearni

MODEL JEDNOSTAVNE LINEARNE REGRESIJE – njime se izraţava odnos među dvjema pojavama.
Model sadrţi jednu zavisnu i jednu nezavisnu varijablu. Primjenjuje se za varijable koje su u linearnom
statistiĉkom odnosu.

DESKRIPITVNO STATISTIĈKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE


opći oblik modela jednostavne regresije: y  f  x   e
f(x) – funkcionalni dio modela
e – stohastiĉka varijabla koja odraţava nesistemske utjecaje na zavisnu varijablu

Ako je funkcionalni dio modela oblika f  x     x model postaje: y    x  e

52
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Ako su a i b procjene nepoznatih parametara α i β, a ui procjene nepoznatih vrijednosti varijable e, model


se moţe izraziti na slijedeći naĉin: y i  a  bx i  ui

linearna regresijska jednadţba: yˆ i  a  bx i

Do procjene a i b dolazi se primjenom metode najmanjih kvadrata: b 


 x y  nxy
i i
a  y  bx
 x  nx
2 2
i

KONSTANTNI ĈLAN a - predstavlja vrijednost regresije u sluĉaju kada je nezavisna varijabla jednaka nuli
REGRESIJSKI KOEFICIJENT b - pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna
varijabla poveća za jedinicu.

JEDNADŢBA ANALIZE VARIJANCE

y  y     yˆ i  y     yi  yˆ i 
2 2 2
i

ST  SP  SR

ST – ukupan zbroj kvadrata


SP – protumaĉeni zbroj kvadrata
SR – rezidualni ili neprotumaĉeni zbroj kvadrata
yi - empirijske ili stvarne vrijednosti zavisne varijable
y - aritmetiĉka sredina zavisne varijable
ŷ i - regresijske vrijednosti

Osnove za mjerenje reprezentativnosti regresije su rezidualna odstupanja.


y  yˆ i 
2
SR
Varijanca regresije aritmetiĉka je sredina kvadrata rezidualnih odstupanja:  yˆ  
2 i

n n
SR
Standardna devijacija regresije:  yˆ 
n
 yˆ
Koeficijent varijacije regresije: V y   100
y
Standardna devijacija regresije interpretira se kao prosjeĉno odstupanje empirijskih vrijednosti od
regresijskih izraţeno apsolutno.
Koeficijent varijacije je to isto odstupanje izraţeno relativno.

Specifiĉan pokazatelj reprezentativnosti regresije je koeficijent determinacije:


  yˆ  y
2
SP
r  
i
0  r2  1
2

y
  2
ST i y
Regresija je to reprezentativnija što se koeficijent determinacije više pribliţava jedinici.

53
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

KORELACIJSKA ANALIZA – njome se određuju jakosti veze. Mjera jakosti veze je koeficijent korelacije.
Koeficijent korelacije drugi je korijen iz koeficijenta determinacije: r   r
2

sign r  sign b 1 r  1

Ako je koeficijent korelacije jednak nula, među pojavama ne postoji veza.


Ako je koeficijent korelacije jednak -1, veza je potpuna i negativnog smjera.
Ako je koeficijent korelacije jendak +1, veza je potpuna i pozitivnog smjera.

Primjer 1.
U 6 prodavaonica na podruĉju A registriran je slijedeći broj zaposlenih i ostvareni promet u tisućama kn.
broj promet xi
2
yi
2
xi y i
zaposlenih
xi yi
2 25 4 625 50
3 31 9 961 93
8 85 . . .
4 51 . . .
7 69 . . .
6 65 . . .
30 326 178 20 398 1900

a) Odredite status varijabli u modelu!


Zavisna varijabla (y) – promet u tisućama kuna
Nezavisna varijabla (x) – broj zaposlenih

b) Nacrtajte dijagram rasipanja!


Konstruira se u pravokutnom koordinatnom sustavu. Na osi-x nalazi se aritmetiĉko mjerilo za nezavisnu
varijablu (x), a na osi-y mjerilo za zavisnu varijablu (y). Predstavlja pomoćno sredstvo za izbor oblika
funkcije u modelu.

x
x i

30
5
n 60

y
y i

326
 54.33
n 6

Iz dijagrama rasipanja se zakljuĉuje o :


1. obliku veze – oblik veze je linearan
2. smjeru veze – smjer je pozitivan
3. jakosti veze – veza je relativno jak

54
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

c) Kako glasi linearna regresijska jednadţba s procijenjenim parametrima?

b
 xi yi  nxy  1900  6  5  54.33  9.65 yˆ  a  bx
 i    
2 2 2
x nx 178 6 5
yˆ  6.08  9.65 x
a  y  bx  54.33  9.65  5  6.08
Interpretacija:
a (konstantni ĉlan) – Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08
tisuća kuna.
b (regresijski koeficijent) – Ako se broj zaposlenih poveća za jednu osobu tada će se ukupan promet
povećati linearno i u prosjeku za 9.65 tisuća kuna.

d) Odredite regresijske vrijednosti i vrijednosti rezidualnih odstupanja te relativnih rezidualnih odstupanja!


Regresijske vrijednosti određuju se tako da se u regresijsku jednadţbu redom uvrštavaju stvarne
vrijednosti nezavisne varijable. yˆ1  6.08  9.65  2  25.38
.
.
.
.
Interpretacija:
Za dva zaposlena oĉekivana vrijednost ukupnog prometa iznosi 25.38 tisuća kuna.
 yi   yˆ i
Rezidualna odstupanja izraĉunavaju se tako da se od stvarne varijable y i oduzme pripadajuća
regresijska vrijednost ŷ i : ui  yi  yˆ i
ui  25  25.38  0.38 tis . kn
u i 0

yi  yˆ i
Relativna rezidualna odstupanja definiraju se izrazom: ui ,rel  100
yi
25  25.38
u1,rel  100  1.52%
25
Interpretacija:
Prema regresiji za 2 zaposlena precijenjen je ukupan promet za 0.38 tisuća kuna ili 1,52%.

e) Regresijski pravac ucrtajte u dijagram rasipanja!


f) Kolika varijanca, standardna devijacija i koeficijent varijacije regresije?
SR   y i  a  y i  b xi y i  20298  6.08  326  9.65  1900  80.92
2

SR   y i  yˆ i 
2
80.92
 yˆ 
2
   13.49
n n 6
SR
 yˆ   13.49  3.67 tis .kn
n
 yˆ 3.67
V yˆ   100   100  6.76%
y 54.33
55
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Prosjeĉno odstupanje empirijskih vrijednosti prometa od regresijskih vrijednosti iznosi 3.67 tisuća kuna
ili relativno 6.76%

g) Izraĉunajte vrijednosti ĉlanova u jednadţbi rašĉlambe zbroja kvadrata odstupanja vrijednosti zavisne
varijable od njezine aritmetiĉke sredine! (jednadţba analize varijance)
ST   yi  ny  20398  6  54.33 2  2687.51
2 2

SP  a  yi  b xi yi  ny 2  6.08  326  9.65  1900  6  54.33 2  2606.89


SR  ST  SP  80.92

h) Odredite koeficijent determinacije i koeficijent linearne korelacije!


SP 2606.59
r2    0.97
ST 2687.51
Interpretacija:
Linearnom regresijskom vezom protumaĉeno je 97% svih odstupanja. Na temelju toga moţe se
zakljuĉiti da je model reprezentativan.
r  r 2  0.97  0.98

koeficijent determinacije apsolutna vrijednost tumaĉenje


koeficijenta linearne
korelacije
r2 r
0 0 odsutnost korelacije
0,00-0,25 0,00-0,50 slaba korelacija
0,25-0,64 0,50-0,80 korelacija srednje jaĉine
0,64-1 0,80-1 ĉvrsta korelacija
1 1 potpuna korelacija (perfektna)

Radi se o ĉvrstoj korelaciji pozitivnog smjera

i) Koliko iznosi korigirani koeficijent determinacije?


n 1
r 2  1
n2
1  r 2  , r 2  r 2
6 1
r 2  1 1  0.97   0.96
6 1
j) Sastavite tabelu ANOVA!
Tabela ANOVA za jednostavnu regresiju:
izvor varijacije stupnjevi slobode zbroj kvadrata sredina kvadrata empirijski t-omjer
protumaĉen 1 SP SP/1 SP
modelom 1 2606.59 2606.59 128.85
SR
n  2
neprotumaĉena n-2 SR SR/(n-2) /
(rezidualna) 4 80.92 20.23
odstupanja
UKUPNO n-1 ST / /
5 2687.51
56
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

PREDAVANJE #14

INFERENCIJALNO-STATISTIĈKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE – empirijske


vrijednosti zavisne varijable smatraju se uzorkom iz zamišljenoga beskonaĉnoga osnovnog skupa. U
sklopu inferencijalno-statistiĉke analize provodi se procjenjivanje parametara i testiranje hipoteza.

model osnovnog skupa (populacije): yi     x i  ei


α i β – nepoznati parametri populacije
e – nepoznate vrijednosti sluĉajne varijable

model uzorka: y i  ˆ  ˆx i  eˆ i


ˆ i ˆ - procjene nepoznatih parametara
ê - procjene nepoznatih vrijednosti sluĉajne varijable

Procjene parametara brojem u sklopu inferencijalne statistike jednake su procjenama u sklopu


deskriptivne statistike, tj. ˆ  a , ˆ  b

y  yˆ i 
2
i

procjena varijance brojem: ˆ 


2 i 1

n2
n

y  yˆ i 
2
i

procjena standardne devijacije: ˆ 


i 1

n2

intervalna procjena parametra β:


 
 mali uzorak  P   ˆ  t   ˆ    ˆ  t   ˆ   1   
 2 2 
  ˆ 2
 veliki uzorak  P   ˆ  z  ˆ    ˆ  z  ˆ   1     ˆ 
  x  nx 2
2
2 2
i

Primjer 1.
ˆ ˆ
Dana je regresijska jednadţba : yˆ  125 0.092
.03
x
 ˆ

U kojim se granicama moţe oĉekivati da će se naći parametar β? Pouzdanost procjene je 95%, a n=25.

s.s.  n  k  1  n  2  23 P0.92  2.069  0.03    0.92  2.069  0.03  0.95


n 2  23 
t  t 0.025  2.069 P0.85793    0.98207   0.95
2
Uz pouzdanost od 95% oĉekuje se da će se nepoznati parametar naći unutar ovih granica.

57
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE – moţe se provesti na više


ekvivalentnih naĉina:
1. F-TEST
H 0 ........ yi    ei H 0 .........  0
ili alternativno (ĉešće) 
H 1 ........ yi     xi  ei H 1 .........  0

  yˆ  y
2
i
i 1
test veliĉina (empirijski f-omjer) : F 
ˆ 2
Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću
koja se oĉitava iz tablica.

2. T-TEST
ˆ
test veliĉina (empirijski t-omjer) : t 
 ˆ
Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću
koja se oĉitava iz tablica.
Test se moţe provesti kao dvosmjerni ili jednosmjerni (na donju ili gornju
granicu). Ako je β<0  jednosmjerni test na donju granicu
Ako je β>0  jednosmjerni test na gornju granicu

Primjer 2.
ˆ ˆ
Dana je regresijska jednadţba: yˆ  125 0.92 x
0.03
 ˆ

Moţe li se prihvatiti pretpostavka da je varijabla x suvišna u modelu? Testirati na razini 5% signifikantnosti.


n=25. Primjenite t-test.
H 0 .......  0 ˆ 0.92   0.05
 dvosmjerni test  t   30.667 
H 1 .......  0  ˆ 0.03 t 023
.025  2.069

ODLUKA:
t  t  H o
2
 30.667  2.069  H1
t  t  H1
2
Nezavisna varijabla x nije suvišna u modelu.

MODEL VIŠESTRUKE REGRESIJE (MULTIPLA REGRESIJA) – njime se izraţava ovisnost jedne


varijable o više drugih varijabli.

ANALIZA MODELA VIŠESTRUKE LINEARNE REGRESIJE

model osnovnog skupa (populacije): y     1 x1   2 x2  .......   k xk  e


model uzorka: y  ˆ  ˆ1 x1  ˆ 2 x 2  ......  ˆ k x k  eˆ alternativno y  yˆ  eˆ
linearna regresijska jednadţba s procijenjenim parametrima: yˆ  ˆ  ˆ1 x1  ˆ 2 x 2  ......  ˆ k x k

58
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Za procjenjivanje parametra koristi se metoda najmanjeg kvadrata.


̂ - konstantni ĉlan – predstavlja vrijednost regresije kada su nezavisne varijable jednake 0.
ˆ j - regresijski koeficijent – pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna
varijabla xj poveća za jedan uz uvjet da ostale nezavisne varijable ostanu nepromijenjene.

REGRESIJSKE VRIJEDNOSTI – određuju se uvrštavanjem vrijednosti nezavisnih varijabli u regresijsku


jednadţbu.
REZIDUALNA ODSTUPANJA – odstupanja empirijskih vrijednosti od regresijskih izraţena apsolutno
eˆi  yi  yˆ i
y i  yˆ i
RELATIVNA REZIDUALNA ODSTUPANJA - eˆ i ,rel   100
yi
y i  yˆ i
STANDARDIZIRANA REZIDUALNA ODSTUPANJE - eˆ i ,rel   100
ˆ
y  yˆ i  y  yˆ i 
2 2
SR
NEPRISTRANA PROCJENA VARIJANCE BROJEM - ˆ   ˆ 
2 i i

n  k  1 n  k  1 n  k  1
 
INTERVALNE PROCJENE PARAMETARA - P  ˆ j  t   ˆ j    ˆ j  t   ˆ j   1   
 2 2 

  yˆ  y
2
SP
 
2 i
KOEFICIJENT VIŠESTRUKE DETERMINACIJE - R opći pokazatelj kvalitete modela
y  y
2
i
ST
Model je to reprezentativniji što je
koeficijent determinacije bliţe
jedinici.

TESTIRANJE HIPOTEZA O MODELU VIŠESTRUKE REGRESIJE – najĉešće se koriste slijedeći testovi:


1. PARCIJALNI TEST – testira se znaĉajnost podskupa nezavisne varijable
2. POJEDINAĈNI TEST – testira se znaĉajnost jedne nezavisne varijable. Moţe se
provesti i kao f-test i kao t-test
3. SKUPNI TEST – testira se znaĉajnost svih nezavisnih varijabli u modelu. Uvijek
se provodi kao f-test.
H 0 ........ 1   2  ....   j   k  0
H 1 ........ j  0
U hipotezi H0 stoji da nijedna nezavisna varijabla nije znaĉajna za model.
U hipotezi H1 stoji da je barem jedna nezavisna varijabla znaĉajna za model.

Test veliĉina je empirijski f-omjer iz tabele ANOVA.


Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću
koja se oĉitava iz tablica.

59
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

TABLICA ANOVA ZA VIŠESTRUKU REGRESIJU:


izvor varijacije stupnjevi zbroj sredine empirijski
slobode kvadrata kvadrata f-omjer
protumaĉen k SP SP SP
modelom k k
SR
n  k  1 k – broj nezavisnih varijabli
neprotumaĉena n-(k+1) SR SR /
modelom n  k  1
(rezidualna)
odstupanja
ukupno n-1 ST / /

ukupna odstupanja: empirijske vrijednosti od prosjeka


protumaĉena odstupanja: regresijske vrijednosti od prosjeka
neprotumaĉena odstupanja: empirijske vrijednosti od regresijskih

PREDAVANJE #15

MODELI VREMENSKIH SERIJA – njima se opisuje razvoj pojava u vremenu.


Vremenska serija se moţe rašĉlaniti na slijedeće komponente:
 KOMPONENTA TRENDA – predstavlja osnovnu tendenciju razvoja pojave u vremenu. Izraţava
se nekom funkcijom vremena. S obzirom na tu funkciju vremena trend moţe biti linearni i
eksponencijalni.
 SEZONSKA KOMPONENTA – posljedica je klimatskih faktora, ritma, proizvodnje, potrošnje…
Oĉituje se onda kada se vremenska pojava obnavlja na pribliţno isti naĉin unutar jedne
godine.
 CIKLIĈKA KOMPONENTA – oĉituje se onda kada se vremenska pojava obnavlja na pribliţno
isti naĉin s periodom od 2 ili više godine.
 SLUĈAJNA (STOHASTIĈKA) KOMPONENTA – odraţava nesistematske utjecaje na pojavu

opći oblik aditivnog modela: Y  T  C  S  e Y – pojava koju promatramo


T – vrijednost komponente trenda
C – vrijednost cikliĉke komponente
S – vrijednost sezonske komponente
e – vrijednost sluĉajne komponente
U kratkom vremenskom razdoblju trend i ciklus komponente se ne razdvajaju pa se model moţe pisati:
Y  TC  S  e ili Y  T  S  e T – komponenta trend ciklusa

I s  sezonska komponenta
opći oblik multiplikativnog modela: Y  T  I s  I 
I   sluč . komponenta

60
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

MODELI TRENDA – njima se statistiĉki opisuje dugoroĉna kovarijacija pojave sa vremenom


Y  vrijednosti vremenske serije
1. ADITIVNI MODEL: Y  T  e
T  vrijednosti komponente trenda
2. MULTIPLIKATIVNI MODEL: Y  T  I 
e, I   sluč . odstupanja od trenda

xt  nezavisna var ijabla vrijeme koja


3. MODEL LINEARNOG TRENDA: Yt    xt  et dogovorno poprima vrijednosti
4. MODEL EKSPONENCIJALNOG TRENDA: Yt     t
xt
prvih n prirodnih brojeva
et  sluč . odstupanja
 ,   parametri

Primjer 1. Linearni trend


Model linearnog trenda identiĉan je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna
varijabla. Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za pribliţno isti
apsolutni iznos, tj. kada su prve diferencije pribliţno konstantne.
Stanovništvo SAD-a u milijunima, stanje sredinom godine
godina stanovništvo prve varijabla xt yt xt
2
yt
2 trend rezidualna
diferencije vrijeme vrijednosti odstupanja
yt y t xt ŷ t Ut
1992 255 - 1 255 1 65025 255.32 -0.32
1993 258 3 2 516 4 . 257.93 0.07
1994 261 3 3 . . . 260.53 0.47
1995 263 2 4 . . . 263.13 -0.13
1996 266 3 5 . . . 265.73 0.27
1997 268 2 6 . . . 268.33 -0.33
ukupno 1571 - 21 5544 91 411459 1571.00 0.00

a) Odredite vrijednosti prvih diferencija! Što se zakljuĉuje na temelju grafa i prvih diferencijacija?
Yt  Yt  Yt 1
Ako su prve diferencije pribliţno konstantne radi se o linearnom trendu.

b) Procijenite parametre modela linearnog trenda metodom najmanjih kvadrata!


Yˆt  a  bxt
Varijabla vrijeme – koliko podataka imamo toliko brojeva poprima (1,….,n)

x
 xt  21  3.5  xt yt  nxy  5544  6  3.5  261.83  2.604
n 6 b
  xt  nx 2 91  6  3.5 2
2

y
 t  1571  261.83
y
a  Y  bx  261.83  2.604  3.5  252.716
n 6

Yˆ  252.716  2.604 x jedinica za y je milijun s tan ovnika


jednadţba linearnog trenda:
x  1, 30.06.1992 jedinica za x je jedna godina

61
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Interpretacija:
a (konstantni ĉlan) = 252.716
Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi
252.716 milijuna.

b (koeficijent linearnog trenda) = 2.604


Pokazuje prosjeĉnu linearnu pojavu razine pojave za jediniĉni porast vrijednostii varijable vrijeme,
dakle broj stanovnika povećavao se u prosjeku linearno 2.604 milijuna godišnje

c) Odredite trend vrijednosti!


Raĉunaju se uvrštavanjem varijable vrijeme u jednadţbu trenda.
Yˆ1  252.716  2.604  1  255.32
Procjena broja stanovnika prema trendu za 1992. iznosi 255.32 milijuna. Y  Yˆ
t t

d) Odredite rezidualna osdtupanja i protumaĉite im znaĉenje!


U t  Yt  Yˆt
 U t  0 za malu decimalu se moţe razlikovati od 0 zbog zaokruţivanja
U 1  255  255.32  0.32
Interpretacija:
Stvarni broj stanovnika zta 1992.g. iznosi 255 milijuna, a vrijednost trenda broja stanovnika za tu
godinu 255.32 milijuna. Razlika predstavlja rezidualno odstupanje, tj. prema trendu broj stanovnika je
precijenjen za 0.32 milijuna

e) Formulirajte tabelu ANOVA!


ST   Yt  ny 2  411459  6  261,833  129.31
2

SR   Yt  a  Yt  b xt yt  411459  252.716  1571  2.604  5544  5.59


2

SP  ST  SR  123.72

izvor varijacije stupnjevi zbroj sredina empirijski f-omjer


slobode kvadrata kvadrata
protumaĉen k SP SP/k SP k
modelom 1 123.72 123.72 88.37
SR n  (k  1)
neprotumaĉena n-(k+1) SR SR/n-(k+1) /
odstupanja 4 5.59 1.40
ukupno n-1 ST / /
5 129.31

f) Izraĉunajte varijancu, standardnu devijaciju i koeficijent varijacije trenda! to su mjere reprezentativnosti


trenda.
Y  yˆ  SR 5.59
 yˆ 2   t t 
2
Interpretacija:
  0.93 Prosjeĉno odstupanje stvarnog broja stanovnika od
n n 6
vrijednosti trenda iznosi 0.30 milijuna ili relativno
 yˆ   yˆ  0.30 milijuna s tan ovnika
2
0.11%. Na temelju ovih pokazatelja moţe se zakljuĉiti
da je reprezentativnost trenda velika.
 yˆ 0.30
Vyˆ  100  100  0.11%
y 261.83

62
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

Primjer 2. Eksponencijalni trend


Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za pribliţno isti relativni iznos, tj.
kada su veriţni indeksi pribliţno konstantni.
primjer eksponencijalnog trenda  Yˆ  ab x

log yˆ  log a  x log b

log b 
x t log Yt  x  log Yt
x  nx 2
2
t

log a 
 log Y
 log bx
t

n
Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U
linegriziranom modelu se umjesto originalnih vrijednosti koriste njihovi logaritmi.

Interpretacija:
a (konstantni ĉlan)
To je trend vrijednost za razdoblje prije prvoga.

b (koeficijent eksponencijalnog trenda)


Pokazuje za koliko će se puta promijeniti trend vrijednost ako se varijabla vrijeme poveća za 1.

63

You might also like