Professional Documents
Culture Documents
Pascal d.o.o.
STATISTIČKI POJMOVI
Poslovna statistika
• Definira se kao znanost o metodama koje se koriste za pretvaranje podataka u smislene
informacije u poslovnom okruženju sa svrhom stjecanja znanja za uspješnije odlučivanje i
prognoziranje u uvjetima neizvjesnosti i rizika
• Skup metoda za prikupljanje i uređivanje poslovnih podataka, njihovu obradu i analiziranje te
prikazivanje i tumačenje rezultata statističke analize s ciljem dobivanja što kvalitetnijih
informacija koje su potrebne pri poslovnom odlučivanju i prognoziranju
• Metode primjenjive u različitim područjima poslovanja kao što su:
o Razvoj i proizvodnja
o Financije i upravljanje financijskim rizicima
o Računovodstvo i revizija
o Marketing
o Prodaja
• Za potrebe različitih funkcija vezanih za upravljanje, kao što su:
o Kontroling
o Upravljanje kvalitetom
o Poslovna logistika i operativni menadžment
Upravljanje ljudskim resursima
STATISTIČKI SKUP – skup jedinica (elemenata) nad kojima se ispituje jedno ili više obilježja,
odnosno varijabli. To su jedinice čija su kvalitativna ili kvantitativna svojstva predmet promatranja
statističkom metodom. Možemo promatrati osobe, poduzeća, zemlje, proizvode itd.
OPSEG SKUPA – broj jedinica statističkog skupa (N). S obzirom na opseg statistički skupovi se
dijele na:
Konačni statistički skup – studenti upisani na efzg
Beskonačni statistički skup– bacanje novčića ili proizvodnja
OSNOVNI SKUP (POPULACIJA) – skup podataka jednog obilježja (varijable) vezanih za sve
jedinice statističkog skupa. Može biti konačan i beskonačan kao i statistički skup te se označava sa N.
UZORAK (n) – podskup, dio osnovnog skupa, dio podataka izdvojen iz cjelovite evidencije. Uzorci
su najčešće konačni. Veličina uzorka obično je značajno manja od populacije te omogućava veću
brzinu i manje troškove prikupljanja podataka.
Kvalitativne Kvantitativne
(kategorijske) (numeričke)
Atributivne
Kontinuirane
Zemljopisne
MJERENJE – postupak pridruživanja numeričkih i slovnih oznaka jedinicama statističkog skupa ili
uzorka prema određenoj mjernoj skali (ljestvici).
MJERNE SKALE:
Za kvalitativne varijable (one koje se izražavaju riječima) koriste se nominalna i redoslijedna skala.
1) NOMINALNA
sastoji se od liste naziva ili pojmova
podaci kojima se opisuje svojstvo, odnosno atribut
oblici nominalne varijable nazivaju se modalitetima ili kategorijama
može biti atributivna skala (opisno izražen modalitet) ili geografska
nad njome nisu dopuštene aritmetičke operacije, zbog čega ona ima najslabija metrička
svojstva
nomenklatura je dogovorno utrvđen popis oblika nominalne varijable
3) INTERVALNA
ovom skalom jedinicama statističkih skupova pridružuju se brojevi sukladno intenzitetu
mjernog svojstva
za ovu skalu karakteristično je da ima definiranu mjernu jedinicu i dogovorno utvrđenu nulu
(npr. temperaturna ljestvica)
ima bolja metrička svojstva od prethodne dvije a dopušteno je i korištenje aritmetičkih
operacija zbrajanja i oduzimanja
4) OMJERNA
ovom skalom jedinicama statističkih skupova pridružuju se brojevi sukladno intenzitetu
mjernog svojstva.
karakteristično je da ima definiranu mjernu jedinicu i nulu koja označava nepostojanje
svojstva (npr. plaća, broj zastoja rada stroja – 0 zastoja znači da nema zastoja, nepostojanje
svojstva)
IZVORI PODATAKA:
Primarni – prikupljaju se u skladu s ciljem istraživanja. Primarni podaci su originalna empirijska
kvantitativna istraživanja;
1) Anketna istraživanja (nacrt ankete)
2) Istraživanja pomoću pokusa – eksperiment (nacrt pokusa)
3) Kontrolirana neposredna opažanja (nacrt promatranja)
Anketni podaci
Dobiveni su primjenom dizajna ankete (telefonskim intervjuom, osobnim intervjuom,
poštanskom metodom). Anketa se definira kao vrsta statističkog istraživanja koje proučava
agregate jedinica pomoću anketnog upitnika u popisu ili na statistočkom uzorku jedinica.
Razlikujemo ankete pomoću anketara i ankete bez anketara.
Vrste anketnih pitanja:
S obzirom na zatvorenost
Zatvorena pitanja s ponuđenim odgovorima
Otvorena
S obzirom na ulogu
Demografska pitanja o karakteristikama ispitanika
Filterska pitanja za izdvajanje kvalificiranog sugovornika
Eksperimentalni podaci
Rezultat su primjene dizajna eksperimenta.
Primjena dizajna eksperime: u fazi razvoja proizvoda, u fazi razrade, u fazi promidžbe itd.
Opaženi podaci
Dobiveni su izravnim kontroliranim opažanjima
Metoda tajnog kupca
Nizovi nastali grupiranjem podataka prema modalitetima kvalitativne varijable ili vrijednostima
kvantitativne varijable su strukturni nizovi koji mogu biti, ovisno o vrsti obilježja: nominalni,
redoslijedni ili numerički. Nizovi nastali kronološkim uređenjem vrijednosti - vremenski nizovi.
STATISTIČKI NIZOVI
1. NOMINALNI NIZ – nastaje uređivanjem podataka o nominalnom obilježju
2. REDOSLIJEDNI NIZ – nastaje uređivanjem podataka o rang varijabli
3. NUMERIČKI NIZ – nastaje uređenjem podataka koji predstavljaju vrijednosti numeričke varijable
4. VREMENSKI NIZ – nastaje kronološkim nizanjem podataka o nekoj pojavi
(proizvodnja,uvoz,izvoz)
STATISTIČKE TABELE:
NOMINALNI ILI REDOSLIJEDNI NIZ čine parovi različitog oblika kvalitativne varijable o i i
pripadajućih frekvencija fi (oi, fi), i=1,2,....,k
Učenici i studenti koji su završili osnovnu
ili srednju školu odnosno diplomirai na
visokim učilištima u RH, 2003.g.
STUPANJ BROJ
OBRAZOVANJA OSOBA
oi fi
osnovno 51211
srednje 47092
stručni studij 6489
sveuč.studij 9243
ukupno 114035
izvor: SLJRH, 2004.g., str.487
i 1
fi
NUMERIČKI NIZOVI – nastaju uređenjem kvantitativnih podataka. Način njihova uređivanja ovisi
o tome da li su podaci diskretni ili kontinuirani.
NAČINI UREĐIVANJA:
1. mali broj podataka - uređuje se nizanjem po veličini. Pojedinačni numerički podaci grafički se
prikazuju dijagramom s točkama i dijagramom stablo-list (Stem-and-Leaf Diagram → S-L
dijagram )
Primjer 1.
Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:
Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29
Podaci uređeni po veličini:
Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34
Dijagram s točkama:
Dijagram stablo-list:
0 8 9
1 0 4 5 7 8 8
2 0 4 5 7 9
3 0 4
O|8 predstavlja 8
2. diskretno obilježje – ako numerička varijabla poprima mali broj modaliteta, a broj podataka je
velik – pristupa se grupiranju. Numerički niz odnosno distribucija frekvencija se sastoji od parova
(xi, fi), i=1,2,....,k. Mogu se koristiti i relativne frekvencije:
xi – modaliteti numeričkog obilježja
fi – apsolutne frekvencije
Pi, pi – relativne frekvencije → parovi (xi, Pi) ili (xi, pi)
Primjer 2.
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA (fi)
(xi)
1 1
2 5
3 8
4 26
5 19
6 12
ukupno 71
3. kontinuirano obilježje/ diskretno obilježje s većim brojem oblika – ako diskretno numeričko
obilježje ima veliki broj modaliteta formira se distribucija frekvencija s razredima. Svaki razred
ima donju i gornju granicu.
frekvencija razreda – broj podataka omeđen donjom i gornjom granicom razreda
Ako su razredi jednakih veličina, veličina im se aproksimira tako da se raspon varijacije podijeli sa
brojem razreda:
xmax xmin
ii
k
Razredi jednakih veličina primjenjuju se kada su podaci simetrično raspoređeni.
Razredi različitih veličina primjenjuju se kada su podaci asimetrično raspoređeni.
Pri brojčanoj analizi numeričkog niza potrebno je utvrditi da li su granice prave, a nakon toga odrediti
veličinu razreda i rezredne sredine.
GRANICE RAZREDA:
PRAVE – donja granica tekućeg razreda je jednaka gornjoj granici prethodnog razreda
NOMINALNE – pretvaraju se u prave tako da se svaka donja granica umanji za polovicu
jedinice, a svaka gornja se uveća za polovicu jedinice. To vrijedi za sve slučajeve osim za
navršene godine života. Kod navršenih godina života svaka se gornja granica poveća za jedinicu.
VELIČINA RAZREDA (ii )– određuje se kao razlika gornje i donje prave granice razreda
REZREDNA SREDINA i-tog razreda (xi) – određuje se kao poluzbroj gornje i donje prave granice
razreda
ova se formula koristi kada su svi razredi različitih veličina, a može se koristiti i generalno
fi
f ci
ii
fi
f ci
bazna veličina razreda (najčešće se pojavljuje) ii
ib
Na poligonu frekvencija (ili histogramu) se na osi apscisa nanosi mjerilo za varijablu (prave ili
precizne granice), a na osi ordinata aritmetičko mjerilo za korigirane frekvencije. Točka na poligonu
frekvencija se crta u sredini razreda (na mjestu razredne sredine).
IZVEDENI NIZOVI:
Kumulativni niz se uvijek sastavlja iz ORIGINALNIH (bilo apsolutnih ili relativnih frekvencija). Na
grafu kumulante, točke se crtaju na gornjoj granici razreda kojem pripadaju (na kraju razreda). Tako
se i interpretiraju (crtamo od prve donje granice, na kumulanti grafički prikazujemo medijan, kvartile)
Srednje vrijednosti
Potpune Položajne
Aritmetička
Mod
sredina
Geometrijska
sredina Medijan
Harmonijska
sredina
x
i 1
i
x
N
fixi
i 1
x
fi
1. ponderi: APSOLUTNE FREKVENCIJE (fi)
pixi
2. ponderi: RELATIVNE FREKVENCIJE U VIDU POSTOTAKA (P i) x
i 1
100
Nixi
i 1
X k
Ni
i 1
Primjer .
3711000
X 3313,39
1120
Ako se svaka individualna vrijednost numeričkog obilježja zamijeni aritmetičkom sredinom dobiva se
polazna veličina tj. total ili zbroj vrijednosti numeričkog obilježja.
BiRi
i 1
R k
Bi
i 1
Vi
Ri
Bi
Pri čemu je: 𝑅𝑖 → i-ti relativni broj koordinacije, 𝑣𝑖 → i-ta veličina koja se uspoređuje, 𝐵𝑖 → i-ta
veličina s kojom se uspoređuje (baza).
1. jednostavnim stupcima
2. pravokutnicima čije su osnovice proporcionalne bazama tih brojeva, a visine samim relativnim
brojevima koordinacije
Primjer
Najveće države svijeta, površina u km2 i broj stanovnika na km2
DRŽAVA POVRŠINA STANOVNIŠTVO/ UKUPAN
U km2 km2 BROJ
STANOVNIKA
Bi Ri Vi= Ri*Bi
RUSIJA 17075400 8 136603200
KANADA 9970610 3 29911830
SAD 9629091 30 288872730
KINA 9596961 135 1295589735
BRAZIL 8514215 21 178798515
UKUPNO 54786277 - 1929776010
1929776010
R 35.22 35st. / km2
54786277
𝑫𝒊
𝑷𝒊 = ∗ 𝟏𝟎𝟎% - ako se ne raspolaže vrijednostima Di, one se iz izraza izračunavaju kao
𝑪𝒊
𝑫𝒊 ∗ 𝟏𝟎𝟎 = 𝑷𝒊 ∗ 𝑪𝒊
tj.
∑𝒌𝒊=𝟏 𝑷𝒊 𝑪𝒊
̅=
𝑷
∑𝒌𝒊=𝟏 𝑪𝒊
Primjer
Grad Postotak Broj stanovnika
visokoobrazovanih starijih od 15 godina
Jastrebarsko 11,42 13 524
Velika Gorica 15,58 52 981
Vrbovec 10,25 12 346
Zaprešić 19,54 21 163
Samobor 17,30 31 765
Ukupno - 131 779
𝐤
̅ = ∑𝐢=𝟏
𝐏 𝐤
𝐏𝐢 𝐂𝐢
=
11,42 ∙13 524+15,58 ∙52 981…
=
2 069 494,08
= 15,70428
∑ 𝐢=𝟏 𝐂𝐢 13 524+52 981… 131 779
GEOMETRIJSKA SREDINA – potpuna srednja vrijednost
Jednostavna geometrijska sredina - jednaka je N-tom korijenu produkta N pojedinačnih vrijednosti
G N x1 x 2 .... x i .... x N
G N f f f fk
x1 1 x 2 2 .... x i i .... x k
N
negrupirani pojedinačni podaci H N
1
x
i 1 i
f
i 1
i
grupirani podaci H k
fi
x
i 1 i
MOD (Mo) – najčešći modalitet varijable, odnosno to je modalitet varijable s najvećom frekvencijom
1. pojedinačni podaci – kod pojedinačnih podataka MOD je vrijednost koja se najčešće pojavljuje
(b a )
Mod se aproksimira pomoću izraza: M o L1 i
(b a ) (b c )
b – najveća korigirana frekvencija
a – frekvencija ispred nje
c – frekvencija iza nje
L1 – donja prava granica modalnoga razreda
i – njegova veličina
Multimodalni niz – ako se u nizu više podataka pojavljuje jednako mnogo puta niz ima više modalnih
vrijednosti
Npr: 1 2 2 3 7 9 9 10 Mo = 2 i 9
*MEDIJAN (Me) – srednja vrijednost koja numerički niz uređen po veličini dijeli na dva
jednakobrojna dijela i to tako da prvih pedest posto jedinica ima vrijednost obilježja jednaku ili manju
od medijana, a preostalih pedeset posto ima vrijednost veću od medijana.
1. pojedinačni podaci (neparan broj) – MEDIJAN je jednak vrijednosti varijable središnjeg člana u
nizu
N
INT M e xr N
r INT 1
2 2
Primjer 6.
2. pojedinačni podaci (paran broj) – MEDIJAN je jednak poluzbroju vrijednosti varijable središnjih
dvaju članova niza uređenog po veličini N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2
Primjer 7.
11 24 29 37 40 53 65 72 N=8 ; r=4 ; Me = (37+40)/2 = 38.5
N
fi
M e L1 2 i
f med
Postoje apsolutne (izražene u istim mjernim jedinicama kao i varijabla) i relativne (izražene kao
relativni broj) mjere disperzije.
Potpune mjere disperzije (u čijem izračunu sudjeluju sve vrijednosti numeričke varijable) su:
varijanca, standardna devijacija i koeficijent varijacije, dok su ostale mjere nepotpune mjere
disperzije.
Mjere disperzije
Potpune Nepotpune
Raspon
Varijanca
varijacije
Standardna Interkvartili
devijacija raspon
Koeficijent
Koeficijent
kvartilne
varijacije
devijacije
1. RASPON VARIJACIJE (R)
pojedinačni podaci – određuje se kao razlika između najveće i najmanje vrijednosti
R x xmax xmin
distribucija frekvencija formirana na temelju pojedinačnih podataka – određuje se kao razlika
između posljednje i prve vrijednosti
R x x k x1
distribucija frekvencija s razredima – aproksimira se kao razlika između gornje granice
posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog
razreda.
Raspon varijacije je apsolutna (izražena je u istim mjernim jedinicama kao i obilježje) i
nepotpuna (dobiva se iz samo dvije vrijednosti) mjera disperzije.
2. INTERKVARTIL
KVARTILI:
PRVI ILI DONJI KVARTIL (Q1) – vrijednost numeričke varijable koja članove niza dijeli u
dvije skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili
manja od donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima većim od
donjeg kvartila.
DRUGI ILI MEDIJAN (Q2)
TREĆI ILI GORNJI KVARTIL (Q3) - vrijednost numeričke varijable koja članove niza dijeli
u dvije skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili
manja od gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima većim od
gornjeg kvartila.
Q3 Q1
VQ 0 ≤ VQ < 1
Q3 Q1
Ovo je relativna i nepotpuna mjera disperzije. Ako je 𝑉𝑄 ≈ 0, raspon varijacije središnjih 50%
podataka je malen, a ako je 𝑉𝑄 ≈ 1, raspon podataka (a time i disperzija) je velik.
i 1
xi x x
i 1
i Me
pojedinačni podaci: MAD MAD Me
N N
za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim
frekvencijama
x
2
i x
negrupirani podaci
2 i 1
N
k
f (x i i x)2
grupirani podaci
2 i 1
k
f i 1
i
(x i x)2
negrupirani podaci
i 1
N
f (x i i x)2
grupirani podaci
i 1
k
f i 1
i
V 100
x
x x
z z0 ; z 1
EMPIRIJSKO PRAVILO - vrijednosti koje od aritmetičke sredine odstupaju za više od dvije
standardne devijacije smatraju se netipičnim vrijednostima.
Ako se želi utvrditi proporcija podataka za distribuciju nepoznatog oblika, primjenjuje se Čebiševljevo
pravilo ili Čebiševljeva nejednakost.
Netipičan je podatak, prema empirijskom pravilu, koji se nalazi izvan pojasa x 2 tj. ako od
prosjeka odstupa za više od 2σ.
Ako se podaci raspoređuju po Čebiševljevom pravilu netipičan je podatak koji se nalazi izvan
pojasa x 3 tj. ako od prosjeka odstupa za više od 3σ.
xx 35 27.8
z 1.64
4.38
MJERE ASIMETRIJE – njima se mjeri način rasporeda podataka oko neke srednje vrijednosti,
uglavnom je to aritmetička sredina.
Najvažnije su:
1. Koeficijent asimetrije α3 - potpuna mjera
2. Pearsonova mjera nepotpune
3. Bowleyeva mjera mjere
1. KOEFICIJENT ASIMETRIJE α3
MOMENTI OKO SREDINE – aritmetičke sredine odstupanja vrijednosti numeričke varijable od
njezine aritmetičke sredine podignuti na neku potenciju
N
(x i x)
pojedinačni podaci r
i 1
N
k
f (x i i x)r
grupirani podaci r
i 1
k
f i 1
i
- s obzirom na veličinu r govori se o nultom, prvom, drugom, trećem ili četvrtom momentu oko
sredine
- koeficijent asimetrije α3 je omjeru trećeg momenta oko sredine i standardne devijacije podignute na
𝝁
treću potenciju 𝜶𝟑 = 𝝈𝟑𝟑 , obično se kreće u intervalu [-2,2], a u određenim slučajevima može biti
izvan toga intervala:
α3 = 0 simetrična distribucija
α3 < 0 negativno asimetrična distribucija
α3 > 0 pozitivno asimetrična distribucija
Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od
aritmetičke sredine:
3( x Me ) ( x Mo )
St St
nalazi se u intervalu ±3
Sk = 0 simetrična distribucija
Sk > 0 pozitivno asimetrična distribucija
Sk < 0 negativno asimetrična distribucija
Q1 Q3 2 Me
S ka
Q3 Q1
Me Q1 Q3 Me
simetrična distribucija
Q1 Q3 2 Me 0
Me Q1 Q3 Me
pozitivno asimetrična distribucija
Q1 Q3 2 Me 0
Me Q1 Q3 Me
negativno asimetrična distibucija
Q1 Q3 2 Me 0
MJERA ZAOBLJENOSTI
1
M=𝜇
N
(x
i 1
i x )4
negrupirani podaci M 4
N
k
f i ( x i x )4
grupirani podaci M 4 i 1
k
f
i 1
i
x
i 1
i
1
Cr N
Cr 1
N
x
i 1
i
1) na osi apscisa nalazi se aritmetičko mjerilo za vrijednosti funkcije distribucije F(xi), odnosno
kumulativni niz „manje od“
2) na osi ordinata nalazi se aritmetičko mjerilo za kumulativ proporcija (relativnih udjela) podtotala
3) prva točka ima koordinate (0,0); posljednja točka ima koordinate (1,1); koordinate ostalih točaka
određene su vrijednostima članova kumulativnih nizova
4) u grafički prikaz ucrtava se pravac jednolike raspodjele, on prolazi točkama (0,0) i (1,1)
Što je Lorenzova krivulja „udaljenija“ od pravca jednolike raspodjele, koncentracija je veća i
obrnuto
Lorenzova krivulja
Radi lakšeg praćenja u grafikon se ucrtava mreža. Prikaz je u pravokutnom koordinatnom sustavu s
aritmetičkim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za
članove vremenskog niza.
Okomiti prekid grafikona – ako se ne raspolaže podacima za dio razdoblja moguće je izostaviti dio
mjerila na osi apscisa.
Vodoravni prekid grafikona – ako neka pojava varira na velikim razinama moguće je izostaviti dio
mjerila osi ordinata.
Prekidaju se samo linijski grafikoni.
Prva diferencija – ukazuje na apsolutnu promjenu vrijednosti pojave izraženu u originalnim mjernim
jedinicama promatrane varijable
∆𝒚𝒕 = 𝒚𝒕 − 𝒚𝒕−𝟏 ili za bazno razdoblje: ∆𝒚∗𝒕 = 𝒚𝒕 − 𝒚𝒃
𝒚𝒕 − 𝒚𝒃
𝒔∗𝒕 = ∙ 𝟏𝟎𝟎%
𝒚𝒃
*Bazni indeksi (indeksi na stalnoj bazi) – relativni broj koji pokazuje promjenu razine promatranog
vremenskog niza u tekućem u odnosu na bazno razdoblje. Izračunavaju se tako da se svaki član niza
podijeli s vrijednošću baznog razdoblja te pomnoži sa 100
yt
It 100
yb
Bazno razdoblje – razdoblje u kojemu pojava nije bila izložena nekim neuobičajenim utjecajima
(prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili nekakav prosjek.
Primjer 1.
GODINA IZVOZ BAZNI INDEKSI STOPA
1999 = 100 PROMJENE
1999 4302 100,00 0,00
2000 4432 103,02 3,02
2001 4665 108,44 8,44
2002 4904 113,99 13,99
2003 6197 144,05 44,05
Primjer 2.
Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je veći od 100 predstavlja postotno
povećanje, a ako je manji od 100 predstavlja postotno smanjenje.
npr. Izvoz u RH u 2003.g. povećao se za 26.36% u odnosu na 2002.g.
𝒚𝒕 𝑰𝒕
Polazi se od koeficijenta dinamike → 𝒗𝒕 = 𝒚 =𝑰
𝒕−𝟏 𝒕−𝟏
𝑰𝒕 = 𝑰𝒕−𝟏 ∙ 𝒗𝒕
SKUPNI INDEKSI – njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz,
izvoz.... Koriste se s ciljem numeričkog izražavanja prosječne promjene relativnih cijena/količina
promatrane košarice dobara u tekućem razdoblju (razdoblje 1) u odnosu na neko prošlo razdoblje
(razdoblje 0 – može biti bazno ili prethodno)
U pravilu se računaju kao vagana aritmetička sredina individualnih indeksa. Ponderi su obično
vrijednosti.
Uglavnom se izračunavaju:
LASPEYRESOV INDEKS CIJENA I KOLIČINA
PAASCHEOV INDEKS CIJENA I KOLIČINA
FISHEROV INDEKS CIJENA I KOLIČINA
INDEKS VRIJEDNOSTI
*Laspeyresov indeks cijena – skupni indeks dobiven kao omjer vrijednosti određenog skupa
ekonomskih dobara u tekućem i baznom razdoblju, držeći pritom količine fiksirane na iznose iz
baznog razdoblja
∑𝒌𝒊=𝟏 𝒑𝟏𝒊 𝒒𝟎𝒊
( )
𝑷𝟎𝟏 𝒒𝟎 = 𝒌 ∙ 𝟏𝟎𝟎
∑𝒊=𝟏 𝒑𝟎𝒊 𝒒𝟎𝒊
Paascheov indeks cijena – skupni indeks dobiven kao omjer vrijednosti određenog skupa ekonomskih
dobara u tekućem i baznom razdoblju, držeći pritom količine fiksirane na iznose iz tekućeg razdoblja
Laspeyresov indeks količina - skupni indeks dobiven kao omjer vrijednosti određenog skupa
ekonomskih dobara u tekućem i baznom razdoblju, držeći pritom cijene fiksirane na iznose iz baznog
razdoblja
∑𝒌𝒊=𝟏 𝒒𝟏𝒊 𝒑𝟎𝒊
𝑸𝟎𝟏 (𝒑𝟎 ) = 𝒌 ∙ 𝟏𝟎𝟎
∑𝒊=𝟏 𝒒𝟎𝒊 𝒑𝟎𝒊
Paascheov indeks količina je također omjer vrijednosti skupa dobara, ali dobiven na način da se
cijene fiksiraju na iznose iz tekućeg razdoblja.
Fisherov indeks količina – prosječna mjera agregatne promjene konzumiranih količina određene
skupine dobara, te se definira kao geometrijska sredina Laspeyresova i Paascheova indeksa količina
𝑸𝟎𝟏,𝑭 = √𝑸𝟎𝟏 (𝒑𝟎 ) ∙ 𝑸𝟎𝟏 (𝒑𝟏 )
Fisherov indeks cijena - prosječna mjera agregatne promjene cijena konzumiranih skupine dobara, te
se definira kao geometrijska sredina Laspeyresova i Paascheova indeksa cijena
Skupne indekse izračunavaju i objavljuju statistički uredi. Obično su Laspeyresova tipa: INDEKS
POTROŠAČKIH CIJENA – mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJE. Skupni
indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na
vrijednosno izražene pojave.
VJEROJATNOSTI
DEFINICIJE VJEROJATNOSTI
Slučajni pokus (slučajni eksperiment) – postupak (mjerenje) koji se uz definirane uvjete može
ponavljati proizvoljan broj puta, ima najmanje dva moguća ishoda i ishodi se ne mogu predvidjeti sa
sigurnošću.
Npr. Bacanje idealnog novčića, bacanje idealne kocke, kontrola kvalitete proizvoda, poziv na
kupovinu putem kataloga i sl.
Ishodi slučajnog pokusa (eksperimenta) opisuju se riječima, brojevima ili riječima i brojevima.
Elementarni događaji - mogući ishodi slučajnog pokusa (npr. bacanje kocke: 1,2,3,4,5,6)
Slučajni događaj – jedan ili više elementarnih događaja (ishoda slučajnog pokusa), Označavaju se
velikim slovima abecede te su sa događajima dopuštene skupovne operacije., npr. bacanje kocke: pao
je paran broj.
Prostor slučajnih događaja (prostor uzorka), S – skup svih mogućih ishoda (elementarnih
događaja) slučajnog pokusa. Slučajni događaj je podskup skupa S.
Do novih se slučajnih događaja dolazi skupovnim operacijama (unija, presjek, komplement) nad
postojećim skupom slučajnih događaja:
𝐴 ∪ 𝐵 → dogodio se događaj A «ili» događaj B
𝐴 ∩ 𝐵 → dogodio se događaj A «i» događaj B
𝐴̅ → nije se dogodio A. 𝐴̅ je suprotni događaj od A
Vennovi dijagrami slučajnih događaja
SVOJSTVA VJEROJATNOSTI:
SLUČAJNA VARIJABLA X – numerička funkcija koja svakom ishodu slučajnog pokusa pridružuje
realan broj.
Slučajna
varijabla
Diskretna Kontinuirana
diskretna - ako poprima konačan broj vrijednosti (vezana je uz slučajan eksperiment koji
završava s konačno ili najviše prebrojivo mnogo rezultata)
kontinuirana – može poprimiti bilo koju vrijednost iz nekog intervala (vezana je uz slučajni
eksperiment s neprebrojivo mnogo rezultata)
DISTRIBUCIJA VJEROJATNOSTI
diskretne slučajne varijable – skup uređenih parova različitih vrijednosti slučajne varijable xi i
pripadajućih vjerojatnosti p(xi). Ima slijedeća svojstva:
o p(xi) ≥ 0
o ∑p(xi) = 1
Kumulativna funkcija ili funkcija distribucije F(x i) – pokazuje kolika je vjerojatnost da slučajna
varijabla x poprimi vrijednost xi ili manju.
Njena svojstva:
o f(x) ≥ 0,
o f ( x)dx 1
Primjer 1.
KVALITETA BROJ PROIZVODA UKUPNO
PROIZVODA DOB A DOB B
(KLASA)
I 20 10 30
II 10 10 20
III 30 20 50
UKUPNO 60 40 100
Primjer 2.
xi p(xi) xi p(xi) F(xi)
0 0.1 0 0.1
1 0.2 0.2 0.3
2 0.4 0.8 0.7
3 0.2 0.6 0.9
4 0.1 0.4 1.0
UKUPO 1.0 2.0 -
a) Pokažite da je navedena distribucija, distribucija vjerojatnosti!
1) p( xi ) 0
DA
2) p( xi ) 1
b) Odredite očekivanu vrijednost! F x xi p( xi ) 2.00
c) Odredite vrijednosti funkcije distribucije! (tablica)
d) Odredite vjerojatnost p(x≤2)! p( x 2) 0.1 0.2 0.4 0.7
1. BINOMNA
2. POISSONOVA
3. HIPERGEOMETRIJSKA
4. UNIFORMNA
*Analizički izrazi:
𝝀𝒙 𝒆−𝝀
𝒑(𝒙) = , λ > 0, x = 0, 1, 2…
𝒙!
𝟏 𝟏
𝑬(𝑿) = 𝝀 ,Var(X) = λ, 𝝈 = √𝝀, 𝜶𝟑 = , 𝜶𝟒 = 𝟑 +
√𝝀 𝝀
Distribucije vjerojatnosti kontinuirane slučajne varijable:
1. NORMALNA (GAUSSOVA)
2. STUDENTOVA (T-DISTRIBUCIJA)
3. 2 (HI-KVADRAT)
4. F-DISTRIBUCIJA
5. UNIFORMNA KONTINUIRANA
6. EKSPONENCIJALNA
o 𝐸 (𝑡) = 0 𝑧𝑎 𝑑𝑓 ≥ 2
𝑑𝑓
o 𝑉𝑎𝑟(𝑡) = 𝑑𝑓−2 𝑧𝑎 𝑑𝑓 ≥ 3
o 𝛼3 = 0 𝑧𝑎 𝑑𝑓 ≥ 4
6
o 𝛼4 = 3 + 𝑑𝑓−4 𝑧𝑎 𝑑𝑓 ≥ 5
INFERENCIJALNA STATISTIKA
PLAN UZORKA – skup pravila i postupaka određenog načina izbora uzorka iz populacije. Osnovna
svrha plana je izbor reprezentativnog uzorka, tj. uzorak mora biti umanjena slika osnovnog skupa. S
obzirom na način izbora jedinica uzorka razlikuju se namjerni i slučajni uzorci.
2. slučajni uzorci (probabilistički) – svaki element ima vjerojatnost izbora veću od nule. Kod
ovih uzoraka moguće je izračunati grešku. Analiziraju se metodama inferencijalne statistike.
jednostavni slučajni uzorak – svaki element ima jednaku vjerojatnost izbora. Primjenjuje se
kod homogenih skupova.
𝑁
sistematski uzorak –izbor jedinica ovisi o koraku izbora k → 𝑘 = 𝑛 , iz populacije N se
izabire svaka k-ta jedinica (npr. svako peto kućanstvo, potrebno je izabrati slučajni početak)
OKVIR IZBORA – popis numeriranih jedinica cijele populacije – s tog popisa se na slučajan
način odabire početak (npr.birački popis)
stratificirani uzorak – prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti,
kada osnovni skup nije homogen. Osnovni skup se dijeli u grupe s obzirom na promatrano
obilježje, tako da jedinice izabrane iz tih grupa budu što homogenije. Takve se grupe nazivaju
stratumima.
uzorak skupina (klasterski uzorak) – populacija se dijeli na konačan broj skupina te se na
slučajan način izabiru određene skupine, iz kojih se kasnije na slučajan način biraju jedinice
Očekivana vrijednost sampling distribucije aritmetičkih sredina uzoraka jednaka je aritmetičkoj sredini
osnovnog skupa. Standardna devijacija sampling distribucije sredina prosječno je odstupanje
aritmetičkih sredina od aritmetičke sredine osnovnog skupa. Ona izražava pogrešku koja nastaje zbog
primjene uzorka, stoga se naziva standardnom pogreškom aritmetičke sredine.
Procjenitelj :
nepristran – ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje E ˆ
efikasan – ako je nepristran i ako ima najmanju varijancu u skupu svih linearnih nepristranih
procjenitelja
konzistentan – ako je nepristran i ako varijanca procjenitelja postaje sve manja kada se veličina
uzorka n povećava (teži 0)
P x z x x z x 1
2 2
S porastom veličine uzorka, a to znači i s porastom broja stupnjeva slobode, Studentova distribucija se
aproksimira normalnom distribucijom:
P x t x x t x 1
2 2
t -koeficijent pouzdanosti koji se određuje na temelju studentove distribucije
2
Primjer 2.
Odredite vrijednost standardne pogreške procjene aritmetičke sredine osnovnog skupa za ove
slučajeve:
a) Procjenjuje se sredina konačnog skupa od 125 768 članova pomoću slučajnog uzorka veličine 1250
članova. Standardna devijacija osnovnog skupa iznosi 64.
N 125768
n 1250
n 1250 N-broj elemenata osnovnog skupa
f 0.0099 ; f 0.05 n-broj elemanata uzorka
N 125768
N n
, f 0.05
N 1 64
n x 1.81019
x n 1250
, f 0.05
n
b) Sredina se procjenjuje pomoću slučajnog uzorka veličine 600 formiranog izborom svakog desetog
člana konačnog osnovnog skupa, a varijanca skupa iznosi 100.
n 600 n 600
f 0.1, f 0.05
N N 6000
10 N 10 n 6000
n N n 10 6000 600
x 0.38733
100 10
2
n N 1 600 6000 1
c) Uzorak veličine 36 izabran je iz beskonačnog osnovnog skupa N(μ, 5 2) beskonačni skup f<0.05
(kad u zadatku nemamo N pretpostavljamo da je skup beskonačan i f<0.05)
5 5
x 0.83333
n 36 6
d)
N 35679
n 2500 ̂ - nepristrani procjenitelj standardne devijacije populacije (osnovnog skupa)
ˆ 10
n 2500
ˆ N n f 0.07 , f 0.05
, f 0.05 N 35679
n N 1
x
ˆ ˆ N n 10 35679 2500
x 0.19287
, f 0.05 n N 1 2500 35679 1
n
e) Veličina je uzorka 256 i čini 2% osnovnog skupa, a standardna devijacija uzorka je 32.
s – standardna devijacija uzorka
s 32 f 0.02 , f 0.05
n 256 ˆ 32.06268
256 ˆ
2 100 N 12800 x 2.00392
N n
n
ˆ s
n1 faktor korekcije
Primjer 3.
Tvrtka isporučuje vijke pakovanih po 100 komada. Kupac je primio pošiljku od 10000 pakovanja.
Radi kontrole izabran je slučajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedeći broj
60 60
xi 117 , x 293
2
neispravnih vijaka po pakovanju: 4, 3, 3, 1, 3,…. Njihov zbroj je 117. i
i 1 i 1
Procjenite brojem i intervalom prosječan broj neispravnih vijaka po pakovanju za cijelu pošiljku.
Razina povjerenja je 95%.
n 60 veliki uzorak
n 60
f 0.006 , f 0.05
N 10000
x
xi 117 1.95 2 procjena prosječnog broja neispravnih vijaka po pakovanju
N 60
intervalni procjenitelj
P x z x x z x 1
2 2
0.95:2 = 0.4750
z(P=0.4750) = 1.96
1
1 293 117 2
xi n xi
2 2
ˆ 60 1.04840
59
ˆ ˆ 1.04840
n1 x
n
60
0.13535
TOTAL – Total T osnovnog skupa je zbroj vrijednosti numeričkog obilježja svih jedinica statističkog
skupa. Taj je parametar povezan s aritmetičkom sredinom.
x i
T
T N
N N
Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetičke sredine.
ˆ
procjena totala brojem T N x
PROPORCIJA OSNOVNOG SKUPA – parametar koji predstavlja omjer broja članova osnovnog
skupa s određenim modalitetom obilježja i opsega statističkog skupa
m
procjenitelj procjene brojem: Pˆ
n
m - broj elemenata s određenim modalitetom obilježja u uzorku
n - broj elemenata uzorka
Sampling distribucija proporcija uzoraka ima oblik binomne ili hipergeometrijske distribucije. Za
dovoljno veliki uzorak aproksimira se normalnom distribucijom.
Statistička hipoteza – tvrdnja o veličini parametra ili o obliku distribucije osnovnog skupa čija se
istinitost ispituje pomoću slučajnog uzorka.
Testiranje statističkih hipoteza – postupak kojim se donosi odluka o prihvaćanju ili ne prihvaćanju
tvrdnje.
Statistički test – pravilo koje se koristi u donošenju odluke o odbacivanju ili neodbacivanju nulte
hipoteze
parametarski – testovi koji se odnose na nepoznate parametre, pri čemu je oblik distribucije
poznat
neparametarski – testovi koji se odnose na nepoznati oblik distribucije populacije
Svaki postupak testiranja polazi od nulte hipoteze (H0) i alternativne hipoteze (H1). Hipoteze su
međusobno isključive tvrdnje o pretpostavljenoj vrijednosti parametara populacije.
U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka:
pogreška tipa I – nastaje ako se odbaci istinita nulta hipoteza
pogreška tipa II – nastaje ako se ne odbaci lažna nulta hipoteza
Postupak testiranja:
1. Određivanje sadržaja nulte i alternativne hipoteze (ovisi o tome da li se provodi dvosmjerni ili
jednosmjerni test)
H0: …
H1: …
2. Izbor testne veličine (najčešće ovisi o mjernoj skali promatranih varijabli i veličini uzorka)
3. Izbor razine signifikantnosti (najčešće 5% ili 1%)
4. Određivanje pravila odlučivanja (alternativna pravila odlučivanja moraju dati jednak ishod testa)
5. Donošenje zaključka (H0 se može ili ne može odbaciti)
Kritične granice
Na gornju
granicu
H 0 ........... 0
H 1 ........... 0
*JEDNOSMJERNI TEST NA GORNJU GRANICU - od interesa je promatrati odstupanje na više.
Pretpostavlja se da je aritmetička sredina osnovnog skupa veća od pretpostavljene. Pretpostavka se
formulira kao alternativna hipoteza. (“više od”, “najmanje”, “barem”)
H 0 ........... 0
H 1 ........... 0
H o ......... 0
H 1 ......... 0
možemo testirati hipotezu da je proporcija populacije jednaka, manja ili veća od pretpostavljene
vrijednosti 𝑝𝑜
dvosmjerni test - ako se testira da je proporcija populacije jednaka jednaka pretpostavljenoj
vrijednosti 𝑝𝑜
jednosmjerni test na donju ili gornju granicu - ako se testira da je manja ili veća
Uzorci su nezavisni ako je uzorak opažanja ili mjerenja vezanog za elemente jednog osnovnog skupa
neovisan o uzorku opažanja ili mjerenja izabranog iz drugog osnovnog skupa.
Npr. podatci o prosječnoj težini proizvoda na dvije proizvodne linije nisu zavisni, pa tako neće biti ni
podatci za dva izabrana uzorka proizvoda s tih dviju linija.
Uzorci su zavisni ako su podatci prikupljeni prije i nakon primjene određenog tretmana za iste jedinice
uzorka izabranih iz istog osnovnog skupa, ili se radi o podatcima za jedinice iz skupina sličnih ili
povezanih pojedinaca. Ovdje se često radi o zavisnosti ponovljenih mjerenja za iste jedinice.
Npr. kod pacijenta se krvni tlak može mjeriti prije uzimanja lijeka i nakon, mjerenje zadovoljstva
kupca prije i nakon kupnje i sl.
Kod tih uzoraka podaci iz prve populacije ne utječu na vjerodostojnost pojavljivanja podataka iz druge
populacije. Ako se npr ispituje razlika u prosječnoj trajnosti novog i prosječnoj trajnosti odstajalog
proizvoda, iz prve će se populacije veličine 𝑁1 izabrati uzorak veličine 𝑛1 , a iz druge populacije 𝑁2
uzorak veličine 𝑛2 . Prosjenjuje li se razlika sredina populacija, za svaki od nezavisnih uzoraka se
izračunava aritmetička sredina te se njihova razlika koristi kao procjena traženog parametra jednim
brojem:
̂=𝒙
𝒅 ̅𝟏 − 𝒙
̅𝟐
H 0 ........1 2 0
H 1 ........1 2 0
H 0 .......1 2 0
H 1 .......1 2 0
H o ........1 2 0
H 1 ........1 2 0
̂:
Standardna devijacija procjenitelja 𝑫
𝝈𝟐𝟏 𝝈𝟐𝟐
𝝈𝑫̂ = 𝝈𝒙̅𝟏 −𝒙̅𝟐 = √ +
𝒏𝟏 𝒏𝟐
Intervalna procjena razlike sredina kada su varijance populacije poznate (tj. velikim uzorcima) uz
razinu pouzdanosti 1-α dana je izrazom:
*Intervalna procjena razlike sredina kada su varijance populacije nepoznate ( tj. malim uzorcima) uz
razinu pouzdanosti 1-α dana je izrazom:
Intervalna procjena razlike aritmetičkih sredina ako su varijance populacija nisu poznate
Ako nisu poznate ni aritmetičke sredine niti varijance normalno distribuiranih populacija, razlikujemo
dvije situacije:
a) pretpostavlja se da su nepoznate varijance dviju populacija jednake
b) pretpostavlja se da su nepoznate varijance dviju populacija nejednake
̂ 𝟐𝟏 + (𝒏𝟐 − 𝟏)𝝈
(𝒏𝟏 − 𝟏)𝝈 ̂ 𝟐𝟐 𝒏𝟏 + 𝒏𝟐
𝝈𝑫̂ = √ ∙( )
𝒏𝟏 + 𝒏𝟐 − 𝟐 𝒏𝟏 𝒏𝟐
̂𝟐 𝝈
𝝈 ̂𝟐
𝝈𝑫̂ = √ 𝟏 + 𝟐
𝒏𝟏 𝒏𝟐
PROCJENA RAZLIKE PROPORCIJA DVIJU POPULACIJA NA OSNOVI VELIKIH
NEZAVISNIH UZORAKA
̂=𝒑
𝒅 ̂𝟏 − 𝒑
̂𝟐
Intervalna procjena:
̂ − 𝒛𝜶⁄ 𝝈𝑫̂ < 𝐷 < 𝒅
𝑷=𝒅 ̂ + 𝒛𝜶⁄ 𝝈𝑫̂ = 𝟏 − 𝜶
𝟐 𝟐
𝒑̂ 𝟏 (𝟏 − 𝒑
̂𝟏) 𝒑̂ 𝟐 (𝟏 − 𝒑
̂𝟐)
𝝈𝒑̂𝟏−𝒑̂𝟐 = √ +
𝒏𝟏 𝒏𝟐
HI KVADRAT TEST
Hipoteze testa:
H0: Distribucija populacije je pretpostavljenog oblika.
H1: Distribucija populacije nije pretpostavljenog oblika.
Ako je nulta hipoteza istinita, empirijske se frekvencije neće značajno razlikovati od očekivanih
frekvencija. Pomoću hi-kvadrat testa zaključuje se jeli razlika rezultat slučajnosti ili ne. Ako je razlika
slučajna (nije statistički značajna), može se zaključiti da je distribucija populacije pretpostavljenog
oblika.
Npr. ako pretpostavimo da se jednak broj studenata opredijelio za svaki smjer, nultom hipotezom se
pretpostavlja da je distribucija studenata prema modalitetima obilježja (smjer na studiju) u populaciji
jednolikog oblika.
𝒌
𝟐
(𝒇𝒊 − 𝒆𝒊 )𝟐
𝝌 =∑
𝒆𝒊
𝒊=𝟏
Ako je testna veličina 𝝌𝟐 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 , nulta hipoteza će se
odbaciti na razini značajnosti α.
Hi-kvadrat testom o nezavisnosti dviju varijabli želi se testirati razlikuju li se značajno empirijske
frekvencije od frekvencija koje se očekuju kada bi varijable bile nezavisne. Provođenje hi-kvadrat testa
o nezavisnosti dviju varijabli zahtijeva da se formira dvodimenzijalna distribucija frekvencija (tablica
kontingence).
Na temelju empirijskih frekvencija 𝑓𝑖𝑗 (i predstavlja redak, a j stupac) i očekivanih frekvencija 𝑒𝑖𝑗
izračunava se hi-kvadrat testna veličina:
𝒓 𝒄
𝟐
(𝒇𝒊𝒋 − 𝒆𝒊𝒋 )𝟐
𝝌 = ∑∑
𝒆𝒊𝒋
𝒊=𝟏 𝒋=𝟏
Očekivane frekvencije: 𝑹𝒊 ∙ 𝑪𝒋
𝒆𝒊𝒋 =
𝒏
Broj stupnjeva slobode ovisi o broju redaka r i broju stupaca c, tj. 𝒅𝒇 = (𝒓 − 𝟏)(𝒄 − 𝟏)
Ako je testna veličina 𝝌𝟐 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 , nulta hipoteza će se
odbaciti na razini značajnosti α.
Test o jednakosti proporcija triju ili više populacija je specijalni slučaj hi-kvadrat testa o nezavisnosti
varijabli, ako je jedna od varijabli dihotomna. Iako se kod oba testa jednako definira testna veličina,
postavljene hipoteze i zaključak testa su različiti. Naime, kod testa nezavisnosti iz populacije izabire se
jedan slučajni uzorak, dok se kod testa o jednakosti proporcija triju ili više populacija izabire po jedan
slučajni uzorak iz svake populacije.
Zajednička proporcija:
𝒎 𝒎𝟏 + 𝒎𝟐 + 𝒎𝟑 + ⋯ + 𝒎𝒌
̅=
𝒑 =
𝒏 𝒏𝟏 + 𝒏𝟐 + 𝒏𝟑 + ⋯ + 𝒏𝒌
Ako je testna veličina 𝝌𝟐 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 , nulta hipoteza će se
odbaciti na razini značajnosti α.
REGRESIJSKA ANALIZA
Njom se ispituje ovisnost jedne (zavisne) varijable o drugoj (nezavisnoj) varijabli ili o više drugih
(nezavisnih) varijabli, npr.proizvodnja o broju zaposlenih, potrošnja o visini plaće. Najzastupljenije
metode u analizi statističke povezanosti: korelacijska i regresijska analiza.
Korelacijska analiza – utvrđujemo smjer i jakost povezanosti dviju slučajnih varijabli x i y koje se
tretiraju simetrično
Regresijska analiza – pretpostavlja se odnos između zavisne varijable (y) i nezavisne varijable (x).
Cilj je procijeniti prosječnu vrijednost zavisne varijable na temelju zadanih (fiksnih) vrijednosti
nezavisne varijable
Rezidualno odstupanje - razlika između stvarne vrijednosti zavisne varijable 𝑦𝑖 i njene procijenjene
vrijednosti, dano je jednadžbom: 𝜺̂𝒊 = 𝒚𝒊 − 𝒚
̂𝒊
∑ 𝒙𝒊 𝒚𝒊 − 𝒏𝒙𝒚
̅̅̅̅
̂𝟏 =
𝜷
∑ 𝒙𝟐𝒊 − 𝒏𝒙̅𝟐 ̂𝟎 = 𝒚
𝜷 ̂ 𝟏𝒙
̅−𝜷 ̅
Vrijednosti 𝜺̂𝒊 su rezidualna odstupanja izražena u mjernim jedinicama zavisne varijable y (apsolutno
rezidualno odstupanje). Relativna rezidualna odstupanja definiraju se kao:
𝜺̂𝒊
𝜺̂𝒊,𝒓𝒆𝒍 = ∙ 𝟏𝟎𝟎%
𝒚𝒊
Nas zanima je li procijenjeni regresijski model reprezentativan, koliko dobro varijabla x “objašnjava”
zavisnu varijablu y? Kako bi se odredilo koliko dobro varijabla x objašnjava varijaciju zavisne
varijable y, tj. koliko je procijenjeni regresijski model dobar, polazi se od rastava zavisne varijable
procijenjene na bazi uzorka. Procjena varijance varijable y rastavlja se na dvije komponente: dio
varijance protumačen modelom i rezidualni dio (dio neprotumačen modelom). Dobivamo jednadžbu:
y y yˆ i y yi yˆ i
2 2 2
i
ST SP SR
Ukupan zbroj kvadrata (𝑺𝑻 = ∑(𝒚𝒊 − 𝒚 ̅)𝟐) – zbroj kvadrata odstupanja empirijskih vrijednosti
zavisne varijable y od prosjeka
Protumačeni zbroj kvadrata (𝑺𝑷 = ∑(𝒚 ̅)𝟐 ) – zbroj kvadrata odstupanja regresijskih vrijednosti
̂𝒊 − 𝒚
od prosjeka
Rezidualni ili neprotumačeni zbroj kvadrata (𝑺𝑹 = ∑(𝒚𝒊 − 𝒚 ̂𝒊 )𝟐 ) – posljedica slučajnih i
neočekivanih odstupanja empirijskih od regresijskih vrijednosti
Ako se zbrojevi kvadrata podijele s odgovarajućim stupnjevima slobode, dolazi se do sredina kvadrata
koje su nezavisne procjene komponenti varijance.
Navedene veličine se prikazuju u tablici analize varijance (ANOVA):
Procjena varijance regresije – rezidualni zbroj kvadrata podijeljen s df=n-2 stupnjeva slobode:
𝑺𝑹 ̂ 𝒊 )𝟐
∑(𝒚𝒊 − 𝒚
̂𝟐
𝝈 = =
𝒏−𝟐 𝒏−𝟐
𝑺𝑹 ̂ 𝒊 )𝟐
∑(𝒚𝒊 − 𝒚
̂=√
𝝈 =√
𝒏−𝟐 𝒏−𝟐
𝒏−𝟏
̅𝟐 = 𝟏 −
𝑹 (𝟏 − 𝑹𝟐 )
𝒏−𝟐
KORELACIJSKA ANALIZA – njome se određuju jakosti veze. Mjera jakosti veze je koeficijent
korelacije. Koeficijent determinacije povezan je s koeficijentom linearne korelacije, pokazateljem
smjera i jakosti linearne povezanosti varijabli x i y. Što je model reprezentativniji, to bi i korelacija
među varijablama trebala biti veća.
Koeficijent korelacije drugi je korijen iz koeficijenta determinacije: r r
2
Primjer 1.
U 6 prodavaonica na području A registriran je slijedeći broj zaposlenih i ostvareni promet u tisućama
kn.
broj promet xi
2
yi
2
xi y i
zaposlenih
xi yi
2 25 4 625 50
3 31 9 961 93
8 85 . . .
4 51 . . .
7 69 . . .
6 65 . . .
30 326 178 20398 1900
y
yi 326 54.33
n 6
Interpretacija:
β0 (konstantni član) – Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08
tisuća kuna.
β 1(regresijski koeficijent) – Ako se broj zaposlenih poveća za jednu osobu tada će se ukupan promet
povećati linearno i u prosjeku za 9.65 tisuća kuna.
Primjer 1.
ˆ ˆ
Dana je regresijska jednadžba : yˆ 125 0.092
.03
x
ˆ
U kojim se granicama može očekivati da će se naći parametar β? Pouzdanost procjene je 95%, a n=25.
Testiranje provodimo kako bismo saznali je li nezavisna varijabla x značajna u modelu. Nultnom
hipotezom se pretpostavlja da je varijabla x suvišna i da statistički značajno ne objašnjava varijacije
zavisne varijable y. Hipoteze testa mogu se zapisati kao:
t – test
ˆ
Testna veličina je empirijski t-omjer koji se računa pomoću formule: t
ˆ
Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću koja se očitava iz
tablica. Test se može provesti kao dvosmjerni ili jednosmjerni (na donju ili gornju granicu).
Ako je β<0 jednosmjerni test na donju granicu
Ako je β>0 jednosmjerni test na gornju granicu
F – TEST
Test značajnosti regresorske varijable x moguće je provesti i pomoću F – testa. U slučaju modela
jednostavne regresije, F – test je ekvivalentan t – testu. Ako pogledamo tablicu ANOVA, testna
veličina (empirijski F –omjer) se definira kao omjer protumačene i neprotumačene (rezidualne)
sredine kvadrata, tj.
n
𝑆𝑃
yˆ y
2
𝐹= 1
i
i 1
F 𝑆𝑅
Ili ˆ 2 𝑛−2
Formula za procijenu varijance 𝜎̂ 2 je ustvari omjer SR/(n-2), što smo ubacili u drugoj formuli za F.
Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću 𝑭𝜶𝒌,𝒏−(𝒌+𝟏) koja se
očitava iz tablica.
t - TEST ̂𝟏
𝜷
𝒕𝟏 =
Testna veličina (empirijski t-omjer) : 𝝈𝜷̂𝟏
ODLUKA:
t t H o
2
30.667 2.069 H1
t t H1
2
Nezavisna varijabla x nije suvišna u modelu.
PREDVIĐANJE I PROGNOZIRANJE
̂ +𝜷
̂𝟎 = 𝜷
𝒚 ̂ 𝒙𝟎
𝟎 𝟏
Prognostičku vrijednost 𝑦̂0 se dobiva na isti način kao i regresijska vrijednost, uvrštavanjem (stvarne
ili pretpostavljene) vrijednosti nezavisne varijable 𝑥 = 𝑥0 u procijenjenu regresijsku jednadžbu.
Njime se izražava ovisnost jedne varijable o više drugih varijabli. Model jednostavne linearne
regresije, kojim se analizira utjecaj jedne nezavisne varijable x na zavisnu varijablu y, često je u praksi
neadekvatan jer se pretpostavlja da će na nezavisnu varijablu y utjecati više nezavisnih varijabli (k-broj
nezavisnih varijabli u modelu).
eˆi yi yˆ i
y i yˆ i
Relativna rezidualna odstupanja eˆ i ,rel 100
yi
y i yˆ i
Standardizirana rezidualna odstupanja eˆ i ,rel 100
ˆ
*PROCJENA VARIJANCE I STANDARDNE DEVIJACIJE REGRESIJE
y yˆ i y yˆ i
2 2
SR
ˆ ˆ
2 i i
n k 1 n k 1 n k 1
̂
𝝈
̂=
𝑽 ∙ 𝟏𝟎𝟎%
̅
𝒚
Intervalna procjena regresijskog parametra: P ˆ j t ˆ j ˆ j t ˆ j 1
2 2
*ANOVA tablica:
Izvor varijacije Stupnjevi Zbroj Sredine Empirijski
slobode kvadrata kvadrata f-omjer
Protumačen k SP SP SP
modelom k k
SR
n k 1
Neprotumačena n-(k+1) SR SR /
modelom n k 1
(rezidualna)
odstupanja
Ukupno n-1 ST / /
ST – ukupni zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od prosjeka rastavalja
se na:
SP – zbroj kvadrata odstupanja regresijskih vrijednosti od prosjeka (tj. zbroj kvadrata protumačen
modelom)
SR – zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti, tj.
rezidualni ili neprotumačeni zbroj kvadrata.
KOEFICIJENT DETERMINACIJE I KORIGIRANI KOEFICIJENT DETERMINACIJE
yˆ y
2
SP 𝑺𝑷 𝑺𝑹
R 2
i
𝑹𝟐 = =𝟏− 𝑹 = √𝑹𝟐
y y 𝑺𝑻 𝑺𝑻
2
i
ST
𝒏−𝟏 ̅ 𝟐 ≤ 𝑹𝟐
𝑹
̅𝟐 = 𝟏 −
𝑹 (𝟏 − 𝑹𝟐 )
𝒏 − ( 𝒌 + 𝟏)
TESTIRANJE HIPOTEZA O MODELU VIŠESTRUKE REGRESIJE
Ovisno o tome je li poznat smjer povezanosti zavisne varijable y i regresorske varijable 𝑥𝑗 , test može
biti dvosmjeran ili jednosmjeran. Nultom hipotezom se uvijek pretpostavlja da je varijabla 𝑥𝑗 suvišna u
modelu (𝛽0 = 0) i da statistički nije značajna. Alternativna hipoteza se oblikuje u skladu s
pretpostavkom istraživača. Pojedinačni test provodi se jednako kao i u jednostavnoj linearnoj regresiji,
testiramo onu regresorsku varijablu za čiju nas nezavisnu varijablu pita je li značajna u modelu.
Također, kao i kod jednostavne linearne regresije testiranje se može provesti putem t-testa i F-testa.
Testna veličina: ̂𝒋
𝜷
𝒕𝒋 =
𝝈𝜷̂𝒋
Skupni test je test značajnosti svih regresorskih (nezavisnih) varijabli. Test veličina je empirijski f-
omjer iz tabele ANOVA. Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom
vrijednošću s 𝑑𝑓1 = 𝑘 stupnjeva slobode u brojniku i 𝑑𝑓2 = 𝑛 − (𝑘 + 1) stupnjeva slobode u
nazivniku, koja se očitava iz tablica.
H0: Nultnom hipotezom se pretpostavlja da niti jedna nezavisna varijabla nije značajna u modelu, tj.
da su svi regresorski parametri jednaki nula.
H1: Alternativnom hipotezom se pretpostavlja da je barem jedna varijabla značajna u modelu.
H 0 ........ 1 2 .... j k 0
H 1 ........ j 0
Testna veličina:
𝑺𝑷 𝑹𝟐
𝑭= 𝒌 = 𝒌
𝑺𝑹 𝟏 − 𝑹𝟐
𝒏 − (𝒌 + 𝟏) 𝒏 − (𝒌 + 𝟏)
𝛼
Uz razinu značajnosti α, 𝐻0 se odbacuje ako je 𝐹 > 𝐹[𝑘,𝑛−(𝑘+1)] , tj. ako je empirijski F – omjer veći od
𝛼
𝐹[𝑘,𝑛−(𝑘+1)] .
Slučajna komponenta je uvijek prisutna, dok sistematske (trend, sezonska i ciklička) mogu al ii ne
moraju nužno biti prisutne u vremenskom nizu.
I s sezonska komponenta
opći oblik multiplikativnog modela: Y T I s I
I sluč . komponenta
Trend model je specijalni slučaj regresijskog modela u kojem je zavisna varijabla y promatrana pojava,
a nezavisna varijabla x je vrijeme!
Jednadžba linearnog trenda se značajno ne razlikuje od jednadžbe jednostavne regresije jer je model
linearnog trenda specijalni slučaj modela jednostavne linearne regresije u kojem je nezavisna varijabla
vrijeme.
Parametri linearnog trenda procjenjuju se metodom najmanjih kvadrata. Procjene parametara su:
∑ 𝒙𝒕 𝒚𝒕 − 𝒏𝒙
̅𝒚̅
̂𝟏 =
𝜷 𝟐
∑ 𝒙𝒕 − 𝒏𝒙̅𝟐 ̂𝟎 = 𝒚
𝜷 ̂ 𝒚𝒙
̅−𝜷 ̅
Procijenjeni parameter 𝐵̂0 je konstantni član i interpretira se kao vrijednost trenda za razdoblje koje
prethodi prvom razdoblju analiziranog vremenskog niza, odnosno kada je 𝑥𝑡 = 0. Procijenjeni
parametar 𝛽̂1 (regresijski koeficijent u modelu jednostavne linearne regresije) je prosječna promjena
razine pojave po jedinici vremena.
Jednadžba trenda se kao i regresijska jednadžba koristi u prognostičke svrhe. Prognoziranje na osnovi
procijenjene jednadžbe trenda je smisleno samo ako je realno pretpostaviti da će se pojava nastaviti
kretati u približno jednakim uvjetima i na približno jednak način. Prognostičku vrijednost pojave za
prognostički horizont 𝝉 (broj razdoblja iza zadnjeg promatranja za koje se prognozira razina pojave),
je:
̂𝟎 + 𝜷
̂𝒏+𝝉 = 𝜷
𝒚 ̂ 𝟏 (𝒏 + 𝝉)
𝟏 (𝒏 + 𝝉 − 𝒙̅ )𝟐 𝟏 (𝒏 + 𝝉 − 𝒙 ̅ )𝟐
̂ √𝟏 +
𝝈𝒚̂𝒏+𝝉 = 𝝈 + = ̂
𝝈 √𝟏 + +
𝒏 ̅ )𝟐
∑(𝒙𝒕 − 𝒙 𝒏 ∑ 𝒙𝟐𝒕 − 𝒏𝒙
̅𝟐
Eksponencijalni trend
Model eksponencijalnog trenda prvog stupnja ili jednostavnog eksponencijalnog trenda prikladan je
kada se vremenska pojava mijenja od razdoblja do razdoblja za približno isti relativni iznos, tj. kada su
verižni indeksi približno konstantni.
𝒙
𝒚𝒕 = 𝜷𝟎 𝜷𝟏𝟏 𝒆𝜺𝒕
Pri čemu su 𝑦𝑡 vrijednosti promatrane pojave, 𝑥𝑡 vrijednost varijable vrijeme, 𝛽0 i 𝛽1 nepoznati
parametri, a 𝜀𝑡 nepoznate vrijednosti slučajne varijable 𝜀. Logaritamskom transformacijom model
eksponencijalnog trenda svodi se na model linearnog trenda:
Linearizirani model je model jednostavne linearne regresije, odnosno model jednostavnog linearnog
trenda, ali s logaritmiranim vrijednostima pojave umjesto izvornih vrijednosti. Parametri se i ovdje
procjenjuju metodom najmanjih kvadrata;
̂ 𝒕 = 𝒍𝒐𝒈𝜷
𝒍𝒐𝒈𝒚 ̂
̂ 𝟎 + (𝒍𝒐𝒈𝜷
̂ 𝟏 )𝒙𝒕
Eksponencijalni trend moguće je koristiti i u prognostičke svrhe, ali uz pretpostavku da će pojava imati
istu dinamiku i razvijati se u približno jednakim uvijetima kao i u promatranom razdoblju. Izraz za
prognostičku vrijednost u logaritamskom obliku je:
̂𝒏+𝝉 = 𝒍𝒐𝒈𝜷
𝒍𝒐𝒈𝒚 ̂
̂ 𝟎 + 𝒍𝒐𝒈𝜷
̂ 𝟏 (𝒏 + 𝝉)
Gdje je 𝜏 prognostički horizont, odnosno broj razdoblja za koji se pojava prognozira. Pojava se, uz
odabranu razinu pouzdanosti, prognozira i intervalom:
𝟏 (𝒏 + 𝝉 − 𝒙̅ )𝟐 𝟏 (𝒏 + 𝝉 − 𝒙 ̅ )𝟐
̂ √𝟏 +
𝝈𝒚̂𝒏+𝝉 = 𝝈 + = ̂
𝝈 √𝟏 + +
𝒏 ̅ )𝟐
∑(𝒙𝒕 − 𝒙 𝒏 ∑ 𝒙𝟐𝒕 − 𝒏𝒙
̅𝟐
Interpretacija:
Konstantni član pokazuje nam vrijednost trenda za razdoblje prije prvog (kao i kod linearnog
trenda).
Koeficijent eksponencijalnog trenda pokazuje za koliko će se puta promijeniti trend vrijednost,
ako se varijabla vrijeme poveća za 1.
a) Odredite vrijednosti prvih diferencija! Što se zaključuje na temelju grafa i prvih diferencijacija?
Yt Yt Yt 1
Ako su prve diferencije približno konstantne radi se o linearnom trendu.
x
xt 21 3.5 xt yt nxy 5544 6 3.5 261.83 2.604
n 6 b
xt nx 2 91 6 3.5 2
2
y
t 1571 261.83
y
a Y bx 261.83 2.604 3.5 252.716
n 6
Interpretacija:
a (konstantni član) = 252.716
Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi
252.716 milijuna.
SP ST SR 123.72