You are on page 1of 70

TEORIJA IZ STATISTIKE

Pascal d.o.o.
STATISTIČKI POJMOVI

STATISTIKA – znanstveno istraživačka disciplina koja se bavi prikupljanjem, uređivanjem, analizom


i tumačenjem podataka.
 Deskriptivna – u okviru deskriptivne statistike zaključci se donose na temelju svih podataka.
Ona obuhvaća postupke uređivanja, grupiranja, tabeliranja, grafičkog prikazivanja statističkih
podataka te izračunavanja različitih statističko - analitičkih veličina.

 Inferencijalna – u sklopu inferencijalne statistike zaključci se dodose na temelju dijela podataka


(uzoraka). Na temelju teorije vjerojatnosti, zaključci se mogu poopćiti na cijeli skup. Oni
doneseni na temelju uzorka podataka nemaju apsolutnu sigurnost te se mogu poopćiti na cijeli
skup samo uz određenu razinu pouzdanosti i signifikantnosti.

Poslovna statistika
• Definira se kao znanost o metodama koje se koriste za pretvaranje podataka u smislene
informacije u poslovnom okruženju sa svrhom stjecanja znanja za uspješnije odlučivanje i
prognoziranje u uvjetima neizvjesnosti i rizika
• Skup metoda za prikupljanje i uređivanje poslovnih podataka, njihovu obradu i analiziranje te
prikazivanje i tumačenje rezultata statističke analize s ciljem dobivanja što kvalitetnijih
informacija koje su potrebne pri poslovnom odlučivanju i prognoziranju
• Metode primjenjive u različitim područjima poslovanja kao što su:
o Razvoj i proizvodnja
o Financije i upravljanje financijskim rizicima
o Računovodstvo i revizija
o Marketing
o Prodaja
• Za potrebe različitih funkcija vezanih za upravljanje, kao što su:
o Kontroling
o Upravljanje kvalitetom
o Poslovna logistika i operativni menadžment
Upravljanje ljudskim resursima

STATISTIČKI SKUP – skup jedinica (elemenata) nad kojima se ispituje jedno ili više obilježja,
odnosno varijabli. To su jedinice čija su kvalitativna ili kvantitativna svojstva predmet promatranja
statističkom metodom. Možemo promatrati osobe, poduzeća, zemlje, proizvode itd.

OPSEG SKUPA – broj jedinica statističkog skupa (N). S obzirom na opseg statistički skupovi se
dijele na:
 Konačni statistički skup – studenti upisani na efzg
 Beskonačni statistički skup– bacanje novčića ili proizvodnja
OSNOVNI SKUP (POPULACIJA) – skup podataka jednog obilježja (varijable) vezanih za sve
jedinice statističkog skupa. Može biti konačan i beskonačan kao i statistički skup te se označava sa N.

UZORAK (n) – podskup, dio osnovnog skupa, dio podataka izdvojen iz cjelovite evidencije. Uzorci
su najčešće konačni. Veličina uzorka obično je značajno manja od populacije te omogućava veću
brzinu i manje troškove prikupljanja podataka.

Statistički skupovi i uzorci definiraju se :


 pojmovno (s obzirom na pojam – npr gotovi proizvodi, poluproizvodi, studenti..)
 prostorno (prostor kojem jedinice stat. skupa pripadaju: npr, „Zagrebačka županija“
 vremenski (vremenski interval ili vremenska točka)

POGREŠKE U ISTRAŽIVANJU UZORKOM:


1. Pogreške uzorka – prisutne kod istraživanja pomoću slučajnih uzoraka jer se istraživanje vrši
samo na jednom podskupu.
2. Pogreške izvan uzorka- prisutne u svim anketnim istraživanjima temeljem popisa ili uzorka

STATISTIČKO OBILJEŽJE (STATISTIČKA VARIJABLA) – svojstva jedinica po kojima se


članovi statističkog skupa razlikuju ili jedni drugima nalikuju

VRSTE STATISTIČKOG OBILJEŽJA (VARIJABLE):

1) NUMERIČKA (KVANTITATIVNA) – izražava se brojevima


 Diskretna (diskontinuirana) – poprima isključivo cjelobrojne vrijednosti (npr. broj učenika u
razredu, broj djece u obitelji)
 Kontinuirana – može poprimiti bilo koju vrijednost iz nekog intervala realnih brojeva (npr.
visina, težina, cijena...)
2) KVALITATIVNA (nenumeričke, kategorijalne) – dobivene su mjerenjem na nominalnoj i
redoslijednoj mjernoj skali. Mogu biti atributivne, geografske ili varijable ranga.
 Nominalno (atributivno i geografsko) – izražava se opisno ili riječima. npr. atributivno – spol,
zanimanje ; geografsko – mjesto rođenja
 Redoslijedno (obilježje ranga) – npr. ocijena, stupanj kvalitete
Varijable

Kvalitativne Kvantitativne
(kategorijske) (numeričke)

Nominalne Redoslijedne Diskretne

Atributivne
Kontinuirane

Zemljopisne

MJERENJE – postupak pridruživanja numeričkih i slovnih oznaka jedinicama statističkog skupa ili
uzorka prema određenoj mjernoj skali (ljestvici).

MJERNE SKALE:
Za kvalitativne varijable (one koje se izražavaju riječima) koriste se nominalna i redoslijedna skala.

1) NOMINALNA
 sastoji se od liste naziva ili pojmova
 podaci kojima se opisuje svojstvo, odnosno atribut
 oblici nominalne varijable nazivaju se modalitetima ili kategorijama
 može biti atributivna skala (opisno izražen modalitet) ili geografska
 nad njome nisu dopuštene aritmetičke operacije, zbog čega ona ima najslabija metrička
svojstva
 nomenklatura je dogovorno utrvđen popis oblika nominalne varijable

2) REDOSLIJEDNA (ORDINALNA ILI SKALA RANGA)


 pridružuje brojeve ili slovne oznake elementima i to prema intenzitetu mjernog svojstva
 pri redanju oblika bitan je poredak po jačini intenziteta
 nad njima se ne mogu provoditi nikakve računske operacije, ali se te vrijednosti mogu
uspoređivati
 primjer: ocjena znanja studenta na ispitu (nedovoljan, dovoljan, dobar, vrlo dobar, odličan),
stupanj stručne spreme i sl.

Kvantitativne varijable (one koje poprimaju brojčane vrijednosti) mjere se na intervalnoj i


omjernoj skali.

3) INTERVALNA
 ovom skalom jedinicama statističkih skupova pridružuju se brojevi sukladno intenzitetu
mjernog svojstva
 za ovu skalu karakteristično je da ima definiranu mjernu jedinicu i dogovorno utvrđenu nulu
(npr. temperaturna ljestvica)
 ima bolja metrička svojstva od prethodne dvije a dopušteno je i korištenje aritmetičkih
operacija zbrajanja i oduzimanja

4) OMJERNA
 ovom skalom jedinicama statističkih skupova pridružuju se brojevi sukladno intenzitetu
mjernog svojstva.
 karakteristično je da ima definiranu mjernu jedinicu i nulu koja označava nepostojanje
svojstva (npr. plaća, broj zastoja rada stroja – 0 zastoja znači da nema zastoja, nepostojanje
svojstva)

IZVORI PODATAKA:
 Primarni – prikupljaju se u skladu s ciljem istraživanja. Primarni podaci su originalna empirijska
kvantitativna istraživanja;
1) Anketna istraživanja (nacrt ankete)
2) Istraživanja pomoću pokusa – eksperiment (nacrt pokusa)
3) Kontrolirana neposredna opažanja (nacrt promatranja)

 Sekundarni – rezultat djelatnosti drugih istraživača, prikupljaju ih razne institucije (državni


zavod za statistiku – DZS, banke, agencije za istraživanje tržišta, osiguravajući zavodi...)

VRSTE PODATAKA S OBZIROM NA DIZAJN ISTRAŽIVANJA

 Anketni podaci
Dobiveni su primjenom dizajna ankete (telefonskim intervjuom, osobnim intervjuom,
poštanskom metodom). Anketa se definira kao vrsta statističkog istraživanja koje proučava
agregate jedinica pomoću anketnog upitnika u popisu ili na statistočkom uzorku jedinica.
Razlikujemo ankete pomoću anketara i ankete bez anketara.
Vrste anketnih pitanja:
 S obzirom na zatvorenost
Zatvorena pitanja s ponuđenim odgovorima
Otvorena
 S obzirom na ulogu
Demografska pitanja o karakteristikama ispitanika
Filterska pitanja za izdvajanje kvalificiranog sugovornika
 Eksperimentalni podaci
Rezultat su primjene dizajna eksperimenta.
Primjena dizajna eksperime: u fazi razvoja proizvoda, u fazi razrade, u fazi promidžbe itd.
 Opaženi podaci
Dobiveni su izravnim kontroliranim opažanjima
Metoda tajnog kupca

UREĐIVANJE PODATAKA – uređivanjem podataka nastaju statistički nizovi

Nizovi nastali grupiranjem podataka prema modalitetima kvalitativne varijable ili vrijednostima
kvantitativne varijable su strukturni nizovi koji mogu biti, ovisno o vrsti obilježja: nominalni,
redoslijedni ili numerički. Nizovi nastali kronološkim uređenjem vrijednosti - vremenski nizovi.

STATISTIČKI NIZOVI
1. NOMINALNI NIZ – nastaje uređivanjem podataka o nominalnom obilježju
2. REDOSLIJEDNI NIZ – nastaje uređivanjem podataka o rang varijabli
3. NUMERIČKI NIZ – nastaje uređenjem podataka koji predstavljaju vrijednosti numeričke varijable
4. VREMENSKI NIZ – nastaje kronološkim nizanjem podataka o nekoj pojavi
(proizvodnja,uvoz,izvoz)

STATISTIČKE TABELE:

 JEDNOSTAVNA – sadrži jedan statistički niz

Poljoprivredna površina po kategorijama u


tisućama hektara u RH, 2003.g
KATEGORIJE POVRŠINA
oranice i vrtovi 1460
voćnjaci 68
vinogradi 57
livade 396
pašnjaci 1156
izvor: SLJRH, 2004.g., str.250
 SKUPNA – sadrži barem dva niza koji su grupirani prema modalitetima istog obilježja

Izvoz i uvoz prema pretežnoj ekonomskoj namjeni u


milijunima am. $ u RH, 2003.g.
EKONOMSKA IZVOZ UVOZ
NAMJENA
proizvodi za 2959 6583
reprodukciju
proizvodi za investicije 1341 3316
proizvodi za široku 1886 4311
potrošnju
izvor: SLJRH, 2004.g., str.386
 KOMBINIRANA (TABELA KONTIGENCE, TABELA S DVA ULAZA) – podaci su grupirani
prema modalitetima dvaju ili više varijabli

Stanovništvo prema spolu i starosti u tisućama u RH, popis iz


2001.g.
STAROST SPOL
M Ž
0 – 14 388 370
15 – 64 1482 1501
65 - 266 430
izvor: SLJRH, 2004.g., str.95

RELATIVNI BROJEVI – omogućavaju elementarnu analizu podataka u sklopu deskriptivne


statistike
 proporcije (dio/cjelina), postoci (dio/cjelina*100) odnosno relativne frekvencije
 indeksi
 relativni brojevi koordinacije – omjerni brojevi koji nastaju diobom dvaju koordinirajućih
veličina (npr.gustoća stanovništva, dohodak po stanovniku, BDP per capita)

NIZOVI KVALITATIVNIH PODATAKA


Kvalitativni podaci su oblici nominalne ili redoslijedne varijable.
 ako ih je mali broj navode se nekim redom odabranim po volji ili prema intenzitetu mjernog
obilježja kod redoslijednih podataka (npr.ocjene od najmanje prema najvećoj)
 ako se radi o većem broju podataka pristupa se grupiranju. Grupiranjem se skup podataka
raščlanjuje na podskupove koji se međusobno ne preklapaju.

FREKVENCIJA – broj podataka istog ili sličnog modaliteta varijable

NOMINALNI ILI REDOSLIJEDNI NIZ čine parovi različitog oblika kvalitativne varijable o i i
pripadajućih frekvencija fi  (oi, fi), i=1,2,....,k
Učenici i studenti koji su završili osnovnu
ili srednju školu odnosno diplomirai na
visokim učilištima u RH, 2003.g.
STUPANJ BROJ
OBRAZOVANJA OSOBA
oi fi
osnovno 51211
srednje 47092
stručni studij 6489
sveuč.studij 9243
ukupno 114035
izvor: SLJRH, 2004.g., str.487

OPSEG SKUPA – zbroj frekvencija


fi
RELATIVNA FREKVENCIJA (proporcija)– omjer frekvencije i opsega skupa  p i  k

i 1
fi

POSTOTNA RELATIVNA FREKVENCIJA – relativna frekvencija pomonožena sa 100 


fi
Pi  k
 100
f
i 1
i

NUMERIČKI NIZOVI – nastaju uređenjem kvantitativnih podataka. Način njihova uređivanja ovisi
o tome da li su podaci diskretni ili kontinuirani.

GRAFIČKA ANALIZA PODATAKA

NAČINI UREĐIVANJA:
1. mali broj podataka - uređuje se nizanjem po veličini. Pojedinačni numerički podaci grafički se
prikazuju dijagramom s točkama i dijagramom stablo-list (Stem-and-Leaf Diagram → S-L
dijagram )

Primjer 1.
Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:
Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29
Podaci uređeni po veličini:
Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34

Dijagram s točkama:
Dijagram stablo-list:

0 8 9
1 0 4 5 7 8 8
2 0 4 5 7 9
3 0 4

O|8 predstavlja 8

2. diskretno obilježje – ako numerička varijabla poprima mali broj modaliteta, a broj podataka je
velik – pristupa se grupiranju. Numerički niz odnosno distribucija frekvencija se sastoji od parova
(xi, fi), i=1,2,....,k. Mogu se koristiti i relativne frekvencije:
xi – modaliteti numeričkog obilježja
fi – apsolutne frekvencije
Pi, pi – relativne frekvencije → parovi (xi, Pi) ili (xi, pi)

Primjer 2.
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA (fi)
(xi)
1 1
2 5
3 8
4 26
5 19
6 12
ukupno 71

3. kontinuirano obilježje/ diskretno obilježje s većim brojem oblika – ako diskretno numeričko
obilježje ima veliki broj modaliteta formira se distribucija frekvencija s razredima. Svaki razred
ima donju i gornju granicu.
frekvencija razreda – broj podataka omeđen donjom i gornjom granicom razreda

Numerički niz odnosno distribucija frekvencija sastoji se od parova razreda i pripadajućih


frekvencija  (Li1 ≤ xi ≤ Li2, fi), i= 1,2,....,k
Li1 – donja granica i-tog razreda; Li2 – gornja granica i-tog razreda; fi – frekvencija i-tog razreda
Primjer 3.
Radnici poduzeća A prema starosti

STAROST BROJ RADNIKA


18 – 26 5
26 – 34 6
34 – 42 10
42 – 50 5
50 – 58 4
ukupno 30

Formiranju distribucije frekvencija prethodi određivanje broja razreda i njihove veličine. Za


određivanje broja razreda k i veličine razreda i koristi se Sturgesovo pravilo: k ≈ 1 + 3,3 logN
k-broj razreda; N-zbroj frekvencija

Ako su razredi jednakih veličina, veličina im se aproksimira tako da se raspon varijacije podijeli sa
brojem razreda:
xmax  xmin
ii 
k
Razredi jednakih veličina primjenjuju se kada su podaci simetrično raspoređeni.
Razredi različitih veličina primjenjuju se kada su podaci asimetrično raspoređeni.

Pri brojčanoj analizi numeričkog niza potrebno je utvrditi da li su granice prave, a nakon toga odrediti
veličinu razreda i rezredne sredine.

GRANICE RAZREDA:
 PRAVE – donja granica tekućeg razreda je jednaka gornjoj granici prethodnog razreda
 NOMINALNE – pretvaraju se u prave tako da se svaka donja granica umanji za polovicu
jedinice, a svaka gornja se uveća za polovicu jedinice. To vrijedi za sve slučajeve osim za
navršene godine života. Kod navršenih godina života svaka se gornja granica poveća za jedinicu.

VELIČINA RAZREDA (ii )– određuje se kao razlika gornje i donje prave granice razreda
REZREDNA SREDINA i-tog razreda (xi) – određuje se kao poluzbroj gornje i donje prave granice
razreda

Kada su razredi različitih veličina potrebno je korigirati frekvencije:

 ova se formula koristi kada su svi razredi različitih veličina, a može se koristiti i generalno
fi
f ci 
ii
fi
f ci 
 bazna veličina razreda (najčešće se pojavljuje) ii
ib

GRAFIČKI PRIKAZI NUMERIČKOG NIZA (DISTRIBUCIJE FREKVENCIJA)


 linijski (poligon frekvencija)
 površinski (histogram)

Na poligonu frekvencija (ili histogramu) se na osi apscisa nanosi mjerilo za varijablu (prave ili
precizne granice), a na osi ordinata aritmetičko mjerilo za korigirane frekvencije. Točka na poligonu
frekvencija se crta u sredini razreda (na mjestu razredne sredine).

Paretov dijagram - kombinacija površinskog i linijskog dijagrama

IZVEDENI NIZOVI:

 Kumulativni niz (iz apsolutnih frekvencija): 𝑆 (𝑋 ≤ 𝑥𝑖 ) = 𝑆(𝑥𝑖 ) = ∑ 𝑓𝑗


 Empirijska funkcija distribucije (iz relativnih frekvencija): 𝐹(𝑋 ≤ 𝑥𝑖 ) = 𝐹(𝑥𝑖 ) = ∑ 𝑝𝑗

Kumulativni niz se uvijek sastavlja iz ORIGINALNIH (bilo apsolutnih ili relativnih frekvencija). Na
grafu kumulante, točke se crtaju na gornjoj granici razreda kojem pripadaju (na kraju razreda). Tako
se i interpretiraju (crtamo od prve donje granice, na kumulanti grafički prikazujemo medijan, kvartile)

Stanovništvo prema starosti u RH u tisućama prema popisu iz 2001.g.


STAROST BROJ PRAVE KUMULATIVN
OSOBA GRANICE I NIZ
0-14 758 -0.5 – 14.5 758
15-64 2983 14.5 – 64.5 3741
65-(99) 696 64.5 – (99.5) 4437
SREDNJE VRIJEDNOSTI STATISTIČKOG NIZA (mjere centralne tendencije) –
konstante kojima se predstavljaju nizovi varijabilnih podataka.

 POTPUNE – računaju se na temelju svih podataka. U njih se ubrajaju aritmetička, geometrijska


i harmonijska sredina.
 POLOŽAJNE – u pravilu su jednake jednom modalitetu statističke varijable. Određene su
položajem podataka u nizu. U njih se ubrajaju mod i medijan.

Srednje vrijednosti

Potpune Položajne

Aritmetička
Mod
sredina

Geometrijska
sredina Medijan

Harmonijska
sredina

POTPUNE SREDNJE VRIJEDNOSTI

*ARITMETIČKA SREDINA ( 𝒙̅ ) – dobije se tako da se zbroje vrijednosti numeričke varijable i


podijele opsegom skupa N.
TOTAL – zbroj svih vrijednosti numeričke varijable; aritmetička sredina je jednaki dio totala po
jedinici, ona je omjer totala i opsega skupa
Svojstva aritmetičke sredine:
1. Zbroj odstupanja vrijednosti numeričke varijable od aritmetičke sredine jednak je nuli
2. Zbroj kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine
minimalan je
3. Aritmetička sredina nalazi se između najmanje i najveće vrijednosti niza za koji je izračunata
4. Ako su sve vrijednosti varijable jednake konstanti c, aritmetička sredina je jednaka konstanti c
𝑥1 = 𝑥2 = ⋯ = 𝑥𝑖 = ⋯ = 𝑥𝑁 = 𝑐 → 𝑥̅ = 𝑐
5. Aritmetička sredina zamjenjuje više vrijednosti ali ne mora biti jednaka niti jednoj od njih
6. Izražena je u mjernim jedinicama numeričke varijable za koju se izračunava

JEDNOSTAVNA ARITMETIČKA SREDINA – računa se kod pojedinačnih kvantitavnih podataka


(za negrupirane podatke):
N

x
i 1
i
x
N

Aritmetička sredina izražena je u istim mjernim jedinicama kao i obilježje.

VAGANA (PONDERIRANA) ARITMETIČKA SREDINA – primjenjuje se za grupirane podatke,


tj. za distribuciju frekvencija. Ponderi vrijednosti varijable su frekvencije (apsolutne ili relativine) ili
njima proporcionalne veličine.
k

 fixi
i 1
 x
 fi
1. ponderi: APSOLUTNE FREKVENCIJE (fi)

 pixi
2. ponderi: RELATIVNE FREKVENCIJE U VIDU POSTOTAKA (P i)  x 
i 1
100

3. ponderi: RELATIVNE FREKVENCIJE U VIDU PROPORCIJA (p i)  x   pixi


i 1

PROSJEK ARITMETIČKIH SREDINA – Statistički stup se sastoji od k podskupova. Svaki od njih


ima 𝑁𝑖 članova i za svaki je izračunana aritmetička sredina 𝑥̅ 𝑖 . Prosjek aritmetičkih sredina se računa
kao vagana sredina u kojoj su za pondere uzete veličine podskupova ili njima proporcionalne veličine.

 Nixi
i 1
X k

 Ni
i 1
Primjer .

Odabrane kompanije zaposlenih i prosječne mjesečne plaće u kn


KOMPANIJA BROJ PROSJEČNA UKUPNA
ZAPOSLENIH PLAĆA PLAĆA
Ni x Ni xi
ALFA 550 3500 1925000
GAMA 320 2300 736000
TRADE 250 4200 1050000
UKUPNO 1120 - 3711000

Prosječna plaća za sve kompanije:

3711000
X   3313,39
1120

Ako se svaka individualna vrijednost numeričkog obilježja zamijeni aritmetičkom sredinom dobiva se
polazna veličina tj. total ili zbroj vrijednosti numeričkog obilježja.

ARITMETIČKA SREDINA RELATIVNIH BROJEVA KOORDINACIJE – određuje se kao


vagana sredina u kojoj su ponderi baze tih brojeva
k

 BiRi
i 1
R k

 Bi
i 1

RELATIVNI BROJEVI KOORDINACIJE – omjeri dviju povezanih (koordiniranih) veličina.

Vi
Ri 
Bi

Pri čemu je: 𝑅𝑖 → i-ti relativni broj koordinacije, 𝑣𝑖 → i-ta veličina koja se uspoređuje, 𝐵𝑖 → i-ta
veličina s kojom se uspoređuje (baza).

Grafički se prikazuju na 2 načina:

1. jednostavnim stupcima
2. pravokutnicima čije su osnovice proporcionalne bazama tih brojeva, a visine samim relativnim
brojevima koordinacije
Primjer
Najveće države svijeta, površina u km2 i broj stanovnika na km2
DRŽAVA POVRŠINA STANOVNIŠTVO/ UKUPAN
U km2 km2 BROJ
STANOVNIKA
Bi Ri Vi= Ri*Bi
RUSIJA 17075400 8 136603200
KANADA 9970610 3 29911830
SAD 9629091 30 288872730
KINA 9596961 135 1295589735
BRAZIL 8514215 21 178798515
UKUPNO 54786277 - 1929776010

Prosječan broj stanovnika na km2 za sve navedene države:

1929776010
R  35.22  35st. / km2
54786277

SREDINA POSTOTAKA - postotak Pi je omjer dijela Di i cjeline Ci, pomnožen sa 100,

𝑫𝒊
𝑷𝒊 = ∗ 𝟏𝟎𝟎% - ako se ne raspolaže vrijednostima Di, one se iz izraza izračunavaju kao
𝑪𝒊

𝑫𝒊 ∗ 𝟏𝟎𝟎 = 𝑷𝒊 ∗ 𝑪𝒊
tj.
∑𝒌𝒊=𝟏 𝑷𝒊 𝑪𝒊
̅=
𝑷
∑𝒌𝒊=𝟏 𝑪𝒊

Primjer
Grad Postotak Broj stanovnika
visokoobrazovanih starijih od 15 godina
Jastrebarsko 11,42 13 524
Velika Gorica 15,58 52 981
Vrbovec 10,25 12 346
Zaprešić 19,54 21 163
Samobor 17,30 31 765
Ukupno - 131 779

𝐤
̅ = ∑𝐢=𝟏
𝐏 𝐤
𝐏𝐢 𝐂𝐢
=
11,42 ∙13 524+15,58 ∙52 981…
=
2 069 494,08
= 15,70428
∑ 𝐢=𝟏 𝐂𝐢 13 524+52 981… 131 779
GEOMETRIJSKA SREDINA – potpuna srednja vrijednost
Jednostavna geometrijska sredina - jednaka je N-tom korijenu produkta N pojedinačnih vrijednosti

G N x1 x 2 .... x i .... x N

Za grupirane podatke, ponderirana geometrijska sredina dana je izrazom:

G N f f f fk
x1 1 x 2 2 .... x i i .... x k

Primjer Zadani su koeficijenti dinamike

GODINA 2000 2001 2002 2003 2004


Vt - 1,06 1,05 1,03 1,02

Prosječna stopa računata pomoću geometrijske sredine:


S  (G  1)  100
G  n 1 V2V3 .....Vn
Promatrana pojava prosječno se godišnje povećavala
G  4 1.06  1.05  1.03  1.02  1.03988
za 3.99%.
S  (1.03988  1)  100  3.99%

Geometrijska i harmonijska sredina relativno se rijetko primjenjuju. Geometrijska sredina se


primjenjuje u analizi vremenskih nizova. Pomoću nje se računa prosječna stopa promjene pojave.
Geometrijska sredina poprima nižu vrijednost od aritmetičke sredine.

HARMONIJSKA SREDINA – recipročna vrijednost aritmetičke sredine recipročnih vrijednosti


varijable x

N
 negrupirani pojedinačni podaci  H  N
1
x
i 1 i

f
i 1
i

 grupirani podaci  H  k
fi
x
i 1 i

Harmonijska sredina manja je od aritmetičke i geometrijske sredine


POLOŽAJNE SREDNJE VRIJEDNOSTI

MOD (Mo) – najčešći modalitet varijable, odnosno to je modalitet varijable s najvećom frekvencijom
1. pojedinačni podaci – kod pojedinačnih podataka MOD je vrijednost koja se najčešće pojavljuje

2. distribucija frekvencija sa razredima – da bi se izračunao mod, potrebno je odrediti modalni


razred.

Modalni razred – razred s najvećom korigiranom frekvencijom

(b  a )
Mod se aproksimira pomoću izraza: M o  L1  i
(b  a )  (b  c )
b – najveća korigirana frekvencija
a – frekvencija ispred nje
c – frekvencija iza nje
L1 – donja prava granica modalnoga razreda
i – njegova veličina

Multimodalni niz – ako se u nizu više podataka pojavljuje jednako mnogo puta niz ima više modalnih
vrijednosti
Npr: 1 2 2 3 7 9 9 10 Mo = 2 i 9

* KVANTILI – numerički niz uređen po veličini dijele na jednakobrojne dijelove. U kvantile se


ubrajaju: medijan, kvartili, decili i percentili.
 KVARTILI – niz uređen po veličini dijele na 4 jednakobrojna dijela
 DECILI – niz uređen po veličini dijele na 10 jednakobrojnih dijelova
 PERCENTILI – niz uređen po veličini dijele na 100 jednakobrojnih dijelova
Broj kvartila je za jedan manji od njihova reda, tj. 3 su kvartila, 9 decila i 99 percentila

*MEDIJAN (Me) – srednja vrijednost koja numerički niz uređen po veličini dijeli na dva
jednakobrojna dijela i to tako da prvih pedest posto jedinica ima vrijednost obilježja jednaku ili manju
od medijana, a preostalih pedeset posto ima vrijednost veću od medijana.

1. pojedinačni podaci (neparan broj) – MEDIJAN je jednak vrijednosti varijable središnjeg člana u
nizu
N
 INT M e  xr N
r  INT    1
2  2
Primjer 6.

Podaci moraju biti uređeni po veličini!


1 3 5 8 10 12 14  7/2 = 3.5 ; r =4 ; Me = x4 = 8

2. pojedinačni podaci (paran broj) – MEDIJAN je jednak poluzbroju vrijednosti varijable središnjih
dvaju članova niza uređenog po veličini  N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2
Primjer 7.
11 24 29 37 40 53 65 72  N=8 ; r=4 ; Me = (37+40)/2 = 38.5

3. distribucija frekvencija s razredima – MEDIJAN se aproksimira pomoću izraza:

N
  fi
M e  L1  2 i
f med

L1 – donja prava granica medijalnog razreda


N – zbroj apsolutnih ili relativnih frekvencija
∑fi – zbroj frekvencija do medijalnog razreda
fmed – frekvencija medijalnog razreda
i – veličina medijalnog razreda
Medijalni razred – onaj čija kumulativna frekvencija prvi put uključuje N/2.

*MJERE DISPERZIJE – njima se mjeri stupanj homogenosti, tj. varijabilnosti podataka.


Reprezentativnost srednje vrijednosti ovisi o stupnju varijabilnosti podataka.Varijabilnost numeričkog
obilježja predočava se i pomoću grafičkih prikaza: dijagram s točkama i dijagram s pravokutnikom.
Uobičajeno korištene mjere disperzije su: raspon varijacije, interkvartilni raspon, koeficijent kvartilne
devijacije, varijanca, standardna devijacija, koeficijent varijacije, srednje apsolutno odstupanje
(MAD).

Postoje apsolutne (izražene u istim mjernim jedinicama kao i varijabla) i relativne (izražene kao
relativni broj) mjere disperzije.

Potpune mjere disperzije (u čijem izračunu sudjeluju sve vrijednosti numeričke varijable) su:
varijanca, standardna devijacija i koeficijent varijacije, dok su ostale mjere nepotpune mjere
disperzije.

Mjere disperzije

Potpune Nepotpune

Raspon
Varijanca
varijacije

Standardna Interkvartili
devijacija raspon

Koeficijent
Koeficijent
kvartilne
varijacije
devijacije
1. RASPON VARIJACIJE (R)
 pojedinačni podaci – određuje se kao razlika između najveće i najmanje vrijednosti

R x  xmax  xmin
 distribucija frekvencija formirana na temelju pojedinačnih podataka – određuje se kao razlika
između posljednje i prve vrijednosti
R x  x k  x1
 distribucija frekvencija s razredima – aproksimira se kao razlika između gornje granice
posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog
razreda.
Raspon varijacije je apsolutna (izražena je u istim mjernim jedinicama kao i obilježje) i
nepotpuna (dobiva se iz samo dvije vrijednosti) mjera disperzije.

2. INTERKVARTIL

KVARTILI:
 PRVI ILI DONJI KVARTIL (Q1) – vrijednost numeričke varijable koja članove niza dijeli u
dvije skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili
manja od donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima većim od
donjeg kvartila.
 DRUGI ILI MEDIJAN (Q2)
 TREĆI ILI GORNJI KVARTIL (Q3) - vrijednost numeričke varijable koja članove niza dijeli
u dvije skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili
manja od gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima većim od
gornjeg kvartila.

Interkvartil se određuje kao razlika kvartila  I Q  Q3  Q1 50%

Interpretira se kao raspon varijacije središnjih 50% podataka:

Interkvartil je također apsolutna i nepotpuna mjera disperzije.

Interdecilni i interpercentilni raspon


Interdecilni raspon je razlika dvaju decila, npr. 𝐼𝐷8 −𝐷2 = 𝐷8 − 𝐷2 mjeri raspon varijacije
središnjih 60% podataka.
Interprercentilni raspon je razlika percentila, npr. 𝐼𝑃90 −𝑃10 = 𝑃90 − 𝑃10 je raspon varijacije
središnjih 80% podataka.
3. KOEFICIJENT KVARTILNE DEVIJACIJE – njime se uspoređuje stupanj disperzije
raznorodnih nizova. Određuje se kao omjer interkvartila i zbroja kvartila:

Q3  Q1
VQ  0 ≤ VQ < 1
Q3  Q1

Ovo je relativna i nepotpuna mjera disperzije. Ako je 𝑉𝑄 ≈ 0, raspon varijacije središnjih 50%
podataka je malen, a ako je 𝑉𝑄 ≈ 1, raspon podataka (a time i disperzija) je velik.

GRAFIČKI PRIKAZ VARIJABILNOSTI PODATAKA – dijagram s pravokutnikom 


box-plot (B-P) dijagram

Za njegovu konstrukciju koristi se 5 pokazatelja numeričkog niza – 5's (five summary


numbers)

 najmanja vrijednost (𝑥𝑚𝑖𝑛 )


 najveća vrijednost (𝑥𝑚𝑎𝑥 )
 medijan (𝑀𝑒 )
 donji kvartil (𝑄1 )
 gornji kvartil (𝑄3 )

Na ovom grafičkom prikazu oučava se raspon varijacije i interkvartilni raspon te se prosuđuje o


mogućoj asimetriji kao i o pojavi netipičnih vrijednosti ( out lier)

4. SREDNJE APSOLUTNO ODSTUPANJE (MAD) – za mjerenje disperzije može se koristiti


i prosječno apsolutno odstupanje vrijednosti varijable od njezine aritmetičke sredine ili medijana:
N N


i 1
xi  x x
i 1
i  Me
 pojedinačni podaci: MAD  MAD Me 
N N
 za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim
frekvencijama

5. VARIJANCA (𝝈𝟐 ) – prosječno kvadratno odstupanje vrijednosti numeričke varijable od


aritmetičke sredine. Varijanca je mjera disperzije u drugom stupnju koju je potrebno vratiti u
prvi stupanj. Ona mjeri varijabilnost podataka i reprezentativnost aritmetičke sredine.
N

x
2
i x
negrupirani podaci  
2 i 1

N
k

 f (x i i  x)2
grupirani podaci  
2 i 1
 k

f i 1
i

6. STANDARDNA DEVIJACIJA (𝝈) – pozitivni drugi korijen iz varijance. Ona izražava


prosječno odstupanje vrijednosti varijable od aritmetičke sredine izraženo u mjernim jedinicama
varijable (mjernog svojstva). Potpuna i apsolutna mjera disperzije.
N

(x i  x)2
negrupirani podaci  
i 1

N

 f (x i i  x)2
grupirani podaci  
i 1
 k

f i 1
i

7. KOEFICIJENT VARIJACIJE – realtivna mjera disperzije. Određuje se kao omjer


standardne devijacije i aritmetičke sredine pomnožen sa sto. Što je bliže vrijednosti nula, to je
disperzija podataka manja, a time i reprezentativnost prosjeka veća. Najčeće je u intervalu
[0,100] ali može poprimiti i vrijednost veću od 100%.


V   100
x

Standardna devijacija se interpretira kao prosječno odstupanje od prosjeka izraženo apsolutno,


a koeficijent varijacije kao to isto odstupanje izraženo relativno i to u vidu postotka.

STANDARDIZIRANA VARIJABLA – linearna transformacija numeričke varijable x. Ona pokazuje


relativni položaja podataka u jednom nizu (za koliko standardnih devijacija vrijednost numeričke
varijable odstupa od aritmetičke sredine). Određuje se tako da se odstupanja numeričke varijable od
njezine aritmetičke sredine podijele sa standardnom devijacijom, tj. da se izraze u jedinicama
standardnih devijacija. Aritmetička sredina standardizirane varijable jednaka je nuli, a standardna
devijacija jednaka je jedan.

x x
z z0 ; z 1

EMPIRIJSKO PRAVILO - vrijednosti koje od aritmetičke sredine odstupaju za više od dvije
standardne devijacije smatraju se netipičnim vrijednostima.
Ako se želi utvrditi proporcija podataka za distribuciju nepoznatog oblika, primjenjuje se Čebiševljevo
pravilo ili Čebiševljeva nejednakost.

PRAVILO ČEBIŠEVA – govori da je najmanja proporcija podataka distribucije nepoznatog oblika u


𝟏
intervalu x  k , k  1 , jednaka 1  12 . Zapisuje se kao: 𝑷(𝒙
̅ − 𝒌𝝈 < 𝑥 < (𝒙
̅ + 𝒌𝝈) ≥ (𝟏 − 𝟐 )
k 𝒌
Ako nije poznat oblik distribucije ili ako je poznato da distribucija nije simetrična ili nije normalnog
oblika, tada se koristi Čebiševljevo pravilo te se vrijednost koja odstupa od prosjeka za više od tri
standardne devijacije može smatrati netipičnom.

Najmanje proporcije podataka u određenim intervalima:


 u intervalu x  2 nalazi se najmanje 0.75 tj. 75% svih podataka
 u intervalu x  3 nalazi se najmanje 0.889 tj. 88.89% svih podataka
 u intervalu 𝑥̅ ± 4𝜎 nalazi se najmanje 93,75% podataka

Ako su podaci raspoređeni po normalnoj distribuciji onda:


 pojas x  1 obuhvaća oko 68% podataka
 pojas x  2 obuhvaća oko 95% podataka
 pojas x  3 obuhvaća oko 99.73% podataka
Primjer
Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata.
Dobiveni su ovi rezultati: 20 22 25 27 28 28 30 30 33 35
Je li vrijeme rješavanja od 35 minuta netipično?

Netipičan je podatak, prema empirijskom pravilu, koji se nalazi izvan pojasa x  2 tj. ako od
prosjeka odstupa za više od 2σ.
Ako se podaci raspoređuju po Čebiševljevom pravilu netipičan je podatak koji se nalazi izvan
pojasa x  3 tj. ako od prosjeka odstupa za više od 3σ.

x  27.8 min Budući da se vrijeme od 35 minuta nalazi u pojasu x  2 , ne može se smatrati


  4.38 min netipičnim.

xx 35  27.8
z   1.64 
 4.38

MJERE ASIMETRIJE – njima se mjeri način rasporeda podataka oko neke srednje vrijednosti,
uglavnom je to aritmetička sredina.

Najvažnije su:
1. Koeficijent asimetrije α3 - potpuna mjera
2. Pearsonova mjera nepotpune
3. Bowleyeva mjera mjere

1. KOEFICIJENT ASIMETRIJE α3
 MOMENTI OKO SREDINE – aritmetičke sredine odstupanja vrijednosti numeričke varijable od
njezine aritmetičke sredine podignuti na neku potenciju
N

(x i  x)
pojedinačni podaci   r 
i 1

N
k

 f (x i i  x)r
grupirani podaci   r 
i 1
 k

f i 1
i

- s obzirom na veličinu r govori se o nultom, prvom, drugom, trećem ili četvrtom momentu oko
sredine

- koeficijent asimetrije α3 je omjeru trećeg momenta oko sredine i standardne devijacije podignute na
𝝁
treću potenciju  𝜶𝟑 = 𝝈𝟑𝟑 , obično se kreće u intervalu [-2,2], a u određenim slučajevima može biti
izvan toga intervala:
 α3 = 0  simetrična distribucija
 α3 < 0  negativno asimetrična distribucija
 α3 > 0  pozitivno asimetrična distribucija

2. PEARSONOVA MJERA (𝑺𝒌 ) – temelji se na odnosu moda, odnosno medijana i aritmetičke


sredine.
(Pearsonova i Bowleyjeva mjera se temelje na odnosu srednjih vrijednosti i odnosu medijana i
kvartila)

Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od
aritmetičke sredine:
3( x  Me ) ( x  Mo )
St  St 
  nalazi se u intervalu ±3

Sk = 0  simetrična distribucija
Sk > 0  pozitivno asimetrična distribucija
Sk < 0  negativno asimetrična distribucija

3.BOWLEYJEVA MJERA ( 𝑺𝒌𝑸 ) – temelji se na odnosu medijana i kvartila

Q1  Q3  2 Me
S ka 
Q3  Q1

- nalazi se u intervalu ±1 (iznimno može poprimiti vrijednosti izvan navedenog intervala)


SkQ = 0  simetrična distribucija
SkQ > 0  pozitivno asimetrična distribucija
SkQ < 0  negativno asimetrična distribucija

Me  Q1  Q3  Me
 simetrična distribucija 
Q1  Q3  2 Me  0
Me  Q1  Q3  Me
 pozitivno asimetrična distribucija 
Q1  Q3  2 Me  0

Me  Q1  Q3  Me
 negativno asimetrična distibucija 
Q1  Q3  2 Me  0

MJERA ZAOBLJENOSTI

KOEFICIJENT ZAOBLJENOSTI α4 – njime se mjeri zaobljenost modalnog vrha distribucije.


Izračunava se kao omjer četvrtog momenta oko sredine i standardne devijacije podignute na 4.
M4
potenciju   4 
4 1

1
M=𝜇
N

(x
i 1
i  x )4
 negrupirani podaci  M 4 
N
k

f i ( x i  x )4
 grupirani podaci  M 4  i 1
k

f
i 1
i

 α4 = 3  NORMALNA (Gaussova) DISTRIBUCIJA – najvažnija teorijska distribucija


 α4 > 3  šiljatija distribucija od normalne
 α4 < 3  plosnatija distribucija od normalne

Posebni oblici distribucija prema zaobljenosti:


 α4 ≈ 1.8  pravokutna distribucija
 α4 < 1.8  U-distibucija

EKSCES – alternativna mjera zaobljenosti  K   1  3


K = 0 ---- normalna distribucija
K > 0 ---- šiljatija distribucija
K < 0 ---- plosnatija distribucija
MJERE KONCENTRACIJE - njima se mjeri način rasporeda totala po jedinicama niza
 apsolutne – najčešće se koriste koncentracijski omjeri
 relativne – najčešće se koristi Ginijev koeficijent koncentracije

1. KONCENTRACIJSKI OMJER reda r se određuje tako da se zbroj r vrijednosti (od njih N)


podijeli sa zbrojem N vrijednosti. Pri tome se pretpostavlja da su podaci poredani od najvećeg
prema najmanjem.
r

x
i 1
i
1
Cr  N
 Cr  1
N
x
i 1
i

Ako se radi o ravnomjernoj raspodjeli, koncentracijski omjer poprima vrijednost od 1 do N, a


ako se radi o maksimalnoj raspodijeli, koncentracijski omjer poprima vrijednost 1.

2. GINIJEV KOEFICIJENT – temelj za njegovo utvrđivanje je površina između pravca jednolike


raspodjele i Lorenzove krivulje. Što je koncentacija veće to se Lorenzova krivulja više udaljuje
od toga pravca
N N
2 ixi  ( N  1) x i
xi - pojedinačne vrijednosti varijable G i 1 i 1
N
i - redni broj podatka N  xi
 negrupirani podaci  i 1

 podaci moraju biti uređeni od najmanjeg prema najvećem


 kreće se u intervalu od 0 do 1
 G = 0  ravnomjerna raspodjela
 G = 1  maksimalna koncentracija
 N
 NORMIRANI KOEFICIJENT GINIJA  G  G 
N 1

U analizi koncentracije koristi se grafički prikaz – LORENZOVA KRIVULJA

1) na osi apscisa nalazi se aritmetičko mjerilo za vrijednosti funkcije distribucije F(xi), odnosno
kumulativni niz „manje od“
2) na osi ordinata nalazi se aritmetičko mjerilo za kumulativ proporcija (relativnih udjela) podtotala
3) prva točka ima koordinate (0,0); posljednja točka ima koordinate (1,1); koordinate ostalih točaka
određene su vrijednostima članova kumulativnih nizova
4) u grafički prikaz ucrtava se pravac jednolike raspodjele, on prolazi točkama (0,0) i (1,1)
Što je Lorenzova krivulja „udaljenija“ od pravca jednolike raspodjele, koncentracija je veća i
obrnuto
Lorenzova krivulja

Pravac jednolike raspodijele

ANALIZA VREMENSKIH NIZOVA

VREMENSKI NIZ – skup kronološki uređenih vrijednosti određene pojave, sakupljenjih u


uzastopnim vremenskim intervalima ili u (najčešće) jednako udaljenim vremenskim točkama.
ČLANOVI NIZA – vrijednosti koje tvore niz

Vremenski niz nože biti:


 INTERVALNI – čine opažanja koja se odnose na uzastopne vremenske intervale te nastaje
zbrajanjem vrijednosti pojave po intervalima vremena (godina, kvartal, mjesec) npr. proizvodnja,
uvoz, izvoz...
 TRENUTAČNI – sastoji se od kronološki uređenih vrijednosti koje predstavljaju stanja pojave u
odabranim vremenskim točkama (početak, sredina, kraj) npr. stanje na računima, zaključne
cijene dionica..

GRAFIČKO PRIKAZIVANJE VREMENSKIH NIZOVA:


 INTERVALNI NIZOVI prikazuju se površinskim i linijskim grafikonima.
 TRENUTNI NIZOVI prikazuju se samo linijskim grafikonima

Radi lakšeg praćenja u grafikon se ucrtava mreža. Prikaz je u pravokutnom koordinatnom sustavu s
aritmetičkim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za
članove vremenskog niza.

Okomiti prekid grafikona – ako se ne raspolaže podacima za dio razdoblja moguće je izostaviti dio
mjerila na osi apscisa.
Vodoravni prekid grafikona – ako neka pojava varira na velikim razinama moguće je izostaviti dio
mjerila osi ordinata.
Prekidaju se samo linijski grafikoni.

Polulogaritamski grafikon – koristi se ako se na istom grafikonu uspoređuju raznorodni podaci


(nizovi izraženi u različitim mjernim jedinicama). To je grafikon sa aritmetičkim mjerilom na osi
apscisa, a logaritamskim na osi ordinata.
POKAZATELJI DINAMIKE

Prva diferencija – ukazuje na apsolutnu promjenu vrijednosti pojave izraženu u originalnim mjernim
jedinicama promatrane varijable
∆𝒚𝒕 = 𝒚𝒕 − 𝒚𝒕−𝟏 ili za bazno razdoblje: ∆𝒚∗𝒕 = 𝒚𝒕 − 𝒚𝒃

Stopa promjene u uzastopnim razdobljima – postotna promjena promatranog vrenemskog niza u


tekućem u odnosu na prethodno razdoblje
𝒚𝒕 − 𝒚𝒕−𝟏
𝒔𝒕 = ∙ 𝟏𝟎𝟎%
𝒚𝒕−𝟏

Možemo definirati i stopu promjene za bazno razdoblje:

𝒚𝒕 − 𝒚𝒃
𝒔∗𝒕 = ∙ 𝟏𝟎𝟎%
𝒚𝒃

INDIVIDUALNI INDEKSI – njima se prati razvoj jedne pojave u vremenu

*Bazni indeksi (indeksi na stalnoj bazi) – relativni broj koji pokazuje promjenu razine promatranog
vremenskog niza u tekućem u odnosu na bazno razdoblje. Izračunavaju se tako da se svaki član niza
podijeli s vrijednošću baznog razdoblja te pomnoži sa 100

yt
It   100
yb

Bazno razdoblje – razdoblje u kojemu pojava nije bila izložena nekim neuobičajenim utjecajima
(prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili nekakav prosjek.

Stopa promjene – kad od indeksa odbijemo sto  S t  I t  100


*

Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca.

Primjer 1.
GODINA IZVOZ BAZNI INDEKSI STOPA
1999 = 100 PROMJENE
1999 4302 100,00 0,00
2000 4432 103,02 3,02
2001 4665 108,44 8,44
2002 4904 113,99 13,99
2003 6197 144,05 44,05

U 2003.g. izvoz se povećao za 44.05% u odnosu na baznu 1999.g.


*Verižni indeks – relativni broj koji pokazuje promjenu razine promatranog vremenskog niza u
tekućem u odnosu na prethodno razdoblje
– njima se prati razvoj pojave u uzastopnim vremenskim razdobljima
- verižni indeks Vt razdoblja t dobije se tako da se vrijednost toga razdoblja podijeli s vrijednošću
yt
prethodnog razdoblja te se pomnoži sa sto  Vt   100
yt 1
*Verižni indeksi se grafički prikazuju dijagramom jednostavnih stupaca

Koeficijent dinamike – vrijednost tekućeg razdoblja podijeljena sa vrijednošću prethodnog razdoblja


yt
ne pomnožena sa sto  Vt 
y t 1
Stopa promjene – od verižnog indeksa se odbije sto  S t  Vt  100

Primjer 2.

Izvoz RH u milijunima US$ u razdoblju od 1999. do 2003.g.


GODINA IZVOZ VERIŽNI STOPA
INDEKSI PROMJENE
yt Vt St
1999 4302 - -
2000 4432 103,2 3,02
2001 4665 105,26 5,26
2002 4904 105,12 5,12
2003 6197 126,36 26,36
izvor: SLJRH 2004., str.384

Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je veći od 100 predstavlja postotno
povećanje, a ako je manji od 100 predstavlja postotno smanjenje.
npr. Izvoz u RH u 2003.g. povećao se za 26.36% u odnosu na 2002.g.

*Preračunavanje verižnih indeksa u bazne

𝒚𝒕 𝑰𝒕
Polazi se od koeficijenta dinamike → 𝒗𝒕 = 𝒚 =𝑰
𝒕−𝟏 𝒕−𝟏

Sređivanjem jednakosti dolazi se do izraza za preračunavanje verižnih u indekse na stalnoj bazi:

𝑰𝒕 = 𝑰𝒕−𝟏 ∙ 𝒗𝒕
SKUPNI INDEKSI – njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz,
izvoz.... Koriste se s ciljem numeričkog izražavanja prosječne promjene relativnih cijena/količina
promatrane košarice dobara u tekućem razdoblju (razdoblje 1) u odnosu na neko prošlo razdoblje
(razdoblje 0 – može biti bazno ili prethodno)

 SKUPNI INDEKSI CIJENA


 SKUPNI INDEKSI KOLIČINA
 SKUPNI INDEKS VRIJEDNOSTI

U pravilu se računaju kao vagana aritmetička sredina individualnih indeksa. Ponderi su obično
vrijednosti.

Uglavnom se izračunavaju:
 LASPEYRESOV INDEKS CIJENA I KOLIČINA
 PAASCHEOV INDEKS CIJENA I KOLIČINA
 FISHEROV INDEKS CIJENA I KOLIČINA
 INDEKS VRIJEDNOSTI

*Laspeyresov indeks cijena – skupni indeks dobiven kao omjer vrijednosti određenog skupa
ekonomskih dobara u tekućem i baznom razdoblju, držeći pritom količine fiksirane na iznose iz
baznog razdoblja
∑𝒌𝒊=𝟏 𝒑𝟏𝒊 𝒒𝟎𝒊
( )
𝑷𝟎𝟏 𝒒𝟎 = 𝒌 ∙ 𝟏𝟎𝟎
∑𝒊=𝟏 𝒑𝟎𝒊 𝒒𝟎𝒊

Paascheov indeks cijena – skupni indeks dobiven kao omjer vrijednosti određenog skupa ekonomskih
dobara u tekućem i baznom razdoblju, držeći pritom količine fiksirane na iznose iz tekućeg razdoblja

∑𝒌𝒊=𝟏 𝒑𝟏𝒊 𝒒𝟏𝒊


𝑷𝟎𝟏 (𝒒𝟏 ) = 𝒌 ∙ 𝟏𝟎𝟎
∑𝒊=𝟏 𝒑𝟎𝒊 𝒒𝟏𝒊

Laspeyresov indeks količina - skupni indeks dobiven kao omjer vrijednosti određenog skupa
ekonomskih dobara u tekućem i baznom razdoblju, držeći pritom cijene fiksirane na iznose iz baznog
razdoblja
∑𝒌𝒊=𝟏 𝒒𝟏𝒊 𝒑𝟎𝒊
𝑸𝟎𝟏 (𝒑𝟎 ) = 𝒌 ∙ 𝟏𝟎𝟎
∑𝒊=𝟏 𝒒𝟎𝒊 𝒑𝟎𝒊

Paascheov indeks količina je također omjer vrijednosti skupa dobara, ali dobiven na način da se
cijene fiksiraju na iznose iz tekućeg razdoblja.

∑𝒌𝒊=𝟏 𝒒𝟏𝒊 𝒑𝟏𝒊


𝑸𝟎𝟏 (𝒑𝟏 ) = ∙ 𝟏𝟎𝟎
∑𝒌𝒊=𝟏 𝒒𝟎𝒊 𝒑𝟏𝒊

Fisherov indeks količina – prosječna mjera agregatne promjene konzumiranih količina određene
skupine dobara, te se definira kao geometrijska sredina Laspeyresova i Paascheova indeksa količina
𝑸𝟎𝟏,𝑭 = √𝑸𝟎𝟏 (𝒑𝟎 ) ∙ 𝑸𝟎𝟏 (𝒑𝟏 )

Fisherov indeks cijena - prosječna mjera agregatne promjene cijena konzumiranih skupine dobara, te
se definira kao geometrijska sredina Laspeyresova i Paascheova indeksa cijena

𝑷𝟎𝟏,𝑭 = √𝑷𝟎𝟏 (𝒒𝟎 ) ∙ 𝑷𝟎𝟏 (𝒒𝟏 )

Skupne indekse izračunavaju i objavljuju statistički uredi. Obično su Laspeyresova tipa: INDEKS
POTROŠAČKIH CIJENA – mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJE. Skupni
indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na
vrijednosno izražene pojave.

VJEROJATNOSTI

VJEROJATNOST – brojčana mjera nastanka neizvjesnih, tj. slučajnih događaja. Vjerojatnost


nastanka događaja A jednaka je P(A) pri čemu je 0 ≤ P(A) ≤ 1. Nekada se izražava i u obliku postotka.

DEFINICIJE VJEROJATNOSTI

Slučajni pokus (slučajni eksperiment) – postupak (mjerenje) koji se uz definirane uvjete može
ponavljati proizvoljan broj puta, ima najmanje dva moguća ishoda i ishodi se ne mogu predvidjeti sa
sigurnošću.
Npr. Bacanje idealnog novčića, bacanje idealne kocke, kontrola kvalitete proizvoda, poziv na
kupovinu putem kataloga i sl.
Ishodi slučajnog pokusa (eksperimenta) opisuju se riječima, brojevima ili riječima i brojevima.

Elementarni događaji - mogući ishodi slučajnog pokusa (npr. bacanje kocke: 1,2,3,4,5,6)
Slučajni događaj – jedan ili više elementarnih događaja (ishoda slučajnog pokusa), Označavaju se
velikim slovima abecede te su sa događajima dopuštene skupovne operacije., npr. bacanje kocke: pao
je paran broj.
Prostor slučajnih događaja (prostor uzorka), S – skup svih mogućih ishoda (elementarnih
događaja) slučajnog pokusa. Slučajni događaj je podskup skupa S.

Do novih se slučajnih događaja dolazi skupovnim operacijama (unija, presjek, komplement) nad
postojećim skupom slučajnih događaja:
 𝐴 ∪ 𝐵 → dogodio se događaj A «ili» događaj B
 𝐴 ∩ 𝐵 → dogodio se događaj A «i» događaj B
 𝐴̅ → nije se dogodio A. 𝐴̅ je suprotni događaj od A
Vennovi dijagrami slučajnih događaja

1. Klasična definicija vjerojatnosti (vjerojatnost a priori) – pretpostavlja se da se pokus ponavlja


konačan broj puta, pri čemu se vjerojatnost određuje kao omjer povoljnog broja ishoda m i
m
ukupnog broja ishoda n  P ( A) 
n
2. Statistička definicija vjerojatnosti (vjerojatnost a posteriori – može se izračunati tek nakon što
se izvede eksperiment) – broj ponavljanja pokusa je beskonačan, a vjerojatnost se aproksimira
relativnom frekvencijom, tj. omjerom apsolutne frekvencije opsega i opsega statističkog skupa.
3. *Subjektivna vjerojatnost – osobno uvjerenje pojedinca o stupnju neizvjesnosti ishoda
slučajnog događaja, a izražena je kao broj između 0 i 1.
 koristi se u praksi kada svi ishodi slučajnog eksperimenta nisu jednako mogući, često se temelji
na iskustvu, osobnom uvjerenju i analizi određene situacije

SVOJSTVA VJEROJATNOSTI:

1) Vjerojatnost da događaj A neće nastupiti jednaka je P(Ā) = 1-P(A)


2) Vjerojatnost istodobnog nastupa događaja A1 i A2 jednaka je P(A1∩A2)
Aditivni zakon (3 i 4)
3) Ako su događaji međusobno isključivi, vjerojatnost da će nastupiti događaj A1 ili A2 jednaka je
P(A1UA2) = P(A1)+P(A2)
4) Ako događaji nisu međusobno isključivi, vjerojatnost nastupa barem jednog od njih jednaka je
P(A1UA2) = P(A1)+P(A2)-P(A1∩A2)
5) *Uvjetna vjerojatnost - ponekad je potrebno odrediti vjerojatnost nastupa događaja A uz uvjet
da se dogodio događaj B. Takva se vjerojatnost naziva uvjetnom vjerojatnošću 
P( A  B)
P( A | B) 
P( B)
6) *Nezavisnost - događaji A i B su međusobno nezavisni ako ostvarivanje događaja A nema
utjecaja na vjerojatnost nastupa događaja B i obratno. Dva su događaja nezavisna ako je
vjerojatnost da nastupe istovremeno jednaka umnošku pojedinačnih vjerojatnosti nastupanja 
P(A∩B) = P(A)P(B)
Bayesov teorem – koristi se kako bi se izračunala vjerojatnost nastupa događaja A uzrokovanog
jednim od n mogućih načina ostvarenja tog događaja

SLUČAJNA VARIJABLA X – numerička funkcija koja svakom ishodu slučajnog pokusa pridružuje
realan broj.
Slučajna
varijabla

Diskretna Kontinuirana

 diskretna - ako poprima konačan broj vrijednosti (vezana je uz slučajan eksperiment koji
završava s konačno ili najviše prebrojivo mnogo rezultata)
 kontinuirana – može poprimiti bilo koju vrijednost iz nekog intervala (vezana je uz slučajni
eksperiment s neprebrojivo mnogo rezultata)

DISTRIBUCIJA VJEROJATNOSTI

 diskretne slučajne varijable – skup uređenih parova različitih vrijednosti slučajne varijable xi i
pripadajućih vjerojatnosti p(xi). Ima slijedeća svojstva:

o p(xi) ≥ 0
o ∑p(xi) = 1

Kumulativna funkcija ili funkcija distribucije F(x i) – pokazuje kolika je vjerojatnost da slučajna
varijabla x poprimi vrijednost xi ili manju.

 kontinuirane slučajne varijable – opisuje razdiobu vjerojatnosti na intervalu vrijednosti


varijable.

Njena svojstva:
o f(x) ≥ 0,

o  f ( x)dx  1

Primjer 1.
KVALITETA BROJ PROIZVODA UKUPNO
PROIZVODA DOB A DOB B
(KLASA)
I 20 10 30
II 10 10 20
III 30 20 50
UKUPNO 60 40 100

KVALITETA BROJ PROIZVODA


PROIZVODA DOB A DOB B (B2) UKUPO
(KLASA) (B1)
I (A1) 0.2 0.1 0.3
II (A2) 0.1 0.1 0.2
III (A3) 0.3 0.2 0.5
UKUPNO 0.6 0.4 1

 stupci „ukupno“ = marginalne vjerojatnosti

a) Kolika je vjerojatnost odabira proizvoda I. klase? P(A1)=0.3


b) Kolika je vjerojatnost odabira proizvoda dobavljača B? P(B2) = 0.4
c) Kolika je vjerojatnost izbora proizvoda III. klase dobavljača A? P(A3∩B1) = 0.3
d) Kolika je vjerojatnost izbora proizvoda I. ili III. klase? P(A1UA3) = P(A1)+P(A3) = 0.3+0.5 = 0.8
e) Kolika je vjerojatnost da se izabere proizvod III. klase ili proizvod dobavljača B?
P(A3UB2) = P(A3)+P(B2)-P(A3∩B2)= 0.5 + 0.4 – 0.2 =0.7
f) Kolika je vjerojatnost izbora proizvoda dobavljača A ako je poznato da je III. klase?
P( A3  B1 ) 0.3
P( B1 | A3 )    0.6
P( A3 ) 0 .5
g) Jesu li varijable kvaliteta i dobavljač neovisne?
Ako bi varijable kvaliteta i dobavljač bile neovisne, vjerojatnosti bi u polju tabele bile jednake
umnošku
P( Ai  B j )  P( Ai ) P( B j )
marginalnih vjerojatnosti
P( A1  B1 )  P( A1 ) P( B1 )  0.3  0.6  0.18
Budući da je 0.2≠0.18, između kvalitete proizvoda i dobavljača postoji zavisnost.

Primjer 2.
xi p(xi) xi p(xi) F(xi)
0 0.1 0 0.1
1 0.2 0.2 0.3
2 0.4 0.8 0.7
3 0.2 0.6 0.9
4 0.1 0.4 1.0
UKUPO 1.0 2.0 -
a) Pokažite da je navedena distribucija, distribucija vjerojatnosti!
1) p( xi )  0
DA
2)  p( xi )  1
b) Odredite očekivanu vrijednost! F x     xi  p( xi )  2.00
c) Odredite vrijednosti funkcije distribucije! (tablica)
d) Odredite vjerojatnost p(x≤2)! p( x  2)  0.1  0.2  0.4  0.7

MODELI DISTRIBUCIJA VJEROJATNOSTI – distribucije vjerojatnosti za koje je poznat


analitički izraz i sve njihove karakteristike, te se s pomoću njih mogu dobro aproksimirati realne
pojave u vjerojatnosnom okruženju
Distribucije vjerojatnosti diskretne slučajne varijable: (najčešće se koriste binomna i poissonova)

1. BINOMNA
2. POISSONOVA
3. HIPERGEOMETRIJSKA
4. UNIFORMNA

1. BINOMNA DISTRIBUCIJA – njena je definicija povezana sa Bernaulijevim pokusom.


Bernaulijev pokus je slučajni pokus slijedećih svojstava:
o ima dva ishoda (uspjeh i neuspjeh)
o vjerojatnost ishoda uspjeh je p, a neuspjeh q =1-p
o pokusi su neovisni
 n  n n!
P ( x )     p x  q n x   
 x  x  x!( n  x )!

n-broj pokušaja (broj ponavljanja Bernaulijevih pokusa)


p-vjerojatnost uspjeha u jednom pokušaju
x- broj uspjeha u n pokušaja

Očekivana vrijednost  Ex  n  p Varijanca    n  p  q


2

2. *POISSONOVA DISTRIBUCIJA – granični slučaj binomne distribucije. Prikladna je za opis


rijetkih događaja, tj. događaja koji se javljaju s malom vjerojatnošću.

*Analizički izrazi:

𝝀𝒙 𝒆−𝝀
𝒑(𝒙) = , λ > 0, x = 0, 1, 2…
𝒙!
𝟏 𝟏
𝑬(𝑿) = 𝝀 ,Var(X) = λ, 𝝈 = √𝝀, 𝜶𝟑 = , 𝜶𝟒 = 𝟑 +
√𝝀 𝝀
Distribucije vjerojatnosti kontinuirane slučajne varijable:
1. NORMALNA (GAUSSOVA)
2. STUDENTOVA (T-DISTRIBUCIJA)
3.  2 (HI-KVADRAT)
4. F-DISTRIBUCIJA
5. UNIFORMNA KONTINUIRANA
6. EKSPONENCIJALNA

1. NORMALNA (GAUSSOVA) DISTRIBUCIJA – najvažnija distribucija vjerojatnosti.


o dvoparametarska funkcija (određena s 2 parametra) : očekivana vrijednost i varijanca
N ( , 2 )
o zvonolika je i simtrična
o budući da aritmetička sredina i standardna devijacija ovise o mjernim jedinicama varijable uvodi
se jedinična (standardizirana) normalna distribucija sa standardiziranom normalnom varijablnom
x
z N (0,1);  2  0;  2
2

Jedinična normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje
predstavljaju vjerojatnosti. U predstupcu su navedne vrijednosti z za prvu decimal, a u zaglavlju
je navedena druga decimal od z. Budući da je distribucija simetrična u tabeli su predočene samo
nenegativne vrijednosti normalne standardizirane varijable (z).

 označena površina označava vjerojatnost da


slučajna varijabla poprimi vrijednost iz intervala od 0 do z.

Važna svojstva normalne distribucije:


1) normalno distribuirane varijable su ili linearno povezane (korelirane) ili su nezavisne
2) linearna kombinacija normalnih slučajnih varijabli je normalno distribuirana slučajna
varijabla
3) vagani zbroj velikog broja varijabli je približno normalno distribuirana slučajna varijabla
 *STUDENTOVA t DISTRIBUCIJA
o njen oblik je određen veličinom n
o Ima sličan oblik kao normalna distribucija samo što je šira i položenija
o Kako raste broj stupnjeva slobode, oblikom je sve sličnija normalnoj distribuciji
o za n>30 (veliki uzorak) distribucija se po obliku približava normalnoj distribuciji
o za n<30 (mali uzorak) distribucija je više razvučena na obje strane uzduž apscise
o i ona je zvonolika i simetrična te tabelirana
o u predstupcu tablice nalaze se stupnjevi slobode (df), u zaglavlju su vjerojatnosti, a u poljima
tabele su kritične vrijednosti

Vjerojatnost da će slučajna varijabla koja se ravna po Studentovoj


distribuciji poprimiti vrijednost veću od t α iznosi α.

*Karakteristike Studentove t-distribucije s df stupnjeva slobode su:

o 𝐸 (𝑡) = 0 𝑧𝑎 𝑑𝑓 ≥ 2
𝑑𝑓
o 𝑉𝑎𝑟(𝑡) = 𝑑𝑓−2 𝑧𝑎 𝑑𝑓 ≥ 3
o 𝛼3 = 0 𝑧𝑎 𝑑𝑓 ≥ 4
6
o 𝛼4 = 3 + 𝑑𝑓−4 𝑧𝑎 𝑑𝑓 ≥ 5
INFERENCIJALNA STATISTIKA

INFERENCIJALNA STATISTIKA – skup analitičkih metoda koje polaze od uzorka. Budući da se


zaključci donose na temelju dijela podataka oni sadrže pogrešku nastalu zbog primjene uzorka
(sampling error).
 Zadaća inferencijalne statistike – na temelju jednog uzorka donijeti što točnije zaključke o
karakteristikama cijele populacije, koje se nazivaju parametrima

Faktori koji uvjetuju primjenu uzorka su slijedeći:


1. pojedini konačni skupovi sadrže veliki broj članova pa bi njihovo istraživanje zahtijevalo velika
financijska sredstva
2. do rezultata se dolazi u kraćem vremenu
3. uzorak se primjenjuje kada bi se istraživanjem uništio čitav statistički skup (npr.istraživanje
trajnosti električnih žarulja)
4. beskonačni skupovi istražuju se isključivo metodom uzorka (pr.beskonačnog skupa:
proizvodnja)

Dvije skupine metoda inferencijalne statistike:


1. procjenjivanje parametra
2. testiranje hipoteza

PLAN UZORKA – skup pravila i postupaka određenog načina izbora uzorka iz populacije. Osnovna
svrha plana je izbor reprezentativnog uzorka, tj. uzorak mora biti umanjena slika osnovnog skupa. S
obzirom na način izbora jedinica uzorka razlikuju se namjerni i slučajni uzorci.

1. namjerni uzorci (ne-probabilistički) – jedinice uzorka izabiru se prema odluci istraživača


(uzorak često nije reprezentativan)
 prigodni uzorak – ispituju se dostupne jedinice (npr.javno mišljenje)
 uzorak izabran na temelju prosudbe istraživača – istraživač izabire reprezentativne jedinice
pri čemu je potrebno da dobro poznaje osnovni skup
 kvotni uzorak – anketari se slobodno odlučuju za jedinice u sklopu kvota

Namjerni uzorci jednostavni su za primjenu te se često koriste. Analiziraju se metodama


deskriptivne statistike. Nedostatak: nije moguće izračunati grešku nastalu zbog primjene uzorka.

2. slučajni uzorci (probabilistički) – svaki element ima vjerojatnost izbora veću od nule. Kod
ovih uzoraka moguće je izračunati grešku. Analiziraju se metodama inferencijalne statistike.

 jednostavni slučajni uzorak – svaki element ima jednaku vjerojatnost izbora. Primjenjuje se
kod homogenih skupova.
𝑁
 sistematski uzorak –izbor jedinica ovisi o koraku izbora k → 𝑘 = 𝑛 , iz populacije N se
izabire svaka k-ta jedinica (npr. svako peto kućanstvo, potrebno je izabrati slučajni početak)
OKVIR IZBORA – popis numeriranih jedinica cijele populacije – s tog popisa se na slučajan
način odabire početak (npr.birački popis)
 stratificirani uzorak – prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti,
kada osnovni skup nije homogen. Osnovni skup se dijeli u grupe s obzirom na promatrano
obilježje, tako da jedinice izabrane iz tih grupa budu što homogenije. Takve se grupe nazivaju
stratumima.
 uzorak skupina (klasterski uzorak) – populacija se dijeli na konačan broj skupina te se na
slučajan način izabiru određene skupine, iz kojih se kasnije na slučajan način biraju jedinice

SAMPLING DISTRIBUCIJA – teorijska distribucija vjerojatnosti procjenitelja parametra. Zasniva


se na konceptu ponovljenih izbora slučajnih uzoraka iz danog osnovnog skupa pri čemu različiti uzorci
dovode do različitih vrijednosti procjena.

Očekivana vrijednost sampling distribucije aritmetičkih sredina uzoraka jednaka je aritmetičkoj sredini
osnovnog skupa. Standardna devijacija sampling distribucije sredina prosječno je odstupanje
aritmetičkih sredina od aritmetičke sredine osnovnog skupa. Ona izražava pogrešku koja nastaje zbog
primjene uzorka, stoga se naziva standardnom pogreškom aritmetičke sredine.

Procjenitelj – slučajna varijabla kojom se procjenjuje parameter populacije


Procjena – konkretna vrijednost procjenitelja, dobivena na uzorku podataka

PROCJENE PARAMETARA – parametar se procjenjuje brojem i intervalom.


Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.
(ˆ  greška. procjene  .. ..  ˆ  greška. procjene)
ˆ - karakteristika uzorka, a ujedno i procjena broja
 - karakteristika osnovnog skupa koja se procjenjuje (npr. aritmetička sredina, total i proporcija)

Procjenitelj  :

 nepristran – ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje E ˆ  

efikasan – ako je nepristran i ako ima najmanju varijancu u skupu svih linearnih nepristranih
procjenitelja
 konzistentan – ako je nepristran i ako varijanca procjenitelja postaje sve manja kada se veličina
uzorka n povećava (teži 0)

PROCJENA ARITMETIČKE SREDINE – može biti brojem i intervalom


 procjena brojem – jednaka je aritmetičkoj sredini uzorka
 intervalna procjena za veliki uzorak (n>30) – koristi se normalna distribucija (Gaussova) 

 
P  x  z  x    x  z  x   1   
 2 2 

x  aritmetička sredina uzorka


z   koeficijent pouzdanosti koji se određuje na temelju površina ispod normalne krivulje
2

 x  standardna pogreška procjene aritmetičke sredine


  aritmetčka sredina osnovnog skupa, a ujedno i parametar koji se procjenjuje
1     razina signifikantnosti

S porastom veličine uzorka, a to znači i s porastom broja stupnjeva slobode, Studentova distribucija se
aproksimira normalnom distribucijom:

 intervalna promjena za mali uzorak (n≤30) – koristi se Studentova T – distribucija

 
P  x  t  x    x  t  x   1   
 2 2 
t -koeficijent pouzdanosti koji se određuje na temelju studentove distribucije
2

Primjer 2.
Odredite vrijednost standardne pogreške procjene aritmetičke sredine osnovnog skupa za ove
slučajeve:
a) Procjenjuje se sredina konačnog skupa od 125 768 članova pomoću slučajnog uzorka veličine 1250
članova. Standardna devijacija osnovnog skupa iznosi 64.
N  125768
n  1250
n 1250 N-broj elemenata osnovnog skupa
f    0.0099 ; f  0.05 n-broj elemanata uzorka
N 125768

Frakcija izbora (f) pokazuje da je u uzorak izabrano približno 1% osnovnog skupa.

  N n 
 , f  0.05
N 1  64
 n  x    1.81019
 
x    n 1250
  
 , f  0.05 
 n 
b) Sredina se procjenjuje pomoću slučajnog uzorka veličine 600 formiranog izborom svakog desetog
člana konačnog osnovnog skupa, a varijanca skupa iznosi 100.
n  600 n 600
f    0.1, f  0.05
N N 6000
 10   N  10  n  6000
n  N n 10 6000  600
x    0.38733
  100     10
2
n N 1 600 6000  1

c) Uzorak veličine 36 izabran je iz beskonačnog osnovnog skupa N(μ, 5 2) beskonačni skup  f<0.05
(kad u zadatku nemamo N pretpostavljamo da je skup beskonačan i f<0.05)
 5 5
x     0.83333
n 36 6

d)
N  35679
n  2500 ̂ - nepristrani procjenitelj standardne devijacije populacije (osnovnog skupa)
ˆ  10
n 2500
 ˆ N  n  f    0.07 , f  0.05
 , f  0.05 N 35679
 n N 1 
 
x  
 ˆ  ˆ N n 10 35679  2500
x    0.19287
 , f  0.05  n N 1 2500 35679  1
 n 

e) Veličina je uzorka 256 i čini 2% osnovnog skupa, a standardna devijacija uzorka je 32.
s – standardna devijacija uzorka

s  32 f  0.02 , f  0.05
n  256 ˆ  32.06268
256 ˆ
2 100   N  12800  x   2.00392
N n

n
ˆ  s
n1  faktor korekcije
Primjer 3.
Tvrtka isporučuje vijke pakovanih po 100 komada. Kupac je primio pošiljku od 10000 pakovanja.
Radi kontrole izabran je slučajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedeći broj
60 60

 xi  117 , x  293
2
neispravnih vijaka po pakovanju: 4, 3, 3, 1, 3,…. Njihov zbroj je 117. i
i 1 i 1
Procjenite brojem i intervalom prosječan broj neispravnih vijaka po pakovanju za cijelu pošiljku.
Razina povjerenja je 95%.
n  60   veliki uzorak
n 60
f    0.006 , f  0.05
N 10000

 procjena brojem – procjenitelj aritmetičke sredine je aritmetička sredina uzorka

x
 xi  117  1.95  2  procjena prosječnog broja neispravnih vijaka po pakovanju
N 60
 intervalni procjenitelj
P x  z  x    x  z  x   1   
 2 2 

0.95:2 = 0.4750
z(P=0.4750) = 1.96

Kako nije poznata standardna devijacija


osnovnog skupa potrebno je izračunati njezinu
procjenu pomoću podataka iz uzorka.

 
1
1 293  117 2
 xi  n  xi
2 2
ˆ  60  1.04840
59
ˆ  ˆ 1.04840
n1 x 
n

60
 0.13535

P1.95  1.96  0.13535    1.95  1.96  0.13535  0.95


P0.68471    2.21529  0.95

Interpretacija: S vjerojatnošću od 0.95 odnosno 95% očekuje se da će se prosječan broj neispravnih


vijaka po pakovanju kretati između 0.68471 i 2.21529.
PROCJENA TOTALA OSNOVNOG SKUPA

TOTAL – Total T osnovnog skupa je zbroj vrijednosti numeričkog obilježja svih jedinica statističkog
skupa. Taj je parametar povezan s aritmetičkom sredinom.


x i

T
T  N 

N N
Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetičke sredine.

ˆ
procjena totala brojem T  N  x

 standardna pogreška procjene totala  Tˆ  N   x

 intervalna procjena za veliki uzorak:


̂ − 𝒛𝜶⁄𝟐 𝝈𝑻̂ < 𝑻 < 𝑻
𝑷(𝑻 ̂ + 𝒛𝜶⁄𝟐 𝝈𝑻̂ ) = (𝟏 − 𝜶)
z - koeficijent pouzdanosti
2

 Tˆ - standardna pogreška procjene totala


1    - razina pouzdanosti (povjerenja)
 intervalna procjena za mali uzorak – kao koeficijent korisnosti koristi se t 
2

̂ − 𝒕𝜶⁄𝟐 𝝈𝑻̂ < 𝑻 < 𝑻


𝑷(𝑻 ̂ + 𝒕𝜶⁄𝟐 𝝈𝑻̂ ) = (𝟏 − 𝜶)

ODREĐIVANJE VELIČINE UZORKA ZA PROCJENU ARITMETIČKE SREDINE


OSNOVNOGA SKUPA

Veličina uzorka ovisi o slijedećim elementima:


1. vrsti osnovnog skupa (konačan ili beskonačan)
2. razini pouzdanosti procjene
3. željenoj pouzdanosti procjene
4. stupnju varijabilnosti podataka

PRETHODNA VELIČINA UZORKA n0 :


 z  
2

ako su pogreška (d) i stupanj varijabilnosti izraženi apsolutno: n0   


2

 d 
 
 z  .V 
ako su pogreška (dr) i stupanj varijabilnosti izraženi relativno: n0   
2

 dr 
 
 KONAČNA VELIČINA UZORKA:
 
 n , f  0.05 
  n0
f0 
0 0
 
n   frakcija:
 n  N
 0 , f o  0.05

1  f0 

PROCJENA PROPORCIJE OSNOVNOG SKUPA

PROPORCIJA OSNOVNOG SKUPA – parametar koji predstavlja omjer broja članova osnovnog
skupa s određenim modalitetom obilježja i opsega statističkog skupa

m
procjenitelj procjene brojem: Pˆ 
n
m - broj elemenata s određenim modalitetom obilježja u uzorku
n - broj elemenata uzorka

Sampling distribucija proporcija uzoraka ima oblik binomne ili hipergeometrijske distribucije. Za
dovoljno veliki uzorak aproksimira se normalnom distribucijom.

intervalna procjena za veliki uzorak: ̂ − 𝒛𝜶⁄𝟐 𝝈𝒑̂ < 𝒑 < 𝒑


𝑷(𝒑 ̂ + 𝒛𝜶⁄𝟐 𝝈𝒑̂ ) = (𝟏 − 𝜶)
p-proporcija osnovnog skupa

TESTIRANJE HIPOTEZA O PARAMETRU

TESTIRANJE HIPOTEZA O PRETPOSTAVLJENOJ VRIJEDNOSTI PARAMTRA JEDNE


POPULACIJE

Statistička hipoteza – tvrdnja o veličini parametra ili o obliku distribucije osnovnog skupa čija se
istinitost ispituje pomoću slučajnog uzorka.
Testiranje statističkih hipoteza – postupak kojim se donosi odluka o prihvaćanju ili ne prihvaćanju
tvrdnje.

Statistički test – pravilo koje se koristi u donošenju odluke o odbacivanju ili neodbacivanju nulte
hipoteze
 parametarski – testovi koji se odnose na nepoznate parametre, pri čemu je oblik distribucije
poznat
 neparametarski – testovi koji se odnose na nepoznati oblik distribucije populacije

Svaki postupak testiranja polazi od nulte hipoteze (H0) i alternativne hipoteze (H1). Hipoteze su
međusobno isključive tvrdnje o pretpostavljenoj vrijednosti parametara populacije.
U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka:
 pogreška tipa I – nastaje ako se odbaci istinita nulta hipoteza
 pogreška tipa II – nastaje ako se ne odbaci lažna nulta hipoteza

RAZINA ZNAČAJNOSTI (RAZINA SIGNIFIKANTNOSTI) α – vjerojatnost odbacivanja istinite


nulte hipoteze (vjerojatnosti pogreške tipa I)
β – vjerojatnost ne odbacivanja lažne nulte hipoteze (vjerojatnost pogreške tipa II)
SNAGA TESTA (1-β)– vjerojatnost odbacivanja nulte hipoteze kada je ona lažna

Postupak testiranja:

1. Određivanje sadržaja nulte i alternativne hipoteze (ovisi o tome da li se provodi dvosmjerni ili
jednosmjerni test)
H0: …
H1: …
2. Izbor testne veličine (najčešće ovisi o mjernoj skali promatranih varijabli i veličini uzorka)
3. Izbor razine signifikantnosti (najčešće 5% ili 1%)
4. Određivanje pravila odlučivanja (alternativna pravila odlučivanja moraju dati jednak ishod testa)
5. Donošenje zaključka (H0 se može ili ne može odbaciti)

TESTIRANJE HIPOTEZA O PRETPOSTAVLJENOJ VRIJEDNOSTI ARITMETIČKE


SREDINE OSNOVNOG SKUPA

– ovo se testiranje provodi na temelju slučajnog uzorka od n članova


n > 30 veliki uzorak – TEST VELIKIM UZORKOM
n ≤ 30 mali uzorak – TEST MALIM UZORKOM

Testiranje se provodi u slijedećim koracima:


1. postavljanje hipoteza
2. identificiranje izraza za testnu veličinu i određivanje njene vrijednosti
3. odabir razine signifikantnosti i određivanje kritičnih granica
4. donošenje odluke
Statistički testovi
Empirijski z ili t
omjer
Dvosmjerni Jednosmjerni
Kriteriji Empirijska razina
donošenja signifikantnosti
odluke (P vrijednost)
Na donju
granicu

Kritične granice
Na gornju
granicu

Odluka se može donijeti na iduće načine:


 pomoću kritičnih granica ( uspoređuje se s prosjekom)

 z-test ; t-test (empirijski z/t omjeri se uspoređuje s teorijskim z/t)

 pomoću empirijske razine signifikantnosti tj. p-vrijednosti (uspoređuje se s α – teorijska razina


signifikantnosti)
P    H0
P    H1

*DVOSMJERNI TEST – nije ograničen smjer odstupanja. Pretpostavka je da je aritmetička sredina


jednaka pretpostavljenoj. Pretpostavka se formulira kao nulta hipoteza.

H 0 ...........   0
H 1 ...........   0
*JEDNOSMJERNI TEST NA GORNJU GRANICU - od interesa je promatrati odstupanje na više.
Pretpostavlja se da je aritmetička sredina osnovnog skupa veća od pretpostavljene. Pretpostavka se
formulira kao alternativna hipoteza. (“više od”, “najmanje”, “barem”)

H 0 ...........  0
H 1 ...........  0

JEDNOSMJERNI TEST NA DONJU GRANICU – od interesa je promatrati odstupanje na niže.


Pretpostavlja se da je aritmetička sredina osnovnog skupa manja od pretpostavljene. Pretpostavka se
formulira kao alternativna hipoteza. (“manje od”, “najviše”, “ne više od”)

H o .........  0
H 1 .........  0

 možemo testirati hipotezu da je proporcija populacije jednaka, manja ili veća od pretpostavljene
vrijednosti 𝑝𝑜
 dvosmjerni test - ako se testira da je proporcija populacije jednaka jednaka pretpostavljenoj
vrijednosti 𝑝𝑜
 jednosmjerni test na donju ili gornju granicu - ako se testira da je manja ili veća

ODNOS PARAMETARA DVIJU POPULACIJA

*TESTIRANJE HIPOTEZA O RAZLICI ARITMETIČKIH SREDINA DVAJU OSNOVNIH


SKUPOVA NEZAVISNIM UZORCIMA

Uzorci su nezavisni ako je uzorak opažanja ili mjerenja vezanog za elemente jednog osnovnog skupa
neovisan o uzorku opažanja ili mjerenja izabranog iz drugog osnovnog skupa.
Npr. podatci o prosječnoj težini proizvoda na dvije proizvodne linije nisu zavisni, pa tako neće biti ni
podatci za dva izabrana uzorka proizvoda s tih dviju linija.

Uzorci su zavisni ako su podatci prikupljeni prije i nakon primjene određenog tretmana za iste jedinice
uzorka izabranih iz istog osnovnog skupa, ili se radi o podatcima za jedinice iz skupina sličnih ili
povezanih pojedinaca. Ovdje se često radi o zavisnosti ponovljenih mjerenja za iste jedinice.
Npr. kod pacijenta se krvni tlak može mjeriti prije uzimanja lijeka i nakon, mjerenje zadovoljstva
kupca prije i nakon kupnje i sl.

Kod tih uzoraka podaci iz prve populacije ne utječu na vjerodostojnost pojavljivanja podataka iz druge
populacije. Ako se npr ispituje razlika u prosječnoj trajnosti novog i prosječnoj trajnosti odstajalog
proizvoda, iz prve će se populacije veličine 𝑁1 izabrati uzorak veličine 𝑛1 , a iz druge populacije 𝑁2
uzorak veličine 𝑛2 . Prosjenjuje li se razlika sredina populacija, za svaki od nezavisnih uzoraka se
izračunava aritmetička sredina te se njihova razlika koristi kao procjena traženog parametra jednim
brojem:
̂=𝒙
𝒅 ̅𝟏 − 𝒙
̅𝟐

DVOSMJERNI TEST – pretpostavlja se da su aritmetičke sredine osnovnih skupova jednake (μ 1,μ2).


Pretpostavka se formulira kao nulta hipoteza.

H 0 ........1   2  0
H 1 ........1   2  0

JEDNOSMJERNI TEST NA GORNJU GRANICU – pretpostavlja se da je aritmetička sredina


prvog osnovnog skupa veća od aritmetičke sredine drugog osnovnog skupa. Pretpostavka se formulira
kao alternativna hipoteza.

H 0 .......1   2  0
H 1 .......1   2  0

JEDNOSMJERNI TEST NA DONJU GRANICU – pretpostavlja se da je aritmetička sredina prvog


osnovnog skupa manja od aritmetičke sredine drugog osnovnog skupa. Pretpostavka se formulira kao
alternativna hipoteza.

H o ........1   2  0
H 1 ........1   2  0

Intervalna procjena razlike aritmetičkih sredina ako su varijance populacija poznate

Ako pretpostavimo da su varijable X1 i X2 normalno distribuirane, ted a su varijance populacija


poznate, tada su i procjenitelji nepoznatih aritmetičkih sredina dviju populacija također normalno
distribuirani. Uz pretpostavku da se procjena provodi pomoću nezavisnih uzoraka, varijanca je dana
izrazom:
𝟐 𝟐
̂ ) = 𝝈𝟏 + 𝝈𝟐
𝑽𝒂𝒓(𝑫
𝒏𝟏 𝒏𝟐

̂:
Standardna devijacija procjenitelja 𝑫

𝝈𝟐𝟏 𝝈𝟐𝟐
𝝈𝑫̂ = 𝝈𝒙̅𝟏 −𝒙̅𝟐 = √ +
𝒏𝟏 𝒏𝟐

Procjena jednim brojem:


̂=𝒙
𝒅 ̅𝟏 − 𝒙
̅𝟐

Intervalna procjena razlike sredina kada su varijance populacije poznate (tj. velikim uzorcima) uz
razinu pouzdanosti 1-α dana je izrazom:

̂ − 𝒛𝜶⁄𝟐 𝝈𝑫̂ < 𝑫 < 𝒅


𝑷 (𝒅 ̂ + 𝒛𝜶⁄ 𝝈𝑫̂ ) = 𝟏 − 𝜶
𝟐

*Intervalna procjena razlike sredina kada su varijance populacije nepoznate ( tj. malim uzorcima) uz
razinu pouzdanosti 1-α dana je izrazom:

̂ − 𝒕𝜶⁄𝟐 𝝈𝑫̂ < 𝑫 < 𝒅


𝑷 (𝒅 ̂ + 𝒕𝜶⁄ 𝝈𝑫̂ ) = 𝟏 − 𝜶
𝟐

Intervalna procjena razlike aritmetičkih sredina ako su varijance populacija nisu poznate

Ako nisu poznate ni aritmetičke sredine niti varijance normalno distribuiranih populacija, razlikujemo
dvije situacije:
a) pretpostavlja se da su nepoznate varijance dviju populacija jednake
b) pretpostavlja se da su nepoznate varijance dviju populacija nejednake

Pretpostavka da su nepoznate i jednake, 𝜎12 = 𝜎22 = 𝜎 2


- dva velika slučajna uzorka neovisno izabrani iz normalno distribuiranih populacija s nepoznatim
aritmetičkim sredinama i varijancama
- zajednička se varijanca procjenjuje tako da se zbroj kvadrata odstupanja vrijednosti iz prvog i
drugog uzorka njihovih aritmetičkih sredina podijeli brojem stupnjeva slobode
- standardna pogreška procjene razlike sredina poprima oblik:

̂ 𝟐𝟏 + (𝒏𝟐 − 𝟏)𝝈
(𝒏𝟏 − 𝟏)𝝈 ̂ 𝟐𝟐 𝒏𝟏 + 𝒏𝟐
𝝈𝑫̂ = √ ∙( )
𝒏𝟏 + 𝒏𝟐 − 𝟐 𝒏𝟏 𝒏𝟐

Pretpostavka da su varijance nepoznate i nejednake,

̂𝟐 𝝈
𝝈 ̂𝟐
𝝈𝑫̂ = √ 𝟏 + 𝟐
𝒏𝟏 𝒏𝟐
PROCJENA RAZLIKE PROPORCIJA DVIJU POPULACIJA NA OSNOVI VELIKIH
NEZAVISNIH UZORAKA

Procjena brojem – razlika proporcija odabranih uzoraka:

̂=𝒑
𝒅 ̂𝟏 − 𝒑
̂𝟐
Intervalna procjena:
̂ − 𝒛𝜶⁄ 𝝈𝑫̂ < 𝐷 < 𝒅
𝑷=𝒅 ̂ + 𝒛𝜶⁄ 𝝈𝑫̂ = 𝟏 − 𝜶
𝟐 𝟐

Standardna pogreška procjene:

𝒑̂ 𝟏 (𝟏 − 𝒑
̂𝟏) 𝒑̂ 𝟐 (𝟏 − 𝒑
̂𝟐)
𝝈𝒑̂𝟏−𝒑̂𝟐 = √ +
𝒏𝟏 𝒏𝟐

HI KVADRAT TEST

Hi kvadrat test je jedan od najčešće korištenih neparametarskih testova u empirijskim istraživanjima.


Neparametarski testovi se koriste kada je oblik distribucije populacije, iz koje se izabire slučajni
uzorak, nepoznat. Želimo utvrditi jesu li odstupanja empirijskih frekvencija (𝑓𝑖 ) od očekivanih
frekvencija (𝑒𝑖 ) statistički značajna. Hi kvadrat test proporcija koristimo kada imamo tri ili više
populacija.

Postoje tri vrste testa:

 test hipoteze o obliku distribucije populacije


 test o nezavisnosti dviju varijabli (TABLICA KONTINGENCE)

 test o jednakosti proporcija triju ili više nezavisnih populacija

TEST HIPOTEZE O OBLIKU DISTRIBUCIJE POPULACIJE

Hi-kvadrat testom o obliku distribucije populacije testira se je li empirijska distribucija značajno


različita od pretpostavljene (teorijske) distribucije. Test se još naziva i „testom kvalitete prilagodbe“ s
pretpostavljenom distribucijom.

Hipoteze testa:
H0: Distribucija populacije je pretpostavljenog oblika.
H1: Distribucija populacije nije pretpostavljenog oblika.

Ako je nulta hipoteza istinita, empirijske se frekvencije neće značajno razlikovati od očekivanih
frekvencija. Pomoću hi-kvadrat testa zaključuje se jeli razlika rezultat slučajnosti ili ne. Ako je razlika
slučajna (nije statistički značajna), može se zaključiti da je distribucija populacije pretpostavljenog
oblika.
Npr. ako pretpostavimo da se jednak broj studenata opredijelio za svaki smjer, nultom hipotezom se
pretpostavlja da je distribucija studenata prema modalitetima obilježja (smjer na studiju) u populaciji
jednolikog oblika.

Postupak testiranja hipoteze:


1) Podatci slučajno izabranog uzorka se grupiraju prema modalitetima kvalitativne varijable (ili ako je
kvantitativna, formiramo distribuciju frekvencija s razredima)
2) Računamo očekivane frekvencije tako da veličinu uzorka n množimo sa vjerojatnostima 𝑝(𝑜𝑖 ) →
(𝑒𝑖 ) = 𝑛 ∙ 𝑝(𝑜𝑖 )
3) Izračunavamo testnu veličinu prema izrazu

𝒌
𝟐
(𝒇𝒊 − 𝒆𝒊 )𝟐
𝝌 =∑
𝒆𝒊
𝒊=𝟏

k – broj modaliteta ili razreda empirijske distribucije frekvencija

Ako je testna veličina 𝝌𝟐 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 , nulta hipoteza će se
odbaciti na razini značajnosti α.

TEST HIPOTEZE O NEZAVISNOSTI DVIJU VARIJABLI

Hi-kvadrat testom o nezavisnosti dviju varijabli želi se testirati razlikuju li se značajno empirijske
frekvencije od frekvencija koje se očekuju kada bi varijable bile nezavisne. Provođenje hi-kvadrat testa
o nezavisnosti dviju varijabli zahtijeva da se formira dvodimenzijalna distribucija frekvencija (tablica
kontingence).

Hi-kvadrat testom se ispituje pretpostavka o nezavisnosti varijabli X i Y, definirana hipotezama:

H0: X i Y su nezavisne varijable


H1: X i Y nisu nezavisne varijable
Formalno zapisane hipoteze:
𝑯𝟎: 𝒑(𝒙𝒊, 𝒚𝒋 ) = 𝒑(𝒙𝒊 ) 𝒑(𝒚𝒋 )
𝑯𝟏: ∃𝒊, 𝒋 𝒑(𝒙𝒊 , 𝒚𝒋 ) ≠ 𝒑(𝒙𝒊 ) 𝒑(𝒚𝒋 )

Na temelju empirijskih frekvencija 𝑓𝑖𝑗 (i predstavlja redak, a j stupac) i očekivanih frekvencija 𝑒𝑖𝑗
izračunava se hi-kvadrat testna veličina:

𝒓 𝒄
𝟐
(𝒇𝒊𝒋 − 𝒆𝒊𝒋 )𝟐
𝝌 = ∑∑
𝒆𝒊𝒋
𝒊=𝟏 𝒋=𝟏

Očekivane frekvencije: 𝑹𝒊 ∙ 𝑪𝒋
𝒆𝒊𝒋 =
𝒏

Broj stupnjeva slobode ovisi o broju redaka r i broju stupaca c, tj. 𝒅𝒇 = (𝒓 − 𝟏)(𝒄 − 𝟏)
Ako je testna veličina 𝝌𝟐 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 , nulta hipoteza će se
odbaciti na razini značajnosti α.

TEST O JEDNAKOSTI PROPORCIJA TRIJU ILI VIŠE POPULACIJA

Test o jednakosti proporcija triju ili više populacija je specijalni slučaj hi-kvadrat testa o nezavisnosti
varijabli, ako je jedna od varijabli dihotomna. Iako se kod oba testa jednako definira testna veličina,
postavljene hipoteze i zaključak testa su različiti. Naime, kod testa nezavisnosti iz populacije izabire se
jedan slučajni uzorak, dok se kod testa o jednakosti proporcija triju ili više populacija izabire po jedan
slučajni uzorak iz svake populacije.

Hipoteze se definiraju na sljedeći način:


𝑯𝟎: 𝒑𝟏 = 𝒑𝟐 = 𝒑𝟑 = ⋯ = 𝒑𝒌
𝑯𝟏: ∃𝒑𝒊 ≠ 𝒑𝒋 𝒛𝒂 𝒊 ≠ 𝒋, 𝒊, 𝒋 = 𝟏, 𝟐, 𝟑, … , 𝒌

Ho → proporcije svih osnovnih skupova su jednake


H1 → postoji barem jedna proporcija koja se razlikuje od ostalih, tj. proporcije svih osnovnih skupova
nisu jednake

Testna veličina je oblika: 𝒌 𝒌


𝟐
(𝒎𝒋 − 𝒆𝒋 )𝟐 (𝒏𝒋 − 𝒎𝒋 − 𝒆𝑪𝒋 )𝟐
𝝌 =∑ +∑
𝒆𝒋 𝒆𝑪𝒋
𝒋=𝟏 𝒋=𝟏

Očekivane frekvencije računaju se pomoću ove formule: 𝒆𝒋 = 𝒏𝒋 𝒑


̅
Veličina svakog uzorka 𝑛𝑗 množi se sa zajedničkom proporcijom 𝑝̅.

Zajednička proporcija:
𝒎 𝒎𝟏 + 𝒎𝟐 + 𝒎𝟑 + ⋯ + 𝒎𝒌
̅=
𝒑 =
𝒏 𝒏𝟏 + 𝒏𝟐 + 𝒏𝟑 + ⋯ + 𝒏𝒌

Ako je testna veličina 𝝌𝟐 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 , nulta hipoteza će se
odbaciti na razini značajnosti α.
REGRESIJSKA ANALIZA
Njom se ispituje ovisnost jedne (zavisne) varijable o drugoj (nezavisnoj) varijabli ili o više drugih
(nezavisnih) varijabli, npr.proizvodnja o broju zaposlenih, potrošnja o visini plaće. Najzastupljenije
metode u analizi statističke povezanosti: korelacijska i regresijska analiza.

Korelacijska analiza – utvrđujemo smjer i jakost povezanosti dviju slučajnih varijabli x i y koje se
tretiraju simetrično
Regresijska analiza – pretpostavlja se odnos između zavisne varijable (y) i nezavisne varijable (x).
Cilj je procijeniti prosječnu vrijednost zavisne varijable na temelju zadanih (fiksnih) vrijednosti
nezavisne varijable

DIJAGRAM RASIPANJA – grafički prikaz točaka u oravokutnom koordinatnom sustavu na temelju


koje se analizira povezanost dviju varijabli. Analizom oblika “raspršenosti” točaka utvrđuje se oblik,
smjer i intenzitet povezanosti dviju pojava. Nagib pravca upućuje na smjer povezanosti varijabli, a
raspršenost točaka oko zamišljenog pravca ukazuje na jačinu veze. Što je raspršenost manja, jača je
linearna povezanost varijabli i obrnuto.

ZAVISNA VARIJABLA – varijabla čije se varijacije objašnjavaju


NEZAVISNE VARIJABLE – varijable kojima se objašnjavaju varijacije zavisne varijable
REGRESIJSKI MODEL – jednadžba ili skup jednadžbi s konačnim brojem parametara i varijabli
 linearni
 nelinearni

MODEL JEDNOSTAVNE LINEARNE REGRESIJE – pretpostavlja linearnu povezanost između


zavisne varijable y i jedne nezavisne varijable x.
Model populacije: 𝒚 = 𝜷𝟎 + 𝜷 𝟏 + 𝜺

Zadatak je regresijske analiza pronaći procjene nepoznatih parametara 𝛽0 i 𝛽1 , te procjena nepoznate


varijance 𝜎 2 slučanih varijabli 𝜀𝑖 .

Rezidualno odstupanje - razlika između stvarne vrijednosti zavisne varijable 𝑦𝑖 i njene procijenjene
vrijednosti, dano je jednadžbom: 𝜺̂𝒊 = 𝒚𝒊 − 𝒚
̂𝒊

Vrijednost 𝒚 ̂𝒊 se naziva regresijska vrijednost i leži na pravcu 𝒚 ̂𝟎 + 𝜷


̂𝒊 = 𝜷 ̂ 𝟏 𝒙𝒊 koji se naziva
regresijski pravac. Regresijski pravac uvijek prolazi točkom 𝑇(𝑥̅ , 𝑦̅).
Najčešće korištena metoda procjene regresijskih parametara je metoda najmanjih kvadrata.
Minimiziranjem zbroja kvadrata rezidualnih odstupanja dobiva se sustav normalnih jednadžbi čijim se
rješavanjem dolazi do izraza za izračunavanje regresijskih koeficijenata:

∑ 𝒙𝒊 𝒚𝒊 − 𝒏𝒙𝒚
̅̅̅̅
̂𝟏 =
𝜷
∑ 𝒙𝟐𝒊 − 𝒏𝒙̅𝟐 ̂𝟎 = 𝒚
𝜷 ̂ 𝟏𝒙
̅−𝜷 ̅

Procjenjeni model (model uzorka): ̂𝟎 + 𝜷


̂ 𝟏𝒙
̂=𝜷
𝒚

KONSTANTNI ČLAN 𝜷 ̂ 𝟎 - predstavlja vrijednost regresije u slučaju kada je nezavisna varijabla


jednaka nuli
REGRESIJSKI KOEFICIJENT 𝜷 ̂ 𝟏 - pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako
se nezavisna varijabla poveća za jedinicu. On određuje nagib regresijskog pravca 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 .

REGRESIJSKE VRIJEDNOSTI I REZIDUALNA ODSTUPANJA


Ako se u procijenjenu jednadžbu uvrsti stvarna vrijednost nezavisne varijable, dobiva se regresijska
(procijenjena) vrijednost zavisne varijable koja se razlikuje od stvarne (empirijske) vrijednosti. Razlika
je rezidualno odstupanje:
𝜺̂𝒊 = 𝒚𝒊 − 𝒚
̂𝒊

Vrijednosti 𝜺̂𝒊 su rezidualna odstupanja izražena u mjernim jedinicama zavisne varijable y (apsolutno
rezidualno odstupanje). Relativna rezidualna odstupanja definiraju se kao:

𝜺̂𝒊
𝜺̂𝒊,𝒓𝒆𝒍 = ∙ 𝟏𝟎𝟎%
𝒚𝒊

Intervalne procjene parametara u modelu jednostavne linearne regresije

Varijable pridružene procjeniteljima 𝛽̂0 i 𝛽̂1 imaju Studentovu t –distribuciju s 𝑑𝑓 = 𝑛 − 2 stupnja


slobode. Ako se parametri regresijskog modela procjenjuju uz pouzdanost (1-α) intervalna procjena
konstantnog člana je:
𝑷(𝜷 ̂ 𝟎 − 𝒕𝜶⁄ 𝝈𝜷̂ < 𝜷𝟎 < 𝜷̂ 𝟎 + 𝒕𝜶⁄ 𝝈𝜷̂ ) = 𝟏 − 𝜶
𝟐 𝟎 𝟐 𝟎
Intervalna procjena regresijskog parametra:
̂ 𝟏 − 𝒕𝜶 𝝈𝜷̂ < 𝜷𝟏 < 𝜷
𝑷(𝜷 ̂ 𝟏 + 𝒕𝜶 𝝈𝜷̂ ) = 𝟏 − 𝜶
⁄ 𝟐𝟏 ⁄
𝟐 𝟏

ANALIZA VARIJANCE U MODELU JEDNOSTAVNE LINEARNE REGRESIJE

Nas zanima je li procijenjeni regresijski model reprezentativan, koliko dobro varijabla x “objašnjava”
zavisnu varijablu y? Kako bi se odredilo koliko dobro varijabla x objašnjava varijaciju zavisne
varijable y, tj. koliko je procijenjeni regresijski model dobar, polazi se od rastava zavisne varijable
procijenjene na bazi uzorka. Procjena varijance varijable y rastavlja se na dvije komponente: dio
varijance protumačen modelom i rezidualni dio (dio neprotumačen modelom). Dobivamo jednadžbu:

y  y     yˆ i  y     yi  yˆ i 
2 2 2
i

ST  SP  SR

ST – ukupan zbroj kvadrata


SP – protumačeni zbroj kvadrata
SR – rezidualni ili neprotumačeni
zbroj kvadrata
yi - empirijske ili stvarne
vrijednosti zavisne varijable
y - aritmetička sredina zavisne
varijable
ŷi - regresijske vrijednosti

Ukupan zbroj kvadrata (𝑺𝑻 = ∑(𝒚𝒊 − 𝒚 ̅)𝟐) – zbroj kvadrata odstupanja empirijskih vrijednosti
zavisne varijable y od prosjeka
Protumačeni zbroj kvadrata (𝑺𝑷 = ∑(𝒚 ̅)𝟐 ) – zbroj kvadrata odstupanja regresijskih vrijednosti
̂𝒊 − 𝒚
od prosjeka
Rezidualni ili neprotumačeni zbroj kvadrata (𝑺𝑹 = ∑(𝒚𝒊 − 𝒚 ̂𝒊 )𝟐 ) – posljedica slučajnih i
neočekivanih odstupanja empirijskih od regresijskih vrijednosti

Ako se zbrojevi kvadrata podijele s odgovarajućim stupnjevima slobode, dolazi se do sredina kvadrata
koje su nezavisne procjene komponenti varijance.
Navedene veličine se prikazuju u tablici analize varijance (ANOVA):

Izvor varijacije Stupnjevi Zbroj Sredina Empirijski


slobode kvadrata kvadrata F-omjer
Protumačen 1 SP 𝑆𝑃
modelom 𝑆𝑃
1 1
Neprotumačen n-2 SR 𝑆𝑅 𝑆𝑅
modelom 𝑛−2
(rezidualna 𝑛−2
odstupanja)
Ukupno n-1 ST

Osnove za mjerenje reprezentativnosti regresije su rezidualna odstupanja.

Procjena varijance regresije – rezidualni zbroj kvadrata podijeljen s df=n-2 stupnjeva slobode:

𝑺𝑹 ̂ 𝒊 )𝟐
∑(𝒚𝒊 − 𝒚
̂𝟐
𝝈 = =
𝒏−𝟐 𝒏−𝟐

Procjena standardne devijacije regresije – prosječno odstupanje empirijskih vrijednosti od


regresijskih vrijednosti, izražena apsolutno tj. u mjernim jedinicama varijable y:

𝑺𝑹 ̂ 𝒊 )𝟐
∑(𝒚𝒊 − 𝒚
̂=√
𝝈 =√
𝒏−𝟐 𝒏−𝟐

Procjena koeficijent varijacije regresije – pripadna relativna mjera:


̂
𝝈
̂=
𝑽 ∙ 𝟏𝟎𝟎%
̅
𝒚

Koeficijent determinacije 𝑹𝟐 i koeficijent linearne korelacije r

Kao jedna od mjera reprezentativnosti procijenjenog (regresijskog) modela uzima se proporcija


varijacije varijable y protumačena modelom u ukupnoj sumi kvadrata odstupanja, tj. koeficijent
determinacije:
𝑺𝑷 𝑺𝑹
𝑹𝟐 = =𝟏−
𝑺𝑻 𝑺𝑻
On je specifičan pokazatelj reprezentativnosti regresije koji poprima vrijednost iz intervala [0,1]. Što je
veći dio varijance varijable y protumačen modelom, SP≈ST pa je 𝑅2 ≈1. Mi želimo protumačiti što više
odstupanja pa je regresija reprezentativnija što se koeficijent determinacije više približava jedinici.
Pored koeficijenta determinacije promatra se i korigirani koeficijent determinacije:

𝒏−𝟏
̅𝟐 = 𝟏 −
𝑹 (𝟏 − 𝑹𝟐 )
𝒏−𝟐

KORELACIJSKA ANALIZA – njome se određuju jakosti veze. Mjera jakosti veze je koeficijent
korelacije. Koeficijent determinacije povezan je s koeficijentom linearne korelacije, pokazateljem
smjera i jakosti linearne povezanosti varijabli x i y. Što je model reprezentativniji, to bi i korelacija
među varijablama trebala biti veća.
Koeficijent korelacije drugi je korijen iz koeficijenta determinacije: r   r
2

Predznak koeficijenta ovisi o predznaku regresijskog koeficijenta 𝛽1 . Znači, ako je 𝛽1 pozitivan,


koeficijent linearne korelacije biti će isto pozitivan i obrnuto → sign r  sign b 1 r  1

Ako je koeficijent korelacije jednak nula, među pojavama ne postoji veza.


Ako je koeficijent korelacije jednak -1, veza je potpuna i negativnog smjera.
Ako je koeficijent korelacije jednak +1, veza je potpuna i pozitivnog smjera.

Primjer 1.
U 6 prodavaonica na području A registriran je slijedeći broj zaposlenih i ostvareni promet u tisućama
kn.
broj promet xi
2
yi
2
xi y i
zaposlenih
xi yi
2 25 4 625 50
3 31 9 961 93
8 85 . . .
4 51 . . .
7 69 . . .
6 65 . . .
30 326 178 20398 1900

a) Odredite status varijabli u modelu!


Zavisna varijabla (y) – promet u tisućama kuna
Nezavisna varijabla (x) – broj zaposlenih

b) Nacrtajte dijagram rasipanja!


Konstruira se u pravokutnom koordinatnom sustavu. Na osi-x nalazi se aritmetičko mjerilo za
nezavisnu varijablu (x), a na osi-y mjerilo za zavisnu varijablu (y). Predstavlja pomoćno sredstvo za
izbor oblika funkcije u modelu.
x
x i 30
5
n 60

y
 yi  326  54.33
n 6

Iz dijagrama rasipanja se zaključuje o :


1. obliku veze – oblik veze je linearan
2. smjeru veze – smjer je pozitivan
3. jakosti veze – veza je relativno jak

Interpretacija:
β0 (konstantni član) – Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08
tisuća kuna.
β 1(regresijski koeficijent) – Ako se broj zaposlenih poveća za jednu osobu tada će se ukupan promet
povećati linearno i u prosjeku za 9.65 tisuća kuna.

Primjer 1.
ˆ ˆ
Dana je regresijska jednadžba : yˆ  125 0.092
.03
x
 ˆ

U kojim se granicama može očekivati da će se naći parametar β? Pouzdanost procjene je 95%, a n=25.

s.s.  n  k  1  n  2  23 P0.92  2.069  0.03    0.92  2.069  0.03  0.95


n 2  23 
t  t 0.025  2.069 P0.85793    0.98207   0.95
2
Uz pouzdanost od 95% očekuje se da će se nepoznati parametar naći unutar ovih granica.

TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE


Testiranje hipoteza o pretpostavljenoj vrijednosti regresijskog parametra (ili konstante) u modelu
jednostavne linearne regresije najčešće se provodi na temelju t-testa ili F-testa. Za danu razinu
značajnosti (signifikantnosti α), testna veličina uspoređuje se s teorijskom (kritičnom) vrijednosti.
Testovi mogu biti dvosmjerni ili jednosmjerni.

Testiranje provodimo kako bismo saznali je li nezavisna varijabla x značajna u modelu. Nultnom
hipotezom se pretpostavlja da je varijabla x suvišna i da statistički značajno ne objašnjava varijacije
zavisne varijable y. Hipoteze testa mogu se zapisati kao:

𝑯𝟎: 𝒚 = 𝜷𝟎 + 𝜺 ili alternativno (češće)  𝑯𝟎: 𝜷𝟏 = 𝟎


𝑯𝟏: 𝒚 = 𝜷𝟎 + 𝜷𝟏 + 𝜺 𝑯𝟏: 𝜷𝟏 ≠ 𝟎
Ovim je hipotezama opisan dvosmjerni test, iako se češće koristi jednosmjeran jer se može
pretpostaviti smjer povezanosti varijabli u modeliu. Ako se pretpostavlja da je povezanost varijabli
pozitivnog smjera, definira se jednosmjerni test na gornju granicu, a ako se pretpostavlja negativna
povezanost, jednosmjerni test na donju granicu.

Jednosmjerni test na Jednosmjerni test na donju


gornju granicu granicu
𝐻0: 𝛽1 = 0 𝐻1: 𝛽1 = 0
𝐻1: 𝛽1 > 0 𝐻1: 𝛽1 < 0

Testiranje možemo provesti pomoću t -testa i F testa:

t – test
ˆ
Testna veličina je empirijski t-omjer koji se računa pomoću formule: t 
 ˆ
Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću koja se očitava iz
tablica. Test se može provesti kao dvosmjerni ili jednosmjerni (na donju ili gornju granicu).
Ako je β<0  jednosmjerni test na donju granicu
Ako je β>0  jednosmjerni test na gornju granicu

F – TEST

Test značajnosti regresorske varijable x moguće je provesti i pomoću F – testa. U slučaju modela
jednostavne regresije, F – test je ekvivalentan t – testu. Ako pogledamo tablicu ANOVA, testna
veličina (empirijski F –omjer) se definira kao omjer protumačene i neprotumačene (rezidualne)
sredine kvadrata, tj.

n
𝑆𝑃
  yˆ  y
2

𝐹= 1
i
i 1
F 𝑆𝑅
Ili ˆ 2 𝑛−2

Formula za procijenu varijance 𝜎̂ 2 je ustvari omjer SR/(n-2), što smo ubacili u drugoj formuli za F.
Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću 𝑭𝜶𝒌,𝒏−(𝒌+𝟏) koja se
očitava iz tablica.

t - TEST ̂𝟏
𝜷
𝒕𝟏 =
Testna veličina (empirijski t-omjer) : 𝝈𝜷̂𝟏

Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću koja se očitava iz


tablica.
Primjer 2.
ˆ ˆ
Dana je regresijska jednadžba: yˆ  125 0.92 x
0.03
 ˆ

Može li se prihvatiti pretpostavka da je varijabla x suvišna u modelu? Testirati na razini 5%


signifikantnosti. n=25. Primjenite t-test.
H 0 .......  0 ˆ 0.92   0.05
 dvosmjerni test  t   30.667 
H 1 .......  0  ˆ 0.03 t 023 
.025  2.069

ODLUKA:
t  t  H o
2
 30.667  2.069  H1
t  t  H1
2
Nezavisna varijabla x nije suvišna u modelu.

PREDVIĐANJE I PROGNOZIRANJE

Jedna od zadaća regresijske analize je i predviđanje vrijednosti zavisne varijable y za pretpostavljenu


vrijednost nezavisne varijable 𝑥 = 𝑥0 . Prognostička vrijednost zavisne varijable 𝑦̂0 je:

̂ +𝜷
̂𝟎 = 𝜷
𝒚 ̂ 𝒙𝟎
𝟎 𝟏

Prognostičku vrijednost 𝑦̂0 se dobiva na isti način kao i regresijska vrijednost, uvrštavanjem (stvarne
ili pretpostavljene) vrijednosti nezavisne varijable 𝑥 = 𝑥0 u procijenjenu regresijsku jednadžbu.

Prognostički interval: 𝑷(𝒚


̂ 𝟎 − 𝒕𝜶⁄ 𝝈𝒚̂ < 𝒚𝟎 < 𝒚
̂ 𝟎 + 𝒕𝜶⁄ 𝝈𝒚̂
𝟎 𝟐 𝟎 𝟐
MODEL VIŠESTRUKE REGRESIJE (MULTIPLA REGRESIJA)

Njime se izražava ovisnost jedne varijable o više drugih varijabli. Model jednostavne linearne
regresije, kojim se analizira utjecaj jedne nezavisne varijable x na zavisnu varijablu y, često je u praksi
neadekvatan jer se pretpostavlja da će na nezavisnu varijablu y utjecati više nezavisnih varijabli (k-broj
nezavisnih varijabli u modelu).

ANALIZA MODELA VIŠESTRUKE LINEARNE REGRESIJE

Model osnovnog skupa (populacije): 𝒚 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟏 𝒙𝟐 + ⋯ + 𝜷𝒋 𝒙𝒋 + ⋯ + 𝜷𝟏 𝒙 𝟏 + 𝜺

Procjenjeni model (model uzorka): ̂𝟎 + 𝜷


̂ 𝟏 𝒙𝟏 + ⋯ + 𝜷
̂ 𝒋 𝒙𝒋 + ⋯ + 𝜷
̂ 𝒌 𝒙𝒌
̂=𝜷
𝒚

Polazne pretpostavke u analizi modela višestruke linearne regresije:

Za procjenjivanje parametra koristi se metoda najmanjeg kvadrata


̂ 𝟎 - konstantni član – predstavlja procijenjenu vrijednost zavisne varijable kada su nezavisne
𝜷
varijable jednake 0.
̂ 𝟏 - regresijski koeficijent – pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se
𝜷
nezavisna varijabla xj poveća za jedan uz uvjet da ostale nezavisne varijable ostanu nepromijenjene.

Regresijske vrijednosti – određuju se uvrštavanjem vrijednosti nezavisnih varijabli u regresijsku


jednadžbu.
Rezidualna odstupanja – odstupanja empirijskih vrijednosti od regresijskih izražena apsolutno:

eˆi  yi  yˆ i

y i  yˆ i
Relativna rezidualna odstupanja eˆ i ,rel   100
yi

y i  yˆ i
Standardizirana rezidualna odstupanja eˆ i ,rel   100
ˆ
*PROCJENA VARIJANCE I STANDARDNE DEVIJACIJE REGRESIJE

y  yˆ i  y  yˆ i 
2 2
SR
ˆ   ˆ 
2 i i

n  k  1 n  k  1 n  k  1

Varijanca je omjer zbroja kvadrata rezidualnih odstupanja i broja stupnjeva slobode 𝑑𝑓 = 𝑛 − (𝑘 +


1). Procjena standardne devijacije je pozitivan drugi korjen iz procjene varijance regresije i
interpretira se kao prosječno odstupanje empirijskih vrijednosti zavisne varijable od regresijskih
(procijenjenih) vrijednosti. Ona je apsolutna mjera izražena u mjernim jedinicama varijable, dok je
odgovarajuća relativna mjerna disperzije procjena koeficijenta varijacije regresije:

̂
𝝈
̂=
𝑽 ∙ 𝟏𝟎𝟎%
̅
𝒚

INTERVALNE PROCJENE PARAMETARA U MODELU VIŠESTRUKE LINEARNE


REGRESIJE

 
Intervalna procjena regresijskog parametra: P  ˆ j  t   ˆ j    ˆ j  t   ˆ j   1   
 2 2 

ANALIZA VARIJANCE U MODELU VIŠESTRUKE LINEARNE REGRESIJE

*ANOVA tablica:
Izvor varijacije Stupnjevi Zbroj Sredine Empirijski
slobode kvadrata kvadrata f-omjer
Protumačen k SP SP SP
modelom k k
SR
n  k  1
Neprotumačena n-(k+1) SR SR /
modelom n  k  1
(rezidualna)
odstupanja
Ukupno n-1 ST / /

k – broj nezavisnih varijabli

ST – ukupni zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od prosjeka rastavalja
se na:
SP – zbroj kvadrata odstupanja regresijskih vrijednosti od prosjeka (tj. zbroj kvadrata protumačen
modelom)
SR – zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti, tj.
rezidualni ili neprotumačeni zbroj kvadrata.
KOEFICIJENT DETERMINACIJE I KORIGIRANI KOEFICIJENT DETERMINACIJE

Proporcija ukupne varijabilnosti zavisne varijable protumačena modelom je koficijent determinacije


𝑅2 i najčešće je korištena mjera reprezentativnosti regresijskog modela. Model je to reprezentativniji
što je koeficijent determinacije bliže jedinici. Pozitivan drugi korijen je koeficijent višestruke linearne
korelacije R, mjera jakosti linearne statističke povezanosti zavisne varijable y i skupa nezavisnih
varijabli 𝑥1 , 𝑥2 , … , 𝑥𝑘 . On je uvijek pozitivan, te što je bliže 1 to je među varijablama x i y jača veza.
Povezanost varijable y i pojedine nezavisne varijable može biti različitog smjera.

  yˆ  y
2
SP 𝑺𝑷 𝑺𝑹
R 2

i
 𝑹𝟐 = =𝟏− 𝑹 = √𝑹𝟐
y  y 𝑺𝑻 𝑺𝑻
2
i
ST

Jedan od nedostataka koeficijenta determinacije je što se vrijednost povećava s brojem nezavisnih


varijabli u modelu te se zbog toga umjesto 𝑅2 promatra korigirani koeficijent determinacije:

𝒏−𝟏 ̅ 𝟐 ≤ 𝑹𝟐
𝑹
̅𝟐 = 𝟏 −
𝑹 (𝟏 − 𝑹𝟐 )
𝒏 − ( 𝒌 + 𝟏)
TESTIRANJE HIPOTEZA O MODELU VIŠESTRUKE REGRESIJE

U postupku testiranja hipoteza o značajnosti regresorske varijable u modelu višestruke linearne


regresije najčešće se provode slijedeći testovi:
1. Parcijalni test – testira se značajnost podskupa regresorskih varijabli
2. Pojedinačni test – testira se značajnost jedne nezavisne (regresorkse) varijable. Može se
provesti i kao f-test i kao t-test
3. Skupni test (F – test- test značajnosti regresije)– testira se značajnost svih nezavisnih varijabli u
modelu.

* t – TEST ZNAČAJNOSTI REGRESORSKE VARIJABLE

Ovisno o tome je li poznat smjer povezanosti zavisne varijable y i regresorske varijable 𝑥𝑗 , test može
biti dvosmjeran ili jednosmjeran. Nultom hipotezom se uvijek pretpostavlja da je varijabla 𝑥𝑗 suvišna u
modelu (𝛽0 = 0) i da statistički nije značajna. Alternativna hipoteza se oblikuje u skladu s
pretpostavkom istraživača. Pojedinačni test provodi se jednako kao i u jednostavnoj linearnoj regresiji,
testiramo onu regresorsku varijablu za čiju nas nezavisnu varijablu pita je li značajna u modelu.
Također, kao i kod jednostavne linearne regresije testiranje se može provesti putem t-testa i F-testa.

Testna veličina: ̂𝒋
𝜷
𝒕𝒋 =
𝝈𝜷̂𝒋

Pripada t-distribuciji s 𝑑𝑓 = 𝑛 − (𝑘 + 1) stupnjeva slobode. Odluka se uz razinu značajnosti α donosi


usporedbom testne veličine 𝑡𝑗 i teorijske vrijednosti.
*F – TEST ZNAČAJNOSTI REGRESIJE

Skupni test je test značajnosti svih regresorskih (nezavisnih) varijabli. Test veličina je empirijski f-
omjer iz tabele ANOVA. Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom
vrijednošću s 𝑑𝑓1 = 𝑘 stupnjeva slobode u brojniku i 𝑑𝑓2 = 𝑛 − (𝑘 + 1) stupnjeva slobode u
nazivniku, koja se očitava iz tablica.

H0: Nultnom hipotezom se pretpostavlja da niti jedna nezavisna varijabla nije značajna u modelu, tj.
da su svi regresorski parametri jednaki nula.
H1: Alternativnom hipotezom se pretpostavlja da je barem jedna varijabla značajna u modelu.

Hipoteze testa su:

H 0 ........ 1   2  ....   j   k  0
H 1 ........ j  0

Testna veličina:
𝑺𝑷 𝑹𝟐
𝑭= 𝒌 = 𝒌
𝑺𝑹 𝟏 − 𝑹𝟐
𝒏 − (𝒌 + 𝟏) 𝒏 − (𝒌 + 𝟏)
𝛼
Uz razinu značajnosti α, 𝐻0 se odbacuje ako je 𝐹 > 𝐹[𝑘,𝑛−(𝑘+1)] , tj. ako je empirijski F – omjer veći od
𝛼
𝐹[𝑘,𝑛−(𝑘+1)] .

Izvor Stupnjevi Zbroj Sredina F – omjer


varijacije slobode kvadrata kvadrata
Protumačen k SP 𝑆𝑃 𝑆𝑃
modelom 𝑘 𝑘
Neprotumačen n-(k+1) SR 𝑆𝑅 𝑆𝑅
modelom 𝑛 − (𝑘 + 1)
𝑛 − (𝑘 + 1)
Ukupno n-1 ST
REGRESIJSKA ANALIZA VREMENSKOG NIZA

MODELI VREMENSKIH SERIJA – njima se opisuje razvoj pojava u vremenu.


Vremenska serija se može raščlaniti na slijedeće komponente:
 Trend komponenta – predstavlja osnovnu tendenciju razvoja pojave u vremenu. Izražava se
nekom funkcijom vremena. S obzirom na tu funkciju vremena trend može biti linearni i
eksponencijalni.
 Sezonska komponenta – prisutna je kada se vremenska pojava u promatranom vremenskom
razdoblju obnavlja sličan način unutar godine dana ili kraće. Primjer su dolasci turista po
mjesecima, kvartalni promet u morskim lukama is l.
 Ciklička komponenta – prisutna je kada se vremenska pojava obnavlja na sličan način u periodu
koji je dulji od godine dana.
 Slučajna (iregularna, rezidualna) komponenta – odražava nesistematske utjecaje na pojavu koji
“skreću” pojavu od njezina osnovnog tijeka. Primjer su vremenski uvijeti kao nenadana kiša koja
može promijeniti dinamiku prodaje u trgovačkom centru.

Slučajna komponenta je uvijek prisutna, dok sistematske (trend, sezonska i ciklička) mogu al ii ne
moraju nužno biti prisutne u vremenskom nizu.

Opći oblik aditivnog modela: Y  T  C  S  e Y – pojava koju promatramo


T – vrijednost komponente trenda
C – vrijednost cikličke komponente
S – vrijednost sezonske komponente
e – vrijednost slučajne komponente
U kratkom vremenskom razdoblju trend i ciklus komponente se ne razdvajaju pa se model može pisati:
Y  TC  S  e ili Y T  Se T – komponenta trend ciklusa

I s  sezonska komponenta
opći oblik multiplikativnog modela: Y  T  I s  I 
I   sluč . komponenta

MODELI TRENDA – njima se statistički opisuje dugoročna kovarijacija pojave sa vremenom

1. ADITIVNI MODEL: Y  T  e Y  vrijednosti vremenske serije


2. MULTIPLIKATIVNI MODEL: Y  T  I  T  vrijednosti komponente trenda
e, I   sluč . odstupanja od trenda

xt  nezavisna var ijabla vrijeme koja


3. MODEL LINEARNOG TRENDA: Yt    xt  et
dogovorno poprima vrijednosti
4. MODEL EKSPONENCIJALNOG TRENDA: Yt     t   t
x
prvih n prirodnih brojeva
et  sluč . odstupanja
 ,   parametri
Trend – polinom

Trend model je specijalni slučaj regresijskog modela u kojem je zavisna varijabla y promatrana pojava,
a nezavisna varijabla x je vrijeme!

Procijenjena jednadžba trend polinoma k –tog stupnja: ̂𝟎 + 𝜷


̂𝒕 = 𝜷
𝒚 ̂ 𝟏 𝒙𝒕 + 𝜷
̂ 𝟐 𝒙𝟐𝒕 + ⋯ + 𝜷
̂ 𝒌 𝒙𝒌𝒕

Trend – polinom prvog stupnja

Procijenjena jednadžba linearnog trenda: ̂𝟎 + 𝜷


̂𝒕 = 𝜷
𝒚 ̂ 𝟏 𝒙𝒕

Jednadžba linearnog trenda se značajno ne razlikuje od jednadžbe jednostavne regresije jer je model
linearnog trenda specijalni slučaj modela jednostavne linearne regresije u kojem je nezavisna varijabla
vrijeme.

Parametri linearnog trenda procjenjuju se metodom najmanjih kvadrata. Procjene parametara su:

∑ 𝒙𝒕 𝒚𝒕 − 𝒏𝒙
̅𝒚̅
̂𝟏 =
𝜷 𝟐
∑ 𝒙𝒕 − 𝒏𝒙̅𝟐 ̂𝟎 = 𝒚
𝜷 ̂ 𝒚𝒙
̅−𝜷 ̅

Procijenjeni parameter 𝐵̂0 je konstantni član i interpretira se kao vrijednost trenda za razdoblje koje
prethodi prvom razdoblju analiziranog vremenskog niza, odnosno kada je 𝑥𝑡 = 0. Procijenjeni
parametar 𝛽̂1 (regresijski koeficijent u modelu jednostavne linearne regresije) je prosječna promjena
razine pojave po jedinici vremena.

Jednadžba trenda se kao i regresijska jednadžba koristi u prognostičke svrhe. Prognoziranje na osnovi
procijenjene jednadžbe trenda je smisleno samo ako je realno pretpostaviti da će se pojava nastaviti
kretati u približno jednakim uvjetima i na približno jednak način. Prognostičku vrijednost pojave za
prognostički horizont 𝝉 (broj razdoblja iza zadnjeg promatranja za koje se prognozira razina pojave),
je:
̂𝟎 + 𝜷
̂𝒏+𝝉 = 𝜷
𝒚 ̂ 𝟏 (𝒏 + 𝝉)

Prognozirati možemo i pomoću prognostičkog intervala, uz razinu pouzdanosti (1-α):

̂𝒏+𝝉 − 𝒕𝜶⁄ 𝝈𝒚̂𝒏+𝝉 < 𝒚𝒏+𝝉 < 𝒚


𝑷 (𝒚 ̂𝒏+𝝉 + 𝒕𝜶⁄ 𝝈𝒚̂𝒏+𝝉 ) = (𝟏 − 𝜶)
𝟐 𝟐

Pri čemu je 𝑡𝛼 ⁄2 koeficijent pouzdanosti koji se iščitava iz tablice Studentove t- distribucije sa


stupnjevima slobode 𝑑𝑓 = 𝑛 − 2, a 𝜎𝑦̂𝑛+𝜏 je standardna pogreška prognostičke vrijednosti definirana
formulom:

𝟏 (𝒏 + 𝝉 − 𝒙̅ )𝟐 𝟏 (𝒏 + 𝝉 − 𝒙 ̅ )𝟐
̂ √𝟏 +
𝝈𝒚̂𝒏+𝝉 = 𝝈 + = ̂
𝝈 √𝟏 + +
𝒏 ̅ )𝟐
∑(𝒙𝒕 − 𝒙 𝒏 ∑ 𝒙𝟐𝒕 − 𝒏𝒙
̅𝟐
Eksponencijalni trend

Model eksponencijalnog trenda prvog stupnja ili jednostavnog eksponencijalnog trenda prikladan je
kada se vremenska pojava mijenja od razdoblja do razdoblja za približno isti relativni iznos, tj. kada su
verižni indeksi približno konstantni.
𝒙
𝒚𝒕 = 𝜷𝟎 𝜷𝟏𝟏 𝒆𝜺𝒕
Pri čemu su 𝑦𝑡 vrijednosti promatrane pojave, 𝑥𝑡 vrijednost varijable vrijeme, 𝛽0 i 𝛽1 nepoznati
parametri, a 𝜀𝑡 nepoznate vrijednosti slučajne varijable 𝜀. Logaritamskom transformacijom model
eksponencijalnog trenda svodi se na model linearnog trenda:

𝒍𝒐𝒈𝒚𝒕 = 𝐥𝐨𝐠 𝜷𝟎 + (𝐥𝐨𝐠 𝜷𝟏 )𝒙𝒕 + 𝜺𝒕

Linearizirani model je model jednostavne linearne regresije, odnosno model jednostavnog linearnog
trenda, ali s logaritmiranim vrijednostima pojave umjesto izvornih vrijednosti. Parametri se i ovdje
procjenjuju metodom najmanjih kvadrata;

∑ 𝒙𝒕 𝒍𝒐𝒈𝒚𝒕 − 𝒙̅ ∑ 𝒍𝒐𝒈𝒚𝒕 ∑ 𝒍𝒐𝒈𝒚𝒕 ̂


̂𝟏 =
𝒍𝒐𝒈𝜷 ̂𝟎 =
𝒍𝒐𝒈𝜷 ̂ 𝟏 )̅
− (𝒍𝒐𝒈𝜷 𝒙
∑ 𝒙𝟐𝒕 − 𝒏𝒙̅𝟐 𝒏

Procijenjena jednadžba trenda u lineariziranom, logaritamskom obliku:

̂ 𝒕 = 𝒍𝒐𝒈𝜷
𝒍𝒐𝒈𝒚 ̂
̂ 𝟎 + (𝒍𝒐𝒈𝜷
̂ 𝟏 )𝒙𝒕

Eksponencijalni trend moguće je koristiti i u prognostičke svrhe, ali uz pretpostavku da će pojava imati
istu dinamiku i razvijati se u približno jednakim uvijetima kao i u promatranom razdoblju. Izraz za
prognostičku vrijednost u logaritamskom obliku je:

̂𝒏+𝝉 = 𝒍𝒐𝒈𝜷
𝒍𝒐𝒈𝒚 ̂
̂ 𝟎 + 𝒍𝒐𝒈𝜷
̂ 𝟏 (𝒏 + 𝝉)

Gdje je 𝜏 prognostički horizont, odnosno broj razdoblja za koji se pojava prognozira. Pojava se, uz
odabranu razinu pouzdanosti, prognozira i intervalom:

̂𝒏+𝝉 − 𝒕𝜶⁄𝟐 𝝈𝒍𝒐𝒈𝒚


𝑷(𝒍𝒐𝒈𝒚 ̂ ̂𝒏+𝝉 + 𝒕𝜶⁄𝟐 𝝈𝒍𝒐𝒈𝒚
< 𝑙𝑜𝑔𝒚𝒏+𝝉 < 𝒍𝒐𝒈𝒚 ̂ ) = (𝟏 − 𝜶)
𝒏+𝝉 𝒏+𝝉

Standardna pogreška eksponencijalnog trenda jednaka je standardnog pogrešci linearnog:

𝟏 (𝒏 + 𝝉 − 𝒙̅ )𝟐 𝟏 (𝒏 + 𝝉 − 𝒙 ̅ )𝟐
̂ √𝟏 +
𝝈𝒚̂𝒏+𝝉 = 𝝈 + = ̂
𝝈 √𝟏 + +
𝒏 ̅ )𝟐
∑(𝒙𝒕 − 𝒙 𝒏 ∑ 𝒙𝟐𝒕 − 𝒏𝒙
̅𝟐

Interpretacija:

 Konstantni član pokazuje nam vrijednost trenda za razdoblje prije prvog (kao i kod linearnog
trenda).
 Koeficijent eksponencijalnog trenda pokazuje za koliko će se puta promijeniti trend vrijednost,
ako se varijabla vrijeme poveća za 1.

Primjer 1. Linearni trend


Model linearnog trenda identičan je modelu jednostavne linearne regresije u kojemu je vrijeme
nezavisna varijabla. Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za
približno isti apsolutni iznos, tj. kada su prve diferencije približno konstantne.

a) Odredite vrijednosti prvih diferencija! Što se zaključuje na temelju grafa i prvih diferencijacija?
Yt  Yt  Yt 1
Ako su prve diferencije približno konstantne radi se o linearnom trendu.

b) Procijenite parametre modela linearnog trenda metodom najmanjih kvadrata!


Yˆt  a  bxt
Varijabla vrijeme – koliko podataka imamo toliko brojeva poprima (1,….,n)

x
 xt  21  3.5  xt yt  nxy  5544  6  3.5  261.83  2.604
n 6 b
  xt  nx 2 91  6  3.5 2
2

y
 t  1571  261.83
y
a  Y  bx  261.83  2.604  3.5  252.716
n 6

Yˆ  252.716  2.604 x jedinica za y je milijun s tan ovnika


jednadžba linearnog trenda:
x  1, 30.06.1992 jedinica za x je jedna godina

Interpretacija:
a (konstantni član) = 252.716
Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi
252.716 milijuna.

b (koeficijent linearnog trenda) = 2.604


Pokazuje prosječnu linearnu pojavu razine pojave za jedinični porast vrijednostii varijable vrijeme,
dakle broj stanovnika povećavao se u prosjeku linearno 2.604 milijuna godišnje
c) Odredite trend vrijednosti!
Računaju se uvrštavanjem varijable vrijeme u jednadžbu trenda.
Yˆ1  252.716  2.604  1  255.32
Procjena broja stanovnika prema trendu za 1992. iznosi 255.32 milijuna. Y  Yˆ
t t

d) Odredite rezidualna osdtupanja i protumačite im značenje!


U t  Yt  Yˆt
 U t  0 za malu decimalu se može razlikovati od 0 zbog
U 1  255  255.32  0.32
zaokruživanja
Interpretacija:
Stvarni broj stanovnika zta 1992.g. iznosi 255 milijuna, a vrijednost trenda broja stanovnika za tu
godinu 255.32 milijuna. Razlika predstavlja rezidualno odstupanje, tj. prema trendu broj
stanovnika je
precijenjen za 0.32 milijuna

e) Formulirajte tabelu ANOVA!


ST   Yt  ny 2  411459  6  261,833  129.31
2

SR   Yt  a  Yt  b xt y t  411459  252.716  1571  2.604  5544  5.59


2

SP  ST  SR  123.72

izvor varijacije stupnjevi zbroj sredina empirijski f-


slobode kvadrata kvadrata omjer
protumačen k SP SP/k SP k
modelom 1 123.72 123.72 SR n  (k  1)
88.37
neprotumačena n-(k+1) SR SR/n- /
odstupanja 4 5.59 (k+1)
1.40
ukupno n-1 ST / /
5 129.31

f) Izračunajte varijancu, standardnu devijaciju i koeficijent varijacije trenda! to su mjere


reprezentativnosti
trenda.
 
 yˆ 2   t
 ˆ 2
Y y SR 5.59 Interpretacija:
t
   0.93 Prosječno odstupanje stvarnog broja stanovnika od
n n 6
vrijednosti trenda iznosi 0.30 milijuna ili
 yˆ   yˆ 2  0.30 milijuna s tan ovnika relativno
 yˆ 0.30 0.11%.
V yˆ  100  100  0.11%
y 261.83
Na temelju ovih pokazatelja može se zaključiti da je reprezentativnost trenda velika.

You might also like