You are on page 1of 82

SKRIPTA

STATISTIKA

TEORIJA – 2. KOLOKVIJ
Verzija 1.07

ISPRINTANO U ŽUTOJ. NE KOPIRATI!


ID:10513
Bok!
Drago nam je što si odabrao SKRIPTARNICU za pronalazak materijala koji će ti pomoći u učenju.

Što je SKRIPTARNICA?

Skriptarnica je projekt Štreberaj tima i Žute kopiraone, a nastala je u želji da ti olakšamo studiranje.
Sve skripte možeš pogledati na stranici www.referada.hr, a kupiti u SKRIPTARNICI, odnosno u Žutoj
kopiraoni.

Kad se mali studenti slože… sve se može, sve se može

Ideja projekta je zajedničkim snagama napraviti što bolje materijale. Ako pronađeš nešto što je krivo u
skripti ili jednostavno želiš dati neku sugestiju, rado ćemo te poslušati. Pošalji nam mail na
skriptarnica@referada.hr

Updateamo materijale, zato pazi na verziju!

Sve sugestije i prijedloge pokušavamo što brže uvažiti. Na www.referada.hr i našoj facebook grupi
EFZG SUPPORT by Štreberaj možeš pratiti što se događa i uvijek biti u toku s najnovijim materijalima.
Na naslovnici ti piše koju verziju skripte imaš u rukama (npr. Verzija: 1.03).

Žuta is the place to be!


U Žutoj kopiraoni uvijek ćeš pronaći najnovije verzije naših skripti, pitalica i primjera ispita!

Tko je napisao skripte?

Skripte koje nađeš kod nas nisu nužno naše autorsko djelo. To su razne skripte koje nam studenti
donesu. Mi smo odabrali one najbolje i malo ih uredili tako da ti je ljepše ponavljati iz njih. U
Štreberaju uvijek preporučamo učenje iz knjige! Skripte su tu da ti pomognu ponoviti gradivo.

Koje skripte smo pisali mi?

Naši edukatori rade skripte iz kolegija za koje držimo instrukcije. Sve takve skripte u nazivu imaju
Štreberaj. Ovo je jedna od tih skripti. ☺

Želimo ti puno sreće s učenjem!


ISPRINTANO U ŽUTOJ

Malo o ispitu
Hej, hej… polažeš statistiku? Super, znači pretpostavljamo da si 1. godina (ako ipak nisi, mi ćemo ti
pomoći da napokon upišeš ocjenu u indeks i uhvatiš tih 9 ECTS bodova). Na početku smo jedne lijepe
priče ☺. Možda si već od kolega čuo svašta o ovom ispitu. Probaj na trenutak zaboraviti sve što si
čuo.
Prije svega, idemo se malo upoznati s ispitom.

• Pitanja matematičkog karaktera. Sve pišeš na trgovački arak papira A4, a sva su pitanja na
način da matematički moraš rješavati zadatke. Teorije u ispitu nema, to je usmeni dio ispita.
• Uvjet za polaganje ispita. Moraš riješiti 50% ispita, na način da započneš svaki zadatak,
odnosno, da bi ti se ispit bodovao, moraš kao preduvjet riješiti minimalno jedan podzadatak
svakog zadatka.
• Bodovi. Nema pravila, svaki zadatak je svijet za sebe i na tebi je potruditi se da riješiš
minimalno 50% ispita.
Koliko vremena mi treba da naučim za ispit?
Optimalno bi bilo da kreneš učiti cca. 3 tjedna prije ispita, ali mnogi naši studenti su uz predani rad
ispit položili i za upola manje vremena.
Koliko vremena imam na ispitu?
Ispit se piše 2 puna sata. To ti je dovoljno vremena ako si dobro naučio. Našim studentima u prosjeku
treba 90 – 100 minuta. Ako se nisi najbolje spremio i ako zapneš na kojem zadatku, vremena će ti biti
premalo.
Što prvo rješavati?
Definitivno prvo riješi zadatke koje sigurno znaš. Mnogi studenti se zeznu tako što krenu prvo
rješavati zadatke po redu, pa zapnu na nekom podzadatku i potroše previše vremena na rješavanje
istog, pogotovo ako nisu dobro naučili.
PAZI!
Malo o skripti Bilo bi dobro da se odmah u startu
razumijemo. Službena literatura za
Ono što se od tebe traži na ovom ispitu je da razumiješ ovaj ispit je knjiga Bahovec i sur.
gradivo, a ne da samo nabubaš napamet koncepte (2015): Statistika.
rješavanja zadataka. Zato nema smisla učiti po Ova skripta predstavlja samo pregled
skriptama koje su napisane u natuknicama ili samo najvažnijih dijelova gradiva i NIJE
prolaziti zadatke s prošlih rokova.
službena ispitna literatura!
Tako je nastala ova skripta…
U Štreberaju znamo da je razumijevanje gradiva ključno za polaganje ovog ispita. Isto tako, znamo da
ne voliš učiti iz literature koja je pisana prekompliciranim jezikom. Zato smo ti spremili ovu skriptu
koja je nastala kao kompilacija razne dostupne literature, začinjena „mudrostima“ naših instruktora,
koje će ti pomoći da gradivo bez problema savladaš S RAZUMIJEVANJEM.

1
ISPRINTANO U ŽUTOJ

1. Uvod u statistiku
Znaš li za Štrebsy d.o.o.? Nemoguće da ne znaš! To je jedno od najpoznatijih svjetskih poduzeća.
Teško ćeš ga naći na Google-u jer se uglavnom ne eksponira medijski. A čime se poduzeće bavi?
Pa…zapravo apsolutno svime. Od recikliranja toaletnog papira do proizvodnje elisi za podmornice, a
povremeno nudi i usluge wellnessa za sibirske tigrove. U svakom slučaju, poduzeće je svestrano i bavi
se svime što nam može poslužiti kao primjer u našim instrukcijama. Pa krenimo s učenjem!
Danas se u poslovnom svijetu velik broj poslovnih problema rješava analitičkim pristupom, odnosno
racionalnim pristupom. Analitičari nekog poduzeća problemu pristupaju na način da sakupljaju
tržišne podatke, bilo na primaran ili sekundaran način te na temelju tih podataka, uz adekvatnu
analizu, predlažu zaključke za donositelje odluka. Također, svijet u kojem živimo i koji želimo
razumjeti pun je različitosti i neodređenosti, što otvara put za granu znanosti zvanu Statistika.
Statistika nas uči kako donositi ispravne zaključke i odluke u svijetu neodređenosti. U svakodnevnom
životu prikupljamo mnoštvo podataka. Statistika nam daje metode za njihovo organiziranje i sažeto
prikazivanje te izvlačenje zaključaka na osnovu informacija sadržanih u tim podatcima. Dakle,
statistika je znanstvena metoda koja se bavi prikupljanjem podataka, a potom njihovom analizom i
tumačenjem odnosno interpretacijama.
Takav način pristupanja problemima je tradicionalan i zahtjeva određene vještine baratanja
podacima. Analitičari koji predlažu implikacije moraju poznavati kontekste u kojima se vršilo
istraživanje, poznavati varijable koje koriste kako bi krajnja analiza što bolje procijenila efekte koji će
se desiti na temelju predloženih implikacija.
Za prethodno opisane situacije i probleme pomoći će nam statistika. Znanstvena disciplina koja se
bavi prikupljanjem informacija, obradom tih informacija i interpretacijom obrađenih informacija kako
bi donositelji odluka znali što je pjesnik htio reći.
Statistiku možemo podijeliti na deskriptivnu i inferencijalnu. Deskriptivna statistika nam služi kako bi
opisali uzorak koristeći razne grafove i uređujući podatke u tablice dok se inferencijalna statistika
bazira se na nalazima iz podskupova ili uzoraka podataka.

1.1. Deskriptivna i inferencijalna statistika

Deskriptivna statistika bazira se na uređivanju i grupiranju podataka te prikazivanju tih podataka


kroz grafove, tablice... Na temelju tako izraženih podataka izračunavaju se različite statističko –
analitičke veličine (aritmetička sredina, standardna devijacija, mod, medijan i sl., o tome ćemo
govoriti u kasnijim poglavljima ove skripte). Bitno je naglasiti kako se zaključci u deskriptivnoj
statistici donose na temelju svih podataka.
Inferencijalna statistika donosi zaključke za cijelu populaciju na temelju uzorka izabranog iz
populacije (osnovni skup) uz primjenu odgovarajućih statističkih metoda uz određenu razinu
pouzdanosti procjenjivanjem nepoznatih karakteristika cjeline ili uz određenu razinu značajnosti
testirajući razne pretpostavke proizašle iz istraživačkih pitanja. Moramo biti oprezni kada koristimo
rezultate na temelju uzorka jer on predstavlja isključivo dio cijele populacije, te je zato poželjno da
uzorak bude izabran na slučajan način i da bude reprezentativan.

2
ISPRINTANO U ŽUTOJ

Dakle, statistika je znanstvena metoda koja se bavi prikupljanjem


podataka, a potom njihovom analizom i tumačenjem odnosno
interpretacijama.

1.2.Izvori i vrste podataka

Temelj svake kvalitetne analize su kvalitetni podatci. Podatke dijelimo na primarne i sekundarne.

Razlika primarnih i sekundarnih podataka


1. Primarni podatci prikupljaju se neposredno za pojedine analize, a primjeri mogu biti anketni
upitnici, intervjui i sl.
2. Sekundarni podatci su već prikupljeni i do izvjesne mjere obrađeni i na raspolaganju su korisniku
ili besplatno ili uz plaćanje

Znači, mi prikupljamo kvalitetne podatke kako bismo ih mogli analizirati. Taj skup podataka koji je
podvrgnut analizi zovemo statistički skup. Drugim riječima, statistički skup su jedinice čija svojstva
promatramo ili istražujemo statističkom metodom. To mogu biti osobe, poduzeća, zemlje, proizvodi…
Bitno je znati da se statistički skupovi definiraju pojmovno, prostorno i vremenski, jer precizna
definicija osigurava da se u skupu nađu jedinice koje mu doista pripadaju!
Broj jedinica u statističkom skupu nazivamo opseg skupa. Dakle, u iznad navedenim primjerima
opseg bi bio broj studenata, broj automobila i broj tekućih računa.
Obzirom na opseg, statistički skupovi se dijele na konačni statistički skup (studenti EFZG-a) i
beskonačni statistički skup (proizvodnja ili bacanje novčića).

Primjeri:

• studenti Sveučilišta u Zadru koji su započeli studij u ak. god. 2015/16.


• automobili marke Honda koji su prodani u Hrvatskoj tijekom 2014. god.
• tekući računi građana u Privrednoj banci Zagreb na dan 1. ožujka 2016. god.

Osnovni skup (populacija) je ukupan broj ispitanih pojedinaca koji su povezani određenim svojstvom

POPULACIJA STUDENATA EKONOMSKOG FAKULTETA

3
ISPRINTANO U ŽUTOJ

Malo naših mudrosti!


Ako Štrebsy d.o.o. tebe i mene zatraži da anketom ispitamo koliko bi se studenata EFZG-a
upisalo u Štrebsy teretanu koju bi poduzeće otvorilo u blizini faksa, kako bismo to učinili?
Proveli bismo statističko istraživanje populacije iliti osnovnog skupa anketom. Znači, naš
statistički skup bio bi jednak osnovnom skupu jer bismo istraživanje proveli na svim
studentima EFZG-a. (Deskriptivna statistika)
No, Štrebsy d.o.o. je ambiciozan i želi otvoriti teretane za studente po cijeloj Hrvatskoj. U
tom slučaju naša populacija su svi studenti u RH. Kako ćemo sad istražiti koliko bi se
studenata upisalo u Štrebsy teretanu? Hoćemo li anketirati svakog studenta u Hrvatskoj?
Odgovor je ne! Testiranje ćemo provesti na temelju uzorka (inferencijalna statistika) i to tako
da na slučajan način odaberemo određen broj studenata svakog fakulteta u RH koji će činiti
naš uzorak.

1.3. Izvori i vrste podataka

Svojstva jedinica po kojima se članovi statističkog skupa razlikuju ili jedni drugima nalikuju nazivaju se
statistička obilježja iliti statističke varijable. Obilježje se u pravilu javlja u 2 ili više oblika (modaliteta)

Kvalitativno obilježje, odnosno varijabla izražava se opisno ili riječima. Može biti nominalno
obilježje ili redoslijedno obilježje. Nominalno obilježje dijelimo još i na atributivno i geografsko
obilježje.
Primjer za atributivno obilježje bio bi spol, zanimanje, a primjer za geografsko bilo bi mjesto rođenja.

4
ISPRINTANO U ŽUTOJ

Redoslijedno obilježje (obilježje ranga) pridruživanjem određenih brojeva, slovnih oznaka ili drugih
simbola jedinicama statističkog skupa određuje stupanj posjedovanja nekog svojstva.
Primjer: ocjena, stupanj kvalitete
Numeričko obilježje je ono obilježje kod kojeg se svojstva jedinica statističkog skupa izražavaju
brojevima. Vezano je uz intervalnu i omjernu skalu. Numeričko obilježje dijelimo na diskretno
(diskontinuirano) obilježje koje poprima cjelobrojne vrijednosti, kao na primjer broj djece u obitelji i
kontinuirano obilježje koje poprima bilo koju vrijednost nekog intervala, kao na primjer visina, težina,
cijena.

1.4. Mjerne skale

Postoji razlika između kvalitativnih i kvantitativnih podataka. Za kvalitativne podatke ne postoji


mjerljivo značenje razlike u brojevima.
Što to znači? Uzmimo za primjer dvije odbojkašice tima Štrebsy. Jednoj na dresu piše broj 5, a drugoj
broj 10. Na temelju tih podataka NE možemo zaključiti da je druga igračica duplo bolja od prve. Za
razliku od kvalitativnih, za kvantitativne podatke postoji mjerljivo značenje razlike u brojevima. Prva
odbojkašica postigla je 30 poena u finalnoj utakmici, a druga 15. Po ovome vidimo da je prva
odbojkašica bila duplo bolja od druge u toj utakmici.
Iz tog se razloga za kvalitativne podatke koriste NOMINALNA I ORDINALNA mjerna skala, a za
kvantitativne podatke INTERVALNA I OMJERNA.

Raspodjela mjernih skala


1. NOMINALNA SKALA
Ova se skala sastoji od liste naziva. (Zemlje, županije, industrije..)
2. ORDINALNA SKALA
Ovom se skalom jedinicama statističkog skupa pridružuju slovne oznake simboli ili brojevi
sukladno intezitetu mjernog svojstva. (Stupanj kvalitete, ocjene…)
3. INTERVALNA SKALA
Ovom se skalom jedinicama statističkog skupova pridružuju brojevi sukladno intezitetu mjernog
svojstva. Ima definiranu mjernu jedinicu i dogovorno utvrđenu nulu!
4. OMJERNA SKALA
Ovom se skalom jedinicama statističkih skupova pridružuju brojevi sukladno intezitetu mjernog
svojstva. Ima definiranu mjernu jedinicu i nulu koja označava nepostojanje svojstva!

2. Sekundarni podatci su već prikupljeni i do izvjesne mjere obrađeni i na raspolaganju su5korisniku


ili besplatno ili uz plaćanje
ISPRINTANO U ŽUTOJ

1.5. Uređivanje podataka

Prikupljene podatke prvo treba urediti kako bi se reducirao velik broj informacija o pojavi koja se želi
istražiti. Pri uređivanju treba voditi računa da u reduciranim podatcima moraju ostati sačuvane
glavne značajke pojave koja se istražuje. Urede li se podatci o jednom obilježju jedinica statističkog
skupa nastat će statistički niz.

Kako nastaju statistički nizovi:


1. NOMINALNI NIZ nastaje uređivanjem podataka o nominalnom svojstvu
2. REDOSLIJEDNI NIZ nastaje uređivanjem podataka o rang varijabli
3. NUMERIČKI NIZ nastaje uređivanjem podataka koji predstavljaju vrijednosti numeričke
varijable
4. VREMENSKI NIZ nastaje kronološkim nizanjem podataka o nekoj pojavi (proizvodnja,
uvoz, izvoz)

1.6. Statističke tabele

Kako bi ti silni podatci koje analiziramo bili lijepo prikazani, koristimo tablice raznih vrsta. Tabeliranim
načinom prikazivanja olakšava se praćenje statističkih podataka, a time i donošenje zaključaka o
pojavama koje oni predočuju. U ovom dijelu naučit ćemo koje sve vrste statističkih tabela postoje. ☺

Jednostavna tabela

Jednostavna tabela sastoji se od samo jednog niza.

Poljoprivredna površina po kategorijama u tisućama hektara u RH, 2003.g.

KATEGORIJE POVRŠINA

oranice i vrtovi 1460

Voćnjaci 68

Vinogradi 57

Livade 396

Pašnjaci 1156

Izvor: SLJRH, 2004.g str.250

6
ISPRINTANO U ŽUTOJ

Skupna tabela

Sadrži barem dva niza koji su grupirani prema modalitetima istog obilježja.

Izvoz i uvoz prema pretežnoj ekonomskoj namjeni u milijunima am.$ u RH,2003.g.

EKONOMSKA
IZVOZ UVOZ
NAMJENA

proizvodi za reprodukciju 2959 6583

proizvodi za investicije 1341 3316

proizvodi za široku potrošnju 1886 4311

Izvor: SLJRH,2004.g., str.386

Kombinirana tabela (tabela kontingence, tabela s dva ulaza)

Podatci su grupirani prema modalitetima dvaju ili više varijabli. Ova tabela se često pojavljuje u
zadatcima s vjerojatnostima i kod hi-kvadrat testa. ☺

Stanovništvo prema spolu i starosti u tisućama u RH, popis iz 2001.g.

SPOL

STAROST M Ž

0-14 388 370


14-64 1482 1501
64-(99) 266 430
Izvor: SLJRH, 2004.g., str.95

1.7. Relativni brojevi

Relativni brojevi omogućavaju elementarnu analizu podataka u sklopu deskriptivne statistike. Jako su
nam korisni i često ćemo ih koristiti u zadatcima. ☺
Svaki relativni broj nastaje dijeljenjem dviju veličina. Veličina s kojom se dijeli zove se osnovom
relativnog broja. Relativni brojevi se razlikuju jedan od drugoga ovisno o tome što im je osnova. Pa
tako postoje:

7
ISPRINTANO U ŽUTOJ

Relativni brojevi strukture:


proporcije (dio/cjelina)
postoci (dio/cjelina*100)
Relativni brojevi dinamike:
Individualni indeksi
Skupni indeksi
Relativni brojevi koordinacije
To su omjerni brojevi koji nastaju diobom dviju koordinirajućih veličina, kao na primjer gustoća
stanovništva, dohodak po stanovniku, BDP per capita. Njima ćemo se posebno posvetiti na
instrukcijama. ☺

8
ISPRINTANO U ŽUTOJ

2. Grafička analiza podataka


Često statistiku bolje razumijemo kada je prikazana s pomoću dijagrama nego tablice. Dijagram je
vizualna reprezentacija statističkih podataka, u kojem su podatci prikazani s pomoću
znakova/simbola kao što su stupci ili linije. Dijagrami su vrlo efektno vizualno pomagalo jer prikazuju
podatke brzo i jednostavno, omogućuju usporedbu te mogu otkriti trendove i veze unutar podataka.

Svaki dijagram treba imati naslov i izvor podataka (ako se radi o sekundarnim podatcima)!

Presudno je znati koji se tip dijagrama rabi s kojom vrstom informacija. Neki su dijagrami primjereniji
od ostalih, ovisno o prirodi podataka.
Grafički prikazi se općenito dijele na površinske i linijske, a pored njih su u literaturi poznati i neki
specifični grafički prikazi.
Odabir vrste dijagrama ovisi o raznim faktorima kao što su: vrsta statističke varijable ili obilježja, broj
varijabli, broj podataka koji se prikazuje, svrha konstruiranja dijagrama i dr.
Kvalitativne varijable, odnosno kvalitativni statistički nizovi, uobičajeno se prikazuju površinskim
dijagramima kao što su:
Jednostavni stupci (uspravni ili položeni)

Dvostruki stupci

9
ISPRINTANO U ŽUTOJ

Razdijeljeni stupci

Strukturni krugovi

10
ISPRINTANO U ŽUTOJ

Geografski (zemljopisni) statistički nizovi prikazuju se kartogramima.


Vremenski nizovi prikazuju se linijskim (trenutačni i intervalni) i površinskim dijagramima (samo
intervalni).

Ako se grafički prikazuje mali broj numeričkih podataka (negrupirani numerički podatci) uobičajeno
koristimo dva dijagrama:

• dijagramom s točkama
• dijagramom stablo-list (odnosno S-L dijagram)

1.1.Dijagram s točkama

Crta se tako da se na horizontalnoj osi naznači aritmetičko mjerilo, a zatim se točkama predoče
vrijednosti članova niza. Položaj točaka ovisi o vrijednostima niza i danom aritmetičkom mjerilu. Ako
su u nizu dvije jednake vrijednosti ili više njih, točke se ucrtavaju jedna iznad druge.

1.2. Dijagram stablo list

On se sastoji se od vodećih znamenaka, odnosno desetica koje predstavljaju stablo i jedinica koje
predstavljaju list. Formiranje S-L dijagrama počinje uređivanjem podataka po veličini. Zatim treba
povući okomitu crtu i s njene lijeve strane ispisati vodeće znamenke (Stems).To su npr. oznake za
desetice. Nakon toga s desne strane okomite crte (nasuprot vodećoj znamenci) navodi se druga
znamenka broja (Leaf). Npr. ako je s lijeve strane vodeća znamenka 0, a nasuprot njoj znamenka 4, to
znači da se radi o broju 04 tj. 4.

11
ISPRINTANO U ŽUTOJ

Evo jednog primjera!


Podatci o prodaji Štrebsy kulena za 15 dana jednog razdoblja:
8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29
Kao što vidimo podatci nisu uređeni po veličini, pa to moramo učiniti!
8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34
Sada kada smo podatke uredili po veličini, možemo napraviti:

• dijagram s točkama:

• dijagram stablo-list:

0 89
1 045788
2 04579
3 04

1.3. Box – Plot dijagram

Sadrži 5 ključnih vrijednosti koje su nam potrebne kako bismo ga nacrtali. Tih 5 vrijednosti nazivaju se
još i 5 number summary, a podrazumijevaju:

• Minimalnu vrijednost - 𝑋𝑚𝑖𝑛

• Maksimalnu vrijednost - 𝑋𝑚𝑎𝑥


• Prvi kvartil iliti donji kvartil
• Medijan iliti drugi kvartil
• Treći kvartil iliti gornji kvartil

12
ISPRINTANO U ŽUTOJ

2.Numerički nizovi
Kao što smo već rekli ranije, numerički nizovi nastaju uređivanjem numeričkih podataka (podatci
izraženi brojem). Način njihova uređenja ovisi o broju podataka i tome jesu li oni diskretni ili
kontinuirani. U ovom poglavlju analizirat ćemo mali broj podataka koji se uređuje nizanjem po
veličini. To su negrupirani podatci. Podatke ćemo numerički opisivati srednjim vrijednostima
(mjerama centralne tendencije), mjerama disperzije, mjerama rasporeda podataka, mjerom
zaobljenosti i mjerama koncentracije. Pa krenimo!

2.1. Srednje vrijednosti (mjere centralne tendencije)

Srednje vrijednosti su konstante kojima se predstavljaju nizovi varijabilnih podataka. Njima


pokušavamo informirati promatrača o tome koje su tipične vrijednosti za podatke koje smo
analizirali. Nazivaju se još i mjere centralne tendencije, a dijele se na potpune i položajne. Potpune
srednje vrijednosti računaju se na temelju svih podataka, znači uključuje sve vrijednosti varijable, dok
su položajne srednje vrijednosti određene položajem podatka u nizu!

Osnovne potpune srednje vrijednosti su:

• aritmetička sredina
• geometrijska sredina
• harmonijska sredina

Osnovne položajne srednje vrijednosti:

• mod
• medijan
• ostali kvantili (kvartili, decili, percentili)

Za numeričke nizove koriste se sve navedene srednje vrijednosti. Za interpretacije srednjih


vrijednosti bitno je znati da su one izražene u mjernim jedinicama pojave (varijable) za koju
se određuju. Srednje vrijednosti koje se određuju za redoslijednu ili numeričku varijablu,
poprimaju vrijednost između najmanje i najveće vrijednosti varijable za koju se izračunavaju.
Nije rijedak slučaj da srednja vrijednost, koja predstavlja niz varijabilnih podataka, nije
jednaka niti jednoj vrijednosti u nizu za koji se izračunava. U nastavku ćemo vidjeti zašto se
to događa. ☺

Srednje vrijednosti kojima ćemo se mi posebno baviti na instrukcijama su navedene i objašnjene u


nastavku!

13
ISPRINTANO U ŽUTOJ

2.1.1. Aritmetička sredina


Aritmetička sredina podataka je zapravo prosječna vrijednost podataka koja predstavlja odnos zbroja
vrijednosti svih podataka i broja opažanja. To je potpuna srednja vrijednost jer u obzir uzima sve
podatke. Za negrupirane podatke, kao što su numerički nizovi, izračunava se jednostavna aritmetička
sredina (omjer totala i osnovnog skupa), a za distribuciju frekvencija, o kojoj ćemo pričati kasnije,
ponderirana aritmetička sredina.
Za aritmetičku sredinu bitno je napomenuti činjenicu da je ona sklona utjecaju izdvojenica,
odnosno netipičnih vrijednosti. Pojasnit ću to kroz brzi primjer.

Ako imamo niz brojeva od 1 2 3 4 5, prosječna vrijednost je 3. Međutim, maknemo li


vrijednost 5 i stavimo netipično visoku vrijednost od 15, rezultat se drastično mijenja, i
aritmetička sredina sada iznosi 5! Dakle vrijednost se povećala za čak dvije jedinice.

Aritmetička sredina se često koristi u statističkim analizama sportskog karaktera. Klasičan primjer
korištenja ove mjere nalazimo u košarci. Naime, jedan od najvažnijih kriterija kvalitetnog košarkaša je
broj poena, pa tako i prosječan broj poena po utakmici. Dakle, ako želimo izračunati prosječan broj
poena za pojedinog košarkaša, tada u obzir uzmemo ukupan broj poena koji je on do sada zabio i
podijelimo s ukupnim brojem utakmica koje je odigrao.
Štrebsy, osim odbojkaškog tima, želi imati i košarkaški tim. Prema podatcima s www.nba.com
možemo saznati statistiku svakog igrača u ligi. Igrač Dwayne Wade, u prosjeku, po utakmici bilježi
22,1 poena, 4 skoka i 5,6 asistencija.

Svojstva aritmetičke sredine:


1. Zbroj odstupanja vrijednosti numeričke varijable od aritmetičke sredine jednak je nuli.
2. Zbroj kvadrata odstupanja vrijednosti numeričke varijable od aritmetičke sredine je minimalan
u odnosu na zbroj kvadrata odstupanja vrijednosti numeričke varijable od bilo koje vrijednosti
koja je različita od aritmetičke sredine.
3. Aritmetička se sredina nalazi između najmanje i najveće vrijednosti u nizu.
4. Izražena je u mjernim jedinicama numeričke varijable za koju se izračunava.

14
ISPRINTANO U ŽUTOJ

2.1.2. Geometrijska sredina


Geometrijska sredina je, kao i aritmetička sredina, potpuna srednja vrijednost. Koristi se pri izračunu
prosječne relativne promjene pojave u vremenu. Npr. prosječna stopa promjene cijena dionica
Štrebsyja d.d. na financijskom tržištu. Izračunava se kao N-ti korijen iz umnoška N vrijednosti
varijable.
Razlikujemo jednostavnu geometrijsku sredinu (koristi se za negrupirane podatke) i ponderiranu
geometrijsku sredinu (koristi se za grupirane podatke).
Zanimljivo je to da se vrijednosti geometrijske i aritmetičke sredine za isti niz podataka razlikuju.
Geometrijska sredina je manja od aritmetičke.

2.1.3. Harmonijska sredina


Harmonijska sredina je također potpuna srednja vrijednost koja se računa kao recipročna vrijednost
aritmetičke sredine recipročnih vrijednosti numeričke varijable.
Razlikujemo jednostavnu harmonijsku sredinu i ponderiranu harmonijsku sredinu. Harmonijska
sredina je manja i od aritmetičke i od geometrijske sredine.

POTPUNE SREDNJE VRIJEDNOSTI (aritmetička, geometrijska i


harmonijska sredina) ZA ISTI NIZ PODATAKA POPRIMIT ĆE JEDNAKE
VRIJEDNOSTI SAMO AKO SU SVE VRIJEDNOSTI NUMERIČKE VARIJABLE
JEDNAKE!

2.1.4. Mod
Mod je prva položajna mjera srednje vrijednost o kojoj ćemo pričati. Predstavlja najčešću vrijednost
numeričkog niza. Kako ćemo ga odrediti za niz numeričkih podataka?
Doslovno provjerimo koji se broj najviše puta ponavlja i iščitamo taj podatak kao modalnu vrijednost.
Mod nije prisutan u distribuciji u kojoj nema ponavljanja!

Niz: 1, 2, 3, 4, 4, 4, 5, 5, 6, 8, 9
Radi se o unimodalnoj distribuciji (samo jedan mod)
Mo= 4
Kada se dva podatka ponavljaju jednak broj puta, distribucija je bimodalna, a kada se tri ili
više podatka u distribuciji ponavljaju jednak broj puta govorimo o višemodalnoj distribuciji.

15
ISPRINTANO U ŽUTOJ

2.1.5. Medijan
Ostali su nam još medijan i ostali kvantili. Kvantili dijele niz uređenih podataka na jednake dijelove. U
kvantile se ubrajaju medijan, kvartili, decili i percentili. Medijan je položajna srednja vrijednost koja
dijeli niz na dva jednaka dijela, kvartili ga dijele na četiri, decili na deset, a percentili na sto dijelova.
Medijan i kvantili mogu se odrediti i za redoslijedno obilježje jer se modaliteti redoslijednog obilježja
mogu poredati po intezitetu mjernog svojstva (npr. ocjene na ispitu, stupanj zadovoljstva proizvodom
ili uslugom…) Medijan je izražen u mjernim jedinicama varijable za koju se određuje i nije osjetljiv na
izrazito male niti na izrazito velike vrijednosti obilježja i ne mora biti jednak niti jednoj vrijednosti u
nizu. Dakle, medijan je „otporan“ na izdvojenice (ekstremno visoke ili ekstremno niske vrijednosti),
ali ne predstavlja potpunu mjeru srednjih vrijednosti jer ne obuhvaća sve promatrane podatke.

Numerički niz: 1 2 3 4 4 6 7
Prvo je potrebno izračunati medijalnu točku. Dobije se tako da broj podataka (N) podijelite s
dva, upravo zato što se medijan nalazi na polovici niza.
𝑁
2
= 3,5 ≠ INT

INT je oznaka za cijeli broj. 3.5 nije cijeli broj pa nije jednak INT. U tom slučaju medijan će biti
4. podatak našeg niza (𝑋4 ). Kako to odredimo? Kada ti medijalna točka ispadne decimalni
broj, uzet ćeš samo cijeli dio broja (u ovom slučaju 3) i uvećati ga za 1. Dobit ćeš 4, što znači
da je medijan 4. podatak, odnosno 𝑋4 .
U ovom primjeru medijan je četvrti X po veličini odnosno broj 4, pod uvjetom da je
numerički niz poredan od najmanjeg do najvećeg.
Numerički niz: 1 2 3 4 5 6
Prvo je potrebno izračunati medijalnu točku koja se označava iMe.
𝑁
2
= 3 = INT

3 je cijeli broj, što znači da je jednak INT. U tom slučaju medijan se računa kao prosjek dvaju
podataka. Kako ćeš odrediti koja dva podatka uzimamo? Ako ti je medijalna točka ispala 3,
medijan će se nalaziti između tog i sljedećeg podatka, odnosno između 3. i 4. podatka.
U ovom primjeru medijan je prosjek trećeg i četvrtog X-a u nizu, uz uvjet da su podatci
poredani od najmanjeg do najvećeg.

Rekli smo da kvartili dijele niz na četiri jednaka dijela. Postoje 3 kvartila, odnosno prvi ili donji kvartil,
drugi kvartil ili medijan i treći kvartil ili gornji kvartil.

𝑄1 𝑄2 = 𝑀𝑒 𝑄3

0 25% 50% 75% 100%

16
ISPRINTANO U ŽUTOJ

Na ovom pravcu vidimo položaje kvartila. Prema njemu možemo zaključiti da je prvi kvartil 𝑸𝟏( prvi ili
donji kvartil) vrijednost numeričke varijable koja članove niza dijeli u dvije skupine. U prvoj skupini je
25% elemenata s vrijednostima varijable koja je jednaka ili manja od prvog kvartila, a u drugoj skupini
je 75% elemenata s vrijednostima većim od prvog kvartila.
𝑸𝟐 je zapravo medijan koji, kao što smo već rekli, dijeli niz na dva jednaka dijela, odnosno prvih i
preostalih 50%.
𝑸𝟑(treći ili gornji kvartil) je vrijednost numeričke varijable koja članove niza dijeli također u dvije
skupine. U prvoj skupini je 75% elemenata s vrijednostima varijable koja je jednaka ili manja od
trećeg kvartila, a u drugoj skupini je 25% elemenata s vrijednostima većim od trećeg kvartila. To su
ujedno i interpretacije.

2.2. Mjere disperzije

Štrebsy d.o.o. je otvorio noćni klub „Lom“ i objavio na svojoj stranici kako je prosječna starost u tom
klubu 25 godina. Već sljedeću subotu odlučiš sa svojom ekipom otići i provjeriti kakav je taj
novootvoreni klub. Dolaskom u njega oko sebe primjećuješ da su ljudi različitih uzrasta, te da
prevladavaju mlađi od 18 i stariji od 32. Pokazuje li prosjek koji je Štrebsy d.o.o. objavio na svojoj
stranici stvarno stanje u klubu odnosno je li reprezentativan? Istina je da prosječna starost u klubu
iznosi 25 godina, ali ono što i sami možemo vidjeti je da starost ljudi u klubu odskače od tog prosjeka
(odstupanja od prosjeka). Reprezentativnost srednje vrijednosti ovisi o tome za koliko stvarni podatci
odstupaju od prosječne vrijednosti odnosno o stupnju varijabilnosti podataka. Ta varijabilnost
brojčano se opisuje upravo mjerama disperzije. Dakle, mjerama disperzije mjeri se stupanj
varijabilnosti podataka.
Mjere za varijabilnost podataka su:
1. RASPON VARIJACIJE - 𝑅
2. INTERKVARTIL (interkvartilni raspon) - 𝐼𝑄
3. KOEFICIJENT KVARTILNE DEVIJACIJE - 𝑉𝑄
4. VARIJANCA - 𝜎 2
5. STANDARDNA DEVIJACIJA - 𝜎
6. KOEFICIJENT VARIJACIJE - 𝑉
7. SREDNJE APSOLUTNO ODSTUPANJE (MAD)

Razlikujemo potpune i nepotpune mjere disperzije. Potpune su one koje u svom izračunu
koriste sve podatke, odnosno sve vrijednosti numeričke varijable.
One su varijanca, standardna devijacija i koeficijent varijacije. Nepotpune mjere su preostale
mjere, odnosno raspon varijacije, interkvartil, koeficijent kvartilne devijacije i srednje
apsolutno odstupanje.

17
ISPRINTANO U ŽUTOJ

2.2.1. Raspon varijacije


Raspon varijacije je najjednostavnija, apsolutna i nepotpuna mjera disperzije. Ona nam pokazuje
koliko podataka ima između prvog i zadnjeg podatka, odnosno koliki je raspon između ta dva
podatka. Kažemo da je najjednostavnija i nepotpuna zato što koristi samo prvu i zadnju vrijednost.

Kako se računa?

• za pojedinačne podatke određuje se kao razlika između najveće i najmanje vrijednosti u nizu

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

• za distribuciju frekvencija formiranu na temelju pojedinačnih podataka određuje se kao


razlika između posljednje i prve vrijednosti

𝑅 = 𝑥𝑘 − 𝑥1

• za distribuciju frekvencija s razredima, o kojoj ćemo pričati u nastavku, aproksimira se kao


razlika između gornje granice posljednjeg i donje granice prvog razreda ili kao razlika
razrednih sredina posljednjeg i prvog razreda

2.2.2. Interkvartilni raspon


Interkvartil je apsolutna i nepotpuna mjera disperzije. Samo mu ime kaže da je to raspon podataka
između kvartila. Znamo da se prvi kvartil nalazi na 25% našeg niza, a treći kvartil na 75% niza. Dakle,
mi tražimo taj raspon između 25% i 75% što je zapravo središnjih 50%. Interpretira se kao raspon
varijacije središnjih 50% članova niza uređenih podataka, a računa se upravo kao razlika gornjeg i
donjeg kvartila.

𝐼𝑄 = 𝑄3 − 𝑄
1

Postoji i interdecil . To je razlika dvaju decila koji dijele niz uređen po veličini na 10 jednakobrojnih
dijelova, decila.

Npr. 𝐼𝐷9−𝐷1 = 𝐷9 − 𝐷1
To je središnjih 80% podataka

Analogno tome postoji i interpercentil. ☺


Interkvartil i raspon varijacije prikazuju se specifičnim dijagramom s pravokutnikom, odnosno Box-
Plot dijagramom (B-P). Na temelju Box-Plot dijagrama možemo zaključiti postoji li asimetrija
podataka i postoje li podatci koji jako odskaču od ostatka, odnosno izdvojenice iliti netipične
vrijednosti.
18
ISPRINTANO U ŽUTOJ

2.2.3. Koeficijent kvartilne devijacije


Koeficijent kvartilne devijacije je relativna i nepotpuna mjera disperzije. Pokazuje nam isto što i
interkvartil, znači raspon središnjih 50% podataka, samo u relativnom izrazu. Određuje se kao omjer
interkvartila i zbroja kvartila.

𝑄3 −𝑄1
𝑉𝑄 = 0≤ 𝑉𝑄 < 1
𝑄3 +𝑄1

2.2.4. Varijanca

Varijanca je aritmetička sredina kvadrata odstupanja vrijednosti


numeričke varijable od njezine aritmetičke sredine

Drugim riječima, varijanca nam pokazuje kvadrirano prosječno odstupanje od prosjeka (kvadrirani
prosjek svih odstupanja od aritmetičke sredine).
Računamo ju ovisno o podatcima, tj. gledamo jesu li podatci negrupirani ili grupirani. Mi smo zasad u
negrupiranim podatcima jer računamo sve ove varijable za numerički niz, a rekli smo da su numerički
nizovi negrupirani podatci.

negrupirani podatci grupirani podatci

∑(𝑥𝑖 − 𝑥̅ )2 ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
2
𝜎 = 𝜎2 =
∑ 𝑓𝑖
𝑁

2.2.5. Standardna devijacija


Standardna devijacija je pozitivni drugi korijen iz varijance. To je potpuna i apsolutna mjera disperzije.
Ona pokazuje koliko u prosjeku naši podatci odstupaju od aritmetičke sredine.

negrupirani podatci grupirani podatci

∑(𝑥𝑖 − 𝑥̅ )2 ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝜎= √ 𝜎= √
∑ 𝑓𝑖
𝑁

19
ISPRINTANO U ŽUTOJ

2.2.6. Koeficijent varijacije


Koeficijent varijacije je relativna mjera disperzije. Određuje se kao omjer standardne devijacije i
aritmetičke sredine pomnožen sa sto. Zapamti da on dolazi u paru sa standardnom devijacijom! Zašto
ti to kažem? Zato što obje mjere pokazuju prosječno odstupanje od prosjeka, samo što standardna
devijacija to čini u apsolutnom obliku, a koeficijent varijacije u relativnom!

𝜎
𝑉= × 100
𝑥̅

*Standardna devijacija se interpretira kao prosječno odstupanje od prosjeka izraženo apsolutno, a


koeficijent varijacije kao relativno (u vidu postotaka).

2.2.7. Srednje apsolutno odstupanje


Srednje apsolutno odstupanje je prosječno apsolutno odstupanje vrijednosti varijable od njezine
aritmetičke sredine ili medijana.
pojedinačni podatci
∑|𝑥𝑖 − 𝑥
̅|
𝑀𝐴𝐷 =
𝑁

∑|𝑥𝑖 − 𝑀𝑒 |
𝑀𝐴𝐷𝑀𝑒 =
𝑁

2.3. Standardizirana vrijednost numeričke varijable

Standardizirana varijabla z je linearna transformacija numeričke varijable X. Određuje se tako da se


odstupanja numeričke varijable od njezine aritmetičke sredine podijele standardnom devijacijom, tj.
da se izraze u jedinicama standardnih devijacija.
Ona nam omogućuje usporedbu numeričkih nizova izraženih u istim mjernim jedinicama s različitim
stupnjem varijabilnosti, odnosno s različiti odstupanjima, usporedbu raznorodnih numeričkih nizova
te usporedbu relativnih položaja podataka u jednom nizu i u različitim numeričkim nizovima.
Ta varijabla nam zapravo pokazuje za koliko standardnih devijacija vrijednost numeričke varijable
odstupa od aritmetičke sredine. Upravo iz tog razloga od promatranog podatka oduzimamo
aritmetičku sredinu, a sve dijelimo sa standardnom devijacijom kako bismo dobili standardiziranu
vrijednost.

𝑥𝑖 − 𝑥̅
𝑍=
𝜎

Zapamti kako je aritmetička sredina standardizirane varijable 0, a njena


standardna devijacija 1!

20
ISPRINTANO U ŽUTOJ

2.3.1. Čebiševljevo pravilo


Primjenjuje se kada ne znamo kakav je oblik distribucije. To pravilo govori da je najmanja proporcija
1
članova bilo kojeg niza obuhvaća intervalom 𝑥̅ ± 𝑘𝜎, 𝑘 > 1, 𝑗𝑒𝑑𝑛𝑎𝑘𝑎 1 − .
𝑘2

2.3.2. Empirijsko pravilo


Kada je distribucija podataka unimodalna i približno simetrična (normalna), u istu se svrhu koristi
svojstvo normalne distribucije.

pojas 𝑥̅ + 1𝜎 obuhvaća oko 68% podataka


pojas 𝑥̅ ± 2𝜎 obuhvaća oko 95% podataka
pojas 𝑥̅ ± 3𝜎 obuhvaća oko 99,73% podataka

I što nam sad taj z govori? On nam kaže je li neki podatak tipičan ili nije, odnosno je li izdvojenica ili
nije.
Normalna distribucija (empirijsko pravilo)
netipično -2_______tipično_______2 netipično
Bilo koja distribucija (Čebiševljevo pravilo)
netipično -3_______tipično_______3 netipično

Oba pravila korisna su za određivanje relativnog položaja podataka u nizu, odnosno za otkrivanje
netipičnih vrijednosti u distribuciji. Ako nije poznat oblik distribucije ili ako je poznato da distribucija
nije simetrična ili nije normalnog oblika, tada se vrijednost koja od prosjeka odstupa za više od tri
standardne devijacije može smatrati netipičnom (čebiševljevo pravilo).

2.4. Mjere asimetrije

Mjere asimetrije su zapravo mjere oblika distribucije. Njima se mjeri način rasporeda podataka oko
neke srednje vrijednosti (uglavnom je to aritmetička sredina).

Koje mjere najčešće koristimo?


• Koeficijent asimetrije - 𝛼3 (eng. skewness)
• Pearsonova mjera asimetrije - 𝑆𝑘
• Bowleyjeva mjera asimetrije – 𝑆𝑘𝑄

Raspored podataka može biti:


• Pozitivno (desnostrano) asimetričan - mjere asimetrije su pozitivne (veće od nule)
• Negativno (lijevostrano) asimetričan – mjere asimetrije su negativne (manje od nule)
21
ISPRINTANO U ŽUTOJ

• Simetričan – mjere asimetrije su jednake nuli

Distribucije prema asimetriji:

Simetrična distribucija Pozitivno asimetrična distribucija Negativno asimetrična distribucija


x  Me  Mo x  Me  Mo

Paranormalna distribucija

2.4.1. Koeficijent asimetrije α3


Koeficijent asimetrije 𝛼3 je potpuna mjera asimetrije jer u njenom izračunu sudjeluju sve vrijednosti
numeričke varijable (vidi formulu). Za izračun koeficijenta asimetrije trebaju nam momenti oko
sredine (glavni, centralni momenti), točnije treći moment oko sredine ( 𝜇3 ).
𝛼3 uobičajeno poprima vrijednost iz intervala od [−2 do 2]. No, u slučajevima jako asimetrične
distribucije može poprimiti vrijednost izvan tog intervala.

2.4.2. Pearsonova i Bowlyjeva mjera asimetrije


Pearsonova i Bowlyjeva mjera asimetrije temelje se na odnosu srednjih vrijednosti i odnosu medijana
i kvartila. Temelj za izračun Pearsonove mjere asimetrije je odnos moda, odnosno medijana i
aritmetičke sredine. Ta su odstupanja izražena u jedinicama standardne devijacije kako bi se uklonio
utjecaj mjerne jedinice varijable na vrijednost mjere asimetrije.
Pearsonova mjera asimetrije

22
ISPRINTANO U ŽUTOJ

Pearsonova mjera asimetrije se (u pravilu) izračunava za kontinuirano numeričko obilježje. Ako se


izračunava za diskretno obilježje, mjeru je potrebno interpretirati s oprezom ili zaključak o asimetriji
temeljiti na drugim mjerama asimetrije! Obično poprima vrijednost iz intervala od [−3 do 3], za
zvonolike, simetrične, unimodalne distribucije.
Bowlyjeva mjera asimetrije

Bowlyjeva mjera asimetrije polazi od odnosa medijana i kvartila. To je nepotpuna mjera asimetrije jer
isključuje prvih i posljednjih 25% podataka u nizu, odnosno temelji se na nepotpunim mjerama kao
što su kvartili i medijan. Uobičajeno poprima vrijednost iz zatvorenog intervala [−1 ,1]. Iznimno može
poprimiti vrijednost izvan tog intervala. Tada se radi o izrazito asimetričnim distribucijama.

2.5. Mjere zaobljenosti

Mjerom zaobljenosti 𝛼4 mjeri se zaobljenost unimodalnog vrha (simetrične ili približno simetrične)
distribucije. Koeficijent zaobljenosti je potpuna mjera. Brojnik u izrazima za koeficijent zaobljenosti je
četvrti moment oko sredine 𝜇4 .
Zaobljenost vrha uspoređuje se i interpretira u odnosu na normalnu (Gaussovu) distribuciju.
Koeficijent zaobljenosti normalne distribucije je 3.

Distribucija za koju je:


𝛼4 = 3 nazivamo normalnom distribucijom,
𝛼4 > 3 nazivamo distribucijom koja je šiljastija od normalne,
𝛼4 < 3 kažemo da je plosnatija od normalne.

23
ISPRINTANO U ŽUTOJ

3. Distribucija frekvencija
Sada prelazimo na grupirane podatke. Tu govorimo ili o velikom broju podataka koji poprimaju manji
broj oblika ili o velikom broju podataka koji poprimaju velik broj oblika ili kontinuirano obilježje.
Naučit ćemo kako analizirati takve podatke i kako na temelju tih analiza donijeti zaključke..

3.1.Formiranje distribucije frekvencija

Kod velikog broja podataka koji poprimaju manji broj oblika numerički niz grupiranih podataka,
odnosno distribucija frekvencija, sastoji se od parova (xi, fi), i=1,2....,k, s time da xi predstavlja
modalitet numeričkog obilježja, a fi pripadajuće frekvencije.

Imamo sedmodnevne podatke o prodaji Štrebsy zelenih masažnih garnitura. Prvi dan je
prodano 120 garnitura, drugi dan je prodano 98 garnitura, treći dan 68 garnitura, četvrti dan
130, peti dan 67, šesti dan 99 i sedmi dan 101 garnitura. Kao što vidite imamo podatke za
samo 7 dana, znači imamo 7 modaliteta numeričkog obilježja (xi) i njihove pripadajuće
frekvencije (fi) koje predstavljaju broj prodanih zelenih garnitura. To je distribucija
frekvencija bez razreda.

Dok smo imali velik broj podataka koji poprimaju manji broj oblika bilo je jako jednostavno formirati
distribuciju frekvencija, ali šta se događa kada velik broj podataka poprima velik broj oblika?

Kod velikog broja podataka koji poprimaju velik broj oblika ili kontinuirano obilježje distribucija
frekvencija (rekli smo iznad da je to isto što i numerički niz grupiranih podataka) formira se
grupiranjem na temelju razreda.

24
ISPRINTANO U ŽUTOJ

Štrebsy želi unaprijediti prodaju i vidjeti koja starost kupaca je najčešća kako bi njima mogao
prilagoditi svoje proizvode. Nakon provedenog istraživanja dobili smo sljedeće podatke:

Godine starosti Broj kupaca


0-20 5
20-40 365
40-60 135
60-(99) 150
UKUPNO 655

Ova tablica je primjer distribucije frekvencija s razredima. Grupiranje po razredima je divna


stvar upravo zato što će se ti silni podatci nalaziti unutar razreda omeđeni donjom (Li1) i
gornjom (Li2) granicom razreda.

Razred je interval unutar kojeg se nalaze vrijednosti numeričkog obilježja. Primjerice, svi kupci koji
imaju između 20 i 40 godina pridruženi su razredu 20-40 .Taj broj podataka (u našem slučaju broj
kupaca) koji se nalazi u razredu je frekvencija razreda.

Tako možemo reći da se distribucija frekvencija sastoji od parova razreda i pripadajućih frekvencija.
Eh, sad se možemo zapitati kako smo mi odredili te razrede? Formiranju distribucije prethodi
određivanje broja razreda (k) i njihova veličina.

PostojiOva
jedno
tablica
fenomenalno
je primjerSturgesovo
distribucije pravilo
frekvencija
kojesnam
razredima.
kaže daGrupiranje
se broj razreda
po razredima
(k) na temelju
je divna
kojeg
se za grupiranje
stvar upravo
N vrijednosti
zato što ćediskretne
se ti silni numeričke
podatci nalaziti
varijable
unutar
određuje
razredapomoću
omeđeni
sljedećeg
donjomizraza.
(Li1) i
gornjom (Li2) granicom razreda. 𝑘 = 1 + 3,3 ∗ 𝑙𝑜𝑔𝑁

E sad, kad smo već tu idemo se podsjetiti da je diskretna numerička varijabla ona varijabla
koja može poprimiti isključivo cjelobrojnu vrijednost, npr. broj djece, članovi kućanstva, broj
anketiranih obitelji…

Širina podintervala naziva se veličinom razreda. Razredi mogu biti jednakih ili različitih veličina. Ako
su razredi jednaki, veličina im se aproksimira tako da se raspon varijacija podijeli s brojem razreda,
odnosno:

𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
𝑖𝑖 ≈
𝑘

Općenito veličina razreda se određuje kao razlika gornje i donje prave granice razreda.

25
ISPRINTANO U ŽUTOJ

Kada su razredi različitih veličina potrebno je korigirati frekvencije!! Zapamti to! Ako su svi razredi
različitih veličina koristimo ovu formulu:

𝑓𝑖
𝑓𝑐𝑖 =
𝑖𝑖

Ako frekvencije želimo korigirati pomoću bazne veličine razreda (one koja se najčešće pojavljuje)
koristimo ovu formulu: 𝑓𝑖
𝑓𝑐𝑖 = 𝑖
𝑖
𝑖𝑏

Razredi jednakih veličina primjenjuju se kada su podatci simetrično raspoređeni. Razredi različitih
veličina primjenjuju se kada se podatci asimetrično raspoređeni.

Za potrebe numeričke analize distribucije frekvencija s razredima potrebno je ustanoviti jesu li


granica razreda prave, zatim odrediti veličinu razreda i razrednu sredinu.

Već znaš da granice razreda mogu biti prave i nominalne. To je prvo na što ćeš obratiti
pozornost u zadatku s distribucijom frekvencija!

Granice razreda su prave ako je donja granica tekućeg razreda jednaka gornjoj granici
prethodnog razreda. Ako to nije slučaj, radi se o nominalnim granicama i njih onda treba
pretvoriti u prave ili precizne!

KAKO IZ NOMINALNIH GRANICA RAZREDA DOBITI PRAVE?


KONTINUIRANA VARIJABLA
Ako je varijabla kontinuirana, prave se granice određuju tako da gornju granicu povećamo za
jedinicu, dok donju granicu ne diramo.
DISKRETNA VARIJABLA
Ako je varijabla diskretna radimo precizne granice tako da donju granicu smanjimo za 0,5, a
gornju povećamo za 0,5.

(IZNIMKA: Navršene godine života su diskretna varijabla, no kod njih se određuju prave granice tako
da gornju granicu povećamo za jedinicu.)

Sredina razreda (Xi) se određuje kao poluzbroj gornje i donje prave granice razreda.

26
ISPRINTANO U ŽUTOJ

3.2.Grafički prikaz distribucije frekvencija

Uz tabelarno prikazivanje, grafička analiza omogućava brzo i jednostavno uočavanje osnovnih


karakteristika podataka, te daje polazne informacije o odabiru odgovarajućih metoda njihove analize.

Svaki dijagram treba imati naslov i izvor podataka (ako se radi o sekundarnim podatcima), a
po potrebi tumač i redni broj! Nemoj to nikako zaboraviti na kolokviju/ispitu!

Za prikaz distribucije frekvencija (apsolutnih i relativnih frekvencija) koristi se histogram (površinski


grafikon), te poligon frekvencija (linijski grafikon).

U ovim zadatcima pojavit će nam se kumulativni niz „manje od“. On je zapravo izveden niz koji
nastaje postupnim zbrajanjem apsolutnih ili relativnih frekvencija. Grafički se prikazuje kumulantom,
pa je ona jedan od grafičkih prikaza kojima ćemo se zabavljati na instrukcijama.

P.S. Postoji i kumulativni niz „više od“. Njega ćemo spomenuti i objasniti na instrukcijama.

3.2.1. Histogram
Histogram distribucije je površinski grafikon, grafikon stupaca. Baze stupaca predočuju modalitete
numeričke varijable u aritmetičkom mjerilu osi apscisa (X-os), a visine stupaca ovise o frekvencijama
ili relativnim frekvencijama i aritmetičkom mjerilu osi ordinata (Y-os).

PAZI! Ukoliko se razredi različitih veličina na Y-osi će biti korigirane frekvencije!

3.2.2. Poligon frekvencija


Crtamo ga tako da spajamo frekvencije odnosno korigirane frekvencije (ukoliko su razredi različitih
veličina) s razrednim sredinama. Podsjetimo se da se razredne sredine računaju kao poluzbroj donje i
gornje granice razreda.

27
ISPRINTANO U ŽUTOJ

900
800
700
600
500
400
300
200
100
0
0-25 25-50 50-75 75-100 100-125

3.2.3. Kumulanta
Kumulanta je grafički prikaz kumulativnog niza „manje od“, odnosno empirijske funkcije distribucije.

Na osi X se nalaze vrijednosti numeričke varijable, a na osi Y kumulativne frekvencije. Ako je varijabla
diskretna, kumulanta je stepenastog oblika!

Grafičkom prikazu kumulatne prethodi izračun kumulativnog niza čije nam vrijednosti idu na Yos.

Prisjetimo se! Kumulativni niz dobiva se postupnim zbrajanjem frekvencija.

2500

2000

1500

1000

500

0
0 20 40 60 80 100 120 140

28
ISPRINTANO U ŽUTOJ

GODINE BROJ PRAVE RAZREDNE VELIČINA KORIGIRANE


ŽIVOTA OSOBA GRANICE SREDINE RAZREDA FREKVENCIJE

𝑓𝑖 𝑥𝑖 𝑖𝑖 𝑓𝑐𝑖
(15)-24 105 (15)-25 20 10 52.5
25-29 439 25-30 27,5 5 439
30-34 662 30-35 32,5 5 662
35-39 683 35-40 37,5 5 683
40-44 635 40-45 42,5 5 635
45-49 503 45-50 47,5 5 503
50-54 305 50-55 52,5 5 305
55-59 174 55-60 57,5 5 174
60-(79) 208 60-(80) 70 20 52

UKUPNO 3714 - - - -

Ovdje imamo tablicu rastavljenih brakova prema dobi muža u RH 1999.godine. Dob je
numerička kontinuirana varijabla. Statistički skup čine rastavljeni brakovi na području RH
1999.godine. Opseg skupa iznosi 3714. Prvi i posljednji razredi nazivaju se otvorenima jer
nemaju jednu od granica - to su procijenjene granice, pa se stavljaju u zagradu. Granice
razreda distribucije su nominalne. Stoga treba utvrditi prave granice razreda. Razredne
sredine i veličine razreda određuju se na već objašnjen način. Razredi u distribuciji su
nejednakih veličina, pa je za grafičke prikaze i za izračunavanje pojedinih analitičkih veličina
potrebno provesti postupak korekcije frekvencija.

P. S .
Formule koje ćeš koristiti za izračunavanje srednjih vrijednosti i mjera disperzije u distribuciji
frekvencija razlikuju se od formula za negrupirane podatke, zato pazi! Formule za mjere disperzije smo
naveli kada smo obrađivali mjere disperzije u prethodnom poglavlju. ☺ Izračun srednjih vrijednosti se
dosta razlikuju kada su u pitanju grupirani podatci, pa ćemo to naučiti sada!

3.3.Srednje vrijednosti kod distribucije frekvencija

3.3.1. Ponderirana aritmetička sredina


Kod grupiranih podataka umjesto jednostavne aritmetičke sredine koristimo ponderiranu
aritmetičku sredinu.
∑ 𝑓𝑖 𝑥𝑖
𝑥̅ =
∑ 𝑓𝑖
29
ISPRINTANO U ŽUTOJ

Nemoj se zbuniti ako se umjesto apsolutnih frekvencija (fi) u zadatku pojave postoci (Pi) ili proporcije
(pi). Za sve to imaš formule u knjižici s formulama. Time ćemo se još dodatno baviti na instrukcijama.

Najveća razlika u izračunu se pojavljuje kod računanja položajnih srednjih vrijednosti, tj. moda,
medijana i ostalih kvantila.

Njihovom izračunu prethodi određivanje razreda u kojem se nalaze. Kako ćemo to odrediti?

3.3.2. Mod
Modalni razred je onaj razred koji ima najveću (korigiranu) frekvenciju! Nakon što si odredio koji je to
razred, uzimaš formulu za mod kod grupiranih podataka koja izgleda ovako:

(𝑏 − 𝑎)
𝑀𝑜 = 𝐿1 + ∗𝑖
(𝑏 − 𝑎) + (𝑏 − 𝑐)

Pri čemu je 𝐿1 -donja prava granica modalnog razreda, b-(korigirana) frekvencija modalnog razreda, a-
(korigirana) frekvencija ispred modalnog razreda, c-(korigirana) frekvencija ispod modalnog razreda,
a i-veličina modalnog razreda.

3.3.3. Medijan i kvartili


Za medijan i kvartile je isti postupak, upravo zato što je medijan zapravo drugi kvartil.

Za grupirane podatke izračunat ćemo ih u četiri koraka:

1. Izračunat ćemo njihovu točku


2. Napraviti kumulativni niz frekvencija
3. Odrediti medijalni odnosno kvartilni razred (onaj čiji kumulativni niz prvi sadrži njihovu točku)
4. Uvrstiti vrijednosti u formulu:

𝑁 𝑁 3𝑁
− ∑ 𝑓1 − ∑ 𝑓1 − ∑ 𝑓1
𝑀𝑒 = 𝐿1 + 2 ∗𝑖 𝑄1 = 𝐿1 + 4 ∗𝑖 𝑄3 = 𝐿1 + 4 ∗𝑖
𝑓𝑚𝑒𝑑 𝑓𝑘𝑣𝑎𝑟 𝑓𝑘𝑣𝑎𝑟

30
ISPRINTANO U ŽUTOJ

4.NOMINALNI NIZOVI I MJERE


KONCENTRACIJE
Nominalni niz nastaje grupiranjem prema modalitetima obilježja nominalne varijable.
Rekli smo već da nominalno obilježje može biti atributivno ili geografsko, pa tako razlikujemo
nominalni atributivni i nominalni geografski niz. Nominalni niz se uvijek izražava opisno ili riječima.
U ovom poglavlju ćemo se upoznati s mjerama koncentracije, jer ćemo njih najčešće izračunavati u
zadatcima s nominalnim nizovima. Prije nego što kreneš rješavati zadatak, bitno je da članove niza za
koji se mjeri koncentracija poredaš po veličini od najmanjeg prema najvećem, isto kao što smo radili
kod numeričkih nizova.

4.1.Mjere koncentracije

Mjere koncentracije su pokazatelji načina razdiobe totala (total je zbroj vrijednosti numeričke
varijable) po jedinicama niza ili po modalitetima kvalitativnih ili vrijednostima kvalitativnih varijabli.
Njima se npr. mjeri način razdiobe premija bruto osiguranja po osiguravajućim društvima, plaća po
zaposlenim osobama…
Mjere koncentracije mogu biti apsolutne i relativne.
Najčešće korištene apsolutne mjere koncentracije:

• Koncentracijski omjer 𝐶3
• Herfindal – Hirschmanov indeks H

Najčešće korištena relativna mjera koncentracije.:


• Ginijev koeficijent koncentracije G (i s njim povezan grafički prikaz Lorenzova krivulja)

Pored navedenih rjeđe se koriste Hall-Tidermanov indeks, Rosenbluthov indeks, Hannah-Kayjev


indeks, indeks U, Hauseov indeks, mjera entropije i drugi.

4.1.1. Koncentracijski omjer


pokazuje nam relativni udio r najvećih vrijednosti. Izračunava se prema formuli:

𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑟
𝐶𝑟 =
∑ 𝑋𝑖

Npr. Kada trebaš izračunati koncentracijski omjer 𝐶3 , uzimaš tri najveće vrijednosti X (zadnje tri, jer je
niz poredan po veličini od najmanjeg prema najvećem, a mi trebamo 3 najveće) te ih podijeliš s
ukupnom vrijednosti svih x-ića! ☺

31
ISPRINTANO U ŽUTOJ

4.1.2. Herfindal-Hirschmanov indeks


On će nam pokazati kako su naši podatci koncentrirani. Koncentracija može biti slaba, umjereno
1
slaba, umjereno jaka i jaka. H-H indeks poprima vrijednost iz intervala [𝑁 , 1], kada poprimi vrijednost
1 kažemo da je koncentracija maksimalna.
Kako se izračunava?
H-H indeks ćemo izračunati kao sumu kvadriranih proporcija . Znači, prvo ćemo izračunati proporcije,
ako ih već nemamo, zatim ćemo svaku kvadrirati i tek onda zbrojiti.

𝐻 = ∑ 𝑝𝑖 2

4.1.3. Ginijev koeficijent koncentracije


Podatci moraju biti poredani od najmanjeg prema najvećem! Ginijev koeficijent računa se prema
formuli:

2 ∑ 𝑖𝑥𝑖 −(𝑁+1) ∑ 𝑥𝑖
G=
𝑁 ∑ 𝑥𝑖

Postoji još i normirani Ginijev koeficijent koji se računa kao omjer Ginijevog koeficijenta i
1
maksimalnog Ginijevog koeficijenta (1- 𝑁 ). Označava se s G*.

Ginijev koeficijent koncentracije utvrđuje se uz pomoć grafičkog prikaza koji se naziva Lorenzova
krivulja.

4.1.4. Lorenzova krivulja


Na osi apscisa nanosi se aritmetičko mjerilo za vrijednost empirijske funkcije distribucije (kumulativni
niz). Na osi ordinata nanosi se aritmetičko mjerilo za kumulativ proporcija podtotala u totalu. Na
dijagram se ucrtava pravac jednolike raspodjele određen točkama (0,0) i (1,1). Lorenzova krivulja
nastaje spajanjem točaka.
Što je Lorenzova krivulja udaljenija od pravca jednolike raspodjele, to je koncentracija veća i obrnuto.

32
ISPRINTANO U ŽUTOJ

5.ANALIZA VREMENSKIH NIZOVA


Što je to vremenski niz?
Vremenski niz je skup kronološki uređenih vrijednosti određene pojave (proizvodnja, uvoz, izvoz),
sakupljenih u uzastopnim vremenskim intervalima ili u (najčešće) jednako udaljenim vremenskim
točkama. U ovom poglavlju naučit ćemo kako analizirati vremenski niz.

Vremenski niz može biti:

• intervalni - nastaje zbrajanjem vrijednosti pojave po intervalima vremena, te ima svojstvo


kumulativnosti

• trenutačni - sastoji se od kronološki uređenih vrijednosti koje predstavljaju pojave u


odabranim vrijednosnim točkama (vrijednost trenutačnog niza su trenutačna stanja
promatrane pojave i kao takve nemaju svojstvo kumulativnosti, tj. nije ih dopušteno zbrajati)

5.1.Grafičko prikazivanje vremenskih nizova

• intervalni nizovi prikazuju se površinskim i linijskim grafikonima


• trenutni nizovi prikazuju se samo linijskim grafikonima

Okomiti prekid grafikona - ako se ne raspolaže podatcima za dio razdoblja moguće je izostaviti dio
mjerila na osi X (npr. radne godine)
Vodoravni prekid grafikona - ako neka pojava varira na velikim razinama moguće je izostaviti dio
mjerila na osi Y

Polulogaritamski grafikon - koristi se ako se na istom grafikonu uspoređuju raznorodni podatci (nizovi
izraženi u raznim mjernim jedinicama). To je grafikon s aritmetičkim mjerilom na osi X, a
logaritamskim na osi Y.

5.2.Pokazatelji dinamike

Pokazatelje dinamike moguće je grupirati prema dva osnovna kriterija.

• S obzirom na mjerne jedinice u kojima se izražavaju, dijele se na apsolutne i relativne


Apsolutni pokazatelji dinamike ukazuju na apsolutne promjene analizirane pojave, pa se
izražavaju u mjernim jedinicama same varijable (npr. kune, milijuni eura, tisuće osoba..).

33
ISPRINTANO U ŽUTOJ

Relativni pokazatelji dinamike mjere promjene pojave u relativnom iznosu pa se najčešće


izražavaju i interpretiraju u postotcima.

• S obzirom na obuhvat, dijele se na pojedinačne i skupne (agregatne) mjere


Pojedinačni pokazatelji izračunavaju se koristeći opažanja isključivo jedne promatrane
vremenske pojave (jedan vremenski niz), dok se skupni računaju na temelju opažanja za skup
različitih pojava (više vremenskih nizova).

Najčešće korišteni pokazatelji dinamike su:

• prva diferencija
• diferencija u odnosu na bazno razdoblje

• prosječna prva diferencije


• stopa promjene u uzastopnim razdobljima
• koeficijent dinamike
• prosječna stopa promjene

5.2.1. Prva diferencija


Prva diferencija je statističko-analitička veličina koja kvantificira apsolutnu promjenu razine
promatranog vremenskog niza u odnosu na prethodno razdoblje. Jednostavnije rečeno, to je veličina
koja nam pokazuje za koji iznos se pojava promijenila u odnosu na prethodno razdoblje.
𝑦𝑡 je vrijednost vremenskog niza u vremenu t, ∆𝑦𝑡 vrijednost prve diferencije u vremenu t, a n
ukupan broj opažanja (duljina vremenskog niza).

∆𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1

5.2.2. Diferencija u odnosu na bazno razdoblje


Ona, isto kao i prva diferencija, pokazuje apsolutnu promjenu vrijednosti pojave izraženu u
originalnim mjernim jedinicama promatrane varijable.
Izračunava se:
∆𝑦𝑡 ∗= 𝑦𝑡 − 𝑦𝑏

b je bazno razdoblje, 𝑦𝑏 vrijednost niza u baznom razdoblju

34
ISPRINTANO U ŽUTOJ

5.2.3. Prosječna prva diferencija


Koristi se kad se promatra dinamika pojave kroz velik broj razdoblja, a računa se kao jednostavna
aritmetička sredina pojedinačnih prvih diferencija.
Prosječna prva diferencija je adekvatan pokazatelj dinamike u slučajevima kad se dinamika
vremenskog niza može opisati linearnom funkcijom, tj. kad su prve diferencije u uzastopnim
razdobljima približno konstantne.

𝑦𝑛 − 𝑦𝑡
∆𝑦̅ =
𝑛−1

5.2.4. Stopa promjene u uzastopnim razdobljima


Pripadajući relativni pokazatelj dinamike je stopa promjene u uzastopnim razdobljima. Računa se
prema formuli:

𝑦𝑡 − 𝑦𝑡−1
𝑠𝑡 = ∗ 100%
𝑦𝑡−1

St je postotna promjena promatranog vremenskog niza u tekućem u odnosu na prethodno razdoblje.


Po istom principu moguće je definirati i stopu promjene u odnosu na bazno razdoblje (St*). Stopa
promjene može se dobiti i tako da se od indeksa oduzme sto.

5.2.5. Koeficijent dinamike


On se veže uz pojedinačnu stopu promjene, označava se kao vt, a računa se pomoću formule:

𝑦𝑡
𝑣𝑡 =
𝑦𝑡−1

Koeficijent dinamike se interpretira na isti način kao i stopa promjene u odnosu na prethodno
razdoblje. Na primjer, koeficijent dinamike u iznosu 0,90 implicira 10%-tno smanjenje razine
promatrane pojave u razdoblju t u odnosu na prethodno razdoblje.

5.2.6. Prosječna stopa promjene


Baš kao i u slučaju prvih diferencija, moguće je izračunati i prosječnu stopu promjene u određenom
broju vremenskih razdoblja. Izračunava se prema formuli:

𝑠̅ = (𝐺 − 1) ∗ 100%

35
ISPRINTANO U ŽUTOJ

Vidimo da nam je za izračun prosječne stope promjene potrebna geometrijska sredina. Nju ćemo
dobiti pomoću formule:

𝑛−1 𝑦
G= √ 𝑦𝑛
1

Prosječnu stopu promjene uputno je primjenjivati u slučajevima kada su pojedinačne stope promjene
približno konstantne, tj. kada se dinamika vremenskog niza opisuje eksponencijalnom funkcijom.
Prosječnu stopu promjene moguće je koristiti za kratkoročno prognoziranje analizirane pojave.
Naime, ako se pretpostavi da će se promatrana pojava i u budućnosti nastaviti mijenjati po jednakoj
prosječnoj stopi, tada je prognostičku vrijednost F moguće izračunati na temelju jednadžbe:
Pri čemu je n duljina vremenskog niza, a 𝜏 je prognostički horizont ( broj razdoblja ili vremenskih
točaka unaprijed za koje se prognozira)

𝐹𝑛+𝜏 = 𝑦𝑛 𝐺 𝜏

5.3.Individualni indeksi

Osim osnovnim pokazateljima dinamike, promjena razine vremenskog niza često se analizira i
individualnim indeksima. Oni se dijele na bazne i verižne indekse. Više o njima saznat ćeš u nastavku.
Individualnim indeksima se prati razvoj pojave u vremenu.

• VERIŽNI INDEKSI - njima se prati razvoj pojave u uzastopnim vremenskim razdobljima

Verižni indeks 𝑉𝑡 razdoblja t dobije se tako da se vrijednost tog razdoblja podijeli s


vrijednošću prethodnog razdoblja te se pomnoži sa sto.

𝑦𝑡
𝑉𝑡 = × 100
𝑦𝑡−1

Verižni indeksi se grafički prikazuju specifičnim linijskim grafikonom i grafikonom


jednostavnih stupaca.

• INDEKSI NA STALNOJ BAZI - njima se mjere promjene u odnosu na neko odabrano bazno
razdoblje
Izračunavaju se tako da se svaki član niza podijeli s vrijednošću baznog razdoblja te pomnoži
sa sto.

𝑦𝑡
𝐼𝑡 = × 100
𝑦𝑏

36
ISPRINTANO U ŽUTOJ

Bazno razdoblje je razdoblje u kojem pojava nije bila izložena nekim neuobičajenim utjecajima
(prirodne katastrofe, rat). Ponekad se uzme vrijednost izvan niza ili nekakav prosjek.
Podsjetimo se da se stopa promjene dobije kad od indeksa oduzmemo sto.

𝑆𝑡∗ = 𝐼𝑡 − 100

Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca. Indeks se interpretira
kao postotna promjena u odnosu na 100. Ako je veći od 100 predstavlja postotno povećanje, a ako je
manji od 100 predstavlja postotno smanjenje.
Statistička analiza vremenskih nizova mora opisati razvoj promatrane pojave u određenom
vremenskom razdoblju, objasniti varijacije pojave koristeći druge pojave, predvidjeti, ali i kontrolirati
dinamične procese. Mi smo naučili kako analizirati vremenski niz, odnosno kako analizirati kretanje
određene pojave kroz vrijeme. Osim grafičkih prikaza vremenskih nizova, objasnili smo pokazatelje
dinamike vremenskog niza, a posebnu pažnju obratili smo i na individualne indekse. ☺

37
ISPRINTANO U ŽUTOJ

6.VJEROJATNOSTI
U današnje vrijeme većina ljudi uplaćuje određenu vrstu osiguranja, primjerice osiguranje od
različitih kvarova, poplava, požara, krađa, prometnih nesreća, a poseban interes ljudi privlače police
životnog osiguranja. Kod takve vrste osiguranja ugovara se određena svota novaca koju je
osiguravatelj dužan isplatiti osiguraniku u slučaju bolesti ili smrti. Osiguranik svake godine uplaćuje
svotu novaca koja se stručno zove premija i računa se pomoću statističkih tablica, odnosno tablica
očekivanog trajanja života. Pomoću nje može se izračunati vjerojatnost da pojedinac doživi određene
godine, o čemu ujedno i ovisi vrijednost police.
Odgovori na pitanja kolike su šanse da se neki događaj ostvari, odnosno kolika je vjerojatnost njegova
ostvarenja veoma su važni na različitim područjima čovjekova djelovanja, primjerice ekonomiji,
politici, sportu, fizici, biologiji, igrama na sreću, planiranju proizvodnje, itd. Upravo zbog sve veće
potrebe za rješavanjem navedenih problema razvila se grana matematike koja proučava mogućnost
ili šansu da se ostvari neki događaj, a naziva se teorija vjerojatnosti. U teoriji vjerojatnosti razmatraju
se događaji koji se mogu, ali ne moraju dogoditi. Događaju za koji se kaže da je sto posto siguran
dodjeljujemo vjerojatnost 1 što povlači da ukoliko je događaj izvjesniji njegova vjerojatnost je bliža
jedinici. U protivnom, događaj koji je prilično nevjerojatan ima vjerojatnost bližu nuli. No, postoje i
događaji koji nemaju izvjesnost hoće li se dogoditi. Primjerice, hoće li se kocka zaustaviti na broju 6?
Taj događaj se može ostvariti, ali i ne mora. Takvi se događaji zovu slučajnim događajima.
Vjerojatnost, slučajne varijable i distribucije vjerojatnosti temeljni su pojmovi inferencijalne statistike.

6.1.Definicije vjerojatnosti

Vjerojatnost je brojčana mjera nastanka slučajnih (neizvjesnih)


događaja. Vjerojatnost nastanka događaja A jednaka je P(A) pri
čemu je 0 ≤ 𝑃(𝐴) ≤ 1.

Šta to znači? Interval u kojem se može naći određena vjerojatnost je od 0 do 1, što znači da je
vjerojatnost nastanka nemogućeg događaja jednaka 0, a vjerojatnost nastanka sigurnog događaja 1.
Ako je vjerojatnost nastanka slučajnog događaja 0.5, to upućuje na zaključak da je jednako vjerojatno
da događaj nastane i ne nastane.
Pri definiranju vjerojatnosti najprije se polazi od slučajnog pokusa te slučajnog događaja.
Pokus je definiran proces iz kojeg izvire neki rezultat. Taj rezultat nazivamo ishodom. Pokus je
slučajan ako se u definiranim uvjetima može ponavljati, ako postoje barem dva različita ishoda te ako

38
ISPRINTANO U ŽUTOJ

se ishodi ne mogu predvidjeti sa sigurnošću. Skup svih mogućih različitih ishoda slučajnog pokusa
naziva se prostorom uzorka S.
Slučajni događaj je jednočlani ili višečlani podskup skupa S. Stoga su s događajima dopuštene
skupovne operacije.
Samo određivanje nastupa slučajnih događaja temelji se na sljedećim definicijama:

• KLASIČNA DEFINICIJA (vjerojatnost a priori) pretpostavlja da slučajni pokus ima konačan broj
jednako mogućih ishoda. Tada je vjerojatnost nastupa događaja A jednaka omjeru broja za
njega povoljnih ishoda m i ukupnog broja ishoda n.

𝑚
𝑃(𝐴) =
𝑛

• STATISTIČKA VJEROJATNOST (vjerojatnost a posteriori) pretpostavlja da je broj ponavljanja


pokusa beskonačan, a vjerojatnost se aproksimira relativnom frekvencijom, tj. omjerom
apsolutne frekvencije opsega i opsega statističkog skupa.
• SUBJEKTIVNA VJEROJATNOST je broj iz intervala [0,1] određen na temelju prosudbe
okolnosti relevantnih za nastup slučajnog događaja.

6.2.Svojstva vjerojatnosti

• Vjerojatnost da događaj A neće nastupiti jednaka je

̅̅̅ = 1 − 𝑃(𝐴)
𝑃(𝐴)

• Vjerojatnost istodobnog nastupa događaja 𝐴1 i 𝐴2 jednaka je

𝑃 (𝐴1 ∩ 𝐴2 )

• Ako su događaji međusobno isključivi, vjerojatnost da će nastupiti događaj 𝐴1 ili 𝐴2 jednaka


je
𝑃(𝐴1 ∪ 𝐴2 ) = 𝑃 (𝐴1 ) + 𝑃 (𝐴2 )

• Ako događaji nisu međusobno isključivi, vjerojatnost nastupa barem jednog od njih jednaka
je

𝑃(𝐴1 ∪ 𝐴2 ) = 𝑃(𝐴1 ) + 𝑃 (𝐴2 ) − 𝑃(𝐴1 ∩ 𝐴2 )

39
ISPRINTANO U ŽUTOJ

• Ponekad je potrebno odrediti vjerojatnost nastupa događaja uz uvjet da se dogodio događaj


𝐵. Takva se vjerojatnost naziva uvjetnom vjerojatnošću.

𝑃(𝐴 ∩ 𝐵)
𝑃 (𝐴|𝐵) =
𝑃(𝐵)

• Ako su događaji neovisni tada vrijedi da je

𝑃(𝐴 ∩ 𝐵) = 𝑃 (𝐴)𝑃(𝐵)

6.3.Slučajna varijabla i distribucije vjerojatnosti

Slučajna varijabla X numerička je funkcija koja svakom ishodu slučajnog pokusa pridružuje realan
broj. Razlikujemo diskretnu (poprima konačan broj vrijednosti) i kontinuiranu (može poprimiti bilo
koju vrijednost iz nekog intervala) varijablu.

6.3.1. Distribucija vjerojatnosti diskretne slučajne varijable


Distribucija vjerojatnosti diskretne slučajne varijable je skup uređenih parova različitih vrijednosti 𝑋𝑖
te varijable i pripadajućih vjerojatnosti 𝑝(𝑥𝑖 ). Svaka funkcija vjerojatnosti diskretne slučajne varijable
ispunjava ove uvjete:

• 𝑝(𝑥𝑖 ) ≥ 0

• ∑ 𝑝(𝑥𝑖 ) = 1

Kumulativna funkcija 𝐹(𝑋𝑖 ) pokazuje kolika je vjerojatnost da diskretna slučajna varijabla X poprimi
vrijednost jednaku 𝑋𝑖 ili manju. Definira se izrazom 𝐹(𝑥𝑖 ) = ∑ 𝑝(𝑥𝑖 ).

6.3.2. Distribucija vjerojatnosti kontinuirane slučajne varijable


Distribucija vjerojatnosti kontinuirane slučajne varijable opisuje razdiobu vjerojatnosti na intervalu
vrijednosti varijable. Označava se sa 𝑓(𝑥) te ima sljedeća svojstva:

• 𝑓(𝑥) ≥ 0


• ∫−∞ 𝑓(𝑥) 𝑑𝑥 = 1

Distribucije vjerojatnosti analiziraju se tako da im se utvrde statističko-analitički pokazatelji. Među


osnovnim pokazateljima svojstva distribucije vjerojatnosti jest očekivana vrijednost. Očekivana
vrijednost slučajne varijable ekvivalentna je aritmetičkoj sredini distribucije.

40
ISPRINTANO U ŽUTOJ

Definira se na sljedeći način:

∑ 𝑥𝑖 𝑝(𝑥𝑖 ), 𝑎𝑘𝑜 𝑗𝑒 𝑣𝑎𝑟𝑖𝑗𝑎𝑏𝑙𝑎 𝑋 𝑑𝑖𝑠𝑘𝑟𝑒𝑡𝑛𝑎


𝐸[𝑋] = { ∞
∫ 𝑥𝑓 (𝑥)𝑑𝑥, 𝑎𝑘𝑜 𝑗𝑒 𝑣𝑎𝑟𝑖𝑗𝑎𝑏𝑙𝑎 𝑋 𝑘𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑟𝑎𝑛𝑎
−∞

6.4.Modeli distribucije vjerojatnosti

Modeli distribucije vjerojatnosti su temelj inferencijalne statistike. Dijele se na distribucije diskretne i


kontinuirane varijable.

6.4.1. Modeli distribucije vjerojatnosti diskretne slučajne varijable


To su vjerojatnosti poznatog oblika i svojstava. Najčešće se koriste binomna i Poissonova.
Bernoullijeva distribucija
To je diskretna distribucija vjerojatnosti vezana uz Bernoullijev pokus.

Bernoullijev pokus je slučajni pokus sljedećih obilježja:

• ima dva ishoda (uspjeh i neuspjeh)


• vjerojatnost ishoda uspjeh je p, a neuspjeh 1-q
• pokusi su neovisni

Binomna distribucija
Binomna slučajna varijabla X je slučajna varijabla koja broji koliko se puta ostvario događaj A u n
ponavljanja Bernoullijevog pokusa. Pritom se pretpostavlja da su uzastopni pokušaji nezavisni, te da
je vjerojatnost nastupa događaja A jednaka u svakom pokušaju.

Binomna distribucija ima široko područje primjene.

Primjerice, Štrebsy se želi okušati u proizvodnji padobrana. Kako bi izračunao vjerojatnost da


među 20 proizvoda bude najviše 5 neispravnih (dosta pouzdani padobrani :P), koristit će
binomnu distribuciju. Način na koji će se to izračunavati i primjere ispitnih zadataka pokazat
ćemo na instrukcijama.

Ovu distribuciju ćeš u zadatku prepoznati po događaju s dva ishoda i zadanim parametrima (n i p).

41
ISPRINTANO U ŽUTOJ

Poissonova distribucija
Poissonova varijabla je diskretna slučajna varijabla koja poprima vrijednosti 0, 1, 2, 3, itd. Poissonovu
distribuciju nazivamo jednoparametarskom distribucijom jer je u potpunosti određena parametrom
𝜆, pri čemu je 𝜆 nenegativan realni broj. Koristi se pri određivanju vjerojatnosti da se određen broj
događaja ostvari u jediničnom vremenskom intervalu, neovisno o vremenu pojavljivanja zadnjeg
događaja, s tim da se pretpostavlja da je prosječan broj događaja u jedinici vremena konstantan.

Distribucija je dobila ime po francuskom matematičaru S. D. Poissonu koji ju je otkrio


početkom 19. stoljeća. Njegovo ime nalazi se na listi 72 znanstvenika ugraviranih na
Eifellovom tornju.

Poissonovu distribuciju ćeš u zadatku prepoznati također po događaju s dva ishoda, ali ovaj put
NEĆEŠ imati parametre već prosječnu/očekivanu vrijednost koja je kod Poissona jednaka 𝜆!

6.4.2. Modeli distribucije vjerojatnosti kontinuirane slučajne varijable


Među teorijskim distribucijama kontinuirane slučajne varijable u statistici najčešće se primjenjuju
normalna (Gaussova), Studentova (t), 𝜒2 (HI-KVADRAT), F-distribucija, uniformna kontinuirana, i
eksponencijalna.
Normalna (Gaussova) distribucija
Normalna distribucija je jedna od najvažnijih kontinuiranih distribucija vjerojatnosti. Određena je s
dva parametra, a to su očekivana vrijednost i varijanca - N (𝜇, 𝜎 2 ). Zvonolika je i simetrična.
Budući da aritmetička sredina i standardna devijacija ovise o mjernim jedinicama, uvodi se jedinična
(standardizirana) normalna distribucija:

𝑥−𝜇
𝑧=
𝜎
𝑁(0,1)
𝜇2 = 0

Jedinična normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje predstavljaju
vjerojatnosti. U pred-stupcu su sve vrijednosti izražene kao brojevi s jednom decimalom. Druga
decimala nalazi se u zaglavlju. Budući da je distribucija simetrična u tabeli su dane samo vrijednosti z.
Studentova distribucija
Studentova distribucija je distribucija vjerojatnosti kontinuirane slučajne varijable usko vezana uz
normalnu distribuciju, jer je slučajna varijabla koja pripada toj distribuciji definirana kao funkcija
normalne slučajne varijable.

Studentovu distribuciju definirao je 1908. William Gosset dok je u pivovari Guiness ispitivao
kvalitetu piva na osnovi malih uzoraka, te ju je objavio pod pseudonimom „Student“.

42
ISPRINTANO U ŽUTOJ

Ona ima oblik određen veličinom n (uzorka).

Za n>30 (velik uzorak) distribucija se po obliku približava normalnoj distribuciji.


Za n<30 (mali uzorak) distribucija je više razvučena na obje strane uzduž apscise.

Kao i normalna distribucija, i studentova je zvonolika i simetrična te tabelirana. U pred-stupcu tablice


nalaze se stupnjevi slobode, u zaglavlju su vjerojatnosti, a u poljima tabele kritične vrijednosti.
Njihov pregled i pregled njihovih najvažnijih karakteristika imate u formulama.
Hi-kvadrat distribucija
Ova distribucija vjerojatnosti izvedena je iz normalne distribucije. Očekivana vrijednost hi-kvadrat
distribucije je jednaka broju stupnjeva slobode (df), varijanca je jednaka dvostrukom broju stupnjeva
slobode (2df), a asimetrija se smanjuje s porastom stupnjeva slobode. Koeficijent zaobljenosti se
također smanjuje s porastom broja stupnjeva slobode i teži prema 3 (koeficijent zaobljenosti
normalne distribucije).
F-distribucija
F-distribucija primjenjuje se pri usporedbi dviju varijanci, kao i pri usporedbi više od dviju aritmetičkih
sredina analizom varijance (ANOVA).
Na kraju formula postoje tablice kritičnih vrijednosti F-distribucije i to za alfu 1% i 5%. U zaglavlju te
tablice nalaze se stupnjevi slobode za brojnik, a u predstupcu stupnjevi slobode za nazivnik.

43
ISPRINTANO U ŽUTOJ

7. METODA UZORAKA
Sjetimo se onog istraživanja mišljenja studenata u RH o otvaranju Štrebsy teretane s početka
skripte. Tada smo koristili uzorak. Rekli smo da uzorke koristimo zato što pojedini konačni
skupovi sadrže velik broj članova pa bi njihovo istraživanje zahtijevalo velika financijska
sredstva, previše vremena ili uopće ne bi bilo moguće.
Na primjer:

• kada bi se istraživanjem uništio čitav statistički skup - istraživanje trajnosti Štrebsy


disco žarulja
• kada se radi o beskonačnom skupu - proizvodnja Štrebsy jestivih olovaka
Na temelju podataka o uzorku pomoću metoda inferencijalne statistike donose se zaključci o
cijelom skupu. Znači, mi ćemo u ovom poglavlju naučiti kako pomoću uzorka procijeniti
karakteristike osnovnog skupa, te odrediti pouzdanost i preciznost te procjene.

Dvije su osnovne zadaće metode uzoraka:


1. procjenjivanje nepoznatih parametara osnovnog skupa na temelju uzorka (parametar je
funkcija svih vrijednosti osnovnog skupa)
2. ispitivanje pretpostavki o parametrima (odnosno o osobitostima jedne ili više populacija)

7.1. Metode izbora uzorka

Pošto se inferencijalna statistika bavi poopćavanjem, odnosno donošenjem zaključaka o


karakteristikama populacije na temelju podataka iz uzorka, važno je da uzorak dobro reprezentira
populaciju kako bi poopćivanje bilo što kvalitetnije i vjerodostojnije. Reprezentativnost ovisi o načinu
na koji izaberemo uzorak iz naše populacije, te iz tog razloga način na koji to učinimo ima velike
posljedice na naš život! To je, naravno, bila neslana šala, ali svakako ima posljedice na mogućnost
poopćivanja rezultata te mogućnost primjene statističkih metoda.
Obzirom na način izbora jedinica uzoraka razlikuju se namjerni i slučajni uzorci.

7.1.1. Namjerni uzorci


Kod namjernih uzoraka jedinice uzorka izabiru se prema odluci istraživača, te je iz tog razloga dosta
subjektivan i najčešće nereprezentativan.

• Prigodni uzorak - ispituju se dostupne jedinice (npr. javno mišljenje)


• Uzorak izabran na temelju prosudbe istraživača - istraživač izabire reprezentativne jedinice pri
čemu je potrebno da dobro poznaje osnovni skup

• Kvotni uzorak - anketari se slobodno odlučuju za jedinice u sklopu kvota

44
ISPRINTANO U ŽUTOJ

Namjerni uzorci često se koriste i jednostavni su za primjenu. Analiziraju se metodama deskriptivne


statistike. Nedostatak im je to što je nemoguće izračunati grešku nastalu zbog primjene uzorka.

7.1.2. Slučajni uzorci


Slučajan izbor uzorka je objektivan i osnova je u primjeni metoda inferencijalne statistike. Na
rezultate slučajnog uzorka može se primijeniti teorija vjerojatnosti, a to nam omogućava da se na
objektivan način procijene parametri osnovnog skupa i da se testiraju istraživačke hipoteze o
odabranim parametrima. Iz tog razloga se slučajni uzori nazivaju još i probabilističkim (engl. random
samples), dok se namjerni uzorci nazivaju ne-probabilističkim (engl. non-random samples). Kod
slučajnih uzoraka svaki element ima vjerojatnost izbora veću od nule.

• Jednostavni slučajni uzorak - primjenjuje se kod homogenih skupova i svaki element ima
jednaku vjerojatnost izbora

• Stratificirani uzorak - prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti, a
jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju stratumi

• Uzorak skupina - u uzorak se ne izabiru pojedini elementi, već njihove skupine

Slučajni uzorci analiziraju se metodama inferencijalne statistike. Kod njih je moguće izračunati
grešku. Sa stajališta statističke metode glavni su koraci istraživanja pomoću uzoraka prikazani ovdje:

ISTRAŽIVANJE POMOĆU
UZORAKA

Definirati osnovni skup pojmovno,


prostorno i vremenski; odrediti jedinice
skupa, njegov opseg te veličinu uzorka.

Izabrati model uzorka, procjenitelje


parametara, izraze za standardne pogreške
procjena, testovne i druge veličine.

Utvrditi okvir izbora, jedinicu izbora


uzorka, način izbora jedinica i elemenata
za uzorak.

Prikupljanje podataka o obilježjima


jedinica u uzorku i njihova kontrola;
analiza pogrešaka.

Primjena postupaka inferencijalne


statistike: procjene parametara, testiranje
hipoteza...

Sastavljanje izvješća o dobivenim


rezultatima primijenjenih postupaka i
njihovo potanko tumačenje.

45
ISPRINTANO U ŽUTOJ

Plan uzoraka je plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka,
tj. uzorak mora biti umanjena slika osnovnog skupa. Okvir izbora je popis članova statističkog skupa.

8.3 Procjenitelj parametra, vrijednost procjene i sampling-distribucija procjenitelja

Prije nego što krenemo evo par pojmova koji su nam potrebni za bolje razumijevanje:
Parametar je brojčana karakteristika osnovnog skupa N (populacije), odnosno, konstanta
određena pomoću svih članova N
Procjenitelj je slučajna varijabla (definirana formulom) kojom se procjenjuje parametar
populacije
Procjena je izračunata vrijednost procjenitelja dobivena na uzorku podataka

Postupak procjenjivanja nepoznatog parametra populacije provodi se pomoću procjenitelja, tj.


slučajne varijable. Konkretne vrijednosti procjenitelja određenog parametra razlikovat će se od
uzorka do uzorka, a neke vrijednosti procjenitelja će se pojavljivati češće od ostalih. Prosječno
odstupanje konkretnih vrijednosti procjenitelja od stvarne vrijednosti parametra populacije kreće se
u granicama slučajnih varijacija. Te varijacije se nazivaju sampling-varijacije, a distribucija
vjerojatnosti procjenitelja sampling-distribucija. Ovo ću vam objasniti na instrukcijama na jednom
primjeru! Ta famozna sampling-distribucija se zasniva na konceptu ponovljenih izbora slučajnih
uzoraka iz danog osnovnog skupa, pri čemu različiti uzorci dovode do različitih vrijednosti procjena.
Za jedan osnovni skup moguće je kreirati onoliko sampling distribucija koliko je mogućih parametara
osnovnog skupa. Procjenitelj je varijabla koja se naziva sampling - varijablom zato što se, kao što
smo već rekli, mijenja od uzorka do uzorka. To je slučajna varijabla jer se uzorci izabiru tako da svaka
jedinica, odnosno svaki uzorak ima određenu vjerojatnost izbora.
Za sampling-distribuciju važno je kakva je oblika i koja su joj statistička svojstva, kao očekivana
vrijednost, standardna devijacija i dr. Postoji velik broj tih distribucija, a njihov naziv ovisi o
parametru koji se procjenjuje.

Tako se govori o:
• sampling-distribuciji aritmetičkih sredina

• sampling-distribuciji varijanci

• sampling-distribuciji proporcija
• sampling-distribuciji medijana

46
ISPRINTANO U ŽUTOJ

8.4 Procjene parametara

Procjenjivanje nepoznatih parametara temelji se na podatcima koji tvore slučajni uzorak i na uporabi
odgovarajućeg procjenitelja.

Na instrukcijama ću puno puta reći da se parametar procjenjuje brojem i intervalom,


također ćemo napraviti podjelu kako bi ti lakše to sve ušlo u glavu i kako bi se snašao na
ispitu! Za podsjetnik si otvori bilježnicu s instrukcija.

Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.

Pri prosudbi kakvoće procjenitelja pogodno je da procjenitelji imaju poželjna svojstva kao što su

• nepristranost
• najmanja varijanca

• konzistentnost i dr.

Procjenitelj je nepristran ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje.,
a konzistentan je ako njegova standardna devijacije s porastom teži nuli.
Parametri se, osim intervalom i brojem, procjenjuju još nekim metodama od kojih se najčešće se
koriste:

• metoda momenata – sastoji se u tome da se parametri izraze kao funkcije momenata oko
nule, a zatim se momenti osnovnog skupa zamijene momentima uzorka
• metoda najmanjih kvadrata – temelji se na traženju onih procjena parametra za koje je zbroj
kvadrata odstupanja vrijednosti dane varijable od procjene minimalan
• metoda najveće vjerodostojnosti – temelji se na pretpostavci da je poznat oblik funkcije
vjerojatnosti osnovnog skupa

8.4.1 Procjena aritmetičke sredine


Aritmetičku sredinu možemo procijeniti brojem ili intervalom. Kad procjenjujemo intervalom
moramo paziti je li uzorak veći ili manji od 30 jer o tome nam ovisi izbor intervala. Ako pogledaš u
svoje formule, vidjet ćeš da postoje formule za:
• procjenu brojem – jednaka je aritmetičkoj sredini uzorka

• procjenu intervalom za veliki uzorak (n>30) – koristi se normalna distribucija

𝑃(𝑥̅ −𝑧𝛼/2 𝜎𝑥̅ < 𝜇 < 𝑥 ̅ +𝑧𝛼/2 𝜎𝑥̅) =(1−𝛼)

47
ISPRINTANO U ŽUTOJ

• procjenu intervalom za mali uzorak (n≤ 30) – koristi se Studentova t distribucija

𝑃(𝑥̅ −𝑡𝛼/2 𝜎𝑥̅ < 𝜇 < 𝑥 ̅ +𝑡𝛼/2 𝜎𝑥̅) =(1−𝛼)

𝑥̅ - aritmetička sredina uzorka


zα ili t α/2 - koeficijent pouzdanosti
2

𝜎𝑥̅ - standardna pogreška procjene aritmetičke sredine


𝜇 - aritmetička sredina osnovnog skupa, ujedno i parametar koji se procjenjuje
(1 − 𝛼) - razina pouzdanosti

8.4.2 Procjena totala osnovnog skupa


Total je zbroj vrijednosti numeričkog obilježja. Povezan je s aritmetičkom sredinom. Upravo zbog
toga postupak procjenjivanja totala svodi se na postupak procjenjivanja aritmetičke sredine.

• procjena brojem:

𝑇̂ = 𝑁 ∙ 𝑥̅
𝜎𝑇̂ = 𝑁 ∙ 𝜎𝑥̅

• intervalna procjena za veliki uzorak:

𝑃(𝑇-𝑧𝛼/2 𝜎𝑇̂ < 𝑇 < 𝑇 +𝑧𝛼/2 𝜎𝑇̂) = (1−𝛼)

• Intervalna procjena za mali uzorak

𝑃(𝑇 -𝑡𝛼/2 𝜎𝑇̂ < 𝑇 < 𝑇 +𝑡𝛼/2 𝜎𝑇̂) = (1−𝛼)

8.4.3 Procjena proporcije osnovnog skupa


Proporcija osnovnog skupa je parametar koji predstavlja omjer broja članova osnovnog skupa s
određenim oblikom obilježja (M) i opsega statističkog skupa (N), odnosno:

𝑀
𝑝=
𝑁

Proporciju također možemo procijeniti brojem i intervalom. Rekli smo da je proporcija parametar koji
predstavlja omjer broja članova osnovnog skupa i opsega skupa, ali mi procjenjujemo proporciju za

48
ISPRINTANO U ŽUTOJ

uzorak, pa će nam zbog toga trebati malo drugačije oznake. Zato ćemo umjesto M i N koristiti m za
broj članova uzorka s određenim oblikom obilježja – broj članova u uzorku s određenom
karakteristikom (sjeti se neispravnih grijalica Hot u zadatku s instrukcija), a n za veličinu uzorka. Stoga
će procjena proporcije brojem izgledati ovako:

• procjena brojem

𝑚
𝑝̂ =
𝑛

• procjena intervalom za veliki uzorak:

𝑃(𝑝̂ -𝑧𝛼/2 𝜎𝑝̂ < 𝑝 < 𝑝 ̂ +𝑧𝛼/2 𝜎𝑝̂) = (1−𝛼)

Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika binomne
distribucije, a ako potječe iz konačnog skupa, sampling-distribucija proporcija ima oblik
hipergeometrijske distribucije (hipergeometrijska distribucija se s povećanjem veličine uzorka
približava binomnoj).

8.5 Određivanje veličine uzorka za procjenu aritmetičke sredine osnovnog skupa

Veličina uzorka za procjenu aritmetičke sredine populacije ovisi o sljedećim elementima:

• vrsti populacije - konačna ili beskonačna


• razini pouzdanosti procjene
• željenoj preciznosti procjene, odnosno maksimalnoj pogrešci koja se dozvoljava kod procjene

• stupnju varijabilnosti obilježja čija se aritmetička sredina procjenjuje

Formula za određivanje veličine uzorka, kada se intervalom procjenjuje sredina normalno


distribuirane populacije s poznatom varijancom, je:

𝑧𝛼/2 𝜎 2 𝑧𝛼/2 𝑉 2
𝑛=( ) =( )
𝑑 𝑑𝑟

Frakcija 𝑓0 nam pokazuje koliki je postotak populacije uzet u uzorak. Znači, ako je frakcija izbora
𝑛0
manja od 5% uzima se da je 𝑛 = 𝑛𝑜 , a kad je veća ili jednaka 5% onda je 𝑛 = 𝑛 . Izraz 𝒏𝒐 naziva se
1+ 𝑜
𝑁
prethodnom veličinom uzorka.

49
ISPRINTANO U ŽUTOJ

Postoji i određivanje veličine uzorka za procjenu proporcije osnovnog skupa. Pogledaj u formulama!

8.6 Testiranje hipoteza o parametru

Stigli smo i do hipoteza. Prvo ćemo definirati statističku hipotezu kako bismo vidjeli o čemu se tu
uopće radi.

Statistička hipoteza je tvrdnja o veličini parametra ili o obliku


distribucije osnovnog skupa čija se istinitost ispituje pomoću
slučajnog uzorka.

Znači, mi ćemo tu nešto pretpostaviti (hipoteza), zatim ćemo izračunati testnu veličinu, usporediti ju
s teorijskom i na kraju prihvatiti ili odbaciti pretpostavku. Taj postupak donošenja odluke o
prihvaćanju ili neprihvaćanju zove se, 'ko bi rekao, testiranje statističkih hipoteza.

Statističke testove dijelimo na:


• parametarske - polazi se od danog oblika numeričke varijable u osnovnom skupu
• neparametarske

Svaki postupak testiranja polazi od nulte (𝐻0) i alternativne (𝐻1) hipoteze. Sadržaj hipoteza odlučuje
istraživač. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte.
Sud koji izvire iz odluke o prihvaćanju ili neprihvaćanju nulte hipoteze nije kategoričan (bezuvjetan /
određen) jer se odluka donosi na temelju vrijednosti iz slučajnog uzorka, odnosno dijela podataka.

U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka. One se nazivaju:

• pogreška tipa I - nastaje ako se odbaci istinita nulta hipoteza


Ta pogreška se označava kao 𝛼, odnosno razina signifikantnosti/razina značajnosti.

• pogreška tipa II - nastaje ako se prihvati lažna nulta hipoteza Ta pogreška označava se
kao 𝛽.

No, mi ne želimo pogriješiti! Mi želimo odbaciti nultu hipotezu kada je ona lažna. Ta vjerojatnost se
naziva snaga testa, odnosno razina pouzdanosti.

50
ISPRINTANO U ŽUTOJ

8.6.1 Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa


Postupak testiranja hipoteza o pretpostavljenoj vrijednosti sredine populacije 𝜇 temelji se na istim
teorijskim osnovama kao i postupak procjenjivanja parametra 𝜇. Stoga ćemo ovdje koristiti već
stečena znanja! Juhu!
Budući da je vrijednost sredine populacije 𝜇 nepoznata, može se testirati hipoteza da je sredina
populacije jednaka, manja ili veća od pretpostavljene vrijednosti 𝜇0 . Ukoliko nam pretpostavka ili
tvrdnja u zadatku kaže da je sredina populacije jednaka 𝜇0 , radi se o dvosmjernom testu kojim se
testira jednostavna hipoteza. Ako nam piše da je sredina populacije manja ili veća od 𝜇0 , tada se radi
o jednosmjernom testu na donju granicu ili jednosmjernom testu na gornju granicu kojima se
testiraju složene hipoteze. Nakon što smo odredili vrstu testa, potrebno je obratiti pažnju na veličinu
uzorka te prema tome odrediti radi li se o t ili z-testu. Osim putem t ili z-testa, odluka se može
donijeti i pomoću kritičnih granica, te pomoću empirijske razine signifikantnosti tj. P-vrijednost o
kojoj će biti riječi kasnije u skripti.

n > 30 veliki uzorak – TEST VELIKIM UZORKOM (z-test)

𝑥̅ − 𝜇0
𝑧=
𝜎𝑥̅

n ≤ 30 mali uzorak – TEST MALIM UZORKOM (t-test)

𝑥̅ − 𝜇0
𝑡=
𝜎𝑥̅

A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.


1. Postaviti hipotezu
2. Identificirati izraz za testnu veličinu i odrediti njenu vrijednost
3. Odabrati razinu signifikantnosti i odrediti kritične granice
4. Donijeti zaključak o ishodu testa
Ove magične korake imaj na umu dok rješavaš zadatke iz ovog gradiva! Dobro će ti doći!

Dvosmjerni test
Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna starost studenata u Hrvatskoj 22 godine?


α = 5% (OSTALO: iznosi 22, jednaka 22, se ne razlikuje i sl.)

51
ISPRINTANO U ŽUTOJ

Jednosmjerni test na gornju granicu


Promatramo odstupanje na više. Pretpostavlja se da je aritmetička sredina osnovnog skupa veća od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝜇 ≤ 𝜇0
𝐻1 : 𝜇 > 𝜇0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna starost studenata u Hrvatskoj veća od /


barem / minimalno /prelazi i sl. 22 godine? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je aritmetička sredina osnovnog skupa manja od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝜇 ≥ 𝜇0
𝐻1 : 𝜇 < 𝜇0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna starost osoba u dalmatinskoj zagori


manja od / ne prelazi / /najviše / maksimalno i sl. 42 godine? α = 5%

8.6.2. Donošenje odluke pomoću p-vrijednosti (p-value /empirijska razina signifikantnosti)


Već smo spomenuli donošenje odluke putem t ili z-testa i pomoću kritičnih granica, a sada je vrijeme
da se upoznamo i s empirijskom razinom signifikantnosti.
P-vrijednost je zapravo vjerojatnost odbacivanja istinite nulte hipoteze izračunata pomoću podataka
iz uzorka, odnosno test veličine. Što je ona manja, manja je i empirijski utvrđena vjerojatnost
odbacivanja istinite nulte hipoteze i obrnuto. Pri zaključivanju pomoću p-vrijednosti nužno je imati na
umu da ta vrijednost izvire iz rezultata uzorka, tj. da njezina kakvoća ovisi o kakvoći uzorka. Upravo
zbog toga, u obzir je potrebno uzeti i druge analitičke rezultate.

52
ISPRINTANO U ŽUTOJ

8.6.3. Testiranje hipoteze o proporciji populacije pomoću velikog uzorka


Budući da je vrijednost proporcije populacije 𝑝 nepoznata, može se testirati hipoteza da je proporcija
populacije jednaka, manja ili veća od pretpostavljene vrijednosti 𝑝0. Ukoliko nam pretpostavka ili
tvrdnja u zadatku kaže da je proporcija populacije jednaka 𝑝0, radi se o dvosmjernom testu kojim se
testira jednostavna hipoteza. Ako nam piše da je proporcija populacije manja ili veća od 𝑝, tada se
radi o jednosmjernom testu na donju granicu ili jednosmjernom testu na gornju granicu kojima se
testiraju složene hipoteze. Nakon što smo odredili vrstu testa, uspoređujemo kritičnu vrijednost s
testnom veličinom i donosimo odluku. Kao što smo rekli na instrukcijama, kod proporcije se
pojavljuje samo veliki uzorak.

n > 30 veliki uzorak – TEST VELIKIM UZORKOM (z-test)

𝑥̅ − 𝜇0
𝑧=
𝜎𝑥̅
Dvosmjerni test
Pretpostavka je da je proporcija populacije jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝑝 = 𝑝
𝐻1 : 𝑝 ≠ 𝑝

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija neispravnih grijalica Hot 5%? α = 5%


(OSTALO: iznosi 5%, jednaka 5%, se ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je proporcija osnovnog skupa veća od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝑝 ≤ 𝑝0
𝐻1 : 𝑝 > 𝑝0

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija neispravnih grijalica Hot veća od /


barem / minimalno / prelazi i sl. 5%? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je proporcija osnovnog skupa manja od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝑝 ≥ 𝑝
𝐻1 : 𝑝 < 𝑝0

53
ISPRINTANO U ŽUTOJ

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija neispravnih grijalica Hot manja od / ne


prelazi /najviše / maksimalno i sl. 5%? α = 5%

EVO JEDNOG PRIMJERA!


Možemo li prihvatiti pretpostavku da 90% studenata koji dođu na instrukcije u Štreberaj
polože ispit iz statistike?
Odgovor na ovo pitanje već svi znamo, pa možemo odgovoriti i bez testiranja navedene
tvrdnje! Hehe
Ipak, idemo vidjeti kako bi to funkcioniralo.
Radi se o testu hipoteze o pretpostavljenoj vrijednosti proporcije populacije (sjeti se da
postoji i test o pretpostavljenoj vrijednosti sredine populacije).
Pretpostavljena vrijednost proporcije, koju ćemo u zadacima označavati s 𝑝0, iznosi 0.90
(90% smo podijelili sa 100). Radi se o dvosmjernom testu jer pretpostavka kaže da točno
90% studenata položi navedeni ispit, pa hipoteze u našem slučaju glase ovako:

𝐻0 : 𝑝 = 0.90
𝐻1 : 𝑝 ≠ 0,90

Vidimo da nulta hipoteza iznosi našu pretpostavku, a alternativna joj proturječi.


Ono što dalje slijedi je usporedba testne veličine i kritične vrijednosti, te donošenje odluke o
odbacivanju nulte hipoteze.

54
ISPRINTANO U ŽUTOJ

9. USPOREDBA PARAMETARA OSNOVNIH


SKUPOVA
U sklopu inferencijalne statistike ispituju se parametri dvaju ili više osnovnih skupova. Prisjetimo se
što su to parametri. Parametar je brojčana karakteristika osnovnog skupa N. U ovom poglavlju ćemo
procjenjivati njihovu razliku, testirati hipoteze o njihovim pretpostavljenim veličinama i sl. Postupci se
temelje na slučajnim uzorcima izabranima iz dvaju ili više osnovnih skupova.
Uzorci mogu biti zavisni i nezavisni.
Nezavisni su ako rezultati opažanja i mjerenja u jednom uzorku ne ovise o rezultatima opažanja i
mjerenja u drugom.
Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opažanjem, odnosno mjerenjem
odabrane varijable na istim jedinicama statističkog skupa izabranima u uzorak u različitim
vremenskim trenucima.

9.1 Procjena razlike aritmetičke sredine dvaju osnovnih skupova nezavisnim uzorcima

Nezavisni uzorci su oni kod kojih podatci iz uzorka prve populacije ne utječu na vjerojatnost
pojavljivanja podataka iz druge populacije. Izabiru se primjerice za procjenu razlike u prosječnoj
trajnosti novog proizvoda i prosječnoj trajnosti odstajalog proizvoda.
Procjena razlike aritmetičkih sredina također procjenjuje brojem i intervalom. Razlika je u tome što
ovdje imamo dva osnovna skupa. Tako će procjena razlike aritmetičkih sredina brojem tih dvaju
skupova biti razlika aritmetičke sredine prvog i drugog skupa.

Procjenu aritmetičke sredine dvaju osnovnih skupova brojem označava se s 𝑑̂ i glasi:

𝑑̂ = 𝑥̅1 − 𝑥̅2

• Procjena intervalom za velike uzorke:

𝑃 (𝑑̂ − 𝑧𝛼 ∗ 𝜎𝐷̂ < 𝐷 < 𝑑̂ + 𝑧𝛼 ∗ 𝜎𝐷̂ ) = (1 − 𝛼)


2 2

• Procjena intervalom za male uzorke:

𝑃 (𝑑̂ − 𝑡𝛼 ∗ 𝜎𝐷̂ < 𝐷 < 𝑑̂ + 𝑡𝛼 ∗ 𝜎𝐷̂ ) = (1 − 𝛼)


2 2

55
ISPRINTANO U ŽUTOJ

9.2 Testiranje hipoteza o razlici aritmetičkih sredina dvaju osnovnih skupova nezavisnim
uzorcima

Testovi razlike između aritmetičkih sredina dviju normalno distribuiranih populacija ponekad se
provode pomoću nezavisnih, a ponekad pomoću zavisnih uzoraka, ovisno o logici konkretne situacije.
Pritom varijance mogu biti poznate ili nepoznate, a nepoznate varijance mogu biti jednake ili
nejednake.

n > 30 veliki uzorak – TEST VELIKIM UZORKOM (z-test)

𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂

n ≤ 30 mali uzorak – TEST MALIM UZORKOM (t-test)

𝑑̂ − 𝐷0
𝑡=
𝜎𝐷̂

A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.


1. Postaviti hipotezu
2. Identificirati izraz za testnu veličinu i odrediti njenu vrijednost
3. Odabrati razinu signifikantnosti i odrediti kritične granice
4. Donijeti zaključak o ishodu testa
Ove magične korake imaj na umu dok rješavaš zadatke iz ovog gradiva! Dobro će ti doći!

Dvosmjerni test
Pretpostavka je da je sredina populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!
𝐻𝑜 : 𝜇1 − 𝜇2 = 𝐷0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da ne postoji razlika u prosječnoj težini čokolade


proizvedenih na dva različita stroja. α = 5% (OSTALO: iznosi 5%, jednaka 5%, se ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je sredina prvog osnovnog skupa veća od
sredine drugog. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝜇1 − 𝜇2 ≤ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 > 𝐷0

56
ISPRINTANO U ŽUTOJ

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna težina čokolada proizvedenih na prvom


stroju veća od prosječne težine čokolada proizvedenih na drugom stroju? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je sredina prvog osnovnog skupa manja od
sredine drugog. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝜇1 − 𝜇2 ≥ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 < 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna težina čokolada proizvedenih na prvom


stroju manja od prosječne težine čokolada proizvedenih na drugom stroju? α = 5%

9.3 Procjena razlike proporcija dviju populacija na osnovi velikih nezavisnih uzoraka

Procjena razlike proporcija dvaju osnovnih skupova provodi se na način sličan procjeni aritmetičkih
sredina. To se odnosi i na postupak testiranja hipoteze o razlici proporcija. Temelj su postupka
procjene vrijednosti iz uzorka te sampling-distribucija razlika.
Opet imamo procjenu brojem i intervalom. Juhu!

Procjena razlike proporcija dvaju osnovnih skupova brojem označava se s 𝑑̂ i glasi:

𝑑̂ = 𝑝̂ 1 − 𝑝̂ 2

• procjena intervalom za velike uzorke

𝑃 (𝑑̂ − 𝑧𝛼 ∗ 𝜎𝐷̂ < 𝐷 < 𝑑̂ + 𝑧𝛼 ∗ 𝜎𝐷̂ ) = (1 − 𝛼)


2 2

9.4 Test hipoteza o razlici proporcija dviju populacija na osnovi velikih nezavisnih uzoraka
Test hipoteze o razlici proporcija temelji se na obliku sampling-distribucije (tj. distribucije
̂ razlike proporcije dviju populacija na bazi velikih nezavisnih uzoraka veličine 𝑛1 𝑖 𝑛2 ,
procjenitelja) 𝐷
a moguće ga je provesti kao dvosmjerni test ili kao jednosmjerni test na donju ili gornju granicu.

Testna veličina je standardizirana vrijednost razlike proporcije uzoraka tj.

𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂

57
ISPRINTANO U ŽUTOJ

A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.


5. Postaviti hipotezu
6. Identificirati izraz za testnu veličinu i odrediti njenu vrijednost
7. Odabrati razinu signifikantnosti i odrediti kritične granice
8. Donijeti zaključak o ishodu testa
Ove magične korake imaj na umu dok rješavaš zadatke iz ovog gradiva! Dobro će ti doći!

Dvosmjerni test
Pretpostavka je da je proporcija populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!

𝐻𝑜 : 𝑝1 − 𝑝2 = 𝐷0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da ne postoji razlika u proporciji građana koji su godišnji
odmor proveli izvan mjesta stanovanja u ova dva grada? α = 5% (OSTALO: iznosi 5%, jednaka 5%, se
ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je proporcija prvog osnovnog skupa veća od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝑝1 − 𝑝2 ≤ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 > 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu veća od proporcije u drugom gradu? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je proporcija prvog osnovnog skupa manja od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝑝1 − 𝑝2 ≥ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 < 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu manja od proporcije u drugom gradu?α = 5%

58
ISPRINTANO U ŽUTOJ

10. HI-KVADRAT TEST


Jedan od prvih statističkih testova bio je hi-kvadrat test. Predložio ga je K. Pearson 1900. Godine. To
je jedan od najčešće korištenih neparametarskih testova u empirijskim istraživanjima.
Neparametarski testovi koriste se kada oblik distribucije populacije, iz koje se izabire slučajni uzorak,
nije poznat.

E sad, kako ćeš prepoznat da u zadatku trebaš koristiti hi-kvadrat test? On je uvijek test
proporcija triju ili više populacija. Znači, do sad smo imali jednu ili dvije populacije, a sad
imamo tri ili više! Kada prepoznaš tri ili više populacija u zadatku moraš odrediti o kojem se
hi-kvadrat testu radi. Ovakav tip zadataka se može pojaviti u 3. zadatku na ispitu.

Postoje tri testa s kojima ćemo se susresti:


• test o obliku distribucije populacije

• test o nezavisnosti dviju varijabli (TABLICA KONTINGENCE)


• test o jednakosti proporcija triju ili više nezavisnih populacija

Hi-kvadrat test je vrlo praktičan test koji može osobito poslužiti onda kad želimo utvrditi odstupaju li
neke dobivene (opažene) frekvencije od frekvencija koje bismo očekivali pod određenom hipotezom.
Idemo vidjeti kako to funkcionira!

10.1 Test o obliku distribucije


Hi-kvadrat testom o obliku distribucije testira se je li empirijska distribucija značajno različita od
teorijske (pretpostavljene) distribucije. Test se još naziva i „testom kvalitete prilagodbe“ s
pretpostavljenom distribucijom, iako je češće korišten engleski termin „goodness of fit test“.
Eto, sad znaš sve nazive. ☺
Hipoteze testa mogu se zapisati na sljedeći način:

H0: Distribucija populacije je pretpostavljenog oblika.


H1: Distribucija populacije nije pretpostavljenog oblika.

Ako je prva hipoteza istinita, empirijske se frekvencije neće značajno razlikovati od očekivanih
frekvencija. Razlika između njih gotovo uvijek postoji, a pomoću hi-kvadrat testa zaključuje se jesu li
te razlike rezultat slučajnosti ili ne. Ukoliko je razlika slučajna, ona nije statistički značajna te se može
zaključiti da je distribucija populacije pretpostavljenog oblika i obrnuto.
Kako dalje?

59
ISPRINTANO U ŽUTOJ

Nakon što smo postavili hipoteze, moramo odrediti testnu veličine koju ćemo usporediti s teorijskom
veličinom i odrediti koju hipotezu prihvaćamo. To znači da ćemo uspoređivati hi-kvadrat empirijski i
hi-kvadrat teorijski. Empirijski hi-kvadrat moramo izračunati, pa ćeš u svojim formulama naći formulu
koja izgleda ovako:

2
(𝑓𝑖 − 𝑒𝑖 )2
𝜒 =
𝑒𝑖

E sad, ja volim reći da ti je ova formula „zvijezda vodilja“ kod zadataka sa hi-kvadratom (nemoj to
slučajno reći na usmenom :P). Šta mislim pod tim „zvijezda vodilja“? Cilj ti je izračunati taj empirijski
hi-kvadrat, pa tako sve što vidiš u njegovoj formuli stavi u stupce u tablicu (kako smo radili na
instrukcijama).

Postupak:

• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑓𝑖 )

• očekivane frekvencije (𝑒𝑖 ) se izračunavaju ovisno o pretpostavci


• izračunava se test pokazatelj (empirijski hi-kvadrat)

• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df) k-1, pri čemu je k broj
populacija, uz zadanu razinu značajnosti α

Očekivane frekvencije se računaju tako da se veličina uzorka n množi s vjerojatnosti.

𝑒𝑖 =𝑛∗𝑝(𝑜𝑖)

Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.

10.2 Test o nezavisnosti dviju varijabli


Hi-kvadrat testom o nezavisnosti dviju varijabli želi se testirati razlikuju li se značajno empirijske
frekvencije od frekvencija koje se očekuju kada bi varijable bile nezavisne. Provođenje hi-kvadrat
testa o nezavisnosti dviju varijabli zahtijeva da se formira dvodimenzijalna distribucija frekvencija (u
prijevodu - tablica kontingence). Na primjer, mi ćemo ovdje promatrati ovisi li kupnja određenog

60
ISPRINTANO U ŽUTOJ

modela automobila o spolu ili ne ovisi. Nakon provođenja ovog testa dobit ćemo odgovor na to
pitanje.
Hipoteze testa mogu se zapisati na sljedeći način:

H0: X i Y su nezavisne varijable


H1: X i Y nisu nezavisne varijable

Kako dalje?
Nakon postavljanje hipoteza trebamo odrediti testnu veličinu te ju izračunati. Rekli smo da je testna
veličina empirijski hi-kvadrat koja izgleda ovako:

2
2
(𝑓𝑖𝑗 − 𝑒𝑖𝑗 )
𝜒 =
𝑒𝑖𝑗

Kod ovog testa će ti apsolutne frekvencije biti zadane u tablici kontingence koja ima najmanje dva
retka i dva stupca. Zato se ovdje frekvencije označavaju kao 𝑓𝑖𝑗 (i predstavlja redak, a j stupac). Kako
bi izračunali našu testnu veličinu potrebne su nam i očekivane frekvencije 𝑒𝑖𝑗.
Njih ćemo izračunati prema formuli:

𝑅𝑖 ∗ 𝐶𝑗
𝑒𝑖𝑗 =
𝑛

Ovdje, dakle, uzimaš sumu retka (𝑅𝑖), množiš ju sa sumom stupca (𝐶𝑗) u tablici kontingence i taj
umnožak dijeliš sa n. Npr. Za očekivanu frekvenciju 𝑒11 uzimaš sumu prvog retka, množiš ju sa sumom
prvog stupca i dijeliš s ukupnim brojem n.

Postupak:

• izabire se uzorak

• bilježe se vrijednosti apsolutnih frekvencija (𝑓𝑖𝑗)

• očekivane frekvencije (𝑒𝑖𝑗) se izračunavaju ovisno o pretpostavci


• izračunava se test pokazatelj (empirijski hi-kvadrat)

• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df) = (r-1)(c-1)


pri čemu je r broj redaka, a k broj stupaca

61
ISPRINTANO U ŽUTOJ

Odluka:
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.

10.3. Test o jednakosti proporcija triju ili više populacija

Test o jednakosti proporcija triju ili više populacija je specijalni slučaj hi-kvadrat testa o nezavisnosti
varijabli, ako je jedna od varijabli dihotomna. Iako se kod oba testa jednako definira testna veličina,
postavljene hipoteze i zaključak testa su različiti. Naime, kod testa nezavisnosti iz populacije izabire
se jedan slučajni uzorak, dok se kod testa o jednakosti proporcija triju ili više populacija izabire po
jedan slučajni uzorak iz svake populacije.
Hipoteze testa mogu se zapisati na sljedeći način:

𝐻0 : 𝑝1 = 𝑝2 = 𝑝3 = 𝑝𝑘
𝐻1 : ∃𝑝𝑖 = 𝑝𝑗 , 𝑧𝑎 𝑖, 𝑗 = 1,2,3, … , 𝑘

Kako dalje?
Nakon što smo postavili hipoteze, trebamo odrediti testnu veličinu-empirijski hi-kvadrat. On se
računa prema ovoj formuli:

(𝑚𝑗 − 𝑒𝑗 )2 (𝑛𝑗 − 𝑚𝑗 − 𝑒𝑗𝑐 )2


𝜒2 = ∑ +∑
𝑒𝑗 𝑒𝑗𝑐

Očekivane frekvencije računaju se pomoću ove formule:

𝑒𝑗 = 𝑛𝑗 ∗ 𝑝̅

Veličina svakog uzorka 𝑛𝑗 množi se sa zajedničkom proporcijom 𝑝̅. Tu zajedničku proporciju izračunat
ćeš kao omjer sume svih modaliteta i sume uzoraka.
Postupak:

• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑚𝑖)
• očekivane frekvencije (𝑒𝑖) se izračunavaju ovisno o pretpostavci
• izračunava se test pokazatelj (empirijski hi-kvadrat)
• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df)

62
ISPRINTANO U ŽUTOJ

Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),

nulta hipoteza će se odbaciti na razini značajnosti 𝛼.

11. MODEL JEDNOSTAVNE LINEARNE


REGRESIJE I KORELACIJE
Najzastupljenije metode u analizi statističke povezanosti varijabli su korelacijska i regresijska analiza.
Obje metode analiziraju linearnu povezanost varijabli, iako su suštinski različite. U korelacijskoj se
analizi utvrđuje smjer i jakost povezanosti dviju slučajnih varijabli. U regresijskoj analizi se
pretpostavlja odnos između varijabli, tj. varijable se dijele na zavisnu (varijabla y) i nezavisnu varijablu
(varijabla x). Cilj istraživanja odnosa među pojavama je utvrditi statističku ovisnost i pokazatelje
jakosti takve ovisnosti. Za to se koriste metode regresijske i korelacijske analize.

Postoje dvije vrste veza među varijablama:

• Funkcionalna veza
o odnos koji se izražava analitički – jednadžbom
o svakoj vrijednosti jedne pojave odgovara točno određena vrijednost druge pojave
• Statistička/stohastička veza
o slabija od funkcionalne
o svakoj vrijednosti jedne pojava odgovara više različitih vrijednosti druge pojave. Npr.
sve osobe iste visine nemaju i istu težinu

Regresijska analiza sastoji se u primjeni metoda kojima se analitički (jednadžbom) objašnjava


statistička veza između promatranih pojava. Istražuje se uzročno-posljedični karakter veze, što znači
da je jedna varijabla uzrok i nju ćemo zvati nezavisna varijabla, a druga je posljedica, nju ćemo zvati
zavisna varijabla.
Temelji se na regresijskom modelu = jednadžbi s parametrima i varijablama kojima se objašnjava
povezanost promatranih pojava. Ako imamo samo jednu nezavisnu varijablu, jednostavni regresijski
model koji sadrži jednu zavisnu i jednu nezavisnu varijablu naziva se modelom jednostavne regresije,
a model sa dvije ili više nezavisnih varijabli, model višestruke regresije. Mi ćemo se prvo baviti
jednostavnom linearnom regresijom. Pa krenimo!

63
ISPRINTANO U ŽUTOJ

Jednostavna linearna regresija predstavlja odnos između dvije pojave i to takav da promjenu jedne
pojave prati približno linearna promjena druge pojave.

11.1. Dijagram rasipanja

Priča počinje dijagramom rasipanja. Dijagram rasipanja nam pokazuje kakva je veza između te dvije
pojave.

Dijagram rasipanja je grafički prikaz točaka u pravokutnom


koordinatnom sustavu na temelju kojeg se analizira povezanost
dviju varijabli.

Točke se crtaju u pravokutnom koordinatnom sustavu s aritmetičkim mjerilom za vrijednosti 𝑥𝑖 na osi


apscisa i aritmetičkim mjerilom za vrijednosti 𝑦𝑖 na osi ordinata. Analizom oblika „raspršenosti“
točaka utvrđuje se oblik, smjer i intenzitet povezanosti dviju pojava.

10000 1500
8000
1000
6000
4000 500
2000
0 0
0 5000 10000 15000 0 20 40

15000

10000

5000

0
0 50 100 150

Prvi grafikon rasipanja (gore lijevo) pokazuje pozitivno linearnu vezu. Uzmimo na primjer dohodak i
potrošnju. Te dvije varijable ovise jedna o drugoj. Povezanost je linearno pozitivna (kao što pokazuje
graf) jer porastom dohotka za određen iznos raste potrošnja u približno jednakom iznosu.

64
ISPRINTANO U ŽUTOJ

Drugi grafikon rasipanja (gore desno) pokazuje nam negativnu linearnu vezu. Uzmimo na primjer
porast cijena neke robe u supermarketu i količinu te robe. Pretpostavka je da bi sa povećanjem cijene
robe u supermarketu došlo do smanjenja prodane količine iste te robe.
Prema tome možemo zaključiti da su cijena robe i količina prodane robe u negativnoj linearnoj vezi.
Treći grafikon rasipanja (dole lijevo) pokazuje nam da veza među varijablama ne postoji. Za primjer
možemo uzeti broj djece upisane u javne vrtiće i broj sati koje ti provedeš učeći statistiku. Jedno ne
utječe na drugo te veza između te dvije varijable ne postoji.
Zašto uopće koristimo dijagram rasipanja? Zato što nam on pokazuje u kakvom su odnosu dvije
varijable.
Svaka točka dijagrama rasipanja zadovoljava jednadžbu 𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝑒𝑖 . Odnosno svaka točka Yi
odstupa od linije pravca za ±𝑒i.

9000
8000
7000

6000
5000
4000

3000
2000
1000
0
0 2000 4000 6000 8000 10000 12000

11.2. Model jednostavne linearne regresije

Osnova regresijske analize je, 'ko bi rekao, regresijski model. To je jedan hipotetički model, zapravo
formula, kojom se izražava statistička povezanost između pojava. Na temelju uzorka vrijednosti
odabranih varijabli procjenjuju se parametri pretpostavljenog modela i testiraju pretpostavke kako bi
se odredila adekvatnost procijenjenog modela.

11.2.1. Procjena parametara u modelu jednostavne linearne regresije


Uz pretpostavku da se povezanost varijabli opisuje linearnom funkcijom, tj. da je model populacije
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀
Zadatak regresijske analize je da se pronađu procjene nepoznatih parametara (parametara
populacije), 𝛽0 i 𝛽1 , te procjena nepoznate varijance 𝜎 2 slučajnih varijabli 𝜀𝑖 (varijance populacije). U
tu svrhu potrebno je odabrati n opažanja varijabli, tj. slučajni uzorak.
Procijenjen model na temelju uzorka je:

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖

65
ISPRINTANO U ŽUTOJ

Regresijska vrijednost zavisne varijable 𝑦̂𝑖 je zbroj konstantnog člana 𝛽̂0 i regresijskog koeficijenta 𝛽̂1
(koji se još zove i koeficijent smjera) pomnoženog s nezavisnom varijablom x.

Kako ćeš pomoći Štrebsyju d.d.?


Moramo imati procijenjeni model koji ćemo dobiti uz pomoć dostupnih podataka. Odnosno,
moramo pronaći procjenitelje nepoznatih koeficijenata 𝛽0 i 𝛽1 iz jednadžbe jednostavne
linearne regresije. Procjene koeficijenata dobivamo iz jednadžbi izvedenih uz pomoć metode
koja se naziva metoda najmanjih kvadrata.

Procjenitelj koeficijenta nagiba/koeficijenta smjera/regresijskog koeficijenta, odnosno 𝛽1:

∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅ ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝛽̂1 = =
∑ 𝑥𝑖2 − 𝑛𝑥̅ 2 ∑(𝑥𝑖 − 𝑥̅ )2

Procjenitelj konstante/presjeka osi Y, odnosno 𝛽0:

𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅

Napominjem da regresijska linija uvijek prolazi točkom čije su koordinate 𝑦̅ i 𝑥̅.


Približni regresijski model koji smo razvili može se shvatiti kao pokušaj objašnjavanja promjena
zavisne varijable Y nastalih slijedom promjena zavisne varijable X. Sada smo spremni razviti mjere
koje pokazuju koliko učinkovito varijabla X tumači ponašanje varijable Y.

11.1 Analiza varijance u modelu jednostavne linearne regresije


Kako bismo odredili koliko je varijabla X uspješna u tumačenju varijacija varijable Y, potrebno je
rastaviti procjenu varijance zavisne varijable na dvije komponente. To su dio varijance protumačen
modelom (SP) i rezidualni dio, tj. dio varijance neprotumačen modelom (SR). Njihov zbroj daje nam
ukupan zbroj kvadrata (ST) odnosno zbroj kvadrata odstupanja empirijskih vrijednosti zavisne
varijable od prosjeka. On označava ukupnu varijabilnost empirijskih vrijednosti 𝑦𝑖 u odnosu na 𝑦̅.

𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̅)2 = ∑ 𝑦𝑖2 − 𝑛𝑦̅ 2

𝑆𝑃 = ∑(𝑦̂𝑖 − 𝑦̅)2 = 𝛽̂0 ∑ 𝑦𝑖 + 𝛽̂1 ∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑦̅ 2

𝑆𝑅 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑦𝑖2 − 𝛽̂0 ∑ 𝑦𝑖 − 𝛽̂1 ∑ 𝑥𝑖 𝑦𝑖

66
ISPRINTANO U ŽUTOJ

Rekli smo gore da je ukupna suma iliti zbroj kvadrata jednaka zbroju kvadrata protumačenog
modelom uvećanog za rezidualni ili neprotumačeni zbroj kvadrata.
𝑆𝑇 = 𝑆𝑃 + 𝑆𝑅

Zbroj kvadrata protumačen modelom je zapravo zbroj kvadrata odstupanja regresijskih vrijednosti od
prosjeka. On označava varijabilnost empirijskih vrijednosti zavisne varijable koja je protumačena
modelom.
Neprotumačen zbroj kvadrata nama stvara problem. Zašto? On je posljedica slučajnih i neočekivanih
odstupanja empirijskih vrijednosti od regresijskih. Ako se zbrojevi kvadrata podijele s odgovarajućim
stupnjevima slobode, dolazi se do sredina kvadrata koje su nezavisne procjene komponenti varijance.
Sve ovo što smo naveli prikazivat ćemo u tablici standardnog oblika, tj. u tablici analize varijance
(ANOVA)

IZVOR VARIJACIJE STUPNJEVI ZBROJ KVADRATA SREDINA EMPIRIJSKI F-


SLOBODE KVADRATA omjer

Protumačen
1 SP SP SP
modelom 1
1
SR
n−2

Neprotumačen n-2
modelom SR
SR
n−2 -

UKUPNO n-1 ST - -

Neprotumačen zbroj kvadrata podijeljen sa stupnjevima slobode df = n-2 stupnjeva slobode je


procjena varijanca regresije.

𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 = =
𝑛−2 𝑛−2

Pozitivni drugi korijen iz procjene varijance regresije je procjena standardne devijacije regresije.

𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ = √ =√
𝑛−2 𝑛−2

67
ISPRINTANO U ŽUTOJ

Procjena standardne devijacije regresije pokazuje prosječno odstupanje empirijskih vrijednosti


zavisne varijable od regresijskih vrijednosti (INTERPRETACIJA). Znamo od prije da je to apsolutna
mjera jer je izražena u mjernim jedinicama varijable Y. Pripadajuća relativna mjera je procjena
koeficijenta varijacije regresije.

𝜎̂
𝑉= ∗ 100%
𝑦̅

11.2 Koeficijent determinacije i koeficijent linearne korelacije

Još jedna od mjera reprezentativnosti regresijskog modela je koeficijent determinacije. On se


izračunava formulom:

𝑆𝑃 𝑆𝑅
𝑅2 = =1−
𝑆𝑇 𝑆𝑇

Nama je bolje imati što više protumačenih odstupanja u našem modelu. Analogno tome, model
regresije je reprezentativniji što je koeficijent determinacije veći. On poprima vrijednosti iz intervala
[0,1]. Pored koeficijenta determinacije u analizi promatra se i korigirani koeficijent determinacije 𝑅̅2 .

𝑛−1
𝑅̅2 = 1 − (1 − 𝑅2 )
𝑛−2

Koeficijent linearne korelacije izračunava se kao drugi korijen iz koeficijenta determinacije, a


predznak koeficijenta ovisi o predznaku regresijskog koeficijenta 𝛽1. Znači, ako je 𝛽1 pozitivan,
koeficijent linearne korelacije biti će isto pozitivan i obrnuto.

𝑟 = ±√𝑅2
𝑠𝑖𝑛𝑔 (𝑟) = 𝑠𝑖𝑛𝑔(𝛽̂1 )

Koeficijent linearne korelacije može poprimiti vrijednosti iz intervala [−1,1]. On pokazuje kakva je
veza između zavisne i nezavisne varijable prema smjeru i čvrstoći. Prema smjeru veza može biti
negativna i pozitivna veza te ona ovisi o predznaku regresijskog koeficijenta.

68
ISPRINTANO U ŽUTOJ

Prema smjeru veza između dvije varijable može biti pozitivna i negativna. Ako je r pozitivan
broj, reći ćemo da je veza između zavisne i nezavisne varijable pozitivna. Ako je r negativan,
veza prema smjeru je negativna.
Prema čvrstoći veza može biti jaka i slaba. Što je r bliži jedinici (nebitno kojeg predznaka)
veza je jača. Ako je r=0.9, veza prema čvrstoći je jaka veza. Ako je r=-0.2, veza prema čvrstoći
je slaba.
Znači, koeficijent linearne korelacije interpretiramo uzimajući u obzir i čvrstoću i smjer
povezanosti između dvije varijable. Potrebno je napomenuti kako je ta povezanost linearna.

11.3 Testiranje hipoteza i intervali pouzdanosti

Sad kada smo izveli procjenitelje koeficijenata i varijance, spremni smo izvoditi zaključke o modelu.
Zaključci izvedeni slijedom regresijske analize pomoći će nam razumjeti modelirani proces i ujedno
omogućiti donošenje odluka vezanih za taj proces, a nama je u cilju pomoći Štrebsyju da uspije u
svom naumu! ☺
Testiranje hipoteza o pretpostavljenoj vrijednosti regresijskog parametra ili konstante u modelu
jednostavne linearne regresije najčešće se provodi na temelju t-testa ili F-testa. Odluka se donosi na
uobičajen način, kao što smo objasnili kod metode uzoraka.
Za danu razinu značajnosti/signifikantnosti 𝛼, testna veličina uspoređuje se s teorijskom vrijednosti.

11.3.1. Test značajnosti regresorske varijable


Kako ćemo znati je li nezavisna varijabla X značajna u modelu jednostavne linearne regresije? Recimo
da nam je X dohodak, a Y potrošnja. Od nas se traži da testiramo i da donesemo zaključak o
značajnosti varijable dohodak u tom modelu. Podsjetimo se kako izgleda jednadžba jednostavne
linearne regresije.

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖

Varijabla X (dohodak) je značajna u modelu, odnosno utječe na y (potrošnju) u modelu kada je


𝛽1 ≠ 0
Zašto?

Kako bi ova jednadžba izgledala kada bi 𝛽̂1 bila jednaka 0? Vidimo u formuli da se 𝛽̂1 i x množe. Ako 0
pomnožimo sa x dobijemo 0. To bi značilo da bi jednadžba regresije izgledala ovako:

𝑦̂𝑖 = 𝛽̂0
U tom slučaju varijabla x nije značajna u modelu jednostavne linearne regresije. Primjećuješ da
značajnost varijable x u modelu ovisi o regresijskom koeficijentu, što znači da moramo testirati
regresijski koeficijent!
Kako će onda glasiti hipoteze u ovom testu značajnosti regresorske varijable?

69
ISPRINTANO U ŽUTOJ

DVOSMJERNI TEST

𝐻0… 𝛽1 = 0

𝐻1… 𝛽1 ≠ 0

JEDNOSMJERNI NA GORNJU GRANICU

𝐻0… 𝛽1 = 0

𝐻1… 𝛽1 > 0

JEDNOSMJERNI NA DONJU GRANICU

𝐻0… 𝛽1 = 0

𝐻1… 𝛽1 < 0

Nulta hipoteza je formirana tako da se nastoji odbaciti, a alternativna se hipoteza definira u skladu s
pretpostavkom istraživača.
Testiranje možemo provesti pomoću t-testa i F-testa.
T-test
Testna veličina je empirijski t-omjer koji se računa pomoću formule:

𝛽̂1
𝑡1 =
𝜎𝛽̂1

Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću iz tablice.

F-test
Testna veličina je empirijski F-omjer računa se prema formuli:

𝑆𝑃
𝐹= 1
𝑆𝑅
𝑛−2

Odluka se donosi usporedbom empirijskog F-omjera sa teorijskom vrijednošću koja se očitava iz


tablica.

70
ISPRINTANO U ŽUTOJ

11.3.1 Intervalna procjena regresorske varijable


Kada intervalno procjenjujemo regresorsku varijablu, moramo paziti je li uzorak mali ili veliki. Da
ponovimo, uzorak je mali kada je manji ili jednak 30, a veliki kada je veći od 30.
Ovisno o tome biramo između dva intervala. Ukoliko je n≤30, uzimamo interval s koeficijentom
pouzdanosti t (studentova distribucija). Ukoliko je n>30, uzimamo interval s koeficijentom
pouzdanosti z (normalna distribucija).

• mali uzorak

𝑃 (𝛽̂1 − 𝑡𝛼 ∗ 𝜎𝛽̂1 < 𝛽1 < 𝛽̂1 + 𝑡𝛼 ∗ 𝜎𝛽̂1 ) = 1 − 𝛼


2 2

• veliki uzorak

𝑃 (𝛽̂1 − 𝑧𝛼 ∗ 𝜎𝛽̂1 < 𝛽1 < 𝛽̂1 + 𝑧𝛼 ∗ 𝜎𝛽̂1 ) = 1 − 𝛼


2 2

11.4 predviđanje i prognoziranje

Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable. Štrebsyi d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena
je regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna proizvodnja
pekmeza. Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika
će biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost. Tu prognostičku vrijednost izračunat ćemo ovako:

𝑦̂0 = 𝛽̂0 + 𝛽̂1 𝑥0

Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020.godini nam
je 𝑥0.prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije,
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.

71
ISPRINTANO U ŽUTOJ

12. MODEL VIŠESTRUKE LINEARNE


REGRESIJE I KORELACIJE
U jednostavnoj linearnoj regresiji analizirali smo kako nezavisna varijabla utječe na zavisnu. Analizirali
smo kako potražnja za pekmezom Štrebsyja d.o.o. utječe na proizvodnju tog pekmeza. No, je li istina
da samo potražnja utječe na proizvodnju?
Postoje i druge varijable koje utječu na proizvodnju, kao što su, na primjer, troškovi proizvodnje
pekmeza. U modelu višestruke linearne regresije analizira se upravo takav slučaj u kojem na zavisnu
varijablu utječe više nezavisnih varijabli
Jednadžba višestruke linearne regresije:

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥1 + 𝛽̂2 𝑥2 + ⋯ + 𝛽̂𝑘 𝑥𝑘

𝛽̂0 - predstavlja regresijsku vrijednost zavisne varijable, ukoliko su nezavisna varijabla 𝑥1 i 𝑥2 jednake
nuli

𝛽̂1 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,

ukoliko se nezavisna varijabla 𝑥1 poveća za 1, uz nepromijenjenu nezavisnu varijablu 𝑥2

𝛽̂2 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,

ukoliko se nezavisna varijabla 𝑥2 poveća za 1, uz nepromijenjenu nezavisnu varijablu 𝑥1.

12.1 Analiza varijance u modelu višestruke linearne regresije

U ovom modelu ukupna varijacije zavisne varijable oko prosječne vrijednosti nastoji se što bolje
objasniti skupom nezavisnih varijabli. Opet rastavljamo varijancu zavisne varijable procijenjenu na
bazi uzorka na varijacije koje se mogu objasniti linearnom funkcijom nezavisnih varijabli (SP) i na one
varijacije koje ostaju neprotumačene (SR).

𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̅)2 = ∑ 𝑦𝑖2 − 𝑛𝑦̅ 2

𝑆𝑃 = ∑(𝑦̂𝑖 − 𝑦̅)2 = 𝛽̂0 ∑ 𝑦𝑖 + 𝛽̂1 ∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑦̅ 2

𝑆𝑅 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑦𝑖2 − 𝛽̂0 ∑ 𝑦𝑖 − 𝛽̂1 ∑ 𝑥𝑖 𝑦𝑖

Ukupna suma iliti zbroj kvadrata jednaka je zbroju kvadrata protumačenog modelom uvećanog za
rezidualni ili neprotumačeni zbroj kvadrata. Zbroj kvadrata protumačen modelom je zapravo zbroj

72
ISPRINTANO U ŽUTOJ

kvadrata odstupanja regresijskih vrijednosti od prosjeka. On označava varijabilnost empirijskih


vrijednosti zavisne varijable koja je protumačena modelom.
Neprotumačen zbroj kvadrata nama stvara problem. Zašto?
On je posljedica slučajnih i neočekivanih odstupanja empirijskih vrijednosti od regresijskih. Ako se
zbrojevi kvadrata podijele s odgovarajućim stupnjevima slobode, dolazi se do sredina kvadrata koje
su nezavisne procjene komponenti varijance. Sve ovo što smo naveli prikazivat ćemo u tablici
standardnog oblika, tj. u tablici analize varijance (ANOVA)

IZVOR VARIJACIJE STUPNJEVI ZBROJ KVADRATA SREDINA EMPIRIJSKI F-


SLOBODE KVADRATA omjer

Protumačen
k SP SP SP
modelom 𝑘
k
SR
n − (k + 1)

SR
Neprotumačen n-(k+1) SR n − (k + 1)
modelom
-

UKUPNO n-1 ST - -

Kada podijelimo odstupanja neprotumačena modelom (SR) sa stupnjevima slobode (df) dobijemo
procjenu varijance regresije.

∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 =
𝑛 − (𝑘 + 1)

Pozitivni drugi korijen iz procijenjene varijance regresije je procjena standardne devijacije.


Sjećaš li se koeficijenta determinacije koji pokazuje koji je postotak odstupanja protumačen
modelom? Kod višestruke linearne regresije izračunava se jednako kao kod jednostavne! To je
jednostavno prekrasno! ☺
Ali, jedan od nedostataka koeficijenta determinacije je taj da se on povećava s brojem nezavisnih
varijabli u modelu. Cilj regresijske analize je da se uz što manji broj nezavisnih varijabli objasni što
više varijacija zavisne varijable y, pa se kod višestruke linearne regresije umjesto koeficijenta
determinacije koristi korigirani koeficijent determinacije 𝑅̅ 2 .

73
ISPRINTANO U ŽUTOJ

𝑛−1
𝑅̅2 = 1 − ∗ (1 − 𝑅2 )
𝑛 − (𝑘 + 1)

Spominjali smo još i koeficijent linearne korelacije koji nam pokazuje u kojoj mjeri nezavisna varijabla
utječe na zavisnu i utječe li pozitivno ili negativno. On se kod višestruke linearne regresije računa isto
kao drugi korijen iz koeficijenta determinacije, samo što ovdje uvijek ima pozitivan predznak (ne
može biti negativan).

12.2 Testiranje hipoteza u modelu višestruke linearne regresije

U višestrukoj linearnoj regresiji također imamo test o značajnosti regresorskih varijabli.

To može biti:
• test značajnosti jedne regresorske varijable - pojedinačni test
• test značajnosti svih regresorskih varijabli - skupni test

Pojedinačni test provodi se jednako kao i u jednostavnoj linearnoj regresiji. Testiramo onu
regresorsku varijablu za čiju nas nezavisnu varijablu pita je li značajna u modelu. Također, kao i kod
jednostavne linearne regresije testiranje se može provesti putem t-testa i F-testa.
Skupni test testira značajnost svih regresorskih varijabli. Rekli smo da Štrebsy d.o.o. proizvodi
pekmez. Napomenuli smo kako na njihovu proizvodnju uz potražnju utječu i troškovi proizvodnje.
Skupnim testom želimo provjeriti jesu li potražnja i troškovi značajni u modelu VLR. Rekli smo već
ranije u skripti kako je varijabla značajna, ako je regresorska varijabla koja stoji uz nju različita od 0.
Zato ćemo formirati ovakva hipoteze:

𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
𝐻1 : ∃𝛽𝑗 ≠ 0

Testna veličina definirana je kao omjer protumačene i neprotumačene sredine kvadrata.

𝑆𝑃
𝐹= 𝑘
𝑆𝑅
𝑛 − (𝑘 + 1)

74
ISPRINTANO U ŽUTOJ

Sigurno prepoznaješ naš F-omjer iz tabele ANOVE kod višestruke linearne regresije. ☺ Odluka se
donosi na temelju usporedbe empirijskog F-omjera, kojeg smo izračunali, i teorijskog iz tablice sa
stupnjevima slobode u brojniku 𝑑𝑓1 = 𝑘 i 𝑑𝑓2 = 𝑛 − (𝑘 + 1) stupnjeva slobode u nazivniku.

12.3 Predviđanje i prognoziranje

Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable.

Štrebsy d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena je
regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna
proizvodnja pekmeza.
Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika će
biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost.
Tu prognostičku vrijednost izračunat ćemo ovako:

𝑦̂0 = 𝛽̂0 + 𝛽̂1 𝑥01 + 𝛽̂2 𝑥02 + ⋯ + 𝛽̂𝑘 𝑥0𝑘

Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020. godini
nam je 𝑥0. Prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.

𝑃 (𝑦̂0 − 𝑡𝛼 ∗ 𝜎𝑦̂0 < 𝑦0 < 𝑦̂0 + 𝑡𝛼 ∗ 𝜎𝑦̂0 ) = 1 − 𝛼


2 2

Da zaključimo! Kod jednostavne linearne regresije promatramo utjecaj jedne nezavisne varijable na
zavisnu, dok kod višestruke linearne regresije promatramo kako više nezavisnih varijabli utječe na
zavisnu. Zavisnom varijablom, tzv. Y, predstavljene su vrijednosti pojave čije se varijacije objašnjavaju
samim modelom regresijske analize, dok je nezavisna varijabla označena s X. Model linearne regresije
koristan je u poslovanju jer na temelju njega možemo prognozirati i predviđati buduće vrijednosti
zavisne varijable, odnosno varijable koju promatramo.

75
ISPRINTANO U ŽUTOJ

13. TREND MODELI


U ovom ćemo poglavlju analizirati vremenski niz. Tom analizom nastoji se opisati dinamika pojave u
vremenu, objasniti varijacije pojave u vremenu, te predvidjeti kretanje pojave u budućnosti.
Zvuči li ti to poznato? Da!
Mi ćemo zapravo u ovom poglavlju naučiti kako napraviti regresijsku analizu vremenskog niza. Sjećaš
se od prije da je vremenski niz zapravo vremenski interval (niz dana, mjeseci, godina) u kojem se
promatra određena varijabla, npr. proizvodnja. Ta varijabla koja se promatra kroz godine je zavisna
varijabla (y), dok je nezavisna varijabla (x) u trend modelima uvijek vrijeme!

Kako bi dobro svladali teoriju potrebno je znati na koje komponente se raščlanjuje vremenski niz.

To su:
• Trend komponenta

• Sezonska komponenta

• Ciklička komponenta
• Slučajna komponenta

Sada ćemo objasnit svaku od njih. ☺ Pa krenimo!


Komponenata trenda predstavlja osnovnu tendenciju razvoja pojave u vremenu. Izražena je
funkcijom vremena i prema njoj trend može biti linearan i eksponencijalan.
Sezonska komponenta očituje se kada se vremenska pojava obnavlja na približno isti način unutar
jedne godine, a posljedica je klimatskih faktora, ritma, proizvodnje, potrošnje...npr.dolasci turista
su najveći u kolovozu, a najmanji u siječnju.
Ciklička komponenta očituje se kada se vremenska pojava obnavlja na približno isti način s
periodom od 2 godine ili više.
Slučajna komponenta odražava nesistemske utjecaje na pojavu.

13.1 Linearni trend

Ekonomske pojave ponekad se s vremenom mijenjaju linearno. Ako se pojava mijenja linearno, znači
da se mijenja (smanjuje ili povećava) za približno jednak APSOLUTNI iznos u vremenskom intervalu.
Ukoliko je to slučaj, dinamika pojave se opisuje linearnim trendom koji se još zove i trend-polinom
prvog stupnja. Vidjet ćeš da se ovo puno ne razlikuje od jednostavne linearne regresije. Zašto?

76
ISPRINTANO U ŽUTOJ

Zato što je model linearnog trenda specijalni slučaj modela jednostavne linearne regresije u kojem je
nezavisna varijabla vrijeme.

𝑦̂𝑡 = 𝛽̂0 + 𝛽̂1 𝑥𝑡

Parametri linearnog trenda, 𝛽̂0 i 𝛽̂1 , kao i u linearnoj regresiji, procjenjuju se modelom najmanjih
kvadrata.

∑ 𝑥𝑡 𝑦𝑡 − 𝑛𝑥̅ 𝑦̅
𝛽̂1 =
∑ 𝑥𝑡2 − 𝑛𝑥̅ 2

𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅

Procijenjeni parametar 𝛽̂0 je konstantni član. Interpretira se kao vrijednost trenda za razdoblje koje
prethodi prvom razdoblju analiziranog vremenskog niza.

PRIMJER:
Ako je 2010. godina prva godina za koju imamo podatke (X=1), onda je vrijednost trenda u
2009. godini (X=0) bila je jednaka vrijednosti procijenjenog parametra 𝛽̂0 .

Procijenjeni parametar 𝛽̂1 (regresijski koeficijent) pokazuje prosječnu linearnu promjenu


razine pojave po jedinici vremena.

Ako je 𝛽̂1 =2, on nam pokazuje da se proizvodnja pekmeza u prosjeku godišnje poveća za 2
komada.

Naravno, ništa ne može proći bez naše standardne pogreške! Svaki procijenjeni parametar ima
pripadajuću standardnu pogrešku.
Zašto moramo znat ovo sve i čemu to uopće služi?
Jednadžba trenda se, kao i regresijska jednadžba, koristi u prognostičke svrhe. U poslovanju uvijek
moramo gledati unaprijed kako naš Štrebsy d.o.o. ne bi pretrpio gubitke. Naravno, nikad ne možemo
biti sto posto sigurni da neće, ali prognostičke vrijednosti pojave pomoći će nam da mirnije spavamo.
Kada je prognoziranje smisleno?
Prognoziranje na osnovi procijenjene jednadžbe trenda smisleno je samo onda ako je realno
pretpostaviti da će se pojava nastaviti kretati u približno jednakim uvjetima i na približno jednak
način.
Prognostičku vrijednost pojave za prognostički horizont 𝜏, izračunat ćemo prema ovoj formuli:

𝑦̂𝑛+𝜏 = 𝛽̂0 + 𝛽̂1 (𝑛 + 𝜏)

𝜏 (čita se tau) je broj razdoblja iza zadnjeg promatranja za koji se prognozira razina pojave.

77
ISPRINTANO U ŽUTOJ

Možemo prognozirati još i prognostičkim intervalom za procjenu pojedinačne vrijednosti, uz razinu


pouzdanosti 1-𝛼

𝑃 (𝑦̂𝑛+𝜏 − 𝑡𝛼 ∗ 𝜎𝑦̂𝑛+𝜏 < 𝑦𝑛+𝜏 < 𝑦̂𝑛+𝜏 + 𝑡𝛼 ∗ 𝜎𝑦̂𝑛+𝜏 ) = 1 − 𝛼


2 2

Ovo je mrak! Sad možemo prognozirati i izračunati kolika će biti proizvodnja Štrebsy pekmeza za 100
godina, ali možemo li se pouzdati u to? Naravno da ne! Veći vremenski horizont donosi i veću
nepreciznost prognostičkog intervala. Zašto? Iz formule za standardnu pogrešku procjene
pojedinačne vrijednosti (pronađi je u formulama) možemo zaključiti da porastom vremenskog
horizonta 𝜏 raste i standardna pogreška procjene! Znači, pomoću trenda možemo prognozirati samo
mali broj razdoblja unaprijed.

13.2 Eksponencijalni trend

Model eksponencijalnog trenda prvog stupnja ili jednostavni eksponencijalni trend koristimo kada se
vremenska pojava mijenja od razdoblja do razdoblja za približno isti RELATIVNI iznos, tj. Kada su
verižni indeksi približno konstantni.
𝑥
𝑦𝑡 = 𝛽0 𝛽1 𝑡 𝑒 𝜀𝑡

Pri čemu su 𝑦𝑡 vrijednosti promatrane pojave, 𝑥𝑡 vrijednost varijable vrijeme, 𝛽0 i 𝛽1 nepoznati


parametri, a 𝜀𝑡 nepoznate vrijednosti slučajne varijable 𝜀.
Model je nelinearan, pa ga moramo linearizirati logaritamskom transformacijom kako bi mogli
provesti analizu.
𝑙𝑜𝑔𝑦𝑡 = 𝑙𝑜𝑔𝛽0 + (𝑙𝑜𝑔𝛽1 )𝑥𝑡 + 𝜀𝑡

Linearizirani model je model jednostavne linearne regresije, odnosno model jednostavnog linearnog
trenda samo što umjesto izvornih vrijednosti pojave ima logaritamske vrijednosti. Slučajna varijabla
ili greška relacije 𝜀 u linearnom modelu po pretpostavci ima normalnu distribuciju sa sredinom 0 i
varijancom 𝜎 2 .
Parametri lineariziranog trenda procjenjuju se na uobičajen način, metodom najmanjih kvadrata.
(Ovo možda nemaš u svojim formulama, pa slobodno zapiši!)

∑ 𝑥𝑡 𝑙𝑜𝑔𝑦𝑡 − 𝑥̅ ∑ 𝑙𝑜𝑔𝑦𝑡
̂1 =
𝑙𝑜𝑔𝛽
∑ 𝑥𝑡2 − 𝑛𝑥̅ 2
∑ 𝑙𝑜𝑔𝑦𝑡
̂0 =
𝑙𝑜𝑔𝛽 ̂ 1 )𝑥̅
− (𝑙𝑜𝑔𝛽
𝑛

78
ISPRINTANO U ŽUTOJ

Nakon što procijenimo parametre lineariziranog trenda, dobit ćemo procijenjenu jednadžbu
trenda.

̂ 𝑡 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + (𝑙𝑜𝑔𝛽
̂ 1 )𝑥𝑡

Uz procijenjenu jednadžbu trenda navode se i uobičajene oznake.


To su:

• početno razdoblje promatranog vremenskog niza (X=1 u početnom razdoblju)

• mjerna jedinica za varijablu vrijeme (npr. dan, mjesec, kvartal, godina…)

• mjerna jedinica za trend vrijednost (npr. indeksni bod, osoba, tisuća kuna…)

Kako ćemo interpretirati procijenjene koeficijente?


Konstantni član pokazuje nam vrijednost trenda za razdoblje prije prvog, isto kao i kod linearnog
trenda. Koeficijent eksponencijalnog trenda pokazuje za koliko će se puta promijeniti trend
vrijednost, ako se varijabla vrijeme poveća za 1.

Izraz za prognostičku vrijednost u logaritamskom obliku je:

̂ 𝑛+𝜏 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + 𝑙𝑜𝑔𝛽
̂ 1 (𝑛 + 𝜏)

Trend predstavlja niz prosječnih, teoretskih točaka i vrijednosti kroz koje bi promatrana pojava
prolazila da nije bilo sezonskih ili slučajnih čimbenika koji su utjecali na njezino kretanje. Upotreba
statističkih metoda u procesu poslovanja je od velikog značaja. Trend je, kao i regresija i korelacije,
statistička metoda koja olakšava postupak analiziranja pojava i procesa koji su se već dogodili te
omogućuju prognoziranje kretanja istih na temelju analiziranih podataka.

79
ISPRINTANO U ŽUTOJ

TREBAŠ POMOĆ?
Bez brige.

Štreberaj ekipa je uvijek tu da


spasi stvar. Prijavi se na
instrukcije i položi kolokvij bez
muke!
Sve info možeš pronaći na www.streberaj.hr
(ili skeniraj QR code).

KAKO SKENIRATI QR CODE?

iPhone. Samo uključi kameru i usmjeri ju


na kod.

Android. Uključi kameru, usmjeri ju na


kod, dugo drži home button, klikni na
what's on my screen (ako ti s ne spoji
odmah).

80

You might also like