Professional Documents
Culture Documents
STATISTIKA
TEORIJA – 2. KOLOKVIJ
Verzija 1.07
Što je SKRIPTARNICA?
Skriptarnica je projekt Štreberaj tima i Žute kopiraone, a nastala je u želji da ti olakšamo studiranje.
Sve skripte možeš pogledati na stranici www.referada.hr, a kupiti u SKRIPTARNICI, odnosno u Žutoj
kopiraoni.
Ideja projekta je zajedničkim snagama napraviti što bolje materijale. Ako pronađeš nešto što je krivo u
skripti ili jednostavno želiš dati neku sugestiju, rado ćemo te poslušati. Pošalji nam mail na
skriptarnica@referada.hr
Sve sugestije i prijedloge pokušavamo što brže uvažiti. Na www.referada.hr i našoj facebook grupi
EFZG SUPPORT by Štreberaj možeš pratiti što se događa i uvijek biti u toku s najnovijim materijalima.
Na naslovnici ti piše koju verziju skripte imaš u rukama (npr. Verzija: 1.03).
Skripte koje nađeš kod nas nisu nužno naše autorsko djelo. To su razne skripte koje nam studenti
donesu. Mi smo odabrali one najbolje i malo ih uredili tako da ti je ljepše ponavljati iz njih. U
Štreberaju uvijek preporučamo učenje iz knjige! Skripte su tu da ti pomognu ponoviti gradivo.
Naši edukatori rade skripte iz kolegija za koje držimo instrukcije. Sve takve skripte u nazivu imaju
Štreberaj. Ovo je jedna od tih skripti. ☺
Malo o ispitu
Hej, hej… polažeš statistiku? Super, znači pretpostavljamo da si 1. godina (ako ipak nisi, mi ćemo ti
pomoći da napokon upišeš ocjenu u indeks i uhvatiš tih 9 ECTS bodova). Na početku smo jedne lijepe
priče ☺. Možda si već od kolega čuo svašta o ovom ispitu. Probaj na trenutak zaboraviti sve što si
čuo.
Prije svega, idemo se malo upoznati s ispitom.
• Pitanja matematičkog karaktera. Sve pišeš na trgovački arak papira A4, a sva su pitanja na
način da matematički moraš rješavati zadatke. Teorije u ispitu nema, to je usmeni dio ispita.
• Uvjet za polaganje ispita. Moraš riješiti 50% ispita, na način da započneš svaki zadatak,
odnosno, da bi ti se ispit bodovao, moraš kao preduvjet riješiti minimalno jedan podzadatak
svakog zadatka.
• Bodovi. Nema pravila, svaki zadatak je svijet za sebe i na tebi je potruditi se da riješiš
minimalno 50% ispita.
Koliko vremena mi treba da naučim za ispit?
Optimalno bi bilo da kreneš učiti cca. 3 tjedna prije ispita, ali mnogi naši studenti su uz predani rad
ispit položili i za upola manje vremena.
Koliko vremena imam na ispitu?
Ispit se piše 2 puna sata. To ti je dovoljno vremena ako si dobro naučio. Našim studentima u prosjeku
treba 90 – 100 minuta. Ako se nisi najbolje spremio i ako zapneš na kojem zadatku, vremena će ti biti
premalo.
Što prvo rješavati?
Definitivno prvo riješi zadatke koje sigurno znaš. Mnogi studenti se zeznu tako što krenu prvo
rješavati zadatke po redu, pa zapnu na nekom podzadatku i potroše previše vremena na rješavanje
istog, pogotovo ako nisu dobro naučili.
PAZI!
Malo o skripti Bilo bi dobro da se odmah u startu
razumijemo. Službena literatura za
Ono što se od tebe traži na ovom ispitu je da razumiješ ovaj ispit je knjiga Bahovec i sur.
gradivo, a ne da samo nabubaš napamet koncepte (2015): Statistika.
rješavanja zadataka. Zato nema smisla učiti po Ova skripta predstavlja samo pregled
skriptama koje su napisane u natuknicama ili samo najvažnijih dijelova gradiva i NIJE
prolaziti zadatke s prošlih rokova.
službena ispitna literatura!
Tako je nastala ova skripta…
U Štreberaju znamo da je razumijevanje gradiva ključno za polaganje ovog ispita. Isto tako, znamo da
ne voliš učiti iz literature koja je pisana prekompliciranim jezikom. Zato smo ti spremili ovu skriptu
koja je nastala kao kompilacija razne dostupne literature, začinjena „mudrostima“ naših instruktora,
koje će ti pomoći da gradivo bez problema savladaš S RAZUMIJEVANJEM.
1
ISPRINTANO U ŽUTOJ
1. Uvod u statistiku
Znaš li za Štrebsy d.o.o.? Nemoguće da ne znaš! To je jedno od najpoznatijih svjetskih poduzeća.
Teško ćeš ga naći na Google-u jer se uglavnom ne eksponira medijski. A čime se poduzeće bavi?
Pa…zapravo apsolutno svime. Od recikliranja toaletnog papira do proizvodnje elisi za podmornice, a
povremeno nudi i usluge wellnessa za sibirske tigrove. U svakom slučaju, poduzeće je svestrano i bavi
se svime što nam može poslužiti kao primjer u našim instrukcijama. Pa krenimo s učenjem!
Danas se u poslovnom svijetu velik broj poslovnih problema rješava analitičkim pristupom, odnosno
racionalnim pristupom. Analitičari nekog poduzeća problemu pristupaju na način da sakupljaju
tržišne podatke, bilo na primaran ili sekundaran način te na temelju tih podataka, uz adekvatnu
analizu, predlažu zaključke za donositelje odluka. Također, svijet u kojem živimo i koji želimo
razumjeti pun je različitosti i neodređenosti, što otvara put za granu znanosti zvanu Statistika.
Statistika nas uči kako donositi ispravne zaključke i odluke u svijetu neodređenosti. U svakodnevnom
životu prikupljamo mnoštvo podataka. Statistika nam daje metode za njihovo organiziranje i sažeto
prikazivanje te izvlačenje zaključaka na osnovu informacija sadržanih u tim podatcima. Dakle,
statistika je znanstvena metoda koja se bavi prikupljanjem podataka, a potom njihovom analizom i
tumačenjem odnosno interpretacijama.
Takav način pristupanja problemima je tradicionalan i zahtjeva određene vještine baratanja
podacima. Analitičari koji predlažu implikacije moraju poznavati kontekste u kojima se vršilo
istraživanje, poznavati varijable koje koriste kako bi krajnja analiza što bolje procijenila efekte koji će
se desiti na temelju predloženih implikacija.
Za prethodno opisane situacije i probleme pomoći će nam statistika. Znanstvena disciplina koja se
bavi prikupljanjem informacija, obradom tih informacija i interpretacijom obrađenih informacija kako
bi donositelji odluka znali što je pjesnik htio reći.
Statistiku možemo podijeliti na deskriptivnu i inferencijalnu. Deskriptivna statistika nam služi kako bi
opisali uzorak koristeći razne grafove i uređujući podatke u tablice dok se inferencijalna statistika
bazira se na nalazima iz podskupova ili uzoraka podataka.
2
ISPRINTANO U ŽUTOJ
Temelj svake kvalitetne analize su kvalitetni podatci. Podatke dijelimo na primarne i sekundarne.
Znači, mi prikupljamo kvalitetne podatke kako bismo ih mogli analizirati. Taj skup podataka koji je
podvrgnut analizi zovemo statistički skup. Drugim riječima, statistički skup su jedinice čija svojstva
promatramo ili istražujemo statističkom metodom. To mogu biti osobe, poduzeća, zemlje, proizvodi…
Bitno je znati da se statistički skupovi definiraju pojmovno, prostorno i vremenski, jer precizna
definicija osigurava da se u skupu nađu jedinice koje mu doista pripadaju!
Broj jedinica u statističkom skupu nazivamo opseg skupa. Dakle, u iznad navedenim primjerima
opseg bi bio broj studenata, broj automobila i broj tekućih računa.
Obzirom na opseg, statistički skupovi se dijele na konačni statistički skup (studenti EFZG-a) i
beskonačni statistički skup (proizvodnja ili bacanje novčića).
Primjeri:
Osnovni skup (populacija) je ukupan broj ispitanih pojedinaca koji su povezani određenim svojstvom
3
ISPRINTANO U ŽUTOJ
Svojstva jedinica po kojima se članovi statističkog skupa razlikuju ili jedni drugima nalikuju nazivaju se
statistička obilježja iliti statističke varijable. Obilježje se u pravilu javlja u 2 ili više oblika (modaliteta)
Kvalitativno obilježje, odnosno varijabla izražava se opisno ili riječima. Može biti nominalno
obilježje ili redoslijedno obilježje. Nominalno obilježje dijelimo još i na atributivno i geografsko
obilježje.
Primjer za atributivno obilježje bio bi spol, zanimanje, a primjer za geografsko bilo bi mjesto rođenja.
4
ISPRINTANO U ŽUTOJ
Redoslijedno obilježje (obilježje ranga) pridruživanjem određenih brojeva, slovnih oznaka ili drugih
simbola jedinicama statističkog skupa određuje stupanj posjedovanja nekog svojstva.
Primjer: ocjena, stupanj kvalitete
Numeričko obilježje je ono obilježje kod kojeg se svojstva jedinica statističkog skupa izražavaju
brojevima. Vezano je uz intervalnu i omjernu skalu. Numeričko obilježje dijelimo na diskretno
(diskontinuirano) obilježje koje poprima cjelobrojne vrijednosti, kao na primjer broj djece u obitelji i
kontinuirano obilježje koje poprima bilo koju vrijednost nekog intervala, kao na primjer visina, težina,
cijena.
Prikupljene podatke prvo treba urediti kako bi se reducirao velik broj informacija o pojavi koja se želi
istražiti. Pri uređivanju treba voditi računa da u reduciranim podatcima moraju ostati sačuvane
glavne značajke pojave koja se istražuje. Urede li se podatci o jednom obilježju jedinica statističkog
skupa nastat će statistički niz.
Kako bi ti silni podatci koje analiziramo bili lijepo prikazani, koristimo tablice raznih vrsta. Tabeliranim
načinom prikazivanja olakšava se praćenje statističkih podataka, a time i donošenje zaključaka o
pojavama koje oni predočuju. U ovom dijelu naučit ćemo koje sve vrste statističkih tabela postoje. ☺
Jednostavna tabela
KATEGORIJE POVRŠINA
Voćnjaci 68
Vinogradi 57
Livade 396
Pašnjaci 1156
6
ISPRINTANO U ŽUTOJ
Skupna tabela
Sadrži barem dva niza koji su grupirani prema modalitetima istog obilježja.
EKONOMSKA
IZVOZ UVOZ
NAMJENA
Podatci su grupirani prema modalitetima dvaju ili više varijabli. Ova tabela se često pojavljuje u
zadatcima s vjerojatnostima i kod hi-kvadrat testa. ☺
SPOL
STAROST M Ž
Relativni brojevi omogućavaju elementarnu analizu podataka u sklopu deskriptivne statistike. Jako su
nam korisni i često ćemo ih koristiti u zadatcima. ☺
Svaki relativni broj nastaje dijeljenjem dviju veličina. Veličina s kojom se dijeli zove se osnovom
relativnog broja. Relativni brojevi se razlikuju jedan od drugoga ovisno o tome što im je osnova. Pa
tako postoje:
7
ISPRINTANO U ŽUTOJ
8
ISPRINTANO U ŽUTOJ
Svaki dijagram treba imati naslov i izvor podataka (ako se radi o sekundarnim podatcima)!
Presudno je znati koji se tip dijagrama rabi s kojom vrstom informacija. Neki su dijagrami primjereniji
od ostalih, ovisno o prirodi podataka.
Grafički prikazi se općenito dijele na površinske i linijske, a pored njih su u literaturi poznati i neki
specifični grafički prikazi.
Odabir vrste dijagrama ovisi o raznim faktorima kao što su: vrsta statističke varijable ili obilježja, broj
varijabli, broj podataka koji se prikazuje, svrha konstruiranja dijagrama i dr.
Kvalitativne varijable, odnosno kvalitativni statistički nizovi, uobičajeno se prikazuju površinskim
dijagramima kao što su:
Jednostavni stupci (uspravni ili položeni)
Dvostruki stupci
9
ISPRINTANO U ŽUTOJ
Razdijeljeni stupci
Strukturni krugovi
10
ISPRINTANO U ŽUTOJ
Ako se grafički prikazuje mali broj numeričkih podataka (negrupirani numerički podatci) uobičajeno
koristimo dva dijagrama:
• dijagramom s točkama
• dijagramom stablo-list (odnosno S-L dijagram)
1.1.Dijagram s točkama
Crta se tako da se na horizontalnoj osi naznači aritmetičko mjerilo, a zatim se točkama predoče
vrijednosti članova niza. Položaj točaka ovisi o vrijednostima niza i danom aritmetičkom mjerilu. Ako
su u nizu dvije jednake vrijednosti ili više njih, točke se ucrtavaju jedna iznad druge.
On se sastoji se od vodećih znamenaka, odnosno desetica koje predstavljaju stablo i jedinica koje
predstavljaju list. Formiranje S-L dijagrama počinje uređivanjem podataka po veličini. Zatim treba
povući okomitu crtu i s njene lijeve strane ispisati vodeće znamenke (Stems).To su npr. oznake za
desetice. Nakon toga s desne strane okomite crte (nasuprot vodećoj znamenci) navodi se druga
znamenka broja (Leaf). Npr. ako je s lijeve strane vodeća znamenka 0, a nasuprot njoj znamenka 4, to
znači da se radi o broju 04 tj. 4.
11
ISPRINTANO U ŽUTOJ
• dijagram s točkama:
• dijagram stablo-list:
0 89
1 045788
2 04579
3 04
Sadrži 5 ključnih vrijednosti koje su nam potrebne kako bismo ga nacrtali. Tih 5 vrijednosti nazivaju se
još i 5 number summary, a podrazumijevaju:
12
ISPRINTANO U ŽUTOJ
2.Numerički nizovi
Kao što smo već rekli ranije, numerički nizovi nastaju uređivanjem numeričkih podataka (podatci
izraženi brojem). Način njihova uređenja ovisi o broju podataka i tome jesu li oni diskretni ili
kontinuirani. U ovom poglavlju analizirat ćemo mali broj podataka koji se uređuje nizanjem po
veličini. To su negrupirani podatci. Podatke ćemo numerički opisivati srednjim vrijednostima
(mjerama centralne tendencije), mjerama disperzije, mjerama rasporeda podataka, mjerom
zaobljenosti i mjerama koncentracije. Pa krenimo!
• aritmetička sredina
• geometrijska sredina
• harmonijska sredina
• mod
• medijan
• ostali kvantili (kvartili, decili, percentili)
13
ISPRINTANO U ŽUTOJ
Aritmetička sredina se često koristi u statističkim analizama sportskog karaktera. Klasičan primjer
korištenja ove mjere nalazimo u košarci. Naime, jedan od najvažnijih kriterija kvalitetnog košarkaša je
broj poena, pa tako i prosječan broj poena po utakmici. Dakle, ako želimo izračunati prosječan broj
poena za pojedinog košarkaša, tada u obzir uzmemo ukupan broj poena koji je on do sada zabio i
podijelimo s ukupnim brojem utakmica koje je odigrao.
Štrebsy, osim odbojkaškog tima, želi imati i košarkaški tim. Prema podatcima s www.nba.com
možemo saznati statistiku svakog igrača u ligi. Igrač Dwayne Wade, u prosjeku, po utakmici bilježi
22,1 poena, 4 skoka i 5,6 asistencija.
14
ISPRINTANO U ŽUTOJ
2.1.4. Mod
Mod je prva položajna mjera srednje vrijednost o kojoj ćemo pričati. Predstavlja najčešću vrijednost
numeričkog niza. Kako ćemo ga odrediti za niz numeričkih podataka?
Doslovno provjerimo koji se broj najviše puta ponavlja i iščitamo taj podatak kao modalnu vrijednost.
Mod nije prisutan u distribuciji u kojoj nema ponavljanja!
Niz: 1, 2, 3, 4, 4, 4, 5, 5, 6, 8, 9
Radi se o unimodalnoj distribuciji (samo jedan mod)
Mo= 4
Kada se dva podatka ponavljaju jednak broj puta, distribucija je bimodalna, a kada se tri ili
više podatka u distribuciji ponavljaju jednak broj puta govorimo o višemodalnoj distribuciji.
15
ISPRINTANO U ŽUTOJ
2.1.5. Medijan
Ostali su nam još medijan i ostali kvantili. Kvantili dijele niz uređenih podataka na jednake dijelove. U
kvantile se ubrajaju medijan, kvartili, decili i percentili. Medijan je položajna srednja vrijednost koja
dijeli niz na dva jednaka dijela, kvartili ga dijele na četiri, decili na deset, a percentili na sto dijelova.
Medijan i kvantili mogu se odrediti i za redoslijedno obilježje jer se modaliteti redoslijednog obilježja
mogu poredati po intezitetu mjernog svojstva (npr. ocjene na ispitu, stupanj zadovoljstva proizvodom
ili uslugom…) Medijan je izražen u mjernim jedinicama varijable za koju se određuje i nije osjetljiv na
izrazito male niti na izrazito velike vrijednosti obilježja i ne mora biti jednak niti jednoj vrijednosti u
nizu. Dakle, medijan je „otporan“ na izdvojenice (ekstremno visoke ili ekstremno niske vrijednosti),
ali ne predstavlja potpunu mjeru srednjih vrijednosti jer ne obuhvaća sve promatrane podatke.
Numerički niz: 1 2 3 4 4 6 7
Prvo je potrebno izračunati medijalnu točku. Dobije se tako da broj podataka (N) podijelite s
dva, upravo zato što se medijan nalazi na polovici niza.
𝑁
2
= 3,5 ≠ INT
INT je oznaka za cijeli broj. 3.5 nije cijeli broj pa nije jednak INT. U tom slučaju medijan će biti
4. podatak našeg niza (𝑋4 ). Kako to odredimo? Kada ti medijalna točka ispadne decimalni
broj, uzet ćeš samo cijeli dio broja (u ovom slučaju 3) i uvećati ga za 1. Dobit ćeš 4, što znači
da je medijan 4. podatak, odnosno 𝑋4 .
U ovom primjeru medijan je četvrti X po veličini odnosno broj 4, pod uvjetom da je
numerički niz poredan od najmanjeg do najvećeg.
Numerički niz: 1 2 3 4 5 6
Prvo je potrebno izračunati medijalnu točku koja se označava iMe.
𝑁
2
= 3 = INT
3 je cijeli broj, što znači da je jednak INT. U tom slučaju medijan se računa kao prosjek dvaju
podataka. Kako ćeš odrediti koja dva podatka uzimamo? Ako ti je medijalna točka ispala 3,
medijan će se nalaziti između tog i sljedećeg podatka, odnosno između 3. i 4. podatka.
U ovom primjeru medijan je prosjek trećeg i četvrtog X-a u nizu, uz uvjet da su podatci
poredani od najmanjeg do najvećeg.
Rekli smo da kvartili dijele niz na četiri jednaka dijela. Postoje 3 kvartila, odnosno prvi ili donji kvartil,
drugi kvartil ili medijan i treći kvartil ili gornji kvartil.
𝑄1 𝑄2 = 𝑀𝑒 𝑄3
16
ISPRINTANO U ŽUTOJ
Na ovom pravcu vidimo položaje kvartila. Prema njemu možemo zaključiti da je prvi kvartil 𝑸𝟏( prvi ili
donji kvartil) vrijednost numeričke varijable koja članove niza dijeli u dvije skupine. U prvoj skupini je
25% elemenata s vrijednostima varijable koja je jednaka ili manja od prvog kvartila, a u drugoj skupini
je 75% elemenata s vrijednostima većim od prvog kvartila.
𝑸𝟐 je zapravo medijan koji, kao što smo već rekli, dijeli niz na dva jednaka dijela, odnosno prvih i
preostalih 50%.
𝑸𝟑(treći ili gornji kvartil) je vrijednost numeričke varijable koja članove niza dijeli također u dvije
skupine. U prvoj skupini je 75% elemenata s vrijednostima varijable koja je jednaka ili manja od
trećeg kvartila, a u drugoj skupini je 25% elemenata s vrijednostima većim od trećeg kvartila. To su
ujedno i interpretacije.
Štrebsy d.o.o. je otvorio noćni klub „Lom“ i objavio na svojoj stranici kako je prosječna starost u tom
klubu 25 godina. Već sljedeću subotu odlučiš sa svojom ekipom otići i provjeriti kakav je taj
novootvoreni klub. Dolaskom u njega oko sebe primjećuješ da su ljudi različitih uzrasta, te da
prevladavaju mlađi od 18 i stariji od 32. Pokazuje li prosjek koji je Štrebsy d.o.o. objavio na svojoj
stranici stvarno stanje u klubu odnosno je li reprezentativan? Istina je da prosječna starost u klubu
iznosi 25 godina, ali ono što i sami možemo vidjeti je da starost ljudi u klubu odskače od tog prosjeka
(odstupanja od prosjeka). Reprezentativnost srednje vrijednosti ovisi o tome za koliko stvarni podatci
odstupaju od prosječne vrijednosti odnosno o stupnju varijabilnosti podataka. Ta varijabilnost
brojčano se opisuje upravo mjerama disperzije. Dakle, mjerama disperzije mjeri se stupanj
varijabilnosti podataka.
Mjere za varijabilnost podataka su:
1. RASPON VARIJACIJE - 𝑅
2. INTERKVARTIL (interkvartilni raspon) - 𝐼𝑄
3. KOEFICIJENT KVARTILNE DEVIJACIJE - 𝑉𝑄
4. VARIJANCA - 𝜎 2
5. STANDARDNA DEVIJACIJA - 𝜎
6. KOEFICIJENT VARIJACIJE - 𝑉
7. SREDNJE APSOLUTNO ODSTUPANJE (MAD)
Razlikujemo potpune i nepotpune mjere disperzije. Potpune su one koje u svom izračunu
koriste sve podatke, odnosno sve vrijednosti numeričke varijable.
One su varijanca, standardna devijacija i koeficijent varijacije. Nepotpune mjere su preostale
mjere, odnosno raspon varijacije, interkvartil, koeficijent kvartilne devijacije i srednje
apsolutno odstupanje.
17
ISPRINTANO U ŽUTOJ
Kako se računa?
• za pojedinačne podatke određuje se kao razlika između najveće i najmanje vrijednosti u nizu
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
𝑅 = 𝑥𝑘 − 𝑥1
𝐼𝑄 = 𝑄3 − 𝑄
1
Postoji i interdecil . To je razlika dvaju decila koji dijele niz uređen po veličini na 10 jednakobrojnih
dijelova, decila.
Npr. 𝐼𝐷9−𝐷1 = 𝐷9 − 𝐷1
To je središnjih 80% podataka
𝑄3 −𝑄1
𝑉𝑄 = 0≤ 𝑉𝑄 < 1
𝑄3 +𝑄1
2.2.4. Varijanca
Drugim riječima, varijanca nam pokazuje kvadrirano prosječno odstupanje od prosjeka (kvadrirani
prosjek svih odstupanja od aritmetičke sredine).
Računamo ju ovisno o podatcima, tj. gledamo jesu li podatci negrupirani ili grupirani. Mi smo zasad u
negrupiranim podatcima jer računamo sve ove varijable za numerički niz, a rekli smo da su numerički
nizovi negrupirani podatci.
∑(𝑥𝑖 − 𝑥̅ )2 ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
2
𝜎 = 𝜎2 =
∑ 𝑓𝑖
𝑁
∑(𝑥𝑖 − 𝑥̅ )2 ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝜎= √ 𝜎= √
∑ 𝑓𝑖
𝑁
19
ISPRINTANO U ŽUTOJ
𝜎
𝑉= × 100
𝑥̅
∑|𝑥𝑖 − 𝑀𝑒 |
𝑀𝐴𝐷𝑀𝑒 =
𝑁
𝑥𝑖 − 𝑥̅
𝑍=
𝜎
20
ISPRINTANO U ŽUTOJ
I što nam sad taj z govori? On nam kaže je li neki podatak tipičan ili nije, odnosno je li izdvojenica ili
nije.
Normalna distribucija (empirijsko pravilo)
netipično -2_______tipično_______2 netipično
Bilo koja distribucija (Čebiševljevo pravilo)
netipično -3_______tipično_______3 netipično
Oba pravila korisna su za određivanje relativnog položaja podataka u nizu, odnosno za otkrivanje
netipičnih vrijednosti u distribuciji. Ako nije poznat oblik distribucije ili ako je poznato da distribucija
nije simetrična ili nije normalnog oblika, tada se vrijednost koja od prosjeka odstupa za više od tri
standardne devijacije može smatrati netipičnom (čebiševljevo pravilo).
Mjere asimetrije su zapravo mjere oblika distribucije. Njima se mjeri način rasporeda podataka oko
neke srednje vrijednosti (uglavnom je to aritmetička sredina).
Paranormalna distribucija
22
ISPRINTANO U ŽUTOJ
Bowlyjeva mjera asimetrije polazi od odnosa medijana i kvartila. To je nepotpuna mjera asimetrije jer
isključuje prvih i posljednjih 25% podataka u nizu, odnosno temelji se na nepotpunim mjerama kao
što su kvartili i medijan. Uobičajeno poprima vrijednost iz zatvorenog intervala [−1 ,1]. Iznimno može
poprimiti vrijednost izvan tog intervala. Tada se radi o izrazito asimetričnim distribucijama.
Mjerom zaobljenosti 𝛼4 mjeri se zaobljenost unimodalnog vrha (simetrične ili približno simetrične)
distribucije. Koeficijent zaobljenosti je potpuna mjera. Brojnik u izrazima za koeficijent zaobljenosti je
četvrti moment oko sredine 𝜇4 .
Zaobljenost vrha uspoređuje se i interpretira u odnosu na normalnu (Gaussovu) distribuciju.
Koeficijent zaobljenosti normalne distribucije je 3.
23
ISPRINTANO U ŽUTOJ
3. Distribucija frekvencija
Sada prelazimo na grupirane podatke. Tu govorimo ili o velikom broju podataka koji poprimaju manji
broj oblika ili o velikom broju podataka koji poprimaju velik broj oblika ili kontinuirano obilježje.
Naučit ćemo kako analizirati takve podatke i kako na temelju tih analiza donijeti zaključke..
Kod velikog broja podataka koji poprimaju manji broj oblika numerički niz grupiranih podataka,
odnosno distribucija frekvencija, sastoji se od parova (xi, fi), i=1,2....,k, s time da xi predstavlja
modalitet numeričkog obilježja, a fi pripadajuće frekvencije.
Imamo sedmodnevne podatke o prodaji Štrebsy zelenih masažnih garnitura. Prvi dan je
prodano 120 garnitura, drugi dan je prodano 98 garnitura, treći dan 68 garnitura, četvrti dan
130, peti dan 67, šesti dan 99 i sedmi dan 101 garnitura. Kao što vidite imamo podatke za
samo 7 dana, znači imamo 7 modaliteta numeričkog obilježja (xi) i njihove pripadajuće
frekvencije (fi) koje predstavljaju broj prodanih zelenih garnitura. To je distribucija
frekvencija bez razreda.
Dok smo imali velik broj podataka koji poprimaju manji broj oblika bilo je jako jednostavno formirati
distribuciju frekvencija, ali šta se događa kada velik broj podataka poprima velik broj oblika?
Kod velikog broja podataka koji poprimaju velik broj oblika ili kontinuirano obilježje distribucija
frekvencija (rekli smo iznad da je to isto što i numerički niz grupiranih podataka) formira se
grupiranjem na temelju razreda.
24
ISPRINTANO U ŽUTOJ
Štrebsy želi unaprijediti prodaju i vidjeti koja starost kupaca je najčešća kako bi njima mogao
prilagoditi svoje proizvode. Nakon provedenog istraživanja dobili smo sljedeće podatke:
Razred je interval unutar kojeg se nalaze vrijednosti numeričkog obilježja. Primjerice, svi kupci koji
imaju između 20 i 40 godina pridruženi su razredu 20-40 .Taj broj podataka (u našem slučaju broj
kupaca) koji se nalazi u razredu je frekvencija razreda.
Tako možemo reći da se distribucija frekvencija sastoji od parova razreda i pripadajućih frekvencija.
Eh, sad se možemo zapitati kako smo mi odredili te razrede? Formiranju distribucije prethodi
određivanje broja razreda (k) i njihova veličina.
PostojiOva
jedno
tablica
fenomenalno
je primjerSturgesovo
distribucije pravilo
frekvencija
kojesnam
razredima.
kaže daGrupiranje
se broj razreda
po razredima
(k) na temelju
je divna
kojeg
se za grupiranje
stvar upravo
N vrijednosti
zato što ćediskretne
se ti silni numeričke
podatci nalaziti
varijable
unutar
određuje
razredapomoću
omeđeni
sljedećeg
donjomizraza.
(Li1) i
gornjom (Li2) granicom razreda. 𝑘 = 1 + 3,3 ∗ 𝑙𝑜𝑔𝑁
E sad, kad smo već tu idemo se podsjetiti da je diskretna numerička varijabla ona varijabla
koja može poprimiti isključivo cjelobrojnu vrijednost, npr. broj djece, članovi kućanstva, broj
anketiranih obitelji…
Širina podintervala naziva se veličinom razreda. Razredi mogu biti jednakih ili različitih veličina. Ako
su razredi jednaki, veličina im se aproksimira tako da se raspon varijacija podijeli s brojem razreda,
odnosno:
𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
𝑖𝑖 ≈
𝑘
Općenito veličina razreda se određuje kao razlika gornje i donje prave granice razreda.
25
ISPRINTANO U ŽUTOJ
Kada su razredi različitih veličina potrebno je korigirati frekvencije!! Zapamti to! Ako su svi razredi
različitih veličina koristimo ovu formulu:
𝑓𝑖
𝑓𝑐𝑖 =
𝑖𝑖
Ako frekvencije želimo korigirati pomoću bazne veličine razreda (one koja se najčešće pojavljuje)
koristimo ovu formulu: 𝑓𝑖
𝑓𝑐𝑖 = 𝑖
𝑖
𝑖𝑏
Razredi jednakih veličina primjenjuju se kada su podatci simetrično raspoređeni. Razredi različitih
veličina primjenjuju se kada se podatci asimetrično raspoređeni.
Već znaš da granice razreda mogu biti prave i nominalne. To je prvo na što ćeš obratiti
pozornost u zadatku s distribucijom frekvencija!
Granice razreda su prave ako je donja granica tekućeg razreda jednaka gornjoj granici
prethodnog razreda. Ako to nije slučaj, radi se o nominalnim granicama i njih onda treba
pretvoriti u prave ili precizne!
(IZNIMKA: Navršene godine života su diskretna varijabla, no kod njih se određuju prave granice tako
da gornju granicu povećamo za jedinicu.)
Sredina razreda (Xi) se određuje kao poluzbroj gornje i donje prave granice razreda.
26
ISPRINTANO U ŽUTOJ
Svaki dijagram treba imati naslov i izvor podataka (ako se radi o sekundarnim podatcima), a
po potrebi tumač i redni broj! Nemoj to nikako zaboraviti na kolokviju/ispitu!
U ovim zadatcima pojavit će nam se kumulativni niz „manje od“. On je zapravo izveden niz koji
nastaje postupnim zbrajanjem apsolutnih ili relativnih frekvencija. Grafički se prikazuje kumulantom,
pa je ona jedan od grafičkih prikaza kojima ćemo se zabavljati na instrukcijama.
P.S. Postoji i kumulativni niz „više od“. Njega ćemo spomenuti i objasniti na instrukcijama.
3.2.1. Histogram
Histogram distribucije je površinski grafikon, grafikon stupaca. Baze stupaca predočuju modalitete
numeričke varijable u aritmetičkom mjerilu osi apscisa (X-os), a visine stupaca ovise o frekvencijama
ili relativnim frekvencijama i aritmetičkom mjerilu osi ordinata (Y-os).
27
ISPRINTANO U ŽUTOJ
900
800
700
600
500
400
300
200
100
0
0-25 25-50 50-75 75-100 100-125
3.2.3. Kumulanta
Kumulanta je grafički prikaz kumulativnog niza „manje od“, odnosno empirijske funkcije distribucije.
Na osi X se nalaze vrijednosti numeričke varijable, a na osi Y kumulativne frekvencije. Ako je varijabla
diskretna, kumulanta je stepenastog oblika!
Grafičkom prikazu kumulatne prethodi izračun kumulativnog niza čije nam vrijednosti idu na Yos.
2500
2000
1500
1000
500
0
0 20 40 60 80 100 120 140
28
ISPRINTANO U ŽUTOJ
𝑓𝑖 𝑥𝑖 𝑖𝑖 𝑓𝑐𝑖
(15)-24 105 (15)-25 20 10 52.5
25-29 439 25-30 27,5 5 439
30-34 662 30-35 32,5 5 662
35-39 683 35-40 37,5 5 683
40-44 635 40-45 42,5 5 635
45-49 503 45-50 47,5 5 503
50-54 305 50-55 52,5 5 305
55-59 174 55-60 57,5 5 174
60-(79) 208 60-(80) 70 20 52
UKUPNO 3714 - - - -
Ovdje imamo tablicu rastavljenih brakova prema dobi muža u RH 1999.godine. Dob je
numerička kontinuirana varijabla. Statistički skup čine rastavljeni brakovi na području RH
1999.godine. Opseg skupa iznosi 3714. Prvi i posljednji razredi nazivaju se otvorenima jer
nemaju jednu od granica - to su procijenjene granice, pa se stavljaju u zagradu. Granice
razreda distribucije su nominalne. Stoga treba utvrditi prave granice razreda. Razredne
sredine i veličine razreda određuju se na već objašnjen način. Razredi u distribuciji su
nejednakih veličina, pa je za grafičke prikaze i za izračunavanje pojedinih analitičkih veličina
potrebno provesti postupak korekcije frekvencija.
P. S .
Formule koje ćeš koristiti za izračunavanje srednjih vrijednosti i mjera disperzije u distribuciji
frekvencija razlikuju se od formula za negrupirane podatke, zato pazi! Formule za mjere disperzije smo
naveli kada smo obrađivali mjere disperzije u prethodnom poglavlju. ☺ Izračun srednjih vrijednosti se
dosta razlikuju kada su u pitanju grupirani podatci, pa ćemo to naučiti sada!
Nemoj se zbuniti ako se umjesto apsolutnih frekvencija (fi) u zadatku pojave postoci (Pi) ili proporcije
(pi). Za sve to imaš formule u knjižici s formulama. Time ćemo se još dodatno baviti na instrukcijama.
☺
Najveća razlika u izračunu se pojavljuje kod računanja položajnih srednjih vrijednosti, tj. moda,
medijana i ostalih kvantila.
Njihovom izračunu prethodi određivanje razreda u kojem se nalaze. Kako ćemo to odrediti?
3.3.2. Mod
Modalni razred je onaj razred koji ima najveću (korigiranu) frekvenciju! Nakon što si odredio koji je to
razred, uzimaš formulu za mod kod grupiranih podataka koja izgleda ovako:
(𝑏 − 𝑎)
𝑀𝑜 = 𝐿1 + ∗𝑖
(𝑏 − 𝑎) + (𝑏 − 𝑐)
Pri čemu je 𝐿1 -donja prava granica modalnog razreda, b-(korigirana) frekvencija modalnog razreda, a-
(korigirana) frekvencija ispred modalnog razreda, c-(korigirana) frekvencija ispod modalnog razreda,
a i-veličina modalnog razreda.
𝑁 𝑁 3𝑁
− ∑ 𝑓1 − ∑ 𝑓1 − ∑ 𝑓1
𝑀𝑒 = 𝐿1 + 2 ∗𝑖 𝑄1 = 𝐿1 + 4 ∗𝑖 𝑄3 = 𝐿1 + 4 ∗𝑖
𝑓𝑚𝑒𝑑 𝑓𝑘𝑣𝑎𝑟 𝑓𝑘𝑣𝑎𝑟
30
ISPRINTANO U ŽUTOJ
4.1.Mjere koncentracije
Mjere koncentracije su pokazatelji načina razdiobe totala (total je zbroj vrijednosti numeričke
varijable) po jedinicama niza ili po modalitetima kvalitativnih ili vrijednostima kvalitativnih varijabli.
Njima se npr. mjeri način razdiobe premija bruto osiguranja po osiguravajućim društvima, plaća po
zaposlenim osobama…
Mjere koncentracije mogu biti apsolutne i relativne.
Najčešće korištene apsolutne mjere koncentracije:
• Koncentracijski omjer 𝐶3
• Herfindal – Hirschmanov indeks H
𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑟
𝐶𝑟 =
∑ 𝑋𝑖
Npr. Kada trebaš izračunati koncentracijski omjer 𝐶3 , uzimaš tri najveće vrijednosti X (zadnje tri, jer je
niz poredan po veličini od najmanjeg prema najvećem, a mi trebamo 3 najveće) te ih podijeliš s
ukupnom vrijednosti svih x-ića! ☺
31
ISPRINTANO U ŽUTOJ
𝐻 = ∑ 𝑝𝑖 2
2 ∑ 𝑖𝑥𝑖 −(𝑁+1) ∑ 𝑥𝑖
G=
𝑁 ∑ 𝑥𝑖
Postoji još i normirani Ginijev koeficijent koji se računa kao omjer Ginijevog koeficijenta i
1
maksimalnog Ginijevog koeficijenta (1- 𝑁 ). Označava se s G*.
Ginijev koeficijent koncentracije utvrđuje se uz pomoć grafičkog prikaza koji se naziva Lorenzova
krivulja.
32
ISPRINTANO U ŽUTOJ
Okomiti prekid grafikona - ako se ne raspolaže podatcima za dio razdoblja moguće je izostaviti dio
mjerila na osi X (npr. radne godine)
Vodoravni prekid grafikona - ako neka pojava varira na velikim razinama moguće je izostaviti dio
mjerila na osi Y
Polulogaritamski grafikon - koristi se ako se na istom grafikonu uspoređuju raznorodni podatci (nizovi
izraženi u raznim mjernim jedinicama). To je grafikon s aritmetičkim mjerilom na osi X, a
logaritamskim na osi Y.
5.2.Pokazatelji dinamike
33
ISPRINTANO U ŽUTOJ
• prva diferencija
• diferencija u odnosu na bazno razdoblje
∆𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1
34
ISPRINTANO U ŽUTOJ
𝑦𝑛 − 𝑦𝑡
∆𝑦̅ =
𝑛−1
𝑦𝑡 − 𝑦𝑡−1
𝑠𝑡 = ∗ 100%
𝑦𝑡−1
𝑦𝑡
𝑣𝑡 =
𝑦𝑡−1
Koeficijent dinamike se interpretira na isti način kao i stopa promjene u odnosu na prethodno
razdoblje. Na primjer, koeficijent dinamike u iznosu 0,90 implicira 10%-tno smanjenje razine
promatrane pojave u razdoblju t u odnosu na prethodno razdoblje.
𝑠̅ = (𝐺 − 1) ∗ 100%
35
ISPRINTANO U ŽUTOJ
Vidimo da nam je za izračun prosječne stope promjene potrebna geometrijska sredina. Nju ćemo
dobiti pomoću formule:
𝑛−1 𝑦
G= √ 𝑦𝑛
1
Prosječnu stopu promjene uputno je primjenjivati u slučajevima kada su pojedinačne stope promjene
približno konstantne, tj. kada se dinamika vremenskog niza opisuje eksponencijalnom funkcijom.
Prosječnu stopu promjene moguće je koristiti za kratkoročno prognoziranje analizirane pojave.
Naime, ako se pretpostavi da će se promatrana pojava i u budućnosti nastaviti mijenjati po jednakoj
prosječnoj stopi, tada je prognostičku vrijednost F moguće izračunati na temelju jednadžbe:
Pri čemu je n duljina vremenskog niza, a 𝜏 je prognostički horizont ( broj razdoblja ili vremenskih
točaka unaprijed za koje se prognozira)
𝐹𝑛+𝜏 = 𝑦𝑛 𝐺 𝜏
5.3.Individualni indeksi
Osim osnovnim pokazateljima dinamike, promjena razine vremenskog niza često se analizira i
individualnim indeksima. Oni se dijele na bazne i verižne indekse. Više o njima saznat ćeš u nastavku.
Individualnim indeksima se prati razvoj pojave u vremenu.
𝑦𝑡
𝑉𝑡 = × 100
𝑦𝑡−1
• INDEKSI NA STALNOJ BAZI - njima se mjere promjene u odnosu na neko odabrano bazno
razdoblje
Izračunavaju se tako da se svaki član niza podijeli s vrijednošću baznog razdoblja te pomnoži
sa sto.
𝑦𝑡
𝐼𝑡 = × 100
𝑦𝑏
36
ISPRINTANO U ŽUTOJ
Bazno razdoblje je razdoblje u kojem pojava nije bila izložena nekim neuobičajenim utjecajima
(prirodne katastrofe, rat). Ponekad se uzme vrijednost izvan niza ili nekakav prosjek.
Podsjetimo se da se stopa promjene dobije kad od indeksa oduzmemo sto.
𝑆𝑡∗ = 𝐼𝑡 − 100
Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca. Indeks se interpretira
kao postotna promjena u odnosu na 100. Ako je veći od 100 predstavlja postotno povećanje, a ako je
manji od 100 predstavlja postotno smanjenje.
Statistička analiza vremenskih nizova mora opisati razvoj promatrane pojave u određenom
vremenskom razdoblju, objasniti varijacije pojave koristeći druge pojave, predvidjeti, ali i kontrolirati
dinamične procese. Mi smo naučili kako analizirati vremenski niz, odnosno kako analizirati kretanje
određene pojave kroz vrijeme. Osim grafičkih prikaza vremenskih nizova, objasnili smo pokazatelje
dinamike vremenskog niza, a posebnu pažnju obratili smo i na individualne indekse. ☺
37
ISPRINTANO U ŽUTOJ
6.VJEROJATNOSTI
U današnje vrijeme većina ljudi uplaćuje određenu vrstu osiguranja, primjerice osiguranje od
različitih kvarova, poplava, požara, krađa, prometnih nesreća, a poseban interes ljudi privlače police
životnog osiguranja. Kod takve vrste osiguranja ugovara se određena svota novaca koju je
osiguravatelj dužan isplatiti osiguraniku u slučaju bolesti ili smrti. Osiguranik svake godine uplaćuje
svotu novaca koja se stručno zove premija i računa se pomoću statističkih tablica, odnosno tablica
očekivanog trajanja života. Pomoću nje može se izračunati vjerojatnost da pojedinac doživi određene
godine, o čemu ujedno i ovisi vrijednost police.
Odgovori na pitanja kolike su šanse da se neki događaj ostvari, odnosno kolika je vjerojatnost njegova
ostvarenja veoma su važni na različitim područjima čovjekova djelovanja, primjerice ekonomiji,
politici, sportu, fizici, biologiji, igrama na sreću, planiranju proizvodnje, itd. Upravo zbog sve veće
potrebe za rješavanjem navedenih problema razvila se grana matematike koja proučava mogućnost
ili šansu da se ostvari neki događaj, a naziva se teorija vjerojatnosti. U teoriji vjerojatnosti razmatraju
se događaji koji se mogu, ali ne moraju dogoditi. Događaju za koji se kaže da je sto posto siguran
dodjeljujemo vjerojatnost 1 što povlači da ukoliko je događaj izvjesniji njegova vjerojatnost je bliža
jedinici. U protivnom, događaj koji je prilično nevjerojatan ima vjerojatnost bližu nuli. No, postoje i
događaji koji nemaju izvjesnost hoće li se dogoditi. Primjerice, hoće li se kocka zaustaviti na broju 6?
Taj događaj se može ostvariti, ali i ne mora. Takvi se događaji zovu slučajnim događajima.
Vjerojatnost, slučajne varijable i distribucije vjerojatnosti temeljni su pojmovi inferencijalne statistike.
6.1.Definicije vjerojatnosti
Šta to znači? Interval u kojem se može naći određena vjerojatnost je od 0 do 1, što znači da je
vjerojatnost nastanka nemogućeg događaja jednaka 0, a vjerojatnost nastanka sigurnog događaja 1.
Ako je vjerojatnost nastanka slučajnog događaja 0.5, to upućuje na zaključak da je jednako vjerojatno
da događaj nastane i ne nastane.
Pri definiranju vjerojatnosti najprije se polazi od slučajnog pokusa te slučajnog događaja.
Pokus je definiran proces iz kojeg izvire neki rezultat. Taj rezultat nazivamo ishodom. Pokus je
slučajan ako se u definiranim uvjetima može ponavljati, ako postoje barem dva različita ishoda te ako
38
ISPRINTANO U ŽUTOJ
se ishodi ne mogu predvidjeti sa sigurnošću. Skup svih mogućih različitih ishoda slučajnog pokusa
naziva se prostorom uzorka S.
Slučajni događaj je jednočlani ili višečlani podskup skupa S. Stoga su s događajima dopuštene
skupovne operacije.
Samo određivanje nastupa slučajnih događaja temelji se na sljedećim definicijama:
• KLASIČNA DEFINICIJA (vjerojatnost a priori) pretpostavlja da slučajni pokus ima konačan broj
jednako mogućih ishoda. Tada je vjerojatnost nastupa događaja A jednaka omjeru broja za
njega povoljnih ishoda m i ukupnog broja ishoda n.
𝑚
𝑃(𝐴) =
𝑛
6.2.Svojstva vjerojatnosti
̅̅̅ = 1 − 𝑃(𝐴)
𝑃(𝐴)
𝑃 (𝐴1 ∩ 𝐴2 )
• Ako događaji nisu međusobno isključivi, vjerojatnost nastupa barem jednog od njih jednaka
je
39
ISPRINTANO U ŽUTOJ
𝑃(𝐴 ∩ 𝐵)
𝑃 (𝐴|𝐵) =
𝑃(𝐵)
𝑃(𝐴 ∩ 𝐵) = 𝑃 (𝐴)𝑃(𝐵)
Slučajna varijabla X numerička je funkcija koja svakom ishodu slučajnog pokusa pridružuje realan
broj. Razlikujemo diskretnu (poprima konačan broj vrijednosti) i kontinuiranu (može poprimiti bilo
koju vrijednost iz nekog intervala) varijablu.
• 𝑝(𝑥𝑖 ) ≥ 0
• ∑ 𝑝(𝑥𝑖 ) = 1
Kumulativna funkcija 𝐹(𝑋𝑖 ) pokazuje kolika je vjerojatnost da diskretna slučajna varijabla X poprimi
vrijednost jednaku 𝑋𝑖 ili manju. Definira se izrazom 𝐹(𝑥𝑖 ) = ∑ 𝑝(𝑥𝑖 ).
• 𝑓(𝑥) ≥ 0
∞
• ∫−∞ 𝑓(𝑥) 𝑑𝑥 = 1
40
ISPRINTANO U ŽUTOJ
Binomna distribucija
Binomna slučajna varijabla X je slučajna varijabla koja broji koliko se puta ostvario događaj A u n
ponavljanja Bernoullijevog pokusa. Pritom se pretpostavlja da su uzastopni pokušaji nezavisni, te da
je vjerojatnost nastupa događaja A jednaka u svakom pokušaju.
Ovu distribuciju ćeš u zadatku prepoznati po događaju s dva ishoda i zadanim parametrima (n i p).
41
ISPRINTANO U ŽUTOJ
Poissonova distribucija
Poissonova varijabla je diskretna slučajna varijabla koja poprima vrijednosti 0, 1, 2, 3, itd. Poissonovu
distribuciju nazivamo jednoparametarskom distribucijom jer je u potpunosti određena parametrom
𝜆, pri čemu je 𝜆 nenegativan realni broj. Koristi se pri određivanju vjerojatnosti da se određen broj
događaja ostvari u jediničnom vremenskom intervalu, neovisno o vremenu pojavljivanja zadnjeg
događaja, s tim da se pretpostavlja da je prosječan broj događaja u jedinici vremena konstantan.
Poissonovu distribuciju ćeš u zadatku prepoznati također po događaju s dva ishoda, ali ovaj put
NEĆEŠ imati parametre već prosječnu/očekivanu vrijednost koja je kod Poissona jednaka 𝜆!
𝑥−𝜇
𝑧=
𝜎
𝑁(0,1)
𝜇2 = 0
Jedinična normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje predstavljaju
vjerojatnosti. U pred-stupcu su sve vrijednosti izražene kao brojevi s jednom decimalom. Druga
decimala nalazi se u zaglavlju. Budući da je distribucija simetrična u tabeli su dane samo vrijednosti z.
Studentova distribucija
Studentova distribucija je distribucija vjerojatnosti kontinuirane slučajne varijable usko vezana uz
normalnu distribuciju, jer je slučajna varijabla koja pripada toj distribuciji definirana kao funkcija
normalne slučajne varijable.
Studentovu distribuciju definirao je 1908. William Gosset dok je u pivovari Guiness ispitivao
kvalitetu piva na osnovi malih uzoraka, te ju je objavio pod pseudonimom „Student“.
42
ISPRINTANO U ŽUTOJ
43
ISPRINTANO U ŽUTOJ
7. METODA UZORAKA
Sjetimo se onog istraživanja mišljenja studenata u RH o otvaranju Štrebsy teretane s početka
skripte. Tada smo koristili uzorak. Rekli smo da uzorke koristimo zato što pojedini konačni
skupovi sadrže velik broj članova pa bi njihovo istraživanje zahtijevalo velika financijska
sredstva, previše vremena ili uopće ne bi bilo moguće.
Na primjer:
44
ISPRINTANO U ŽUTOJ
• Jednostavni slučajni uzorak - primjenjuje se kod homogenih skupova i svaki element ima
jednaku vjerojatnost izbora
• Stratificirani uzorak - prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti, a
jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju stratumi
Slučajni uzorci analiziraju se metodama inferencijalne statistike. Kod njih je moguće izračunati
grešku. Sa stajališta statističke metode glavni su koraci istraživanja pomoću uzoraka prikazani ovdje:
ISTRAŽIVANJE POMOĆU
UZORAKA
45
ISPRINTANO U ŽUTOJ
Plan uzoraka je plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka,
tj. uzorak mora biti umanjena slika osnovnog skupa. Okvir izbora je popis članova statističkog skupa.
Prije nego što krenemo evo par pojmova koji su nam potrebni za bolje razumijevanje:
Parametar je brojčana karakteristika osnovnog skupa N (populacije), odnosno, konstanta
određena pomoću svih članova N
Procjenitelj je slučajna varijabla (definirana formulom) kojom se procjenjuje parametar
populacije
Procjena je izračunata vrijednost procjenitelja dobivena na uzorku podataka
Tako se govori o:
• sampling-distribuciji aritmetičkih sredina
• sampling-distribuciji varijanci
• sampling-distribuciji proporcija
• sampling-distribuciji medijana
46
ISPRINTANO U ŽUTOJ
Procjenjivanje nepoznatih parametara temelji se na podatcima koji tvore slučajni uzorak i na uporabi
odgovarajućeg procjenitelja.
Pri prosudbi kakvoće procjenitelja pogodno je da procjenitelji imaju poželjna svojstva kao što su
• nepristranost
• najmanja varijanca
• konzistentnost i dr.
Procjenitelj je nepristran ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje.,
a konzistentan je ako njegova standardna devijacije s porastom teži nuli.
Parametri se, osim intervalom i brojem, procjenjuju još nekim metodama od kojih se najčešće se
koriste:
• metoda momenata – sastoji se u tome da se parametri izraze kao funkcije momenata oko
nule, a zatim se momenti osnovnog skupa zamijene momentima uzorka
• metoda najmanjih kvadrata – temelji se na traženju onih procjena parametra za koje je zbroj
kvadrata odstupanja vrijednosti dane varijable od procjene minimalan
• metoda najveće vjerodostojnosti – temelji se na pretpostavci da je poznat oblik funkcije
vjerojatnosti osnovnog skupa
47
ISPRINTANO U ŽUTOJ
• procjena brojem:
𝑇̂ = 𝑁 ∙ 𝑥̅
𝜎𝑇̂ = 𝑁 ∙ 𝜎𝑥̅
𝑀
𝑝=
𝑁
Proporciju također možemo procijeniti brojem i intervalom. Rekli smo da je proporcija parametar koji
predstavlja omjer broja članova osnovnog skupa i opsega skupa, ali mi procjenjujemo proporciju za
48
ISPRINTANO U ŽUTOJ
uzorak, pa će nam zbog toga trebati malo drugačije oznake. Zato ćemo umjesto M i N koristiti m za
broj članova uzorka s određenim oblikom obilježja – broj članova u uzorku s određenom
karakteristikom (sjeti se neispravnih grijalica Hot u zadatku s instrukcija), a n za veličinu uzorka. Stoga
će procjena proporcije brojem izgledati ovako:
• procjena brojem
𝑚
𝑝̂ =
𝑛
Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika binomne
distribucije, a ako potječe iz konačnog skupa, sampling-distribucija proporcija ima oblik
hipergeometrijske distribucije (hipergeometrijska distribucija se s povećanjem veličine uzorka
približava binomnoj).
𝑧𝛼/2 𝜎 2 𝑧𝛼/2 𝑉 2
𝑛=( ) =( )
𝑑 𝑑𝑟
Frakcija 𝑓0 nam pokazuje koliki je postotak populacije uzet u uzorak. Znači, ako je frakcija izbora
𝑛0
manja od 5% uzima se da je 𝑛 = 𝑛𝑜 , a kad je veća ili jednaka 5% onda je 𝑛 = 𝑛 . Izraz 𝒏𝒐 naziva se
1+ 𝑜
𝑁
prethodnom veličinom uzorka.
49
ISPRINTANO U ŽUTOJ
Postoji i određivanje veličine uzorka za procjenu proporcije osnovnog skupa. Pogledaj u formulama!
Stigli smo i do hipoteza. Prvo ćemo definirati statističku hipotezu kako bismo vidjeli o čemu se tu
uopće radi.
Znači, mi ćemo tu nešto pretpostaviti (hipoteza), zatim ćemo izračunati testnu veličinu, usporediti ju
s teorijskom i na kraju prihvatiti ili odbaciti pretpostavku. Taj postupak donošenja odluke o
prihvaćanju ili neprihvaćanju zove se, 'ko bi rekao, testiranje statističkih hipoteza.
Svaki postupak testiranja polazi od nulte (𝐻0) i alternativne (𝐻1) hipoteze. Sadržaj hipoteza odlučuje
istraživač. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte.
Sud koji izvire iz odluke o prihvaćanju ili neprihvaćanju nulte hipoteze nije kategoričan (bezuvjetan /
određen) jer se odluka donosi na temelju vrijednosti iz slučajnog uzorka, odnosno dijela podataka.
U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka. One se nazivaju:
• pogreška tipa II - nastaje ako se prihvati lažna nulta hipoteza Ta pogreška označava se
kao 𝛽.
No, mi ne želimo pogriješiti! Mi želimo odbaciti nultu hipotezu kada je ona lažna. Ta vjerojatnost se
naziva snaga testa, odnosno razina pouzdanosti.
50
ISPRINTANO U ŽUTOJ
𝑥̅ − 𝜇0
𝑧=
𝜎𝑥̅
𝑥̅ − 𝜇0
𝑡=
𝜎𝑥̅
Dvosmjerni test
Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
51
ISPRINTANO U ŽUTOJ
𝐻𝑜 : 𝜇 ≤ 𝜇0
𝐻1 : 𝜇 > 𝜇0
𝐻𝑜 : 𝜇 ≥ 𝜇0
𝐻1 : 𝜇 < 𝜇0
52
ISPRINTANO U ŽUTOJ
𝑥̅ − 𝜇0
𝑧=
𝜎𝑥̅
Dvosmjerni test
Pretpostavka je da je proporcija populacije jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝑝 = 𝑝
𝐻1 : 𝑝 ≠ 𝑝
𝐻𝑜 : 𝑝 ≤ 𝑝0
𝐻1 : 𝑝 > 𝑝0
𝐻𝑜 : 𝑝 ≥ 𝑝
𝐻1 : 𝑝 < 𝑝0
53
ISPRINTANO U ŽUTOJ
𝐻0 : 𝑝 = 0.90
𝐻1 : 𝑝 ≠ 0,90
54
ISPRINTANO U ŽUTOJ
9.1 Procjena razlike aritmetičke sredine dvaju osnovnih skupova nezavisnim uzorcima
Nezavisni uzorci su oni kod kojih podatci iz uzorka prve populacije ne utječu na vjerojatnost
pojavljivanja podataka iz druge populacije. Izabiru se primjerice za procjenu razlike u prosječnoj
trajnosti novog proizvoda i prosječnoj trajnosti odstajalog proizvoda.
Procjena razlike aritmetičkih sredina također procjenjuje brojem i intervalom. Razlika je u tome što
ovdje imamo dva osnovna skupa. Tako će procjena razlike aritmetičkih sredina brojem tih dvaju
skupova biti razlika aritmetičke sredine prvog i drugog skupa.
𝑑̂ = 𝑥̅1 − 𝑥̅2
55
ISPRINTANO U ŽUTOJ
9.2 Testiranje hipoteza o razlici aritmetičkih sredina dvaju osnovnih skupova nezavisnim
uzorcima
Testovi razlike između aritmetičkih sredina dviju normalno distribuiranih populacija ponekad se
provode pomoću nezavisnih, a ponekad pomoću zavisnih uzoraka, ovisno o logici konkretne situacije.
Pritom varijance mogu biti poznate ili nepoznate, a nepoznate varijance mogu biti jednake ili
nejednake.
𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂
𝑑̂ − 𝐷0
𝑡=
𝜎𝐷̂
Dvosmjerni test
Pretpostavka je da je sredina populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!
𝐻𝑜 : 𝜇1 − 𝜇2 = 𝐷0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0
𝐻𝑜 : 𝜇1 − 𝜇2 ≤ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 > 𝐷0
56
ISPRINTANO U ŽUTOJ
𝐻𝑜 : 𝜇1 − 𝜇2 ≥ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 < 𝐷0
9.3 Procjena razlike proporcija dviju populacija na osnovi velikih nezavisnih uzoraka
Procjena razlike proporcija dvaju osnovnih skupova provodi se na način sličan procjeni aritmetičkih
sredina. To se odnosi i na postupak testiranja hipoteze o razlici proporcija. Temelj su postupka
procjene vrijednosti iz uzorka te sampling-distribucija razlika.
Opet imamo procjenu brojem i intervalom. Juhu!
𝑑̂ = 𝑝̂ 1 − 𝑝̂ 2
9.4 Test hipoteza o razlici proporcija dviju populacija na osnovi velikih nezavisnih uzoraka
Test hipoteze o razlici proporcija temelji se na obliku sampling-distribucije (tj. distribucije
̂ razlike proporcije dviju populacija na bazi velikih nezavisnih uzoraka veličine 𝑛1 𝑖 𝑛2 ,
procjenitelja) 𝐷
a moguće ga je provesti kao dvosmjerni test ili kao jednosmjerni test na donju ili gornju granicu.
𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂
57
ISPRINTANO U ŽUTOJ
Dvosmjerni test
Pretpostavka je da je proporcija populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!
𝐻𝑜 : 𝑝1 − 𝑝2 = 𝐷0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝐷0
PRIMJER: Može li se prihvatiti pretpostavka da ne postoji razlika u proporciji građana koji su godišnji
odmor proveli izvan mjesta stanovanja u ova dva grada? α = 5% (OSTALO: iznosi 5%, jednaka 5%, se
ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je proporcija prvog osnovnog skupa veća od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!
𝐻𝑜 : 𝑝1 − 𝑝2 ≤ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 > 𝐷0
PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu veća od proporcije u drugom gradu? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je proporcija prvog osnovnog skupa manja od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!!
𝐻𝑜 : 𝑝1 − 𝑝2 ≥ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 < 𝐷0
PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu manja od proporcije u drugom gradu?α = 5%
58
ISPRINTANO U ŽUTOJ
E sad, kako ćeš prepoznat da u zadatku trebaš koristiti hi-kvadrat test? On je uvijek test
proporcija triju ili više populacija. Znači, do sad smo imali jednu ili dvije populacije, a sad
imamo tri ili više! Kada prepoznaš tri ili više populacija u zadatku moraš odrediti o kojem se
hi-kvadrat testu radi. Ovakav tip zadataka se može pojaviti u 3. zadatku na ispitu.
Hi-kvadrat test je vrlo praktičan test koji može osobito poslužiti onda kad želimo utvrditi odstupaju li
neke dobivene (opažene) frekvencije od frekvencija koje bismo očekivali pod određenom hipotezom.
Idemo vidjeti kako to funkcionira!
Ako je prva hipoteza istinita, empirijske se frekvencije neće značajno razlikovati od očekivanih
frekvencija. Razlika između njih gotovo uvijek postoji, a pomoću hi-kvadrat testa zaključuje se jesu li
te razlike rezultat slučajnosti ili ne. Ukoliko je razlika slučajna, ona nije statistički značajna te se može
zaključiti da je distribucija populacije pretpostavljenog oblika i obrnuto.
Kako dalje?
59
ISPRINTANO U ŽUTOJ
Nakon što smo postavili hipoteze, moramo odrediti testnu veličine koju ćemo usporediti s teorijskom
veličinom i odrediti koju hipotezu prihvaćamo. To znači da ćemo uspoređivati hi-kvadrat empirijski i
hi-kvadrat teorijski. Empirijski hi-kvadrat moramo izračunati, pa ćeš u svojim formulama naći formulu
koja izgleda ovako:
2
(𝑓𝑖 − 𝑒𝑖 )2
𝜒 =
𝑒𝑖
E sad, ja volim reći da ti je ova formula „zvijezda vodilja“ kod zadataka sa hi-kvadratom (nemoj to
slučajno reći na usmenom :P). Šta mislim pod tim „zvijezda vodilja“? Cilj ti je izračunati taj empirijski
hi-kvadrat, pa tako sve što vidiš u njegovoj formuli stavi u stupce u tablicu (kako smo radili na
instrukcijama).
Postupak:
• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑓𝑖 )
• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df) k-1, pri čemu je k broj
populacija, uz zadanu razinu značajnosti α
𝑒𝑖 =𝑛∗𝑝(𝑜𝑖)
Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.
60
ISPRINTANO U ŽUTOJ
modela automobila o spolu ili ne ovisi. Nakon provođenja ovog testa dobit ćemo odgovor na to
pitanje.
Hipoteze testa mogu se zapisati na sljedeći način:
Kako dalje?
Nakon postavljanje hipoteza trebamo odrediti testnu veličinu te ju izračunati. Rekli smo da je testna
veličina empirijski hi-kvadrat koja izgleda ovako:
2
2
(𝑓𝑖𝑗 − 𝑒𝑖𝑗 )
𝜒 =
𝑒𝑖𝑗
Kod ovog testa će ti apsolutne frekvencije biti zadane u tablici kontingence koja ima najmanje dva
retka i dva stupca. Zato se ovdje frekvencije označavaju kao 𝑓𝑖𝑗 (i predstavlja redak, a j stupac). Kako
bi izračunali našu testnu veličinu potrebne su nam i očekivane frekvencije 𝑒𝑖𝑗.
Njih ćemo izračunati prema formuli:
𝑅𝑖 ∗ 𝐶𝑗
𝑒𝑖𝑗 =
𝑛
Ovdje, dakle, uzimaš sumu retka (𝑅𝑖), množiš ju sa sumom stupca (𝐶𝑗) u tablici kontingence i taj
umnožak dijeliš sa n. Npr. Za očekivanu frekvenciju 𝑒11 uzimaš sumu prvog retka, množiš ju sa sumom
prvog stupca i dijeliš s ukupnim brojem n.
Postupak:
• izabire se uzorak
61
ISPRINTANO U ŽUTOJ
Odluka:
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.
Test o jednakosti proporcija triju ili više populacija je specijalni slučaj hi-kvadrat testa o nezavisnosti
varijabli, ako je jedna od varijabli dihotomna. Iako se kod oba testa jednako definira testna veličina,
postavljene hipoteze i zaključak testa su različiti. Naime, kod testa nezavisnosti iz populacije izabire
se jedan slučajni uzorak, dok se kod testa o jednakosti proporcija triju ili više populacija izabire po
jedan slučajni uzorak iz svake populacije.
Hipoteze testa mogu se zapisati na sljedeći način:
𝐻0 : 𝑝1 = 𝑝2 = 𝑝3 = 𝑝𝑘
𝐻1 : ∃𝑝𝑖 = 𝑝𝑗 , 𝑧𝑎 𝑖, 𝑗 = 1,2,3, … , 𝑘
Kako dalje?
Nakon što smo postavili hipoteze, trebamo odrediti testnu veličinu-empirijski hi-kvadrat. On se
računa prema ovoj formuli:
𝑒𝑗 = 𝑛𝑗 ∗ 𝑝̅
Veličina svakog uzorka 𝑛𝑗 množi se sa zajedničkom proporcijom 𝑝̅. Tu zajedničku proporciju izračunat
ćeš kao omjer sume svih modaliteta i sume uzoraka.
Postupak:
• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑚𝑖)
• očekivane frekvencije (𝑒𝑖) se izračunavaju ovisno o pretpostavci
• izračunava se test pokazatelj (empirijski hi-kvadrat)
• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df)
62
ISPRINTANO U ŽUTOJ
Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
• Funkcionalna veza
o odnos koji se izražava analitički – jednadžbom
o svakoj vrijednosti jedne pojave odgovara točno određena vrijednost druge pojave
• Statistička/stohastička veza
o slabija od funkcionalne
o svakoj vrijednosti jedne pojava odgovara više različitih vrijednosti druge pojave. Npr.
sve osobe iste visine nemaju i istu težinu
63
ISPRINTANO U ŽUTOJ
Jednostavna linearna regresija predstavlja odnos između dvije pojave i to takav da promjenu jedne
pojave prati približno linearna promjena druge pojave.
Priča počinje dijagramom rasipanja. Dijagram rasipanja nam pokazuje kakva je veza između te dvije
pojave.
10000 1500
8000
1000
6000
4000 500
2000
0 0
0 5000 10000 15000 0 20 40
15000
10000
5000
0
0 50 100 150
Prvi grafikon rasipanja (gore lijevo) pokazuje pozitivno linearnu vezu. Uzmimo na primjer dohodak i
potrošnju. Te dvije varijable ovise jedna o drugoj. Povezanost je linearno pozitivna (kao što pokazuje
graf) jer porastom dohotka za određen iznos raste potrošnja u približno jednakom iznosu.
64
ISPRINTANO U ŽUTOJ
Drugi grafikon rasipanja (gore desno) pokazuje nam negativnu linearnu vezu. Uzmimo na primjer
porast cijena neke robe u supermarketu i količinu te robe. Pretpostavka je da bi sa povećanjem cijene
robe u supermarketu došlo do smanjenja prodane količine iste te robe.
Prema tome možemo zaključiti da su cijena robe i količina prodane robe u negativnoj linearnoj vezi.
Treći grafikon rasipanja (dole lijevo) pokazuje nam da veza među varijablama ne postoji. Za primjer
možemo uzeti broj djece upisane u javne vrtiće i broj sati koje ti provedeš učeći statistiku. Jedno ne
utječe na drugo te veza između te dvije varijable ne postoji.
Zašto uopće koristimo dijagram rasipanja? Zato što nam on pokazuje u kakvom su odnosu dvije
varijable.
Svaka točka dijagrama rasipanja zadovoljava jednadžbu 𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝑒𝑖 . Odnosno svaka točka Yi
odstupa od linije pravca za ±𝑒i.
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0 2000 4000 6000 8000 10000 12000
Osnova regresijske analize je, 'ko bi rekao, regresijski model. To je jedan hipotetički model, zapravo
formula, kojom se izražava statistička povezanost između pojava. Na temelju uzorka vrijednosti
odabranih varijabli procjenjuju se parametri pretpostavljenog modela i testiraju pretpostavke kako bi
se odredila adekvatnost procijenjenog modela.
65
ISPRINTANO U ŽUTOJ
Regresijska vrijednost zavisne varijable 𝑦̂𝑖 je zbroj konstantnog člana 𝛽̂0 i regresijskog koeficijenta 𝛽̂1
(koji se još zove i koeficijent smjera) pomnoženog s nezavisnom varijablom x.
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
66
ISPRINTANO U ŽUTOJ
Rekli smo gore da je ukupna suma iliti zbroj kvadrata jednaka zbroju kvadrata protumačenog
modelom uvećanog za rezidualni ili neprotumačeni zbroj kvadrata.
𝑆𝑇 = 𝑆𝑃 + 𝑆𝑅
Zbroj kvadrata protumačen modelom je zapravo zbroj kvadrata odstupanja regresijskih vrijednosti od
prosjeka. On označava varijabilnost empirijskih vrijednosti zavisne varijable koja je protumačena
modelom.
Neprotumačen zbroj kvadrata nama stvara problem. Zašto? On je posljedica slučajnih i neočekivanih
odstupanja empirijskih vrijednosti od regresijskih. Ako se zbrojevi kvadrata podijele s odgovarajućim
stupnjevima slobode, dolazi se do sredina kvadrata koje su nezavisne procjene komponenti varijance.
Sve ovo što smo naveli prikazivat ćemo u tablici standardnog oblika, tj. u tablici analize varijance
(ANOVA)
Protumačen
1 SP SP SP
modelom 1
1
SR
n−2
Neprotumačen n-2
modelom SR
SR
n−2 -
UKUPNO n-1 ST - -
𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 = =
𝑛−2 𝑛−2
Pozitivni drugi korijen iz procjene varijance regresije je procjena standardne devijacije regresije.
𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ = √ =√
𝑛−2 𝑛−2
67
ISPRINTANO U ŽUTOJ
𝜎̂
𝑉= ∗ 100%
𝑦̅
𝑆𝑃 𝑆𝑅
𝑅2 = =1−
𝑆𝑇 𝑆𝑇
Nama je bolje imati što više protumačenih odstupanja u našem modelu. Analogno tome, model
regresije je reprezentativniji što je koeficijent determinacije veći. On poprima vrijednosti iz intervala
[0,1]. Pored koeficijenta determinacije u analizi promatra se i korigirani koeficijent determinacije 𝑅̅2 .
𝑛−1
𝑅̅2 = 1 − (1 − 𝑅2 )
𝑛−2
𝑟 = ±√𝑅2
𝑠𝑖𝑛𝑔 (𝑟) = 𝑠𝑖𝑛𝑔(𝛽̂1 )
Koeficijent linearne korelacije može poprimiti vrijednosti iz intervala [−1,1]. On pokazuje kakva je
veza između zavisne i nezavisne varijable prema smjeru i čvrstoći. Prema smjeru veza može biti
negativna i pozitivna veza te ona ovisi o predznaku regresijskog koeficijenta.
68
ISPRINTANO U ŽUTOJ
Prema smjeru veza između dvije varijable može biti pozitivna i negativna. Ako je r pozitivan
broj, reći ćemo da je veza između zavisne i nezavisne varijable pozitivna. Ako je r negativan,
veza prema smjeru je negativna.
Prema čvrstoći veza može biti jaka i slaba. Što je r bliži jedinici (nebitno kojeg predznaka)
veza je jača. Ako je r=0.9, veza prema čvrstoći je jaka veza. Ako je r=-0.2, veza prema čvrstoći
je slaba.
Znači, koeficijent linearne korelacije interpretiramo uzimajući u obzir i čvrstoću i smjer
povezanosti između dvije varijable. Potrebno je napomenuti kako je ta povezanost linearna.
Sad kada smo izveli procjenitelje koeficijenata i varijance, spremni smo izvoditi zaključke o modelu.
Zaključci izvedeni slijedom regresijske analize pomoći će nam razumjeti modelirani proces i ujedno
omogućiti donošenje odluka vezanih za taj proces, a nama je u cilju pomoći Štrebsyju da uspije u
svom naumu! ☺
Testiranje hipoteza o pretpostavljenoj vrijednosti regresijskog parametra ili konstante u modelu
jednostavne linearne regresije najčešće se provodi na temelju t-testa ili F-testa. Odluka se donosi na
uobičajen način, kao što smo objasnili kod metode uzoraka.
Za danu razinu značajnosti/signifikantnosti 𝛼, testna veličina uspoređuje se s teorijskom vrijednosti.
Kako bi ova jednadžba izgledala kada bi 𝛽̂1 bila jednaka 0? Vidimo u formuli da se 𝛽̂1 i x množe. Ako 0
pomnožimo sa x dobijemo 0. To bi značilo da bi jednadžba regresije izgledala ovako:
𝑦̂𝑖 = 𝛽̂0
U tom slučaju varijabla x nije značajna u modelu jednostavne linearne regresije. Primjećuješ da
značajnost varijable x u modelu ovisi o regresijskom koeficijentu, što znači da moramo testirati
regresijski koeficijent!
Kako će onda glasiti hipoteze u ovom testu značajnosti regresorske varijable?
69
ISPRINTANO U ŽUTOJ
DVOSMJERNI TEST
𝐻0… 𝛽1 = 0
𝐻1… 𝛽1 ≠ 0
𝐻0… 𝛽1 = 0
𝐻1… 𝛽1 > 0
𝐻0… 𝛽1 = 0
𝐻1… 𝛽1 < 0
Nulta hipoteza je formirana tako da se nastoji odbaciti, a alternativna se hipoteza definira u skladu s
pretpostavkom istraživača.
Testiranje možemo provesti pomoću t-testa i F-testa.
T-test
Testna veličina je empirijski t-omjer koji se računa pomoću formule:
𝛽̂1
𝑡1 =
𝜎𝛽̂1
F-test
Testna veličina je empirijski F-omjer računa se prema formuli:
𝑆𝑃
𝐹= 1
𝑆𝑅
𝑛−2
70
ISPRINTANO U ŽUTOJ
• mali uzorak
• veliki uzorak
Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable. Štrebsyi d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena
je regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna proizvodnja
pekmeza. Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika
će biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost. Tu prognostičku vrijednost izračunat ćemo ovako:
Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020.godini nam
je 𝑥0.prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije,
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.
71
ISPRINTANO U ŽUTOJ
𝛽̂0 - predstavlja regresijsku vrijednost zavisne varijable, ukoliko su nezavisna varijabla 𝑥1 i 𝑥2 jednake
nuli
𝛽̂1 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,
𝛽̂2 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,
U ovom modelu ukupna varijacije zavisne varijable oko prosječne vrijednosti nastoji se što bolje
objasniti skupom nezavisnih varijabli. Opet rastavljamo varijancu zavisne varijable procijenjenu na
bazi uzorka na varijacije koje se mogu objasniti linearnom funkcijom nezavisnih varijabli (SP) i na one
varijacije koje ostaju neprotumačene (SR).
Ukupna suma iliti zbroj kvadrata jednaka je zbroju kvadrata protumačenog modelom uvećanog za
rezidualni ili neprotumačeni zbroj kvadrata. Zbroj kvadrata protumačen modelom je zapravo zbroj
72
ISPRINTANO U ŽUTOJ
Protumačen
k SP SP SP
modelom 𝑘
k
SR
n − (k + 1)
SR
Neprotumačen n-(k+1) SR n − (k + 1)
modelom
-
UKUPNO n-1 ST - -
Kada podijelimo odstupanja neprotumačena modelom (SR) sa stupnjevima slobode (df) dobijemo
procjenu varijance regresije.
∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 =
𝑛 − (𝑘 + 1)
73
ISPRINTANO U ŽUTOJ
𝑛−1
𝑅̅2 = 1 − ∗ (1 − 𝑅2 )
𝑛 − (𝑘 + 1)
Spominjali smo još i koeficijent linearne korelacije koji nam pokazuje u kojoj mjeri nezavisna varijabla
utječe na zavisnu i utječe li pozitivno ili negativno. On se kod višestruke linearne regresije računa isto
kao drugi korijen iz koeficijenta determinacije, samo što ovdje uvijek ima pozitivan predznak (ne
može biti negativan).
To može biti:
• test značajnosti jedne regresorske varijable - pojedinačni test
• test značajnosti svih regresorskih varijabli - skupni test
Pojedinačni test provodi se jednako kao i u jednostavnoj linearnoj regresiji. Testiramo onu
regresorsku varijablu za čiju nas nezavisnu varijablu pita je li značajna u modelu. Također, kao i kod
jednostavne linearne regresije testiranje se može provesti putem t-testa i F-testa.
Skupni test testira značajnost svih regresorskih varijabli. Rekli smo da Štrebsy d.o.o. proizvodi
pekmez. Napomenuli smo kako na njihovu proizvodnju uz potražnju utječu i troškovi proizvodnje.
Skupnim testom želimo provjeriti jesu li potražnja i troškovi značajni u modelu VLR. Rekli smo već
ranije u skripti kako je varijabla značajna, ako je regresorska varijabla koja stoji uz nju različita od 0.
Zato ćemo formirati ovakva hipoteze:
𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
𝐻1 : ∃𝛽𝑗 ≠ 0
𝑆𝑃
𝐹= 𝑘
𝑆𝑅
𝑛 − (𝑘 + 1)
74
ISPRINTANO U ŽUTOJ
Sigurno prepoznaješ naš F-omjer iz tabele ANOVE kod višestruke linearne regresije. ☺ Odluka se
donosi na temelju usporedbe empirijskog F-omjera, kojeg smo izračunali, i teorijskog iz tablice sa
stupnjevima slobode u brojniku 𝑑𝑓1 = 𝑘 i 𝑑𝑓2 = 𝑛 − (𝑘 + 1) stupnjeva slobode u nazivniku.
Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable.
Štrebsy d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena je
regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna
proizvodnja pekmeza.
Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika će
biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost.
Tu prognostičku vrijednost izračunat ćemo ovako:
Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020. godini
nam je 𝑥0. Prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.
Da zaključimo! Kod jednostavne linearne regresije promatramo utjecaj jedne nezavisne varijable na
zavisnu, dok kod višestruke linearne regresije promatramo kako više nezavisnih varijabli utječe na
zavisnu. Zavisnom varijablom, tzv. Y, predstavljene su vrijednosti pojave čije se varijacije objašnjavaju
samim modelom regresijske analize, dok je nezavisna varijabla označena s X. Model linearne regresije
koristan je u poslovanju jer na temelju njega možemo prognozirati i predviđati buduće vrijednosti
zavisne varijable, odnosno varijable koju promatramo.
75
ISPRINTANO U ŽUTOJ
Kako bi dobro svladali teoriju potrebno je znati na koje komponente se raščlanjuje vremenski niz.
To su:
• Trend komponenta
• Sezonska komponenta
• Ciklička komponenta
• Slučajna komponenta
Ekonomske pojave ponekad se s vremenom mijenjaju linearno. Ako se pojava mijenja linearno, znači
da se mijenja (smanjuje ili povećava) za približno jednak APSOLUTNI iznos u vremenskom intervalu.
Ukoliko je to slučaj, dinamika pojave se opisuje linearnim trendom koji se još zove i trend-polinom
prvog stupnja. Vidjet ćeš da se ovo puno ne razlikuje od jednostavne linearne regresije. Zašto?
76
ISPRINTANO U ŽUTOJ
Zato što je model linearnog trenda specijalni slučaj modela jednostavne linearne regresije u kojem je
nezavisna varijabla vrijeme.
Parametri linearnog trenda, 𝛽̂0 i 𝛽̂1 , kao i u linearnoj regresiji, procjenjuju se modelom najmanjih
kvadrata.
∑ 𝑥𝑡 𝑦𝑡 − 𝑛𝑥̅ 𝑦̅
𝛽̂1 =
∑ 𝑥𝑡2 − 𝑛𝑥̅ 2
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
Procijenjeni parametar 𝛽̂0 je konstantni član. Interpretira se kao vrijednost trenda za razdoblje koje
prethodi prvom razdoblju analiziranog vremenskog niza.
PRIMJER:
Ako je 2010. godina prva godina za koju imamo podatke (X=1), onda je vrijednost trenda u
2009. godini (X=0) bila je jednaka vrijednosti procijenjenog parametra 𝛽̂0 .
Ako je 𝛽̂1 =2, on nam pokazuje da se proizvodnja pekmeza u prosjeku godišnje poveća za 2
komada.
Naravno, ništa ne može proći bez naše standardne pogreške! Svaki procijenjeni parametar ima
pripadajuću standardnu pogrešku.
Zašto moramo znat ovo sve i čemu to uopće služi?
Jednadžba trenda se, kao i regresijska jednadžba, koristi u prognostičke svrhe. U poslovanju uvijek
moramo gledati unaprijed kako naš Štrebsy d.o.o. ne bi pretrpio gubitke. Naravno, nikad ne možemo
biti sto posto sigurni da neće, ali prognostičke vrijednosti pojave pomoći će nam da mirnije spavamo.
Kada je prognoziranje smisleno?
Prognoziranje na osnovi procijenjene jednadžbe trenda smisleno je samo onda ako je realno
pretpostaviti da će se pojava nastaviti kretati u približno jednakim uvjetima i na približno jednak
način.
Prognostičku vrijednost pojave za prognostički horizont 𝜏, izračunat ćemo prema ovoj formuli:
𝜏 (čita se tau) je broj razdoblja iza zadnjeg promatranja za koji se prognozira razina pojave.
77
ISPRINTANO U ŽUTOJ
Ovo je mrak! Sad možemo prognozirati i izračunati kolika će biti proizvodnja Štrebsy pekmeza za 100
godina, ali možemo li se pouzdati u to? Naravno da ne! Veći vremenski horizont donosi i veću
nepreciznost prognostičkog intervala. Zašto? Iz formule za standardnu pogrešku procjene
pojedinačne vrijednosti (pronađi je u formulama) možemo zaključiti da porastom vremenskog
horizonta 𝜏 raste i standardna pogreška procjene! Znači, pomoću trenda možemo prognozirati samo
mali broj razdoblja unaprijed.
Model eksponencijalnog trenda prvog stupnja ili jednostavni eksponencijalni trend koristimo kada se
vremenska pojava mijenja od razdoblja do razdoblja za približno isti RELATIVNI iznos, tj. Kada su
verižni indeksi približno konstantni.
𝑥
𝑦𝑡 = 𝛽0 𝛽1 𝑡 𝑒 𝜀𝑡
Linearizirani model je model jednostavne linearne regresije, odnosno model jednostavnog linearnog
trenda samo što umjesto izvornih vrijednosti pojave ima logaritamske vrijednosti. Slučajna varijabla
ili greška relacije 𝜀 u linearnom modelu po pretpostavci ima normalnu distribuciju sa sredinom 0 i
varijancom 𝜎 2 .
Parametri lineariziranog trenda procjenjuju se na uobičajen način, metodom najmanjih kvadrata.
(Ovo možda nemaš u svojim formulama, pa slobodno zapiši!)
∑ 𝑥𝑡 𝑙𝑜𝑔𝑦𝑡 − 𝑥̅ ∑ 𝑙𝑜𝑔𝑦𝑡
̂1 =
𝑙𝑜𝑔𝛽
∑ 𝑥𝑡2 − 𝑛𝑥̅ 2
∑ 𝑙𝑜𝑔𝑦𝑡
̂0 =
𝑙𝑜𝑔𝛽 ̂ 1 )𝑥̅
− (𝑙𝑜𝑔𝛽
𝑛
78
ISPRINTANO U ŽUTOJ
Nakon što procijenimo parametre lineariziranog trenda, dobit ćemo procijenjenu jednadžbu
trenda.
̂ 𝑡 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + (𝑙𝑜𝑔𝛽
̂ 1 )𝑥𝑡
• mjerna jedinica za trend vrijednost (npr. indeksni bod, osoba, tisuća kuna…)
̂ 𝑛+𝜏 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + 𝑙𝑜𝑔𝛽
̂ 1 (𝑛 + 𝜏)
Trend predstavlja niz prosječnih, teoretskih točaka i vrijednosti kroz koje bi promatrana pojava
prolazila da nije bilo sezonskih ili slučajnih čimbenika koji su utjecali na njezino kretanje. Upotreba
statističkih metoda u procesu poslovanja je od velikog značaja. Trend je, kao i regresija i korelacije,
statistička metoda koja olakšava postupak analiziranja pojava i procesa koji su se već dogodili te
omogućuju prognoziranje kretanja istih na temelju analiziranih podataka.
79
ISPRINTANO U ŽUTOJ
TREBAŠ POMOĆ?
Bez brige.
80