You are on page 1of 40

SKRIPTA

STATISTIKA

TEORIJA – 1. KOLOKVIJ
Verzija 1.07

ISPRINTANO U ŽUTOJ. NE KOPIRATI!


ID:10512
Bok!
Drago nam je što si odabrao SKRIPTARNICU za pronalazak materijala koji će ti pomoći u učenju.

Što je SKRIPTARNICA?

Skriptarnica je projekt Štreberaj tima i Žute kopiraone, a nastala je u želji da ti olakšamo studiranje.
Sve skripte možeš pogledati na stranici www.referada.hr, a kupiti u SKRIPTARNICI, odnosno u Žutoj
kopiraoni.

Kad se mali studenti slože… sve se može, sve se može

Ideja projekta je zajedničkim snagama napraviti što bolje materijale. Ako pronađeš nešto što je krivo u
skripti ili jednostavno želiš dati neku sugestiju, rado ćemo te poslušati. Pošalji nam mail na
skriptarnica@referada.hr

Updateamo materijale, zato pazi na verziju!

Sve sugestije i prijedloge pokušavamo što brže uvažiti. Na www.referada.hr i našoj facebook grupi
EFZG SUPPORT by Štreberaj možeš pratiti što se događa i uvijek biti u toku s najnovijim materijalima.
Na naslovnici ti piše koju verziju skripte imaš u rukama (npr. Verzija: 1.03).

Žuta is the place to be!


U Žutoj kopiraoni uvijek ćeš pronaći najnovije verzije naših skripti, pitalica i primjera ispita!

Tko je napisao skripte?

Skripte koje nađeš kod nas nisu nužno naše autorsko djelo. To su razne skripte koje nam studenti
donesu. Mi smo odabrali one najbolje i malo ih uredili tako da ti je ljepše ponavljati iz njih. U
Štreberaju uvijek preporučamo učenje iz knjige! Skripte su tu da ti pomognu ponoviti gradivo.

Koje skripte smo pisali mi?

Naši edukatori rade skripte iz kolegija za koje držimo instrukcije. Sve takve skripte u nazivu imaju
Štreberaj. Ovo je jedna od tih skripti. ☺

Želimo ti puno sreće s učenjem!


ISPRINTANO U ŽUTOJ

Malo o skripti
PAZI!
Ono što se od tebe traži na ovom ispitu je da razumiješ
gradivo, a ne da samo nabubaš napamet koncepte Bilo bi dobro da se odmah u startu
rješavanja zadataka. Zato nema smisla učiti po razumijemo. Službena literatura za
skriptama koje su napisane u natuknicama ili samo ovaj ispit je knjiga Bahovec i sur.
prolaziti zadatke s prošlih rokova. (2015): Statistika.
Tako je nastala ova skripta… Ova skripta predstavlja samo pregled
najvažnijih dijelova gradiva i NIJE
U Štreberaju znamo da je razumijevanje gradiva ključno
službena ispitna literatura!
za polaganje ovog ispita. Isto tako, znamo da ne voliš
učiti iz literature koja je pisana prekompliciranim
jezikom. Zato smo ti spremili ovu skriptu koja je nastala kao kompilacija razne dostupne literature,
začinjena „mudrostima“ naših instruktora, koje će ti pomoći da gradivo bez problema savladaš S
RAZUMIJEVANJEM.

1
ISPRINTANO U ŽUTOJ

1. METODA UZORAKA
Sjetimo se onog istraživanja mišljenja studenata u RH o otvaranju Štrebsy teretane s početka
skripte. Tada smo koristili uzorak. Rekli smo da uzorke koristimo zato što pojedini konačni
skupovi sadrže velik broj članova pa bi njihovo istraživanje zahtijevalo velika financijska
sredstva, previše vremena ili uopće ne bi bilo moguće.
Na primjer:

• kada bi se istraživanjem uništio čitav statistički skup - istraživanje trajnosti Štrebsy


disco žarulja
• kada se radi o beskonačnom skupu - proizvodnja Štrebsy jestivih olovaka
Na temelju podataka o uzorku pomoću metoda inferencijalne statistike donose se zaključci o
cijelom skupu. Znači, mi ćemo u ovom poglavlju naučiti kako pomoću uzorka procijeniti
karakteristike osnovnog skupa, te odrediti pouzdanost i preciznost te procjene.

Dvije su osnovne zadaće metode uzoraka:


1. procjenjivanje nepoznatih parametara osnovnog skupa na temelju uzorka (parametar je
funkcija svih vrijednosti osnovnog skupa)
2. ispitivanje pretpostavki o parametrima (odnosno o osobitostima jedne ili više populacija)

1.1. Metode izbora uzorka

Pošto se inferencijalna statistika bavi poopćavanjem, odnosno donošenjem zaključaka o


karakteristikama populacije na temelju podataka iz uzorka, važno je da uzorak dobro reprezentira
populaciju kako bi poopćivanje bilo što kvalitetnije i vjerodostojnije. Reprezentativnost ovisi o načinu
na koji izaberemo uzorak iz naše populacije, te iz tog razloga način na koji to učinimo ima velike
posljedice na naš život! To je, naravno, bila neslana šala, ali svakako ima posljedice na mogućnost
poopćivanja rezultata te mogućnost primjene statističkih metoda.
Obzirom na način izbora jedinica uzoraka razlikuju se namjerni i slučajni uzorci.

1.1.1. Namjerni uzorci


Kod namjernih uzoraka jedinice uzorka izabiru se prema odluci istraživača, te je iz tog razloga dosta
subjektivan i najčešće nereprezentativan.

• Prigodni uzorak - ispituju se dostupne jedinice (npr. javno mišljenje)


• Uzorak izabran na temelju prosudbe istraživača - istraživač izabire reprezentativne jedinice pri
čemu je potrebno da dobro poznaje osnovni skup

• Kvotni uzorak - anketari se slobodno odlučuju za jedinice u sklopu kvota

2
ISPRINTANO U ŽUTOJ

Namjerni uzorci često se koriste i jednostavni su za primjenu. Analiziraju se metodama deskriptivne


statistike. Nedostatak im je to što je nemoguće izračunati grešku nastalu zbog primjene uzorka.

1.1.2. Slučajni uzorci


Slučajan izbor uzorka je objektivan i osnova je u primjeni metoda inferencijalne statistike. Na
rezultate slučajnog uzorka može se primijeniti teorija vjerojatnosti, a to nam omogućava da se na
objektivan način procijene parametri osnovnog skupa i da se testiraju istraživačke hipoteze o
odabranim parametrima. Iz tog razloga se slučajni uzori nazivaju još i probabilističkim (engl. random
samples), dok se namjerni uzorci nazivaju ne-probabilističkim (engl. non-random samples). Kod
slučajnih uzoraka svaki element ima vjerojatnost izbora veću od nule.

• Jednostavni slučajni uzorak - primjenjuje se kod homogenih skupova i svaki element ima
jednaku vjerojatnost izbora

• Stratificirani uzorak - prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti, a
jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju stratumi

• Uzorak skupina - u uzorak se ne izabiru pojedini elementi, već njihove skupine

Slučajni uzorci analiziraju se metodama inferencijalne statistike. Kod njih je moguće izračunati
grešku. Sa stajališta statističke metode glavni su koraci istraživanja pomoću uzoraka prikazani ovdje:

ISTRAŽIVANJE POMOĆU
UZORAKA

Definirati osnovni skup pojmovno,


prostorno i vremenski; odrediti jedinice
skupa, njegov opseg te veličinu uzorka.

Izabrati model uzorka, procjenitelje


parametara, izraze za standardne pogreške
procjena, testovne i druge veličine.

Utvrditi okvir izbora, jedinicu izbora


uzorka, način izbora jedinica i elemenata
za uzorak.

Prikupljanje podataka o obilježjima


jedinica u uzorku i njihova kontrola;
analiza pogrešaka.

Primjena postupaka inferencijalne


statistike: procjene parametara, testiranje
hipoteza...

Sastavljanje izvješća o dobivenim


rezultatima primijenjenih postupaka i
njihovo potanko tumačenje.

3
ISPRINTANO U ŽUTOJ

Plan uzoraka je plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka,
tj. uzorak mora biti umanjena slika osnovnog skupa. Okvir izbora je popis članova statističkog skupa.

8.3 Procjenitelj parametra, vrijednost procjene i sampling-distribucija procjenitelja

Prije nego što krenemo evo par pojmova koji su nam potrebni za bolje razumijevanje:
Parametar je brojčana karakteristika osnovnog skupa N (populacije), odnosno, konstanta
određena pomoću svih članova N
Procjenitelj je slučajna varijabla (definirana formulom) kojom se procjenjuje parametar
populacije
Procjena je izračunata vrijednost procjenitelja dobivena na uzorku podataka

Postupak procjenjivanja nepoznatog parametra populacije provodi se pomoću procjenitelja, tj.


slučajne varijable. Konkretne vrijednosti procjenitelja određenog parametra razlikovat će se od
uzorka do uzorka, a neke vrijednosti procjenitelja će se pojavljivati češće od ostalih. Prosječno
odstupanje konkretnih vrijednosti procjenitelja od stvarne vrijednosti parametra populacije kreće se
u granicama slučajnih varijacija. Te varijacije se nazivaju sampling-varijacije, a distribucija
vjerojatnosti procjenitelja sampling-distribucija. Ovo ću vam objasniti na instrukcijama na jednom
primjeru! Ta famozna sampling-distribucija se zasniva na konceptu ponovljenih izbora slučajnih
uzoraka iz danog osnovnog skupa, pri čemu različiti uzorci dovode do različitih vrijednosti procjena.
Za jedan osnovni skup moguće je kreirati onoliko sampling distribucija koliko je mogućih parametara
osnovnog skupa. Procjenitelj je varijabla koja se naziva sampling - varijablom zato što se, kao što
smo već rekli, mijenja od uzorka do uzorka. To je slučajna varijabla jer se uzorci izabiru tako da svaka
jedinica, odnosno svaki uzorak ima određenu vjerojatnost izbora.
Za sampling-distribuciju važno je kakva je oblika i koja su joj statistička svojstva, kao očekivana
vrijednost, standardna devijacija i dr. Postoji velik broj tih distribucija, a njihov naziv ovisi o
parametru koji se procjenjuje.

Tako se govori o:
• sampling-distribuciji aritmetičkih sredina

• sampling-distribuciji varijanci

• sampling-distribuciji proporcija
• sampling-distribuciji medijana

4
ISPRINTANO U ŽUTOJ

8.4 Procjene parametara

Procjenjivanje nepoznatih parametara temelji se na podatcima koji tvore slučajni uzorak i na uporabi
odgovarajućeg procjenitelja.

Na instrukcijama ću puno puta reći da se parametar procjenjuje brojem i intervalom,


također ćemo napraviti podjelu kako bi ti lakše to sve ušlo u glavu i kako bi se snašao na
ispitu! Za podsjetnik si otvori bilježnicu s instrukcija.

Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.

Pri prosudbi kakvoće procjenitelja pogodno je da procjenitelji imaju poželjna svojstva kao što su

• nepristranost
• najmanja varijanca

• konzistentnost i dr.

Procjenitelj je nepristran ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje.,
a konzistentan je ako njegova standardna devijacije s porastom teži nuli.
Parametri se, osim intervalom i brojem, procjenjuju još nekim metodama od kojih se najčešće se
koriste:

• metoda momenata – sastoji se u tome da se parametri izraze kao funkcije momenata oko
nule, a zatim se momenti osnovnog skupa zamijene momentima uzorka
• metoda najmanjih kvadrata – temelji se na traženju onih procjena parametra za koje je zbroj
kvadrata odstupanja vrijednosti dane varijable od procjene minimalan
• metoda najveće vjerodostojnosti – temelji se na pretpostavci da je poznat oblik funkcije
vjerojatnosti osnovnog skupa

8.4.1 Procjena aritmetičke sredine


Aritmetičku sredinu možemo procijeniti brojem ili intervalom. Kad procjenjujemo intervalom
moramo paziti je li uzorak veći ili manji od 30 jer o tome nam ovisi izbor intervala. Ako pogledaš u
svoje formule, vidjet ćeš da postoje formule za:
• procjenu brojem – jednaka je aritmetičkoj sredini uzorka

• procjenu intervalom za veliki uzorak (n>30) – koristi se normalna distribucija

𝑃(𝑥̅ −𝑧𝛼/2 𝜎𝑥̅ < 𝜇 < 𝑥̅ +𝑧𝛼/2 𝜎𝑥̅) =(1−𝛼)

5
ISPRINTANO U ŽUTOJ

• procjenu intervalom za mali uzorak (n≤ 30) – koristi se Studentova t distribucija

𝑃(𝑥̅ −𝑡𝛼/2 𝜎𝑥̅ < 𝜇 < 𝑥̅ +𝑡𝛼/2 𝜎𝑥̅) =(1−𝛼)

𝑥̅̅ - aritmetička sredina uzorka


zα ili t α/2 - koeficijent pouzdanosti
2

𝜎𝑥̅̅ - standardna pogreška procjene aritmetičke sredine


𝜇 - aritmetička sredina osnovnog skupa, ujedno i parametar koji se procjenjuje
(1 − 𝛼) - razina pouzdanosti

8.4.2 Procjena totala osnovnog skupa


Total je zbroj vrijednosti numeričkog obilježja. Povezan je s aritmetičkom sredinom. Upravo zbog
toga postupak procjenjivanja totala svodi se na postupak procjenjivanja aritmetičke sredine.

• procjena brojem:

𝑇̂ = 𝑁 ∙ 𝑥̅
𝜎𝑇̂ = 𝑁 ∙ 𝜎𝑥̅

• intervalna procjena za veliki uzorak:

𝑃(𝑇-𝑧𝛼/2 𝜎𝑇̂ < 𝑇 < 𝑇 +𝑧𝛼/2 𝜎𝑇̂) = (1−𝛼)

• Intervalna procjena za mali uzorak

𝑃(𝑇 -𝑡𝛼/2 𝜎𝑇̂ < 𝑇 < 𝑇 +𝑡𝛼/2 𝜎𝑇̂) = (1−𝛼)

8.4.3 Procjena proporcije osnovnog skupa


Proporcija osnovnog skupa je parametar koji predstavlja omjer broja članova osnovnog skupa s
određenim oblikom obilježja (M) i opsega statističkog skupa (N), odnosno:

𝑀
𝑝=
𝑁

Proporciju također možemo procijeniti brojem i intervalom. Rekli smo da je proporcija parametar koji
predstavlja omjer broja članova osnovnog skupa i opsega skupa, ali mi procjenjujemo proporciju za

6
ISPRINTANO U ŽUTOJ

uzorak, pa će nam zbog toga trebati malo drugačije oznake. Zato ćemo umjesto M i N koristiti m za
broj članova uzorka s određenim oblikom obilježja – broj članova u uzorku s određenom
karakteristikom (sjeti se neispravnih grijalica Hot u zadatku s instrukcija), a n za veličinu uzorka. Stoga
će procjena proporcije brojem izgledati ovako:

• procjena brojem

𝑚
𝑝̂ =
𝑛

• procjena intervalom za veliki uzorak:

𝑃(𝑝̂ -𝑧𝛼/2 𝜎𝑝̂ < 𝑝 < 𝑝 ̂ +𝑧𝛼/2 𝜎𝑝̂) = (1−𝛼)

Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika binomne
distribucije, a ako potječe iz konačnog skupa, sampling-distribucija proporcija ima oblik
hipergeometrijske distribucije (hipergeometrijska distribucija se s povećanjem veličine uzorka
približava binomnoj).

8.5 Određivanje veličine uzorka za procjenu aritmetičke sredine osnovnog skupa

Veličina uzorka za procjenu aritmetičke sredine populacije ovisi o sljedećim elementima:

• vrsti populacije - konačna ili beskonačna


• razini pouzdanosti procjene
• željenoj preciznosti procjene, odnosno maksimalnoj pogrešci koja se dozvoljava kod procjene

• stupnju varijabilnosti obilježja čija se aritmetička sredina procjenjuje

Formula za određivanje veličine uzorka, kada se intervalom procjenjuje sredina normalno


distribuirane populacije s poznatom varijancom, je:

𝑧𝛼/2 𝜎 2 𝑧𝛼/2 𝑉 2
𝑛=( ) =( )
𝑑 𝑑𝑟

Frakcija 𝑓0 nam pokazuje koliki je postotak populacije uzet u uzorak. Znači, ako je frakcija izbora
𝑛0
manja od 5% uzima se da je 𝑛 = 𝑛𝑜 , a kad je veća ili jednaka 5% onda je 𝑛 = 𝑛 . Izraz 𝒏𝒐 naziva se
1+ 𝑜
𝑁
prethodnom veličinom uzorka.

7
ISPRINTANO U ŽUTOJ

Postoji i određivanje veličine uzorka za procjenu proporcije osnovnog skupa. Pogledaj u formulama!

8.6 Testiranje hipoteza o parametru

Stigli smo i do hipoteza. Prvo ćemo definirati statističku hipotezu kako bismo vidjeli o čemu se tu
uopće radi.

Statistička hipoteza je tvrdnja o veličini parametra ili o obliku


distribucije osnovnog skupa čija se istinitost ispituje pomoću
slučajnog uzorka.

Znači, mi ćemo tu nešto pretpostaviti (hipoteza), zatim ćemo izračunati testnu veličinu, usporediti ju
s teorijskom i na kraju prihvatiti ili odbaciti pretpostavku. Taj postupak donošenja odluke o
prihvaćanju ili neprihvaćanju zove se, 'ko bi rekao, testiranje statističkih hipoteza.

Statističke testove dijelimo na:


• parametarske - polazi se od danog oblika numeričke varijable u osnovnom skupu
• neparametarske

Svaki postupak testiranja polazi od nulte (𝐻0) i alternativne (𝐻1) hipoteze. Sadržaj hipoteza odlučuje
istraživač. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte.
Sud koji izvire iz odluke o prihvaćanju ili neprihvaćanju nulte hipoteze nije kategoričan (bezuvjetan /
određen) jer se odluka donosi na temelju vrijednosti iz slučajnog uzorka, odnosno dijela podataka.

U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka. One se nazivaju:

• pogreška tipa I - nastaje ako se odbaci istinita nulta hipoteza


Ta pogreška se označava kao 𝛼, odnosno razina signifikantnosti/razina značajnosti.

• pogreška tipa II - nastaje ako se prihvati lažna nulta hipoteza Ta pogreška označava se
kao 𝛽.

No, mi ne želimo pogriješiti! Mi želimo odbaciti nultu hipotezu kada je ona lažna. Ta vjerojatnost se
naziva snaga testa, odnosno razina pouzdanosti.

8
ISPRINTANO U ŽUTOJ

8.6.1 Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa


Postupak testiranja hipoteza o pretpostavljenoj vrijednosti sredine populacije 𝜇 temelji se na istim
teorijskim osnovama kao i postupak procjenjivanja parametra 𝜇. Stoga ćemo ovdje koristiti već
stečena znanja! Juhu!
Budući da je vrijednost sredine populacije 𝜇 nepoznata, može se testirati hipoteza da je sredina
populacije jednaka, manja ili veća od pretpostavljene vrijednosti 𝜇0 . Ukoliko nam pretpostavka ili
tvrdnja u zadatku kaže da je sredina populacije jednaka 𝜇0 , radi se o dvosmjernom testu kojim se
testira jednostavna hipoteza. Ako nam piše da je sredina populacije manja ili veća od 𝜇0 , tada se radi
o jednosmjernom testu na donju granicu ili jednosmjernom testu na gornju granicu kojima se
testiraju složene hipoteze. Nakon što smo odredili vrstu testa, potrebno je obratiti pažnju na veličinu
uzorka te prema tome odrediti radi li se o t ili z-testu. Osim putem t ili z-testa, odluka se može
donijeti i pomoću kritičnih granica, te pomoću empirijske razine signifikantnosti tj. P-vrijednost o
kojoj će biti riječi kasnije u skripti.

n > 30 veliki uzorak – TEST VELIKIM UZORKOM (z-test)

𝑥̅ − 𝜇0
𝑧=
𝜎𝑥

n ≤ 30 mali uzorak – TEST MALIM UZORKOM (t-test)

𝑥̅ − 𝜇0
𝑡=
𝜎𝑥

A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.


1. Postaviti hipotezu
2. Identificirati izraz za testnu veličinu i odrediti njenu vrijednost
3. Odabrati razinu signifikantnosti i odrediti kritične granice
4. Donijeti zaključak o ishodu testa
Ove magične korake imaj na umu dok rješavaš zadatke iz ovog gradiva! Dobro će ti doći!

Dvosmjerni test
Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna starost studenata u Hrvatskoj 22 godine?


α = 5% (OSTALO: iznosi 22, jednaka 22, se ne razlikuje i sl.)

9
ISPRINTANO U ŽUTOJ

Jednosmjerni test na gornju granicu


Promatramo odstupanje na više. Pretpostavlja se da je aritmetička sredina osnovnog skupa veća od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝜇 ≤ 𝜇0
𝐻1 : 𝜇 > 𝜇0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna starost studenata u Hrvatskoj veća od /


barem / minimalno /prelazi i sl. 22 godine? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je aritmetička sredina osnovnog skupa manja od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝜇 ≥ 𝜇0
𝐻1 : 𝜇 < 𝜇0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna starost osoba u dalmatinskoj zagori


manja od / ne prelazi / /najviše / maksimalno i sl. 42 godine? α = 5%

8.6.2. Donošenje odluke pomoću p-vrijednosti (p-value /empirijska razina signifikantnosti)


Već smo spomenuli donošenje odluke putem t ili z-testa i pomoću kritičnih granica, a sada je vrijeme
da se upoznamo i s empirijskom razinom signifikantnosti.
P-vrijednost je zapravo vjerojatnost odbacivanja istinite nulte hipoteze izračunata pomoću podataka
iz uzorka, odnosno test veličine. Što je ona manja, manja je i empirijski utvrđena vjerojatnost
odbacivanja istinite nulte hipoteze i obrnuto. Pri zaključivanju pomoću p-vrijednosti nužno je imati na
umu da ta vrijednost izvire iz rezultata uzorka, tj. da njezina kakvoća ovisi o kakvoći uzorka. Upravo
zbog toga, u obzir je potrebno uzeti i druge analitičke rezultate.

10
ISPRINTANO U ŽUTOJ

8.6.3. Testiranje hipoteze o proporciji populacije pomoću velikog uzorka


Budući da je vrijednost proporcije populacije 𝑝 nepoznata, može se testirati hipoteza da je proporcija
populacije jednaka, manja ili veća od pretpostavljene vrijednosti 𝑝0. Ukoliko nam pretpostavka ili
tvrdnja u zadatku kaže da je proporcija populacije jednaka 𝑝0, radi se o dvosmjernom testu kojim se
testira jednostavna hipoteza. Ako nam piše da je proporcija populacije manja ili veća od 𝑝, tada se
radi o jednosmjernom testu na donju granicu ili jednosmjernom testu na gornju granicu kojima se
testiraju složene hipoteze. Nakon što smo odredili vrstu testa, uspoređujemo kritičnu vrijednost s
testnom veličinom i donosimo odluku. Kao što smo rekli na instrukcijama, kod proporcije se
pojavljuje samo veliki uzorak.

n > 30 veliki uzorak – TEST VELIKIM UZORKOM (z-test)

𝑥̅ − 𝜇0
𝑧=
𝜎𝑥
Dvosmjerni test
Pretpostavka je da je proporcija populacije jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝑝 = 𝑝
𝐻1 : 𝑝 ≠ 𝑝

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija neispravnih grijalica Hot 5%? α = 5%


(OSTALO: iznosi 5%, jednaka 5%, se ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je proporcija osnovnog skupa veća od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝑝 ≤ 𝑝0
𝐻1 : 𝑝 > 𝑝0

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija neispravnih grijalica Hot veća od /


barem / minimalno / prelazi i sl. 5%? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je proporcija osnovnog skupa manja od
pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝑝 ≥ 𝑝
𝐻1 : 𝑝 < 𝑝0

11
ISPRINTANO U ŽUTOJ

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija neispravnih grijalica Hot manja od / ne


prelazi /najviše / maksimalno i sl. 5%? α = 5%

EVO JEDNOG PRIMJERA!


Možemo li prihvatiti pretpostavku da 90% studenata koji dođu na instrukcije u Štreberaj
polože ispit iz statistike?
Odgovor na ovo pitanje već svi znamo, pa možemo odgovoriti i bez testiranja navedene
tvrdnje! Hehe
Ipak, idemo vidjeti kako bi to funkcioniralo.
Radi se o testu hipoteze o pretpostavljenoj vrijednosti proporcije populacije (sjeti se da
postoji i test o pretpostavljenoj vrijednosti sredine populacije).
Pretpostavljena vrijednost proporcije, koju ćemo u zadacima označavati s 𝑝0, iznosi 0.90
(90% smo podijelili sa 100). Radi se o dvosmjernom testu jer pretpostavka kaže da točno
90% studenata položi navedeni ispit, pa hipoteze u našem slučaju glase ovako:

𝐻0 : 𝑝 = 0.90
𝐻1 : 𝑝 ≠ 0,90

Vidimo da nulta hipoteza iznosi našu pretpostavku, a alternativna joj proturječi.


Ono što dalje slijedi je usporedba testne veličine i kritične vrijednosti, te donošenje odluke o
odbacivanju nulte hipoteze.

12
ISPRINTANO U ŽUTOJ

9. USPOREDBA PARAMETARA OSNOVNIH


SKUPOVA
U sklopu inferencijalne statistike ispituju se parametri dvaju ili više osnovnih skupova. Prisjetimo se
što su to parametri. Parametar je brojčana karakteristika osnovnog skupa N. U ovom poglavlju ćemo
procjenjivati njihovu razliku, testirati hipoteze o njihovim pretpostavljenim veličinama i sl. Postupci se
temelje na slučajnim uzorcima izabranima iz dvaju ili više osnovnih skupova.
Uzorci mogu biti zavisni i nezavisni.
Nezavisni su ako rezultati opažanja i mjerenja u jednom uzorku ne ovise o rezultatima opažanja i
mjerenja u drugom.
Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opažanjem, odnosno mjerenjem
odabrane varijable na istim jedinicama statističkog skupa izabranima u uzorak u različitim
vremenskim trenucima.

9.1 Procjena razlike aritmetičke sredine dvaju osnovnih skupova nezavisnim uzorcima

Nezavisni uzorci su oni kod kojih podatci iz uzorka prve populacije ne utječu na vjerojatnost
pojavljivanja podataka iz druge populacije. Izabiru se primjerice za procjenu razlike u prosječnoj
trajnosti novog proizvoda i prosječnoj trajnosti odstajalog proizvoda.
Procjena razlike aritmetičkih sredina također procjenjuje brojem i intervalom. Razlika je u tome što
ovdje imamo dva osnovna skupa. Tako će procjena razlike aritmetičkih sredina brojem tih dvaju
skupova biti razlika aritmetičke sredine prvog i drugog skupa.

Procjenu aritmetičke sredine dvaju osnovnih skupova brojem označava se s 𝑑̂ i glasi:

𝑑̂ = 𝑥̅1 − 𝑥̅2

• Procjena intervalom za velike uzorke:

𝑃 (𝑑̂ − 𝑧𝛼 ∗ 𝜎𝐷̂ < 𝐷 < 𝑑̂ + 𝑧𝛼 ∗ 𝜎𝐷̂ ) = (1 − 𝛼)


2 2

• Procjena intervalom za male uzorke:

𝑃 (𝑑̂ − 𝑡𝛼 ∗ 𝜎𝐷̂ < 𝐷 < 𝑑̂ + 𝑡𝛼 ∗ 𝜎𝐷̂ ) = (1 − 𝛼)


2 2

13
ISPRINTANO U ŽUTOJ

9.2 Testiranje hipoteza o razlici aritmetičkih sredina dvaju osnovnih skupova nezavisnim
uzorcima

Testovi razlike između aritmetičkih sredina dviju normalno distribuiranih populacija ponekad se
provode pomoću nezavisnih, a ponekad pomoću zavisnih uzoraka, ovisno o logici konkretne situacije.
Pritom varijance mogu biti poznate ili nepoznate, a nepoznate varijance mogu biti jednake ili
nejednake.

n > 30 veliki uzorak – TEST VELIKIM UZORKOM (z-test)

𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂

n ≤ 30 mali uzorak – TEST MALIM UZORKOM (t-test)

𝑑̂ − 𝐷0
𝑡=
𝜎𝐷̂

A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.


1. Postaviti hipotezu
2. Identificirati izraz za testnu veličinu i odrediti njenu vrijednost
3. Odabrati razinu signifikantnosti i odrediti kritične granice
4. Donijeti zaključak o ishodu testa
Ove magične korake imaj na umu dok rješavaš zadatke iz ovog gradiva! Dobro će ti doći!

Dvosmjerni test
Pretpostavka je da je sredina populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!
𝐻𝑜 : 𝜇1 − 𝜇2 = 𝐷0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da ne postoji razlika u prosječnoj težini čokolade


proizvedenih na dva različita stroja. α = 5% (OSTALO: iznosi 5%, jednaka 5%, se ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je sredina prvog osnovnog skupa veća od
sredine drugog. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝜇1 − 𝜇2 ≤ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 > 𝐷0

14
ISPRINTANO U ŽUTOJ

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna težina čokolada proizvedenih na prvom


stroju veća od prosječne težine čokolada proizvedenih na drugom stroju? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je sredina prvog osnovnog skupa manja od
sredine drugog. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝜇1 − 𝜇2 ≥ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 < 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da je prosječna težina čokolada proizvedenih na prvom


stroju manja od prosječne težine čokolada proizvedenih na drugom stroju? α = 5%

9.3 Procjena razlike proporcija dviju populacija na osnovi velikih nezavisnih uzoraka

Procjena razlike proporcija dvaju osnovnih skupova provodi se na način sličan procjeni aritmetičkih
sredina. To se odnosi i na postupak testiranja hipoteze o razlici proporcija. Temelj su postupka
procjene vrijednosti iz uzorka te sampling-distribucija razlika.
Opet imamo procjenu brojem i intervalom. Juhu!

Procjena razlike proporcija dvaju osnovnih skupova brojem označava se s 𝑑̂ i glasi:

𝑑̂ = 𝑝̂ 1 − 𝑝̂ 2

• procjena intervalom za velike uzorke

𝑃 (𝑑̂ − 𝑧𝛼 ∗ 𝜎𝐷̂ < 𝐷 < 𝑑̂ + 𝑧𝛼 ∗ 𝜎𝐷̂ ) = (1 − 𝛼)


2 2

9.4 Test hipoteza o razlici proporcija dviju populacija na osnovi velikih nezavisnih uzoraka
Test hipoteze o razlici proporcija temelji se na obliku sampling-distribucije (tj. distribucije
̂ razlike proporcije dviju populacija na bazi velikih nezavisnih uzoraka veličine 𝑛1 𝑖 𝑛2 ,
procjenitelja) 𝐷
a moguće ga je provesti kao dvosmjerni test ili kao jednosmjerni test na donju ili gornju granicu.

Testna veličina je standardizirana vrijednost razlike proporcije uzoraka tj.

𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂

15
ISPRINTANO U ŽUTOJ

A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.


5. Postaviti hipotezu
6. Identificirati izraz za testnu veličinu i odrediti njenu vrijednost
7. Odabrati razinu signifikantnosti i odrediti kritične granice
8. Donijeti zaključak o ishodu testa
Ove magične korake imaj na umu dok rješavaš zadatke iz ovog gradiva! Dobro će ti doći!

Dvosmjerni test
Pretpostavka je da je proporcija populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!

𝐻𝑜 : 𝑝1 − 𝑝2 = 𝐷0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da ne postoji razlika u proporciji građana koji su godišnji
odmor proveli izvan mjesta stanovanja u ova dva grada? α = 5% (OSTALO: iznosi 5%, jednaka 5%, se
ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je proporcija prvog osnovnog skupa veća od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!

𝐻𝑜 : 𝑝1 − 𝑝2 ≤ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 > 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu veća od proporcije u drugom gradu? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je proporcija prvog osnovnog skupa manja od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!!

𝐻𝑜 : 𝑝1 − 𝑝2 ≥ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 < 𝐷0

PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu manja od proporcije u drugom gradu?α = 5%

16
ISPRINTANO U ŽUTOJ

10. HI-KVADRAT TEST


Jedan od prvih statističkih testova bio je hi-kvadrat test. Predložio ga je K. Pearson 1900. Godine. To
je jedan od najčešće korištenih neparametarskih testova u empirijskim istraživanjima.
Neparametarski testovi koriste se kada oblik distribucije populacije, iz koje se izabire slučajni uzorak,
nije poznat.

E sad, kako ćeš prepoznat da u zadatku trebaš koristiti hi-kvadrat test? On je uvijek test
proporcija triju ili više populacija. Znači, do sad smo imali jednu ili dvije populacije, a sad
imamo tri ili više! Kada prepoznaš tri ili više populacija u zadatku moraš odrediti o kojem se
hi-kvadrat testu radi. Ovakav tip zadataka se može pojaviti u 3. zadatku na ispitu.

Postoje tri testa s kojima ćemo se susresti:


• test o obliku distribucije populacije

• test o nezavisnosti dviju varijabli (TABLICA KONTINGENCE)


• test o jednakosti proporcija triju ili više nezavisnih populacija

Hi-kvadrat test je vrlo praktičan test koji može osobito poslužiti onda kad želimo utvrditi odstupaju li
neke dobivene (opažene) frekvencije od frekvencija koje bismo očekivali pod određenom hipotezom.
Idemo vidjeti kako to funkcionira!

10.1 Test o obliku distribucije


Hi-kvadrat testom o obliku distribucije testira se je li empirijska distribucija značajno različita od
teorijske (pretpostavljene) distribucije. Test se još naziva i „testom kvalitete prilagodbe“ s
pretpostavljenom distribucijom, iako je češće korišten engleski termin „goodness of fit test“.
Eto, sad znaš sve nazive. ☺
Hipoteze testa mogu se zapisati na sljedeći način:

H0: Distribucija populacije je pretpostavljenog oblika.


H1: Distribucija populacije nije pretpostavljenog oblika.

Ako je prva hipoteza istinita, empirijske se frekvencije neće značajno razlikovati od očekivanih
frekvencija. Razlika između njih gotovo uvijek postoji, a pomoću hi-kvadrat testa zaključuje se jesu li
te razlike rezultat slučajnosti ili ne. Ukoliko je razlika slučajna, ona nije statistički značajna te se može
zaključiti da je distribucija populacije pretpostavljenog oblika i obrnuto.
Kako dalje?

17
ISPRINTANO U ŽUTOJ

Nakon što smo postavili hipoteze, moramo odrediti testnu veličine koju ćemo usporediti s teorijskom
veličinom i odrediti koju hipotezu prihvaćamo. To znači da ćemo uspoređivati hi-kvadrat empirijski i
hi-kvadrat teorijski. Empirijski hi-kvadrat moramo izračunati, pa ćeš u svojim formulama naći formulu
koja izgleda ovako:

2
(𝑓𝑖 − 𝑒𝑖 )2
𝜒 =
𝑒𝑖

E sad, ja volim reći da ti je ova formula „zvijezda vodilja“ kod zadataka sa hi-kvadratom (nemoj to
slučajno reći na usmenom :P). Šta mislim pod tim „zvijezda vodilja“? Cilj ti je izračunati taj empirijski
hi-kvadrat, pa tako sve što vidiš u njegovoj formuli stavi u stupce u tablicu (kako smo radili na
instrukcijama).

Postupak:

• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑓𝑖 )

• očekivane frekvencije (𝑒𝑖 ) se izračunavaju ovisno o pretpostavci


• izračunava se test pokazatelj (empirijski hi-kvadrat)

• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df) k-1, pri čemu je k broj
populacija, uz zadanu razinu značajnosti α

Očekivane frekvencije se računaju tako da se veličina uzorka n množi s vjerojatnosti.

𝑒𝑖 =𝑛∗𝑝(𝑜𝑖)

Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.

10.2 Test o nezavisnosti dviju varijabli


Hi-kvadrat testom o nezavisnosti dviju varijabli želi se testirati razlikuju li se značajno empirijske
frekvencije od frekvencija koje se očekuju kada bi varijable bile nezavisne. Provođenje hi-kvadrat
testa o nezavisnosti dviju varijabli zahtijeva da se formira dvodimenzijalna distribucija frekvencija (u
prijevodu - tablica kontingence). Na primjer, mi ćemo ovdje promatrati ovisi li kupnja određenog

18
ISPRINTANO U ŽUTOJ

modela automobila o spolu ili ne ovisi. Nakon provođenja ovog testa dobit ćemo odgovor na to
pitanje.
Hipoteze testa mogu se zapisati na sljedeći način:

H0: X i Y su nezavisne varijable


H1: X i Y nisu nezavisne varijable

Kako dalje?
Nakon postavljanje hipoteza trebamo odrediti testnu veličinu te ju izračunati. Rekli smo da je testna
veličina empirijski hi-kvadrat koja izgleda ovako:

2
2
(𝑓𝑖𝑗 − 𝑒𝑖𝑗 )
𝜒 =
𝑒𝑖𝑗

Kod ovog testa će ti apsolutne frekvencije biti zadane u tablici kontingence koja ima najmanje dva
retka i dva stupca. Zato se ovdje frekvencije označavaju kao 𝑓𝑖𝑗 (i predstavlja redak, a j stupac). Kako
bi izračunali našu testnu veličinu potrebne su nam i očekivane frekvencije 𝑒𝑖𝑗.
Njih ćemo izračunati prema formuli:

𝑅𝑖 ∗ 𝐶𝑗
𝑒𝑖𝑗 =
𝑛

Ovdje, dakle, uzimaš sumu retka (𝑅𝑖), množiš ju sa sumom stupca (𝐶𝑗) u tablici kontingence i taj
umnožak dijeliš sa n. Npr. Za očekivanu frekvenciju 𝑒11 uzimaš sumu prvog retka, množiš ju sa sumom
prvog stupca i dijeliš s ukupnim brojem n.

Postupak:

• izabire se uzorak

• bilježe se vrijednosti apsolutnih frekvencija (𝑓𝑖𝑗)

• očekivane frekvencije (𝑒𝑖𝑗) se izračunavaju ovisno o pretpostavci


• izračunava se test pokazatelj (empirijski hi-kvadrat)

• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df) = (r-1)(c-1)


pri čemu je r broj redaka, a k broj stupaca

19
ISPRINTANO U ŽUTOJ

Odluka:
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.

10.3. Test o jednakosti proporcija triju ili više populacija

Test o jednakosti proporcija triju ili više populacija je specijalni slučaj hi-kvadrat testa o nezavisnosti
varijabli, ako je jedna od varijabli dihotomna. Iako se kod oba testa jednako definira testna veličina,
postavljene hipoteze i zaključak testa su različiti. Naime, kod testa nezavisnosti iz populacije izabire
se jedan slučajni uzorak, dok se kod testa o jednakosti proporcija triju ili više populacija izabire po
jedan slučajni uzorak iz svake populacije.
Hipoteze testa mogu se zapisati na sljedeći način:

𝐻0 : 𝑝1 = 𝑝2 = 𝑝3 = 𝑝𝑘
𝐻1 : ∃𝑝𝑖 = 𝑝𝑗 , 𝑧𝑎 𝑖, 𝑗 = 1,2,3, … , 𝑘

Kako dalje?
Nakon što smo postavili hipoteze, trebamo odrediti testnu veličinu-empirijski hi-kvadrat. On se
računa prema ovoj formuli:

(𝑚𝑗 − 𝑒𝑗 )2 (𝑛𝑗 − 𝑚𝑗 − 𝑒𝑗𝑐 )2


𝜒2 = ∑ +∑
𝑒𝑗 𝑒𝑗𝑐

Očekivane frekvencije računaju se pomoću ove formule:

𝑒𝑗 = 𝑛 𝑗 ∗ 𝑝

Veličina svakog uzorka 𝑛𝑗 množi se sa zajedničkom proporcijom 𝑝. Tu zajedničku proporciju izračunat


ćeš kao omjer sume svih modaliteta i sume uzoraka.
Postupak:

• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑚𝑖)
• očekivane frekvencije (𝑒𝑖) se izračunavaju ovisno o pretpostavci
• izračunava se test pokazatelj (empirijski hi-kvadrat)
• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df)

20
ISPRINTANO U ŽUTOJ

Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),

nulta hipoteza će se odbaciti na razini značajnosti 𝛼.

11. MODEL JEDNOSTAVNE LINEARNE


REGRESIJE I KORELACIJE
Najzastupljenije metode u analizi statističke povezanosti varijabli su korelacijska i regresijska analiza.
Obje metode analiziraju linearnu povezanost varijabli, iako su suštinski različite. U korelacijskoj se
analizi utvrđuje smjer i jakost povezanosti dviju slučajnih varijabli. U regresijskoj analizi se
pretpostavlja odnos između varijabli, tj. varijable se dijele na zavisnu (varijabla y) i nezavisnu varijablu
(varijabla x). Cilj istraživanja odnosa među pojavama je utvrditi statističku ovisnost i pokazatelje
jakosti takve ovisnosti. Za to se koriste metode regresijske i korelacijske analize.

Postoje dvije vrste veza među varijablama:

• Funkcionalna veza
o odnos koji se izražava analitički – jednadžbom
o svakoj vrijednosti jedne pojave odgovara točno određena vrijednost druge pojave
• Statistička/stohastička veza
o slabija od funkcionalne
o svakoj vrijednosti jedne pojava odgovara više različitih vrijednosti druge pojave. Npr.
sve osobe iste visine nemaju i istu težinu

Regresijska analiza sastoji se u primjeni metoda kojima se analitički (jednadžbom) objašnjava


statistička veza između promatranih pojava. Istražuje se uzročno-posljedični karakter veze, što znači
da je jedna varijabla uzrok i nju ćemo zvati nezavisna varijabla, a druga je posljedica, nju ćemo zvati
zavisna varijabla.
Temelji se na regresijskom modelu = jednadžbi s parametrima i varijablama kojima se objašnjava
povezanost promatranih pojava. Ako imamo samo jednu nezavisnu varijablu, jednostavni regresijski
model koji sadrži jednu zavisnu i jednu nezavisnu varijablu naziva se modelom jednostavne regresije,
a model sa dvije ili više nezavisnih varijabli, model višestruke regresije. Mi ćemo se prvo baviti
jednostavnom linearnom regresijom. Pa krenimo!

21
ISPRINTANO U ŽUTOJ

Jednostavna linearna regresija predstavlja odnos između dvije pojave i to takav da promjenu jedne
pojave prati približno linearna promjena druge pojave.

11.1. Dijagram rasipanja

Priča počinje dijagramom rasipanja. Dijagram rasipanja nam pokazuje kakva je veza između te dvije
pojave.

Dijagram rasipanja je grafički prikaz točaka u pravokutnom


koordinatnom sustavu na temelju kojeg se analizira povezanost
dviju varijabli.

Točke se crtaju u pravokutnom koordinatnom sustavu s aritmetičkim mjerilom za vrijednosti 𝑥̅𝑖 na osi
apscisa i aritmetičkim mjerilom za vrijednosti 𝑦𝑖 na osi ordinata. Analizom oblika „raspršenosti“
točaka utvrđuje se oblik, smjer i intenzitet povezanosti dviju pojava.

10000 1500
8000
1000
6000
4000 500
2000
0 0
0 5000 10000 15000 0 20 40

15000

10000

5000

0
0 50 100 150

Prvi grafikon rasipanja (gore lijevo) pokazuje pozitivno linearnu vezu. Uzmimo na primjer dohodak i
potrošnju. Te dvije varijable ovise jedna o drugoj. Povezanost je linearno pozitivna (kao što pokazuje
graf) jer porastom dohotka za određen iznos raste potrošnja u približno jednakom iznosu.

22
ISPRINTANO U ŽUTOJ

Drugi grafikon rasipanja (gore desno) pokazuje nam negativnu linearnu vezu. Uzmimo na primjer
porast cijena neke robe u supermarketu i količinu te robe. Pretpostavka je da bi sa povećanjem cijene
robe u supermarketu došlo do smanjenja prodane količine iste te robe.
Prema tome možemo zaključiti da su cijena robe i količina prodane robe u negativnoj linearnoj vezi.
Treći grafikon rasipanja (dole lijevo) pokazuje nam da veza među varijablama ne postoji. Za primjer
možemo uzeti broj djece upisane u javne vrtiće i broj sati koje ti provedeš učeći statistiku. Jedno ne
utječe na drugo te veza između te dvije varijable ne postoji.
Zašto uopće koristimo dijagram rasipanja? Zato što nam on pokazuje u kakvom su odnosu dvije
varijable.
Svaka točka dijagrama rasipanja zadovoljava jednadžbu 𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝑒𝑖 . Odnosno svaka točka Yi
odstupa od linije pravca za ±𝑒i.

9000
8000
7000

6000
5000
4000

3000
2000
1000
0
0 2000 4000 6000 8000 10000 12000

11.2. Model jednostavne linearne regresije

Osnova regresijske analize je, 'ko bi rekao, regresijski model. To je jedan hipotetički model, zapravo
formula, kojom se izražava statistička povezanost između pojava. Na temelju uzorka vrijednosti
odabranih varijabli procjenjuju se parametri pretpostavljenog modela i testiraju pretpostavke kako bi
se odredila adekvatnost procijenjenog modela.

11.2.1. Procjena parametara u modelu jednostavne linearne regresije


Uz pretpostavku da se povezanost varijabli opisuje linearnom funkcijom, tj. da je model populacije
𝑦 = 𝛽0 + 𝛽1 𝑥̅ + 𝜀
Zadatak regresijske analize je da se pronađu procjene nepoznatih parametara (parametara
populacije), 𝛽0 i 𝛽1 , te procjena nepoznate varijance 𝜎 2 slučajnih varijabli 𝜀𝑖 (varijance populacije). U
tu svrhu potrebno je odabrati n opažanja varijabli, tj. slučajni uzorak.
Procijenjen model na temelju uzorka je:

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥̅𝑖

23
ISPRINTANO U ŽUTOJ

Regresijska vrijednost zavisne varijable 𝑦̂𝑖 je zbroj konstantnog člana 𝛽̂0 i regresijskog koeficijenta 𝛽̂1
(koji se još zove i koeficijent smjera) pomnoženog s nezavisnom varijablom x.

Kako ćeš pomoći Štrebsyju d.d.?


Moramo imati procijenjeni model koji ćemo dobiti uz pomoć dostupnih podataka. Odnosno,
moramo pronaći procjenitelje nepoznatih koeficijenata 𝛽0 i 𝛽1 iz jednadžbe jednostavne
linearne regresije. Procjene koeficijenata dobivamo iz jednadžbi izvedenih uz pomoć metode
koja se naziva metoda najmanjih kvadrata.

Procjenitelj koeficijenta nagiba/koeficijenta smjera/regresijskog koeficijenta, odnosno 𝛽1:

∑ 𝑥̅𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅ ∑(𝑥̅𝑖 − 𝑥̅)(𝑦𝑖 − 𝑦̅)


𝛽̂1 = =
∑ 𝑥̅𝑖2 − 𝑛𝑥̅ 2 ∑(𝑥̅𝑖 − 𝑥̅ )2

Procjenitelj konstante/presjeka osi Y, odnosno 𝛽0:

𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅

Napominjem da regresijska linija uvijek prolazi točkom čije su koordinate 𝑦 i 𝑥̅.


Približni regresijski model koji smo razvili može se shvatiti kao pokušaj objašnjavanja promjena
zavisne varijable Y nastalih slijedom promjena zavisne varijable X. Sada smo spremni razviti mjere
koje pokazuju koliko učinkovito varijabla X tumači ponašanje varijable Y.

11.1 Analiza varijance u modelu jednostavne linearne regresije


Kako bismo odredili koliko je varijabla X uspješna u tumačenju varijacija varijable Y, potrebno je
rastaviti procjenu varijance zavisne varijable na dvije komponente. To su dio varijance protumačen
modelom (SP) i rezidualni dio, tj. dio varijance neprotumačen modelom (SR). Njihov zbroj daje nam
ukupan zbroj kvadrata (ST) odnosno zbroj kvadrata odstupanja empirijskih vrijednosti zavisne
varijable od prosjeka. On označava ukupnu varijabilnost empirijskih vrijednosti 𝑦𝑖 u odnosu na 𝑦.

𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̅)2 = ∑ 𝑦𝑖2 − 𝑛𝑦̅ 2

𝑆𝑃 = ∑(𝑦̂𝑖 − 𝑦̅)2 = 𝛽̂0 ∑ 𝑦𝑖 + 𝛽̂1 ∑ 𝑥̅𝑖 𝑦𝑖 − 𝑛𝑦̅ 2

𝑆𝑅 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑦𝑖2 − 𝛽̂0 ∑ 𝑦𝑖 − 𝛽̂1 ∑ 𝑥̅𝑖 𝑦𝑖

24
ISPRINTANO U ŽUTOJ

Rekli smo gore da je ukupna suma iliti zbroj kvadrata jednaka zbroju kvadrata protumačenog
modelom uvećanog za rezidualni ili neprotumačeni zbroj kvadrata.
𝑆𝑇 = 𝑆𝑃 + 𝑆𝑅

Zbroj kvadrata protumačen modelom je zapravo zbroj kvadrata odstupanja regresijskih vrijednosti od
prosjeka. On označava varijabilnost empirijskih vrijednosti zavisne varijable koja je protumačena
modelom.
Neprotumačen zbroj kvadrata nama stvara problem. Zašto? On je posljedica slučajnih i neočekivanih
odstupanja empirijskih vrijednosti od regresijskih. Ako se zbrojevi kvadrata podijele s odgovarajućim
stupnjevima slobode, dolazi se do sredina kvadrata koje su nezavisne procjene komponenti varijance.
Sve ovo što smo naveli prikazivat ćemo u tablici standardnog oblika, tj. u tablici analize varijance
(ANOVA)

IZVOR VARIJACIJE STUPNJEVI ZBROJ KVADRATA SREDINA EMPIRIJSKI F-


SLOBODE KVADRATA omjer

Protumačen
1 SP SP SP
modelom 1
1
SR
n−2

Neprotumačen n-2
modelom SR
SR
n−2 -

UKUPNO n-1 ST - -

Neprotumačen zbroj kvadrata podijeljen sa stupnjevima slobode df = n-2 stupnjeva slobode je


procjena varijanca regresije.

𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 = =
𝑛−2 𝑛−2

Pozitivni drugi korijen iz procjene varijance regresije je procjena standardne devijacije regresije.

𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ = √ =√
𝑛−2 𝑛−2

25
ISPRINTANO U ŽUTOJ

Procjena standardne devijacije regresije pokazuje prosječno odstupanje empirijskih vrijednosti


zavisne varijable od regresijskih vrijednosti (INTERPRETACIJA). Znamo od prije da je to apsolutna
mjera jer je izražena u mjernim jedinicama varijable Y. Pripadajuća relativna mjera je procjena
koeficijenta varijacije regresije.

𝜎̂
𝑉= ∗ 100%
𝑦̅

11.2 Koeficijent determinacije i koeficijent linearne korelacije

Još jedna od mjera reprezentativnosti regresijskog modela je koeficijent determinacije. On se


izračunava formulom:

𝑆𝑃 𝑆𝑅
𝑅2 = =1−
𝑆𝑇 𝑆𝑇

Nama je bolje imati što više protumačenih odstupanja u našem modelu. Analogno tome, model
regresije je reprezentativniji što je koeficijent determinacije veći. On poprima vrijednosti iz intervala
[0,1]. Pored koeficijenta determinacije u analizi promatra se i korigirani koeficijent determinacije 𝑅̅2 .

𝑛−1
𝑅̅2 = 1 − (1 − 𝑅2 )
𝑛−2

Koeficijent linearne korelacije izračunava se kao drugi korijen iz koeficijenta determinacije, a


predznak koeficijenta ovisi o predznaku regresijskog koeficijenta 𝛽1. Znači, ako je 𝛽1 pozitivan,
koeficijent linearne korelacije biti će isto pozitivan i obrnuto.

𝑟 = ±√𝑅2
𝑠𝑖𝑛𝑔 (𝑟) = 𝑠𝑖𝑛𝑔(𝛽̂1 )

Koeficijent linearne korelacije može poprimiti vrijednosti iz intervala [−1,1]. On pokazuje kakva je
veza između zavisne i nezavisne varijable prema smjeru i čvrstoći. Prema smjeru veza može biti
negativna i pozitivna veza te ona ovisi o predznaku regresijskog koeficijenta.

26
ISPRINTANO U ŽUTOJ

Prema smjeru veza između dvije varijable može biti pozitivna i negativna. Ako je r pozitivan
broj, reći ćemo da je veza između zavisne i nezavisne varijable pozitivna. Ako je r negativan,
veza prema smjeru je negativna.
Prema čvrstoći veza može biti jaka i slaba. Što je r bliži jedinici (nebitno kojeg predznaka)
veza je jača. Ako je r=0.9, veza prema čvrstoći je jaka veza. Ako je r=-0.2, veza prema čvrstoći
je slaba.
Znači, koeficijent linearne korelacije interpretiramo uzimajući u obzir i čvrstoću i smjer
povezanosti između dvije varijable. Potrebno je napomenuti kako je ta povezanost linearna.

11.3 Testiranje hipoteza i intervali pouzdanosti

Sad kada smo izveli procjenitelje koeficijenata i varijance, spremni smo izvoditi zaključke o modelu.
Zaključci izvedeni slijedom regresijske analize pomoći će nam razumjeti modelirani proces i ujedno
omogućiti donošenje odluka vezanih za taj proces, a nama je u cilju pomoći Štrebsyju da uspije u
svom naumu! ☺
Testiranje hipoteza o pretpostavljenoj vrijednosti regresijskog parametra ili konstante u modelu
jednostavne linearne regresije najčešće se provodi na temelju t-testa ili F-testa. Odluka se donosi na
uobičajen način, kao što smo objasnili kod metode uzoraka.
Za danu razinu značajnosti/signifikantnosti 𝛼, testna veličina uspoređuje se s teorijskom vrijednosti.

11.3.1. Test značajnosti regresorske varijable


Kako ćemo znati je li nezavisna varijabla X značajna u modelu jednostavne linearne regresije? Recimo
da nam je X dohodak, a Y potrošnja. Od nas se traži da testiramo i da donesemo zaključak o
značajnosti varijable dohodak u tom modelu. Podsjetimo se kako izgleda jednadžba jednostavne
linearne regresije.

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥̅𝑖

Varijabla X (dohodak) je značajna u modelu, odnosno utječe na y (potrošnju) u modelu kada je


𝛽1 ≠ 0
Zašto?

Kako bi ova jednadžba izgledala kada bi 𝛽̂1 bila jednaka 0? Vidimo u formuli da se 𝛽̂1 i x množe. Ako 0
pomnožimo sa x dobijemo 0. To bi značilo da bi jednadžba regresije izgledala ovako:

𝑦̂𝑖 = 𝛽̂0
U tom slučaju varijabla x nije značajna u modelu jednostavne linearne regresije. Primjećuješ da
značajnost varijable x u modelu ovisi o regresijskom koeficijentu, što znači da moramo testirati
regresijski koeficijent!
Kako će onda glasiti hipoteze u ovom testu značajnosti regresorske varijable?

27
ISPRINTANO U ŽUTOJ

DVOSMJERNI TEST

𝐻0… 𝛽1 = 0

𝐻1… 𝛽1 ≠ 0

JEDNOSMJERNI NA GORNJU GRANICU

𝐻0… 𝛽1 = 0

𝐻1… 𝛽1 > 0

JEDNOSMJERNI NA DONJU GRANICU

𝐻0… 𝛽1 = 0

𝐻1… 𝛽1 < 0

Nulta hipoteza je formirana tako da se nastoji odbaciti, a alternativna se hipoteza definira u skladu s
pretpostavkom istraživača.
Testiranje možemo provesti pomoću t-testa i F-testa.
T-test
Testna veličina je empirijski t-omjer koji se računa pomoću formule:

𝛽̂1
𝑡1 =
𝜎𝛽̂1

Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću iz tablice.

F-test
Testna veličina je empirijski F-omjer računa se prema formuli:

𝑆𝑃
𝐹= 1
𝑆𝑅
𝑛−2

Odluka se donosi usporedbom empirijskog F-omjera sa teorijskom vrijednošću koja se očitava iz


tablica.

28
ISPRINTANO U ŽUTOJ

11.3.1 Intervalna procjena regresorske varijable


Kada intervalno procjenjujemo regresorsku varijablu, moramo paziti je li uzorak mali ili veliki. Da
ponovimo, uzorak je mali kada je manji ili jednak 30, a veliki kada je veći od 30.
Ovisno o tome biramo između dva intervala. Ukoliko je n≤30, uzimamo interval s koeficijentom
pouzdanosti t (studentova distribucija). Ukoliko je n>30, uzimamo interval s koeficijentom
pouzdanosti z (normalna distribucija).

• mali uzorak

𝑃 (𝛽̂1 − 𝑡𝛼 ∗ 𝜎𝛽̂1 < 𝛽1 < 𝛽̂1 + 𝑡𝛼 ∗ 𝜎𝛽̂1 ) = 1 − 𝛼


2 2

• veliki uzorak

𝑃 (𝛽̂1 − 𝑧𝛼 ∗ 𝜎𝛽̂1 < 𝛽1 < 𝛽̂1 + 𝑧𝛼 ∗ 𝜎𝛽̂1 ) = 1 − 𝛼


2 2

11.4 predviđanje i prognoziranje

Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable. Štrebsyi d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena
je regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna proizvodnja
pekmeza. Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika
će biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost. Tu prognostičku vrijednost izračunat ćemo ovako:

𝑦̂0 = 𝛽̂0 + 𝛽̂1 𝑥̅0

Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020.godini nam
je 𝑥̅0.prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije,
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.

29
ISPRINTANO U ŽUTOJ

12. MODEL VIŠESTRUKE LINEARNE


REGRESIJE I KORELACIJE
U jednostavnoj linearnoj regresiji analizirali smo kako nezavisna varijabla utječe na zavisnu. Analizirali
smo kako potražnja za pekmezom Štrebsyja d.o.o. utječe na proizvodnju tog pekmeza. No, je li istina
da samo potražnja utječe na proizvodnju?
Postoje i druge varijable koje utječu na proizvodnju, kao što su, na primjer, troškovi proizvodnje
pekmeza. U modelu višestruke linearne regresije analizira se upravo takav slučaj u kojem na zavisnu
varijablu utječe više nezavisnih varijabli
Jednadžba višestruke linearne regresije:

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥̅1 + 𝛽̂2 𝑥̅2 + ⋯ + 𝛽̂𝑘 𝑥̅𝑘

𝛽̂0 - predstavlja regresijsku vrijednost zavisne varijable, ukoliko su nezavisna varijabla 𝑥̅1 i 𝑥̅2 jednake
nuli

𝛽̂1 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,

ukoliko se nezavisna varijabla 𝑥̅1 poveća za 1, uz nepromijenjenu nezavisnu varijablu 𝑥̅2

𝛽̂2 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,

ukoliko se nezavisna varijabla 𝑥̅2 poveća za 1, uz nepromijenjenu nezavisnu varijablu 𝑥̅1.

12.1 Analiza varijance u modelu višestruke linearne regresije

U ovom modelu ukupna varijacije zavisne varijable oko prosječne vrijednosti nastoji se što bolje
objasniti skupom nezavisnih varijabli. Opet rastavljamo varijancu zavisne varijable procijenjenu na
bazi uzorka na varijacije koje se mogu objasniti linearnom funkcijom nezavisnih varijabli (SP) i na one
varijacije koje ostaju neprotumačene (SR).

𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̅)2 = ∑ 𝑦𝑖2 − 𝑛𝑦̅ 2

𝑆𝑃 = ∑(𝑦̂𝑖 − 𝑦̅)2 = 𝛽̂0 ∑ 𝑦𝑖 + 𝛽̂1 ∑ 𝑥̅𝑖 𝑦𝑖 − 𝑛𝑦̅ 2

𝑆𝑅 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑦𝑖2 − 𝛽̂0 ∑ 𝑦𝑖 − 𝛽̂1 ∑ 𝑥̅𝑖 𝑦𝑖

Ukupna suma iliti zbroj kvadrata jednaka je zbroju kvadrata protumačenog modelom uvećanog za
rezidualni ili neprotumačeni zbroj kvadrata. Zbroj kvadrata protumačen modelom je zapravo zbroj

30
ISPRINTANO U ŽUTOJ

kvadrata odstupanja regresijskih vrijednosti od prosjeka. On označava varijabilnost empirijskih


vrijednosti zavisne varijable koja je protumačena modelom.
Neprotumačen zbroj kvadrata nama stvara problem. Zašto?
On je posljedica slučajnih i neočekivanih odstupanja empirijskih vrijednosti od regresijskih. Ako se
zbrojevi kvadrata podijele s odgovarajućim stupnjevima slobode, dolazi se do sredina kvadrata koje
su nezavisne procjene komponenti varijance. Sve ovo što smo naveli prikazivat ćemo u tablici
standardnog oblika, tj. u tablici analize varijance (ANOVA)

IZVOR VARIJACIJE STUPNJEVI ZBROJ KVADRATA SREDINA EMPIRIJSKI F-


SLOBODE KVADRATA omjer

Protumačen
k SP SP SP
modelom 𝑘
k
SR
n − (k + 1)

SR
Neprotumačen n-(k+1) SR n − (k + 1)
modelom
-

UKUPNO n-1 ST - -

Kada podijelimo odstupanja neprotumačena modelom (SR) sa stupnjevima slobode (df) dobijemo
procjenu varijance regresije.

∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 =
𝑛 − (𝑘 + 1)

Pozitivni drugi korijen iz procijenjene varijance regresije je procjena standardne devijacije.


Sjećaš li se koeficijenta determinacije koji pokazuje koji je postotak odstupanja protumačen
modelom? Kod višestruke linearne regresije izračunava se jednako kao kod jednostavne! To je
jednostavno prekrasno! ☺
Ali, jedan od nedostataka koeficijenta determinacije je taj da se on povećava s brojem nezavisnih
varijabli u modelu. Cilj regresijske analize je da se uz što manji broj nezavisnih varijabli objasni što
više varijacija zavisne varijable y, pa se kod višestruke linearne regresije umjesto koeficijenta
determinacije koristi korigirani koeficijent determinacije 𝑅̅ 2 .

31
ISPRINTANO U ŽUTOJ

𝑛−1
𝑅̅2 = 1 − ∗ (1 − 𝑅2 )
𝑛 − (𝑘 + 1)

Spominjali smo još i koeficijent linearne korelacije koji nam pokazuje u kojoj mjeri nezavisna varijabla
utječe na zavisnu i utječe li pozitivno ili negativno. On se kod višestruke linearne regresije računa isto
kao drugi korijen iz koeficijenta determinacije, samo što ovdje uvijek ima pozitivan predznak (ne
može biti negativan).

12.2 Testiranje hipoteza u modelu višestruke linearne regresije

U višestrukoj linearnoj regresiji također imamo test o značajnosti regresorskih varijabli.

To može biti:
• test značajnosti jedne regresorske varijable - pojedinačni test
• test značajnosti svih regresorskih varijabli - skupni test

Pojedinačni test provodi se jednako kao i u jednostavnoj linearnoj regresiji. Testiramo onu
regresorsku varijablu za čiju nas nezavisnu varijablu pita je li značajna u modelu. Također, kao i kod
jednostavne linearne regresije testiranje se može provesti putem t-testa i F-testa.
Skupni test testira značajnost svih regresorskih varijabli. Rekli smo da Štrebsy d.o.o. proizvodi
pekmez. Napomenuli smo kako na njihovu proizvodnju uz potražnju utječu i troškovi proizvodnje.
Skupnim testom želimo provjeriti jesu li potražnja i troškovi značajni u modelu VLR. Rekli smo već
ranije u skripti kako je varijabla značajna, ako je regresorska varijabla koja stoji uz nju različita od 0.
Zato ćemo formirati ovakva hipoteze:

𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
𝐻1 : ∃𝛽𝑗 ≠ 0

Testna veličina definirana je kao omjer protumačene i neprotumačene sredine kvadrata.

𝑆𝑃
𝐹= 𝑘
𝑆𝑅
𝑛 − (𝑘 + 1)

32
ISPRINTANO U ŽUTOJ

Sigurno prepoznaješ naš F-omjer iz tabele ANOVE kod višestruke linearne regresije. ☺ Odluka se
donosi na temelju usporedbe empirijskog F-omjera, kojeg smo izračunali, i teorijskog iz tablice sa
stupnjevima slobode u brojniku 𝑑𝑓1 = 𝑘 i 𝑑𝑓2 = 𝑛 − (𝑘 + 1) stupnjeva slobode u nazivniku.

12.3 Predviđanje i prognoziranje

Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable.

Štrebsy d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena je
regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna
proizvodnja pekmeza.
Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika će
biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost.
Tu prognostičku vrijednost izračunat ćemo ovako:

𝑦̂0 = 𝛽̂0 + 𝛽̂1 𝑥̅01 + 𝛽̂2 𝑥̅02 + ⋯ + 𝛽̂𝑘 𝑥̅0𝑘

Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020. godini
nam je 𝑥̅0. Prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.

𝑃 (𝑦̂0 − 𝑡𝛼 ∗ 𝜎𝑦̂0 < 𝑦0 < 𝑦̂0 + 𝑡𝛼 ∗ 𝜎𝑦̂0 ) = 1 − 𝛼


2 2

Da zaključimo! Kod jednostavne linearne regresije promatramo utjecaj jedne nezavisne varijable na
zavisnu, dok kod višestruke linearne regresije promatramo kako više nezavisnih varijabli utječe na
zavisnu. Zavisnom varijablom, tzv. Y, predstavljene su vrijednosti pojave čije se varijacije objašnjavaju
samim modelom regresijske analize, dok je nezavisna varijabla označena s X. Model linearne regresije
koristan je u poslovanju jer na temelju njega možemo prognozirati i predviđati buduće vrijednosti
zavisne varijable, odnosno varijable koju promatramo.

33
ISPRINTANO U ŽUTOJ

13. TREND MODELI


U ovom ćemo poglavlju analizirati vremenski niz. Tom analizom nastoji se opisati dinamika pojave u
vremenu, objasniti varijacije pojave u vremenu, te predvidjeti kretanje pojave u budućnosti.
Zvuči li ti to poznato? Da!
Mi ćemo zapravo u ovom poglavlju naučiti kako napraviti regresijsku analizu vremenskog niza. Sjećaš
se od prije da je vremenski niz zapravo vremenski interval (niz dana, mjeseci, godina) u kojem se
promatra određena varijabla, npr. proizvodnja. Ta varijabla koja se promatra kroz godine je zavisna
varijabla (y), dok je nezavisna varijabla (x) u trend modelima uvijek vrijeme!

Kako bi dobro svladali teoriju potrebno je znati na koje komponente se raščlanjuje vremenski niz.

To su:
• Trend komponenta

• Sezonska komponenta

• Ciklička komponenta
• Slučajna komponenta

Sada ćemo objasnit svaku od njih. ☺ Pa krenimo!


Komponenata trenda predstavlja osnovnu tendenciju razvoja pojave u vremenu. Izražena je
funkcijom vremena i prema njoj trend može biti linearan i eksponencijalan.
Sezonska komponenta očituje se kada se vremenska pojava obnavlja na približno isti način unutar
jedne godine, a posljedica je klimatskih faktora, ritma, proizvodnje, potrošnje...npr.dolasci turista
su najveći u kolovozu, a najmanji u siječnju.
Ciklička komponenta očituje se kada se vremenska pojava obnavlja na približno isti način s
periodom od 2 godine ili više.
Slučajna komponenta odražava nesistemske utjecaje na pojavu.

13.1 Linearni trend

Ekonomske pojave ponekad se s vremenom mijenjaju linearno. Ako se pojava mijenja linearno, znači
da se mijenja (smanjuje ili povećava) za približno jednak APSOLUTNI iznos u vremenskom intervalu.
Ukoliko je to slučaj, dinamika pojave se opisuje linearnim trendom koji se još zove i trend-polinom
prvog stupnja. Vidjet ćeš da se ovo puno ne razlikuje od jednostavne linearne regresije. Zašto?

34
ISPRINTANO U ŽUTOJ

Zato što je model linearnog trenda specijalni slučaj modela jednostavne linearne regresije u kojem je
nezavisna varijabla vrijeme.

𝑦̂𝑡 = 𝛽̂0 + 𝛽̂1 𝑥̅𝑡

Parametri linearnog trenda, 𝛽̂0 i 𝛽̂1 , kao i u linearnoj regresiji, procjenjuju se modelom najmanjih
kvadrata.

∑ 𝑥̅𝑡 𝑦𝑡 − 𝑛𝑥̅ 𝑦̅
𝛽̂1 =
∑ 𝑥̅𝑡2 − 𝑛𝑥̅ 2

𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅

Procijenjeni parametar 𝛽̂0 je konstantni član. Interpretira se kao vrijednost trenda za razdoblje koje
prethodi prvom razdoblju analiziranog vremenskog niza.

PRIMJER:
Ako je 2010. godina prva godina za koju imamo podatke (X=1), onda je vrijednost trenda u
2009. godini (X=0) bila je jednaka vrijednosti procijenjenog parametra 𝛽̂0 .

Procijenjeni parametar 𝛽̂1 (regresijski koeficijent) pokazuje prosječnu linearnu promjenu


razine pojave po jedinici vremena.

Ako je 𝛽̂1 =2, on nam pokazuje da se proizvodnja pekmeza u prosjeku godišnje poveća za 2
komada.

Naravno, ništa ne može proći bez naše standardne pogreške! Svaki procijenjeni parametar ima
pripadajuću standardnu pogrešku.
Zašto moramo znat ovo sve i čemu to uopće služi?
Jednadžba trenda se, kao i regresijska jednadžba, koristi u prognostičke svrhe. U poslovanju uvijek
moramo gledati unaprijed kako naš Štrebsy d.o.o. ne bi pretrpio gubitke. Naravno, nikad ne možemo
biti sto posto sigurni da neće, ali prognostičke vrijednosti pojave pomoći će nam da mirnije spavamo.
Kada je prognoziranje smisleno?
Prognoziranje na osnovi procijenjene jednadžbe trenda smisleno je samo onda ako je realno
pretpostaviti da će se pojava nastaviti kretati u približno jednakim uvjetima i na približno jednak
način.
Prognostičku vrijednost pojave za prognostički horizont 𝜏, izračunat ćemo prema ovoj formuli:

𝑦̂𝑛+𝜏 = 𝛽̂0 + 𝛽̂1 (𝑛 + 𝜏)

𝜏 (čita se tau) je broj razdoblja iza zadnjeg promatranja za koji se prognozira razina pojave.

35
ISPRINTANO U ŽUTOJ

Možemo prognozirati još i prognostičkim intervalom za procjenu pojedinačne vrijednosti, uz razinu


pouzdanosti 1-𝛼

𝑃 (𝑦̂𝑛+𝜏 − 𝑡𝛼 ∗ 𝜎𝑦̂𝑛+𝜏 < 𝑦𝑛+𝜏 < 𝑦̂𝑛+𝜏 + 𝑡𝛼 ∗ 𝜎𝑦̂𝑛+𝜏 ) = 1 − 𝛼


2 2

Ovo je mrak! Sad možemo prognozirati i izračunati kolika će biti proizvodnja Štrebsy pekmeza za 100
godina, ali možemo li se pouzdati u to? Naravno da ne! Veći vremenski horizont donosi i veću
nepreciznost prognostičkog intervala. Zašto? Iz formule za standardnu pogrešku procjene
pojedinačne vrijednosti (pronađi je u formulama) možemo zaključiti da porastom vremenskog
horizonta 𝜏 raste i standardna pogreška procjene! Znači, pomoću trenda možemo prognozirati samo
mali broj razdoblja unaprijed.

13.2 Eksponencijalni trend

Model eksponencijalnog trenda prvog stupnja ili jednostavni eksponencijalni trend koristimo kada se
vremenska pojava mijenja od razdoblja do razdoblja za približno isti RELATIVNI iznos, tj. Kada su
verižni indeksi približno konstantni.
𝑥
𝑦𝑡 = 𝛽0 𝛽1 𝑡 𝑒 𝜀𝑡

Pri čemu su 𝑦𝑡 vrijednosti promatrane pojave, 𝑥̅𝑡 vrijednost varijable vrijeme, 𝛽0 i 𝛽1 nepoznati
parametri, a 𝜀𝑡 nepoznate vrijednosti slučajne varijable 𝜀.
Model je nelinearan, pa ga moramo linearizirati logaritamskom transformacijom kako bi mogli
provesti analizu.
𝑙𝑜𝑔𝑦𝑡 = 𝑙𝑜𝑔𝛽0 + (𝑙𝑜𝑔𝛽1 )𝑥̅𝑡 + 𝜀𝑡

Linearizirani model je model jednostavne linearne regresije, odnosno model jednostavnog linearnog
trenda samo što umjesto izvornih vrijednosti pojave ima logaritamske vrijednosti. Slučajna varijabla
ili greška relacije 𝜀 u linearnom modelu po pretpostavci ima normalnu distribuciju sa sredinom 0 i
varijancom 𝜎 2 .
Parametri lineariziranog trenda procjenjuju se na uobičajen način, metodom najmanjih kvadrata.
(Ovo možda nemaš u svojim formulama, pa slobodno zapiši!)

∑ 𝑥̅𝑡 𝑙𝑜𝑔𝑦𝑡 − 𝑥̅ ∑ 𝑙𝑜𝑔𝑦𝑡


̂1 =
𝑙𝑜𝑔𝛽
∑ 𝑥̅𝑡2 − 𝑛𝑥̅ 2
∑ 𝑙𝑜𝑔𝑦𝑡
̂0 =
𝑙𝑜𝑔𝛽 ̂ 1 )𝑥̅
− (𝑙𝑜𝑔𝛽
𝑛

36
ISPRINTANO U ŽUTOJ

Nakon što procijenimo parametre lineariziranog trenda, dobit ćemo procijenjenu jednadžbu
trenda.

̂ 𝑡 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + (𝑙𝑜𝑔𝛽
̂ 1 )𝑥̅𝑡

Uz procijenjenu jednadžbu trenda navode se i uobičajene oznake.


To su:

• početno razdoblje promatranog vremenskog niza (X=1 u početnom razdoblju)

• mjerna jedinica za varijablu vrijeme (npr. dan, mjesec, kvartal, godina…)

• mjerna jedinica za trend vrijednost (npr. indeksni bod, osoba, tisuća kuna…)

Kako ćemo interpretirati procijenjene koeficijente?


Konstantni član pokazuje nam vrijednost trenda za razdoblje prije prvog, isto kao i kod linearnog
trenda. Koeficijent eksponencijalnog trenda pokazuje za koliko će se puta promijeniti trend
vrijednost, ako se varijabla vrijeme poveća za 1.

Izraz za prognostičku vrijednost u logaritamskom obliku je:

̂ 𝑛+𝜏 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + 𝑙𝑜𝑔𝛽
̂ 1 (𝑛 + 𝜏)

Trend predstavlja niz prosječnih, teoretskih točaka i vrijednosti kroz koje bi promatrana pojava
prolazila da nije bilo sezonskih ili slučajnih čimbenika koji su utjecali na njezino kretanje. Upotreba
statističkih metoda u procesu poslovanja je od velikog značaja. Trend je, kao i regresija i korelacije,
statistička metoda koja olakšava postupak analiziranja pojava i procesa koji su se već dogodili te
omogućuju prognoziranje kretanja istih na temelju analiziranih podataka.

37
ISPRINTANO U ŽUTOJ

TREBAŠ POMOĆ?
Bez brige.

Štreberaj ekipa je uvijek tu da


spasi stvar. Prijavi se na
instrukcije i položi kolokvij bez
muke!
Sve info možeš pronaći na www.streberaj.hr
(ili skeniraj QR code).

KAKO SKENIRATI QR CODE?


iPhone. Samo uključi kameru i usmjeri ju
na kod.

Android. Uključi kameru, usmjeri ju na


kod, dugo drži home button, klikni na
what's on my screen (ako ti s ne spoji
odmah).

38

You might also like