Professional Documents
Culture Documents
ID 10512 - Statistika 1.kolokvij by Štreberaj mWhl7N3
ID 10512 - Statistika 1.kolokvij by Štreberaj mWhl7N3
STATISTIKA
TEORIJA – 1. KOLOKVIJ
Verzija 1.07
Što je SKRIPTARNICA?
Skriptarnica je projekt Štreberaj tima i Žute kopiraone, a nastala je u želji da ti olakšamo studiranje.
Sve skripte možeš pogledati na stranici www.referada.hr, a kupiti u SKRIPTARNICI, odnosno u Žutoj
kopiraoni.
Ideja projekta je zajedničkim snagama napraviti što bolje materijale. Ako pronađeš nešto što je krivo u
skripti ili jednostavno želiš dati neku sugestiju, rado ćemo te poslušati. Pošalji nam mail na
skriptarnica@referada.hr
Sve sugestije i prijedloge pokušavamo što brže uvažiti. Na www.referada.hr i našoj facebook grupi
EFZG SUPPORT by Štreberaj možeš pratiti što se događa i uvijek biti u toku s najnovijim materijalima.
Na naslovnici ti piše koju verziju skripte imaš u rukama (npr. Verzija: 1.03).
Skripte koje nađeš kod nas nisu nužno naše autorsko djelo. To su razne skripte koje nam studenti
donesu. Mi smo odabrali one najbolje i malo ih uredili tako da ti je ljepše ponavljati iz njih. U
Štreberaju uvijek preporučamo učenje iz knjige! Skripte su tu da ti pomognu ponoviti gradivo.
Naši edukatori rade skripte iz kolegija za koje držimo instrukcije. Sve takve skripte u nazivu imaju
Štreberaj. Ovo je jedna od tih skripti. ☺
Malo o skripti
PAZI!
Ono što se od tebe traži na ovom ispitu je da razumiješ
gradivo, a ne da samo nabubaš napamet koncepte Bilo bi dobro da se odmah u startu
rješavanja zadataka. Zato nema smisla učiti po razumijemo. Službena literatura za
skriptama koje su napisane u natuknicama ili samo ovaj ispit je knjiga Bahovec i sur.
prolaziti zadatke s prošlih rokova. (2015): Statistika.
Tako je nastala ova skripta… Ova skripta predstavlja samo pregled
najvažnijih dijelova gradiva i NIJE
U Štreberaju znamo da je razumijevanje gradiva ključno
službena ispitna literatura!
za polaganje ovog ispita. Isto tako, znamo da ne voliš
učiti iz literature koja je pisana prekompliciranim
jezikom. Zato smo ti spremili ovu skriptu koja je nastala kao kompilacija razne dostupne literature,
začinjena „mudrostima“ naših instruktora, koje će ti pomoći da gradivo bez problema savladaš S
RAZUMIJEVANJEM.
1
ISPRINTANO U ŽUTOJ
1. METODA UZORAKA
Sjetimo se onog istraživanja mišljenja studenata u RH o otvaranju Štrebsy teretane s početka
skripte. Tada smo koristili uzorak. Rekli smo da uzorke koristimo zato što pojedini konačni
skupovi sadrže velik broj članova pa bi njihovo istraživanje zahtijevalo velika financijska
sredstva, previše vremena ili uopće ne bi bilo moguće.
Na primjer:
2
ISPRINTANO U ŽUTOJ
• Jednostavni slučajni uzorak - primjenjuje se kod homogenih skupova i svaki element ima
jednaku vjerojatnost izbora
• Stratificirani uzorak - prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti, a
jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju stratumi
Slučajni uzorci analiziraju se metodama inferencijalne statistike. Kod njih je moguće izračunati
grešku. Sa stajališta statističke metode glavni su koraci istraživanja pomoću uzoraka prikazani ovdje:
ISTRAŽIVANJE POMOĆU
UZORAKA
3
ISPRINTANO U ŽUTOJ
Plan uzoraka je plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka,
tj. uzorak mora biti umanjena slika osnovnog skupa. Okvir izbora je popis članova statističkog skupa.
Prije nego što krenemo evo par pojmova koji su nam potrebni za bolje razumijevanje:
Parametar je brojčana karakteristika osnovnog skupa N (populacije), odnosno, konstanta
određena pomoću svih članova N
Procjenitelj je slučajna varijabla (definirana formulom) kojom se procjenjuje parametar
populacije
Procjena je izračunata vrijednost procjenitelja dobivena na uzorku podataka
Tako se govori o:
• sampling-distribuciji aritmetičkih sredina
• sampling-distribuciji varijanci
• sampling-distribuciji proporcija
• sampling-distribuciji medijana
4
ISPRINTANO U ŽUTOJ
Procjenjivanje nepoznatih parametara temelji se na podatcima koji tvore slučajni uzorak i na uporabi
odgovarajućeg procjenitelja.
Pri prosudbi kakvoće procjenitelja pogodno je da procjenitelji imaju poželjna svojstva kao što su
• nepristranost
• najmanja varijanca
• konzistentnost i dr.
Procjenitelj je nepristran ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje.,
a konzistentan je ako njegova standardna devijacije s porastom teži nuli.
Parametri se, osim intervalom i brojem, procjenjuju još nekim metodama od kojih se najčešće se
koriste:
• metoda momenata – sastoji se u tome da se parametri izraze kao funkcije momenata oko
nule, a zatim se momenti osnovnog skupa zamijene momentima uzorka
• metoda najmanjih kvadrata – temelji se na traženju onih procjena parametra za koje je zbroj
kvadrata odstupanja vrijednosti dane varijable od procjene minimalan
• metoda najveće vjerodostojnosti – temelji se na pretpostavci da je poznat oblik funkcije
vjerojatnosti osnovnog skupa
5
ISPRINTANO U ŽUTOJ
• procjena brojem:
𝑇̂ = 𝑁 ∙ 𝑥̅
𝜎𝑇̂ = 𝑁 ∙ 𝜎𝑥̅
𝑀
𝑝=
𝑁
Proporciju također možemo procijeniti brojem i intervalom. Rekli smo da je proporcija parametar koji
predstavlja omjer broja članova osnovnog skupa i opsega skupa, ali mi procjenjujemo proporciju za
6
ISPRINTANO U ŽUTOJ
uzorak, pa će nam zbog toga trebati malo drugačije oznake. Zato ćemo umjesto M i N koristiti m za
broj članova uzorka s određenim oblikom obilježja – broj članova u uzorku s određenom
karakteristikom (sjeti se neispravnih grijalica Hot u zadatku s instrukcija), a n za veličinu uzorka. Stoga
će procjena proporcije brojem izgledati ovako:
• procjena brojem
𝑚
𝑝̂ =
𝑛
Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika binomne
distribucije, a ako potječe iz konačnog skupa, sampling-distribucija proporcija ima oblik
hipergeometrijske distribucije (hipergeometrijska distribucija se s povećanjem veličine uzorka
približava binomnoj).
𝑧𝛼/2 𝜎 2 𝑧𝛼/2 𝑉 2
𝑛=( ) =( )
𝑑 𝑑𝑟
Frakcija 𝑓0 nam pokazuje koliki je postotak populacije uzet u uzorak. Znači, ako je frakcija izbora
𝑛0
manja od 5% uzima se da je 𝑛 = 𝑛𝑜 , a kad je veća ili jednaka 5% onda je 𝑛 = 𝑛 . Izraz 𝒏𝒐 naziva se
1+ 𝑜
𝑁
prethodnom veličinom uzorka.
7
ISPRINTANO U ŽUTOJ
Postoji i određivanje veličine uzorka za procjenu proporcije osnovnog skupa. Pogledaj u formulama!
Stigli smo i do hipoteza. Prvo ćemo definirati statističku hipotezu kako bismo vidjeli o čemu se tu
uopće radi.
Znači, mi ćemo tu nešto pretpostaviti (hipoteza), zatim ćemo izračunati testnu veličinu, usporediti ju
s teorijskom i na kraju prihvatiti ili odbaciti pretpostavku. Taj postupak donošenja odluke o
prihvaćanju ili neprihvaćanju zove se, 'ko bi rekao, testiranje statističkih hipoteza.
Svaki postupak testiranja polazi od nulte (𝐻0) i alternativne (𝐻1) hipoteze. Sadržaj hipoteza odlučuje
istraživač. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte.
Sud koji izvire iz odluke o prihvaćanju ili neprihvaćanju nulte hipoteze nije kategoričan (bezuvjetan /
određen) jer se odluka donosi na temelju vrijednosti iz slučajnog uzorka, odnosno dijela podataka.
U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka. One se nazivaju:
• pogreška tipa II - nastaje ako se prihvati lažna nulta hipoteza Ta pogreška označava se
kao 𝛽.
No, mi ne želimo pogriješiti! Mi želimo odbaciti nultu hipotezu kada je ona lažna. Ta vjerojatnost se
naziva snaga testa, odnosno razina pouzdanosti.
8
ISPRINTANO U ŽUTOJ
𝑥̅ − 𝜇0
𝑧=
𝜎𝑥
𝑥̅ − 𝜇0
𝑡=
𝜎𝑥
Dvosmjerni test
Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
9
ISPRINTANO U ŽUTOJ
𝐻𝑜 : 𝜇 ≤ 𝜇0
𝐻1 : 𝜇 > 𝜇0
𝐻𝑜 : 𝜇 ≥ 𝜇0
𝐻1 : 𝜇 < 𝜇0
10
ISPRINTANO U ŽUTOJ
𝑥̅ − 𝜇0
𝑧=
𝜎𝑥
Dvosmjerni test
Pretpostavka je da je proporcija populacije jednaka pretpostavljenoj. Pretpostavka se formulira kao
nulta hipoteza!
𝐻𝑜 : 𝑝 = 𝑝
𝐻1 : 𝑝 ≠ 𝑝
𝐻𝑜 : 𝑝 ≤ 𝑝0
𝐻1 : 𝑝 > 𝑝0
𝐻𝑜 : 𝑝 ≥ 𝑝
𝐻1 : 𝑝 < 𝑝0
11
ISPRINTANO U ŽUTOJ
𝐻0 : 𝑝 = 0.90
𝐻1 : 𝑝 ≠ 0,90
12
ISPRINTANO U ŽUTOJ
9.1 Procjena razlike aritmetičke sredine dvaju osnovnih skupova nezavisnim uzorcima
Nezavisni uzorci su oni kod kojih podatci iz uzorka prve populacije ne utječu na vjerojatnost
pojavljivanja podataka iz druge populacije. Izabiru se primjerice za procjenu razlike u prosječnoj
trajnosti novog proizvoda i prosječnoj trajnosti odstajalog proizvoda.
Procjena razlike aritmetičkih sredina također procjenjuje brojem i intervalom. Razlika je u tome što
ovdje imamo dva osnovna skupa. Tako će procjena razlike aritmetičkih sredina brojem tih dvaju
skupova biti razlika aritmetičke sredine prvog i drugog skupa.
𝑑̂ = 𝑥̅1 − 𝑥̅2
13
ISPRINTANO U ŽUTOJ
9.2 Testiranje hipoteza o razlici aritmetičkih sredina dvaju osnovnih skupova nezavisnim
uzorcima
Testovi razlike između aritmetičkih sredina dviju normalno distribuiranih populacija ponekad se
provode pomoću nezavisnih, a ponekad pomoću zavisnih uzoraka, ovisno o logici konkretne situacije.
Pritom varijance mogu biti poznate ili nepoznate, a nepoznate varijance mogu biti jednake ili
nejednake.
𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂
𝑑̂ − 𝐷0
𝑡=
𝜎𝐷̂
Dvosmjerni test
Pretpostavka je da je sredina populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!
𝐻𝑜 : 𝜇1 − 𝜇2 = 𝐷0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0
𝐻𝑜 : 𝜇1 − 𝜇2 ≤ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 > 𝐷0
14
ISPRINTANO U ŽUTOJ
𝐻𝑜 : 𝜇1 − 𝜇2 ≥ 𝐷0
𝐻1 : 𝜇1 − 𝜇2 < 𝐷0
9.3 Procjena razlike proporcija dviju populacija na osnovi velikih nezavisnih uzoraka
Procjena razlike proporcija dvaju osnovnih skupova provodi se na način sličan procjeni aritmetičkih
sredina. To se odnosi i na postupak testiranja hipoteze o razlici proporcija. Temelj su postupka
procjene vrijednosti iz uzorka te sampling-distribucija razlika.
Opet imamo procjenu brojem i intervalom. Juhu!
𝑑̂ = 𝑝̂ 1 − 𝑝̂ 2
9.4 Test hipoteza o razlici proporcija dviju populacija na osnovi velikih nezavisnih uzoraka
Test hipoteze o razlici proporcija temelji se na obliku sampling-distribucije (tj. distribucije
̂ razlike proporcije dviju populacija na bazi velikih nezavisnih uzoraka veličine 𝑛1 𝑖 𝑛2 ,
procjenitelja) 𝐷
a moguće ga je provesti kao dvosmjerni test ili kao jednosmjerni test na donju ili gornju granicu.
𝑑̂ − 𝐷0
𝑧=
𝜎𝐷̂
15
ISPRINTANO U ŽUTOJ
Dvosmjerni test
Pretpostavka je da je proporcija populacija jednaka. Pretpostavka se formulira kao nulta hipoteza!
𝐻𝑜 : 𝑝1 − 𝑝2 = 𝐷0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝐷0
PRIMJER: Može li se prihvatiti pretpostavka da ne postoji razlika u proporciji građana koji su godišnji
odmor proveli izvan mjesta stanovanja u ova dva grada? α = 5% (OSTALO: iznosi 5%, jednaka 5%, se
ne razlikuje i sl.)
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je proporcija prvog osnovnog skupa veća od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!
𝐻𝑜 : 𝑝1 − 𝑝2 ≤ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 > 𝐷0
PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu veća od proporcije u drugom gradu? α = 5%
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je proporcija prvog osnovnog skupa manja od
proporcije drugog. Pretpostavka se formulira kao alternativna hipoteza!!
𝐻𝑜 : 𝑝1 − 𝑝2 ≥ 𝐷0
𝐻1 : 𝑝1 − 𝑝2 < 𝐷0
PRIMJER: Može li se prihvatiti pretpostavka da je proporcija građana koji su godišnji odmor proveli
izvan mjesta stanovanja u prvom gradu manja od proporcije u drugom gradu?α = 5%
16
ISPRINTANO U ŽUTOJ
E sad, kako ćeš prepoznat da u zadatku trebaš koristiti hi-kvadrat test? On je uvijek test
proporcija triju ili više populacija. Znači, do sad smo imali jednu ili dvije populacije, a sad
imamo tri ili više! Kada prepoznaš tri ili više populacija u zadatku moraš odrediti o kojem se
hi-kvadrat testu radi. Ovakav tip zadataka se može pojaviti u 3. zadatku na ispitu.
Hi-kvadrat test je vrlo praktičan test koji može osobito poslužiti onda kad želimo utvrditi odstupaju li
neke dobivene (opažene) frekvencije od frekvencija koje bismo očekivali pod određenom hipotezom.
Idemo vidjeti kako to funkcionira!
Ako je prva hipoteza istinita, empirijske se frekvencije neće značajno razlikovati od očekivanih
frekvencija. Razlika između njih gotovo uvijek postoji, a pomoću hi-kvadrat testa zaključuje se jesu li
te razlike rezultat slučajnosti ili ne. Ukoliko je razlika slučajna, ona nije statistički značajna te se može
zaključiti da je distribucija populacije pretpostavljenog oblika i obrnuto.
Kako dalje?
17
ISPRINTANO U ŽUTOJ
Nakon što smo postavili hipoteze, moramo odrediti testnu veličine koju ćemo usporediti s teorijskom
veličinom i odrediti koju hipotezu prihvaćamo. To znači da ćemo uspoređivati hi-kvadrat empirijski i
hi-kvadrat teorijski. Empirijski hi-kvadrat moramo izračunati, pa ćeš u svojim formulama naći formulu
koja izgleda ovako:
2
(𝑓𝑖 − 𝑒𝑖 )2
𝜒 =
𝑒𝑖
E sad, ja volim reći da ti je ova formula „zvijezda vodilja“ kod zadataka sa hi-kvadratom (nemoj to
slučajno reći na usmenom :P). Šta mislim pod tim „zvijezda vodilja“? Cilj ti je izračunati taj empirijski
hi-kvadrat, pa tako sve što vidiš u njegovoj formuli stavi u stupce u tablicu (kako smo radili na
instrukcijama).
Postupak:
• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑓𝑖 )
• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df) k-1, pri čemu je k broj
populacija, uz zadanu razinu značajnosti α
𝑒𝑖 =𝑛∗𝑝(𝑜𝑖)
Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.
18
ISPRINTANO U ŽUTOJ
modela automobila o spolu ili ne ovisi. Nakon provođenja ovog testa dobit ćemo odgovor na to
pitanje.
Hipoteze testa mogu se zapisati na sljedeći način:
Kako dalje?
Nakon postavljanje hipoteza trebamo odrediti testnu veličinu te ju izračunati. Rekli smo da je testna
veličina empirijski hi-kvadrat koja izgleda ovako:
2
2
(𝑓𝑖𝑗 − 𝑒𝑖𝑗 )
𝜒 =
𝑒𝑖𝑗
Kod ovog testa će ti apsolutne frekvencije biti zadane u tablici kontingence koja ima najmanje dva
retka i dva stupca. Zato se ovdje frekvencije označavaju kao 𝑓𝑖𝑗 (i predstavlja redak, a j stupac). Kako
bi izračunali našu testnu veličinu potrebne su nam i očekivane frekvencije 𝑒𝑖𝑗.
Njih ćemo izračunati prema formuli:
𝑅𝑖 ∗ 𝐶𝑗
𝑒𝑖𝑗 =
𝑛
Ovdje, dakle, uzimaš sumu retka (𝑅𝑖), množiš ju sa sumom stupca (𝐶𝑗) u tablici kontingence i taj
umnožak dijeliš sa n. Npr. Za očekivanu frekvenciju 𝑒11 uzimaš sumu prvog retka, množiš ju sa sumom
prvog stupca i dijeliš s ukupnim brojem n.
Postupak:
• izabire se uzorak
19
ISPRINTANO U ŽUTOJ
Odluka:
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
nulta hipoteza će se odbaciti na razini značajnosti 𝛼.
Test o jednakosti proporcija triju ili više populacija je specijalni slučaj hi-kvadrat testa o nezavisnosti
varijabli, ako je jedna od varijabli dihotomna. Iako se kod oba testa jednako definira testna veličina,
postavljene hipoteze i zaključak testa su različiti. Naime, kod testa nezavisnosti iz populacije izabire
se jedan slučajni uzorak, dok se kod testa o jednakosti proporcija triju ili više populacija izabire po
jedan slučajni uzorak iz svake populacije.
Hipoteze testa mogu se zapisati na sljedeći način:
𝐻0 : 𝑝1 = 𝑝2 = 𝑝3 = 𝑝𝑘
𝐻1 : ∃𝑝𝑖 = 𝑝𝑗 , 𝑧𝑎 𝑖, 𝑗 = 1,2,3, … , 𝑘
Kako dalje?
Nakon što smo postavili hipoteze, trebamo odrediti testnu veličinu-empirijski hi-kvadrat. On se
računa prema ovoj formuli:
𝑒𝑗 = 𝑛 𝑗 ∗ 𝑝
• izabire se uzorak
• bilježe se vrijednosti apsolutnih frekvencija (𝑚𝑖)
• očekivane frekvencije (𝑒𝑖) se izračunavaju ovisno o pretpostavci
• izračunava se test pokazatelj (empirijski hi-kvadrat)
• iz tablice se iščitava teorijski hi-kvadrat sa stupnjevima slobode (df)
20
ISPRINTANO U ŽUTOJ
Odluka?
Ako je testna veličina 𝜒2 veća od kritične vrijednosti hi-kvadrat distribucije 𝜒𝛼2 (vrijednost iz tablice),
• Funkcionalna veza
o odnos koji se izražava analitički – jednadžbom
o svakoj vrijednosti jedne pojave odgovara točno određena vrijednost druge pojave
• Statistička/stohastička veza
o slabija od funkcionalne
o svakoj vrijednosti jedne pojava odgovara više različitih vrijednosti druge pojave. Npr.
sve osobe iste visine nemaju i istu težinu
21
ISPRINTANO U ŽUTOJ
Jednostavna linearna regresija predstavlja odnos između dvije pojave i to takav da promjenu jedne
pojave prati približno linearna promjena druge pojave.
Priča počinje dijagramom rasipanja. Dijagram rasipanja nam pokazuje kakva je veza između te dvije
pojave.
Točke se crtaju u pravokutnom koordinatnom sustavu s aritmetičkim mjerilom za vrijednosti 𝑥̅𝑖 na osi
apscisa i aritmetičkim mjerilom za vrijednosti 𝑦𝑖 na osi ordinata. Analizom oblika „raspršenosti“
točaka utvrđuje se oblik, smjer i intenzitet povezanosti dviju pojava.
10000 1500
8000
1000
6000
4000 500
2000
0 0
0 5000 10000 15000 0 20 40
15000
10000
5000
0
0 50 100 150
Prvi grafikon rasipanja (gore lijevo) pokazuje pozitivno linearnu vezu. Uzmimo na primjer dohodak i
potrošnju. Te dvije varijable ovise jedna o drugoj. Povezanost je linearno pozitivna (kao što pokazuje
graf) jer porastom dohotka za određen iznos raste potrošnja u približno jednakom iznosu.
22
ISPRINTANO U ŽUTOJ
Drugi grafikon rasipanja (gore desno) pokazuje nam negativnu linearnu vezu. Uzmimo na primjer
porast cijena neke robe u supermarketu i količinu te robe. Pretpostavka je da bi sa povećanjem cijene
robe u supermarketu došlo do smanjenja prodane količine iste te robe.
Prema tome možemo zaključiti da su cijena robe i količina prodane robe u negativnoj linearnoj vezi.
Treći grafikon rasipanja (dole lijevo) pokazuje nam da veza među varijablama ne postoji. Za primjer
možemo uzeti broj djece upisane u javne vrtiće i broj sati koje ti provedeš učeći statistiku. Jedno ne
utječe na drugo te veza između te dvije varijable ne postoji.
Zašto uopće koristimo dijagram rasipanja? Zato što nam on pokazuje u kakvom su odnosu dvije
varijable.
Svaka točka dijagrama rasipanja zadovoljava jednadžbu 𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝑒𝑖 . Odnosno svaka točka Yi
odstupa od linije pravca za ±𝑒i.
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0 2000 4000 6000 8000 10000 12000
Osnova regresijske analize je, 'ko bi rekao, regresijski model. To je jedan hipotetički model, zapravo
formula, kojom se izražava statistička povezanost između pojava. Na temelju uzorka vrijednosti
odabranih varijabli procjenjuju se parametri pretpostavljenog modela i testiraju pretpostavke kako bi
se odredila adekvatnost procijenjenog modela.
23
ISPRINTANO U ŽUTOJ
Regresijska vrijednost zavisne varijable 𝑦̂𝑖 je zbroj konstantnog člana 𝛽̂0 i regresijskog koeficijenta 𝛽̂1
(koji se još zove i koeficijent smjera) pomnoženog s nezavisnom varijablom x.
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
24
ISPRINTANO U ŽUTOJ
Rekli smo gore da je ukupna suma iliti zbroj kvadrata jednaka zbroju kvadrata protumačenog
modelom uvećanog za rezidualni ili neprotumačeni zbroj kvadrata.
𝑆𝑇 = 𝑆𝑃 + 𝑆𝑅
Zbroj kvadrata protumačen modelom je zapravo zbroj kvadrata odstupanja regresijskih vrijednosti od
prosjeka. On označava varijabilnost empirijskih vrijednosti zavisne varijable koja je protumačena
modelom.
Neprotumačen zbroj kvadrata nama stvara problem. Zašto? On je posljedica slučajnih i neočekivanih
odstupanja empirijskih vrijednosti od regresijskih. Ako se zbrojevi kvadrata podijele s odgovarajućim
stupnjevima slobode, dolazi se do sredina kvadrata koje su nezavisne procjene komponenti varijance.
Sve ovo što smo naveli prikazivat ćemo u tablici standardnog oblika, tj. u tablici analize varijance
(ANOVA)
Protumačen
1 SP SP SP
modelom 1
1
SR
n−2
Neprotumačen n-2
modelom SR
SR
n−2 -
UKUPNO n-1 ST - -
𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 = =
𝑛−2 𝑛−2
Pozitivni drugi korijen iz procjene varijance regresije je procjena standardne devijacije regresije.
𝑆𝑅 ∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ = √ =√
𝑛−2 𝑛−2
25
ISPRINTANO U ŽUTOJ
𝜎̂
𝑉= ∗ 100%
𝑦̅
𝑆𝑃 𝑆𝑅
𝑅2 = =1−
𝑆𝑇 𝑆𝑇
Nama je bolje imati što više protumačenih odstupanja u našem modelu. Analogno tome, model
regresije je reprezentativniji što je koeficijent determinacije veći. On poprima vrijednosti iz intervala
[0,1]. Pored koeficijenta determinacije u analizi promatra se i korigirani koeficijent determinacije 𝑅̅2 .
𝑛−1
𝑅̅2 = 1 − (1 − 𝑅2 )
𝑛−2
𝑟 = ±√𝑅2
𝑠𝑖𝑛𝑔 (𝑟) = 𝑠𝑖𝑛𝑔(𝛽̂1 )
Koeficijent linearne korelacije može poprimiti vrijednosti iz intervala [−1,1]. On pokazuje kakva je
veza između zavisne i nezavisne varijable prema smjeru i čvrstoći. Prema smjeru veza može biti
negativna i pozitivna veza te ona ovisi o predznaku regresijskog koeficijenta.
26
ISPRINTANO U ŽUTOJ
Prema smjeru veza između dvije varijable može biti pozitivna i negativna. Ako je r pozitivan
broj, reći ćemo da je veza između zavisne i nezavisne varijable pozitivna. Ako je r negativan,
veza prema smjeru je negativna.
Prema čvrstoći veza može biti jaka i slaba. Što je r bliži jedinici (nebitno kojeg predznaka)
veza je jača. Ako je r=0.9, veza prema čvrstoći je jaka veza. Ako je r=-0.2, veza prema čvrstoći
je slaba.
Znači, koeficijent linearne korelacije interpretiramo uzimajući u obzir i čvrstoću i smjer
povezanosti između dvije varijable. Potrebno je napomenuti kako je ta povezanost linearna.
Sad kada smo izveli procjenitelje koeficijenata i varijance, spremni smo izvoditi zaključke o modelu.
Zaključci izvedeni slijedom regresijske analize pomoći će nam razumjeti modelirani proces i ujedno
omogućiti donošenje odluka vezanih za taj proces, a nama je u cilju pomoći Štrebsyju da uspije u
svom naumu! ☺
Testiranje hipoteza o pretpostavljenoj vrijednosti regresijskog parametra ili konstante u modelu
jednostavne linearne regresije najčešće se provodi na temelju t-testa ili F-testa. Odluka se donosi na
uobičajen način, kao što smo objasnili kod metode uzoraka.
Za danu razinu značajnosti/signifikantnosti 𝛼, testna veličina uspoređuje se s teorijskom vrijednosti.
Kako bi ova jednadžba izgledala kada bi 𝛽̂1 bila jednaka 0? Vidimo u formuli da se 𝛽̂1 i x množe. Ako 0
pomnožimo sa x dobijemo 0. To bi značilo da bi jednadžba regresije izgledala ovako:
𝑦̂𝑖 = 𝛽̂0
U tom slučaju varijabla x nije značajna u modelu jednostavne linearne regresije. Primjećuješ da
značajnost varijable x u modelu ovisi o regresijskom koeficijentu, što znači da moramo testirati
regresijski koeficijent!
Kako će onda glasiti hipoteze u ovom testu značajnosti regresorske varijable?
27
ISPRINTANO U ŽUTOJ
DVOSMJERNI TEST
𝐻0… 𝛽1 = 0
𝐻1… 𝛽1 ≠ 0
𝐻0… 𝛽1 = 0
𝐻1… 𝛽1 > 0
𝐻0… 𝛽1 = 0
𝐻1… 𝛽1 < 0
Nulta hipoteza je formirana tako da se nastoji odbaciti, a alternativna se hipoteza definira u skladu s
pretpostavkom istraživača.
Testiranje možemo provesti pomoću t-testa i F-testa.
T-test
Testna veličina je empirijski t-omjer koji se računa pomoću formule:
𝛽̂1
𝑡1 =
𝜎𝛽̂1
F-test
Testna veličina je empirijski F-omjer računa se prema formuli:
𝑆𝑃
𝐹= 1
𝑆𝑅
𝑛−2
28
ISPRINTANO U ŽUTOJ
• mali uzorak
• veliki uzorak
Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable. Štrebsyi d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena
je regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna proizvodnja
pekmeza. Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika
će biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost. Tu prognostičku vrijednost izračunat ćemo ovako:
Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020.godini nam
je 𝑥̅0.prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije,
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.
29
ISPRINTANO U ŽUTOJ
𝛽̂0 - predstavlja regresijsku vrijednost zavisne varijable, ukoliko su nezavisna varijabla 𝑥̅1 i 𝑥̅2 jednake
nuli
𝛽̂1 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,
𝛽̂2 - predstavlja povećanje ili smanjenje (ovisno o predznaku) regresijske vrijednosti zavisne varijable,
U ovom modelu ukupna varijacije zavisne varijable oko prosječne vrijednosti nastoji se što bolje
objasniti skupom nezavisnih varijabli. Opet rastavljamo varijancu zavisne varijable procijenjenu na
bazi uzorka na varijacije koje se mogu objasniti linearnom funkcijom nezavisnih varijabli (SP) i na one
varijacije koje ostaju neprotumačene (SR).
Ukupna suma iliti zbroj kvadrata jednaka je zbroju kvadrata protumačenog modelom uvećanog za
rezidualni ili neprotumačeni zbroj kvadrata. Zbroj kvadrata protumačen modelom je zapravo zbroj
30
ISPRINTANO U ŽUTOJ
Protumačen
k SP SP SP
modelom 𝑘
k
SR
n − (k + 1)
SR
Neprotumačen n-(k+1) SR n − (k + 1)
modelom
-
UKUPNO n-1 ST - -
Kada podijelimo odstupanja neprotumačena modelom (SR) sa stupnjevima slobode (df) dobijemo
procjenu varijance regresije.
∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎̂ 2 =
𝑛 − (𝑘 + 1)
31
ISPRINTANO U ŽUTOJ
𝑛−1
𝑅̅2 = 1 − ∗ (1 − 𝑅2 )
𝑛 − (𝑘 + 1)
Spominjali smo još i koeficijent linearne korelacije koji nam pokazuje u kojoj mjeri nezavisna varijabla
utječe na zavisnu i utječe li pozitivno ili negativno. On se kod višestruke linearne regresije računa isto
kao drugi korijen iz koeficijenta determinacije, samo što ovdje uvijek ima pozitivan predznak (ne
može biti negativan).
To može biti:
• test značajnosti jedne regresorske varijable - pojedinačni test
• test značajnosti svih regresorskih varijabli - skupni test
Pojedinačni test provodi se jednako kao i u jednostavnoj linearnoj regresiji. Testiramo onu
regresorsku varijablu za čiju nas nezavisnu varijablu pita je li značajna u modelu. Također, kao i kod
jednostavne linearne regresije testiranje se može provesti putem t-testa i F-testa.
Skupni test testira značajnost svih regresorskih varijabli. Rekli smo da Štrebsy d.o.o. proizvodi
pekmez. Napomenuli smo kako na njihovu proizvodnju uz potražnju utječu i troškovi proizvodnje.
Skupnim testom želimo provjeriti jesu li potražnja i troškovi značajni u modelu VLR. Rekli smo već
ranije u skripti kako je varijabla značajna, ako je regresorska varijabla koja stoji uz nju različita od 0.
Zato ćemo formirati ovakva hipoteze:
𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
𝐻1 : ∃𝛽𝑗 ≠ 0
𝑆𝑃
𝐹= 𝑘
𝑆𝑅
𝑛 − (𝑘 + 1)
32
ISPRINTANO U ŽUTOJ
Sigurno prepoznaješ naš F-omjer iz tabele ANOVE kod višestruke linearne regresije. ☺ Odluka se
donosi na temelju usporedbe empirijskog F-omjera, kojeg smo izračunali, i teorijskog iz tablice sa
stupnjevima slobode u brojniku 𝑑𝑓1 = 𝑘 i 𝑑𝑓2 = 𝑛 − (𝑘 + 1) stupnjeva slobode u nazivniku.
Regresijski modeli mogu se koristiti za izvođenje proricanja ili predviđanja vrijednosti zavisne
varijable.
Štrebsy d.o.o. već 5 godina proizvodi pekmez od jagoda. Regresijskom analizom dobivena je
regresijska jednadžba u kojoj je nezavisna varijabla potražnja za pekmezom, a zavisna
proizvodnja pekmeza.
Promatramo kako potražnja za pekmezom utječe na proizvodnju istog. Nas zanima kolika će
biti proizvodnja pekmeza 2020. godine, ako će potražnja biti 1000 komada. Prodaja pekmeza
2020. godine biti će prognostička vrijednost.
Tu prognostičku vrijednost izračunat ćemo ovako:
Zadana vrijednost nezavisne varijable, odnosno potražnje za pekmezom od jagoda u 2020. godini
nam je 𝑥̅0. Prognostička vrijednost se dobije uvrštavanjem vrijednosti nezavisne varijable u jednadžbu
jednostavne linearne regresije
Osim prognostičke vrijednosti, računat ćemo i prognostički interval.
Da zaključimo! Kod jednostavne linearne regresije promatramo utjecaj jedne nezavisne varijable na
zavisnu, dok kod višestruke linearne regresije promatramo kako više nezavisnih varijabli utječe na
zavisnu. Zavisnom varijablom, tzv. Y, predstavljene su vrijednosti pojave čije se varijacije objašnjavaju
samim modelom regresijske analize, dok je nezavisna varijabla označena s X. Model linearne regresije
koristan je u poslovanju jer na temelju njega možemo prognozirati i predviđati buduće vrijednosti
zavisne varijable, odnosno varijable koju promatramo.
33
ISPRINTANO U ŽUTOJ
Kako bi dobro svladali teoriju potrebno je znati na koje komponente se raščlanjuje vremenski niz.
To su:
• Trend komponenta
• Sezonska komponenta
• Ciklička komponenta
• Slučajna komponenta
Ekonomske pojave ponekad se s vremenom mijenjaju linearno. Ako se pojava mijenja linearno, znači
da se mijenja (smanjuje ili povećava) za približno jednak APSOLUTNI iznos u vremenskom intervalu.
Ukoliko je to slučaj, dinamika pojave se opisuje linearnim trendom koji se još zove i trend-polinom
prvog stupnja. Vidjet ćeš da se ovo puno ne razlikuje od jednostavne linearne regresije. Zašto?
34
ISPRINTANO U ŽUTOJ
Zato što je model linearnog trenda specijalni slučaj modela jednostavne linearne regresije u kojem je
nezavisna varijabla vrijeme.
Parametri linearnog trenda, 𝛽̂0 i 𝛽̂1 , kao i u linearnoj regresiji, procjenjuju se modelom najmanjih
kvadrata.
∑ 𝑥̅𝑡 𝑦𝑡 − 𝑛𝑥̅ 𝑦̅
𝛽̂1 =
∑ 𝑥̅𝑡2 − 𝑛𝑥̅ 2
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
Procijenjeni parametar 𝛽̂0 je konstantni član. Interpretira se kao vrijednost trenda za razdoblje koje
prethodi prvom razdoblju analiziranog vremenskog niza.
PRIMJER:
Ako je 2010. godina prva godina za koju imamo podatke (X=1), onda je vrijednost trenda u
2009. godini (X=0) bila je jednaka vrijednosti procijenjenog parametra 𝛽̂0 .
Ako je 𝛽̂1 =2, on nam pokazuje da se proizvodnja pekmeza u prosjeku godišnje poveća za 2
komada.
Naravno, ništa ne može proći bez naše standardne pogreške! Svaki procijenjeni parametar ima
pripadajuću standardnu pogrešku.
Zašto moramo znat ovo sve i čemu to uopće služi?
Jednadžba trenda se, kao i regresijska jednadžba, koristi u prognostičke svrhe. U poslovanju uvijek
moramo gledati unaprijed kako naš Štrebsy d.o.o. ne bi pretrpio gubitke. Naravno, nikad ne možemo
biti sto posto sigurni da neće, ali prognostičke vrijednosti pojave pomoći će nam da mirnije spavamo.
Kada je prognoziranje smisleno?
Prognoziranje na osnovi procijenjene jednadžbe trenda smisleno je samo onda ako je realno
pretpostaviti da će se pojava nastaviti kretati u približno jednakim uvjetima i na približno jednak
način.
Prognostičku vrijednost pojave za prognostički horizont 𝜏, izračunat ćemo prema ovoj formuli:
𝜏 (čita se tau) je broj razdoblja iza zadnjeg promatranja za koji se prognozira razina pojave.
35
ISPRINTANO U ŽUTOJ
Ovo je mrak! Sad možemo prognozirati i izračunati kolika će biti proizvodnja Štrebsy pekmeza za 100
godina, ali možemo li se pouzdati u to? Naravno da ne! Veći vremenski horizont donosi i veću
nepreciznost prognostičkog intervala. Zašto? Iz formule za standardnu pogrešku procjene
pojedinačne vrijednosti (pronađi je u formulama) možemo zaključiti da porastom vremenskog
horizonta 𝜏 raste i standardna pogreška procjene! Znači, pomoću trenda možemo prognozirati samo
mali broj razdoblja unaprijed.
Model eksponencijalnog trenda prvog stupnja ili jednostavni eksponencijalni trend koristimo kada se
vremenska pojava mijenja od razdoblja do razdoblja za približno isti RELATIVNI iznos, tj. Kada su
verižni indeksi približno konstantni.
𝑥
𝑦𝑡 = 𝛽0 𝛽1 𝑡 𝑒 𝜀𝑡
Pri čemu su 𝑦𝑡 vrijednosti promatrane pojave, 𝑥̅𝑡 vrijednost varijable vrijeme, 𝛽0 i 𝛽1 nepoznati
parametri, a 𝜀𝑡 nepoznate vrijednosti slučajne varijable 𝜀.
Model je nelinearan, pa ga moramo linearizirati logaritamskom transformacijom kako bi mogli
provesti analizu.
𝑙𝑜𝑔𝑦𝑡 = 𝑙𝑜𝑔𝛽0 + (𝑙𝑜𝑔𝛽1 )𝑥̅𝑡 + 𝜀𝑡
Linearizirani model je model jednostavne linearne regresije, odnosno model jednostavnog linearnog
trenda samo što umjesto izvornih vrijednosti pojave ima logaritamske vrijednosti. Slučajna varijabla
ili greška relacije 𝜀 u linearnom modelu po pretpostavci ima normalnu distribuciju sa sredinom 0 i
varijancom 𝜎 2 .
Parametri lineariziranog trenda procjenjuju se na uobičajen način, metodom najmanjih kvadrata.
(Ovo možda nemaš u svojim formulama, pa slobodno zapiši!)
36
ISPRINTANO U ŽUTOJ
Nakon što procijenimo parametre lineariziranog trenda, dobit ćemo procijenjenu jednadžbu
trenda.
̂ 𝑡 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + (𝑙𝑜𝑔𝛽
̂ 1 )𝑥̅𝑡
• mjerna jedinica za trend vrijednost (npr. indeksni bod, osoba, tisuća kuna…)
̂ 𝑛+𝜏 = 𝑙𝑜𝑔𝛽
𝑙𝑜𝑔𝑦 ̂ 0 + 𝑙𝑜𝑔𝛽
̂ 1 (𝑛 + 𝜏)
Trend predstavlja niz prosječnih, teoretskih točaka i vrijednosti kroz koje bi promatrana pojava
prolazila da nije bilo sezonskih ili slučajnih čimbenika koji su utjecali na njezino kretanje. Upotreba
statističkih metoda u procesu poslovanja je od velikog značaja. Trend je, kao i regresija i korelacije,
statistička metoda koja olakšava postupak analiziranja pojava i procesa koji su se već dogodili te
omogućuju prognoziranje kretanja istih na temelju analiziranih podataka.
37
ISPRINTANO U ŽUTOJ
TREBAŠ POMOĆ?
Bez brige.
38