Primjene Statistike U Društvenim Istraživanjima PDF

You might also like

You are on page 1of 24

Regresijska analiza

Doc. dr. sc. Vanja Šimičević


Regresijska analiza

U društvenim istraživanjima, često je potrebno analizu


pojedinačnih varijabli nadopuniti analizom dviju ili više
statističkih varijabli, istovremeno.

Pojave koje nas interesiraju često su međusobno povezane i


spoznati njihovu uzročno- posljedičnu vezu, može biti od velike
društvene koristi.

To je svrha regresijske i korelacijske analize.


Svrha korelacijske i regresijske analize

• U svakodnevnom životu često opažamo da dvije pojave


pokazuju neku međusobnu povezanost. Svrha je statističkog
rada utvrđivanje veza i međusobnih utjecaja između pojava.
Cilj je istražiti i kvantificirati stupanj ili jakost povezanosti
među promatranim pojavama, odnosno varijablama. Time se
bavi posebno područje statistike nazvano korelacijska
analiza.

• Nakon što je korelacijskom analizom utvrđeno postojanje


veze između promatranih varijabli, može se nastavak
istraživanja razvijati u smjeru utvrđivanja analitičkog izraza
ili algebarskog modela te veze, što je temeljni cilj regresijske
analize.
Funkcionalna i stohastička veza
• Funkcionalna povezanost determinističkog je karaktera, što
znači da svakoj vrijednosti jedne varijable odgovara točno
određena vrijednost druge varijable.
• Veze među pojavama koje istražuju društvene znanosti su
labavije. Zbog velikih individualnih razlika povezanosti među
raznim društvenim pojavama odstupaju u znatnoj mjeri od
potpune povezanosti jer se ne ponašaju deterministički, nego
stohastički. Te su veze slabije od funkcionalne što se može
definirati na način da određenoj vrijednosti jedne varijable
odgovara više različitih vrijednosti druge varijable. Takva
veza je statistička ili stohastička.
Obzirom da statistička veza nije potpuna (funkcionalna) cilj
nam je istražiti i kvantificirati stupanj ili jakost povezanosti
među promatranim pojavama, odnosno varijablama.

Svrha regresijske analize

Istovremena analiza dviju ili više varijabli

Varijabla 1 Varijabla 2 Varijabla 3 Varijabla 4

Veza koja je predmet regresijske i korelacijske analize može biti:


Veza, koja je predmet regresijsko korelacijske analize može biti:

FUNKCIONALNA VEZA STOHASTIČKA ILI STATISTIČKA VEZA

Y = f(X), Y = f(X) + u.
Dijagram rasipanja

ZA ODREĐIVANJE

OBLIK VEZE SMJER VEZE JAKOST VEZE

LINEARNA KRIVOLINIJSKA
Regresijska analiza
• Nakon što je korelacijskom analizom utvrđeno postojanje
veze između promatranih varijabli, može se nastavak
istraživanja razvijati u smjeru utvrđivanja analitičkog izraza
ili algebarskog modela te veze, što je temeljni cilj regresijske
analize.
• Regresijska analiza temeljena je na istraživanju uzročno-
posljedičnog karaktera veze. Jedna varijabla je uzrok a druga
posljedica. Prva se tretira kao nezavisna (regresorska) a
druga kao zavisna (regresand) varijabla. Analitički izraz
njihove povezanosti zove se regresijski model. Ako model
izražava vezu između zavisne i jedne nezavisne varijable riječ
je o jednostavnom regresijskom modelu. Ako model izražava
vezu zavisne i dvije ili više nezavisnih varijabli riječ je o
modelu multiple ili višestruke regresije. Regresijski modeli
mogu također izražavati i linearne i nelinearne veze među
promatranim varijablama. Cilj je predviđanje rezultata na
jednoj varijabli na temelju rezultata druge/drugih
varijable/varijabli ( jednostavna/multipla regresija).
Jednostavna linearna regresija
Regresijska analiza ima za cilj vezu između promatranih pojava
izraziti ili izrazom, odnosno regresijskim modelom.

Ako pretpostavimo postojanje zavisne (regresand) varijable Y i


samo jedne nezavisne (regresorske) varijable X, riječ je o jednostavno
regresijskom modelu.

Model jednostavne linearne regresije ili regresijska jednadžba je


oblika:

yˆ i  a  bxi
Metoda najmanjih kvadrata
• Međutim, subjektivnu proizvoljnu konstrukciju tih pravaca
zamijenit ćemo objektivnom ocjenom najboljeg ( tzv. “best-
fitting”) pravca. Ocjena najboljeg pravca temelji se na
primjeni posebne statističke tehnike koja se zove metoda
najmanjih kvadrata.


• Ocjena najboljeg pravca temelji se na primjeni posebne
statističke tehnike koja se zove metoda najmanjih kvadrata.
To je najpoznatija metoda ocjenjivanja regresijskih modela
(LSM Least Squares Method). Postavlja se osnovni zahtjev
da zbroj kvadrata odstupanja između empirijskih ( ) i
ocijenjenih vrijednosti ( ) zavisne varijable bude minimalna.

Jednostavna linearna
regresijska jednadžba
Jednostavna linearna regresijska jednadžba predstavlja procjenu pravca
regresije populacije.

Procijenjena Procjena Procjena


(prognozirana, regresijskog regresijskog
očekivana) y parametra- koeficijenta
vrijednost i– konstanta
tog opažanja Vrijednost

yˆ i  a  bxi
varijable x i-
tog opažanja
Metoda najmanjih kvadrata

f(x) = a + bx.

Parametri (a) i (b) ocjenjuju se metodom


najmanjih kvadrata (LSM).

 i i  min,
( y
i 1
 ˆ
y ) 2

(xi,yi)

REGRESIJSKI PRAVAC

yˆ i  a  bxi
Jednadžba jednostavne linearne regresije

yˆ i  a  bxi

a  y  bx  x y  nxy
i 1
i i
b n

x
i 1
2
i  nx 2

n xy   x   y
b
n x 2   x 
2
Tumačenje parametara regresijske jednadžbe

yˆ i  a  bxi

Parametar a interpretiramo kao vrijednost Parametar b se još naziva regresijski


regresije za vrijednost nezavisne koeficijent i on je najvažniji pokazatelj u
varijable nula. regresijskoj analizi.
Njegova nam interpretacija redovno nije bitna.
On nam pokazuje za koliki se iznos teoretski
(tj. prema dobivenoj jednadžbi)
mijenja zavisna varijabla, za jedinični porast
nezavisne varijable.

Regresijske su vrijednosti teoretske vrijednosti, vrijednosti koje bi zavisna varijabla


trebala poprimiti na temelju jednadžbe s ocijenjenim parametrima.
Korištenje regresijske jednadžbe u praksi

Regresijske su vrijednosti dobro sredstvo za prognoziranje.


Temeljem poznavanja vrijednosti jedne varijable (x) možemo
prognozirati, procijeniti, što će se događati s zavisnom
varijablom (y).
Ocjena reprezentativnosti regresije

Regresijski pravac je reprezentativniji što su mu točke na dijagramu rasipanja bliže.

Pritom koristimo jednadžbu analize varijance kao podlogu.

n n n

( y
i 1
i  y )   ( yˆ i  y )   ( yi  yˆ i ) 2
2

i 1
2

i 1

PROTUMAČENA SUMA NEPROTUMAČENA


UKUPNA SUMA KVADRATA
KVADRATA (rezidualna) SUMA KVADRATA
(SST) (SSE)
(SSR)

n n n

(y i  y) 2
 ( yˆ
i 1
i  y) 2
(y i  yˆ i ) 2
i 1 i 1
Jednadžba analize varijance
n n n

 i
( y  y )   i
2
( ˆ
y  y )   i i
( y2
 ˆ
y ) 2

Y i 1 i 1 i 1

yi 

y
SSE = (yi - yi )2

_2
SST = (yi - y)

y  _
SSR = (yi - y)2
_ _
y y

xi X
Jednadžba analize
varijance

• Ukupna odstupanje sastoje se od dva dijela

SST  SSR  SSE


UKUPAN PROTUMAČENIZBZ NEPROTUMAČENI
ZBROJ ZBROJ (rezidualnI) ZBROJ
KVADRATA KVADRATA KVADRATA
ODSTUPANJA ODSTUPANJA ODSTUPANJA

SST   (yi  y)
uares
2
SSR   (yˆ i  y) 2
SSE   (yi  yˆ i )2
y = aritmetička sredina zavisne varijable y
yi = Opažena vrijednost zavisne varijable y
ŷ i = Procijenjena (regresijska ) vrijednost varijable y za
određenu vrijednost xi
Ocjena reprezentativnosti regresije

Prikladna mjera reprezentativnosti je


varijanca regresije ili rezidualna varijanca.

(y i  yˆ i ) 2
 y2ˆ  i 1

Standardna devijacija regreijse

 i i
( y  ˆ
y ) 2

 yˆ  i 1

Ona predstavlja prosječno odstupanje opaženih, tj. empirijskih vrijednosti zavisne


varijable od pripadnih regresijskih vrijednosti.
Ocjena reprezentativnosti regresije

Koeficijent determinacije je pokazatelj reprezentativnosti regresijskog modela.

 ( yˆ i  y) 2
R2  i 1
n ,
(y
i 1
i  y) 2
Koeficijent determinacije, R2

• Što je vrijednost koeficijenta determinacije R2 bliže


jedinici, znači veću reprezentativnost regresije.

0 R 1 2
Jednostavna linearna regresijska jednadžba

PRISUSTSTVO NA USPJEH NA KOLOKVIJU (y)


SEMINARIMA (x)
7 96,7
7 40

8 65,7

7 75

8 93,3

6 28,3

7 82,8

5 88,6

5 30

8 56,7

6 26,7

6 40

7 56,7

3 8

8 96,7
IZVOR: Hrvatski studiji
39,50 % ukupnih odstupanja
OUTPUT (SPSS)
protumačeno je ovim regresijskim
modelom, dok je 60,5 % ukupnih
odstupanja nije protumačeno. Model Summaryb

Change Statistics
Model R Square Change F Change df1 df2 Sig. F Change
1 ,395 8,479 1 13 ,012
b. Dependent Variable: Uspjeh_na_kolokviju

ANOVAb
Model Sum of Squares df Mean Square F Sig.

1 Regression 4706,714 1 4706,714 8,479 ,012a


Residual 7216,203 13 555,093
Total 11922,917 14
a. Predictors: (Constant), Prisustvo_na_seminarima SSR 4706, 714
b. Dependent Variable: Uspjeh_na_kolokviju R2    0,395
SST 11922,917

Standardized
Coefficients

Model B Beta t Sig.


1 (Constant) -26,099 -,874 ,398

Prisustvo_na_seminarima 13,027 ,628 2,912 ,012


OUTPUT (SPSS)
USPOREDBA EXCEL I SPSS

SPSS
Koeficijent determinacije (R2) 39,50 % ukupnih odstupanja protumačeno je ovim
regresijskim modelom, dok je 60,5 % ukupnih odstupanja nije
protumačeno.

Korelacija (R)

Regresijska jednadžba ŷ = -26,099 + 13,027x

Regresijski koeficijent (b) Ako se varijabla x1 (prisustvo na seminarima) poveća za jednu


jedinicu mjere 1dolazak), očekujemo da će se uspjeh na
kolokviju povećati za 13,027 bodova.

You might also like