You are on page 1of 32

STATISTIKA

Prosta linearna regresija i


korelacija I
Prof. Dr Slađana Spasić
E-mail:
sladjana.spasic@singidunim.ac.rs

Predavanje 12
Regresiona i
korelaciona analiza
Na ovom predavanju razmatraćemo međusobnu vezu dve
promenljive i to na osnovu:
1. regresione analize
2. korelacione analize.
Upotrebom regresionih modela može se oceniti kako se
menja jedna promenljiva pod uticajem promene druge
promenljive.
Koeficijent korelacije u korelacionoj analizi pokazuje da li
između varijacija dve promenljive postoji kvantitativno
slaganje, ali on ne daje informaciju o stepenu promene jedne
promenljive koja nastaje kao rezultat promene druge
promenljive.

Predavanje 12 / 1
Deterministička i
stohastička veza
Naše interesovanje ćemo usmeriti na istraživanje
međusobnih veza i uticaja između dve ili više pojava. Pojave
na osnovu veza između promenljivih možemo podeliti na
determinističke i stohastičke.
Deterministička veza se javlja kada jednoj vrednosti
nezavisno promenljive X odgovara tačno jedna vrednost
zavisno promenljive Y. Ova veza se još naziva egzaktna ili
funkcionalna.
Stohastičke veze su slabije i kod njih jednoj vrednosti
nezavisno promenljive X odgovara više mogućih vrednosti
zavisno promenljive Y. Svaku od tih vrednosti zavisno
promenljiva može uzeti sa određenom verovatnoćom, pa je
zavisno promenljiva Y slučajna promenljiva.
Predavanje 12 / 2
Deterministička i
stohastička veza
Suština stohastičke veze je sledeća:
Prosek Y = f (X)

Veze kod kojih porastu (opadanju) nezavisne


promenljive X odgovara porast (opadanje) zavisno
promenljive Y nazivaju se direktne veze.

Ako porastu X odgovara opadanje Y takve veze se


zovu inverzne (obrnute).

Osim ovoga, veze mogu biti linearne ili nelinearne.

Predavanje 12 / 3
Ciljevi regresione i
korelacione analize
Regresiona i korelaciona analiza primenjuju se u istraživanju
kvantitativnog slaganja varijacija između dve ili više pojava.

Kod regresione analize neophodno je unapred odrediti koja


pojava će imati ulogu nezavisne, a koja zavisne promenljive.
Ovo je određeno prirodom analiziranih pojava.

Kod korelacione analize je svejedno koja je pojava


okarakterisana kao nezavisno, a koja kao zavisno promenljiva.
Rezultat korelacione analize je isti u oba slučaja.
U slučaju korelacione analize više pojava potrebno je fiksirati
jednu zavisnu promenljivu, a ostale će biti nezavisne.

Predavanje 12 / 4
Ciljevi regresione i
korelacione analize
Cilj regresije je da se utvrdi priroda veze, tj. oblik zavisnosti
među posmatranim pojavama. Ovo se postiže odgovarajućim
regresionim modelima.
Regresioni model je statistički model koji matematičkim
formulama, uz određene pretpostavke najbolje opisuje
kvantitativnu zavisnost između varijacija posmatranih pojava u
realnosti. Kako je reč o stohastičkim vezama, regresioni model
pokazuje prosečno slaganje varijacija ispitivanih pojava.

Korelaciona analiza ispituje da li između varijacija


posmatranih pojava postoji slaganje i, ako postoji, u kom
stepenu.

Predavanje 12 / 5
Vrste regresionih modela

Prilikom istraživanja međusobnih veza dveju


promenljivih primenjuju se metode proste (linearne
i nelinearne) regresione i korelacione analize.

U slučaju više promenljivih reč je o metodama


višestruke (linearne i nelinearne) regresione i
korelacione analize.

Mi ćemo se ograničiti na linarne metode.

Predavanje 12 / 6
Prosta linearna regresija

Prost regresioni model je matematički model koji


ima samo dve promenljive: zavisnu i nezavisnu.
Zavisna promenljiva je ona čije varijacije treba
objasniti na osnovu promena nezavisne promenljive.

Prost linearni regresioni model je regresioni


model kojim se opisuje linearna veza između
zavisne i nezavisne promenljive.

Predavanje 12 / 7
Prosta linearna regresija

A B

Izdaci za hranu
Izdaci za hranu

Linearna
veza Nelinearna
veza

Dohodak Dohodak
Primer: Veza između mesečnih izdataka za hranu i dohotka
porodice.
Slika A prikazuje lineranu vezu, a slika B nelineranu vezu.

Predavanje 12 / 8
Dijagram raspršenosti

Prvi korak u analizi zavisnosti dve pojave je grafičko


prikazivanje empirijske serije podataka, bilo da se odnose
na osnovni skup ili uzorak.
Na istim elementima skupa ili uzorka posmatramo dva
obeležja, npr. kod 20 firmi posmatramo troškove reklame i
obim prodaje. Zatim treba identifikovati koje obeležje
predstavlja nezavisno promenljivu X, a koje zavisno
promenljivu Y. Tako se dobija niz od n (N) uređenih parova
(X1,Y1), (X2,Y2), ..., (Xn,Yn). Na apscisu se nanose vrednosti
nezavisno promenljive X, a na ordinatu vrednosti zavisno
promenljive Y. Takav grafički prikaz naziva se dijagram
raspršenosti.

Predavanje 12 / 9
Prost linearni regresioni
model
Podsetimo se jednačine prave:

Linearna jednačina ili jednačina linearne veze u ovom


slučaju:
y = a + bx

x je nezavisno promenljiva
y je zavisno promenljiva
a je konstanta u linearnoj jednačini odsečak na y osi
b je koeficijent nagiba prave

Predavanje 12 / 10
Eksplicitni oblik jednačine prave

Y T (0,1)
2
y  x 1 3
3
2

2
y  -3 x-2  1-1
-4 0 1 2 3 4 5 X
3
-1

-2

Predavanje 12 / 11
Eksplicitni oblik jednačine prave

2 Y
y   x 1
3 3

-4 -3 -2 -1 0 1 2 3 4 5 X

-1
2
y  x 1
3 -2

Predavanje 12 / 12
Prost linearni regresioni
model
Cilj regresije je predvideti vrednosti y za pojedine vrednosti x.
Kako je reč o stohastičkim vezama između x i y ne može se
tačno predvideti vrednost y za određenu vrednost x.

Zato se kao moguće rešenje traži regresiona prava (kriva)


koja će najmanje odstupati od empirijskih podataka.

Određivanje koeficijenata te linearne jednačine omogućuje


nam da vršimo traženo predviđanje. Takvo predviđanje neće
biti egzaktno jer se mora uzeti u obzir i greška zbog
stohastičke prirode veze.

Predavanje 12 / 13
Prost linearni regresioni
model
Model proste linearne regresije u opštem obliku:
Yi = β0 + β1xi + εi i =1, 2,…, N
gde su
Yi i-ta zavisna promenljiva
xi i-ta vrednost nezavisne promenljive
β0 i β1 nepoznate konstante, regresioni parametri
εi stohastički član ili slučajna greška
N veličina osnovnog skupa
Nezavisno promenljiva X se naziva objašnjavajućom
promenljivom jer pomoću nje pokušavamo da objasnimo
varijacije promenljive Y.

Predavanje 12 / 14
Ocenjivanje:
Metod najmanjih kvadrata
Na osnovu dijagrama raspršenosti bira se tip krive koji najviše
odgovara empirijskim podacima. Tek tada na osnovu
dijagrama, ako on ukazuje na linearnu vezu dveju pojava,
prelazimo na drugu etapu regresione analize – ocenjivanje
nepoznatih parametara: slobodnog člana β0 i koeficijenta
nagiba β1.
Slučajnom greškom u stohastičkom regresionom modelu
obuhvaćene su:
1. nedostajuće ili izostavljene promenljive (efekti
promenljivih koje nisu direktno uključene u model),
2. slučajne varijacije (domaćinstvo može u jednom mesecu
da organizuje više zabava i potroši više na hranu, a sledećeg
meseca zbog dečje ekskurzije ili kupovine nameštaja
prištedeće na hrani.)
Predavanje 12 / 15
Ocenjivanje:
Metod najmanjih kvadrata
U regresionom modelu su β0 i β1 parametri osnovnog skupa.
Međutim, kako nisu poznati svi podaci o osnovnom skupu,
regresioni model osnovnog skupa ocenjujemo na osnovu
podataka iz uzorka. Ocene nepoznatih parametara, odsečka β0
i koeficijenta nagiba β1 se označavanju sa b0 i b1.

Cilj je da se na osnovu uzorka dođe do najboljih mogućih


ocena b0 i b1 i time postavi ocenjeni model uzorka (linija
regresije u uzorku):
Yˆi  b0  b1 xi
gde je Yˆ ona vrednost Y koja se tačno nalazi na najbolje
i
prilagođenoj liniji regresije, pa se naziva prilagođena ili
predviđena vrednost Y.
Predavanje 12 / 16
Ocenjivanje:
Metod najmanjih kvadrata
Stvarne vrednosti promenljive Y nazivaju se empirijske
vrednosti. Razlika između stvarne i očekivane (prosečne)
vrednosti Y u osnovnom skupu predstavlja slučajnu grešku ε.
Npr. To je razlika između iznosa koje je domaćinstvo jednog meseca stvarno
potrošilo za hranu i prosečne vrednosti dobijene na osnovu regresione
prave osnovnog skupa.

Razlika između stvarne i ocenjene vrednosti Y u uzorku naziva


se rezidual i označava se sa e. Rezidual predstavlja ocenu
slučajne greške, ε.
e  Y  Yˆ
gde je Y stvarna vrednost , a Yˆ ocenjena vrednost Y.

Predavanje 12 / 17
Ocenjivanje:
Metod najmanjih kvadrata

Dijagram raspršenosti i Suma svih reziduala


regresione prave je uvek jednaka 0.

 
e  (Y  Yˆ )0
Ocenjivanje:
Metod najmanjih kvadrata
Kako je suma svih reziduala jednaka 0 njenim
minimiziranjem i ne možemo dobiti najbolje prilagođenu
regresionu krivu, ali minimiziranjem sume kvadrata
reziduala (SKR) mogu se dobiti vrednosti b0 i b1 u
regresionom modelu uzorka. Od svih mogućih pravih linija
treba odabrati onu koja ima najmanju sumu kvadrata
vertikalnih odstupanja (reziduala).

SKR   e   (Y  Y )
2
ˆ 2

gde je Y stvarna vrednost , a Yˆ ocenjena vrednost Y.


Minimiziranjem sume kvadrata reziduala dobijaju se b0 i b1,
kao ocene regresionih parametara β0 i β1.
17. 5. 2010. Beograd Predavanje 12 / 20
Ocenjivanje:
Metod najmanjih kvadrata
Koeficijenti regresione prave uzorka, odnosno ocene po
metodu najmanjih kvadrata glase:
SPxy
b1  b0  Y  b1 X
SK xx

SPxy   XY 
 X Y SK xx   X 2 
( X ) 2
n n
gde je SK i SP označavaju odgovarajuću sumu kvadrata i
sumu proizvoda.

Predavanje 12 / 21
Testiranje značajnosti
regresione veze

Da bi primena regresione linije uzorka pri predviđanju


vrednosti zavisne promenljive Y bila opravdana,
neophodno je prethodno ispitati da li uopšte postoji
linearno slaganje između varijacija posmatrane dve
promenljive u osnovnom skupu.

Prilikom testiranja hipoteze o regresionom parametru β1


testiramo nultu hipotezu da je parametar β1=0 što je
ekvivalentno hipotezi da promenljiva X ne utiče na
promenljivu Y.

Predavanje 12 / 22
Testiranje značajnosti
regresione veze

Nulte i alternativna hipoteza o regresionom parametru β1:


H0: β1 = 0 (Između varijacija posmatranih pojava ne postoji
linearna veza, odnosno X ne utiče na Y)
H1: β1 ≠ 0 (Između varijacija posmatranih pojava postoji
linearna veza, odnosno X utiče na Y)

Statistika t testa za testiranje hipoteze o β1 glasi:

b1   1 b1 s
t  S b1 
S b1 S b1  x 2
 n  x 2

Broj stepeni slobode je df = n - 2 . Testiranje se sprovodi na


isti način kao kod aritmetičke sredine skupa.
17. 5. 2010. Beograd Predavanje 12 / 23
Prosta linearna korelacija

Cilj korelacione analize je da se utvrdi da li između


varijacija posmatranih pojava postoji kvantitativno
slaganje (korelaciona veza) i ako postoji u kom stepenu.

Ako se posmatraju dve pojave reč je o prostoj korelaciji, a


ako je reč o više pojava onda o višestrukoj korelaciji.

Takođe moguće je ispitati da li je reč o linearnoj ili


krivolinijskoj vezi.

Mi ćemo govoriti o prostoj linearnoj korelaciji.

Predavanje 12 / 24
Prosta linearna korelacija

Za razliku od regresione analize u korelacionoj analizi se


obe posmatrane pojave tretiraju kao slučajne promenljive.
Ovde nema razlike između zavisne i nezavisne
promenljive. Svejedno je koju ćemo pojavu označiti sa X
a koju sa Y, jer će se dobiti identični rezultati.

Zadatak proste linearne korelacije jeste da pokaže da


između varijacija dve pojave postoji prosta pravolinijska
veza.

Predavanje 12 / 25
Koeficijent proste
linearne korelacije

Koeficijent korelacije predstavlja pokazatelj stepena


kvantitativnog slaganja između promenljivih. Koeficijent proste
linearne korelacije u osnovnom skupu obeležava se sa ρ, a u
uzorku sa r i može uzeti vrednosti samo u intervalu -1 i 1, tj.
-1 ≤ ρ ≤ 1 i -1 ≤ r ≤ 1

Ako je r = 1 između dve promenljive postoji perfektna pozitivna


linearna korelacija, tj. sve tačke dijagrama raspršenosti se
nalaze na rastućoj pravoj.

Ako je r = -1 između dve promenljive postoji perfektna


negativna linearna korelacija, tj. sve tačke dijagrama
raspršenosti se nalaze na opadajućoj pravoj.
Predavanje 12 / 26
Linearna korelacija između
dve promenljive

Veoma jaka pozitivna Slaba pozitivna linearna korelacija


linearna korelacija, r ≈ 1 r ≈ 0, r >0

Predavanje 12 / 27
Linearna korelacija između
dve promenljive

Veoma jaka negativna Slaba negativna linearna


linearna korelacija, r ≈ -1 korelacija r ≈ 0, r < 0

Predavanje 12 / 28
Koeficijent proste
linearne korelacije

Ako su empirijske tačke raspršene svuda po dijagramu tada


između dve promenljive ne postoji linearna korelacija i tada je
r ≈ 0.

Koeficijent proste linearne korelacije između dve promenljive u


uzorku ili Pirsonov koeficijent korelacije, r, se izračunava kao:

n xy   x  y
r
n  x 2  ( x ) 2  n y 2  ( y ) 2

Formula je simetrična u odnosu na promenljive X i Y, pa je sve


jedno koju smo promenljivu kako označili.
Predavanje 12 / 29
Testiranje značajnosti ocene
koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacije


na osnovnom skupu ρ, na osnovu njegove ocene iz
slučajnog uzorka r se zasniva na pretpostavci o normalnosti
zajedničke raspodele za promenljive X i Y. Prilikom testiranja
koristimo t raspodelu verovatnoća.

Nulta hipoteza H0: ρ = 0 (u osnovnom skupu ne postoji


linearna korelacija između dve promenljive)

Alternativna hipoteza H1: ρ ≠ 0 (u osnovnom skupu postoji


linearna korelacija između dve promenljive)

Predavanje 12 / 30
Testiranje značajnosti ocene
koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacije


na osnovnom skupu ρ se svodi na određivanje vrednosti
statistike testa koja ima Studentovu t raspodelu sa (n – 2)
stepena slobode:

n2
tr
1 r 2

gde je r ocenjena vrednost parametra ρ.

Predavanje 12 / 31
Hvala
na pažnji!

Predavanje 12

You might also like