You are on page 1of 42

STATISTIKA

Prosta linearna regresija i


korelacija II
(primer)
Prof. Dr Slađana Spasić
E-mail:
sladjana.spasic@singidunim.ac.rs

Predavanje 13
Regresiona i
korelaciona analiza
Na ovom predavanju razmatraćemo međusobnu vezu dve
promenljive i to na osnovu:
1. regresione analize
2. korelacione analize.
Upotrebom regresionih modela može se oceniti kako se
menja jedna promenljiva pod uticajem promene druge
promenljive.
Koeficijent korelacije u korelacionoj analizi pokazuje da li
između varijacija dve promenljive postoji kvantitativno
slaganje, ali on ne daje informaciju o stepenu promene jedne
promenljive kojanastaje kao rezultat promene druge
promenljive.

Predavanje 13 / 1
Deterministička i
stohastička veza
Naše interesovanje ćemo usmeriti na istraživanje
međusobnih veza i uticaja između dve ili više pojava. Pojave
na osnovu veza između promenljivih možemo podeliti na
determinističke i stohastičke.
Deterministička veza se javlja kada jednoj vrednosti
nezavisno promenljive X odgovara tačno jedna vrednost
zavisno promenljive Y. Ova veza se još naziva egzaktna ili
funkcionalna.
Stohastičke veze su slabije i kod njih jednoj vrednosti
nezavisno promenljive X odgovara više mogućih vrednosti
zavisno promenljive Y. Svaku od tih vrednosti zavisno
promenljiva može uzeti sa određenom verovatnoćom, pa je
zavisno promenljiva Y slučajna promenljiva.
Predavanje 13 / 2
Deterministička i
stohastička veza
Suština stohastičke veze je sledeća:
Prosek Y = f (X)

Veze kod kojih porastu (opadanju) nezavisne


promenljive X odgovara porast (opadanje) zavisno
promenljive Y nazivaju se direktne veze.

Ako porastu X odgovara opadanje Y takve veze se


zovu inverzne (obrnute).

Osim ovoga, veze mogu biti linearne ili nelinearne.

Predavanje 13 / 3
Ciljevi regresione i
korelacione analize
Regresiona i korelaciona analiza primenjuju se u istraživanju
kvantitativnog slaganja varijacija između dve ili više pojava.

Kod regresione analize neophodno je unapred odrediti koja


pojava će imati ulogu nezavisne, a koja zavisne promenljive.
Ovo je određeno prirodom analiziranih pojava.

Kod korelacione analize je svejedno koja je pojava


okarakterisana kao nezavisno, a koja kao zavisno promenljiva.
Rezultat korelacione analize je isti u oba slučaja.
U slučaju korelacione analize više pojava potrebno je fiksirati
jednu zavisnu promenljivu, a ostale će biti nezavisne.

Predavanje 13 / 4
Ciljevi regresione i
korelacione analize
Cilj regresije je da se utvrdi priroda veze, tj. oblik zavisnosti
među posmatranim pojavama. Ovo se postiže odgovarajućim
regresionim modelima.
Regresioni model je statistički model koji matematičkim
formulama, uz određene pretpostavke najbolje opisuje
kvantitativnu zavisnost između varijacija posmatranih pojava u
realnosti. Kako je reč o stohastičkim vezama, regresioni model
pokazuje prosečno slaganje varijacija ispitivanih pojava.

Korelaciona analiza ispituje da li između varijacija


posmatranih pojava postoji slaganje i, ako postoji, u kom
stepenu.

Predavanje 13 / 5
Vrste regresionih modela

Prilikom istraživanja međusobnih veza dveju


promenljivih primenjuju se metode proste (linearne
i nelinearne) regresione i korelacione analize.

U slučaju više promenljivih reč je i metodama


višestruke (linearne i nelinearne) regresione i
korelacione analize.

Mi ćemo se ograničiti na linarne metode.

Predavanje 13 / 6
Prosta linearna regresija

Prost regresioni model je matematički model koji ima


samo dve promenljive: zavisnu i nezavisnu. Zavisna
promenljiva je ona čije varijacije treba objasniti na
osnovu promena nezavisne promenljive.

Prost linearni regresioni model je regresioni model


kojim se opisuje linearna veza između zavisne i
nezavisne promenljive.

Predavanje 13 / 7
Dijagram raspršenosti
Prvi korak u analizi zavisnosti dve pojave je grafičko
prikazivanje empirijske serije podataka, bilo da se odnose
na osnovni skup ili uzorak.

Na istim elementima skupa ili uzorka posmatramo dva


obeležja, npr. kod 20 firmi posmatramo troškove reklame i
obim prodaje. Zatim treba identifikovati koje obeležje
predstavlja nezavisno promenljivu X, a koje zavisno
promenljivu Y. Tako se dobija niz od n (N) uređenih parova
(X1,Y1), (X2,Y2), ..., (Xn,Yn).

Na apscisu se nanose vrednosti nezavisno promenljive X, a


na ordinatu vrednosti zavisno promenljive Y. Takav grafički
prikaz naziva se dijagram raspršenosti.
Predavanje 13 / 8
Prost linearni regresioni
model
Podsetimo se jednačine prave:

Linearna jednačina ili jednačina linearne veze u ovom


slučaju:
y = a + bx

x je nezavisno promenljiva
y je zavisno promenljiva
a je konstanta u linearnoj jednačini otsečak na y osi
b je koeficijent nagiba prave

Predavanje 13 / 9
Prost linearni regresioni
model
Cilj regresije je predvideti vrednosti y za pojedine vrednosti x.
Kako je reč o stohastičkim vezama između x i y ne može se
tačno predvideti vrednost y za određenu vrednost x.

Zato se kao moguće rešenje traži regresiona prava (kriva)


koja će najmanje odstupati od empirijskih podataka.

Određivanje koeficijenata te linearne jednačine omogućuje


nam da vršimo traženo predviđanje. Takvo predviđanje neće
biti egzaktno jer se mora uzeti u obzir i greška zbog
stohastičke prirode veze.

Predavanje 13 / 10
Prost linearni regresioni
model
Model proste linearne regresije u opštem obliku:
Yi = β0 + β1xi + εi i =1, 2,…, N
gde su
Yi i-ta zavisna promenljiva
xi i-ta vrednost nezavisna promenljiva
β0 i β1 nepoznate konstante, regresioni parametri
εi stohastički član ili slučajna greška
N veličina osnovnog skupa
Nezavisno promenljiva X se naziva objašnjavajućom
promenljivom jer pomoću nje pokušavamo da objasnimo
varijacije promenljive Y.

Predavanje 13 / 11
Ocenjivanje:
Metod najmanjih kvadrata
Na osnovu dijagrama raspršenosti odabira se tip krive koji
najviše odgovara empirijskim podacima. Tek tada na osnovu
dijagrama, ako on ukazuje na linearnu vezu dveju pojava,
prelazimo na drugu etapu regresione analize – ocenjivanje
nepoznatih parametara: slobodnog člana β0 i koeficijenta
nagiba β1.
Slučajnom greškom u stohastičkom regresionom modelu
obuhvaćene su:
1. nedostajuće ili izostavljene promenljive (efekti
promenljivih koje nisu direktno uključene u model),
2. slučajne varijacije (domaćinstvo može u jednom mesecu
da organizuje više zabava i potroši više na hranu, a sledećeg
meseca zbog dečje ekskurzije ili kupovine nameštaja
prištedeće na hrani.
Predavanje 13 / 12
Ocenjivanje:
Metod najmanjih kvadrata
U regresionom modelu su β0 i β1 parametri osnovnog skupa.
Međutim, kako nisu poznati svi podaci o osnovnom skupu,
regresioni model osnovnog skupa ocenjujemo na osnovu
podataka iz uzorka. Ocene nepoznatih parametara, odsečka β0
i koeficijenta nagiba β1 se označavanju sa b0 i b1.

Cilj je da se na osnovu uzorka dođe do najboljih mogućih


ocena b0 i b1 i time postavi ocenjeni model uzorka (linija
regresije u uzorku):
Yˆi  b0  b1 xi
gde je Yˆ ona vrednost Y koja se tačno nalazi na najbolje
i
prilagođenoj liniji regresije, pa se naziva prilagođena ili
predviđena vrednost Y.
Predavanje 15 / 13
Ocenjivanje:
Metod najmanjih kvadrata
Stvarne vrednosti promenljive Y nazivaju se empirijske
vrednosti. Razlika između stvarne i očekivane (prosečne)
vrednosti Y u osnovnom skupu predstavlja slučajnu grešku ε.
Npr. To je razlika između iznosa koje je domaćinstvo jednog meseca stavrno
potrošili za hranu i prosečne vrednosti dobijene na osnovu regresione prave
osnovnog skupa.

Razlika između stvarne i ocenjene vrednosti Y u uzorku naziva


se rezidual i označava se sa e. Rezidual predstavlja ocenu
slučajne greške, ε.
e  Y  Yˆ
gde je Y stvarna vrednost , a Yˆ ocenjena vrednost Y.

Predavanje 13 / 14
Ocenjivanje:
Metod najmanjih kvadrata

Dijagram raspršenosti i Suma svih reziduala


regresione prave je uvek jednaka 0.

 
e  (Y  Yˆ )0
Predavanje 13 / 15
Ocenjivanje:
Metod najmanjih kvadrata
Kako je suma svih reziduala jednaka 0 njenim
minimiziranjem i ne možemo dobiti najbolje prilagođenu
regresionu krivu, ali minimiziranjem sume kvadrata
reziduala (SKR) mogu se dobiti vrednosti b0 i b1 u
regresionom modelu uzorka. Od svih mogućih pravih linija
treba odabrati onu koja ima najmanju sumu kvadrata
vertikalnih odstupanja (reziduala).

SKR   e   (Y  Y )
2
ˆ 2

gde je Y stvarna vrednost , a Yˆ ocenjena vrednost Y.


Minimiziranjem sume kvadrata reziduala dobijaju se b0 i b1,
kao ocene regresionih parametara β0 i β1.
Predavanje 13 / 16
Ocenjivanje:
Metod najmanjih kvadrata
Koeficijenti regresione prave uzorka, odnosno ocene po
metodu najmanjih kvadrata glase:
SPxy
b1  b0  Y  b1 X
SK xx

SPxy   XY 
 X Y SK xx   X 2 
( X ) 2
n n
gde je SK i SP označavaju odgovarajuću sumu kvadrata i
sumu proizvoda.

Predavanje 13 / 17
Testiranje značajnosti
regresione veze

Da bi primena regresione linije uzorka pri predviđanju


vrednosti zavisne promenljive Y bila opravdana,
neophodno je prethodno ispitati da li uopšte postoji
linearno slaganje između varijacija posmatrane dve
promenljive u osnovnom skupu.

Prilikom testiranja hipoteze o regresionom parametru β1


testiramo nultu hipotezu da je parametar β1=0 što je
ekvivalentno hipotezi da promenljiva X ne utiče na
promenljivu Y.

Predavanje 13 / 18
Testiranje značajnosti
regresione veze

Nulte i alternativna hipoteza o regresionom parametru β1:


H0: β1 = 0 (Između varijacija posmatranih pojava ne postoji
linearna veza, odnosno X ne utiče na Y)
H1: β1 ≠ 0 (Između varijacija posmatranih pojava postoji
linearna veza, odnosno X utiče na Y)

Statistika t testa za testiranje hipoteze o β1 glasi:

b1   1 b1 s
t  S b1 
S b1 S b1  x 2
 n  x 2

Broj stepeni slobode je df = n - 2 . Testiranje se sprovodi na


isti način kao kod aritmetičke sredine skupa.
Predavanje 13 / 19
Prosta linearna korelacija

Cilj korelacione analize je da se utvrdi da li između


varijacija posmatranih pojava postoji kvantitativno
slaganje (korelaciona veza) i ako postoji u kom stepenu.

Ako se posmatraju dve pojave reč je o prostoj korelaciji, a


ako je reč o više pojava onda o višestrukoj korelaciji.

Takođe moguće je ispitati da li je reč o linearnoj ili


krivolinijskoj vezi.

Mi ćemo govoriti o prostoj linearnoj korelaciji.

Predavanje 13 / 20
Prosta linearna korelacija

Za razliku od regresione analize u korelacionoj analizi se


obe posmatrane pojave tretiraju kao slučajne promenljive.
Ovde nema razlike između zavisne i nezavisne
promenljive. Svejedno je koju ćemo pojavu označiti sa X
a koju sa Y, jer će se dobiti identični rezultati.

Zadatak proste linearne korelacije jeste da pokaže da


između varijacija dve pojave postoji prosta pravolinijska
veza.

Predavanje 13 / 21
Koeficijent proste
linearne korelacije

Koeficijent korelacije predstavlja pokazatelj stepena


kvantitativnog slaganja između promenljivih. Koeficijent proste
linearne korelacije u osnovnom skupu obeležava se sa ρ, a u
uzorku sa r i može uzeti vrednosti samo u intervalu -1 i 1, tj.
-1 ≤ ρ ≤ 1 i -1 ≤ r ≤ 1

Ako je r = 1 između dve promenljive postoji perfektna pozitivna


linearna korelacija, tj. sve tačke dijagrama raspršenosti se
nalaze na rastućoj pravoj.

Ako je r = -1 između dve promenljive postoji perfektna


negativna linearna korelacija, tj. sve tačke dijagrama
raspršenosti se nalaze na opadajućoj pravoj.
Predavanje 13 / 22
Koeficijent proste
linearne korelacije

Ako su empirijske tačke raspršene svuda po dijagramu tada


između dve promenljive ne postoji linearna korelacija i tada je
r ≈ 0.

Koeficijent proste linearne korelacije između dve promenljive u


uzorku ili Pirsonov koeficijent korelacije, r, se izračunava kao:

n xy   x  y
r
n  x 2  ( x ) 2  n y 2  ( y ) 2

Formula je simetrična u odnosu na promenljive X i Y, pa je sve


jedno koju smo promenljivu kako označili.
Predavanje 13 / 23
Testiranje značajnosti ocene
koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacije


na osnovnom skupu ρ, na osnovu njegove ocene iz
slučajnog uzirka r se zasniva na pretpostavci o normalnosti
zajedničke raspodele za promenljive X i Y. Prilikom testiranja
koristimo t raspodelu verovatnoća.

Nulta hipoteza H0: ρ = 0 (u osnovnom skupu ne postoji


linearna korelacija između dve promenljive)

Alternativna hipoteza H1: ρ ≠ 0 (u osnovnom skupu postoji


linearna korelacija između dve promenljive)

Predavanje 13 / 24
Testiranje značajnosti ocene
koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacije


na osnovnom skupu ρ se svodi na određivanje vrednosti
statistike testa koja ima Studentovu t raspodelu sa (n – 2)
stepena slobode:

n2
tr
1 r 2

gde je r ocenjena vrednost parametra ρ.

Predavanje 13 / 25
Regresiona analiza:
kompletan primer

Vozačko Premija auto


Primer: iskustvo osiguranja
Izabran je uzorak od 8 5 64
vozača koji poseduju polise
2 87
osiguranja. U tabeli se
nalaze podaci o vozačkom 12 50
iskustvu u godinama i iznosu 9 71
mesečne premije auto 15 44
osiguranja u evrima.
6 56
25 42
16 60

Predavanje 13 / 26
Regresiona analiza:
kompletan primer

1. Da li premija auto osiguranja zavisi od vozačkog iskustva ili vozačko


iskustvo zavisi od premije osiguranja?
2. Da li se očekuje pozitivna ili negativna korelaciona veza između dve
promenljive?

Rešenje: Intuitivno, a i na osnovu teorije očekujemo da će premija


osiguranja zavisiti od vozačkog iskustva. To znači da će premija
osiguranja biti zavisna, a vozačko iskustvo objašnjavajuća promenljiva
u regresionom modelu.

Nove vozače osiguravajuće kuće tretiraju kao vozače visokog rizika, pa


oni moraju da plate veće iznose premija. Zato, očekujemo da će
linearna veza biti negativna, odnosno da će biti negativan znak
koeficijenta korelacije osnovnog skupa ρ i regresionog parametra
osnovnog skupa β1.

Predavanje 13 / 27
Regresiona analiza: primer
3. Izračunati SKxx, SKyy i SKxy
Vozačko Premija auto
iskustvo, x osiguranja, y xy x2 y2
5 64 320 25 4096
2 87 174 4 7569
12 50 600 144 2500
9 71 639 81 5041
15 44 660 225 1936
6 56 336 36 3136
25 42 1050 625 1764
16 60 960 256 3600
Σx=90 Σy=474 Σxy=4739 Σx2=1396 Σx2=29642

Predavanje 13 / 28
Regresiona analiza: primer

Vrednosti aritmetičkih sredina za x i y su:

x
 x 90
  11,25 y
 y 474
  59,25
n 8 n 8
SK i SP označavaju odgovarajuće sume kvadrata i sume proizvoda.

SPxy   xy 
 x y
 4739 
90  474
 593,5000
n 8
( x ) 2 90 2
SK xx   x 2   1396   383,5000
n 8
( y ) 2 474 2
SK xy   y 2   29642   1557,5000
n 8
Predavanje 13 / 29
Regresiona analiza: primer

4. Na osnovu objašnjavajuće i zavisne promenljive iz 1.


odrediti regresionu pravu po metodu najmanjih kvadrata.

Koeficijenti regresione prave uzorka, odnosno ocene po


metodu najmanjih kvadrata glase:
SPxy  593,5000
b1    1,5476
SK xx 383,5000
b0  y  b1 x  559,25  (1,5476)  11,25  76,6605
Ocenjena linija regresije u ovom primeru glasi:

yˆ  b0  b1 x  76,6605  1,5476 x
Predavanje 13 / 30
Regresiona analiza:
kompletan primer

5. Objasniti značenje dobijenih ocenjenih vrednosti b0 i b1.

Rešenje: Ocenjena vrednost b0 predstavlja ŷ vrednost


za x=0. To je prosečni mesečni nivo premije osiguranja
za vozača bez vozačkog iskustva.

Ocenjena vrednost b1 = -1,5476 pokazuje da sa


porastom vozačkog iskustva za 1 godinu, mesečna
premija osiguranja u proseku opada za oko 1,55 evra.
Kako je b1 negativno, y opada sa porastom x.

Predavanje 13 / 31
Regresiona analiza:
kompletan primer

6. Nacrtati dijagram raspršenosti i ocenjenu regresionu


pravu. Dijagram raspršenosti i regresiona prava

100
Premija osiguranja

90
80
70
60
Series1
50 Linear (Series1)

40
30
20
10
0
0 10 20 30
Vozačko iskustvo

Predavanje 13 / 32
Koeficijent proste
linearne korelacije
7. Izračunajte koeficijente r i r2 i objasnite njihovo značenje.

Koeficijent proste linearne korelacije između dve promenljive u uzorku, r, se


izračunava kao:
n xy   x  y
r 
n x  ( x )  n y  ( y )
2 2 2 2

SPxy  593,5 r 2  (0,77) 2  0,59


  0,77
SK xx SK yy 383,5  1557,5
Vrednost r = -0,77 ukazuje da u uzorku od 8 vozača postoji jaka negativna
korelaciona veza između vozačkog iskustva i mesečne premije auto
osiguranja. Vrednost r 2 se naziva koeficijent determinacije i ukazuje da je
59% ukupnih varijacija mesečne premije objašnjeno vozačkim iskustvom, a
41% je rezultat drugih uticaja.

Predavanje 13 / 33
Regresiona analiza: primer

8. Oceniti mesečnu premiju auto osiguranja vozača sa 10


godina vozačkog iskustva.

Na osnovu regresione prave uzorka, ocenjena vrednost y za


x=10 iznosi:

yˆ  b0  b1 x  76,6605  1,5476 x
 76,6605  1,5476  10  61,18 evra

Očekivani mesečni iznos premije auto osiguranja vozača sa


10 godina iskustva je 61,18 evra.
Predavanje 13 / 34
Regresiona analiza: primer

9. Izračunati standardnu grešku regresije.

Standardna greška regresije je ocena standardne devijacije


slučajne greške, S i iznosi:

SK yy  b1 SPxy 1557,5  (1,5476)  (593,5)


s   10,3199
n2 82

Predavanje 13 / 35
Regresiona analiza: primer
9. Formirati 90% interval poverenja za parametar β1.

Ocenjena vrednost standardne greške ocene b1:


s s 10,3199
S b1     0,5270
SK xx x 2
 n x2 383,5

Za 90% interval poverenja, površina na svakom kraju pod


krivom t raspodele je: α/2 = (1-0,90)/2 = 0,05 , a broj stepeni
slobode je df = n -2 = 8–2 = 6.
Na osnovu tablice t raspodele, tablična vrednost za α/2=0,05
i df =6 je 1,943.
90% interval poverenja za parametar β1 je
b1± tsb1= -1,5476±1,943 (0,5270)= -1,5476±1,0240
-2,57 < β1 < 2,57
Predavanje 13 / 36
Testiranje hipoteze o parametru β1

10. Sa nivoom značajnosti od 5% testirajte hipotezu da je β1


negativno.

Testiranje se obavlja u 5 etapa.


Korak 1. Formulisanje nulte i alternativne hipoteze:
H0: β1 = 0 (Regresioni parametar je jednak 0)
H1: β1 < 0 (Regresioni parametar je manji od 0)

Korak 2. Izbor raspodele koja će se koristiti.


Kako σε nije poznato, za testiranje hipoteze ćemo koristiti t raspodelu,
odnosno t statistiku testa.

Predavanje 13 / 37
Testiranje hipoteze o parametru β1

Korak 3. Određivanje oblasti odbacivanja i neodbacivanja


Nivo značajnosti je α=0,05. Znak < u alternativnoj hipotezi ukazuje da je test
levostran, sa jednom oblašću odbacivanja nulte hipoteze sa leve strane.
Površina na levom kraju krive t raspodele je α = 0,05.
Broj stepeni slobode je df = n -2 = 8 – 2 = 6
Kritična vrednost t se nalazi u tablicama za t raspodelu, za vrednosti df = 6 i
površine (plavo) ispod krive t raspodele za 0,05 i iznosi -1,943.

α =0,05

-1,943 0
Odbacuje se H0 Ne odbacuje se H0
Predavanje 13 / 38
Testiranje hipoteze o parametru β1

Korak 4. Izračunavanje vrednosti statistike testa

Vrednost statistike testa izračunavamo na sledeći način:


Iz H0
b1  1 - 1,5476 - 0
t   2,937
sb1 0,5270

Predavanje 13 / 39
Testiranje hipoteze o parametru β1

Korak 5. Donošenje odluke


Pošto se realizovana vrednost statistike t testa, t = -2,937
nalazi u oblasti odbacivanja nulte hipoteze donosimo odluku
o odbacivanju nulte hipoteze.

Sledi da nultu hipotezu odbacujemo uz nivo značajnosti od


0,05 i zaključujemo da je, na osnovu podataka u uzorku,
parametar β1 negativan, odnosno da mesečni iznos premije
auto osiguranja u osnovnom skupu vozača u proseku opada
sa povećanjem vozačkog iskustva.

Predavanje 13 / 40
Hvala
na pažnji!

Predavanje 13

You might also like