You are on page 1of 42

STATISTIKA

Prosta linearna regresija


(primer)
Doc. Dr Slaana Spasi
E-mail:
sladjana.spasic@singidunim.ac.rs

Ass. Ana Simievi


E-mail:
asimicevic@singidunim.ac.rs

7. 6. 2010. Beograd Predavanje 15


Regresiona i
korelaciona analiza
Na ovom predavanju razmatraemo meusobnu vezu dve
promenljive i to na osnovu:
1. regresione analize
2. korelacione analize.
Upotrebom regresionih modela moe se oceniti kako se
menja jedna promenljiva pod uticajem promene druge
promenljive.
Koeficijent korelacije u korelacionoj analizi pokazuje da li
izmeu varijacija dve promenljive postoji kvantitativno
slaganje, ali on ne daje informaciju o stepenu promene jedne
promenljive kojanastaje kao rezultat promene druge
promenljive.

7. 6. 2010. Beograd Predavanje 15 / 1


Deterministika i
stohastika veza
Nae interesovanje emo usmeriti na istraivanje
meusobnih veza i uticaja izmeu dve ili vie pojava. Pojave
na osnovu veza izmeu promenljivih moemo podeliti na
deterministike i stohastike.
Deterministika veza se javlja kada jednoj vrednosti
nezavisno promenljive X odgovara tano jedna vrednost
zavisno promenljive Y. Ova veza se jo naziva egzaktna ili
funkcionalna.
Stohastike veze su slabije i kod njih jednoj vrednosti
nezavisno promenljive X odgovara vie moguih vrednosti
zavisno promenljive Y. Svaku od tih vrednosti zavisno
promenljiva moe uzeti sa odreenom verovatnoom, pa je
zavisno promenljiva Y sluajna promenljiva.
7. 6. 2010. Beograd Predavanje 15 / 2
Deterministika i
stohastika veza
Sutina stohastike veze je sledea:
Prosek Y = f (X)

Veze kod kojih porastu (opadanju) nezavisne


promenljive X odgovara porast (opadanje) zavisno
promenljive Y nazivaju se direktne veze.

Ako porastu X odgovara opadanje Y takve veze se


zovu inverzne (obrnute).

Osim ovoga, veze mogu biti linearne ili nelinearne.

7. 6. 2010. Beograd Predavanje 15 / 3


Ciljevi regresione i
korelacione analize
Regresiona i korelaciona analiza primenjuju se u istraivanju
kvantitativnog slaganja varijacija izmeu dve ili vie pojava.

Kod regresione analize neophodno je unapred odrediti koja


pojava e imati ulogu nezavisne, a koja zavisne promenljive.
Ovo je odreeno prirodom analiziranih pojava.

Kod korelacione analize je svejedno koja je pojava


okarakterisana kao nezavisno, a koja kao zavisno promenljiva.
Rezultat korelacione analize je isti u oba sluaja.
U sluaju korelacione analize vie pojava potrebno je fiksirati
jednu zavisnu promenljivu, a ostale e biti nezavisne.

7. 6. 2010. Beograd Predavanje 15 / 4


Ciljevi regresione i
korelacione analize
Cilj regresije je da se utvrdi priroda veze, tj. oblik zavisnosti
meu posmatranim pojavama. Ovo se postie odgovarajuim
regresionim modelima.
Regresioni model je statistiki model koji matematikim
formulama, uz odreene pretpostavke najbolje opisuje
kvantitativnu zavisnost izmeu varijacija posmatranih pojava u
realnosti. Kako je re o stohastikim vezama, regresioni model
pokazuje proseno slaganje varijacija ispitivanih pojava.

Korelaciona analiza ispituje da li izmeu varijacija


posmatranih pojava postoji slaganje i, ako postoji, u kom
stepenu.

7. 6. 2010. Beograd Predavanje 15 / 5


Vrste regresionih modela

Prilikom istraivanja meusobnih veza dveju


promenljivih primenjuju se metode proste (linearne
i nelinearne) regresione i korelacione analize.

U sluaju vie promenljivih re je i metodama


viestruke (linearne i nelinearne) regresione i
korelacione analize.

Mi emo se ograniiti na linarne metode.

7. 6. 2010. Beograd Predavanje 15 / 6


Prosta linearna regresija

Prost regresioni model je matematiki model koji ima


samo dve promenljive: zavisnu i nezavisnu. Zavisna
promenljiva je ona ije varijacije treba objasniti na
osnovu promena nezavisne promenljive.

Prost linearni regresioni model je regresioni model


kojim se opisuje linearna veza izmeu zavisne i
nezavisne promenljive.

7. 6. 2010. Beograd Predavanje 15 / 7


Dijagram rasprenosti
Prvi korak u analizi zavisnosti dve pojave je grafiko
prikazivanje empirijske serije podataka, bilo da se odnose
na osnovni skup ili uzorak.

Na istim elementima skupa ili uzorka posmatramo dva


obeleja, npr. kod 20 firmi posmatramo trokove reklame i
obim prodaje. Zatim treba identifikovati koje obeleje
predstavlja nezavisno promenljivu X, a koje zavisno
promenljivu Y. Tako se dobija niz od n (N) ureenih parova
(X1,Y1), (X2,Y2), ..., (Xn,Yn).

Na apscisu se nanose vrednosti nezavisno promenljive X, a


na ordinatu vrednosti zavisno promenljive Y. Takav grafiki
prikaz naziva se dijagram rasprenosti.
7. 6. 2010. Beograd Predavanje 15 / 8
Prost linearni regresioni
model
Podsetimo se jednaine prave:

Linearna jednaina ili jednaina linearne veze u ovom


sluaju:
y = a + bx

x je nezavisno promenljiva
y je zavisno promenljiva
a je konstanta u linearnoj jednaini otseak na y osi
b je koeficijent nagiba prave

7. 6. 2010. Beograd Predavanje 15 / 9


Prost linearni regresioni
model
Cilj regresije je predvideti vrednosti y za pojedine vrednosti x.
Kako je re o stohastikim vezama izmeu x i y ne moe se
tano predvideti vrednost y za odreenu vrednost x.

Zato se kao mogue reenje trai regresiona prava (kriva)


koja e najmanje odstupati od empirijskih podataka.

Odreivanje koeficijenata te linearne jednaine omoguuje


nam da vrimo traeno predvianje. Takvo predvianje nee
biti egzaktno jer se mora uzeti u obzir i greka zbog
stohastike prirode veze.

7. 6. 2010. Beograd Predavanje 15 / 10


Prost linearni regresioni
model
Model proste linearne regresije u optem obliku:
Yi = 0 + 1xi + i i =1, 2,, N
gde su
Yi i-ta zavisna promenljiva
xi i-ta vrednost nezavisna promenljiva
0 i 1 nepoznate konstante, regresioni parametri
i stohastiki lan ili sluajna greka
N veliina osnovnog skupa
Nezavisno promenljiva X se naziva objanjavajuom
promenljivom jer pomou nje pokuavamo da objasnimo
varijacije promenljive Y.

7. 6. 2010. Beograd Predavanje 15 / 11


Ocenjivanje:
Metod najmanjih kvadrata
Na osnovu dijagrama rasprenosti odabira se tip krive koji
najvie odgovara empirijskim podacima. Tek tada na osnovu
dijagrama, ako on ukazuje na linearnu vezu dveju pojava,
prelazimo na drugu etapu regresione analize ocenjivanje
nepoznatih parametara: slobodnog lana 0 i koeficijenta
nagiba 1.
Sluajnom grekom u stohastikom regresionom modelu
obuhvaene su:
1. nedostajue ili izostavljene promenljive (efekti
promenljivih koje nisu direktno ukljuene u model),
2. sluajne varijacije (domainstvo moe u jednom mesecu
da organizuje vie zabava i potroi vie na hranu, a sledeeg
meseca zbog deje ekskurzije ili kupovine nametaja
pritedee na hrani.
7. 6. 2010. Beograd Predavanje 15 / 12
Ocenjivanje:
Metod najmanjih kvadrata
U regresionom modelu su 0 i 1 parametri osnovnog skupa.
Meutim, kako nisu poznati svi podaci o osnovnom skupu,
regresioni model osnovnog skupa ocenjujemo na osnovu
podataka iz uzorka. Ocene nepoznatih parametara, odseka 0
i koeficijenta nagiba 1 se oznaavanju sa b0 i b1.

Cilj je da se na osnovu uzorka doe do najboljih moguih


ocena b0 i b1 i time postavi ocenjeni model uzorka (linija
regresije u uzorku):
Yi = b0 + b1 xi
gde je Y ona vrednost Y koja se tano nalazi na najbolje
i
prilagoenoj liniji regresije, pa se naziva prilagoena ili
predviena vrednost Y.
7. 6. 2010. Beograd Predavanje 15 / 13
Ocenjivanje:
Metod najmanjih kvadrata
Stvarne vrednosti promenljive Y nazivaju se empirijske
vrednosti. Razlika izmeu stvarne i oekivane (prosene)
vrednosti Y u osnovnom skupu predstavlja sluajnu greku .
Npr. To je razlika izmeu iznosa koje je domainstvo jednog meseca stavrno
potroili za hranu i prosene vrednosti dobijene na osnovu regresione prave
osnovnog skupa.

Razlika izmeu stvarne i ocenjene vrednosti Y u uzorku naziva


se rezidual i oznaava se sa e. Rezidual predstavlja ocenu
sluajne greke, .
e = Y Y
gde je Y stvarna vrednost , a Y ocenjena vrednost Y.

7. 6. 2010. Beograd Predavanje 15 / 14


Ocenjivanje:
Metod najmanjih kvadrata

Dijagram rasprenosti i Suma svih reziduala


regresione prave je uvek jednaka 0.


e = (Y Y )=0
7. 6. 2010. Beograd Predavanje 15 / 15
Ocenjivanje:
Metod najmanjih kvadrata
Kako je suma svih reziduala jednaka 0 njenim
minimiziranjem i ne moemo dobiti najbolje prilagoenu
regresionu krivu, ali minimiziranjem sume kvadrata
reziduala (SKR) mogu se dobiti vrednosti b0 i b1 u
regresionom modelu uzorka. Od svih moguih pravih linija
treba odabrati onu koja ima najmanju sumu kvadrata
vertikalnih odstupanja (reziduala).

SKR = e = (Y Y )
2
2

gde je Y stvarna vrednost , a Y ocenjena vrednost Y.


Minimiziranjem sume kvadrata reziduala dobijaju se b0 i b1,
kao ocene regresionih parametara 0 i 1.
7. 6. 2010. Beograd Predavanje 15 / 16
Ocenjivanje:
Metod najmanjih kvadrata
Koeficijenti regresione prave uzorka, odnosno ocene po
metodu najmanjih kvadrata glase:
SPxy
b1 = b0 = Y b1 X
SK xx

SPxy = XY
X Y SK xx = X 2
( X ) 2
n n
gde je SK i SP oznaavaju odgovarajuu sumu kvadrata i
sumu proizvoda.

7. 6. 2010. Beograd Predavanje 15 / 17


Testiranje znaajnosti
regresione veze

Da bi primena regresione linije uzorka pri predvianju


vrednosti zavisne promenljive Y bila opravdana,
neophodno je prethodno ispitati da li uopte postoji
linearno slaganje izmeu varijacija posmatrane dve
promenljive u osnovnom skupu.

Prilikom testiranja hipoteze o regresionom parametru 1


testiramo nultu hipotezu da je parametar 1=0 to je
ekvivalentno hipotezi da promenljiva X ne utie na
promenljivu Y.

7. 6. 2010. Beograd Predavanje 15 / 18


Testiranje znaajnosti
regresione veze

Nulte i alternativna hipoteza o regresionom parametru 1:


H0: 1 = 0 (Izmeu varijacija posmatranih pojava ne postoji
linearna veza, odnosno X ne utie na Y)
H1: 1 0 (Izmeu varijacija posmatranih pojava postoji
linearna veza, odnosno X utie na Y)

Statistika t testa za testiranje hipoteze o 1 glasi:

b1 1 b1 s
t= = S b1 =
S b1 S b1 x 2
n x 2

Broj stepeni slobode je df = n - 2 . Testiranje se sprovodi na


isti nain kao kod aritmetike sredine skupa.
7. 6. 2010. Beograd Predavanje 15 / 19
Prosta linearna korelacija

Cilj korelacione analize je da se utvrdi da li izmeu


varijacija posmatranih pojava postoji kvantitativno
slaganje (korelaciona veza) i ako postoji u kom stepenu.

Ako se posmatraju dve pojave re je o prostoj korelaciji, a


ako je re o vie pojava onda o viestrukoj korelaciji.

Takoe mogue je ispitati da li je re o linearnoj ili


krivolinijskoj vezi.

Mi emo govoriti o prostoj linearnoj korelaciji.

7. 6. 2010. Beograd Predavanje 15 / 20


Prosta linearna korelacija

Za razliku od regresione analize u korelacionoj analizi se


obe posmatrane pojave tretiraju kao sluajne promenljive.
Ovde nema razlike izmeu zavisne i nezavisne
promenljive. Svejedno je koju emo pojavu oznaiti sa X
a koju sa Y, jer e se dobiti identini rezultati.

Zadatak proste linearne korelacije jeste da pokae da


izmeu varijacija dve pojave postoji prosta pravolinijska
veza.

7. 6. 2010. Beograd Predavanje 12 / 21


Koeficijent proste
linearne korelacije

Koeficijent korelacije predstavlja pokazatelj stepena


kvantitativnog slaganja izmeu promenljivih. Koeficijent proste
linearne korelacije u osnovnom skupu obeleava se sa , a u
uzorku sa r i moe uzeti vrednosti samo u intervalu -1 i 1, tj.
-1 1 i -1 r 1

Ako je r = 1 izmeu dve promenljive postoji perfektna pozitivna


linearna korelacija, tj. sve take dijagrama rasprenosti se
nalaze na rastuoj pravoj.

Ako je r = -1 izmeu dve promenljive postoji perfektna


negativna linearna korelacija, tj. sve take dijagrama
rasprenosti se nalaze na opadajuoj pravoj.
7. 6. 2010. Beograd Predavanje 15 / 22
Koeficijent proste
linearne korelacije

Ako su empirijske take rasprene svuda po dijagramu tada


izmeu dve promenljive ne postoji linearna korelacija i tada je
r 0.

Koeficijent proste linearne korelacije izmeu dve promenljive u


uzorku ili Pirsonov koeficijent korelacije, r, se izraunava kao:

n xy x y
r=
n x 2 ( x ) 2 n y 2 ( y ) 2

Formula je simetrina u odnosu na promenljive X i Y, pa je sve


jedno koju smo promenljivu kako oznaili.
7. 6. 2010. Beograd Predavanje 15 / 23
Testiranje znaajnosti ocene
koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacije


na osnovnom skupu , na osnovu njegove ocene iz
sluajnog uzirka r se zasniva na pretpostavci o normalnosti
zajednike raspodele za promenljive X i Y. Prilikom testiranja
koristimo t raspodelu verovatnoa.

Nulta hipoteza H0: = 0 (u osnovnom skupu ne postoji


linearna korelacija izmeu dve promenljive)

Alternativna hipoteza H1: 0 (u osnovnom skupu postoji


linearna korelacija izmeu dve promenljive)

7. 6. 2010. Beograd Predavanje 15 / 24


Testiranje znaajnosti ocene
koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacije


na osnovnom skupu se svodi na odreivanje vrednosti
statistike testa koja ima Studentovu t raspodelu sa (n 2)
stepena slobode:

n2
t=r
1 r 2

gde je r ocenjena vrednost parametra .

7. 6. 2010. Beograd Predavanje 15 / 25


Regresiona analiza:
kompletan primer

Vozako Premija auto


Primer: iskustvo osiguranja
Izabran je uzorak od 8 5 64
vozaa koji poseduju polise
2 87
osiguranja. U tabeli se
nalaze podaci o vozakom 12 50
iskustvu u godinama i iznosu 9 71
mesene premije auto 15 44
osiguranja u evrima.
6 56
25 42
16 60

7. 6. 2010. Beograd Predavanje 15 / 26


Regresiona analiza:
kompletan primer

1. Da li premija auto osiguranja zavisi od vozakog iskustva ili vozako


iskustvo zavisi od premije osiguranja?
2. Da li se oekuje pozitivna ili negativna korelaciona veza izmeu dve
promenljive?

Reenje: Intuitivno, a i na osnovu teorije oekujemo da e premija


osiguranja zavisiti od vozakog iskustva. To znai da e premija
osiguranja biti zavisna, a vozako iskustvo objanjavajua promenljiva
u regresionom modelu.

Nove vozae osiguravajue kue tretiraju kao vozae visokog rizika, pa


oni moraju da plate vee iznose premija. Zato, oekujemo da e
linearna veza biti negativna, odnosno da e biti negativan znak
koeficijenta korelacije osnovnog skupa i regresionog parametra
osnovnog skupa 1.

7. 6. 2010. Beograd Predavanje 15 / 27


Regresiona analiza: primer
3. Izraunati SKxx, SKyy i SKxy
Vozako Premija auto
iskustvo, x osiguranja, y xy x2 y2
5 64 320 25 4096
2 87 174 4 7569
12 50 600 144 2500
9 71 639 81 5041
15 44 660 225 1936
6 56 336 36 3136
25 42 1050 625 1764
16 60 960 256 3600
x=90 y=474 xy=4739 x2=1396 x2=29642

7. 6. 2010. Beograd Predavanje 15 / 28


Regresiona analiza: primer

Vrednosti aritmetikih sredina za x i y su:

x=
x 90
= = 11,25 y=
y 474
= = 59,25
n 8 n 8
SK i SP oznaavaju odgovarajue sume kvadrata i sume proizvoda.

SPxy = xy
x y
= 4739
90 474
= 593,5000
n 8
( x ) 2 90 2
SK xx = x 2 = 1396 = 383,5000
n 8
( y ) 2 474 2
SK xy = y 2 = 29642 = 1557,5000
n 8
7. 6. 2010. Beograd Predavanje 15 / 29
Regresiona analiza: primer

4. Na osnovu objanjavajue i zavisne promenljive iz 1.


odrediti regresionu pravu po metodu najmanjih kvadrata.

Koeficijenti regresione prave uzorka, odnosno ocene po


metodu najmanjih kvadrata glase:
SPxy 593,5000
b1 = = = 1,5476
SK xx 383,5000
b0 = y b1 x = 559,25 (1,5476) 11,25 = 76,6605
Ocenjena linija regresije u ovom primeru glasi:

y = b0 + b1 x = 76,6605 1,5476 x
7. 6. 2010. Beograd Predavanje 15 / 30
Regresiona analiza:
kompletan primer

5. Objasniti znaenje dobijenih ocenjenih vrednosti b0 i b1.

Reenje: Ocenjena vrednost b0 predstavlja y vrednost


za x=0. To je proseni meseni nivo premije osiguranja
za vozaa bez vozakog iskustva.

Ocenjena vrednost b1 = -1,5476 pokazuje da sa


porastom vozakog iskustva za 1 godinu, mesena
premija osiguranja u proseku opada za oko 1,55 evra.
Kako je b1 negativno, y opada sa porastom x.

7. 6. 2010. Beograd Predavanje 15 / 31


Regresiona analiza:
kompletan primer

6. Nacrtati dijagram rasprenosti i ocenjenu regresionu


pravu. Dijagram rasprenosti i regresiona prava

100
Premija osiguranja

90
80
70
60
Series1
50 Linear (Series1)

40
30
20
10
0
0 10 20 30
Vozako iskustvo

7. 6. 2010. Beograd Predavanje 15 / 32


Koeficijent proste
linearne korelacije
7. Izraunajte koeficijente r i r2 i objasnite njihovo znaenje.

Koeficijent proste linearne korelacije izmeu dve promenljive u uzorku, r, se


izraunava kao:
n xy x y
r= =
n x ( x ) n y ( y )
2 2 2 2

SPxy 593,5 r 2 = (0,77) 2 = 0,59


= = 0,77
SK xx SK yy 383,5 1557,5
Vrednost r = -0,77 ukazuje da u uzorku od 8 vozaa postoji jaka negativna
korelaciona veza izmeu vozakog iskustva i mesene premije auto
osiguranja. Vrednost r 2 se naziva koeficijent determinacije i ukazuje da je
59% ukupnih varijacija mesene premije objanjeno vozakim iskustvom, a
41% je rezultat drugih uticaja.

7. 6. 2010. Beograd Predavanje 15 / 33


Regresiona analiza: primer

8. Oceniti mesenu premiju auto osiguranja vozaa sa 10


godina vozakog iskustva.

Na osnovu regresione prave uzorka, ocenjena vrednost y za


x=10 iznosi:

y = b0 + b1 x = 76,6605 1,5476 x
= 76,6605 1,5476 10 = 61,18 evra

Oekivani meseni iznos premije auto osiguranja vozaa sa


10 godina iskustva je 61,18 evra.
7. 6. 2010. Beograd Predavanje 15 / 34
Regresiona analiza: primer

9. Izraunati standardnu greku regresije.

Standardna greka regresije je ocena standardne devijacije


sluajne greke, S i iznosi:

SK yy b1 SPxy 1557,5 (1,5476) (593,5)


s= = = 10,3199
n2 82

7. 6. 2010. Beograd Predavanje 15 / 35


Regresiona analiza: primer
9. Formirati 90% interval poverenja za parametar 1.

Ocenjena vrednost standardne greke ocene b1:


s s 10,3199
S b1 = = = = 0,5270
SK xx x 2
n x2 383,5

Za 90% interval poverenja, povrina na svakom kraju pod


krivom t raspodele je: /2 = (1-0,90)/2 = 0,05 , a broj stepeni
slobode je df = n -2 = 82 = 6.
Na osnovu tablice t raspodele, tablina vrednost za /2=0,05
i df =6 je 1,943.
90% interval poverenja za parametar 1 je
b1 tsb1= -1,5476 1,943 (0,5270)= -1,54761,0240
-2,57 < 1 < 2,57
7. 6. 2010. Beograd Predavanje 15 / 36
Testiranje hipoteze o parametru 1

10. Sa nivoom znaajnosti od 5% testirajte hipotezu da je 1


negativno.

Testiranje se obavlja u 5 etapa.


Korak 1. Formulisanje nulte i alternativne hipoteze:
H0: 1 = 0 (Regresioni parametar je jednak 0)
H1: 1 < 0 (Regresioni parametar je jmanji od 0 )

Korak 2. Izbor raspodele koja e se koristiti.


Kako nije poznato, za testiranje hipoteze emo koristiti t raspodelu,
odnosno t statistiku testa.

7. 6. 2010. Beograd Predavanje 15 / 37


Testiranje hipoteze o parametru 1

Korak 3. Odreivanje oblasti odbacivanja i neodbacivanja


Nivo znaajnosti je =0,05. Znak < u alternativnoj hipotezi ukazuje da je test
levostran, sa jednom oblau odbacivanja nulte hipoteze sa leve strane.
Povrina na levom kraju krive t raspodele je = 0,05.
Broj stepeni slobode je df = n -2 = 8 2 = 6
Kritina vrednost t se nalazi u tablicama za t raspodelu, za vrednosti df = 6 i
povrine (plavo) ispod krive t raspodele za 0,05 i iznosi -1,943.

=0,05

-1,943 0
Odbacuje se H0 Ne odbacuje se H0
7. 6. 2010. Beograd Predavanje 15 / 38
Testiranje hipoteze o parametru 1

Korak 4. Izraunavanje vrednosti statistike testa

Vrednost statistike testa izraunavamo na sledei nain:


Iz H0
b1 1 - 1,5476 - 0
t= = = 2,937
sb1 0,5270

7. 6. 2010. Beograd Predavanje 15 / 39


Testiranje hipoteze o parametru 1

Korak 5. Donoenje odluke


Poto se realizovana vrednost statistike t testa, t = -2,937
nalazi u oblasti odbacivanja nulte hipoteze donosimo odluku
o odbacivanju nulte hipoteze.

Sledi da nultu hipotezu odbacujemo uz nivo znaajnosti od


0,05 i zakljuujemo da je, na osnovu podataka u uzorku,
parametar 1 negativan, odnosno da meseni iznos premije
auto osiguranja u osnovnom skupu vozaa u proseku opada
sa poveanjem vozakog iskustva.

7. 6. 2010. Beograd Predavanje 15 / 40


Hvala
na panji!

7. 6. 2010. Beograd Predavanje 15

You might also like