Statistika Predavanje 12 Prosta Linearna Regresija I Korelacija

STATISTIKA
Prosta linearna regresija i

korelacija I
Prof. Dr Slađana Spasić
E-mail:
sladjana.spasic@singidunim.ac.rs
Predavanje 12
Regresiona i
korelaciona analiza
Na ovom predavanju razmatraćemo međusobnu vezu dve
promenljive i to na osnovu:
1. regresione analize
2. korelacione analize.
Upotrebom regresionih modela može se oceniti kako se
menja jedna promenljiva pod uticajem promene druge
promenljive.
Koeficijent korelacije u korelacionoj analizi pokazuje da li
između varijacija dve promenljive postoji kvantitativno
slaganje, ali on ne daje informaciju o stepenu promene jedne
promenljive koja nastaje kao rezultat promene druge
promenljive.
Predavanje 12 / 1
Deterministička i
stohastička veza
Naše interesovanje ćemo usmeriti na istraživanje
međusobnih veza i uticaja između dve ili više pojava. Pojave
na osnovu veza između promenljivih možemo podeliti na
determinističke i stohastičke.
Deterministička veza se javlja kada jednoj vrednosti
nezavisno promenljive X odgovara tačno jedna vrednost
zavisno promenljive Y. Ova veza se još naziva egzaktna ili
funkcionalna.
Stohastičke veze su slabije i kod njih jednoj vrednosti
nezavisno promenljive X odgovara više mogućih vrednosti
zavisno promenljive Y. Svaku od tih vrednosti zavisno
promenljiva može uzeti sa određenom verovatnoćom, pa je
zavisno promenljiva Y slučajna promenljiva.
Predavanje 12 / 2
Deterministička i
stohastička veza
Suština stohastičke veze je sledeća:
Prosek Y = f (X)
Veze kod kojih porastu (opadanju) nezavisne

promenljive X odgovara porast (opadanje) zavisno
promenljive Y nazivaju se direktne veze.
Ako porastu X odgovara opadanje Y takve veze se

zovu inverzne (obrnute).
Osim ovoga, veze mogu biti linearne ili nelinearne.
Predavanje 12 / 3
Ciljevi regresione i
korelacione analize
Regresiona i korelaciona analiza primenjuju se u istraživanju
kvantitativnog slaganja varijacija između dve ili više pojava.
Kod regresione analize neophodno je unapred odrediti koja

pojava će imati ulogu nezavisne, a koja zavisne promenljive.
Ovo je određeno prirodom analiziranih pojava.
Kod korelacione analize je svejedno koja je pojava

okarakterisana kao nezavisno, a koja kao zavisno promenljiva.
Rezultat korelacione analize je isti u oba slučaja.
U slučaju korelacione analize više pojava potrebno je fiksirati
jednu zavisnu promenljivu, a ostale će biti nezavisne.
Predavanje 12 / 4
Ciljevi regresione i
korelacione analize
Cilj regresije je da se utvrdi priroda veze, tj. oblik zavisnosti
među posmatranim pojavama. Ovo se postiže odgovarajućim
regresionim modelima.
Regresioni model je statistički model koji matematičkim
formulama, uz određene pretpostavke najbolje opisuje
kvantitativnu zavisnost između varijacija posmatranih pojava u
realnosti. Kako je reč o stohastičkim vezama, regresioni model
pokazuje prosečno slaganje varijacija ispitivanih pojava.
Korelaciona analiza ispituje da li između varijacija

posmatranih pojava postoji slaganje i, ako postoji, u kom
stepenu.
Predavanje 12 / 5
Vrste regresionih modela
Prilikom istraživanja međusobnih veza dveju

promenljivih primenjuju se metode proste (linearne
i nelinearne) regresione i korelacione analize.
U slučaju više promenljivih reč je o metodama

višestruke (linearne i nelinearne) regresione i
korelacione analize.
Mi ćemo se ograničiti na linarne metode.
Predavanje 12 / 6
Prosta linearna regresija
Prost regresioni model je matematički model koji

ima samo dve promenljive: zavisnu i nezavisnu.
Zavisna promenljiva je ona čije varijacije treba
objasniti na osnovu promena nezavisne promenljive.
Prost linearni regresioni model je regresioni

model kojim se opisuje linearna veza između
zavisne i nezavisne promenljive.
Predavanje 12 / 7
Prosta linearna regresija
A B
Izdaci za hranu
Izdaci za hranu
Linearna
veza Nelinearna
veza
Dohodak Dohodak
Primer: Veza između mesečnih izdataka za hranu i dohotka
porodice.
Slika A prikazuje lineranu vezu, a slika B nelineranu vezu.
Predavanje 12 / 8
Dijagram raspršenosti
Prvi korak u analizi zavisnosti dve pojave je grafičko

prikazivanje empirijske serije podataka, bilo da se odnose
na osnovni skup ili uzorak.
Na istim elementima skupa ili uzorka posmatramo dva
obeležja, npr. kod 20 firmi posmatramo troškove reklame i
obim prodaje. Zatim treba identifikovati koje obeležje
predstavlja nezavisno promenljivu X, a koje zavisno
promenljivu Y. Tako se dobija niz od n (N) uređenih parova
(X1,Y1), (X2,Y2), ..., (Xn,Yn). Na apscisu se nanose vrednosti
nezavisno promenljive X, a na ordinatu vrednosti zavisno
promenljive Y. Takav grafički prikaz naziva se dijagram
raspršenosti.
Predavanje 12 / 9
Prost linearni regresioni
model
Podsetimo se jednačine prave:
Linearna jednačina ili jednačina linearne veze u ovom

slučaju:
y = a + bx
x je nezavisno promenljiva
y je zavisno promenljiva
a je konstanta u linearnoj jednačini odsečak na y osi
b je koeficijent nagiba prave
Predavanje 12 / 10
Eksplicitni oblik jednačine prave
Y T (0,1)
2
y  x 1 3
3
2
2
y  -3 x-2  1-1
-4 0 1 2 3 4 5 X
3
-1
-2
Predavanje 12 / 11
Eksplicitni oblik jednačine prave
2 Y
y   x 1
3 3
-4 -3 -2 -1 0 1 2 3 4 5 X
-1
2
y  x 1
3 -2
Predavanje 12 / 12
model
Cilj regresije je predvideti vrednosti y za pojedine vrednosti x.
Kako je reč o stohastičkim vezama između x i y ne može se
tačno predvideti vrednost y za određenu vrednost x.
Zato se kao moguće rešenje traži regresiona prava (kriva)

koja će najmanje odstupati od empirijskih podataka.
Određivanje koeficijenata te linearne jednačine omogućuje

nam da vršimo traženo predviđanje. Takvo predviđanje neće
biti egzaktno jer se mora uzeti u obzir i greška zbog
stohastičke prirode veze.
Predavanje 12 / 13
model
Model proste linearne regresije u opštem obliku:
Yi = β0 + β1xi + εi i =1, 2,…, N
gde su
Yi i-ta zavisna promenljiva
xi i-ta vrednost nezavisne promenljive
β0 i β1 nepoznate konstante, regresioni parametri
εi stohastički član ili slučajna greška
N veličina osnovnog skupa
Nezavisno promenljiva X se naziva objašnjavajućom
promenljivom jer pomoću nje pokušavamo da objasnimo
varijacije promenljive Y.
Predavanje 12 / 14
Ocenjivanje:
Metod najmanjih kvadrata
Na osnovu dijagrama raspršenosti bira se tip krive koji najviše
odgovara empirijskim podacima. Tek tada na osnovu
dijagrama, ako on ukazuje na linearnu vezu dveju pojava,
prelazimo na drugu etapu regresione analize – ocenjivanje
nepoznatih parametara: slobodnog člana β0 i koeficijenta
nagiba β1.
Slučajnom greškom u stohastičkom regresionom modelu
obuhvaćene su:
1. nedostajuće ili izostavljene promenljive (efekti
promenljivih koje nisu direktno uključene u model),
2. slučajne varijacije (domaćinstvo može u jednom mesecu
da organizuje više zabava i potroši više na hranu, a sledećeg
meseca zbog dečje ekskurzije ili kupovine nameštaja
prištedeće na hrani.)
Predavanje 12 / 15
Ocenjivanje:
U regresionom modelu su β0 i β1 parametri osnovnog skupa.
Međutim, kako nisu poznati svi podaci o osnovnom skupu,
regresioni model osnovnog skupa ocenjujemo na osnovu
podataka iz uzorka. Ocene nepoznatih parametara, odsečka β0
i koeficijenta nagiba β1 se označavanju sa b0 i b1.
Cilj je da se na osnovu uzorka dođe do najboljih mogućih

ocena b0 i b1 i time postavi ocenjeni model uzorka (linija
regresije u uzorku):
Yˆi  b0  b1 xi
gde je Yˆ ona vrednost Y koja se tačno nalazi na najbolje
i
prilagođenoj liniji regresije, pa se naziva prilagođena ili
predviđena vrednost Y.
Predavanje 12 / 16
Ocenjivanje:
Stvarne vrednosti promenljive Y nazivaju se empirijske
vrednosti. Razlika između stvarne i očekivane (prosečne)
vrednosti Y u osnovnom skupu predstavlja slučajnu grešku ε.
Npr. To je razlika između iznosa koje je domaćinstvo jednog meseca stvarno
potrošilo za hranu i prosečne vrednosti dobijene na osnovu regresione
prave osnovnog skupa.
Razlika između stvarne i ocenjene vrednosti Y u uzorku naziva

se rezidual i označava se sa e. Rezidual predstavlja ocenu
slučajne greške, ε.
e  Y  Yˆ
gde je Y stvarna vrednost , a Yˆ ocenjena vrednost Y.
Predavanje 12 / 17
Ocenjivanje:
Dijagram raspršenosti i Suma svih reziduala

regresione prave je uvek jednaka 0.
 
e  (Y  Yˆ )0
Ocenjivanje:
Kako je suma svih reziduala jednaka 0 njenim
minimiziranjem i ne možemo dobiti najbolje prilagođenu
regresionu krivu, ali minimiziranjem sume kvadrata
reziduala (SKR) mogu se dobiti vrednosti b0 i b1 u
regresionom modelu uzorka. Od svih mogućih pravih linija
treba odabrati onu koja ima najmanju sumu kvadrata
vertikalnih odstupanja (reziduala).
SKR   e   (Y  Y )
2
ˆ 2
gde je Y stvarna vrednost , a Yˆ ocenjena vrednost Y.

Minimiziranjem sume kvadrata reziduala dobijaju se b0 i b1,
kao ocene regresionih parametara β0 i β1.
17. 5. 2010. Beograd Predavanje 12 / 20
Ocenjivanje:
Koeficijenti regresione prave uzorka, odnosno ocene po
metodu najmanjih kvadrata glase:
SPxy
b1  b0  Y  b1 X
SK xx
SPxy   XY 
 X Y SK xx   X 2 
( X ) 2
n n
gde je SK i SP označavaju odgovarajuću sumu kvadrata i
sumu proizvoda.
Predavanje 12 / 21
Testiranje značajnosti
regresione veze
Da bi primena regresione linije uzorka pri predviđanju

vrednosti zavisne promenljive Y bila opravdana,
neophodno je prethodno ispitati da li uopšte postoji
linearno slaganje između varijacija posmatrane dve
promenljive u osnovnom skupu.
Prilikom testiranja hipoteze o regresionom parametru β1

testiramo nultu hipotezu da je parametar β1=0 što je
ekvivalentno hipotezi da promenljiva X ne utiče na
promenljivu Y.
Predavanje 12 / 22
Testiranje značajnosti
regresione veze
Nulte i alternativna hipoteza o regresionom parametru β1:

H0: β1 = 0 (Između varijacija posmatranih pojava ne postoji
linearna veza, odnosno X ne utiče na Y)
H1: β1 ≠ 0 (Između varijacija posmatranih pojava postoji
linearna veza, odnosno X utiče na Y)
Statistika t testa za testiranje hipoteze o β1 glasi:
b1   1 b1 s
t  S b1 
S b1 S b1  x 2
 n  x 2
Broj stepeni slobode je df = n - 2 . Testiranje se sprovodi na

isti način kao kod aritmetičke sredine skupa.
17. 5. 2010. Beograd Predavanje 12 / 23
Prosta linearna korelacija
Cilj korelacione analize je da se utvrdi da li između

varijacija posmatranih pojava postoji kvantitativno
slaganje (korelaciona veza) i ako postoji u kom stepenu.
Ako se posmatraju dve pojave reč je o prostoj korelaciji, a

ako je reč o više pojava onda o višestrukoj korelaciji.
Takođe moguće je ispitati da li je reč o linearnoj ili

krivolinijskoj vezi.
Mi ćemo govoriti o prostoj linearnoj korelaciji.
Predavanje 12 / 24
Prosta linearna korelacija
Za razliku od regresione analize u korelacionoj analizi se

obe posmatrane pojave tretiraju kao slučajne promenljive.
Ovde nema razlike između zavisne i nezavisne
promenljive. Svejedno je koju ćemo pojavu označiti sa X
a koju sa Y, jer će se dobiti identični rezultati.
Zadatak proste linearne korelacije jeste da pokaže da

između varijacija dve pojave postoji prosta pravolinijska
veza.
Predavanje 12 / 25
Koeficijent proste
linearne korelacije
Koeficijent korelacije predstavlja pokazatelj stepena

kvantitativnog slaganja između promenljivih. Koeficijent proste
linearne korelacije u osnovnom skupu obeležava se sa ρ, a u
uzorku sa r i može uzeti vrednosti samo u intervalu -1 i 1, tj.
-1 ≤ ρ ≤ 1 i -1 ≤ r ≤ 1
Ako je r = 1 između dve promenljive postoji perfektna pozitivna

linearna korelacija, tj. sve tačke dijagrama raspršenosti se
nalaze na rastućoj pravoj.
Ako je r = -1 između dve promenljive postoji perfektna

negativna linearna korelacija, tj. sve tačke dijagrama
raspršenosti se nalaze na opadajućoj pravoj.
Predavanje 12 / 26
Linearna korelacija između
dve promenljive
Veoma jaka pozitivna Slaba pozitivna linearna korelacija

linearna korelacija, r ≈ 1 r ≈ 0, r >0
Predavanje 12 / 27
Linearna korelacija između
dve promenljive
Veoma jaka negativna Slaba negativna linearna

linearna korelacija, r ≈ -1 korelacija r ≈ 0, r < 0
Predavanje 12 / 28
Koeficijent proste
linearne korelacije
Ako su empirijske tačke raspršene svuda po dijagramu tada

između dve promenljive ne postoji linearna korelacija i tada je
r ≈ 0.
Koeficijent proste linearne korelacije između dve promenljive u

uzorku ili Pirsonov koeficijent korelacije, r, se izračunava kao:
n xy   x  y
r
n  x 2  ( x ) 2  n y 2  ( y ) 2
Formula je simetrična u odnosu na promenljive X i Y, pa je sve

jedno koju smo promenljivu kako označili.
Predavanje 12 / 29
Testiranje značajnosti ocene
koeficijenta proste linearne korelacije
Testiranje hipoteze o koeficijentu proste linearne korelacije

na osnovnom skupu ρ, na osnovu njegove ocene iz
slučajnog uzorka r se zasniva na pretpostavci o normalnosti
zajedničke raspodele za promenljive X i Y. Prilikom testiranja
koristimo t raspodelu verovatnoća.
Nulta hipoteza H0: ρ = 0 (u osnovnom skupu ne postoji

linearna korelacija između dve promenljive)
Alternativna hipoteza H1: ρ ≠ 0 (u osnovnom skupu postoji

linearna korelacija između dve promenljive)
Predavanje 12 / 30
Testiranje značajnosti ocene
koeficijenta proste linearne korelacije
Testiranje hipoteze o koeficijentu proste linearne korelacije

na osnovnom skupu ρ se svodi na određivanje vrednosti
statistike testa koja ima Studentovu t raspodelu sa (n – 2)
stepena slobode:
n2
tr
1 r 2
gde je r ocenjena vrednost parametra ρ.
Predavanje 12 / 31
Hvala
na pažnji!
Predavanje 12

Statistika Predavanje 12 Prosta Linearna Regresija I Korelacija

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistika Predavanje 12 Prosta Linearna Regresija I Korelacija

Uploaded by

Copyright:

Available Formats

STATISTIKA

Prosta linearna regresija i

Veze kod kojih porastu (opadanju) nezavisne

Ako porastu X odgovara opadanje Y takve veze se

Osim ovoga, veze mogu biti linearne ili nelinearne.

Kod regresione analize neophodno je unapred odrediti koja

Kod korelacione analize je svejedno koja je pojava

Korelaciona analiza ispituje da li između varijacija

Prilikom istraživanja međusobnih veza dveju

U slučaju više promenljivih reč je o metodama

Mi ćemo se ograničiti na linarne metode.

Prost regresioni model je matematički model koji

Prost linearni regresioni model je regresioni

Prvi korak u analizi zavisnosti dve pojave je grafičko

Linearna jednačina ili jednačina linearne veze u ovom

Zato se kao moguće rešenje traži regresiona prava (kriva)

Određivanje koeficijenata te linearne jednačine omogućuje

Cilj je da se na osnovu uzorka dođe do najboljih mogućih

Razlika između stvarne i ocenjene vrednosti Y u uzorku naziva

Dijagram raspršenosti i Suma svih reziduala

gde je Y stvarna vrednost , a Yˆ ocenjena vrednost Y.

Da bi primena regresione linije uzorka pri predviđanju

Prilikom testiranja hipoteze o regresionom parametru β1

Nulte i alternativna hipoteza o regresionom parametru β1:

Statistika t testa za testiranje hipoteze o β1 glasi:

Broj stepeni slobode je df = n - 2 . Testiranje se sprovodi na

Cilj korelacione analize je da se utvrdi da li između

Ako se posmatraju dve pojave reč je o prostoj korelaciji, a

Takođe moguće je ispitati da li je reč o linearnoj ili

Mi ćemo govoriti o prostoj linearnoj korelaciji.

Za razliku od regresione analize u korelacionoj analizi se

Zadatak proste linearne korelacije jeste da pokaže da

Koeficijent korelacije predstavlja pokazatelj stepena

Ako je r = 1 između dve promenljive postoji perfektna pozitivna

Ako je r = -1 između dve promenljive postoji perfektna

Veoma jaka pozitivna Slaba pozitivna linearna korelacija

Veoma jaka negativna Slaba negativna linearna

Ako su empirijske tačke raspršene svuda po dijagramu tada

Koeficijent proste linearne korelacije između dve promenljive u

Formula je simetrična u odnosu na promenljive X i Y, pa je sve

Testiranje hipoteze o koeficijentu proste linearne korelacije

Nulta hipoteza H0: ρ = 0 (u osnovnom skupu ne postoji

Alternativna hipoteza H1: ρ ≠ 0 (u osnovnom skupu postoji

Testiranje hipoteze o koeficijentu proste linearne korelacije

gde je r ocenjena vrednost parametra ρ.

You might also like