You are on page 1of 29

Korrelci- s regresszi-analzis

Az X s Y vletlen vltozk kztt az albbi brkon

pozitv sszefggs nem lineris sszefggs negatv sszefggs van


Elfordulhat, hogy X s Y kztt van kapcsolat, de nem korrelcis jelleg, ha pldul
X nvekedse kis x-ekre Y nvekedsvel, nagyobb x-ekre pedig Y cskkensvel jr
egytt, mint a msodik brn.
Az is elfordulhat, hogy kt vltoz kztt nincs semmilyen kapcsolat:

Az llat becslt kor

teljes sly

Tbb vltoz esetn a statisztikai programok


egy rsze kpes az brkat az albbi teljes hossz orrtl

tblzatos mdon megjelenteni: trzs hossza

pocak krkrs mret

hts lb hossza kr
Pearson-fle korrelcis egytthat
A korrelcis kapcsolat erssgt intervallum skla esetn szmszeren a Pearson-
fle korrelcis egytthatval szoktk mrni, amit R(X,Y)-nal jellnk.
1 R( X , Y ) 1
0 krli rtk gyenge, -1-hez vagy 1-hez kzeli rtk ers negatv, illetve pozitv
korrelcis kapcsolatot jelez.

A korrelcis egytthat nhny tulajdonsga:


Ha a vltozk fggetlenek, akkor R(X,Y)=0, de abbl, hogy R(X,Y)=0, nem kvetkezik
a vltozk fggetlensge.
|R(X,Y)|=1 pontosan akkor ll fenn, amikor a vltozk kztt lineris a kapcsolat, azaz
Y=aX+b, ekkor R(X,Y) eljele megegyezik a eljelvel.
A korrelcis egytthat szimmetrikus, a kt vltoz felcserlhet.
Nem szabad rsztlagokra hasznlni, mert a kiejtett bizonytalansgok miatt a
valsgosnl ersebb sszefggst mutathat.
Hogyan lehet a korrelltsgot a mintk alapjn vizsglni?
( x1 , y1 ), ( x2 , y 2 ),..., ( xn , y n ) . mintaelemek esetn
n
(xi x ) ( yi y )
i =1
rxy = ,
(n 1)s x s y
ahol x, y a vltozk mintatlaga, s x , s y pedig a becslt szrsok.
Mivel a korrelcis egytthat a mintbl szmtott becsls, ezrt hibval terhelt.
Akkor sem kapunk pontosan nullt, ha a kt vltoz kztt nincs korrelci, ezrt el
kell vgeznnk az albbi hipotzisvizsglatot:
Nullhipotzis: H 0 : R( X , Y ) = 0 , azaz H 0 : r = 0
r r r
Prbastatisztika: t = =
sr 1 r2
n2
Szabadsgi fok: n-2
A rangkorrelcis egytthat:
Ha adatainkat nem intervallum skln mrjk, hanem ordinlison, akkor a Spearman
fle rangkorrelcis egytthatt hasznlhatjuk:
6 d 2
rs = 1 3 ,
n n
ahol n a mintaelemek szma, d a rangok kzti klnbsgek.
Ha az intervallum, vagy arnyskln mrt rtkeket a rangszmaikkal helyettestjk
vagy ha az ordinlis sklj vltoznkat az 1, 2, 3, n kdokkal kdoljuk akkor az
ebbl szmolt Pearson-fle s a Spearman fle egytthatk megegyeznek.
gy lehet kiszmtani a Spearman fle egytthatt, ha a program csak Pearson-fle korrelcis egytthatt
tud szmolni.
Regresszi-analzis

A regressziszmts clja
A regressziszmtst akkor hasznljuk, amikor fggvnyszer kapcsolatot keresnk
egy vagy tbb magyarz vltoz (vagy fggetlen vltoz) s egy fgg vltoz
kztt. Szoksosan a magyarz vltozkat X-ekkel, a fgg vltozt pedig Y-nal
jelljk. Felttelezzk, hogy az X-ek s az Y kztti sszefggs kifejezhet fggvny
formjban, azaz
Y =f(X) vagy Y=f(X1,X2,,Xr)
Ahhoz, hogy regresszi szmtst vgezhessnk, mind a magyarz, mind a fgg
vltozt ismernnk kell ugyanazokon a megfigyelsi egysgeken, azaz a kiindul
adatok egy magyarz vltoz esetn (x1,y1), (x2,y2), (x3,y3) ... (xn,yn) rtkprok, tbb
magyarz vltoz esetn pedig (x11, x12, x13,, y1), (x21, x22, x23,, y2),
(x31, x32, x33,, y3) ... (xn1, xn2, xn3,, yn) vektorok. Ez az gynevezett adatmtrix.
A regressziszmts szoksos krdsfeltevsei
Van-e bizonyos vltozk kztt sszefggs?
 Fgg-e a borjak 30 napos testtmege a szletsi slyuktl?
Milyen fggvnnyel (lineris, exponencilis, stb.) rhat le az sszefggs?
 Alkalmas-e ennek az sszefggsnek a lersra a lineris fggvny?
Mi a fgg vltoz vrhat rtke a magyarz vltoz egy bizonyos rtkhez?
 Mekkora 30 napos testtmeget vrhatunk, ha a szletsi sly 45 kg?
Mi a magyarz vltoz felttelezhet rtke a fgg vltoz egy bizonyos rtkhez?
 Mekkora szletsi sly kszb feletti llatokat szelektljunk, ha az a cl, hogy 30
napos korban az llatok (legalbbis tlagban) elrjk az 55 kg-ot?
A cl lehet oksgi kapcsolat megllaptsa X s Y kztt, gyakran azonban csak
kvetkeztetni szeretnnk az egyik vltoz rtkbl a msikra, a kzttk tapasztalt
sszefggs alapjn.
Felttel: a magyarz s a fgg vltoz egyarnt intervallum skln mrhet.

Plda:
A szletsi sly s a 30 napos testtmeg sszefggse 30 borj adatai alapjn (Bajcsy
. Csaba s munkatrsai, Szlszeti Tanszk).

70 30 napos
65 testtmeg
(kg)
60
55
50
45
40 Szletsi sly (kg)
35
30 35 40 45 50 55

Br egyrtelm a pozitv sszefggs a kt adat kztt, a szrds tlsgosan nagy


ahhoz, hogy a szletsi sly alapjn j elrejelzst adhatnnk a 30 napos testtmegre.
Melyik legyen a magyarz s melyik a fgg vltoz?
Ez mindig attl fggjn, hogy milyen irny oksgi kapcsolatot, illetve milyen vletlen
hatsokat tteleznk fel a vltozk kztt, s NE attl, hogy melyik vltozt
szeretnnk a msik alapjn elrejelezni. Elfordulhat, hogy az ismeretlen X-et
szeretnnk meghatrozni a megfigyelt Y-bl, br a regresszis modell Y=f(X)+ . Ez az
gynevezett inverz regresszi.
Vletlensg a magyarz s a fgg vltozban
A fgg vltoz mindig valsznsgi vltoz, a magyarz vltozk azonban nem
biztos.
ltalban gy gondoljuk, hogy Y kt fggetlen, additv komponensre bonthat: az
egyik az X-ektl fgg, a msik pedig egy, az X-ektl fggetlen vletlen faktor, azaz
Y=f(X)+.
magyarz vltoz(k) hatsa

fgg vltoz

vletlen komponens (=minden egyb hats)

Fel szoks tenni, hogy a vletlen komponens vrhat rtke 0, azaz E()=0 s hogy
eloszlsa szimmetrikus, a statisztikai tesztek kedvrt pedig mg azt is, hogy normlis
eloszls.
A magyarz vltozban hromfle vletlensget szoktak megklnbztetni:
 X nem vletlen vltoz, a ksrlet vezetje lltja be
 X rtkt a termszet lltja be, de az pontosan ismert
 A mrt X nem azonos az Y-t befolysol vltozval (mrsi pontatlansg miatt,
vagy mert X elvont, nem mrhet, pl. ha X = intelligencia IQ).

Ezt az esetet itt nem trgyaljuk.


Korrelci- vagy regressziszmts?
A legfontosabb klnbsgek a kt mdszer kztt:
 A korrelciszmts szimmetrikus kapcsolatot ttelez fel az X s Y kztt, mg a
regresszi szmts egy bizonyos irny (X Y) kapcsolatot,
 Mg a korrelciszmtsban mindkt vltoz valsznsgi vltoz, a regresszi
szmtsban X nem felttlenl az (nem felttlenl fgg a vletlentl). A
korrelciszmtsnak nincs rtelme akkor, ha az X rtkeit a ksrletez lltja be
(pl. egy gygyszer dzist).
Gyakran mindkt mdszer alkalmazhat, ha megfelelen tfogalmazzuk a krdseket.
Mindig gondoljuk meg azonban, melyik fogalmazs tkrzi jobban, hogy valjban
mi is rdekel!
NE hasznljunk regressziszmtst
 ha kt mrsi mdszer kztti egyezst vizsglunk, s nem pedig azt, hogy
hogyan fejezhet ki egyik mrsi eredmny a msikkal.
Ilyenkor a korrelcielemzsnek sincs rtelme, hiszen az ers korrelci sem felttlenl jelent j
egyezst ers korrelcit kaphatunk nagy szisztematikus hiba (torzts) esetn is (ha X2 = X1 + 1000,
a korrelcis egytthat = 1). Ha a mrsi eredmnyek egyezse rdekel, legjobb, ha a klnbsggel
(abszolt vagy relatv) szmolunk.
Vgezhetnk azonban regresszi- (nem korrelci!) szmtst, ha az egyik mrsi
mdszert pontosnak tekintjk, s arra vagyunk kvncsiak, hogyan lehet a msikat
korriglni.
 ha nem tudjuk eldnteni, melyik vltozt tekintsk magyarz s melyiket fgg
vltoznak (ez nem csupn technikai krds, hanem a vlemnynket tkrzi
arrl, hogy mi mitl fgg, illetve, hogy mit tteleznk fel a vletlen faktorokrl).
 ha tudjuk, hogy a magyarz vltoz a fgg vltozval azonos nagysgrend
vletlen hibval terhelt.
Lineris regresszi egy magyarz vltozval (simple
linear regression)
A lineris modell egy magyarz vltozval:
Y = f ( X ) = 0 + 1 X +
Az egytthatkat az adatokbl a legkisebb ngyzetek mdszervel becsljk (least
n
2
squares), azaz gy vlasztjuk a paramtereket, hogy a ( yi f ( xi )) ngyzetsszeg
i =1
minimlis legyen. Ezt az albbi becslssel rjk el:
n
( xi x )( yi y ) Y
i =1 estimated line
b1 = n
, b0 = y b1 x
2 Y=b 0 +b 1 X
( xi x ) true line
i =1 Y= 0 + 1 X
Vigyzat! Ez a kplet akkor is ad eredmnyt, ha observed
valjban nincs kapcsolat! data X
Az elz miatt hipotzisvizsglatra van szksg, hogy valban fgg-e az Y az X-tl.
Ennek menete ktfle lehet:

t-prba:
Nullhipotzis: H 0 : 1 = 0 , azaz Y nem fgg X-tl a modellben
b1
Prba-statisztika: t = (lsd ksbb a kpletet)
SE (b1 )
Szabadsgi fokok szma: n-2
F-prba:
Csak tbb magyarz vltoz esetn klnbzik
n
2
Teljes eltrs ngyzetsszeg: SSQt = ( yi y ) , szabadsgi fok n-1
i =1

n
2
Reziduumok ngyzetsszege: SSQr = ( yi f ( xi )) , szabadsgi fok n-2 (bi becslt)
i =1

 A szmtott s a valdi rtkek klnbsgnek ngyzetsszege, ezt nem


magyarzza a modell
Magyarzott ngyzetsszeg: SSQt SSQr
 Az Y ingadozsnak az a rsze, amelyet X vltozsa magyarz
SSQt SSQr
Prbastatisztika: F = , szabadsgi fokok 1, n-2
SSQr
n2
Felttelek:
Ahhoz, hogy a modellt alkalmazni lehessen, a kvetkezknek teljeslni kell:
 E ( ) = 0
 szrsa minden megfigyelt rtkre ugyanakkora
 rtkei fggetlenek egymstl s X-tl
 normlis eloszls

Az illeszkeds jsgnak mrse:


SSQt SSQr
2
Determincis egytthat, R = (a korrelcis egytthat ngyzete)
SSQt
Azt mutatja meg, hogy X vltozsa mennyire magyarzza Y vltozst
rtke 0 s 1 kttt lehet.
A paramterek szrsnak becslse
n
ei2
s = i =1
, ahol ei = yi f ( xi )
n2
s ?
sb1 = , sb0 =
ns x ns x
Ezeket felhasznlva az n-2 szabadsgi fok t-eloszlsbl a kt paramterre lehet
konfidenciaintervallumot adni. Ennek megfelelen fel lehet rajzolni kt
konfidenciatartomnyt, az elst a regresszis egyenesre, a bvebbet pedig X adott
rtke esetn Y-ra.
Az brn (a borjak adatai), a lila vonalak jellik a regresszis egyenesre vonatkoz, a
zld vonalak pedig az egyes pontokra vonatkoz 95%-os konfidencia-svot.
Az X tartomny szlei fel haladva a becslsek egyre bizonytalanabbak. (A legkisebb
a bizonytalansg az X rtkek tlagnl.)

70 30-day body
65 weight (kg)

60
55
50
45
40
Birth weight (kg)
35
30 35 40 45 50
A vltozk transzformlsa
A transzformcik olyankor segthetnek, amikor a megfigyelt adatokra a lineris
regresszi kzvetlenl nem alkalmazhat.
Nha elmleti megfontolsokbl kvetkezik, hogy a vltozk kztti kapcsolat nem
lineris:
 Testhossz testtmeg ( gmb / ellipszoid trfogata hatvnyfggvny)
 Gygyszer dzis hats grbje (logisztikus grbe vagy hasonl S-alak
grbe)
Mskor a megfigyelt adatok ugyan egyrtelmen arra utalnak, hogy az X s az Y
kztt van sszefggs, de ha a pontokra egyenest illesztnk, az illeszkeds nagyon
rossz.
Az els esetben az elmleti megfontolsok arra vonatkozan is tmutatst adnak, hogy
milyen fggvnytpust vlasszunk, a msodikban pedig az adatok grafikus brzolsa
segthet:
 A ktvltozs szrsdiagramok a modell-vlasztshoz nyjtanak segtsget,
 A hisztogram, boxplot, stb. az adatok eloszlsnak vizsglatban (rezidulisok
normalitsa, fggetlensgk X-tl!).
Azokban az esetekben, amikor az X s Y kztti sszefggs nem lineris, lineris
sszefggs llhat fenn valamely X s Y transzformlt vltozk kztt. Ha elmleti
megfontolsokbl nem kvetkezik, hogy milyen transzformcival rdemes
prblkozni, akkor szrsdiagramok segtsgvel vlaszthatjuk ki a legmegfelelbbet.
Mivel a legtbb szmtgpes programban egy gombnyomssal krhet, a logaritmus-
transzformcit prbljuk ki rutinszeren!
Mindig gondoljuk vgig, hogy egy ilyen transzformci interpretlhat-e, meg tudjuk-
e magyarzni, mi az rtelme.
exponencilis grbe log. skla az y tengelyen egyenes
100
100
80
60
40
20
0 1
0 5 10 0 5 10

logaritmus-grbe log. skla az x tengelyen egyenes


3
3

2 2

1 1
0 5 10 1 10
hatvnyfggvny log. skla mindkt tengelyen egyenes
300 1000
200 100
100 10

0 1
0 5 10 1 10

A transzformcik rinthetik mind a regresszis fggvnyt, mind a vletlensget a


modellben (utbbit akkor, ha a fgg vltozt transzformljuk).

Pldk:
Ha a regresszi lineriss vlik az Y log-transzformlsval: log Y = 0 + 1 X + ,
akkor a fggvny exponencilis, multiplikatv hibval: Y = e 0 e 1X e
Multiplikatv hiba: a vletlen faktor nem hozzaddik a fggvnyrtkhez, hanem sszeszorzdik vele.
Ekkor nagyobb fggvnyrtkhez nagyobb Y szrs tartozik.
Ha a regresszi lineriss vlik X s Y log-transzformlsval: logY=0 +1 log X +,
akkor a fggvny hatvnyfggvny, multiplikatv hibval: Y = e 0 x 1 e
Ha a regresszi lineriss vlik az X log-transzformlsval: Y =0 +1 log X +, akkor
a fggvny logaritmus-fggvny, multiplikatv hibval.
Ugyanilyen elterjedt a hatvny- s a gyk-transzformci. A gykk (relatve)
sszehzzk a nagy rtkek tartomnyt, az (egynl nagyobb) hatvnyok pedig a kis
rtkekt.
Ha a mrt rtkek helyett rangokkal dolgozunk, a vltozt teljesen skla-fggetlenn
tehetjk.
Megjegyzsek:
 A fent emltettek mind monoton transzformcik.
 Ha a vltoz rtktartomnya szk, a rangok kivtelvel az sszes tbbi kb.
egyenrtk.
 Gyakorisgi adatokra az arcsin transzformcit szoktk alkalmazni.
A transzformcik statisztikai modell hinyban is hasznosak lehetnek. Segthetnek az
adatok jobb megismersben s brzolsban, szebb grafikonok ksztsben, stb.
Plda a transzformcis lehetsgekre az sszefggs linearizlsban:

10 4

5 2

0 0
0 1 2 0 1 2

eredeti sszefggs ngyzetgyk Y


2 2
1 0

0 -2 0 1 2

0 1 2 -4

negyedik gyk Y logaritmus Y


Megjegyzsek:
 A transzformcikat nemcsak az sszefggs linearizlsra, hanem szrs-
kiegyenltsre s az eloszlsok szimmetrizlsra is szoktk hasznlni. (Persze
elfordulhat, hogy az a transzformci, amely linearizlja az sszefggst, elrontja
a szrsok egyenlsgt, stb.)
 A transzformci megvlasztsnl fontos szempont az interpretlhatsg.
 A transzformci tjn trtn linearizls nem az egyetlen lehetsg a
nemlineris ssze-fggsek kezelsre. Lteznek eljrsok lineriss nem
transzformlhat (intrinsically nonlinear) modellek illesztsre is.
Ami idn kimaradt:

Linerisra visszavezethet regresszik

Tbbszrs (multiple) regresszi

Tbbszrs s parcilis korrelci

Polinomilis regresszi

You might also like