Professional Documents
Culture Documents
Korreláció - És Regresszió-Analízis
Korreláció - És Regresszió-Analízis
teljes sly
hts lb hossza kr
Pearson-fle korrelcis egytthat
A korrelcis kapcsolat erssgt intervallum skla esetn szmszeren a Pearson-
fle korrelcis egytthatval szoktk mrni, amit R(X,Y)-nal jellnk.
1 R( X , Y ) 1
0 krli rtk gyenge, -1-hez vagy 1-hez kzeli rtk ers negatv, illetve pozitv
korrelcis kapcsolatot jelez.
A regressziszmts clja
A regressziszmtst akkor hasznljuk, amikor fggvnyszer kapcsolatot keresnk
egy vagy tbb magyarz vltoz (vagy fggetlen vltoz) s egy fgg vltoz
kztt. Szoksosan a magyarz vltozkat X-ekkel, a fgg vltozt pedig Y-nal
jelljk. Felttelezzk, hogy az X-ek s az Y kztti sszefggs kifejezhet fggvny
formjban, azaz
Y =f(X) vagy Y=f(X1,X2,,Xr)
Ahhoz, hogy regresszi szmtst vgezhessnk, mind a magyarz, mind a fgg
vltozt ismernnk kell ugyanazokon a megfigyelsi egysgeken, azaz a kiindul
adatok egy magyarz vltoz esetn (x1,y1), (x2,y2), (x3,y3) ... (xn,yn) rtkprok, tbb
magyarz vltoz esetn pedig (x11, x12, x13,, y1), (x21, x22, x23,, y2),
(x31, x32, x33,, y3) ... (xn1, xn2, xn3,, yn) vektorok. Ez az gynevezett adatmtrix.
A regressziszmts szoksos krdsfeltevsei
Van-e bizonyos vltozk kztt sszefggs?
Fgg-e a borjak 30 napos testtmege a szletsi slyuktl?
Milyen fggvnnyel (lineris, exponencilis, stb.) rhat le az sszefggs?
Alkalmas-e ennek az sszefggsnek a lersra a lineris fggvny?
Mi a fgg vltoz vrhat rtke a magyarz vltoz egy bizonyos rtkhez?
Mekkora 30 napos testtmeget vrhatunk, ha a szletsi sly 45 kg?
Mi a magyarz vltoz felttelezhet rtke a fgg vltoz egy bizonyos rtkhez?
Mekkora szletsi sly kszb feletti llatokat szelektljunk, ha az a cl, hogy 30
napos korban az llatok (legalbbis tlagban) elrjk az 55 kg-ot?
A cl lehet oksgi kapcsolat megllaptsa X s Y kztt, gyakran azonban csak
kvetkeztetni szeretnnk az egyik vltoz rtkbl a msikra, a kzttk tapasztalt
sszefggs alapjn.
Felttel: a magyarz s a fgg vltoz egyarnt intervallum skln mrhet.
Plda:
A szletsi sly s a 30 napos testtmeg sszefggse 30 borj adatai alapjn (Bajcsy
. Csaba s munkatrsai, Szlszeti Tanszk).
70 30 napos
65 testtmeg
(kg)
60
55
50
45
40 Szletsi sly (kg)
35
30 35 40 45 50 55
fgg vltoz
Fel szoks tenni, hogy a vletlen komponens vrhat rtke 0, azaz E()=0 s hogy
eloszlsa szimmetrikus, a statisztikai tesztek kedvrt pedig mg azt is, hogy normlis
eloszls.
A magyarz vltozban hromfle vletlensget szoktak megklnbztetni:
X nem vletlen vltoz, a ksrlet vezetje lltja be
X rtkt a termszet lltja be, de az pontosan ismert
A mrt X nem azonos az Y-t befolysol vltozval (mrsi pontatlansg miatt,
vagy mert X elvont, nem mrhet, pl. ha X = intelligencia IQ).
t-prba:
Nullhipotzis: H 0 : 1 = 0 , azaz Y nem fgg X-tl a modellben
b1
Prba-statisztika: t = (lsd ksbb a kpletet)
SE (b1 )
Szabadsgi fokok szma: n-2
F-prba:
Csak tbb magyarz vltoz esetn klnbzik
n
2
Teljes eltrs ngyzetsszeg: SSQt = ( yi y ) , szabadsgi fok n-1
i =1
n
2
Reziduumok ngyzetsszege: SSQr = ( yi f ( xi )) , szabadsgi fok n-2 (bi becslt)
i =1
70 30-day body
65 weight (kg)
60
55
50
45
40
Birth weight (kg)
35
30 35 40 45 50
A vltozk transzformlsa
A transzformcik olyankor segthetnek, amikor a megfigyelt adatokra a lineris
regresszi kzvetlenl nem alkalmazhat.
Nha elmleti megfontolsokbl kvetkezik, hogy a vltozk kztti kapcsolat nem
lineris:
Testhossz testtmeg ( gmb / ellipszoid trfogata hatvnyfggvny)
Gygyszer dzis hats grbje (logisztikus grbe vagy hasonl S-alak
grbe)
Mskor a megfigyelt adatok ugyan egyrtelmen arra utalnak, hogy az X s az Y
kztt van sszefggs, de ha a pontokra egyenest illesztnk, az illeszkeds nagyon
rossz.
Az els esetben az elmleti megfontolsok arra vonatkozan is tmutatst adnak, hogy
milyen fggvnytpust vlasszunk, a msodikban pedig az adatok grafikus brzolsa
segthet:
A ktvltozs szrsdiagramok a modell-vlasztshoz nyjtanak segtsget,
A hisztogram, boxplot, stb. az adatok eloszlsnak vizsglatban (rezidulisok
normalitsa, fggetlensgk X-tl!).
Azokban az esetekben, amikor az X s Y kztti sszefggs nem lineris, lineris
sszefggs llhat fenn valamely X s Y transzformlt vltozk kztt. Ha elmleti
megfontolsokbl nem kvetkezik, hogy milyen transzformcival rdemes
prblkozni, akkor szrsdiagramok segtsgvel vlaszthatjuk ki a legmegfelelbbet.
Mivel a legtbb szmtgpes programban egy gombnyomssal krhet, a logaritmus-
transzformcit prbljuk ki rutinszeren!
Mindig gondoljuk vgig, hogy egy ilyen transzformci interpretlhat-e, meg tudjuk-
e magyarzni, mi az rtelme.
exponencilis grbe log. skla az y tengelyen egyenes
100
100
80
60
40
20
0 1
0 5 10 0 5 10
2 2
1 1
0 5 10 1 10
hatvnyfggvny log. skla mindkt tengelyen egyenes
300 1000
200 100
100 10
0 1
0 5 10 1 10
Pldk:
Ha a regresszi lineriss vlik az Y log-transzformlsval: log Y = 0 + 1 X + ,
akkor a fggvny exponencilis, multiplikatv hibval: Y = e 0 e 1X e
Multiplikatv hiba: a vletlen faktor nem hozzaddik a fggvnyrtkhez, hanem sszeszorzdik vele.
Ekkor nagyobb fggvnyrtkhez nagyobb Y szrs tartozik.
Ha a regresszi lineriss vlik X s Y log-transzformlsval: logY=0 +1 log X +,
akkor a fggvny hatvnyfggvny, multiplikatv hibval: Y = e 0 x 1 e
Ha a regresszi lineriss vlik az X log-transzformlsval: Y =0 +1 log X +, akkor
a fggvny logaritmus-fggvny, multiplikatv hibval.
Ugyanilyen elterjedt a hatvny- s a gyk-transzformci. A gykk (relatve)
sszehzzk a nagy rtkek tartomnyt, az (egynl nagyobb) hatvnyok pedig a kis
rtkekt.
Ha a mrt rtkek helyett rangokkal dolgozunk, a vltozt teljesen skla-fggetlenn
tehetjk.
Megjegyzsek:
A fent emltettek mind monoton transzformcik.
Ha a vltoz rtktartomnya szk, a rangok kivtelvel az sszes tbbi kb.
egyenrtk.
Gyakorisgi adatokra az arcsin transzformcit szoktk alkalmazni.
A transzformcik statisztikai modell hinyban is hasznosak lehetnek. Segthetnek az
adatok jobb megismersben s brzolsban, szebb grafikonok ksztsben, stb.
Plda a transzformcis lehetsgekre az sszefggs linearizlsban:
10 4
5 2
0 0
0 1 2 0 1 2
0 -2 0 1 2
0 1 2 -4
Polinomilis regresszi