Professional Documents
Culture Documents
Lineáris Regresszió
Lineáris Regresszió
- eltérések négyzetét vesszük (mert akkor csak pozitív lesz – negatív négyzete is pozitív)
o ahol ez a négyzetösszeg a legkisebb, azt fogadjuk el = OLS optimal least sqare vmi
- amitől a távolságok négyzetének összege a legkisebb
- konstans változókkal ritkán foglalkozunk
- mit tehetünk ilyenkor?
o transzformálni kell az adatokat, hogy a konstans értelmet kapjon
- centrálással: értékből kivonjuk a mintában az érték átlagát
o Xcentr=X-Xátlag
o A centrálás előnye:
Értelmezhetővé teszi a magasabb rendű összetevők együtthatóit
Csökkenti a multikollinearitást
- sztenderdizálás
o nem 1 cm lesz az egység, hanem a szórás értéke
o zx=(x-xátlag)/SDx
- előrejelző függvényeknél fontos lehet a konstansnak értelmet adni
- ha csak egy magyarázó változónk van, akkor a sztenderdizált együttható a korreláció lesz
hipotézis tesztelése
- az együttható tesztelése
a minta értéke−a nullhipotézis szerinti érték ❑
t=
sztenderd hiba
- reziduális hiba
- A regressziós modell által előrejelzett érték és a megfigyelt érték közötti eltérés.
- A maradéktagok elvileg véletlenszerűek (azaz a hiba nem függ az X értékétől).
- A maradéktagok segíthetnek azonosítani a kiugró értékeket (outlierek)
- becslés van amikor kicsi, van amikor nagy van sztenderdizált reziduális, ez alapján meg
lehet mondani, mi a kicsi és nagy
- eloszlásuk normális (mivel véletlenszerűek)
- outlier = nagy mértékben eltér a modell által leírt tendenciától
o befolyásolhatja a modellt + lehetnek olyan csoportok, amikre a modellünk nem
működik
o Amikor a reziduálisok elég nagyok, akkor beszélhetünk kiugró értékről
Az egyes yi
megfigyelések Lineáris kapcsolat
Y folytonos változó
egymástól van Y és X között
függetlenek
Normális az A maradéktagnak is
Szóráshomogenitás
eloszlása az Y normális az
áll fenn
változónak eloszlása
- először pontdiagramra ránézni
- ha nincs lineáris kapcsolat, lehet nemlineáris is akár
- szóráshomogenitás:
o az előrejelzett érték mentén a reziduális szórás egyenletes (nem függ az előrejelzett
értéktől)
- Ne feledjük, a magyarázó változó (x) együtthatója az egy egységnyi különbséghez tartozó
különbség a kimeneti változóban (y), csak olyan változók jöhetnek számításba, ahol ez
értelmezhető:
o Folytonos változók – életkor, szorongás pontszám, stb.
o Dichotóm változók - nem
o Ordinális változók, ahol a lépték egységnyi – ilyen ritkán van (!).
-
- Bináris prediktor változó: pl. nem
- A regresszió alkalmazható nemlineáris kapcsolatok leírására is: pl. polinomiális (parabolikus,
harmadfokú stb.) kapcsolat:
o Y=a+b*x+c*x2
o Y=a+b*x+c*x2+d*x3
- k magyarázóváltozók száma
- parciális: többi változó kontrollálása mellett
- miért használjuk?
o prediktor hogyan hat a kimeneti változóra a többi kontrollálása mellett ( parciális)
o predikció (pl diagnosztikában)
o