You are on page 1of 3

lineáris regresszió

- anova, ankova – regresszióelemzéssel is vizsgálható


- fordítva már nehéz tud lenni
- regresszió: természetesen előforduló varianciát magyarázzon
- varianciaelemzés (anova): kísérleti megközelítésekből fejlődött ki (manipulációk mellett
változások követése)
- hamis szembeállítás, attól függ, melyik kell, hogy az adatokat hogyan nyertük (vizsgálati
elrendezéstől)

lineáris regresszió – egyváltozós

- pontdiagram – egyes emberek adatpárja pl (testmagasság – testsúly)


- mi a kapcs az y és x tengelyen ábrázolt változók között
- lineáris vagy nem lineáris modell
- Elméleti modell: yi = b0 + b1xi + ei
- ahol yi = az Y függő változó i-edik értéke
- xi = az X független változó i-edik értéke
- b0 = a regressziós egyenes metszéspontja
x=0-ban
- b1 = a regressziós egyenes meredeksége
- ei = random hiba
- Empirikus modell:
b  , b 
- = b0 + b1xi ahol
0 0 1 1
- és Y becsült értéke az X =xi aktuális érték mellett.

hogy találjuk meg az egyenest?

- eltérések négyzetét vesszük (mert akkor csak pozitív lesz – negatív négyzete is pozitív)
o ahol ez a négyzetösszeg a legkisebb, azt fogadjuk el = OLS optimal least sqare vmi
- amitől a távolságok négyzetének összege a legkisebb
- konstans változókkal ritkán foglalkozunk
- mit tehetünk ilyenkor?
o transzformálni kell az adatokat, hogy a konstans értelmet kapjon
- centrálással: értékből kivonjuk a mintában az érték átlagát
o Xcentr=X-Xátlag
o A centrálás előnye:
 Értelmezhetővé teszi a magasabb rendű összetevők együtthatóit
 Csökkenti a multikollinearitást
- sztenderdizálás
o nem 1 cm lesz az egység, hanem a szórás értéke
o zx=(x-xátlag)/SDx
- előrejelző függvényeknél fontos lehet a konstansnak értelmet adni

nem sztenderdizált regressziós együtthatók (nyers) / sztenderdizáltak

- nem sztenderdizált – függ a változók egységeitől


- sztenderdizált nem függ (magyarázó és függő változó sem)
o de! csak a nem sztenderdizált együttható hasonlítható össze más kutatásokkal,
mintákkal, a sztenderdizált az adott mintához kötött
- SDx
β=B
S Dy

- ha csak egy magyarázó változónk van, akkor a sztenderdizált együttható a korreláció lesz

hipotézis tesztelése

- az együttható tesztelése
a minta értéke−a nullhipotézis szerinti érték ❑
t=
sztenderd hiba

reziduálisok vagy maradéktagok

- reziduális hiba
- A regressziós modell által előrejelzett érték és a megfigyelt érték közötti eltérés.
- A maradéktagok elvileg véletlenszerűek (azaz a hiba nem függ az X értékétől).
- A maradéktagok segíthetnek azonosítani a kiugró értékeket (outlierek)
- becslés van amikor kicsi, van amikor nagy  van sztenderdizált reziduális, ez alapján meg
lehet mondani, mi a kicsi és nagy
- eloszlásuk normális (mivel véletlenszerűek)
- outlier = nagy mértékben eltér a modell által leírt tendenciától
o befolyásolhatja a modellt + lehetnek olyan csoportok, amikre a modellünk nem
működik
o Amikor a reziduálisok elég nagyok, akkor beszélhetünk kiugró értékről

lineáris regresszió alkalmazásának feltételei

Az egyes yi
megfigyelések Lineáris kapcsolat
Y folytonos változó
egymástól van Y és X között
függetlenek

Normális az A maradéktagnak is
Szóráshomogenitás
eloszlása az Y normális az
áll fenn
változónak eloszlása
- először pontdiagramra ránézni
- ha nincs lineáris kapcsolat, lehet nemlineáris is akár
- szóráshomogenitás:
o az előrejelzett érték mentén a reziduális szórás egyenletes (nem függ az előrejelzett
értéktől)
- Ne feledjük, a magyarázó változó (x) együtthatója az egy egységnyi különbséghez tartozó
különbség a kimeneti változóban (y), csak olyan változók jöhetnek számításba, ahol ez
értelmezhető:
o Folytonos változók – életkor, szorongás pontszám, stb.
o Dichotóm változók - nem
o Ordinális változók, ahol a lépték egységnyi – ilyen ritkán van (!).
-
- Bináris prediktor változó: pl. nem
- A regresszió alkalmazható nemlineáris kapcsolatok leírására is: pl. polinomiális (parabolikus,
harmadfokú stb.) kapcsolat:
o Y=a+b*x+c*x2
o Y=a+b*x+c*x2+d*x3

többszörös lineáris regresszió

- korreláció = négyzettel megmagyarázott variancia


- modell jósága: korrelációs együttható
o négyzete: megmagyarázott variancia
o korrigálható populációra
- ha az elemszám nagyon nagy, akkor a korrigálás nem sokat változtat

- k magyarázóváltozók száma
- parciális: többi változó kontrollálása mellett
- miért használjuk?
o prediktor hogyan hat a kimeneti változóra a többi kontrollálása mellett ( parciális)
o predikció (pl diagnosztikában)
o

You might also like