You are on page 1of 9

Alkalmassági tesztet a maradékokra kell elvégezni, nem az alapadatokra.

3 tulajdonság:
1. független (mindentől):
- a modellezett függőváltozótól (y értéktől)
- önmagától (autokorreláció): egy korábbi hiba nem határozhatja meg egy
későbbi hiba értékét
2. a hiba 0 várható értékű legyen: nem torzítja a lineáris modell
előrejelzését/becslését (nem tesz hozzá, nem von le) nem becsül fölé se alá
+ normális eloszlású (egymintás t-próba feltétele)
3. homoszkedasztikus (varianciájuk nem függ a becsült értékektől)
Numerikus tesztek
• Kolmogorov-Smirnov egymintás teszt az eloszlásra
• Shapiro-Wilk teszt a normalitásra, megfigyelések száma 3-5 000.
Elméleti kérdés: mi a kettő közötti különbség?
K-S eloszlást tesztel, bármilyen eloszlással össze lehet hasonlítani az adatainkat,
UNIVERZÁLIS TESZT
előny: egyetlen teszttel bármilyen nevezetes elosztást le tudok tesztelni
hátránya: gyengébb, mint egy dedikált eszköz (kisebb a statisztikai próba ereje)
S-W (dedikált eszköz) normalitás vizsgálatra (semmi másra nem jó), ha kicsi a
mintaelem szám (3-5000) akkor a S-W tesztnek nagyobb a statisztikai próba
ereje, vagyis hamarabb ki tudja mutatni azt, ha a maradékok nem normális
eloszlásúak
ellenben minden gyenge teszt azt csinálja, hogy a nullhipotézis felé dönt
nullhipotézis: minden mindennel megegyezik
Kolmogorov-Smirnov egymintás teszt az eloszlásra
Egymintás Kolmogorov-Smirnov teszt
Standardizált maradékok:
D = 0,083761, p-value < 2,2e-16 (számított szignifikancia szint/p-érték, probability)
 mekkora a valószínűsége, hogy tévesen elutasítok egy igaz nullhipotézist (igaz
nullhipotézis: a maradékok normális eloszlásúak)
mi annak a valószínűsége, hogyha elutasítom, akkor tévesen utasítom el? ennek a
valségét számolja ki minden program, összehasonlíthatom az általam választott
szignifikancia szinttel (0,05), ha a p>0,05 akkor megtartom a nullhipotézist, ha
p<0,05, elutasítom, olyan kicsi a valsége annak, hogy hibás döntést hozok, hogy ezek
már nem is normális eloszlásúak
alternative hypothesis: two-sided
Homoszkedasztikus: a maradékok varianciája (szórásnégyzete) konstans legyen
mindenhol (ne változzon a kicsi értékektől a nagyfelé)
Heteroszkedasztikus: a maradékok nagyon ingadoznak (ettől a várható érték 0) NEM

Numerikus teszt a homoszkedasztikusságra:
• Breusch-Pagan teszt (1979)
• Nem konstans hiba variancia
• H0 : konstans a hibák varianciája
• H1 : a hibák varianciája az illesztett értékektől függ
• Hiba variancia ~ Becsült érték Chi2 = 809,7862 Df = 1 p = 4,021335e-178

A regressziós egyenes megadása


tételezzük fel, hogy valid a modell (maradékok függetlenek, 0 várható értékű normális
eloszlásúak és homoszkedasztikusak (varianciájuk nem függ a becsült értékektől), ha
mindhárom tejesül felírhatjuk:
Y’ (y kalap) = 770,9 - 21,1*hőmérséklet
y a becsült vendégek száma (fő)  tengelymetszet (mértékegysége fő)
771 vendég fog megjelenni amikor a hőmérséklet 0 (celsius)
ha a hőmérséklet nő: minden +1°C -21 fő várható
21,1-nek (ez egy meredekség) is van mértékegysége: fő/°C
Interpoláció:
azon tartományon belül ahol vannak adataim (legkisebb és legnagyobb között) köztes
értékeket tudok megbecsülni
Extrapoláció: (nagyon bizonytalan)
nem rendelkezek mért adattal, nem is tapasztaltam semmit és azon kívül próbálom
alkalmazni a modellemet (mennyire tudom kiterjeszteni a modellemet még nem
ismert jelenségekre)
Elméleti kérdés: melyik a bizonytalanabb/biztosabb?
Az illesztetlenség okai:
• Nem lineáris az összefüggés
• Általunk nem vizsgált változó zavarja az összefüggést
• Torzító esetek (1-2 extrém nagy/kicsi érték kerül bele)
Nagy befolyással rendelkező, torzító esetek okai
• Hibás adat-felvételezés, mérés
• Adatrögzítési hiba
• Természetes ok, korreláció törő megfigyelések
Részletes diagnosztika
Befolyásos, torzító adatok keresése
• Szélsőséges eset (leverage) vizsgálata (az x-változó tulajdonsága) - Befolyásos
pontok hatóerejének
• Kiugró, kirívó érték (outlier) az y-változó tulajdonsága
CSAK A SZÉLSŐSÉGES ESETHEZ TARTOZÓ KIUGRÓ ÉRTÉK TORZÍT!

Maradékok: becsült és mért értékek közötti


Studentizált maradékok: rendes maradék osztva a maradékok szórásával
Törölt maradékok: a modellben nem szerepel az az érték (i-edik nem szerepel a
regressziós modellben a becsült értéknél és úgy határozom meg) amelyiknek a
maradéktagját meg akarom határozni
Törölt studentizált maradékok: el kell osztani az előzőt a standard error-ral
Cook-távolság: arra jó, hogy kiszűrjük a kiugró értékeket, aminek a Cook-értéke (Ci)
nagyobb, mint 1 akkor kiugró érték
Eredménytáblázat

tengelymetszet: 771
standard hibája: +/- 4,0493
hőmérséklet (meredekség): -21
standard hibája: +/- 0,3208
t érték: (érték/hibájával) 771/4
nullhipotézis: ez a 2 paraméter nem létezik, értékük egyenlő 0-val
pr: nagyon kicsi
mindkét paraméter szignifikáns (statisztikailag igazoltan, jelentősen nagyobb mint 0)
és létezik
nullhipotézist elutasítjuk
• Estimate Std. Error t value Pr(>|t|)
• (Intercept) 770,9082 4,0493 190,38 <2e-16 ***
• Hőmérséklet -21,0725 0,3208 -65,69 <2e-16 ***

Többszörös lineáris regresszió


Fogalom

Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a
kétváltozós modell elemzése. Szükség van további olyan magyarázó változók vizsgálatára, amik a jelenség egzaktabb leírását
teszik lehetővé. Azokat a kapcsolatokat, amelyeknél az egyik tényezőre több másik tényező is hatással van többszörös
kapcsolatoknak nevezzük, a kapcsolatok mennyiségi jellemzőinek, illetve szorosságának vizsgálatát pedig többszörös korreláció-
és regresszió-analízisnek hívjuk.

Több x (magyarázó/ok) magyaráz valamit  legyen sokkal kevesebb mint a


megfigyelések száma
magyarázó változók függetlenek egymástól
tengelymetszet (nem mindig van értelme) TECHNIKAI PARAMÉTER – ami javítja az
illesztést
p-érték: 0,75 jóval nagyobb mint 0,05, nem utasítom el a nullhipotézist, ami azt
mondja, hogy a tengelymetszet nem létezik, mert false elutasítás lenne (75%-ban)
TENGELYMETSZETET MINDIG ELFOGADJUK!!
Alkalmazhatósági feltételek
• Magas mérési szintű változók
• Normális eloszlásúak
• A megfigyelések száma több, mint 30
• A magyarázó változó nem sztochasztikus
• A magyarázó változók függetlenek egymástól
• A két változó között lineáris a kapcsolat
Miért nem teljesülhetnek a feltételek?
• Multikollinearitás: a magyarázó változók nem lineárisan függetlenek (hogy ne
legyen benne redundancia)
• Autokorreláció: a hibatagok (epszilonok) lineárisan nem függetlenek
• Heteroszkedaszticitás: a hibák szórásnégyzete nem konstans
Ha a magyarázó változók lineárisan nem függetlenek
• A becslés és az előrejelzés torzított marad (amit mondunk, az nem igaz)
• A regressziós együtthatók standard hibái (nagyon) megnőnek
• A becsléseink bizonytalanná válnak
• Az egyes magyarázó változók hatásainak elkülönítése nem lehetséges

A multikollinearitás mérése szintetikus mutatóval („rossz”)


A magyarázó változók determinációs együtthatóinak összege, ha megegyezik a
többszörös determinációs együttható értékével, akkor nem áll fenn a magyarázó
változók között multikollinearitás.

szintetikus: egyetlen egy mutatószámba összeötvözik a többit


VIF (Variance Inflation Factors)
Varianciainflációs tényező azt mutatja, hogy a j-edik változó becsült együtthatójának
varianciája hányszorosa annak, ami a multikollinearitás teljes hiányakor lenne. Ezért
ezt a mutatószámot a j-edik változóhoz tartozó variancianövelő tényezőnek nevezzük.
1
VIF= 2
1−R J
VIF
• Minimális értékét, az 1-et akkor veszi fel, amikor a j-edik magyarázó változó
nem
• korrelál a többivel.
• Ahogy nő az R2j, úgy nő a VIF értéke is, jelezve, hogy a kollinearitás
hányszorosára növeli a varianciával mért becslési hibát.
• Ha R2j =1 a VIF mutató nem értelmezhető, ez a teljes vagy extrém
multikollinearitás.
• A VIF reciprokát toleranciamutatónak nevezik.
Elméleti kérdés: Mit nevezünk toleranciamutatónak? – jelentése: egyik
változó bárhogy változik a másik nem reagál rá
VIF meghatározása
A magyarázó változók korrelációs mátrixának inverzéből. A főátló elemei.
Nepesseg Analfabetak Jovedelem Fagyos_napok
Nepesseg 1,25 0,08 -0,35 0,55
Analfabetak 0,08 2,17 0,63 1,34
Jovedelem -0,35 0,63 1,35 0,00
Fagyos_napok 0,55 1,34 0,00 2,08
VIF értékei
• •1–2 gyenge
• •2–5 erős (zavaró)
• • 5 felett nagyon erős (káros)
• multikollinearitás
Multikollinearitás csökkentése
• Változók törlése
• Ridge regresszió használata. Ez a többszörös regresszió-analízis olyan
változata, amely kezeli a multikollinearitást.
Autokorreláció (hánnyal csúsztatom el?, mi mivel függ össze?)
A hibatagok lineárisan nem függetlenek
Az autokorreláció különböző rendű lehet, attól függően, hogy a hibatag iedik értéke
melyik értékkel van kapcsolatban. Ha a hibatag i-edik értéke közvetlenül az előtte
lévő értékkel áll korrelációs kapcsolatban, akkor elsőrendű autokorreláció-ról
beszélünk. Az elsőrendű autokorreláció modellje
A többszörös lineáris regressziószámítás lépései
1. Modellalkotás, változók bevonása
2. Illeszkedés vizsgálata
3. Korrelációs index, determinációs együttható
4. Variancia-analízis, F-próba
5. Együtthatók t-próbája
6. Validálás
Magyarázó változók bevonása, törlése
1. Lépésenkénti (Stepwise) regresszió
1. Fordward
2. Backward
3. Vegyes módszer (mixed)
2. Hatványhalmaz regresszió (All subset regresszió)
A „legjobb” modell kritériumai
• Nem létezik egyetlen „legjobb” modell mérőszám
• A végső modell kiválasztása a becslési pontosság és az egyszerűség
kompromisszuma
• „Ockham borotvája” filozófiai elv
Modellek vizsgálata
• Beágyazott modellek vizsgálata ANOVA-val
• AIC (Akaike information criterion).
• A kisebb érték jelenti az adekvátabb (megfelelőbb) modellt. Nem
feltétel, hogy a modell beágyazott legyen.
Beágyazott modellek
1. Modell
Gyilkosságok=a+b1Analfabéták+b2Lakosság
2. Modell
Gyilkosságok=a+b1Analfabéták+b2Lakosság+b3Jövedelem+
b4Fagyos_napok
A második magába foglalja az esőt.
AIC (Akaike, 1973) (képletet tudni kell!!)

• SSE: (minden maradékból kivonom az átlagát, négyzetre emelem és


összeadom) akkor nagy, ha pontatlan a modell  minél kisebb annál jobb
(pontosabb)
• P: magyarázó változó + a konstans  minél kevesebb annál jobb
• n: minél több annál jobb
Mérések, megfigyelések korrigálása
1. Töröljük a befolyásos értékeket
2. Transzformáljuk a változókat
3. Töröljünk vagy adjunk hozzá változókat
4. Használjunk másik regressziós modellt
Változók transzformálása
1. A modell nem teljesíti a normális eloszlást (y)
2. A linearitás feltétele nem teljesül
3. Heteroszkedasztikus a modell
Az összefüggések a transzformált változóra igazak.
2.1. Nem normális eloszlás esetén
• A függő változó (y) transzformálása segíthet.
EZT NEVEZIK BOX-COX TRANSZORMÁCIÓNAK
2.2. Nemlinearitás esetén
• A magyarázó változók (x) transzformálása segíthet.
• A hatványkitevők becslése a
• BOX-TIDWELL TRANSZFORMÁCIÓ
2.3. Heteroszkedasztikus modell esetén
Függő változó (y) transzformációja, hatványkitevő keresése.
4.Egyéb modellek
• Multikollinearitás esetén – ridge regresszió
• Sok kiugró vagy befolyásos érték esetén – robusztus regresszió
• Nem normális eloszlás esetén – nemparaméteres regresszió
• Nemlinearitás esetén – nemlineáris regresszió
• Maradékok nem függetlenek – többlépcsős regresszió
A modell általánosíthatósága
• Hogyan működne a modellünk a valóságban, milyen pontos előrejelzést
tehetünk vele?
• Szigorúbb validálási eljárások
Kereszt validálás (crossvalidation)

• Különböző adatokon végezzük el a regressziós modell illesztését és a validációt.


• Paraméterek becslése („training sample”)
• Validáció („hold-out sample”)

You might also like