Professional Documents
Culture Documents
3 tulajdonság:
1. független (mindentől):
- a modellezett függőváltozótól (y értéktől)
- önmagától (autokorreláció): egy korábbi hiba nem határozhatja meg egy
későbbi hiba értékét
2. a hiba 0 várható értékű legyen: nem torzítja a lineáris modell
előrejelzését/becslését (nem tesz hozzá, nem von le) nem becsül fölé se alá
+ normális eloszlású (egymintás t-próba feltétele)
3. homoszkedasztikus (varianciájuk nem függ a becsült értékektől)
Numerikus tesztek
• Kolmogorov-Smirnov egymintás teszt az eloszlásra
• Shapiro-Wilk teszt a normalitásra, megfigyelések száma 3-5 000.
Elméleti kérdés: mi a kettő közötti különbség?
K-S eloszlást tesztel, bármilyen eloszlással össze lehet hasonlítani az adatainkat,
UNIVERZÁLIS TESZT
előny: egyetlen teszttel bármilyen nevezetes elosztást le tudok tesztelni
hátránya: gyengébb, mint egy dedikált eszköz (kisebb a statisztikai próba ereje)
S-W (dedikált eszköz) normalitás vizsgálatra (semmi másra nem jó), ha kicsi a
mintaelem szám (3-5000) akkor a S-W tesztnek nagyobb a statisztikai próba
ereje, vagyis hamarabb ki tudja mutatni azt, ha a maradékok nem normális
eloszlásúak
ellenben minden gyenge teszt azt csinálja, hogy a nullhipotézis felé dönt
nullhipotézis: minden mindennel megegyezik
Kolmogorov-Smirnov egymintás teszt az eloszlásra
Egymintás Kolmogorov-Smirnov teszt
Standardizált maradékok:
D = 0,083761, p-value < 2,2e-16 (számított szignifikancia szint/p-érték, probability)
mekkora a valószínűsége, hogy tévesen elutasítok egy igaz nullhipotézist (igaz
nullhipotézis: a maradékok normális eloszlásúak)
mi annak a valószínűsége, hogyha elutasítom, akkor tévesen utasítom el? ennek a
valségét számolja ki minden program, összehasonlíthatom az általam választott
szignifikancia szinttel (0,05), ha a p>0,05 akkor megtartom a nullhipotézist, ha
p<0,05, elutasítom, olyan kicsi a valsége annak, hogy hibás döntést hozok, hogy ezek
már nem is normális eloszlásúak
alternative hypothesis: two-sided
Homoszkedasztikus: a maradékok varianciája (szórásnégyzete) konstans legyen
mindenhol (ne változzon a kicsi értékektől a nagyfelé)
Heteroszkedasztikus: a maradékok nagyon ingadoznak (ettől a várható érték 0) NEM
JÓ
Numerikus teszt a homoszkedasztikusságra:
• Breusch-Pagan teszt (1979)
• Nem konstans hiba variancia
• H0 : konstans a hibák varianciája
• H1 : a hibák varianciája az illesztett értékektől függ
• Hiba variancia ~ Becsült érték Chi2 = 809,7862 Df = 1 p = 4,021335e-178
tengelymetszet: 771
standard hibája: +/- 4,0493
hőmérséklet (meredekség): -21
standard hibája: +/- 0,3208
t érték: (érték/hibájával) 771/4
nullhipotézis: ez a 2 paraméter nem létezik, értékük egyenlő 0-val
pr: nagyon kicsi
mindkét paraméter szignifikáns (statisztikailag igazoltan, jelentősen nagyobb mint 0)
és létezik
nullhipotézist elutasítjuk
• Estimate Std. Error t value Pr(>|t|)
• (Intercept) 770,9082 4,0493 190,38 <2e-16 ***
• Hőmérséklet -21,0725 0,3208 -65,69 <2e-16 ***
Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a
kétváltozós modell elemzése. Szükség van további olyan magyarázó változók vizsgálatára, amik a jelenség egzaktabb leírását
teszik lehetővé. Azokat a kapcsolatokat, amelyeknél az egyik tényezőre több másik tényező is hatással van többszörös
kapcsolatoknak nevezzük, a kapcsolatok mennyiségi jellemzőinek, illetve szorosságának vizsgálatát pedig többszörös korreláció-
és regresszió-analízisnek hívjuk.