Professional Documents
Culture Documents
2023 Matstat3 Diasor
2023 Matstat3 Diasor
tnagy.judit@kre.hu
megyesi.peter.jozsef@kre.hu
Követelmények
előadás (BSZOC 1180):
követelmény: kollokvium
gyakorlat (BSZOC 1181):
követelmény: gyakorlati jegy
órai jelenlét, ZH-k
Témakörök
1. Varianciaanalízis (ANOVA)
2. Illeszkedésvizsgálat
3. Homogenitásvizsgálat
4. Korreláció
5. Regresszió
Irodalom
● előadás diák
● Vargha András: Matematikai
statisztika - pszichológiai,
nyelvészeti és biológiai
alkalmazásokkal. Pólya kiadó,
2015.
(a továbbiakban: VA)
● Táblázatok
Ismétlés
● Változók típusai
● Változók közötti kapcsolat jelentése
● Miért van szükségünk statisztikai próbákra?
● Statisztikai próbák menete
Melyik átlagpróbát mikor használjuk?
Tipikus kérdés: Egy konkrét
értéktől eltér-e a sokasági átlag?
Egy vagy két „mintám” van?
egymintás kétmintás
Függetlenek-e a nem
minták?
igen: független mintás
Tipikus kérdés: Két csoport
nem
Normális az eloszlás? értékei különböznek-e?
(Pl.: férfi-nők stb.)
igen igen nem
Normális az eloszlás?
elegendő
igen Teljes sokasági nem ordinális Szórások azonosak? elegendő
szórás ismert? mérési szintű igen (Fisher féle nem ordinális
változó is, de F-próbával mérési szintű
n≥15 vizsgálható) változó is
Analysis Of VAriances =
ANOVA
Egyszempontos (one way), független mintás
ANOVA
Azt vizsgáljuk, hogy függő változó
• egy kvantitatív változó hogyan függ* egy független v
alacsony mérési szintű (csoportosító) változótól áltozó
VAGY
• eltérő-e a kvantitatív változó az alacsony mérési szintű
változó által alkotott csoportokban
Például:
• belvárosi lakásárak függenek-e a kerülettől?
• eltérő ez az egyes évfolyamok tanulmányi eredménye?
A független mintás t-próba általánosítása.
*
A függőség tényét a statisztikai módszer nem tudja vizsgálni (a kutató felelőssége)!
Pl. Eltérő ez az egyes évfolyamok
tanulmányi eredménye?
5
függő változó
1 független változó
csoportokban különböző személyek
1. évf. 2. évf. 3. évf. ⇩
https://rlbarter.github.io/Practical-Statistics/2017/02/20/anova/
független mintás ANOVA
Egyszempontos, független mintás ANOVA
technikája
A kvantitatív változó elméleti átlagát hasonlítjuk össze a különböző
csoportokban,
DE a varianciák segítségével számolunk
H0: μ1 = μ2 = μ3= μ
5
H1: valamely μi ≠ μ
μ: a teljes
1 sokasági átlag
1. évf. 2. évf. 3. évf.
https://rlbarter.github.io/Practical-Statistics/2017/02/20/anova/
Egyszempontos, független mintás ANOVA
technikája
Belső (hiba) variancia Külső (modell/hatás)
(csoportokon belüli) variancia (csoportok
közötti)
nagy átlag
l t o z ó hatása
ása getle n v á
Hiba hat Füg
Egyszempontos, független mintás ANOVA
technikája
Csak belső variancia van, külső nincs Csak külső variancia van, belső nincs
H0-t megtartjuk -> nincs szign. összefüggés H0-t elutas. -> szign. összefüggés van
(elm. csoportátlagok egyformák) (valamely elm. csoportátlag eltér)
Egyszempontos, független mintás ANOVA
technikája
igen
3. A kapcsolat erősségének = hatásméret meghatározása:
éta, éta2 becslése
4. Utóelemzés: Mely csoport(ok) elméleti átlaga tér el a
többitől?
paraméteres próba
1. F próba végrehajthatósági feltételei
• független minták (csoportok)
• A függő változó normális eloszlású minden csoportban =
normalitás* (mivel paraméteres próba)
• A függő változó elméleti szórása ugyanakkora minden
csoportban = szóráshomogenitás**
↓
*
tévesen ítélünk különbözőnek két elméleti értéket
Megjegyzések:
NORMALITÁS:
• A próba igen robusztus a normalitás megsértésével szemben
= a feltétel sérülése nem rontja lényegesen a következtetések
érvényességét, ha az elemszámok nem kicsik (>=10).
(Ha kicsik, akkor Kruskal-Wallis próba alkalmazható:
rangokon végzett ANOVA)
• CHT -> nagy minta esetén feltételezhető a normalitás!
SZÓRÁSHOMOGENITÁS:
• Ha az elemszámok hasonlók->robosztus rá az ANOVA
• Ha az elemszámok különbözők ->nem robosztus!-> más teszt
az ANOVA helyett:
– Welch-féle VA Robosztus VA-k
– Brown-Forsyte próba
– James-próba Matstat. 3.-ban nem lesznek
2. ANOVA (F-próba)
Jelölések:
μi : i. csoport elméleti átlaga
μ : a feltételezett közös elméleti átlag (főátlag)
m : a csoportok száma
: i. csoport mintaátlaga
Vari : i. csoport minta-varianciája (si: a minta-szórása)
ni : i. csoport minta-elemszáma
n : a teljes minta elemszáma
• Hipotézisek:
H0: μ1 = μ2 = … = μm = μ az elméleti átlagok nem
különböznek
a kvantitatív változó nem függ a
csoportosító változótól
együttes átlag
•
csoportok közötti variancia
• (hatásvariancia)
a csoportosító változó hatása
SSk
csoportok közötti
eltérés-négyzetösszeg
• függő változó változatosságának mekkora részét
magyarázza a független
SSb
csoportokon belüli
• eltérés-négyzetösszeg
függő változó változatosságának mekkora
részét NEM magyarázza a független
• Próbafüggvény:
(m - 1, n - m) szabadságfokú F-eloszlást
követ, ha H0 fennáll
(df1= m-1, df2= n-m)
• Megtartási tartomány:
Tmegt= (0; F1-α(df1; df2))
kritikus érték
• Döntés: Ha F ∈ Tmegt., azaz,
ha F < F1-α(df1; df2), akkor
a nullhipotézist megtartjuk
https://www.boost.org/doc/libs/1_44_0/libs/math/doc/sf_and_dist/html/math_toolkit/dist/dist_ref/dists/f_dist.html
Eredmények szokásos elrendezése: Szórásfelbontás táblázat
A szóródás oka Eltérés- Szabadság-fok Variancia F
négyzet- becslése =
összeg Mean Square
Csoportok SSk m-1 Vark Vark / Varb
közötti (hatás)
• Szóráshomogenitás esetén
– LSD: a legkisebb szign. különbséget (least significant
difference) határozza meg és ehhez hasonlít. nem szigorú!
– Tukey: ez is hasonló, megfelelően szigorú!, egyenlő
elemszámnál
– Bonferroni: szign. szint/összehasonlítások száma->másodfajú
hibát növeli
– Scheffe: legszigorúbb, legrobosztusabb
– Hochberg, Gabriel: nem egyenlő elemszámnál
Post hoc tesztek SPSS-ben
•
A mintából becsült mennyiségek kiszámítása
• k = 22,95
• = 985,7
• = 6,25
• A próbafüggvény aktuális értéke: F = Vark / Varb
• Megtartási tartomány:
– 1-α=
– df1= df2=
– kritikus érték: F1-α(df1; df2)= (Táblázat)
• Megtartási tartomány:
– 1-α = 0,95
– df1= 2 df2 = 187
– kritikus érték: F1-α(df1; df2) = 3,04 (Táblázat)
kerületeken
belüli (hiba)
Összesen
További feladatok: Készítsük el a Szórásfelbontás
táblázatot!
kerületeken
belüli (hiba)
Összesen
További feladatok: Készítsük el a Szórásfelbontás
táblázatot!
•
További feladatok: Számítsuk ki és értelmezzük a
minta alapján a szórásokat!
A kerületi átlagoknak a (három
• = 31,40 kerületre jellemző) főátlagtól
való átlagos eltérése.
• A próbafüggvény: Fij=
• Döntés:
Scheffe próba: V. és VII. ker.
összehasonlítása
• Hipotézisek:
H0: μV. = μVII.
H1: μV. ≠ μVII.
• A próbafüggvény:
• Döntés:
Scheffe próba: V. és VII. ker.
összehasonlítása
ahol
ahol
Mintapélda: Vizsgáljuk meg, hogy mely alcsoportok
lakásárai között mutatható ki szignifikáns eltérés!
A 8 41 7,5
B 10 37 10
C 14 40 7
D 8 34 8,7
E 10 37 6,4
*A normalitás és a szóráshomogenitás feltételezhető.
Feladatsor hallgatók pontszámok pontszámok pontszámok
Feladat megoldása: száma nj átlaga x(átl.)j szórása sj varianciája
Varj
n = 50 A 8 41 7,5 56,25
m=5
B 10 37 10 100
C 14 40 7 49
D 8 34 8,7 75,69
E 10 37 6,4 40,96
A 8 41 7,5 56,25
B 10 37 10 100
C 14 40 7 49
D 8 34 8,7 75,69
E 10 37 6,4 40,96
egy fgtl. (csoportosító) változó: kategória több fgtl. (csoportosító) változó: kategória
köztük interakció is lehet
egy függő változó: kvantitatív (folyt.) egy függő változó: kvantitatív (folyt.)
Kétszempontos Három-
ANOVA szempontos ANOVA
...
2 fgtl. változó: kategória 3 fgtl. változó: kategória
egy függő változó: egy függő változó:
kvantitatív (folyt.) kvantitatív (folyt.)
Független mintás Összetartozó mintás
(Repeated measures)
a csoportokban a csoportokban ugyanazok az Független Összetartozó Független Összetartozó
különböző egyedek egyedek ...
mintás mintás mintás mintás
További “ANOVÁk”
ANCOVA MANCOVA Regresszió
ANOVA MANOVA
Többváltozós Variancia- Többváltozós
(Multivariate) kovariancia- (Multivariate)
variancia analízis variancia-ko-
analízis variancia-analízis
fgtl. változó:
fgtl. változó: egy fgtl. változó: egy egy vagy
vagy több, vagy több, kategória több,
fgtl. változó: egy fgtl. változó: egy
kategória és és kvantitatív kvantitatív
vagy több, vagy több,
kvantitatív (kovariáns)
kategória kategória
(kovariáns) függő
függő változó: több, változó:egy
függő változó: egy, függő változó: több,
függő változó: egy, kvantitatív kvantitatív
kvantitatív kvantitatív
kvantitatív
További “ANOVÁk”
• Összetartozó mintás (egyszempontos) ANOVA (Repeated
Measure ANOVA): egy kvantitatív változó átlagainak eltérését
vizsgáljuk különböző helyzetek, időpontok között. Pl.
– vérnyomást hasonlítunk kezelés előtt-közben-után,
– gyermek IQ-ja 6-8-10-12 évesen, úgy, mint ö.m. t-próbánál
egy ember minden csoportban szerepel,
míg sima ANOVánál nem
• Többszempontos ANOVA (Factorial ANOVA): egyidejűleg több
(alacsony mérési szintű) tényező hatását vizsgáljuk egy
kvantitatív függő változóra (a tényezők között vizsgálható
interakció is). Pl.
– egy termékből eladott mennyiséget hogyan befolyásolja az
elhelyezés (sor és polc)
– a egyetemmel való elégedettség hogyan függ a nemtől és a
kartól
További “ANOVÁk”
• Variancia-kovarianciaanalízis (ANCOVA): többszempontos VA
során kvantitatív független változók (kovariánsok) hatását is
kiszűrhetjük
– Pl. az egyetemmel való elégedettséget hogyan befolyásolja a
nem és a kor (év)
• Többváltozós variancia-kovariancia elemzés (Multivariate
->MANOVA, MANCOVA: több függő változó van, több,
különböző szintű független változó mellett
Például:
• Hallgatói elégedettség tanulmányok elején, közepén és
végén (ugyanazok az emberek)
Az összetartozó mintás t-próba általánosítása.
Mintapélda:
Egy longitudinális vizsgálat során a hallgatók elégedettségét vizsgálták
(1=elégedetlen, … 10=elégedett) az egyetemi tanulmányaikkal kapcsolatban.
Az alábbi minta alapján kimutatható-e szignifikáns változás az évfolyam
előrehaladtával az elégedettségben (alfa = 5%)?
1 7 8 8
2 5 8 7
3 6 8 6
4 8 9 9
5 10 10 9
résztvevők
Jelölések, hipotézisek szempont: a helyzet/
időpont, ennek
Xj (és E(Xj) = μ )
száma: n j hatását szeretnénk
vizsgálni
elégedettség elégedettség elégedettség
Résztvevő 1.év végén 2.év végén 3.év végén
x1 x2 x3 helyzet/időpont J db
1. 7 8 8
2. 5 8 7
3. 6 8 6
4. 8 9 9
5. 10 10 9
H 0 : μ1 = μ 2 = … = μ J = μ
H1: valamely μj ≠ μ
n=5
J=3 Mintabeli jellemzők
elégedettség 1. elégedettség elégedettség
résztvevőnkénti
Résztvevő év végén 2.év végén 3.év végén
átlagok
x1 x2 x3
1. 7 8 8 7,67
2. 5 8 7 6,67
3. 6 8 6 6,67
4. 8 9 9 8,67
5. 10 10 9 9,67
helyzetek/
időpontok 7,20 8,60 7,80
átlagai Főátlag: = 7,87
Végrehajthatósági feltételek
(df=(n-1)⋅(J-1))
Szórásfelbontás táblázat
A szóródás Eltérés- Szabadság-fok Variancia F
oka négyzet- (df) becslése
összeg (SS) (Var= SS / df)
Személy
Helyzet/időpont
További feladatok
Adatsor
1.1. Az Exam tábla adatai alapján vizsgálja meg, hogy a
vizsga sorszáma (exam=1, 2, 3) befolyásolja-e a
pontszámot.* Ha szükséges, utóelemzéseket is készítsen.
z12+z22+...+z102
https://saylordotorg.github.io/text_introductory-statistics/s15-01-chi-square-tests-for-independe.html
1. Mintapélda egyenletes eloszlásra
Dobott szám Dobások száma
1 83
2 91
3 122
4 107
5 74
6 123
Összesen 600
• Próbafüggvény:
• Kritikus érték:
• Döntés:
1. Mintapélda megoldása
Dobott szám Dobások száma (fi)
1 83
2 91
3 122
4 107
5 74
6 123
Összesen 600
• n=600
• k=6
Dobott szám fi fi *
1 83 100
2 91 100
3 122 100
4 107 100
5 74 100
6 123 100
Összesen 600 600
• Hipotézisek:
H0: az eloszlás egyenletes (a kocka szabályos)
H1: az eloszlás nem egyenletes
• Próbafüggvény:
khi2= (83-100)2/100 + (91-100)2/100 + ... + (123-100)2/100 = 21,08
• Megtartási tartomány Tmegt(0; χ2krit(k-1).)
df = k - 1 = 5 (nincs becsült paraméter)
1-alfa = 0,95
2
(Táblázat)
kritikus érték: χ krit= 11,070
Tmegt(0; 11,070)
• Kritikus érték:
• Döntés:
Normális eloszlás szerinti arányok és fi*-ok kiszámítása Excellel
NORM.ELOSZLÁS(x; átlag; szórás;1)
• 3. Mintapélda:
Állapítsuk meg, hogy a munkanélküliek életkor
szerinti eloszlása tekinthető-e normálisnak?
Korcsoport (év) Munka-
Eltérés az előzőhöz képest:
nélküliek száma ➔ A normális eloszlás
-20 48 paramétereit (átlag,
20,1-25 90 szórás), a mintából
25,1-30 120
30,1-40 180
számoljuk ki (becsüljük)
40,1-50 150
50,1- 12
➔ Így itt b=2 lesz, amiből
Összesen 600
df=3
• 3. Mintapélda:
Állapítsuk meg, hogy a munkanélküliek életkor
szerinti eloszlása tekinthető-e normálisnak?
Korcsoport Xi Munka-
Eltérés az előzőhöz képest:
(év) nélküliek ➔ A normális eloszlás
száma fi paramétereit (átlag,
15-20 17,5 48 szórás), a mintából
20,1-25 22,5 90
25,1-30 27,5 120
számoljuk ki (becsüljük)
30,1-40 35 180 átlag=33,125 s=9,424
40,1-50 45 150
50,1-60 55 12 ➔ Így itt b=2 lesz, amiből
Összesen 600 df=3
3. Mintapélda megoldása:
A (33,125; 9,424) paraméterű normális eloszlás szerinti arányok és
fi*-ok kiszámítása (eloszlásfüggvénnyel):
P(15<ξ<20) = F(20) - F(15) = Φ((20-33,125) / 9,424) - Φ((15-33,125) / 9,424) =
= Φ(-1,3927) - Φ(-1,9233) = (1-0,9192) - (1-0,8212) = 0,098, amiből
(600*0,098=58,8) f1*=58,8 (Táblázat)
Korcsoport (év) fi norm. elo. fi*
szerinti
arányok
・600
15 -20 48 0,098 58,8
20,1-25 90
25,1-30 120
30,1-40 180
40,1-50 150
50,1-60 12
Összesen 600 1,000 600,00
• Hipotézisek:
– H0: az eloszlás normálisnak tekinthető
– H1: az eloszlás nem tekinthető normálisnak
• Próbafüggvény:
• Kritikus érték:
• Döntés:
További feladat:
Illeszkedésizsgálati feladatok megfogalmazása és az adatsorok
megadása (az 1, 2, 3, …munkalapokon, további munkalap
hozzadható!)
Változó gyakoriság a
(kategóriákkal) mintában
fi
3. Homogenitásvizsgálat
Test of homogenity
Homogenitásvizsgálat
• X és Y valószínűségi változók eloszlása
megegyezik-e?
k: kategóriák száma
Megjegyzés
Folytonos eloszlás is tesztelhető khí-négyzet
próbával. Ekkor
• a számegyenest k részre osztjuk
• ni : az i-edik részbe eső mintaelemek száma (X)
• mi : az i-edik részbe eső mintaelemek száma (Y)
(k – 1) szabadságfokú
• Hipotézisek: khí-négyzet eloszlást
– H0: a két eloszlás megegyezik követ (ha H0 fennáll).
– H1: a két eloszlás nem egyezik meg
• A próbafüggvény:
• Próbafüggvény:
• Próbafüggvény:
az átlaghőmérséklet és a
sörfogyasztás között
X
További példák:
Lineáris korrelációs együttható
• Elméleti kovariancia: Cov (X,Y)=E(X⋅Y)−E(X)⋅E(Y)
– Ha X és Y függetlenek, azaz E(X⋅Y)=E(X)⋅E(Y), akkor
Cov(X, Y)=0 ➡ jó kapcsolati mérőszám lehet, DE
– nagysága X és Y nagyságától függ (Ha pl. cm-ből m-be
váltunk, változik a Cov)
⬇
• Elméleti korrelációs együttható (ró): 𝜚X,Y=Cov(X,Y) / D(X)⋅D(Y)
-szórások
sx = √Σdxi2 / (n-1)
sy = √Σdyi2 / (n-1)
*
Magához a tapasztalati (mintabeli) korr. együttható kiszámításához nem kell a
feltétel, csak a szign. teszthez.
• Hipotézisek:
– H0: ρ = 0 (a lin. kapcsolat nem valós)
– H1: ρ ≠ 0 (a lin. kapcsolat valós)
• Próbafüggvény: n-2 szabadságfokú
t-eloszlást követ, ha
H0 fennáll
• Döntés:
• Értelmezés:
A hőmérséklet és a sörfogyasztás között
statisztikailag igazolható kapcsolat van
(α=5%).
Az elméleti lin. korrelációs együttható
konfidenciaintervalluma
Alapötlet (Fisher)
• Ha elég nagy a minta (n>=10), akkor az r transzformáltja:
z-transzformáció
z(r)± Δ
Az elméleti lin. korrelációs együttható
konfidenciaintervalluma
• Ha megvannak a konf. intervallum határai
z(ρ)-ra, akkor azokra a z-transzformáció
inverzét alkalmazzuk
intervallum meghatározása:
z(r)±Δ Δ=
ralsó Fisher-trf-ó inverze
zalsó=z(r) - Δ
rfelső zfelső=z(r) + Δ
Mintapélda folytatása: Az elméleti lin. korrelációs
együttható 95%-os konfidenciaintervalluma
r = 0,8747 Fisher-transzformáció
z(0,8747) = 1,3527
1-α/2=0,975 (Táblázat) z1-α/2=1,96
Fisher-trf-ó inverze
CI0,95=[0537; 0,969]
• Értelmezés:
Az elméleti lin. korrelációs együttható, 95%-os
megbízhatósággal 0,54 és 0,97 közé esik.
Közepesnél szorosabb, pozitív irányú lin. kapcsolat
van a hőmérséklet és a sörfogyasztás között.
❗ Megjegyzés:
Ha a CI0,95 tartalmazza a 0-t ⇔ a lin. kapcsolat nem
valós
Hasznos Excel függvények
KORREL( ) FISHER( )
KOVARIANCIA.M( ) INVERZ.FISHER( )
KOVAR( ) NORM.S.INVERZ( )
T.INVERZ.2SZ( )
LN( )
KITEVŐ( )
Parciális korrelációs együttható
Példa (VA): Szignifikáns pozitív korreláció
mutatható ki
• Wagner zenéjének kedvelése és a testi
egészség között
• az esernyők száma és a várható életkor között
Ok: van egy közös háttérváltozó, mely
mindkettővel pozitívan korrelál: az anyagi jólét
Parciális korrelációs együttható
𝜚XY,V parciális korrelációs együttható: megmutatja,
hogy milyen kapcsolatban lenne X és Y, ha V lineáris
hatását kiszűrnénk. Úgy számoljuk, hogy V-t
állandó szinten tartjuk.
ralsó = 0,9205
Fisher-trf-ó inverze
zalsó= 1,597 -
0,0045=1,5925
Az elméleti lin. korrelációs együttható, 95%-os megbízhatósággal 0,9205 és 0,9219
közé esik. Szoros, pozitív irányú lin. kapcsolat van a változók között.
b. feladat megoldása
• Megtartási tartomány:
df=1881, 1-α/2=0,975
Tmegt (-tdf1-α/2; tdf1-α/2) = (-1,96 , 1,96)
0 59 M 93,7
csoportban (treatment=0) a férfiak 0 48 M 95,2
(Gender=M) életkor (Age) és a kezdő 0 64 M 95
eredményeket. 0 68 M 96,6
0 64 M 99,5
Feladatok Treatment Age Gender Before After
Adatsor 1 60 M 92 85,2
1 57 M 109,6 94,2
4.3. A NewDrug tábla adatai
1 69 M 97,9 83,9
alapján vizsgálja meg, hogy a 1 62 M 96 85
kísérleti csoportban 1 62 M 91,7 87,9
1 63 M 106,8 88,7
vérnyomása (Before) között.
1 69 M 111,5 86,5
Szövegesen értelmezze az 1 56 M 97,4 82,4
1 64 M 99,1 86,3
Adatsor Feladatok
4.4. A tv_survey tábla adatai alapján határozza meg
• a fizetés (salary) és az előzetes munkatapasztalat (prevexp) közötti
tapasztalati korrelációs együtthatót,
• majd vizsgálja a fizetés (salary) és a tanulmányok (educ),
• valamint az előzetes munkatapasztalat (prevexp) és a tanulmányok
(educ) közötti tapasztalati korrelációs együtthatókat.
+ b
Y = mX
Ismétlés: A lineáris függvény paraméterei
+ b
Y = mX
m
Y 1
m: meredekség
b: Y-tengelymetszet
A lineáris regresszióelemzés során
• Adott minta
(pontfelhő) esetén a
“legjobb” egyenest kell
megtalálnunk
• a lineáris regressziós
egyenest Ŷ=b1 X + b0
alakban keressük
A “legjobb” egyenes meghatározása a mintából
• hibatag
(reziduum, reziduális
hiba)
A “legjobb” egyenes meghatározása a mintából
• hibatag
(reziduum, reziduális hiba)
⇐ az egyenes egyenlete
Jelölések, összefüggések a populációban
Mintában Populációban
• •
• • maradéktag/reziduális
változó (val. változó)
• • hibavariancia
•
b0 és b1 a β0 és β1 becslése a mintából.
Mintapélda
Egy vendéglátóhely által megfigyelt Napi Sörfogyasz-
10 nap adatai: átlaghőmérséklet (° tás (l)
C)
• Határozzuk meg a napi
18 250
átlaghőmérséklet és a
20 310
sörfogyasztás kapcsolatát
25 390
leíró lineáris regressziófüggvényt. 24 320
• Értelmezzük a függvény 22 330
paramétereit. 26 430
• Készítsünk sörfogyasztási 24 390
előrejelzést 21°C és 23°C 19 320
hőmérséklet esetén. 16 290
Előzmények: Közepesen szoros, pozitív
16 270
irányú lin. kapcsolat van!
xi yi dxi dyi dxi dyi dxi2 dyi2
18 250 -3,00 -80 240 9 6400
20 310 -1,00 -20 20 1 400
25 390 4,00 60 240 16 3600
24 320 3,00 -10 -30 9 100
22 330 1,00 0 0 1 0
26 430 5,00 100 500 25 10000
24 390 3,00 60 180 9 3600
19 320 -2,00 -10 20 4 100
16 290 -5,00 -40 200 25 1600
16 270 -5,00 -60 300 25 3600
Összesen: 210 3300 0 0 1670 124 29400
• A paraméterek becslése a mintából:
ŷ=13,47x + 47,18
A regressziós paraméterek értelmezése
b0=47,18
0 °C napi átlaghőmérséklet esetén átlagosan
47,18 l sörfogyasztásra számíthatunk.
ŷ=13,47x + 47,18
b1=13,47
1 °C-kal magasabb hőmérséklet átlagosan
13,47 l-es fogyasztásnövekedést okoz.
Általánosan
b1: X változót 1 egységgel növelve az Y átlagosan
mennyivel változik
b0: Mennyi az Y változó átlagos értéke, az X
változó feltételezett 0 értéke esetén
Előrejelzés 21°C és 23°C hőmérséklet esetén
ŷ=13,47 x + 47,18
x=21 a regressziós egyenes
ŷ=13,47 ⋅ 21 + 47,18 = 330 átlagponton áthalad!
x=23
ŷ=13,47 ⋅ 23 + 47,18 = 356,94
b0
b
A regressziófüggvény vizsgálata
Vizsgálata a mintán (illeszkedés Vizsgálata a mintavételt
jósága) figyelembe véve
• Reziduumok ⇾ SSe⇾Reziduális • Paraméterek standard hibái
szórás (se) (a regr.becslés abszolút • Paraméterek konfidenciaintervallumai
hibája) • A regressziófüggvény eredményeinek
hipotézis-ellenőrzése
– t-próba: együtthatók
• A regressziófüggvény
szignifikanciája külön-külön
– F próba: a teljes
varianciafelbontása ⇾ hatásméret regressziófüggvény szignifikanciája
mutató (megmagyarázott/teljes):
determinációs együttható (r2)
becslése
A regressziófüggvény vizsgálata a
mintán
• Reziduumok:
↓
• Reziduumok négyzetösszege:
↓
• Reziduális szórás:
(a regr.becslés abszolút hibája)
↓
• Relatív reziduális szórás: Ve=se /
reziduumok
xi yi ŷi = 13,47xi + 47,18 ei 2=(yi –ŷi)2 négyzete
18 250
20 310
25 390
24 320
22 330
26 430
24 390
19 320
16 290
16 270
Összesen: 210 3300
https://docs.google.com/spreadsheets/d/1lgXtwKrFe9feHvqtvjmbS8PUOi5vBZMvWKrR6xKg68M/edit?usp=sharing
xi yi ŷi ei 2=(yi –ŷi)2
18 250 289,64 1571,3296
20 310 316,58 43,2964
25 390 383,93 36,8449
24 320 370,46 2546,2116
22 330 343,52 182,7904
26 430 397,40 1062,7600
24 390 370,46 381,8116
19 320 303,11 285,2721
16 290 262,70 745,2900
16 270 262,70 53,2900
SSe
Összesen: 210 3300 ≈3300 6908,9
A regressziófüggvény vizsgálata a
mintán
• reziduumok négyzetösszege: A regresszióval becsült fogyasztás
értékek átlagosan 29,38 literrel
SSe= 6908,9 térnek el a megfigyelt fogyasztás
értékektől.
yi
x
A regressziófüggvény varianciafelbontása
y
regresszió/modell
által magyarázott
eltérés-négyzetöss
Ӯ zeg:
SSr=Σ(ŷi-Ӯ)2
ŷ
x
A regressziófüggvény varianciafelbontása
y
yi
hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ
x
A regressziófüggvény varianciafelbontása
regresszió/modell által
yi
magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
További összefüggések y-ban meglévő/teljes
y SSt=Σdyi2 eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2
regresszió/modell által
yi
magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
További összefüggések y-ban meglévő/teljes
y eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2
regresszió/modell által
yi
magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
2
SSe=Σei eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
További összefüggések y-ban meglévő/teljes
y eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2
regresszió/modell által
yi
SSr=SSt-SSe magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
SSt=Σdyi2 = 29400
SSe=Σei2=6908,9 SSr=SSt-SSe=29400-6908,9=22491,1
23,5% 76,5%
r2
A sörfogyasztásban meglévő variancia 76,5% százaléka
magyarázható a regressziós modellel míg 23,5%-a nem
magyarázható azzal.
• r2 - tapasztalati determinációs együttható
SSt=Σdyi2 mutatója
• az illeszkedés jóságának = 29400
• itt éppen a korábban kiszámolt tap. korrelációs
2
SS =Σe
együttható
e i
=6908,9 SSr=SSt-SSe=29400-6908,9=22491,1
(r) négyzete!
r2
=22491,1 / 29400 = 0,765=76,5%
se
SSr
SSe
SSt
ŷi ei=yi-ŷi
Így kaptunk egy regessziós egyenest, mely elég
jól illeszkedik az adatsorunkra.
DE
Mivel ez csak egy mintából való becslés, így
hibával terhelt. A becsült paramétereink
szóródnak az elméleti paraméterek körül.
Számolnunk kell ezzel a (mintavételi) hibával is!
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: Paraméterek standard hibái
A becsült paraméterek ingadozását az elméleti
paraméterek körül, a szórásukkal mérjük, ez nem
más, mint a standard hiba:
Példa: xi yi ŷi ei 2=(yi –ŷi)2 x i2
18 250 289,64 1571,3296
20 310 316,58 43,2964
25 390 383,93 36,8449
24 320 370,46 2546,2116
22 330 343,52 182,7904
26 430 397,40 1062,7600
24 390 370,46 381,8116
19 320 303,11 285,2721
16 290 262,70 745,2900
16 270 262,70 53,2900
Összesen: 210 3300 ≈3300 6908,8966
Példa: xi yi ŷi ei 2=(yi –ŷi)2 x i2
18 250 289,64 1571,3296 324
20 310 316,58 43,2964 400
25 390 383,93 36,8449 625
24 320 370,46 2546,2116 576
22 330 343,52 182,7904 484
26 430 397,40 1062,7600 676
24 390 370,46 381,8116 576
19 320 303,11 285,2721 361
16 290 262,70 745,2900 256
16 270 262,70 53,2900 256
Összesen: 210 3300 ≈3300 6908,9 4534
Példa: A regressziós paraméterek standard
hibái
= 56,1991
A b0-ra vonatkozó becsült értékek átlagosan 56,2-vel térnek
el az elméleti paramétertől (ha a mintavételt végtelen
sokszor ismételjük).
= 2,6393
A b1-re vonatkozó becsült értékek átlagosan 2,6-tal
szóródnak a sokasági paraméter körül (ha a mintavételt
végtelen sokszor ismételjük).
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: Paraméterek intervallumbecslése
• β1 konfidenciaintervalluma:
(b1± t(n–2)1-α/2・ sb1)
• β0 konfidenciaintervalluma:
(b0± t(n–2)1-α/2 ・sb0)
Példa: a regressziófüggvény paramétereinek 95%-os
konfidenciaintervalluma
β1 konfidenciaintervalluma:
(n–2) (8) (Táblázat)
• t 1-α/2= t 0,975 = 2,306
• t(n–2)1-α/2・ sb1= 2,306 ・2,6393 = 6,0862
• (13,47 ± 6,0862 ) = (7,38; 19,56)
β0 konfidenciaintervalluma:
• t(n–2)1-α/2= 2,306
• t(n–2) ・ s = 2,306 ・56,1991 = 129,5951
1-α/2 b0
• (47,18 ± 129,5951 ) = (-82,42; 176,78)
ha a pontfelhő
normalitás teljesül? véletlenszerűséget mutat -> a
v.é. 0? szórás cnst.
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: A regressziófüggvény eredményeinek
hipotézis-ellenőrzése
Feltételek:
• reziduumok eloszlása normális
(0 várható értékkel, cnst szórással)
• reziduumok korrelálatlanok
Próbák:
➔ t-próba: β1 együttható szignifikanciája*,
X és Y között tényleg van-e kapcsolat?
➔ F próba: a teljes regressziófüggvény
szignifikanciája**, kellenek-e további változók a
modellbe, vagy elegendő?
*Többváltozós esetben a β1, β2, β3, … tesztelése külön-külön
**Itt megegyezik a t-próbával, többváltozós esetben H0: β1 =β2 =β3=...= 0
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: t-próba ー a β1 együttható
szignifikanciaellenőrzése
• Hipotézisek
– H0: β1 = 0 (a lineáris kapcsolat nem valós)
– H1: β1 ≠0 (a lineáris kapcsolat valós)
• Próbafüggvény: n-2 szabadságfokú
t-eloszlást követ, ha H0
fennáll
• Megtartási tartomány: Tmegt( - t(n–2)1-α/2; t(n–2)1-α/2)
• Döntés: Ha t ∉Tmegt, akkor H0-t elutasítjuk, a β1
együttható szignifikáns, a lineáris kapcsolat valós.
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: F-próba ー a regresszió
szignifikanciaellenőrzése
• Hipotézisek
– H0: β = 0 (a modellünk nem szignifikáns) (1; n-2) szabadságfokú
1
– H1: β ≠0 (a modell szignifikáns)
1
F-eloszlást követ, ha H0 fennáll
• Próbafüggvény: vagy
F-próba a
regressziós modell
szignifikancia-
ellenőrzésére
β0 konfidencia-
intervalluma
sb0 t-próba a β1
β1 konfidencia-
sb1 együttható intervalluma
szignifikancia-
ellenőrzésére
Feladatok
5.1. Hat hallgatót megkérdezve a matematika Szintfelmérő Mat.Stat.1.
szintfelmérő és az első féléves Mat. Statisztika
eredményükről, a következő adatok adódtak: eredmény (%) eredmény
a.Készítsen ábrát a két eredmény közötti (%)
összefüggés vizsgálatára.
35 32
b.Határozza meg a tapasztalati
regressziófüggvényt és értelmezze paramétereit. 48 44
c.Számítsa ki és értelmezze a reziduális szórást. 50 54
d.Határozza meg a regressziós modell
magyarázóerejét. 78 61
e.Készítse el a regressziófüggvény 64 76
varianciafelbontását.
85 81
f.Becsülje meg, a regressziófüggvény
segítségével, egy 75%-os szintfelmérő
eredményű hallgató Mat.Stat.1. eredményét!
Feladatok Életkor Futott kilométer Eladási ár
5.2. 15 elemű minta alapján vizsgálták adott (év) (ezer km) (MFt)
típusú új és használt gépkocsik életkora és
eladási ára valamint futott kilométere és eladási
0 0 5,2
ára közötti kapcsolatot.
1 59 2,8
a. Jellemezze tapasztalati lineáris 1 40 3,2
regressziófüggvénnyel az arra alkalmasabb 2 79 2,5
kapcsolatot (ábra alapján döntsön)! 2 92 2,4
b. Ábrázolja a regressziófüggvényt, majd 3 81 2,2
értelmezze paramétereit! 3 92 1,9
c. Becsülje meg, a regressziófüggvény 4 105 1,6
segítségével, egy 8 éves, vagy 160 ezer
5 97 1,5
kilométert futott, ugyanilyen típusú gépkocsi
6 120 1,4
eladási árát!
d. Számítsa ki és értelmezze a reziduális szórást. 7 140 1,2
9 157 1,0
e. Határozza meg a regressziós modell
magyarázóerejét. 11 220 0,9
12 210 1,3
f. Készítse el a regressziófüggvény
varianciafelbontását. 12 230 0,7
Feladatok
5.3. Egy budapesti ingatlanügynök 2007 márciusában
vizsgálta a körzetében eladó 63 m2-es lakások adatait:
a. Írja le a lakás emeleti elhelyezkedése és a kínálati ára
közötti kapcsolatot a tapasztalati regressziófüggvény
segítségével.
Feladatok
(millió Ft)
0 15,8
1 17,6
5.3. (Exceles verzió) Egy budapesti ingatlanügynök 1 19,5
2007 márciusában vizsgálta a körzetében eladó 63 1 25,9
m2-es lakások adatait: 2 19,2
ŷ=b0+b1x1+b2x2+b3x3+...
123 nő 0
nő: 0, ffi: 1,
(vagy fordítva: nő: 1, ffi=0) 124 nő 0
125 férfi 1
*Ha a függő változó nominális, akkor logisztikus regressziós modellel dolgozunk (itt nem tanuljuk).
Dummy változó a regresszióban
2-nél több kategóriájú alacsony mérési szintű magyarázó
változó esetén a dummy kódoláshoz k kategória esetén k-1 db
dummy változó szükséges.
• Pl. végzettség változó esetén így kódolok:
3 kategória ->2 dummyt használok: Válaszadó végzettség D_kozep D_felso
D_kozep, D_felso (az alapfok pedig a referencia ID-ja
kategória lesz)
123 felsőfok 0 1
felsőfokú végz esetén: D_felso=1 (D_kozep=0)
középfokú végz. esetén: D_kozep=1 (D_felso=0) 124 középfok 1 0
alapfokú végz. esetén: D_kozep=0, D_felso=0
125 alapfok 0 0
Dummy változó a regresszióban
Dummy magyarázó változó regressziós együtthatóinak
értelmezése:
• b0: mekkora a függő változó átlaga a 0-val kódolt
(referencia) kategóriában
• b1: mekkora a különbség a két kategória (a “kihagyott” és a
szóban forgó) Y változóra vonatkozó átlaga között
Példa: Bináris dummy magyarázó változós regresszió
paramétereinek értelmezése: a fizetés függése a nemtől
FIZETÉS = 260 320 + 154 090⋅NEM (nő: 0, férfi: 1)
b0=260 320
Nők körében átlagosan 260 320 Ft a fizetés.
b1=154 090
A férfiak körében átlagosan 154 090 Ft-tal magasabb a fizetés, mint
nők körében.
Példa: Dummy (nem bináris) magyarázó változós regresszió
paramétereinek értelmezése: a fizetés függése a munkakörtől
FIZETÉS = 278 450 + 45 960⋅D_biztonsagi + 361 320⋅D_vezeto
munkakör: irodai, biztonsági, vezető
b0=278 450
Az irodai alkalmazottak átlagos fizetése 278 450.
b1=45 960
A biztonsági dolgozók átlagosan 45 960 Ft-tal többet keresnek, mint az
irodai alkalmazottak.
b2=361 320
A vezetők átlagosan 361 320 Ft-tal többet keresnek, mint az irodai
alkalmazottak.
Példa: Többváltozós, dummyt is tartalmazó regresszió paramétereinek
értelmezése: a fizetés függése a munkakörtől a nemtől és a
munkatapasztalattól
FIZETÉS = 158 670 + 55 480⋅D_biztonsagi + 281 500⋅D_vezeto + 121 000⋅NEM + 48 320⋅Tapasztalat
munkakör: irodai, biztonsági, vezető
nem: nő:0, ffi:1
b =158 670
0
Unstandardized Standardized
0 év tapasztalattal t
rendelkező, Sig. alkalmazottak átlagos fizetése
női, irodai
Coefficients 158 670Ft.Coefficients
Model B b1=55
Std. Error480 Beta
A biztonsági dolgozók átlagosan 55 480 Ft-tal többet keresnek, mint az irodai
alkalmazottak (ha minden más változatlan).
(Constant) 158 670
b2=281 500
BIZTONSÁGI
A vezetők átlagosan 281 500 Ft-tal többet keresnek, mint az irodai alkalmazottak
55 480 (ha minden más változatlan).
VEZETŐ 281 500 b3=121 000
A férfiak átlagosan 121 000 Ft-tal többet keresnek, mint a női alkalmazottak (ha
minden más változatlan).
NEM 121 000
b4=48 320
Egy évvel nagyobb munkatapasztalat esetén átlagosan 48 320 Ft-tal magasabb a
Tapasztalat 48 320 fizetés, változatlan munkakör és nem mellett.
Kitekintés: Nemlineáris regresszió
• Ha X és Y összefüggése nem lineáris
– úgy transzformáljuk az értékeket, hogy lineárissá váljon
– nemlineáris regressziót futtatunk
A regressziós modellezés menete
• Változók köre
– mit gondolunk; mi az elemzés célja; mit tudunk a szakirodalomból?
• Scatterplot
– kiugró értékek
– függvénytípus (lineáris, nemlineáris)
• Korrelációk
– X-ek és Y között (követelmény)
– X-ek között (multikollinearitás<-nem jó!),
• Regressziós elemzés elvégzése
– modell (együtthatók, standardizált együtthatók), r2
– reziduumok vizsgálata, paraméterek konf.intervalluma és
hipotézisellenőrzések
Feladatok
5.5. Írja fel a regressziófüggvényt és értelmezze a lineáris regressziófüggvény
paramétereit.
Melyik változó tölt be legfontosabb szerepet a vizsgaeredmény
magyarázatában?
Változók:
VIZSGA: vizsgaeredmény (pont)
ZH: ZH eredmény (pont)
SZINTFELM: szintfelmérő eredmény (pont)
D_TAG: Dummy változó a tagozathoz 0: levelező, 1: nappali
Adatsor Feladatok
5.6. A tv_survey adatbázis felhasználásával készítsünk lineáris
regressziós modellt a fizetés (salary) becsléséhez, a magyarázó
változók:
• oktatás (education), kezdőfizetés (salbegin), munkatapaztalat
(prevexp)
Vizsgáljuk a paraméterek szignifikanciáját.
Értelmezzük a paraméterket.
Adatsor Feladatok
5.7. A tv_survey adatbázis felhasználásával készítsünk Dummy változót
a nemből (gender) és készítsünk lineáris regressziós modellt a fizetés
(salary) becsléséhez, a magyarázó változók:
• oktatás (education), kezdőfizetés (salbegin), munkatapaztalat
(prevexp), nem (gender)
Vizsgáljuk a paraméterek szignifikanciáját.
Értelmezzük a paraméterket.
Összefoglalás
Mat.stat. 2-3.
“Az empirikus kutató mindig a
populációról szeretne valamit megtudni,
a belőle véletlenszerűen választott
minta alapján.” (Vargha, 2015)
Megfigyelési egységek, populáció, minta
?
staövetk
k
t. ezt
mintavétel
tése
http://analytics-magazine.org/wp-content/uploads/2017/11/FTR03_Sampling-Population-Cloud-68635256-iamnee.jpg
https://jamboard.google.com/d/1zb9XSamDF68-WE0koF3r6klhl5cxIbJsfGCGQwoGBec/edit?usp=sharing
Kitekintés
● Faktoranalízis módszercsalád
○ itemek csoportosítása egymástól fgtlen faktorokba
● Klaszteranalízis módszercsalád
○ osztályozó eljárás, egyedek hasonlóság szerinti csoportosítása
● Idősorelemzés
○ Idői folyamatok elemzésére szolgál, pl. trendszámítás
● Nemlineáris regresszió
● Előző módszerek kombinációja
○ Pl. útelemzés (path analysis): regresszió és faktoranal.
● ...