You are on page 1of 261

Matematikai statisztika III.

tnagy.judit@kre.hu
megyesi.peter.jozsef@kre.hu
Követelmények
előadás (BSZOC 1180):
követelmény: kollokvium
gyakorlat (BSZOC 1181):
követelmény: gyakorlati jegy
órai jelenlét, ZH-k
Témakörök
1. Varianciaanalízis (ANOVA)
2. Illeszkedésvizsgálat
3. Homogenitásvizsgálat
4. Korreláció
5. Regresszió
Irodalom
● előadás diák
● Vargha András: Matematikai
statisztika - pszichológiai,
nyelvészeti és biológiai
alkalmazásokkal. Pólya kiadó,
2015.
(a továbbiakban: VA)

● Táblázatok
Ismétlés
● Változók típusai
● Változók közötti kapcsolat jelentése
● Miért van szükségünk statisztikai próbákra?
● Statisztikai próbák menete
Melyik átlagpróbát mikor használjuk?
Tipikus kérdés: Egy konkrét
értéktől eltér-e a sokasági átlag?
Egy vagy két „mintám” van?
egymintás kétmintás
Függetlenek-e a nem
minták?
igen: független mintás
Tipikus kérdés: Két csoport
nem
Normális az eloszlás? értékei különböznek-e?
(Pl.: férfi-nők stb.)
igen igen nem
Normális az eloszlás?
elegendő
igen Teljes sokasági nem ordinális Szórások azonosak? elegendő
szórás ismert? mérési szintű igen (Fisher féle nem ordinális
változó is, de F-próbával mérési szintű
n≥15 vizsgálható) változó is

u-próba egymintás egymintás Kétmintás Welch Rang


(z-próba) t-próba előjelpróba t-próba d-próba t-próba
TRÜKK: egymintás
t-próbává alakítjuk!
Y-X, Y/X normális? nem
Függetlenek-e a nem: összefüggő mintás
minták? Tipikus kérdés: Történt-e
változás? elegendő
(Pl.: előtte-utána stb.) ordinális
igen, Y-X norm. igen, Y/X norm.
mérési szintű
változó is, de
n≥15

Különbségre Arányra előjel


t-póba t-próba próba
Két változó kapcsolatának vizsgálata
FÜGGŐ VÁLTOZÓ

alacsony mérési szintű metrikus

FÜGGETLEN alacsony mérési KERESZTTÁBLA VARIANCIA-


VÁLTOZÓ szintű ELEMZÉS ANALÍZIS

metrikus DISZKRIMINANCIA- KORRELÁCIÓ-


ANALÍZIS, REGRESSZIÓ
LOGISZTIKUS SZÁMÍTÁS
REGRESSZIÓ
1. Varianciaanalízis

Analysis Of VAriances =
ANOVA
Egyszempontos (one way), független mintás
ANOVA
Azt vizsgáljuk, hogy függő változó
• egy kvantitatív változó hogyan függ* egy független v
alacsony mérési szintű (csoportosító) változótól áltozó
VAGY
• eltérő-e a kvantitatív változó az alacsony mérési szintű
változó által alkotott csoportokban
Például:
• belvárosi lakásárak függenek-e a kerülettől?
• eltérő ez az egyes évfolyamok tanulmányi eredménye?
A független mintás t-próba általánosítása.
*
A függőség tényét a statisztikai módszer nem tudja vizsgálni (a kutató felelőssége)!
Pl. Eltérő ez az egyes évfolyamok
tanulmányi eredménye?
5

függő változó

1 független változó
csoportokban különböző személyek
1. évf. 2. évf. 3. évf. ⇩
https://rlbarter.github.io/Practical-Statistics/2017/02/20/anova/
független mintás ANOVA
Egyszempontos, független mintás ANOVA
technikája
A kvantitatív változó elméleti átlagát hasonlítjuk össze a különböző
csoportokban,
DE a varianciák segítségével számolunk

H0: μ1 = μ2 = μ3= μ
5
H1: valamely μi ≠ μ

μ: a teljes
1 sokasági átlag
1. évf. 2. évf. 3. évf.
https://rlbarter.github.io/Practical-Statistics/2017/02/20/anova/
Egyszempontos, független mintás ANOVA
technikája
Belső (hiba) variancia Külső (modell/hatás)
(csoportokon belüli) variancia (csoportok
közötti)

nagy átlag

l t o z ó hatása
ása getle n v á
Hiba hat Füg
Egyszempontos, független mintás ANOVA
technikája

Csak belső variancia van, külső nincs Csak külső variancia van, belső nincs
H0-t megtartjuk -> nincs szign. összefüggés H0-t elutas. -> szign. összefüggés van
(elm. csoportátlagok egyformák) (valamely elm. csoportátlag eltér)
Egyszempontos, független mintás ANOVA
technikája

Minél nagyobb a csoportok közötti variancia a belsőhöz


képest, annál valószínűbb, hogy szignifikáns eltérés van a
csoportok elméleti átlagai között.

Valamely elméleti csoportátlag eltér


De melyik?

utóelemzés szükséges
Az ANOVA elemzés menete
1. Végrehajthatósági feltételek ellenőrzése
2. ANOVA hipotézisvizsgálatának (F próba) végrehajtása:
-A kvantitatív változó elméleti átlaga eltér-e valamelyik csoportban?
-Van-e szignifikáns összefüggés a változók között?

igen
3. A kapcsolat erősségének = hatásméret meghatározása:
éta, éta2 becslése
4. Utóelemzés: Mely csoport(ok) elméleti átlaga tér el a
többitől?
paraméteres próba
1. F próba végrehajthatósági feltételei
• független minták (csoportok)
• A függő változó normális eloszlású minden csoportban =
normalitás* (mivel paraméteres próba)
• A függő változó elméleti szórása ugyanakkora minden
csoportban = szóráshomogenitás**

* Próbával tesztelhető, ld. később


**Levene, vagy OBrien próbával vizsgálható (Matstat. 3.-ban nem lesz)
Megjegyzések:

• Két csoport esetén kétmintás a t-próbával azonos


eredményt ad (és t2=F), DE több csoport esetén
nem jó a több t-próba, mert az 1. fajú hiba*
felhalmozódik!

*
tévesen ítélünk különbözőnek két elméleti értéket
Megjegyzések:
NORMALITÁS:
• A próba igen robusztus a normalitás megsértésével szemben
= a feltétel sérülése nem rontja lényegesen a következtetések
érvényességét, ha az elemszámok nem kicsik (>=10).
(Ha kicsik, akkor Kruskal-Wallis próba alkalmazható:
rangokon végzett ANOVA)
• CHT -> nagy minta esetén feltételezhető a normalitás!
SZÓRÁSHOMOGENITÁS:
• Ha az elemszámok hasonlók->robosztus rá az ANOVA
• Ha az elemszámok különbözők ->nem robosztus!-> más teszt
az ANOVA helyett:
– Welch-féle VA Robosztus VA-k
– Brown-Forsyte próba
– James-próba Matstat. 3.-ban nem lesznek
2. ANOVA (F-próba)
Jelölések:
μi : i. csoport elméleti átlaga
μ : a feltételezett közös elméleti átlag (főátlag)
m : a csoportok száma
: i. csoport mintaátlaga
Vari : i. csoport minta-varianciája (si: a minta-szórása)
ni : i. csoport minta-elemszáma
n : a teljes minta elemszáma
• Hipotézisek:
H0: μ1 = μ2 = … = μm = μ az elméleti átlagok nem
különböznek
a kvantitatív változó nem függ a
csoportosító változótól

H1: valamely μi ≠ μ elméleti átlagok különböznek


összefüggés (kapcsolat) van a
változók között
A próbafüggvényhez kiszámítandó mennyiségek

együttes átlag

csoportok közötti variancia
• (hatásvariancia)
a csoportosító változó hatása

csoportokon belüli variancia


• (hibavariancia)
Elnevezések: SSt= SSb+SSk
teljes eltérés-négyzetösszeg
függő változó változatossága

SSk
csoportok közötti
eltérés-négyzetösszeg
• függő változó változatosságának mekkora részét
magyarázza a független

SSb
csoportokon belüli
• eltérés-négyzetösszeg
függő változó változatosságának mekkora
részét NEM magyarázza a független
• Próbafüggvény:
(m - 1, n - m) szabadságfokú F-eloszlást
követ, ha H0 fennáll
(df1= m-1, df2= n-m)
• Megtartási tartomány:
Tmegt= (0; F1-α(df1; df2))
kritikus érték
• Döntés: Ha F ∈ Tmegt., azaz,
ha F < F1-α(df1; df2), akkor
a nullhipotézist megtartjuk
https://www.boost.org/doc/libs/1_44_0/libs/math/doc/sf_and_dist/html/math_toolkit/dist/dist_ref/dists/f_dist.html
Eredmények szokásos elrendezése: Szórásfelbontás táblázat
A szóródás oka Eltérés- Szabadság-fok Variancia F
négyzet- becslése =
összeg Mean Square
Csoportok SSk m-1 Vark Vark / Varb
közötti (hatás)

Csoportokon SSb n-m Varb


belüli (hiba)
Összesen SSt=SSk+SSb n-1 Vart
3. Hatásméret
• nemlineáris determinációs együttható becslése (e2, vagy r2)
függő változó változatosságának a független változó
által megmagyarázott hányada

hány %-kal javul a metrikus változóra vonatkozó előrejelzés


hibája, ha azt minden csoport esetén az elméleti
csoportátlagokkal becsüljük
• nemlineáris korrelációs együttható becslése
szorossági mérőszám
3. Hatásméret
• Mivel e2, vagy r2-t csak a mintából származó becslések ->
korrigálni (csökkenteni) szoktunk, hogy populációra
vonatkozó értéket kapjunk: ω2
4. Utóelemzések
(Post hoc tesztek, kontrasztok)
Mely csoport(ok) elm. átlaga tér el a többitől?
• Összehasonlítunk mindent mindennel:
– Scheffe próba
elsőfajú hiba növekedését figyelembe veszi,
– Tukey-Kramer szigorúbb a szign. megállapításakor
– Games-Howell
• Egy csoporthoz (kontrollcsoport) hasonlítjuk a többit:
– Dunnett
• Két alcsoportot (kontrasztot) definiálunk tetszőlegesen
és ezeket hasonlítjuk össze (a megm. var. két részének
összehasonlításával)
Post hoc tesztek SPSS-ben

• Szóráshomogenitás esetén
– LSD: a legkisebb szign. különbséget (least significant
difference) határozza meg és ehhez hasonlít. nem szigorú!
– Tukey: ez is hasonló, megfelelően szigorú!, egyenlő
elemszámnál
– Bonferroni: szign. szint/összehasonlítások száma->másodfajú
hibát növeli
– Scheffe: legszigorúbb, legrobosztusabb
– Hochberg, Gabriel: nem egyenlő elemszámnál
Post hoc tesztek SPSS-ben

• Szóráshomogenitás sérülése esetén


– Games-Howell: nem szigorú
– Dunnett: szigorú
• T3: kis elemszámnál
• C: nagy elemszámnál
– Tamhane T2: szigorú
Mintapélda:
Egy ingatlaniroda kínálata alapján egy adott körzetben eladó
63 m2-es, budapesti lakások kínálati áraira és
elhelyezkedésére vonatkozó adatok (2010):
Átlagos kínálati A kínálati ár
Lakások száma
ár szórása (millió
Elhelyezkedés
(millió Ft) Ft)

V. kerület 40 28,3 3,35


VI. kerület 60 23,8 2,57
VII. kerület 90 20,0 1,96
Feladat: Vizsgáljuk meg, hogy függ-e a kínálati ár az
elhelyezkedéstől (alfa = 5%).
A kínálati ár kerületenként normális eloszlást követ és feltételezhető a kerületenkénti azonos szórás.
a kerületek elméleti átlagárai
• Hipotézisek megegyeznek
– H0: μ1 = μ2 = μ3= μ szakmailag: nem függ a
kínálati ár az
elhelyezkedéstől
– H1: valamelyik μi ≠ μ
A mintából becsült mennyiségek kiszámítása


A mintából becsült mennyiségek kiszámítása

• k = 22,95

• = 985,7

• = 6,25
• A próbafüggvény aktuális értéke: F = Vark / Varb

• Megtartási tartomány:
– 1-α=
– df1= df2=
– kritikus érték: F1-α(df1; df2)= (Táblázat)

– Tmegt= (0; F1-α(df1; df2))


• A próbafüggvény aktuális értéke: F = 157,65

• Megtartási tartomány:
– 1-α = 0,95
– df1= 2 df2 = 187
– kritikus érték: F1-α(df1; df2) = 3,04 (Táblázat)

– Tmegt= (0; 3,04)


df 0,9 0,95 0,975

❌ •H0Megbízhatósági szint: elméleti átlagárai...megegyeznek


: μ1 = μ2 = μ3= μ (a kerületek
αszakmailag: nem függ a kínálati ár az elhelyezkedéstől)
94 1,2906 1,6612 1,9855

95 1,2905 1,6611 1,9853


✅ H1: valamelyik μi ≠ μ (valamelyik kerületben eltérő az elméleti
átlagár. 96 1,2904 1,6609 1,9850
szakmailag: az elhelyezkedés befolyásolja a kínálati árat)
• Döntés: Mivel 157,65∉Tmegt H0 hipotézist elutasítjuk,
H1 hipotézist megtartjuk.
Az ANOVA szignifikáns.
A kínálati ár szignifikánsan függ az elhelyezkedéstől,
5%-os szignifikanciaszint mellett.
További feladatok: Készítsük el a Szórásfelbontás
táblázatot!

A szóródás Eltérés- Szabadság-fok Variancia F


oka négyzet- becslése
összeg
kerületek
közötti (hatás)

kerületeken
belüli (hiba)
Összesen
További feladatok: Készítsük el a Szórásfelbontás
táblázatot!

A szóródás Eltérés- Szabadság-fok Variancia F


oka négyzet- becslése
összeg
kerületek
közötti (hatás)

kerületeken
belüli (hiba)
Összesen
További feladatok: Készítsük el a Szórásfelbontás
táblázatot!

A szóródás Eltérés- Szabadság-fok Variancia F


oka négyzet- becslése
összeg
kerületek 1971,47 2 985,73 157,72
közötti (hatás)

kerületeken 1169,27 187 6,25


belüli (hiba)
Összesen 3140,74 189 16,62
További feladatok: Számítsuk ki és értelmezzük a
minta alapján a szórásokat!


További feladatok: Számítsuk ki és értelmezzük a
minta alapján a szórásokat!
A kerületi átlagoknak a (három
• = 31,40 kerületre jellemző) főátlagtól
való átlagos eltérése.

Az egyes lakások árainak a


• = 2,5 (saját) kerületi átlagtól való
átlagos eltérése.

• = 4,08 Az egyes lakások árainak a


(három kerületre jellemző)
főátlagtól való átlagos
eltérése.
Hatásméret

• nemlineáris determinációs együttható becslése

• nemlineáris korrelációs együttható becslése


Hatásméret
• nemlineáris determinációs együttható becslése
= 1971,47 / 3140,74 = 0,6277 = 62,77%

• nemlineáris korrelációs együttható becslése


= 0,7923
Hatásméret
• nemlineáris determinációs együttható becslése
= 1971,47 / 3140,74 = 0,6277 = 62,77%
A kínálati árak szóródásának
62,77%-a magyarázható az
elhelyezkedéssel (a mintában).

• nemlineáris korrelációs együttható becslése


Az elhelyezkedés és a kínálati ár
= 0,7923 összefüggése meglehetősen szoros
(a mintában).
0 0,79 1
Utóelemzés: Scheffe próba
az átlagok összes párosítására elvégzendő
• Feltételek: normalitás, szóráshomogenitás
• Hipotézisek:
H0: μi = μj az i-edik és a j-edik csoport
elméleti átlaga nem
H1: μi ≠ μj különbözik.
df1= m - 1,
df2= n - m
• A próbafüggvény: szabadságfokú
F-eloszlást
követ
• Megtartási tartomány: Tmegt (0; F1-α(df1; df2))
• Döntés: ha Fij ∈ Tmegt , akkor a nullhipotézist megtartjuk
Mintapélda:
Vizsgáljuk meg, hogy mely kerületek lakásárai között
mutatható ki szignifikáns eltérés!

Átlagos kínálati A kínálati ár


Lakások száma
ár szórása (millió
Elhelyezkedés
(millió Ft) Ft)

V. kerület 40 28,3 3,35


VI. kerület 60 23,8 2,57
VII. kerület 90 20,0 1,96

A kínálati ár kerületenként normális eloszlást követ és feltételezhető a kerületenkénti azonos szórás.


Scheffe próba
• Hipotézisek:
H0: μi = μj
H1: μi ≠ μj

• A próbafüggvény: Fij=

• Megtartási tartomány: (Táblázat)

• Döntés:
Scheffe próba: V. és VII. ker.
összehasonlítása
• Hipotézisek:
H0: μV. = μVII.
H1: μV. ≠ μVII.

• A próbafüggvény:

• Megtartási tartomány: (Táblázat)

• Döntés:
Scheffe próba: V. és VII. ker.
összehasonlítása

❌ H0: μV. = μVII. az V. és a VII. kerületek elméleti átlagárai


megegyeznek

✅ H1: μV. ≠ μVII. az V. és a VII. kerületek elméleti átlagárai szign.


eltérnek
H.F.:
• A további két pár (V.-VI. és VI.-VII.) összehasonlítása
Scheffe-próbával.
Kontraszt módszer
Alcsoportok összehasonlítása
• Feltételek: normalitás, szóráshomogenitás
Menete:
1. kontraszt definiálása:
• két alcsoportot definiálunk, pl. 1., 2., 3. és 5., 6. mintákból
• az alcsoportokba tartozó minták átlagainak átlagát vesszük,
pl.
• az adott összehasonlítás kontrasztja (L), pl.
L elméleti értéke: Λ, -ok súlyai, rendre: c i , pl. ⅓, ⅓, ⅓, -½, -½
2. Λ szignifikanciájának vizsgálata
3. Λ intervallumbecslése (H0 elutasítása esetén)
Kontraszt szignifikanciavizsgálata
• Hipotézisek:
H0: Λ = 0
H1: Λ ≠ 0
szabadságfok: m-1; n - m
• A próbafüggvény:

ahol

• Kritikus érték, megtartási tartomány:


Tmegt (0; F1-α(df1; df2))
• Döntés: ha FL ∈ E, akkor a nullhipotézist megtartjuk.
Kontraszt intervallumbecslése
H0 hipotézis elutasítása után
• A két csoport átlaga közötti különbség 95%-os
megbízhatósági intervalluma:

ahol
Mintapélda: Vizsgáljuk meg, hogy mely alcsoportok
lakásárai között mutatható ki szignifikáns eltérés!

Átlagos kínálati A kínálati ár


Lakások száma
ár szórása (millió
Elhelyezkedés
(millió Ft) Ft)

V. kerület 40 28,3 3,35


VI. kerület 60 23,8 2,57
VII. kerület 90 20,0 1,96
Varb= 6,25
A kínálati ár kerületenként normális eloszlást követ és feltételezhető a
kerületenkénti azonos szórás.
Kontraszt módszer
V. VI. és VII. ker. alcsoportok összehasonlítása
V-VI. kerület a lakásárai a mintában
1. kontraszt definiálása: 6,05 MFt-tal nagyobbak, mint a VII.
kerületben.
L = (28,3+23,8)/2 - 20,0/1 =6,05 c i : ½, ½, -1
2. Λ szignifikanciájának vizsgálata
• Hipotézisek: H0: Λ = 0
H1: Λ ≠ 0
• A próbafüggvény: VarL=6,25(¼ ⋅1/40+¼ ⋅1/60+1⋅1/90)=0,1345
FL= 6,052/(2⋅0,1345) = 136,0688
• Kritikus érték, megtartási tartomány: Tmegt (0; F0,95(2; 187)) = (0; 3,041)
• Döntés: H0-t elutasítjuk, az V-VI. kerületek lakásárai szign. eltérnek
a VII-től.
3. Λ intervallumbecslése: sL=√0,1345=0,3668 K=√2⋅3,041=2,4662
A 63 nm-es lakásárak közötti eltérés
a V-VI. és a VII. kerületben 95%-os
CI =(6,05-,9046; 6,05+0,9064)=(5,1454; 6,9546) megbízhatósággal 5,1 és 7 MFt közé
esik.
H.F.:
Kontraszt módszer
V. és VI. VII. ker. alcsoportok összehasonlítása
1. kontraszt definiálása:
L= c i -k:
2. Λ szignifikanciájának vizsgálata
• Hipotézisek:
H0: Λ = 0
H1: Λ ≠ 0
• A próbafüggvény:
• Kritikus érték, megtartási tartomány:
• Döntés:
3. Λ intervallumbecslése:
Feladat (VA 10.1):
Kétegyházán élő románok nyelvmegőrzését vizsgálták az alábbi
40 és 58 év közötti minta alapján:
15 eset közül hány esetben tért el a hagyományos román nyelvjárás szabályaitól, a
standard román kedvéért (kihagyott palatalizációk száma)
Férfiak: 0 2 8 5 5 3 2 1 4 6
Nők: 4 0 0 3 1 0 1 0 3 0

• Vizsgáljuk meg varianciaanalízissel, hogy az adott életkori


szinten van-e különbség a férfiak és a nők között a helyi
nyelvjáráshoz való igazodás tekintetében!*
Ismétlő kérdések:
• A vizsgálatot t-próbával is végezzük el!
• Vizsgáljuk meg, hogy valóban teljesül-e a
szóráshomogenitás!
*A normalitás és a szóráshomogenitás feltételezhető.
Feladat:
Egy írásbeli kollokviumon öt különböző feladatsor volt – max.
pontszám 50. Az vizsga értékelését követően a hallgatók jelezték
az oktatónak, hogy eltérő nehézségűek voltak a feladatsorok.
Igazuk volt-e a hallgatóknak?* (α = 0,05)
Feladatsor hallgatók pontszámok pontszámok
száma átlaga szórása

A 8 41 7,5

B 10 37 10

C 14 40 7

D 8 34 8,7

E 10 37 6,4
*A normalitás és a szóráshomogenitás feltételezhető.
Feladatsor hallgatók pontszámok pontszámok pontszámok
Feladat megoldása: száma nj átlaga x(átl.)j szórása sj varianciája
Varj
n = 50 A 8 41 7,5 56,25
m=5
B 10 37 10 100

C 14 40 7 49

D 8 34 8,7 75,69

E 10 37 6,4 40,96

H0: μ1 = μ2 = μ3= μ4=μ5=μ (egyforma nehézségűek a feladatsorok)


H1: valamelyik μi ≠ μ (valamelyik feladatsor nehézsége eltér)
Feladatsor hallgatók pontszámok pontszámok pontszámok
száma nj átlaga x(átl.)j szórása sj varianciája
Varj

A 8 41 7,5 56,25

B 10 37 10 100

C 14 40 7 49

D 8 34 8,7 75,69

E 10 37 6,4 40,96

xátl.=(8・41 + 10・37 + 14・40 + 8・34 + 10・37) / 50 = 38


Varb=(7・56,25+9・100+13・49+7・75,69+9・40,96) / 45 = 62,87
Vark=(8(41-38)2 + 10(37-38)2 + 14(40-38)2 + 8(34-38)2 + 10(37-38)2 ) / 4 =69
F=69/62,87=1,1 Fkrit. (0,95) (4; 45) =2,6 Tmegt.= (0; 2,6)
Döntés: Mivel 1,1 ∈ Tmegt. ezért H0-t megtartjuk. Egyformának mondható a feladatsorok nehézsége
95%-os mb. szinten.
Egyszempontos, független mintás ANOVA
Excellel
● Csak akkor futtatható, ha az egyes mintaelemek adottak!
● Az egyes csoportok mintái külön oszlopban (vagy sorban)
kell, hogy legyenek!
➡Adatok/Adatelemzés/Egytényezős varianciaanalízis

Ha nincs ott az “Adatelemzés” akkor be kell kapcsolni az Analysis toolpak bővítményt!

SPSS: Analyze/Compare means and Proportions/One -Way ANOVA


Egyszempontos, független mintás ANOVA
Excellel
ANOVA Excellel
Megjegyzések:
● Azon feladatokra, ahol nincs megadva az eredeti minta,
“csak” a csoportonkénti leíró statisztikák, az Excel /
Adatelemzés nem alkalmazható, a számítások saját
képlettel végezhetők el.
● Excelben nincs beépített post hoc teszt, a számítások
saját képlettel végezhetők el.
● Kritikus érték az F.INVERZ.JOBB(alfa;df1;df2) angolul
F.INV.RT(alfa;df1;df2) függvénnyel határozható meg:
További “ANOVÁk”
ANOVA

Egyszempontos (One way) ANOVA Többszempontos (Factorial) ANOVA

egy fgtl. (csoportosító) változó: kategória több fgtl. (csoportosító) változó: kategória
köztük interakció is lehet
egy függő változó: kvantitatív (folyt.) egy függő változó: kvantitatív (folyt.)

Kétszempontos Három-
ANOVA szempontos ANOVA
...
2 fgtl. változó: kategória 3 fgtl. változó: kategória
egy függő változó: egy függő változó:
kvantitatív (folyt.) kvantitatív (folyt.)
Független mintás Összetartozó mintás
(Repeated measures)
a csoportokban a csoportokban ugyanazok az Független Összetartozó Független Összetartozó
különböző egyedek egyedek ...
mintás mintás mintás mintás
További “ANOVÁk”
ANCOVA MANCOVA Regresszió
ANOVA MANOVA
Többváltozós Variancia- Többváltozós
(Multivariate) kovariancia- (Multivariate)
variancia analízis variancia-ko-
analízis variancia-analízis

fgtl. változó:
fgtl. változó: egy fgtl. változó: egy egy vagy
vagy több, vagy több, kategória több,
fgtl. változó: egy fgtl. változó: egy
kategória és és kvantitatív kvantitatív
vagy több, vagy több,
kvantitatív (kovariáns)
kategória kategória
(kovariáns) függő
függő változó: több, változó:egy
függő változó: egy, függő változó: több,
függő változó: egy, kvantitatív kvantitatív
kvantitatív kvantitatív
kvantitatív
További “ANOVÁk”
• Összetartozó mintás (egyszempontos) ANOVA (Repeated
Measure ANOVA): egy kvantitatív változó átlagainak eltérését
vizsgáljuk különböző helyzetek, időpontok között. Pl.
– vérnyomást hasonlítunk kezelés előtt-közben-után,
– gyermek IQ-ja 6-8-10-12 évesen, úgy, mint ö.m. t-próbánál
egy ember minden csoportban szerepel,
míg sima ANOVánál nem
• Többszempontos ANOVA (Factorial ANOVA): egyidejűleg több
(alacsony mérési szintű) tényező hatását vizsgáljuk egy
kvantitatív függő változóra (a tényezők között vizsgálható
interakció is). Pl.
– egy termékből eladott mennyiséget hogyan befolyásolja az
elhelyezés (sor és polc)
– a egyetemmel való elégedettség hogyan függ a nemtől és a
kartól
További “ANOVÁk”
• Variancia-kovarianciaanalízis (ANCOVA): többszempontos VA
során kvantitatív független változók (kovariánsok) hatását is
kiszűrhetjük
– Pl. az egyetemmel való elégedettséget hogyan befolyásolja a
nem és a kor (év)
• Többváltozós variancia-kovariancia elemzés (Multivariate
->MANOVA, MANCOVA: több függő változó van, több,
különböző szintű független változó mellett

Kevert modell: a vérnyomáscsökkentő kezelés hatását (mérés:


előtt-közben-után) hogyan befolyásolja a nem
Feladatok: Milyen ANOVA? Mik a változók?
(*a példák a VA könyvből származnak)
1. Emberek általános intelligenciáját mérték két típusú teszttel (VIQ, PIQ) ahhoz, hogy
megvizsgálják: Függ-e az IQ szintje attól, hogy milyen típusú intelligenciát mérünk.*
2. Van-e hatása a diagnózisnak (sine morbo, neurotikus, organikus, alkoholista,
paranoid skizofrén) az IQ szintre?*
3. ...arra az eredményre jutottak, hogy nemenként eltérő a kísérleti helyzet (edzés
után, pszichés frusztráció idején, pszichés frusztráció után) hatása a pulzusszintre*
4. Ugyanolyan szintű szorongás jellemzi-e a különböző diagnózissal rendelkezőket
(neurotikus, pszichopata, skizofrén, cirkuláris elmebeteg)?*
5. A saját falujához/városához, Vajdasághoz, Szerbiához, régi Jugoszláviához, mai
Jugoszláviához és mai Magyarországhoz való (skálán mért) kötődést szeretnénk
összehasonlítani.*
6. A különböző bevétellel és lakóhellyel (város, kisváros, falu) rendelkező embereknek
eltérő-e boldogság-szintje?
Egyszempontos, összetartozó mintás
(repeated measures)
ANOVA
Egyszempontos, összetartozó mintás varianciaanalízis
• Több, összetartozó minta alapján vizsgáljuk egy
kvantitatív változó elméleti átlagainak
egyezését/eltérését (különböző helyzetek,
időpontok között <- ezek a szempont szintjei)

Például:
• Hallgatói elégedettség tanulmányok elején, közepén és
végén (ugyanazok az emberek)
Az összetartozó mintás t-próba általánosítása.
Mintapélda:
Egy longitudinális vizsgálat során a hallgatók elégedettségét vizsgálták
(1=elégedetlen, … 10=elégedett) az egyetemi tanulmányaikkal kapcsolatban.
Az alábbi minta alapján kimutatható-e szignifikáns változás az évfolyam
előrehaladtával az elégedettségben (alfa = 5%)?

elégedettség elégedettség elégedettség


Résztvevő
1.év végén 2.év végén 3.év végén

1 7 8 8

2 5 8 7

3 6 8 6

4 8 9 9
5 10 10 9
résztvevők
Jelölések, hipotézisek szempont: a helyzet/
időpont, ennek
Xj (és E(Xj) = μ )
száma: n j hatását szeretnénk
vizsgálni
elégedettség elégedettség elégedettség
Résztvevő 1.év végén 2.év végén 3.év végén
x1 x2 x3 helyzet/időpont J db
1. 7 8 8

2. 5 8 7

3. 6 8 6

4. 8 9 9
5. 10 10 9

H 0 : μ1 = μ 2 = … = μ J = μ
H1: valamely μj ≠ μ
n=5
J=3 Mintabeli jellemzők
elégedettség 1. elégedettség elégedettség
résztvevőnkénti
Résztvevő év végén 2.év végén 3.év végén
átlagok
x1 x2 x3
1. 7 8 8 7,67
2. 5 8 7 6,67
3. 6 8 6 6,67
4. 8 9 9 8,67
5. 10 10 9 9,67
helyzetek/
időpontok 7,20 8,60 7,80
átlagai Főátlag: = 7,87
Végrehajthatósági feltételek

• normalitás ha sérül: Friedman-féle ANOVA (rangsorolásos)

• szfericitás: az összes lehetséges Vij = Xi - Xj


különbség változó elméleti szórása egyenlő.
– mindig teljesül, ha Xj -k elméleti szórása egyenlő
és corr(Xi , Xj) ugyanakkora minden i, j-re

ha sérül: Greenhous-Geisser és Hynh-Feldt korrekció


(SPSS-ben beépített)
A pontszámok szóródását okozhatja
• helyzet/időpont hatása
(pl. x2 nagyobb, mint x)
(df=J-1)
• személy hatása
(pl. 5. résztvevő jobbra értékel,
mint a többi)
(df=n-1)
• hiba

(df=(n-1)⋅(J-1))
Szórásfelbontás táblázat
A szóródás Eltérés- Szabadság-fok Variancia F
oka négyzet- (df) becslése
összeg (SS) (Var= SS / df)

Helyzet/ SSk J-1 Vark Vark/Varerror


időpont
Személy SSp n-1 Varp
Hiba SSerror (n-1)(J-1) Varerror
Összesen SSt=SSk+SSp+SSerror nJ - 1
Szórásfelbontás táblázat
A szóródás Eltérés- Szabadság-fok Variancia F
oka négyzet- (df) becslése
összeg (SS) (Var= SS / df)

Helyzet/ 4,93 2 2,47 4,48


időpont
Személy 20,40 4 5,10
Hiba 4,40 8 0,55
Összesen 29,73 14 2,12
• Próbafüggvény:
(J - 1, (n - 1)⋅(J - 1)) szabadságfokú
F = Vark / Varerror F-eloszlást követ, ha H0 fennáll
(df1= J-1, df2=(n - 1)⋅(J - 1)
• Megtartási tartomány:
Tmegt= (0; F1-α(df1; df2))
kritikus érték
• Döntés: Ha F ∈ Tmegt., azaz,
ha F < F1-α(df1; df2), akkor
a nullhipotézist megtartjuk
• A próbafüggvény aktuális értéke: F = 4,48
• Megtartási tartomány:
– 1-α=0,95
– df1=2 df2=8
– kritikus érték: F1-α(df1; df2) = 4,459 (Táblázat)

– Tmegt= (0; F1-α(df1; df2)) = (0; 4,459)


• Döntés: Mivel 4,48∉Tmegt ezért H0-t elutasítjuk.
Szignifikáns változás mutatható ki az elégedettségben az
évfolyam előrehaladtával.
Utóelemzések
Úgy, mint független mintás esetben, de
• Varb (hibavariancia) helyett Varerror-t használjuk
(szab. fokával)
• ni, nj elemszámok helyett n
Összetartozó mintás ANOVA végrehajtása Excellel
Excelben nincs összetartozó mintás ANOVA, de az a
Two-Factor Without Replication -el elvégezhető…
➡Adatok/Adatelemzés/Kéttényezős varianciaanalízis
ismétlések nélkül

SPSS: Analyze/General Linear Model/Repeated Measures…


Összetartozó mintás ANOVA végrehajtása Excellel

Személy
Helyzet/időpont
További feladatok
Adatsor
1.1. Az Exam tábla adatai alapján vizsgálja meg, hogy a
vizsga sorszáma (exam=1, 2, 3) befolyásolja-e a
pontszámot.* Ha szükséges, utóelemzéseket is készítsen.

1.2. A SuperMarket tábla adatai alapján ellenőrizze, hogy


van e szignifikáns különbség az egyes áruházak (store=1,
2, 3, 4, 5) eladás adataiban.* Ha szükséges,
utóelemzéseket is készítsen.

*A normalitás és szóráshomogenitás feltételezhető.


További feladatok
1. 3. Négy, fogyókúrát elősegítő eljárás tesztelésére az
alábbi mintát vették:
Eljárás súlyveszteség (kg)
A 14 15 16 17 18
B 10 14 10 9 12
C 8 11 10 8 8
D 13 16 15 14 12

Vizsgáljuk meg, hogy van-e szignifikáns különbség az eljárások


között (alfa=0,05)*. Ha szükséges utóelemzést is készítsünk.
*A normalitás és szóráshomogenitás feltételezhető.
További feladatok
1.4. Egyetemistákat kértünk meg arra, hogy tízfokú skálán fejezzék ki
elégedettségüket (1 = elégedetlen, 2 ….. 9, 10=elégedett) az egyetemi
tanulmányaikkal kapcsolatban. Az alábbi válaszokat kaptuk:

Kar válazok válaszok válaszok


száma átlaga szórás-
négyzete
Bölcsészettudományi 42 6,3 7,12
Természettudományi 54 5,9 6,81
Gazdaságtudományi 58 7,4 7,04

Vizsgáljuk meg, hogy az elégedettségi szint függ-e a kartól (alfa=5%).


*A normalitás és szóráshomogenitás feltételezhető.
További feladatok
1.5. Egy cég gépkocsiállománya fogyasztásának
vizsgálatára a következő, típusonként független mintát
vette:
Gk. Fogyasztás (liter/100km)
típusa
I. 6,2 7,0 7,2 8,2 6,4
II. 7,4 8,5 8,4 7,0 9,0 8,4 8,0
III. 5,9 6,2 7,1 5,5

Állapítsa meg, hogy azonosnak tekinthető-e az egyes


típusok fogyasztása 95%-os megbízhatósági szinten.
*A normalitás és szóráshomogenitás feltételezhető.
További feladatok
1.6. Színházba járási szokásokat (évente hány alkalommal jár
színházba) mérték fel egy adott időszakban Budapesten, 500 fős minta
alapján, az iskolai végzettségtől függően.
nj átlag szórás
8 általános 30 0,7 0,6
Szakmunkás 175 2,2 0,7
Érettségi 210 3,8 1,1
Diploma 85 6,3 2,8
Van-e összefüggés, ha alfa= 0,05? Milyen szoros a kapcsolat? Hány
százalékban magyarázza meg az iskolai végzettség a színházba járási
szokást?
*A normalitás és szóráshomogenitás feltételezhető.
Saját megoldások
2. Illeszkedésvizsgálat
Goodness of fit
Illeszkedésvizsgálat
• Egy valószínűségi változó eloszlása megegyezik-e egy
feltételezett eloszlással?
Diszkrét eloszlás Folytonos eloszlás
tesztelése tesztelése
• Khí négyzet próbával • Egymintás
– Egyenletes Kolmogorov-Szmirnov
– Binomiális,
próbával
– Normalitás vizsgálata
– Poisson, ... Az adatok
kategorizálásával – Egyéb eloszláshoz
– Egyéb, nem nevezetes történő illeszkedés
vizsgálata
Illeszkedésvizsgálat Khí-négyzet
próbával
• Alkalmazhatóság feltételei:
– Nagy minta:
• A legkisebb feltételezett gyakoriság >=5
• Fajtái
– Nincs becsült paraméter – tiszta
– Van(nak) becsült paraméter(ek) – becsléses
A próba menete
• Jelölések:
fi (Observed): a mintában megfigyelt gyakoriság
fi* (Expected): a feltételezett eloszlás szerinti
gyakoriság
k: kategóriák száma
n: mintaelemek száma
b: becsült paraméterek száma
• Hipotézisek:
– H0: az eloszlás illeszkedik
– H1: az eloszlás nem illeszkedik
(k – 1) szabadságfokú
• A próbafüggvény:
khí-négyzet eloszlást követ
(H0 fennállása esetén),
ha van b (db) becsült paraméter
is, akkor df = (k – b – 1)

• Kritikus érték: χ2 (k-1) vagy χ2 (k-b-1)


Megtartási tartomány Tmegt(0; χ2krit.)
• Döntés: ha χ2 ∈ Tmegt (azaz, ha χ2 < krit. érték), akkor a
nullhipotézist megtartjuk.
A khí-négyzet (χ2 ) eloszlás
• független, standard normális eloszlású változók négyzetei
összegének eloszlása
• paramétere: a szabadsági fok, ami az összegzendő független
változók számát jelenti
• sűrűségfüggvénye:
z2 • csak pozitív értékeken
értelmezett
• aszimmetrikus
• szabadsági fok
2 2
növelésével egyre
z1 +z2 jobban hasonlít a
z 2+z 2+z 2 normális eloszláshoz
1 2 3

z12+z22+...+z102

https://saylordotorg.github.io/text_introductory-statistics/s15-01-chi-square-tests-for-independe.html
1. Mintapélda egyenletes eloszlásra
Dobott szám Dobások száma
1 83
2 91
3 122
4 107
5 74
6 123
Összesen 600

Ellenőrizzük 95%-os mebízhatósági szinten, hogy a


dobókocka szabályos-e.
1. Mintapélda egyenletes eloszlásra
Dobott szám Dobások száma
1 83
2 91
3 122
4 107
5 74
6 123
Összesen 600

Ellenőrizzük 95%-os mebízhatósági szinten, hogy a


dobókocka szabályos-e.
• Hipotézisek:
– H0: az eloszlás egyenletes (a kocka szabályos)
– H1: az eloszlás nem egyenletes

• Próbafüggvény:

• Kritikus érték:

• Döntés:
1. Mintapélda megoldása
Dobott szám Dobások száma (fi)
1 83
2 91
3 122
4 107
5 74
6 123
Összesen 600

• n=600
• k=6
Dobott szám fi fi *
1 83 100
2 91 100
3 122 100
4 107 100
5 74 100
6 123 100
Összesen 600 600
• Hipotézisek:
H0: az eloszlás egyenletes (a kocka szabályos)
H1: az eloszlás nem egyenletes
• Próbafüggvény:
khi2= (83-100)2/100 + (91-100)2/100 + ... + (123-100)2/100 = 21,08
• Megtartási tartomány Tmegt(0; χ2krit(k-1).)
df = k - 1 = 5 (nincs becsült paraméter)
1-alfa = 0,95
2
(Táblázat)
kritikus érték: χ krit= 11,070

Tmegt(0; 11,070)

• Döntés: Mivel 21,08 ∉ Tmegt , ezért H0-t elutasítjuk. 95%-os


megbízhatósággal nem tekinthető szabályosnak a kocka.
Illeszkedésvizsgálat Excellel
• A KHÍNÉGYZET.PRÓBA(fi-k tartománya;fi*-ok tartománya), angolul
CHISQ.TEST(fi-k tartománya;fi*-ok tartománya) függvénnyel a khí
négyzet próba p-értéke megkapható
– ha p <0,05, akkor a nullhipotézist elutasítjuk (5%-os
szignifikancia szint mellett), azaz az eloszlás nem illeszkedik.
Illeszkedésvizsgálat Excellel
• Megjegyzés:
A próbához tartozó kritikus érték (ha szükséges) a
KHINÉGYZET.INVERZ.JOBB(alfa;df), angolul CHISQ.INV.RT(alfa;df)
függvénnyel határozható meg:
További feladatok fi* meghatározására
Dobott szám fi fi *
1 83
2 91
3 122
4 107
5 74
6 123
Összesen 600
Határozzuk meg fi*-ot, ha a következő eloszlásokat szeretnénk vizsgálni
a. 6-ost kétszer akkora valószínűséggel dob, mint a többi számot.
b. 1, 2, 3, 4, 5 és 6 pontszámok aránya: 1:1:2:1:1:4 (azaz 3-ast kétszer
akkora és 6-ost 4-szer akkora valószínűséggel dob, mint a többi számot.
c. 2, 3, 4, 5 és 6 pontot háromszor olyan nagy valószínűséggel dob, mint
1-est.
További feladatok fi* meghatározására
a. feladat megoldása:
Dobott szám fi fi *
1 83 85,7
2 91 85,7
3 122 85,7
4 107 85,7
5 74 85,7
6 123 171,4
Összesen 600 600

Határozzuk meg fi*-ot, ha a következő eloszlásokat szeretnénk


vizsgálni
a. 6-ost kétszer akkora valószínűséggel dob, mint a többi számot.
arányok: 1:1:1:1:1:2
További feladatok fi* meghatározására
b. feladat megoldása:
Dobott szám fi fi *
1 83 60
2 91 60
3 122 120
4 107 60
5 74 60
6 123 240
Összesen 600 600
b. 1, 2, 3, 4, 5 és 6 pontszámok aránya: 1:1:2:1:1:4 (azaz 3-ast
kétszer akkora és 6-ost 4-szer akkora valószínűséggel dob, mint a
többi számot.
További feladatok fi* meghatározására
c. feladat megoldása:
Dobott szám fi fi *
1 83 37,5
2 91 112,5
3 122 112,5
4 107 112,5
5 74 112,5
6 123 112,5
Összesen 600 600

c. 2, 3, 4, 5 és 6 pontot háromszor olyan nagy valószínűséggel dob,


mint 1-est.
arányok: 1:3:3:3:3:3
• 2. Mintapélda:
Állapítsuk meg, hogy a munkanélküliek életkor
szerinti eloszlása tekinthető-e normálisnak, (33; 9)
paraméterekkel?
Korcsoport (év) Munka-
nélküliek száma
-20 48
20,1-25 90
25,1-30 120
30,1-40 180
40,1-50 150
50,1- 12
Összesen 600
• 2. Mintapélda:
Állapítsuk meg, hogy a munkanélküliek életkor
szerinti eloszlása tekinthető-e normálisnak, (33; 9)
paraméterekkel?
Korcsoport (év) Munka-
nélküliek száma
-20 48
20,1-25 90
25,1-30 120
30,1-40 180
40,1-50 150
50,1- 12
Összesen 600
• 2. Mintapélda:
Állapítsuk meg, hogy a munkanélküliek életkor
szerinti eloszlása tekinthető-e normálisnak, (33; 9)
paraméterekkel?
Korcsoport (év) Munka- normális eloszlás szerinti
nélküliek száma arányok
-20 48
20,1-25 90
25,1-30 120
30,1-40 180
40,1-50 150
50,1- 12
Összesen 600
(Táblázat)
2. Mintapélda megoldása:
A (33; 9) paraméterű normális eloszlás szerinti arányok és fi*-ok
kiszámítása (eloszlásfüggvénnyel):
P(15<ξ<20) = F(20) - F(15) = Φ((20-33) / 9) - Φ((15-33) / 9) =
= Φ(-1,444) - Φ(-2) = (1-0,9251) - (1-0,9772) = 0,0521, amiből (Táblázat)
(600*0,0521=31,26) f1*=31,26
Korcsoport Munka- normális eloszlás szerinti arányok és fi*
(év) nélküliek
száma fi
15 -20 48 P(15<ξ<20)=0,0521, amiből f1*=31,26
20,1-25 90
25,1-30 120
30,1-40 180
40,1-50 150
50,1-60 12
Összesen 600
2. Mintapélda megoldása:
A (33; 9) paraméterű normális eloszlás szerinti arányok és
fi*-ok kiszámítása:

Korcsoport Munka- normális eloszlás szerinti arányok és fi*


(év) nélküliek száma
fi
15 -20 48 P(15<ξ<20) = 0,0521, amiből f1*=31,26
20,1-25 90 P(20<ξ<25) = 0,1145, amiből f2*=68,7
25,1-30 120 P(25<ξ<30) = 0,1851, amiből f3*= 111,36
30,1-40 180 P(30<ξ<40) =0,4019, amiből f4*= 241,14
40,1-50 150 P(40<ξ<50) = 0,1905, amiből f5*= 114,30
50,1-60 12 P(50<ξ<60) = 0,0288, amiből f6*= 17,28

Összesen 600 0,9729≈1 584,04≈600


• Hipotézisek:
– H0: az eloszlás illeszkedik a megadott normális
eloszláshoz
– H1: az eloszlás nem illeszkedik a megadott normális
eloszláshoz
• Próbafüggvény:

• Kritikus érték:

• Döntés:
Normális eloszlás szerinti arányok és fi*-ok kiszámítása Excellel
NORM.ELOSZLÁS(x; átlag; szórás;1)
• 3. Mintapélda:
Állapítsuk meg, hogy a munkanélküliek életkor
szerinti eloszlása tekinthető-e normálisnak?
Korcsoport (év) Munka-
Eltérés az előzőhöz képest:
nélküliek száma ➔ A normális eloszlás
-20 48 paramétereit (átlag,
20,1-25 90 szórás), a mintából
25,1-30 120
30,1-40 180
számoljuk ki (becsüljük)
40,1-50 150
50,1- 12
➔ Így itt b=2 lesz, amiből
Összesen 600
df=3
• 3. Mintapélda:
Állapítsuk meg, hogy a munkanélküliek életkor
szerinti eloszlása tekinthető-e normálisnak?
Korcsoport Xi Munka-
Eltérés az előzőhöz képest:
(év) nélküliek ➔ A normális eloszlás
száma fi paramétereit (átlag,
15-20 17,5 48 szórás), a mintából
20,1-25 22,5 90
25,1-30 27,5 120
számoljuk ki (becsüljük)
30,1-40 35 180 átlag=33,125 s=9,424
40,1-50 45 150
50,1-60 55 12 ➔ Így itt b=2 lesz, amiből
Összesen 600 df=3
3. Mintapélda megoldása:
A (33,125; 9,424) paraméterű normális eloszlás szerinti arányok és
fi*-ok kiszámítása (eloszlásfüggvénnyel):
P(15<ξ<20) = F(20) - F(15) = Φ((20-33,125) / 9,424) - Φ((15-33,125) / 9,424) =
= Φ(-1,3927) - Φ(-1,9233) = (1-0,9192) - (1-0,8212) = 0,098, amiből
(600*0,098=58,8) f1*=58,8 (Táblázat)
Korcsoport (év) fi norm. elo. fi*
szerinti
arányok
・600
15 -20 48 0,098 58,8
20,1-25 90
25,1-30 120
30,1-40 180
40,1-50 150
50,1-60 12
Összesen 600 1,000 600,00
• Hipotézisek:
– H0: az eloszlás normálisnak tekinthető
– H1: az eloszlás nem tekinthető normálisnak
• Próbafüggvény:

• Kritikus érték:

• Döntés:
További feladat:
Illeszkedésizsgálati feladatok megfogalmazása és az adatsorok
megadása (az 1, 2, 3, …munkalapokon, további munkalap
hozzadható!)
Változó gyakoriság a
(kategóriákkal) mintában
fi
3. Homogenitásvizsgálat
Test of homogenity
Homogenitásvizsgálat
• X és Y valószínűségi változók eloszlása
megegyezik-e?

Diszkrét eloszlások Folytonos eloszlások


vizsgálata vizsgálata
• Khí négyzet • Kétmintás
próbával Az adatok Kolmogorov-Smirnov
kategorizálásával
próbával
(feltétel: a két minta
függetlensége)
Homogenitásvizsgálat Khí-négyzet próbával
A próba menete
• Jelölések:
n: mintaelemek száma az 1. mintában (X)
m: mintaelemek száma a 2. mintában (Y)
ni : az i-edik értékek száma az 1. mintában
mi : az i-edik értékek száma a 2. mintában

k: kategóriák száma
Megjegyzés
Folytonos eloszlás is tesztelhető khí-négyzet
próbával. Ekkor
• a számegyenest k részre osztjuk
• ni : az i-edik részbe eső mintaelemek száma (X)
• mi : az i-edik részbe eső mintaelemek száma (Y)
(k – 1) szabadságfokú
• Hipotézisek: khí-négyzet eloszlást
– H0: a két eloszlás megegyezik követ (ha H0 fennáll).
– H1: a két eloszlás nem egyezik meg

• A próbafüggvény:

• Megtartási tartomány: Tmegt. (0, χ2 (k-1) )


• Döntés: ha χ2 eleme Tmegt.-nek akkor a nullhipotézist
megtartjuk.
Mintapélda
Egy egyetem két büféjében vizsgálták a napi forgalmat:
Idősáv Vásárlók száma az Vásárlók száma az
1. büfében 2. büfében
8:00-10:00 16 36
10:01-12:00 34 24
12:01-14:00 13 32
14:01-16:00 18 38
16:01-18:00 31 29
18:01-20:00 18 41
Összesen 130 200

Ellenőrizzük, hogy azonosnak tekinthető-e a két büfé


forgalmának napi eloszlása, 95%-os megbízhatósági szinten.
Mintapélda
Egy egyetem két büféjében vizsgálták a napi forgalmat:
Idősáv Vásárlók száma az Vásárlók száma az
1. büfében 2. büfében
8:00-10:00 16 36
10:01-12:00 34 24
12:01-14:00 13 32
14:01-16:00 18 38
16:01-18:00 31 29
18:01-20:00 18 41
Összesen 130 200

Ellenőrizzük, hogy azonosnak tekinthető-e a két büfé


forgalmának napi eloszlása, 95%-os megbízhatósági szinten.
Mintapélda megoldása:

Idősáv ni mi ni/n mi/m

8:00-10:00 16 36 0,44444 0,18 0,0000623


10:01-12:00 34 24 0,2615 0,12 0,000345
12:01-14:00 13 32 0,1 0,16 0,00008
14:01-16:00 18 38 0,138 0,19 0,0000474
16:01-18:00 31 29 0,2385 0,145 0,00015 (hibás volt)
18:01-20:00 18 41 0,1385 0,205 0,00007 (hibás volt)
Összesen 130=n 200=m 0,00075
Mintapélda megoldása:

Idősáv ni mi ni/n mi/m

8:00-10:00 16 36 0,123 0,180 0,00006


10:01-12:00 34 24 0,262 0,120 0,0003
12:01-14:00 13 32 0,100 0,160 0,00008
14:01-16:00 18 38 0,138 0,190 0,00004
16:01-18:00 31 29 0,238 0,145 0,00015
18:01-20:00 18 41 0,138 0,205 0,00007
Összesen 130=n 200=m 1,000 1,000 0,00075
Mintapélda megoldása:
• Hipotézisek:
– H0: a két eloszlás megegyezik (a két büfé
forgalmának eloszlása azonos)
– H1: a két eloszlás nem egyezik meg (a két büfé
forgalmának eloszlása nem azonos)
• Próbafüggvény: χ2 = 130 ⋅ 200 ⋅ 0,00075 = 19,5

• Megtartási tartomány: Tmegt.(0; 11,070)

• Döntés: Mivel 19,5 nem eleme Tmegt.ezért H1-t elutasítjuk:


a két büfé forgalmának eloszlása nem azonos
Homogenitásvizsgálat Excellel
• Megjegyzés:
A próbához tartozó kritikus érték (ha szükséges) a
KHINÉGYZET.INVERZ.JOBB(alfa;df), angolul
CHISQ.INV.RT(alfa;df) függvénnyel határozható meg:
További feladatok
2.1. Az alábbi táblázatban a 2016-ban szociológia szakra felvett
hallgatók néhány adata látható:

a. Vizsgáljuk meg azt a feltételezést, mely szerint a nemek


aránya megfelel a 2016-os népszámlálás alapján a
magyarországi arányoknak: nők 52,3%, férfiak 47,7%.
b. Vizsgáljuk meg, hogy a Statisztika jegyek eloszlása a nők és
a férfiak között ugyanolyan-e.
c. Vizsgáljuk meg, azt a feltételezést, mely szerint (az egész
évfolyamot tekintve) közepesek száma kétszerese a többi
jegy számának (a többi jegy eloszlása pedig egyenletes).
További feladatok
2.2. Egy lakossági megkérdezésnél olyan mintát szerettünk
volna venni, ami alapján feltételezhető az életkor szerinti
eloszlások illeszkedése az országos adatokhoz.
a. Alátámasztható-e a feltételezés?
b. Vizsgáljuk meg a levett minta alapján, hogy a nők és
férfiak életkor szerinti eloszlása a között van-e lényeges
eltérés
További feladatok
Adatsor
2.3. A MathAssess tábla adatai alapján vizsgálja meg, hogy az
attitűd pontszámok (att1 és att2) eloszlása a nők és a férfiak
körében ugyanolyannak tekinthető-e.
2.4. A MathAssess tábla adatai alapján vizsgálja meg, hogy a
knowledge pontszámokra (q1 q2 q3) fennállnak-e az alábbi
feltételezések:
a. A q1 tekintetében az 1, 2, 3, 4, és 5 pontszámok aránya:
1:1:2:1:4
b. A q1 tekintetében a 2, 3, 4, és 5 pontszámok száma
háromszorosa az 1 pontszámnak.
c. A q1 tekintetében az 5 pontszámok száma tízszerese az 1,
2, 3 és 4 pontszámok számának.
További feladatok
2.5. Egy teázóban a vásárlók számának alakulása évszakonként:
a. Tekinthető-e évszakonként egyenletesnek a vásárlók száma?
b. Vizsgálja azt a hipotézist, mely szerint a télen kétszer annyi a
vásárló mint a többi hónapban.

Évszak Tél Tavasz Nyár Ősz

Vásárlók 12300 7820 3410 9760


száma
Saját megoldások
Kiegészítés: Kolmogorov-Szmirnov próba
Cél: Két eloszlás összehasonlítása
Alapelve: Ha nagy a két tapasztalati eloszlásfüggvény
különbsége, akkor a minták nem származhatnak
ugyanabból az eloszlásból.
A különbséget a két tapasztalati eloszlásfüggvény
közötti maximális távolsággal mérjük (ez maga a
próbastatisztika).
Kiegészítés: Kolmogorov-Szmirnov próba
Tulajdonságai:
• Kis elemszám esetén is alkalmazható
• Nemparaméteres próba
• Nem feltétele a normalitás
• Ordinális változókra is alkalmazható
Kiegészítés: Kolmogorov-Szmirnov próba
Egymintás eset (illeszkedésvizsgálat):
• Hipotézisek:
– H0: Ftap.≡ F0 (az eloszlás illeszkedik az F0 eloszláshoz)
– H1: Ftap.≢ F0 (az eloszlás nem illeszkedik az F0-hoz)

• Próbafüggvény:

• Kritikus érték: minden előforduló xi-re meghatározzuk a


különbséget. A távolságot a legnagyobb
saját táblázatból különbség adja, amit elemszámmal korrigálunk.
Kiegészítés: Kolmogorov-Szmirnov próba
Kétmintás eset (homogenitásvizsgálat):
• Feltétel: a két minta független
• Hipotézisek:
– H0: Ftap.≡ Gtap. (a két eloszlás megegyezik)
– H1: Ftap.≢ Gtap. (a két eloszlás különbözik)

• Próbafüggvény:

• Kritikus érték: saját táblázatból


4. Korrelációszámítás
függő változó független (magyarázó) változó
Két kvantitatív (magas mérési szintű) változó: X és
Y összefüggését vizsgáljuk
1. Milyen jellegű a kapcsolat? pontdiagram
2. Van-e (lineáris) összefüggés a két változó között? Milyen
szoros? korrelációszámítás (r)
3. Jól leírja-e az összefüggést egy Y = mX + b lineáris (képlet)
függvény? lineáris regressziószámítás
Célja általában: ismert X érték esetén Y értékének
előrejelzése
Például:
• tanulmányi eredmény függ-e az IQ-tól
• az online oktatás megítélése (skálán) függ-e az életkortól
• a sörfogyasztás (l) függ-e a hőmérséklettől (°C)
Napi átlaghőmérséklet (°C) Sörfogyasztás (l)
Mintapélda X Y
Vizsgáljuk a napi 18 250
átlaghőmérséklet és a 20 310
sörfogyasztás 25 390
összefüggését, egy 24 320
22 330
vendéglátóhely által
26 430
megfigyelt 10 nap adatai
24 390
alapján. 19 320
16 290
16 270
Pontdiagram/pontfelhő (scatterplot)

Y ➔ pozitív irányú kapcsolat


➔ lineáris kapcsolat

az átlaghőmérséklet és a
sörfogyasztás között

X
További példák:
Lineáris korrelációs együttható
• Elméleti kovariancia: Cov (X,Y)=E(X⋅Y)−E(X)⋅E(Y)
– Ha X és Y függetlenek, azaz E(X⋅Y)=E(X)⋅E(Y), akkor
Cov(X, Y)=0 ➡ jó kapcsolati mérőszám lehet, DE
– nagysága X és Y nagyságától függ (Ha pl. cm-ből m-be
váltunk, változik a Cov)

• Elméleti korrelációs együttható (ró): 𝜚X,Y=Cov(X,Y) / D(X)⋅D(Y)

• Mintabeli korrelációs együttható: rx,y=Cov(x,y) / sx⋅sy


Lineáris korrelációs együttható tulajdonságai
𝜚X,Y= [E(X⋅Y) − E(X)⋅E(Y)] / D(X)⋅D(Y)

● -1 ≤ 𝜚X,Y ≤ 1 (előjel → kapcsolat iránya)


● Ha X és Y függetlenek, azaz E(X⋅Y)=E(X)⋅E(Y) akkor 𝜚X,Y=0
(korrelálatlanok), DE fordítva nem igaz
○ lehet megadni két korrelálatlan változót úgy, hogy E(X)=0,
E(Y)=0 és E(XY)=0, de E(X⋅Y)≠E(X)⋅E(Y) (ld. köv. dián)
● lineáris skálatranszformáció X-en és Y-on nem változtatja
𝜚X,Y értékét (pl., ha ०C-ból ०F-ba, vagy m-ből cm-be
váltunk, nem változhat a korrelációs együttható)
● szimmetrikus
Példa
Nem független, de korrelálatlan változók (X, Y)
X/Y -1 1 sum
E(X)= -1・¼ + 1・¼=0
-1 0 1/4 1/4
E(Y)= -1・½ + 1・½=0
0 1/2 0 1/2
E(XY)= -1・1・¼ + 1・1・¼=0 1 0 1/4 1/4
így cov(XY)=0 és corr(X,Y)=0 Sum 1/2 1/2 1

P(X=-1)=¼ P(Y=-1)=½ és P(X=-1, Y=-1)=0


nem függetlenek, mert ¼・½ ≠0
Megjegyzések

• 𝜚X,Y érzékeny az extrém értékekre (ezeket


célszerű kiszűrni, vagy robusztus korrelációs
együtthatót alkalmazni (Pl. Wilcox - itt nem lesz)
• Nehezen értelmezhető korreláció oka lehet
olyan háttérváltozó, mely X-szel és Y-nal is
korrelál ➡ parciális korrelációs együtthatót
számítunk (ld. később)
Tapasztalati/mintabeli (Pearson-féle)
korrelációs együttható kiszámítása
Tapasztalati/mintabeli
-kovariancia:
cov(x, y) = Σdxidyi / (n-1)

-szórások
sx = √Σdxi2 / (n-1)
sy = √Σdyi2 / (n-1)

r(x,y) = cov(x,y) / sx·sy


Mintapélda xi yi dxi dyi dxi dyi dxi2 dyi2
folytatása: 18 250
20 310
25 390
24 320
22 330
26 430
24 390
19 320
16 290
16 270
Összesen: 210 3300
https://docs.google.com/spreadsheets/d/1lgXtwKrFe9feHvqtvjmbS8PUOi5vBZMvWKrR6xKg68M/edit?usp=sharing
Mintapélda xi yi dxi dyi dxi dyi dxi2 dyi2
folytatása: 18 250 -3,00 -80 240 9 6400
20 310 -1,00 -20 20 1 400
25 390 4,00 60 240 16 3600
24 320 3,00 -10 -30 9 100
22 330 1,00 0 0 1 0
26 430 5,00 100 500 25 10000
24 390 3,00 60 180 9 3600
19 320 -2,00 -10 20 4 100
16 290 -5,00 -40 200 25 1600
16 270 -5,00 -60 300 25 3600
Összesen: 210 3300 0 0 1670 124 29400
➔ pozitív irányú kapcsolat van
➔ szoros kapcsolat a mintában
• ➔ a lineáris kapcsolat
szorosságáról a populációban
még nem állíthatunk semmit,
hiszen ez csak a mintabeli
együttható!

• További számítás szükséges:


– tap. korrelációs együttható szign. tesztelése
– elm. korrelációs együttható
konfidenciaintervalluma
A tapasztalati lin. korrelációs együttható
szignifikanciatesztelése
• Alkalmazhatóság feltételei:
– X, Y normális eloszlású változók*
– minden x értékhez tartozik y

*
Magához a tapasztalati (mintabeli) korr. együttható kiszámításához nem kell a
feltétel, csak a szign. teszthez.
• Hipotézisek:
– H0: ρ = 0 (a lin. kapcsolat nem valós)
– H1: ρ ≠ 0 (a lin. kapcsolat valós)
• Próbafüggvény: n-2 szabadságfokú
t-eloszlást követ, ha
H0 fennáll

• Megtartási tartomány: Tmegt. (-tdf1-α/2; tdf1-α/2)


• Döntés: Ha t ∈ Tmegt, akkor H0-t megtartjuk,
ekkor a lineáris kapcsolat NEM valós.
Mintapélda folytatása: A kiszámított tapasztalati korrelációs
együttható szignifikanciájának vizsgálata (α=5%)
• Hipotézisek:
– H0 : ρ = 0
– H1: ρ ≠0
• Próbafüggvény:

• Megtartási tartomány: Tmegt


df =
1-α/2 = (Táblázat)

• Döntés:
• Értelmezés:
A hőmérséklet és a sörfogyasztás között
statisztikailag igazolható kapcsolat van
(α=5%).
Az elméleti lin. korrelációs együttható
konfidenciaintervalluma
Alapötlet (Fisher)
• Ha elég nagy a minta (n>=10), akkor az r transzformáltja:
z-transzformáció

norm. eloszlású ismert várh. értékkel és szórással


Fisher-féle

• Így megadható egy olyan intervallum, melybe z(ρ)


95%-os megbízhatósággal beleesik
(ld. intervallumbecslés átlagra) z(r)

z(r)± Δ
Az elméleti lin. korrelációs együttható
konfidenciaintervalluma
• Ha megvannak a konf. intervallum határai
z(ρ)-ra, akkor azokra a z-transzformáció
inverzét alkalmazzuk

így megkapjuk a konf. intervallum határait ρ-ra.


A számolás menete
Fisher-transzformáció
r z(r)
z(r)

intervallum meghatározása:
z(r)±Δ Δ=
ralsó Fisher-trf-ó inverze
zalsó=z(r) - Δ
rfelső zfelső=z(r) + Δ
Mintapélda folytatása: Az elméleti lin. korrelációs
együttható 95%-os konfidenciaintervalluma
r = 0,8747 Fisher-transzformáció

z(0,8747) = 1,3527
1-α/2=0,975 (Táblázat) z1-α/2=1,96

Fisher-trf-ó inverze
CI0,95=[0537; 0,969]

• Értelmezés:
Az elméleti lin. korrelációs együttható, 95%-os
megbízhatósággal 0,54 és 0,97 közé esik.
Közepesnél szorosabb, pozitív irányú lin. kapcsolat
van a hőmérséklet és a sörfogyasztás között.
❗ Megjegyzés:
Ha a CI0,95 tartalmazza a 0-t ⇔ a lin. kapcsolat nem
valós
Hasznos Excel függvények
KORREL( ) FISHER( )
KOVARIANCIA.M( ) INVERZ.FISHER( )
KOVAR( ) NORM.S.INVERZ( )
T.INVERZ.2SZ( )
LN( )
KITEVŐ( )
Parciális korrelációs együttható
Példa (VA): Szignifikáns pozitív korreláció
mutatható ki
• Wagner zenéjének kedvelése és a testi
egészség között
• az esernyők száma és a várható életkor között
Ok: van egy közös háttérváltozó, mely
mindkettővel pozitívan korrelál: az anyagi jólét
Parciális korrelációs együttható
𝜚XY,V parciális korrelációs együttható: megmutatja,
hogy milyen kapcsolatban lenne X és Y, ha V lineáris
hatását kiszűrnénk. Úgy számoljuk, hogy V-t
állandó szinten tartjuk.

Becslése mintából (tapasztalati parciális


korrelációs együttható):
A tapasztalati parc. korrelációs együttható
szignifikanciatesztelése
• Hipotézisek:
– H0: ρXY,V = 0
– H1: ρXY,V ≠0
n-3 szabadságfokú
• Próbafüggvény: t-eloszlást követ, ha
H0 fennáll

• Megtartási tartomány: Tmegt (-tdf1-α/2; tdf1-α/2)


• Döntés: Ha t ∈ Tmegt, akkor H0-t megtartjuk.
Az elméleti parc. korrelációs együttható
konfidenciaintervalluma
Fisher-féle transzformációval:
• z(r)±
Feladatok
4.1. 2015. évben, 1884 elemű minta alapján a magyarországi települések
körében az Internet-előfizetések száma (X) és a települési könyvtárak
beiratkozott olvasóinak száma (Y) között kiszámított tapasztalati korrelációs
együttható rxy=0,9212.
• a. HF: Végezzünk szignifikanciatesztelést az rxy tapasztalati korrelációs
együtthatóra (n=1884) és készítsük el az elméleti korrelációs együttható
konfidenciaintervallumát (alfa=5%).
• b. Vizsgáljuk és értelmezzük a lakosságszám mint háttérváltozó hatását, ha
rxv=0,9923 ryv=0,9175 (azaz számítsuk ki az rxy,v tapasztalati parc. korrelációs
együtthatót), ÉS
• c. Végezzünk szignifikanciatesztelést az rxy,v tapasztalati parc. korrelációs
együtthatóra (n=1884).
• d. HF: Készítsük el az elméleti korrelációs együttható
konfidenciaintervallumát (alfa=5%).
a. feladat megoldása n=1884

r = 0,9212 Fisher-transzformáció z(0,9212) = 1,597


1-α/2=0,975 (Táblázat) z1-
α/2
=1,96

ralsó = 0,9205
Fisher-trf-ó inverze
zalsó= 1,597 -
0,0045=1,5925
Az elméleti lin. korrelációs együttható, 95%-os megbízhatósággal 0,9205 és 0,9219
közé esik. Szoros, pozitív irányú lin. kapcsolat van a változók között.
b. feladat megoldása

Az Internet-előfizetések száma (X) és a települési


könyvtárak beiratkozott olvasóinak száma közötti
tapasztalati korrelációs együttható 0,9212-ről 0,22-re
csökken, ha a lakosságszám hatását kiszűrjük.

A kapcsolat szorosságát csak a további feladatok alapján


lehet meghatározni!
c. feladat megoldása r=0,22
• Hipotézisek: n=1884
– H0: ρXY,V= 0
– H1: ρXY,V ≠ 0
• Próbafüggvény:

• Megtartási tartomány:
df=1881, 1-α/2=0,975
Tmegt (-tdf1-α/2; tdf1-α/2) = (-1,96 , 1,96)

• Döntés: Mivel 9,78 ∉ Tmegt, ezért H0-t elutasítjuk, a kapcsolat valós.


Megjegyzés

Parciális korrelációs együttható két változó


között nemcsak egy, hanem több változó
hatásának kiszűrése mellett is számolható!
Feladatok
Adatsor Treatment Age Gender Before

4.2. A NewDrug tábla adatai alapján 0 54 M 98,8

készítsen 95%-os 0 69 M 98,4

konfidencia-intervallumot a placebó 0 75 M 89,8

0 59 M 93,7
csoportban (treatment=0) a férfiak 0 48 M 95,2
(Gender=M) életkor (Age) és a kezdő 0 64 M 95

vérnyomás (Before) adata közötti 0 57 M 101,6

elméleti korrelációs együtthatóra. 0 65 M 101,2

Szövegesen értelmezze az 0 63 M 97,5

eredményeket. 0 68 M 96,6

0 64 M 99,5
Feladatok Treatment Age Gender Before After

Adatsor 1 60 M 92 85,2

1 57 M 109,6 94,2
4.3. A NewDrug tábla adatai
1 69 M 97,9 83,9
alapján vizsgálja meg, hogy a 1 62 M 96 85
kísérleti csoportban 1 62 M 91,7 87,9

(Treatment=1) van-e szignifikáns 1 64 M 98,6 84,6

kapcsolat a férfiak (Gender=M) 1 70 M 96,4 85,5

életkora (Age) és a kezdő 1 66 M 104,4 93

1 63 M 106,8 88,7
vérnyomása (Before) között.
1 69 M 111,5 86,5
Szövegesen értelmezze az 1 56 M 97,4 82,4

eredményeket. 1 46 M 98,1 83,8

1 64 M 99,1 86,3
Adatsor Feladatok
4.4. A tv_survey tábla adatai alapján határozza meg
• a fizetés (salary) és az előzetes munkatapasztalat (prevexp) közötti
tapasztalati korrelációs együtthatót,
• majd vizsgálja a fizetés (salary) és a tanulmányok (educ),
• valamint az előzetes munkatapasztalat (prevexp) és a tanulmányok
(educ) közötti tapasztalati korrelációs együtthatókat.

• Az eredményeket felhasználva számítsa ki a parciális korrelációs


együtthatót (salary,prevexp|educ) és végezze el a
szignifikanciatesztelését.
• Készítse el az elméleti korrelációs együttható
konfidenciaintervallumát (alfa=5%).
További feladatok
Adatsor
4.5. Az Exam tábla adatai alapján vizsgálja meg, hogy
a. milyen összefüggés van az 1. (exam=1) és a 2.
vizsga (exam=2) pontszámok (scores) között.
b. milyen összefüggés van az 1. (exam=1) és a 3.
vizsga (exam=3) pontszámok (scores) között.
Feladatok
Adatsor
4.6. a. A tv_survey tábla alapján
vizsgálja meg, hogy a jelenlegi fizetés
(salary) mely változóval mutat
legszorosabb korrelációt.
b. Végezze el a korrelációs
együttható szignifikanciatesztelését.
c. Készítse el a korrelációs együttható
konfidenciaintervallumát.
Feladatok
Adatsor
4.7. a. A tv_survey tábla alapján
vizsgálja meg, hogy a jelenlegi fizetés
(salary) mely változóval mutat
negatív korrelációt.
b. Végezze el a korrelációs
együttható szignifikanciatesztelését.
c. Készítse el a korrelációs együttható
konfidenciaintervallumát.
5. Lineáris regressziószámítás
Kétváltozós lineáris regresszió
függő változó független (magyarázó) változó
Két kvantitatív (magas mérési szintű) változó: X
és Y összefüggését vizsgáljuk
1. Milyen jellegű a kapcsolat? pontdiagram
2. Van-e (lineáris) összefüggés a két változó között? Milyen
szoros? korrelációsszámítás (r)
3. Jól leírja-e az összefüggést egy Y = mX + b lineáris (képlet)
függvény? lineáris regressziószámítás
Célja általában: ismert X érték esetén Y értékének
előrejelzése
Ismétlés: A lineáris függvény paraméterei

+ b
Y = mX
Ismétlés: A lineáris függvény paraméterei

+ b
Y = mX
m
Y 1
m: meredekség
b: Y-tengelymetszet
A lineáris regresszióelemzés során
• Adott minta
(pontfelhő) esetén a
“legjobb” egyenest kell
megtalálnunk
• a lineáris regressziós
egyenest Ŷ=b1 X + b0
alakban keressük
A “legjobb” egyenes meghatározása a mintából
• hibatag
(reziduum, reziduális
hiba)
A “legjobb” egyenes meghatározása a mintából
• hibatag
(reziduum, reziduális hiba)

• SSE = Σei2 reziduális hibák


négyzetösszege
A “legjobb” egyenes meghatározása a mintából
• hibatag
(reziduum, reziduális hiba)

• SSE = Σei2 reziduális hibák


négyzetösszege
• A legjobb egyenes az
SSE = Σei2 →min
szélsőértékfeladat
megoldásaként adódik ⇐Legkisebb négyzetek módszere
A “legjobb” egyenes meghatározása a mintából

⇐ az egyenes egyenlete
Jelölések, összefüggések a populációban
Mintában Populációban

• •

• • maradéktag/reziduális
változó (val. változó)

• • hibavariancia


b0 és b1 a β0 és β1 becslése a mintából.
Mintapélda
Egy vendéglátóhely által megfigyelt Napi Sörfogyasz-
10 nap adatai: átlaghőmérséklet (° tás (l)
C)
• Határozzuk meg a napi
18 250
átlaghőmérséklet és a
20 310
sörfogyasztás kapcsolatát
25 390
leíró lineáris regressziófüggvényt. 24 320
• Értelmezzük a függvény 22 330
paramétereit. 26 430
• Készítsünk sörfogyasztási 24 390
előrejelzést 21°C és 23°C 19 320
hőmérséklet esetén. 16 290
Előzmények: Közepesen szoros, pozitív
16 270
irányú lin. kapcsolat van!
xi yi dxi dyi dxi dyi dxi2 dyi2
18 250 -3,00 -80 240 9 6400
20 310 -1,00 -20 20 1 400
25 390 4,00 60 240 16 3600
24 320 3,00 -10 -30 9 100
22 330 1,00 0 0 1 0
26 430 5,00 100 500 25 10000
24 390 3,00 60 180 9 3600
19 320 -2,00 -10 20 4 100
16 290 -5,00 -40 200 25 1600
16 270 -5,00 -60 300 25 3600
Összesen: 210 3300 0 0 1670 124 29400
• A paraméterek becslése a mintából:

b0 = 330 − 13,4677 ⋅ 21 = 47,1783

• A lineáris regressziófüggvény egyenlete:


ŷ=13,47x + 47,18
A regressziós egyenes

ŷ=13,47x + 47,18
A regressziós paraméterek értelmezése
b0=47,18
0 °C napi átlaghőmérséklet esetén átlagosan
47,18 l sörfogyasztásra számíthatunk.

ŷ=13,47x + 47,18

b1=13,47
1 °C-kal magasabb hőmérséklet átlagosan
13,47 l-es fogyasztásnövekedést okoz.
Általánosan
b1: X változót 1 egységgel növelve az Y átlagosan
mennyivel változik
b0: Mennyi az Y változó átlagos értéke, az X
változó feltételezett 0 értéke esetén
Előrejelzés 21°C és 23°C hőmérséklet esetén
ŷ=13,47 x + 47,18
x=21 a regressziós egyenes
ŷ=13,47 ⋅ 21 + 47,18 = 330 átlagponton áthalad!

x=23
ŷ=13,47 ⋅ 23 + 47,18 = 356,94

21°C esetén 330 liter, 23°C esetén 357 liter a regresszióval


előrejelzett sörfogyasztás.
Lineáris regresszió Excellel
Adatok/Adatelemzés

b0
b
A regressziófüggvény vizsgálata
Vizsgálata a mintán (illeszkedés Vizsgálata a mintavételt
jósága) figyelembe véve
• Reziduumok ⇾ SSe⇾Reziduális • Paraméterek standard hibái
szórás (se) (a regr.becslés abszolút • Paraméterek konfidenciaintervallumai
hibája) • A regressziófüggvény eredményeinek
hipotézis-ellenőrzése
– t-próba: együtthatók
• A regressziófüggvény
szignifikanciája külön-külön
– F próba: a teljes
varianciafelbontása ⇾ hatásméret regressziófüggvény szignifikanciája
mutató (megmagyarázott/teljes):
determinációs együttható (r2)
becslése
A regressziófüggvény vizsgálata a
mintán
• Reziduumok:

• Reziduumok négyzetösszege:

• Reziduális szórás:
(a regr.becslés abszolút hibája)

• Relatív reziduális szórás: Ve=se /
reziduumok
xi yi ŷi = 13,47xi + 47,18 ei 2=(yi –ŷi)2 négyzete

18 250
20 310
25 390
24 320
22 330
26 430
24 390
19 320
16 290
16 270
Összesen: 210 3300
https://docs.google.com/spreadsheets/d/1lgXtwKrFe9feHvqtvjmbS8PUOi5vBZMvWKrR6xKg68M/edit?usp=sharing
xi yi ŷi ei 2=(yi –ŷi)2
18 250 289,64 1571,3296
20 310 316,58 43,2964
25 390 383,93 36,8449
24 320 370,46 2546,2116
22 330 343,52 182,7904
26 430 397,40 1062,7600
24 390 370,46 381,8116
19 320 303,11 285,2721
16 290 262,70 745,2900
16 270 262,70 53,2900
SSe
Összesen: 210 3300 ≈3300 6908,9
A regressziófüggvény vizsgálata a
mintán
• reziduumok négyzetösszege: A regresszióval becsült fogyasztás
értékek átlagosan 29,38 literrel
SSe= 6908,9 térnek el a megfigyelt fogyasztás
értékektől.

• reziduális szórás: se=√6908,9 / 8 =29,38

jobb lenne, ha nem literben, hanem


%-ban lenne...
A regressziófüggvény vizsgálata a
mintán
• reziduumok négyzetösszege:
SSe= 6908,9

• reziduális szórás: se=√6908,9 / 8 =29,38


• relatív reziduális szórás: Ve= se/ Ӯ = 29,38/330=0,0891
A regresszióval becsült fogyasztás
értékek átlagosan 8,9%-kal térnek
el a megfigyelt fogyasztás
értékektől.
A regressziófüggvény vizsgálata a
mintán
• A regressziófüggvény varianciafelbontása

• megmagyarázott/teljes variancia = determinációs együttható
(r2)
➢ az illeszkedés jóságát méri, hatásméret mutató
➢ azt mutatja, hogy az y-ban meglévő (teljes) variancia hány
százalékban magyarázható a regressziós modellel; a modell
magyarázóereje
A regressziófüggvény varianciafelbontása y-ban meglévő/teljes
y
eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2

yi

x
A regressziófüggvény varianciafelbontása
y

regresszió/modell
által magyarázott
eltérés-négyzetöss
Ӯ zeg:
SSr=Σ(ŷi-Ӯ)2

ŷ
x
A regressziófüggvény varianciafelbontása
y

yi

hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ
x
A regressziófüggvény varianciafelbontása

SSt SSr SSe


A regressziófüggvény varianciafelbontása y-ban meglévő/teljes
y eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2

regresszió/modell által
yi
magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
További összefüggések y-ban meglévő/teljes
y SSt=Σdyi2 eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2

regresszió/modell által
yi
magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
További összefüggések y-ban meglévő/teljes
y eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2

regresszió/modell által
yi
magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
2
SSe=Σei eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
További összefüggések y-ban meglévő/teljes
y eltérés-négyzetösszeg:
SSt=Σ(yi-Ӯ)2

regresszió/modell által
yi
SSr=SSt-SSe magyarázott
eltérés-négyzetösszeg:
SSr=Σ(ŷi-Ӯ)2
Ӯ
hiba okozta
eltérés-négyzetösszeg:
SSe=Σ(yi-ŷi)2
ŷ SSt=SSr+SSe
x
SSt=Σdyi2 = 29400

SSe=Σei2=6908,9 SSr=SSt-SSe=29400-6908,9=22491,1

23,5% 76,5%
r2
A sörfogyasztásban meglévő variancia 76,5% százaléka
magyarázható a regressziós modellel míg 23,5%-a nem
magyarázható azzal.
• r2 - tapasztalati determinációs együttható
SSt=Σdyi2 mutatója
• az illeszkedés jóságának = 29400
• itt éppen a korábban kiszámolt tap. korrelációs
2
SS =Σe
együttható
e i
=6908,9 SSr=SSt-SSe=29400-6908,9=22491,1
(r) négyzete!

r2
=22491,1 / 29400 = 0,765=76,5%

A sörfogyasztásban meglévő variancia 76,5% százaléka


magyarázható a regressziós modellel.
A regressziófüggvény vizsgálata a mintán - Excellel
Adatok/Adatelemzés/Regresszió

se

SSr
SSe
SSt

ŷi ei=yi-ŷi
Így kaptunk egy regessziós egyenest, mely elég
jól illeszkedik az adatsorunkra.
DE
Mivel ez csak egy mintából való becslés, így
hibával terhelt. A becsült paramétereink
szóródnak az elméleti paraméterek körül.
Számolnunk kell ezzel a (mintavételi) hibával is!
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: Paraméterek standard hibái
A becsült paraméterek ingadozását az elméleti
paraméterek körül, a szórásukkal mérjük, ez nem
más, mint a standard hiba:
Példa: xi yi ŷi ei 2=(yi –ŷi)2 x i2
18 250 289,64 1571,3296
20 310 316,58 43,2964
25 390 383,93 36,8449
24 320 370,46 2546,2116
22 330 343,52 182,7904
26 430 397,40 1062,7600
24 390 370,46 381,8116
19 320 303,11 285,2721
16 290 262,70 745,2900
16 270 262,70 53,2900
Összesen: 210 3300 ≈3300 6908,8966
Példa: xi yi ŷi ei 2=(yi –ŷi)2 x i2
18 250 289,64 1571,3296 324
20 310 316,58 43,2964 400
25 390 383,93 36,8449 625
24 320 370,46 2546,2116 576
22 330 343,52 182,7904 484
26 430 397,40 1062,7600 676
24 390 370,46 381,8116 576
19 320 303,11 285,2721 361
16 290 262,70 745,2900 256
16 270 262,70 53,2900 256
Összesen: 210 3300 ≈3300 6908,9 4534
Példa: A regressziós paraméterek standard
hibái
= 56,1991
A b0-ra vonatkozó becsült értékek átlagosan 56,2-vel térnek
el az elméleti paramétertől (ha a mintavételt végtelen
sokszor ismételjük).
= 2,6393
A b1-re vonatkozó becsült értékek átlagosan 2,6-tal
szóródnak a sokasági paraméter körül (ha a mintavételt
végtelen sokszor ismételjük).
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: Paraméterek intervallumbecslése

• β1 konfidenciaintervalluma:
(b1± t(n–2)1-α/2・ sb1)

• β0 konfidenciaintervalluma:
(b0± t(n–2)1-α/2 ・sb0)
Példa: a regressziófüggvény paramétereinek 95%-os
konfidenciaintervalluma

β1 konfidenciaintervalluma:
(n–2) (8) (Táblázat)
• t 1-α/2= t 0,975 = 2,306
• t(n–2)1-α/2・ sb1= 2,306 ・2,6393 = 6,0862
• (13,47 ± 6,0862 ) = (7,38; 19,56)

A sokasági β1 paraméter 95%-os megbízhatósággal a


(7,38; 19,56) intervallumba esik.
Példa: a regressziófüggvény paramétereinek 95%-os
konfidenciaintervalluma

β0 konfidenciaintervalluma:
• t(n–2)1-α/2= 2,306
• t(n–2) ・ s = 2,306 ・56,1991 = 129,5951
1-α/2 b0
• (47,18 ± 129,5951 ) = (-82,42; 176,78)

A sokasági β0 paraméter 95%-os megbízhatósággal a


(-82,42;176,78) intervallumba esik.
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: A regressziófüggvény eredményeinek
hipotézis-ellenőrzése
Feltételek:
vizsgálata:
• reziduumok (ei) eloszlása normális
reziduumok
(0 várható értékkel, cnst szórással)
- eloszlásának
• reziduumok korrelálatlanok nincs
autokorreláció
vizsgálata
Durbin-Watson (hisztogram, Q-Q
teszttel vizsgálható
plot)
- ábrázolása xi
függvényében
reziduumok reziduumok
- eloszlásának vizsgálata - ábrázolása xi
(hisztogram, Q-Q plot) függvényében

ha a pontfelhő
normalitás teljesül? véletlenszerűséget mutat -> a
v.é. 0? szórás cnst.
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: A regressziófüggvény eredményeinek
hipotézis-ellenőrzése
Feltételek:
• reziduumok eloszlása normális
(0 várható értékkel, cnst szórással)
• reziduumok korrelálatlanok
Próbák:
➔ t-próba: β1 együttható szignifikanciája*,
X és Y között tényleg van-e kapcsolat?
➔ F próba: a teljes regressziófüggvény
szignifikanciája**, kellenek-e további változók a
modellbe, vagy elegendő?
*Többváltozós esetben a β1, β2, β3, … tesztelése külön-külön
**Itt megegyezik a t-próbával, többváltozós esetben H0: β1 =β2 =β3=...= 0
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: t-próba ー a β1 együttható
szignifikanciaellenőrzése
• Hipotézisek
– H0: β1 = 0 (a lineáris kapcsolat nem valós)
– H1: β1 ≠0 (a lineáris kapcsolat valós)
• Próbafüggvény: n-2 szabadságfokú
t-eloszlást követ, ha H0
fennáll
• Megtartási tartomány: Tmegt( - t(n–2)1-α/2; t(n–2)1-α/2)
• Döntés: Ha t ∉Tmegt, akkor H0-t elutasítjuk, a β1
együttható szignifikáns, a lineáris kapcsolat valós.
A regressziófüggvény vizsgálata a mintavételt is
figyelembe véve: F-próba ー a regresszió
szignifikanciaellenőrzése
• Hipotézisek
– H0: β = 0 (a modellünk nem szignifikáns) (1; n-2) szabadságfokú
1
– H1: β ≠0 (a modell szignifikáns)
1
F-eloszlást követ, ha H0 fennáll

• Próbafüggvény: vagy

• Megtartási tartomány: Tmegt(0; F(1; n–2)1-α)


• Döntés: Ha F ∉Tmegt, akkor H0-t elutasítjuk, a modell
szignifikáns.
Szórásfelbontás (varianciafelbontás)
táblázat
A szóródás oka Eltérés- Szabadság-fok Átlagos F
négyzet- (df) négyzet-
összeg (SS) összeg
(MS=SS/df)
Regresszió SSr 1 MSr=SSr /1 MSr / MSe

Maradék SSe n-2 MSe=SSe /(n-2)


Összesen SSt=SSr+SSe n-1
Példa: t-próba
• Hipotézisek
– H0: β1 = 0
– H1: β1 ≠ 0
• Próbafüggvény: t = 13,47 / 2,6393 = 5,1036
• Megtartási tartomány:
1-α/2 = 0,975
df=8
t(8)0,95 = 2,3060 (Táblázat)
Tmegt(-2,306; 2,306)
• Döntés: Mivel t ∉ Tmegt, H0-t elutasítjuk, a magyarázó
változó szignifikáns, a lineáris kapcsolat valós.
Példa: F-próba
• Hipotézisek
– H0: β1 = 0
– H1: β1 ≠ 0
• Próbafüggvény:
• Megtartási tartomány:
1-α = 0,95
df1=1, df2=8
F(1, 8)0,95 = 5,318 (Táblázat)
Tmegt(0; 5,318)
• Döntés: Mivel F ∉ Tmegt, H0-t elutasítjuk, a modell
szignifikáns.
A regressziófüggvény vizsgálata - Excellel
Adatok/Adatelemzés/Regresszió

F-próba a
regressziós modell
szignifikancia-
ellenőrzésére

β0 konfidencia-
intervalluma

sb0 t-próba a β1
β1 konfidencia-
sb1 együttható intervalluma
szignifikancia-
ellenőrzésére
Feladatok
5.1. Hat hallgatót megkérdezve a matematika Szintfelmérő Mat.Stat.1.
szintfelmérő és az első féléves Mat. Statisztika
eredményükről, a következő adatok adódtak: eredmény (%) eredmény
a.Készítsen ábrát a két eredmény közötti (%)
összefüggés vizsgálatára.
35 32
b.Határozza meg a tapasztalati
regressziófüggvényt és értelmezze paramétereit. 48 44
c.Számítsa ki és értelmezze a reziduális szórást. 50 54
d.Határozza meg a regressziós modell
magyarázóerejét. 78 61
e.Készítse el a regressziófüggvény 64 76
varianciafelbontását.
85 81
f.Becsülje meg, a regressziófüggvény
segítségével, egy 75%-os szintfelmérő
eredményű hallgató Mat.Stat.1. eredményét!
Feladatok Életkor Futott kilométer Eladási ár
5.2. 15 elemű minta alapján vizsgálták adott (év) (ezer km) (MFt)
típusú új és használt gépkocsik életkora és
eladási ára valamint futott kilométere és eladási
0 0 5,2
ára közötti kapcsolatot.
1 59 2,8
a. Jellemezze tapasztalati lineáris 1 40 3,2
regressziófüggvénnyel az arra alkalmasabb 2 79 2,5
kapcsolatot (ábra alapján döntsön)! 2 92 2,4
b. Ábrázolja a regressziófüggvényt, majd 3 81 2,2
értelmezze paramétereit! 3 92 1,9
c. Becsülje meg, a regressziófüggvény 4 105 1,6
segítségével, egy 8 éves, vagy 160 ezer
5 97 1,5
kilométert futott, ugyanilyen típusú gépkocsi
6 120 1,4
eladási árát!
d. Számítsa ki és értelmezze a reziduális szórást. 7 140 1,2
9 157 1,0
e. Határozza meg a regressziós modell
magyarázóerejét. 11 220 0,9
12 210 1,3
f. Készítse el a regressziófüggvény
varianciafelbontását. 12 230 0,7
Feladatok
5.3. Egy budapesti ingatlanügynök 2007 márciusában
vizsgálta a körzetében eladó 63 m2-es lakások adatait:
a. Írja le a lakás emeleti elhelyezkedése és a kínálati ára
közötti kapcsolatot a tapasztalati regressziófüggvény
segítségével.

b. Számítsa ki a paraméterek standard hibáit, ha


∑ei2 = 189,5153.
c.Készítse el a paraméterek 95%-os konfidenciaintervallumát.
d.Végezze el a regressziófüggvény eredményeinek
hipotézis-ellenőrzését.
e.Értelmezze a kiszámolt mutatókat és paramétereket!
Emelet Kínálati ár

Feladatok
(millió Ft)
0 15,8
1 17,6
5.3. (Exceles verzió) Egy budapesti ingatlanügynök 1 19,5
2007 márciusában vizsgálta a körzetében eladó 63 1 25,9
m2-es lakások adatait: 2 19,2

a. Írja le a lakás emeleti elhelyezkedése és a kínálati 2 20,0


2 22,6
ára közötti kapcsolatot a tapasztalati
2 23,9
regressziófüggvény segítségével.
2 25,5
b. Számítsa ki a paraméterek standard hibáit. 3 21,3
c.Készítse el a paraméterek 95%-os 3 21,5
konfidenciaintervallumát. 4 23,5
d.Végezze el a regressziófüggvény eredményeinek 4 28,0
hipotézis-ellenőrzését. 4 21,5

e. Értelmezze a kiszámolt mutatókat és 5 21,0


5 21,9
paramétereket!
5 26,7
6 26,7
6 33,9
Adatsor Feladatok
5.4. A tv_survey adatbázis felhasználásával készítsünk lineáris
regressziós modellt a fizetés (salary) becsléséhez. Az alábbi magyarázó
változók közül válasszuk ki a legjobbat:
• oktatás (education),
• kezdőfizetés (salbegin),
• munkatapaztalat (prevexp)
a. Számítsa ki és értelmezze a reziduális szórást.
b. Határozza meg a regressziós modell magyarázóerejét.
c. Készítse el a regressziófüggvény varianciafelbontását.
d. Számítsa ki a paraméterek standard hibáit.
e.Készítse el a paraméterek 95%-os konfidenciaintervallumát.
f.Végezze el a regressziófüggvény eredményeinek hipotézis-ellenőrzését.
g. Értelmezze a kiszámolt mutatókat és paramétereket!
Saját megoldások
Többváltozós lineáris regresszió és
dummy változók
Többváltozós regresszió
Egyszerre több magyarázó változó (X1, X2, X3, …) is
bevonható az elemzésbe, ekkor
• A tapasztalati lineáris regressziófüggvény:

ŷ=b0+b1x1+b2x2+b3x3+...

• bi -k neve itt: parciális regressziós együtthatók


Többváltozós regresszió
• b0 értelmezése: Ha minden magyarázó változó értéke 0,
akkor átlagosan mennyi az Y függő változó értéke

• Az egyes magyarázó változók regressziós együtthatóinak


(b1, b2, b3, …) értelmezése:
Ha az adott magyarázó változó egy egységgel nő,
mennyivel változik átlagosan az Y függő változó értéke,
úgy, hogy közben a többi magyarázó változó értékét
állandó szinten tartjuk
Többváltozós regresszió
• plusz feltétel: a magyarázó változók egymástól függetlenek legyenek, ne legyen
multikollinearitás
Értelmezések:
• r2: Y-ban meglévő variancia hány százalékban magyarázható a regressziós
modellel*
• adjusztált/korrigált r2 (adjusted r2): mivel r2 a mintára vonatkozik, a reális
képhez korrekcióra van szükség (inkább ezt értelmezzük!)
• standardizált regressziós (β) együtthatók (standardized beta): az egyes
változók fontosságának összehasonlítására. A legnagyobb (abszolútértékű)
standardizált bétájú változó a modell legfontosabb magyarázó változója.
• t próbák: a változók szignifikanciája a modellben (ha sig. < 0.05, akkor
szignifikáns)
• F próba: a modell szignifikanciája (ha sig. < 0.05, akkor szignifikáns)

*itt determinációs együttható ≠ az r négyzete


Példa: Többváltozós regresszió paramétereinek értelmezése: a
fizetés függése munkatapasztalattól és a kezdőfizetéstől
FIZETÉS = 278 450 + 49 720⋅Tapasztalat + 1,24⋅Kezdőfiz.
b0 b1 b2
b0=278 450
Munkatapasztalat nélkül és 0 Ft kezdőfizetéssel (elképzelhető, hogy van
ilyen) a regr.szerint 278 450 Ft lenne a fizetés a cégnél.
b1=49 720
Egy évvel nagyobb munkatapasztalat esetén a regr. szerint 49 720 Ft-tal
magasabb a fizetés, változatlan kezdőfizetés esetén.
b2=1,24
Egy Ft-tal nagyobb kezdőfizetés esetén a regr. szerint 1,24 Ft-tal magasabb a
fizetés, ha a munkatapasztalat változatlan.
Dummy változó a regresszióban
• Alacsony mérési szintű magyarázó* változók szerepeltethetők a
lin. regressziós modellben, de speciális kódolás szükséges =
dummy kódolás
Bináris esetben a dummy változó értéke 0, ha a megfigyelés az
egyik kategóriába esik 1, ha a másikba (más kódolás itt nem jó!)
• Pl. nem változó esetén így kódolok: Válaszadó ID-ja Neme D_nem

123 nő 0
nő: 0, ffi: 1,
(vagy fordítva: nő: 1, ffi=0) 124 nő 0

125 férfi 1

*Ha a függő változó nominális, akkor logisztikus regressziós modellel dolgozunk (itt nem tanuljuk).
Dummy változó a regresszióban
2-nél több kategóriájú alacsony mérési szintű magyarázó
változó esetén a dummy kódoláshoz k kategória esetén k-1 db
dummy változó szükséges.
• Pl. végzettség változó esetén így kódolok:
3 kategória ->2 dummyt használok: Válaszadó végzettség D_kozep D_felso
D_kozep, D_felso (az alapfok pedig a referencia ID-ja
kategória lesz)
123 felsőfok 0 1
felsőfokú végz esetén: D_felso=1 (D_kozep=0)
középfokú végz. esetén: D_kozep=1 (D_felso=0) 124 középfok 1 0
alapfokú végz. esetén: D_kozep=0, D_felso=0
125 alapfok 0 0
Dummy változó a regresszióban
Dummy magyarázó változó regressziós együtthatóinak
értelmezése:
• b0: mekkora a függő változó átlaga a 0-val kódolt
(referencia) kategóriában
• b1: mekkora a különbség a két kategória (a “kihagyott” és a
szóban forgó) Y változóra vonatkozó átlaga között
Példa: Bináris dummy magyarázó változós regresszió
paramétereinek értelmezése: a fizetés függése a nemtől
FIZETÉS = 260 320 + 154 090⋅NEM (nő: 0, férfi: 1)

b0=260 320
Nők körében átlagosan 260 320 Ft a fizetés.

b1=154 090
A férfiak körében átlagosan 154 090 Ft-tal magasabb a fizetés, mint
nők körében.
Példa: Dummy (nem bináris) magyarázó változós regresszió
paramétereinek értelmezése: a fizetés függése a munkakörtől
FIZETÉS = 278 450 + 45 960⋅D_biztonsagi + 361 320⋅D_vezeto
munkakör: irodai, biztonsági, vezető
b0=278 450
Az irodai alkalmazottak átlagos fizetése 278 450.

b1=45 960
A biztonsági dolgozók átlagosan 45 960 Ft-tal többet keresnek, mint az
irodai alkalmazottak.
b2=361 320
A vezetők átlagosan 361 320 Ft-tal többet keresnek, mint az irodai
alkalmazottak.
Példa: Többváltozós, dummyt is tartalmazó regresszió paramétereinek
értelmezése: a fizetés függése a munkakörtől a nemtől és a
munkatapasztalattól
FIZETÉS = 158 670 + 55 480⋅D_biztonsagi + 281 500⋅D_vezeto + 121 000⋅NEM + 48 320⋅Tapasztalat
munkakör: irodai, biztonsági, vezető
nem: nő:0, ffi:1
b =158 670
0
Unstandardized Standardized
0 év tapasztalattal t
rendelkező, Sig. alkalmazottak átlagos fizetése
női, irodai
Coefficients 158 670Ft.Coefficients

Model B b1=55
Std. Error480 Beta
A biztonsági dolgozók átlagosan 55 480 Ft-tal többet keresnek, mint az irodai
alkalmazottak (ha minden más változatlan).
(Constant) 158 670
b2=281 500
BIZTONSÁGI
A vezetők átlagosan 281 500 Ft-tal többet keresnek, mint az irodai alkalmazottak
55 480 (ha minden más változatlan).
VEZETŐ 281 500 b3=121 000
A férfiak átlagosan 121 000 Ft-tal többet keresnek, mint a női alkalmazottak (ha
minden más változatlan).
NEM 121 000
b4=48 320
Egy évvel nagyobb munkatapasztalat esetén átlagosan 48 320 Ft-tal magasabb a
Tapasztalat 48 320 fizetés, változatlan munkakör és nem mellett.
Kitekintés: Nemlineáris regresszió
• Ha X és Y összefüggése nem lineáris
– úgy transzformáljuk az értékeket, hogy lineárissá váljon
– nemlineáris regressziót futtatunk
A regressziós modellezés menete
• Változók köre
– mit gondolunk; mi az elemzés célja; mit tudunk a szakirodalomból?
• Scatterplot
– kiugró értékek
– függvénytípus (lineáris, nemlineáris)
• Korrelációk
– X-ek és Y között (követelmény)
– X-ek között (multikollinearitás<-nem jó!),
• Regressziós elemzés elvégzése
– modell (együtthatók, standardizált együtthatók), r2
– reziduumok vizsgálata, paraméterek konf.intervalluma és
hipotézisellenőrzések
Feladatok
5.5. Írja fel a regressziófüggvényt és értelmezze a lineáris regressziófüggvény
paramétereit.
Melyik változó tölt be legfontosabb szerepet a vizsgaeredmény
magyarázatában?
Változók:
VIZSGA: vizsgaeredmény (pont)
ZH: ZH eredmény (pont)
SZINTFELM: szintfelmérő eredmény (pont)
D_TAG: Dummy változó a tagozathoz 0: levelező, 1: nappali
Adatsor Feladatok
5.6. A tv_survey adatbázis felhasználásával készítsünk lineáris
regressziós modellt a fizetés (salary) becsléséhez, a magyarázó
változók:
• oktatás (education), kezdőfizetés (salbegin), munkatapaztalat
(prevexp)
Vizsgáljuk a paraméterek szignifikanciáját.
Értelmezzük a paraméterket.
Adatsor Feladatok
5.7. A tv_survey adatbázis felhasználásával készítsünk Dummy változót
a nemből (gender) és készítsünk lineáris regressziós modellt a fizetés
(salary) becsléséhez, a magyarázó változók:
• oktatás (education), kezdőfizetés (salbegin), munkatapaztalat
(prevexp), nem (gender)
Vizsgáljuk a paraméterek szignifikanciáját.
Értelmezzük a paraméterket.
Összefoglalás
Mat.stat. 2-3.
“Az empirikus kutató mindig a
populációról szeretne valamit megtudni,
a belőle véletlenszerűen választott
minta alapján.” (Vargha, 2015)
Megfigyelési egységek, populáció, minta
?

staövetk
k
t. ezt
mintavétel

tése
http://analytics-magazine.org/wp-content/uploads/2017/11/FTR03_Sampling-Population-Cloud-68635256-iamnee.jpg

*túl nagy, vagy végtelen


Következtető statisztikai módszerek
Egyszerre több
Egy változó Két változó változó a modellben

Paramétereinek Eloszlásának Ugyanakkoraságának Kapcsolatának Kapcsolat-


vizsgálata vizsgálata vizsgálata vizsgálata vizsgálat

Hipotézis- Paraméterek Eloszlások


Becslés egyenlősége
vizsgálat egyezése

https://jamboard.google.com/d/1zb9XSamDF68-WE0koF3r6klhl5cxIbJsfGCGQwoGBec/edit?usp=sharing
Kitekintés
● Faktoranalízis módszercsalád
○ itemek csoportosítása egymástól fgtlen faktorokba
● Klaszteranalízis módszercsalád
○ osztályozó eljárás, egyedek hasonlóság szerinti csoportosítása
● Idősorelemzés
○ Idői folyamatok elemzésére szolgál, pl. trendszámítás
● Nemlineáris regresszió
● Előző módszerek kombinációja
○ Pl. útelemzés (path analysis): regresszió és faktoranal.
● ...

You might also like