You are on page 1of 269

Összefüggések statisztikai

elemzése
Felépítés
Ebben a félévben a JASP statisztikai programcsomagot fogjuk
megismerni. Ehhez a hozzáférés ingyenes, mindenki telepítheti a saját
gépére. A telepítés módjáról még később lesz szó.
A JASP használata szorosan összefügg az excel használatával, tehát
annak ismerete elengedhetetlen.
Tananyag, segédanyagok
Alapvetően a követelmény az itt elhangzottak, bemutatott eljárások.
Szükség van hozzá az előző félévben megszerzett tudásra, arra gyakran
fogok hivatkozni.
Segítségünkre lesz egy honlap.
Stathelp.hu
Ennek kidolgozója Soltész Várhelyi Klára, MA képzésen
megismerkednek majd vele, de addig is megismerhetik a videókból
Tematika
Mi az, ami belefér a mostani félévbe? (Azt tudják, hogy következő
félévben ennek folytatása lesz)
JASP felületének megismerése
Adatbázis létrehozása
Leíró statisztikák kikérése
Diagramok megismerése
Adattisztítás – hibák keresése, javítása
Adattisztítás – outlierek keresése, kezelése
A próbák feltételeinek ellenőrzése – kiemelten a normális eloszlás
Kapcsolat típusú kérdésre hipotézisvizsgálat…
Számonkérés
Két házi feladatot kell elkészíteniük a félév során. Az elsőt a hetedik
héten, tehát április 17-21.
A másodikat május 15-19-i héten.
A kérdéseket a Teamsen fogják megkapni. Természetesen szükségük
lesz a JASPra, a feladatokat azzal kell megoldani. A válaszokat is ott
(Teams) kell majd megadni.
Mindkét házi feladatra 25 pontot lehet kapni, tehát összesen 50-et. A
két házi feladatból el kell érni 50%-ot, azaz 25 pontot, ez a félév végi
aláírás feltétele. Persze az is, hogy max 3 hiányzás.
Az utolsó héten írni fognak egy zh-t. Ez papír/ceruza. Tehát elméleti zh
A zh-ra szintén 50 pont kapható, amiből szintén el kell érni az 50%-ot,
hogy érvényes gyakorlati jegyet kaphassanak.
Értékelés
Tehát van házikból 25-50 pontjuk, zh-ból 25-50 pontjuk. A kettő összege
fogja meghatározni a gyakorlati jegyet
>50%-60% elégséges
>60%-75% közepes
>75%-90% jó
>90% jeles
JASP letöltése
A már emlegetett stathelp.hu oldalon van egy videó, ami bemutatja a
JASP letöltését. A videó a 13-as verzió letöltését követi végig. Azóta
megjelent a 17-es is, azt fogjuk használni, annak letöltése teljesen
ugyanaz a folyamat.
https://www.youtube.com/watch?v=zwZgDGFO3zI&feature=youtu.be

Ezt csinálják meg a saját gépükre és legyen excel is a gépen. Így tudnak
majd otthon gyakorolni és a házi feladatot megcsinálni
Összefüggések statisztikai
elemzése
BBNPS01000

Statisztikai alapfogalmak:
1. Leíró statisztikák
Elmélet
A statisztika azért van, hogy megállapítsd elhiheted-e a mért mintában talált hatásokat a populációban is létezőnek.

Adatfeldolgozás
Adatok felkészítése a statisztikai elemzésekre, hibák, outlierek szűrése.
A próbák végzése feltételekhez kötődik majd. Megbeszéljük a négy leggyakrabban előforduló feltétel ellenőrzésének módjait (függetlenség, skála típusosság, normalitás és
szóráshomogenitás)

Statisztikai próbák

Változók közötti kapcsolat vizsgálata Minták közötti különbség vizsgálata


Van összefüggés a szubjektív jólét és az önismeret közt? Különbözik-e férfiak és nők szorongásértéke? És biztonságosan, elkerülő vagy ambivalensen
Parametrikus Pearson Nem parametrikus Spearman kötődő személyek párkapcsolati elégedettsége? Magasabb-e tréninget követően az
korreláció korreláció, Kendall-féle tau önismeret?

1 minta és konstans
2 minta különbsége Kettőnél több minta Különbsége
különbsége
Parametrikus
Egymintás t-próba

Segítség: Összefüggő minták Független minták Összefüggő minták Független minták


Parametrikus Parametrikus Parametrikus
Parametrikus Független
Kék: megváltozás Összefüggő mintás t-
mintás t-próba
Repeated Measures ANOVA One-Way ANOVA
próba
Nem parametrikus Nem parametrikus
Nem Nem parametrikus Kruskal-Wallis teszt
Zöld: különbség Friedman ANOVA
parametrikus Mann-Whitney, Kolmogorov
Wilcoxon előjeles rang Smirnov Z, Moses extereme
teszt, McNemar teszt reaction, Khi2
Populáció és minta
Miért csak valószínűségekről beszélhetünk?
“In God we Trust, all others bring data.”
W. Edwards Deming .
A kutatások legnagyobb dilemmája

következtetés Minta, melyet mérni tudunk


a populációra 𝑥ҧ - mintaátlag
(ezt tudjuk mérni)

mintavétel

Populáció, amire a tudományos kérdés vonatkozik


µ - populációátlag (várható érték)
Erről akarunk valamit megtudni
(az ábrát még kiegészítjük néhány diával később, ne ez alapján tanuld meg!)
Populáció és minta
• Populáció
• A kutatási kérdésben meghatározott tulajdonságoknak megfelelő összes elemek halmaza
• Hipotézis: Különbség van férfiak és nők magassága között -> Populáció: A világ összes férfijának és
nőjének magassága
• A populációt általában nem lehet vizsgálni, mert
• túl nagy ahhoz, hogy minden elemét lemérjük
• nem minden eleme elérhető számunkra

• Minta
• Populációból választott kezelhető méretű rész
• A minta reprezentálja a populációt: a mintában mért hatásokból
(különbségek, összefüggések) következtetünk a populációban meglévő hatásokra
• Fontos, hogy a minta jól reprezentálja a populációt

• Egyed (mintaelem)
• A populáció egyedekből épül fel
• A populációból kiválasztott egyedek alkotják a mintát, őket mérjük le
Elsőfajta hiba

Nem találtunk Nem találtunk Nem találtunk Nem találtunk Nem találtunk Különbséget találtunk,
különbséget különbséget különbséget különbséget különbséget és tévedtünk
Második fajta
hiba

Kimutatjuk a Kimutatjuk a Kimutatjuk a Kimutatjuk a Kimutatjuk a Nem találunk különb-


különbséget különbséget különbséget különbséget különbséget? séget, és tévedtünk
Populáció és minta
Leíró statisztikák

Következtető
statisztikák -
következtetés Minta, melyet mérni tudunk
a populációra 𝑥ҧ - mintaátlag
(ezt tudjuk mérni)
Random
mintavétel

Populáció, amire a tudományos kérdés vonatkozik


µ - populációátlag (várható érték)
Erről akarunk valamit megtudni
(Annette Kopp-Schneider ábrája alapján)
Általános statisztika – Adatok kezelése

populáció
statisztikai
következtetés

adatok = minta

Ennek a piros nyílnak a megismerése az egész féléves feladatunk.


- A végtelent nem tudjuk vizsgálni
- Gyakran nem is létezik, fiktív (pl lázcsillapító)

Tehát a mintának reprezentálni kell a változót.


Általános statisztika – Mintavétel

A mintának reprezentálni kell a változót, ehhez


véletlen
különböző mintavételi módok
tudni kell, hogy miket lehet a mintából kiszedni

Statisztika

Leíró statisztika Statisztikai következtetések

Becslés Következtetések
A mintából
Hipotézisvizsgálat
ismert
Kvalitatív következtetés
dolgokat
általánosítja
Erre vannak a stat próbák
a változóra
kvantitatív
Leíró statisztikák
Mi van a mintában?
Statisticians are pleasant folks – even the mean ones are quite nice..
Pszichometriai skálák = mérési szintek (Stevens)
Egy pszichológiai mérés során a vizsgált személy „viselkedését
számszerűsítjük”. Ebből kapjuk a változóinkat. A mérés mindig egy
pszichológiai kontinuum fölött történik, tehát (általában) folytonos. Mégis az
adataink különböző tulajdonságúak lehetnek. Nem akarunk, vagy nem tudunk
„jobban” mérni.
 Megállapítható, kategóriákba sorolható, diszkrét értékeket felvevő
 Rangsorolható (folytonos)
 Mérhető – normális eloszlást követ-e?
Pszichometriai skálák = mérési szintek
1. Nominális skála – besoroló
- kategóriás, ha nincs sorrend
- megállapítható
tulajdonságok: 𝑥=𝑦 𝑥≠𝑦
Pl: nemek
hajszín
földrész
foglalkozás
vércsoportok
személyi szám
telefonszám....
Pszichometriai skálák = mérési szintek
2. Ordinális skála – rendező
- kategóriás, ha van sorrend
tulajdonságok még: 𝑥<𝑦 𝑥>𝑦
Pl: iskolai végzettség
rendfokozat
testmagasság (tornasor)
attitüd…
Pszichometriai skálák = mérési szintek
3. Intervallum skála – egyenletes
- egyforma lépésköz
tulajdonság még: 𝑥 − 𝑦 𝑦 − 𝑥 az adatok közti
különbség nagysága is értelmezhető, nincs absz. „0” pont, azaz nincs egység,
arányokat nem fejezhetünk ki. A 0 pont a tulajdonság teljes hiányát, ill.
minimumát kell, hogy kifejezze.
Pl: hőmérséklet °C-ban vagy °F-ben
időszámítás
Miért: 0 °C nem azt jelenti, hogy annál hidegebb nem lehet, azt meg végképp
nem, hogy nincs hőmérséklet. Mit mutat:
5°C-8°C uannyi a különbség, mint 19°C-22°C
De! 1°C – 10°C nem annyiszor melegebb, mint 5°C – 50°C
Pszichometriai skálák = mérési szintek
4. Arányskála – mérőskála
viszonyskála
ratio
𝑦Τ
tulajdonságok még: 𝑥Τ𝑦 𝑥 van 0 pont
Pl: testmagasság
testsúly (tömeg)
reakció idő
elszívott cigaretták száma
vérnyomás
hibák száma
hőmérséklet Kelvin fokban…
A mért változók

• Mérési szint:
• Nominális / kategoriális – diszkrét kategóriák, melyek nem rendezhetőek semmilyen
sorrendbe (nem)
• Ordinális – nagyság szerint sorrendbe rakható, de nincs információ a rangsor tagjai
közötti különbségekről (elvégzett iskolák)
• Skála típusú változó – az elemek sorba rendezhetőek, az elemek közötti különbség,
arány is kifejezhető
• Intervallum skála – nincs természetes nulla pont (dátumok)
• Arányskála – van természetes nulla pont (magasság)
Lásd még: valtozo_tipusok.pdf
skálázás
Milyen skála?
(nominális, ordinális, intervallum, arány)

• 1. A személyek neme
• 2. A személyek kora
• 3. Hőmérséklet Celsiusban
• 4. A személyek neve
• 5. Iskolai osztályzat
• 6. IQ
• 7. Katonai rang
• 8. Hőmérséklet Kelvinben
• 9. Betegség stádiuma
• 10. Tömeg
• 11. Foglalkozás
• 12. Részecskeszám
• 13. Elvégzett iskolák
• 14. Telefonszám
• 15. Hány A betűvel kezdődő szót tudsz
mondani 1 perc alatt
• 16. Az óra kezdete óta eltelt idő
• 17. Fizetés
• 18. Naptári napok
skálázás
Milyen skála?
(nominális, ordinális, intervallum, arány)

• 1. A személyek neme  1. N
• 2. A személyek kora  2. A
• 3. Hőmérséklet Celsiusban  3. I
• 4. A személyek neve  4. N
• 5. Iskolai osztályzat  5. O
• 6. IQ  6. O
• 7. Katonai rang  7. O
• 8. Hőmérséklet Kelvinben  8. A
• 9. Betegség stádiuma  9. O
• 10. Tömeg  10. A
• 11. Foglalkozás  11. N
• 12. Részecskeszám  12. A
• 13. Elvégzett iskolák  13. O
• 14. Telefonszám  14. N
• 15. Hány A betűvel kezdődő szót tudsz  15. A
mondani 1 perc alatt
• 16. Az óra kezdete óta eltelt idő  16. A
• 17. Fizetés  17. A
• 18. Naptári napok  18. I
Leíró statisztika
Azt fogjuk átismételni, hogy milyen fogalmakat tanultunk ehhez a
témakörhöz (középértékek, szóródási mutatók…..)
Ismerjük ezek számolási módját, amire itt a hangsúlyt fektetjük, hogy
nagyobb minták esetén hogyan viselkednek ezek a mutatók. Mi van, ha
egységes (homogén) a minta, mi van, ha szélsőséges értékek is
szerepelnek benne?
Elemszám, minimum, maximum

• Példa: statisztika tanárok barátai: 2, 3, 1, 3, 4


• Elemszám
• Minta esetében jelölése n vagy N
• Példában: N = 5 1 3
2 4
• Minimum 3
• Jelölése: Min
• Példában: Min = 1
• Maximum
• Jelölése: Max
• Példában: Max = 4
Közönséges, számtani átlag
Olyan középérték kell, ami minden elemet figyelembe vesz

𝒙
෍ 𝑥𝑖 − 𝑥ҧ = ෍ 𝑥ҧ − 𝑥𝑖
𝑥𝑖 >𝑥ҧ 𝑥𝑖 <𝑥ҧ

෍ 𝑥𝑖 − 𝑥ҧ − ෍ 𝑥ҧ − 𝑥𝑖 = 0
𝑥𝑖 >𝑥ҧ 𝑥𝑖 <𝑥ҧ

෍ 𝑥𝑖 − 𝑥ҧ + ෍ 𝑥𝑖 − 𝑥ҧ = 0
𝑥𝑖 >𝑥ҧ 𝑥𝑖 <𝑥ҧ

σ 𝒙𝒊
ഥ =𝟎
෍ 𝒙𝒊 − 𝒙 ഥ=
𝒙
𝒏
Elhelyezkedési mutatók: Átlag
• Átlag
• Statisztikában általában a számtani átlagot használjuk.
• A mintaátlag jelölése: a képletekben xത, a statisztikai közlésben M (mint Mean)
σ 𝑥𝑖 2+3+1+3+4
• Számolása: 𝑥ҧ = Példában: 𝑥ҧ = = 2,6
𝑛 5

• A mintaátlagból következtetünk a populációátlagra, melynek értékét nem ismerjünk.


• Populációátlag: a populáció központi tendenciáját leíró paraméter, jelölése µ (mű)
• Mikor működik jól az átlag?
• Csak skála típusú változókon számolható (ordinális változókon nem)
• Szimmetrikus eloszlások esetén működik.

10 x̅ = 14 Előző példában, ha jön egy új tanár 17


8 x̅out = 16,02
baráttal, akkor az átlagot felviszi 5-re
Gyakoriság

0
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Elhelyezkedési mutatók: Medián
• Medián
• Az az érték, melynél az elemek legfeljebb 50%-a nagyobb és legfeljebb 50%-a kisebb
• Jelölése: Mdn
• Számolása: Sorba rendezzük a minta elemeit, majd ha páratlan számú a minta, akkor a medián a
középső elem, ha páros, akkor a két középső elem átlaga Mdn = 3

• Statisztika tanárok barátainak száma: 2, 3, 1, 3, 4 -> Sorba rendezve: 1, 2, 3, 3, 4


• Pszichológia tanárok barátainak száma: 3, 5, 3, 4, 2, 6 -> Sorba rendezve: 2, 3, 3, 4, 5, 6
3+4
Mdn = = 3,5
• Mikor előnyösebb a használata az átlagnál? 2

• Ordinális adatok (de működik folytonos adatokon is), ferde eloszlás, outlierek esetén

10 Mdn = 14 = Mdnout
8
Előző példában, ha jön egy új tanár 17
baráttal, akkor a medián 3 marad
Gyakoriság

6 Outlierekre nagyon kevéssé érzékeny


4 1 2 3 3 4 17
2

0
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Elhelyezkedési mutatók: Módusz
45

• Módusz 40
35
30
• A legdivatosabb, leggyakrabban előforduló érték.

Gyakoriság
25
20
• Jelölése: Mo 15
10
5
• Számolása: 0
csoki vanilia karamell citrom eper
• Lehet számolni folytonos változókra is, de legnagyobb haszna Fagyi

diszkrét adatok esetén van:


a leggyakrabban előforduló érték. Példa: 2, 3, 1, 3, 4 -> Mo = 3 10
Mo: (172,5 ; 9)
9
8

• Mikor előnyös a használata? 7


6
• Nominális változók esetén is értelmezhető: emberek kedvenc

Gyakoriság
5

színe. 4
3
• Ha olyan a kérdés: egy cipőgyárnak a leggyakrabban vásárolt 2
méretből kell sokat gyártania, nem az átlagos vagy medián 1

méretből. 0

145
150
155
160
165
170
175
180
185
190
195
Magasság
Elhelyezkedési mutatók: Átlag vs Medián vs Módusz
Átlag: szimmetrikus, szélsőséges értékektől mentes adatokon a legjobb, az
alábbi példában túlzottan elhúzzák a ritkán előforduló, lassú reakcióidők
Medián: ferde eloszlású vagy szélsőséges értékekkel rendelkező adatokon a
legjobb, például reakcióidőadatoknál.
Módusz: túlzottan (teljesen) figyelmen kívül hagyja a lassabb reakcióidőket.
160
Módusz: 152,5ms
140 Medián: 182ms
120 Átlag: 214ms
Gyakoriság

100
A reakcióidő adatok
gyakran ferde eloszlásúak
80
Rémisszük meg őket a csapatunk
60
magasságának átlagával, vagy
altassuk el a figyelmüket a csapat
40
magasságának mediánjával?
20

0
160

360

470
100
110
120
130
140
150

170
180
190
200
210
220
230
240
250
260
270
280
290
300
310
320
330
340
350

370
380
390
400
410
420
430
440
450
460

480
490
500
510
520
530
540
550
560
570
580
590
600
Reakcióidő (ms)
• A kérdéstől függ, mi a megfelelő középérték mutató.
Mo.-n: 225e Ft • A világ nagyon más aspektusát ragadják meg.

Mo.-n: 190e Ft

Mo.-n: 130e Ft (bruttóban értve havonta, a fizetesek.hu felmérése alapján)


Szóródási mutatók
• Miért nem elég az átlag?
• A minta szóródását nem jellemzi
Mkék = 167cm Kékek Pirosak
8
190 7
163 155
169 178

Gyakoriság
6
185 5
4
168 187
180 3 169 166
2
175
1
170 178
0 168 159
Magasság

170
165 171
165 Mkék = Mpiros = 167cm Magasság 164 150
160 8 164 167
7
170 147

Gyakoriság
155 6
5
Mpiros = 167cm 159 184
4
150
3
175 162
145 2 165 167
1
140 0
169 161
Kék Piros 167 173
Magasság
Szóródási mutatók: Átlagtól való eltérés
 Átlagtól való eltérés (D, az angol deviance szóból)
 A mért értékek és az átlag távolsága, az átlaggal való predikció hibája, pontatlansága.
 Jelölése: Di Számolása: 𝐷𝑖 = 𝑥𝑖 − 𝒙 ഥ
 Átlagtól való négyzetes eltérés (D2)
 Csak a különbség nagysága kell, iránya (előjele) nem.
2 Ezeknek összegét jelöltük a múlt félévben Q val. Az átlagtól
 Abszolútérték vagy négyzetre emelés? Számolása: 𝐷𝑖 mért eltérések négyzetösszege

190 Kékek Dkék D2 kék Pirosak Dpiros D2 piros


185 163 163-167 = -4 (-4)2 = 16 155 -12 144
169 169-167 = 2 22 = 4 178 11 121
180
168 168-167 = 1 12 = 1 187 20 400
175 169 2 4 166 -1 1
170 3 9 178 11 121
Magasság

170
168 1 1 159 -8 64
165 Mkék = Mpiros = 167cm
165 -2 4 171 4 16
160 164 -3 9 150 -17 289
155 164 -3 9 167 0 0
170 3 9 147 -20 400
150
159 -8 64 184 17 289
145 175 8 64 162 -5 25
140 165 -2 4 167 0 0
Kék Piros
169 2 4 161 -6 36
167 0 0 173 6 36
Szóródási mutatók: variancia és szórás
 Variancia
 Az átlagtól való négyzetes eltérés átlaga, jelölése: Var, s2 vagy σ2
σ 𝐷𝑖 2 σ(𝑥𝑖 − 𝑥)ҧ 2 16+4+1+4+9+1+4+9+9+9+64+64+4+4+0
 Számolása: 𝑉𝑎𝑟 = = Pl. : 𝑉𝑎𝑟𝑘é𝑘 = = 14,429
𝑑𝑓 𝑛−1 15−1

 Szórás
 Átlagtól való átlagos eltérés, jelölése: SD (standard deviation), s vagy σ
σ(𝑥𝑖 − 𝑥)ҧ 2
 Számolása: 𝑆𝐷 = 𝑉𝑎𝑟 = Pl.: 𝑆𝐷𝑘é𝑘 = 14,429 = 3,798
𝑛−1

190
185 8 8
180 Mkék = 167 Mpiros = 167 7 7

Gyakoriság
6 6
175 SDkék = 3,798 SDpiros = 11,778 5 5
170 4 4
165 3 3
160 2 2
1 1
155
0 0

180-184

175-179
140-144
145-149
150-154
155-159
160-164
165-169
170-174
175-179

185-190

140-144
145-149
150-154
155-159
160-164
165-169
170-174

180-184
185-190
150
145
140 Magasság Magasság
Kék Piros
Miért nagy a szórás?
• Mekkora a „nagy” szórás?
• Nincs kritérium érték, mert függ a skálázástól! 100
90

• Két egységnyi szórás érdemjegy esetén (1-5-ig terjedő skála) 80

vagy zh pontszám szerint (0-100-ig terjedő skála) mást jelent 70

Hogyan hasonlíthattuk össze a szórásokat? 60


𝑠 50
Relatív szórás 𝑉 = ഥ ∙ 100
𝒙
• Miért nagy a szórás?
40
30
20

• Outlierek 10

• A szélsőséges értékek megnövelik a


0
érdemjegy pontszám

szórást, mert a többi értékhez képest


jóval nagyobb az átlagtól való távolságuk

10 M = 14, SD = 1,546
• Csúcsosság nem normális (később) 8
Mout = 16,02, SD = 16,645 !!!

Gyakoriság
6

• A tulajdonság nem stabil 0


9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Szóródási mutatók: Standard error
• Ha sok mintát vennénk a populációból, µ = 169
akkor a mintaátlagok (ഥ𝒙𝑖 ) valahol a
populációátlag (µ) körül lennének, de nem
lennének azonosak, minden mintának
kicsit máshol lenne az átlaga
• Standard error: M1 = 170,9
• A populációból vett minták átlagainak M6 = 169
szórása
• Jelölése: 𝒔ഥ𝒙 vagy SE
• Számítása (ha csak egy mintánk van): M5 = 169,1
M2 = 168,3
σ(𝑥𝑖 − 𝑥)ҧ 2 M4 = 167
𝑠 M3 = 169,7
𝑁−1
𝑆𝐸 = =
𝑁 𝑁 Mintaátlagok átlaga: 169
• Az SE megadja, mennyire bizonytalan az 8
Mintaátlagok szórása: 0,535
általunk mért minta átlaga 7
6

Gyakoriság
• Ha nagy a SE, akkor nem igazán reprezentatív a 5
4
mintánk a populációra (lehet, holnap veszek egy 3
másik mintát, és egészen más lesz az átlaga) 2
1
0
167 168 169 170 171
Magasság minták átlagai
Szóródási mutatók: Konfidencia intervallum /
megbízhatóság
Túl széles intervallum Túl keskeny intervallum

Populációátlag (becsülni szeretnénk) Mintaátlagok

Adjunk meg a mintánk átlaga körül egy intervallumot, amin belül fog feltehetőleg a populációátlag is esni!
De mekkora legyen az intervallum? Ha túl nagy, nincs információértéke, ha túl kicsi, valószínű, hogy a
populációátlag nem fog beleesni.

Kellene egy olyan határ, amibe nagy (pl. 90% vagy 95%-os) valószínűséggel beleesik a populációátlag.
Adataink normális eloszlásból valók – átlag eloszlása
𝑠
Az átlag eloszlásáról már többet tudhatunk 𝑥ҧ → 𝜇; 𝑠ഥ𝒙 =
𝑛
Tehát egy olyan eloszlás, ami szimmetrikus, (−∞; +∞) intervallumon van
értelmezve. Látható a szórás képletéből, hogy egy „soványabb” görbe lesz a
normálisnál.
t eloszlás
szabadságfok
A várható érték konfidencia-intervalluma
𝑥ҧ → 𝜇
Az intervallumon belül esik az átlagok „p”-ed
része
láttuk, hogy az 𝑥ҧ t eloszlású, f=n-1

𝒙−𝜇
ezt standardizálva t eloszlású, f=n-1
𝑠𝑥


𝒙−𝜇
−𝑡𝑝 ≤ ≤ +𝑡𝑝
𝑠𝑥

−𝑡𝑝 𝑠ഥ𝒙 ≤ 𝑥ҧ − 𝜇 ≤ +𝑡𝑝 𝑠ഥ𝒙
−𝑡𝑝 𝜇 +𝑡𝑝 +𝑡𝑝 𝑠ഥ𝒙 ≥ 𝜇 − 𝑥ҧ ≥ −𝑡𝑝 𝑠ഥ𝒙
0
𝑥ҧ − 𝑡𝑝 𝑠ഥ𝒙 ≤ 𝜇 ≤ 𝑥ҧ + 𝑡𝑝 𝑠ഥ𝒙
• Mit mond el nekünk a konfidencia intervallum a minta és populáció kapcsolatáról? Mi befolyásolja, milyen
magabiztosan következtethetünk a mintából a populációra?
𝑠 𝑠
• ഥ − 𝑡𝑝
A konfidencia intervallum határainak képlete felbontva a standard errort: 𝒙 ഥ + 𝑡𝑝
≤𝜇≤𝒙
𝑛 𝑛

−𝑡𝑝 * SE +𝑡𝑝 * SE

95CI alsó határa átlag 95CI felső határ

• Mi van a képletben?
• Átlag: csak az offsetet adja meg, a CI szélességét nem befolyásolja
• 𝒕𝒑 érték: ezzel szabályozhatjuk, mekkora valószínűséggel akarjuk a populációátlagot megtalálni.
Láthattuk, hogy minél „biztosabbra akarunk menni”, annál szélesebb CI kell.
• Szórás: a számlálóban szerepel, tehát minél nagyobb a szórás, annál kevésbé lehetünk biztosak abban,
hogy a mintaátlag jó reprezentálja a populációt, annál szélesebb lesz a CI.
• Elemszám: nevezőben szerepel. Minél nagyobb a minta, annál nagyobb részét fedtük le a
populációnak, annál biztosabbak lehetünk abban, hogy a minta jól reprezentálja a populációt, annál
keskenyebb lesz a CI.
40

Hibamutatók összefoglaló 35

Memória teljesítmény (± SD)


30

25

• A grafikonokon a hibamutatók hibasávokkal (error bars 20

vagy whiskers) jelezzük 15

10

• grafikonokon az átlag mellett mindig meg kell jeleníteni 5

valamilyen hibasávot, és fel kell tüntetni, a három 0


férfi nő

hibasáv közül melyiket alkalmaztuk 40

35
• Grafikonok olvasásánál is fontos figyelembe venni,

Memóriateljesítmény (± SE)
30

milyen hibasávot látunk: a szórások mindig a 25

legszélesebbek, míg a standard errorok a legszűkebbek. 20

15

10

5
50
Férfi Nő 45
0
férfi nő
40 40
Átlag 26,244 30,388
Memória teljesítmény

Memória teljesítmény (95% CI)


35 35

Elemszám 86 80 30 30

25 25
SD 8,737 5,823 20 20

SE 0,942 0,651 15 15

10 10
CI 1,846 1,276 5 5

0 0
férfi nő férfi nő
Hisztogram
• Gyakoriság eloszlás, hisztogram
• Diszkrét változó esetében • Folytonos változó esetében
• A skála diszkrét értékeinek gyakorisága • A skálát egyforma széles intervallumokra
• Az egyes értékek előfordulásának száma bontva egy adott intervallumon belül eső
• Például fagyik népszerűsége értékek száma

45 8
40
40 7
34
35 6
30

Gyakoriság
5
Gyakoriság

24
25 22
4
20
3
15
10 2
10
5 1

0 0
csoki vanilia karamell citrom eper
Fagyi
Magasság (cm)

Fagyi íz CS V K C E
Gyakoriság 34 22 40 10 24
Hisztogram lépésközének jelentősége
bin: 0,05 bin: 0,1
A hisztogram
ábrázolásánál mindig
fontos az optimális
lépésköz (bin,
részletesség) megtalálása.

bin: 0,5 bin: 1 bin: 2,5


Diagramok
„The greatest value of a picture is when it forces us to notice what we never expected to see”
John Tukey
100

80

60

40

20

0
0 20 40 60 80 100
Üzleti és
tudományos fórum

Lamy, D., Alon, L., Carmel, T., & Shalev, N. (2014). The role of conscious perception in attentional capture and object-file updating. Psychological science, 0956797614556777.
Milyen a jó diagram?
Egyszerűbb elmondani, milyen NEM
• NINCSENEK 3D oszlopok 45

• NEM színátmenetes 40

• NEM szivárványszínű 35

30
• NINCS a háttérben cuki kép 25

20

15

• NEM nagyít ki egyes különbségeket 10


Kezdő úszók Haladók Profik

20 24.5
18 24
16 23.5
14 23
12 22.5
10 22
8 21.5
6 21
4 20.5
2
20
0
19.5
A B
C D
• NEM torzítja el az arányokat

család távolabbi rokon barát egyéb család távolabbi rokon barát egyéb

A család fontos. A barátok fontosak.

A barátok FONTOSAK!
család távolabbi rokon barát egyéb
• Milyen a jó diagram?
• Minimalista, csak az van rajta, aminek információtartalma van
• Ami fontos, az viszont rajta van (tengelyek elnevezései, kategóriák elnevezései, mértékegységek,
hibamutatók (az is, hogy milyen)
• Színeket akkor használ, ha szükséges
• Jól elkülöníthető színek (fekete-fehérben is elkülöníthető árnyalatok)
• Ha több grafikonunk van, egységes a megjelenítés
• Nem „nagyítja ki” a különbségeket
• Ugyanazon kategóriákat, változókat ugyanazzal a színnel jelöli

50 50
45 45

CO2 leadás (mg) ± 95CI


40
CO2 leadás (mg) ± 95CI

40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
Kezdő Haladó Profi Kezdő Haladó Profi
Úszók Futók
Grafikonok szerkesztése

A Jasp is tud készíteni grafikonokat, ahol fontos, megmutatom azt is, de nem azokat fogjuk
használni, hanem az excelben készítjük el. Ez kidolgozottabb, rengeteg lehetőség van,
tulajdonképpen bármit meg tudunk valósítani, amit fontosnak tartunk egy dolgozatunkban. És nem
utolsósorban akkor is szerkeszthető, ha már áttettük a word dokumentumba. (vagy ppt-be)

Az adataink tudjuk, excelben vannak, de szükségünk lesz/lehet a leíró statisztikában kikért


táblázatainkra is. Tehát először azt nézzük meg, hogyan tudjuk azt átvinni excelbe.

Érdemes egy új excel file-t megnyitni, nem azt fogjuk használni, ami csv kiterjesztéssel van
megnyitva a JASP miatt.
Legismertebb grafikonok
• Egy változó:
• Kördiagram (diszkrét értékeket felvevő változó)
• Oszlopdiagram (diszkrét értékeket felvevő változó)
• Hisztogram (folytonos változó)

• Több minta:
• Oszlopdiagram az átlagok megjelenítésével (független minták)
• Vonaldiagram (Összefüggő minták)
• Kapcsolat:
• Pontdiagram

Hasonlít Pac-manre

Nem hasonlít Pac-manre


Kördiagram – nominális változókhoz
Nominális (kategoriális) változó esetén kördiagram vagy oszlopdiagram használható.
kördiagram
• Szükséges? Nem elég szövegesen megadni az arányokat? „There is no data that can be
displayed in a pie chart that cannot better be displayed in some other type of chart” Tukey
• A kördiagramokat NEM SZABAD 3D-ben használni, mert félrevezető, és nem illik
felrobbantani sem.

1.Átmásoljuk a szükséges leíró


statisztikai táblázatot
Erre nagyon kell figyelni, gyakorlaton lesz róla szó, milyen
problémák lehetnek
dátum formátum, tizedes pont/vessző

2. Létrehozzuk azt, amit


tényleg használni
fogunk
Lehet a fentiből is dolgozni, így jobban látjuk, mi az,
amit igazán használunk
Kördiagram – nominális változókhoz
3.Kijelölés
4.Beszúrás – Diagram – Kör

Frequency

egyedülálló párkapcsolatban élő házas özvegy

Ezt még lehet formázni, majd később,


a többi diagrammal együtt vesszük, mert
sok a hasonlóság
Kördiagram – nominális változókhoz
Kördiagramot készíthetünk Jasppel is.

Ezt akkor használjuk, ha gyorsan rá akarunk nézni a gyakoriságok eloszlására, tovább nem szépíthető
Oszlopdiagram – nominális és ordinális változókhoz
Kategoriális (nominális) változó kördiagram helyett mehet oszlopdiagramra is. Ordinális változót szintén
oszlopdiagramon szokás ábrázolni.
Az előző menet, de a diagram választásnál az oszlopot választjuk

Frequency
16

14

12

10

6
Láthatjuk, hogy kétfélét kínál fel. Ki kell választani, ami jó 4

0
egyedülálló párkapcsolatban élő házas özvegy
Oszlopdiagram – nominális és ordinális változókhoz
Mindezt a Jasp így csinálja

Ugyanaz érvényes, amit a kördiagramnál írtam


Oszlopdiagram – nominális és ordinális változókhoz
Nézzük még meg azt az esetet, mikor ugyanezek az adatok nemi bontásban is megjelennek.
Ehhez is felhasználjuk a kikért táblázatot, alapvetően a kontingencia táblázatot, de át is rendezzük
Attól függően, hogy melyik elrendezést adjuk meg a diagramszerkesztőnek, más felépítésű oszlopdiagramot kapunk.
Chart Title
10
9
8
7
6
5
4
3
2
1
0
egyedülálló párkapcsolat házas özvegy

férfi nő
gyakoriság
10
9
8
7
6
5
4
3
2
1
0
férfi nő férfi nő férfi nő férfi nő
egyedülálló párkapcsolat házas özvegy
Nézzünk meg néhány formázási lehetőséget
Itt csak emlékeztető eredményeket mutatok, a többi gyakorlaton hangzik el.
Az y tengely elnevezése fontos
Hivatkozással is megadható, így a jobb

A diagramcímet általában
kivesszük

Színeket használhatunk
Kétszer katt az oszlopra – kitöltés – szín

A betűméret x és y tengelyen
egyforma legyen
9
Gyakoriság nemi bontásban családi

8
7 Tengely formázása
Oszlopok szélessége és
osztásközök távolsága is állítható
állpotok szerint

6
Adatsor – térköz szélessége
5
4
3
….
2
1
0
férfi nő férfi nő férfi nő férfi nő
egyedülálló párkapcsolat házas özvegy
Hisztogram készítése – folytonos változóhoz
Skála típusú (folytonos) változót hisztogramon ábrázoljuk.
Teljes adatsort átmásolni az excelbe – diagramok – minden diagram -
Ezt készítette a JASP hisztogram

Két egyéni beállítás közül


választhatunk:
1. Annak megadása, hány darab
egyenlő egységre legyen
felbontva
2. Egységek szélességének
megadása
Hisztogram lépésközének jelentősége
bin: 0,05 bin: 0,1
Ugyanaz a hisztogram
különböző
lépésközökkel

bin: 0,5 bin: 1 bin: 2,5


Oszlopdiagram – független mintákhoz
Kimásoljuk a szükséges leíró statisztikát tartalmazó táblázatot
Ezt átrendezzük

Vagy így is hagyhatjuk,


a kijelölésnél kell figyelni

Ebből tudunk a szokásos módon oszlopdiagramot készíteni


Formázás a szokott módon.
A következő dián a hibasáv felhelyezésének módja látható
Oszlopdiagram – független mintákhoz
Több független minta valamely folytonos változón mért átlagát oszlopdiagramon szokás ábrázolni.
Az átlag mellé ábrázolni kell valamelyik hibasávot is, és hogy melyik hibasávot használjuk, a függőleges tengelyen
a változó után kell írni.
Hibasávok – további beállítások – egyéni – érték megadása

Érték megadása
választás után ide
kell jelölni a szórás
értékeket
Lefelé és felfelé is

12

10

Bsci pontszám átlaga ± SD


8

0
férfi nő
Nem
Vonaldiagram – összefüggő mintákhoz
Összefüggő mintákat vonaldiagrammal szokás ábrázolni, az összekötő vonallal jelezve, hogy ezek összefüggő
adatok. Természetesen erre is ki kell tenni a hibamutatót.
Minden hasonlóan történik mint az előbb
A lehetőségeknél a vonaldiagramot
választjuk.

Hibasáv felhelyezése pont ugyanúgy


Vonaldiagram – összefüggő mintákhoz
Itt látszik először a probléma, hogy miért nem csak azokat vesszük figyelembe, akiknek mindkét
értékük megvan?
Készítünk egy új változót, ami azt mutatja meg, hogy a
személynek megvan-e mind a két értéke
0, ha nincs
1, ha igen
sorbarendezzük, ahol van 1 – ha nincs – 0
Ennek a változónak mentén szűrünk, úgy kérjük ki a leíró
statisztikát, ezt a táblázatot fogjuk használni

FIGYELEM!
Az eddigi összes kikért táblázatunkat átírja ilyenkor

Gyakorlaton a „fapados”, függvény nélküli megoldást


néztük.
Az előző folyamat függvénnyel megadva:

=HA(VAGY(ÜRES(F2);ÜRES(I2));0;1)
Pontdiagram két folytonos változó kapcsolatának megjelenítésére
Folytonos változók kapcsolata pontdiagramon ábrázolható.
Bár - mint a korrelációnál sem, itt sem következtethetünk ok-okozati kapcsolatra, az Y tengelyre az kerül,
amit inkább a függő változóként tudunk elképzelni
A pontdiagram nem a leíró statisztika táblázataiból, hanem az eredeti adatokból dolgozik. A két adatsort,
amivel dolgozni fogunk, másoljuk ki a grafikon készítő excelünkbe.
Itt már látható, hogy a hiányzó értékekkel foglalkozni kell majd. Ezt majd a feltétel ellenőrzésnél vesszük, a
grafikon úgyis csak olyan pontokat tud rajzolni, aminek mind a két koordinátája megvan
16
A formázás ugyanúgy, mint az előző esetekben, most csak azt
14 nézzük, ami itt új.
Trendvonal – további beállítások
12 16 y = 0.0134x2 - 1.2298x + 34.146
R² = 0.3405
10 14
BSCIpont

8 12

6 10

BSCIpont
4 8

2 6

0 4
20 25 30 35 40 45 50 55 60
2
kor
0
A bal oldali változó kerül a vízszintes tengelyre 20 25 30 35 40 45 50 55 60
A jobb oldali változó a függőleges tengelyre kor
Pontdiagram két folytonos változó kapcsolatának megjelenítésére
Érdekes lehet még, hogy az előbb látott pontdiagramot úgy is jelenítsük meg, hogy a különböző nemek pontjai
más színnel legyenek jelölve
A kimásolt adatsorok mellett szükségünk lesz
természetesen a nemeket tartalmazó adatsorra is.
Úgy rendezzük, hogy egy-egy tömbbe legyenek a férfiak
és a nők
A diagramot először csak az egyik csoporttal hozzuk
létre, majd adatsor hozzáadással a másik nemet

Szűrő – Adatok kijelölése – itt lehet


átnevezni és hozzáadni
Pontdiagram két folytonos változó kapcsolatának megjelenítésére
Pontdiagramot a JASP is egész jót csinál, sok segítő
információ is lehet rajta, ezeket majd a feltételek
ellenőrzésénél fogjuk használni. Viszont nem
szerkeszthető olyan szépen és könnyen.
Milyen a jó diagram?
Kiegészítő anyag
Tanácsok grafikonok szerkesztéséhez
• Kerüld a fölösleges „díszítést”, azaz NE használj 3D-t, színátmenetes
megjelenítést, színes háttért! Színeket szabad használni, ha plusz
jelentést ad a grafikonhoz, esztétikai szempontok miatt azonban ne
tedd!

Tippeld meg a százalékokat!


Tippeld meg a százalékokat! Tippeld meg a százalékokat!

1 2 3 4
1 2 3 4 1 2 3 4
Tanácsok grafikonok szerkesztéséhez
• A használt színek legyenek indikatívak!
• Például a férfiakat érdemes kékkel, a nőket pirossal jelölni.
• Ha van egy kiemelt csoportod, és több egyéb csoportod, akkor válassz a
kiemelt csoportnak egy a többitől elütő színt!
• A hiányzó értékek vagy az „egyéb” kategóriát jelöld szürkével, feketével!

20-30 évesek 30-40 évesek 40-50 évesek

PC PS Xbox nem játszik PC PS Xbox nem játszik PC PS Xbox nem játszik


Tanácsok grafikonok szerkesztéséhez
• Válassz olyan színeket, melyek fekete-fehér
nyomtatásban is jól elkülöníthetők
egymástól!
Tanácsok grafikonok szerkesztéséhez
• Az oszlopdiagramok skálázása mindig a teljes tartományt mutassa, ne nagyíts
bele a skálába!
• Például, ha egy feladatban 0-tól 10-ig lehetett pontokat elérni, akkor a skálázás 0-tól 10-
ig terjedjen!
• Ez igaz kérdőívekre is, egy 10 itemes, 5-fokú Likert-skálán (ahol 1 = egyáltalán nem értek
egyet és 5 = teljesen egyetértek) mérő kérdőívben az elérhető pontszám 10*1=10-től
10*5=50-ig terjed.
• Szintén a hatások nagyságának pontosabb észlelését szolgálják a hibasávok,
melyeket mindig fel kell tűntetni! 10
9
9

Első házi pontszáma +/-95%CI


8.9
8
8.8
Első házi pontszáma

7
8.7
6
8.6
5
8.5
4
8.4
3
8.3
2
8.2
1
8.1
0
8 férfi nő
férfi nő
Tanácsok grafikonok szerkesztéséhez
• Használj nagy betűméretet!
• Legalább 12 pt betűméret kell a feliratokhoz és 10 pt méret a skálázáshoz! Az ennél
kisebb betűméret a dolgozatba átemelt és gyakrabban lekicsinyített grafikonokon nem
jól olvasható.

• Használj egységes megjelenést!


• Ha ugyanaz a csoport több grafikonon megjelenik, mindenhol jelöld azonos színnel!
• Ha félkövér betűt használsz a tengelyfeliratokhoz, tégy így minden grafikonon!
Összefüggések statisztikai
elemzése
BBNPS01000

Adatfeldolgozás
Adattisztítás – hibák és outlierek
Nyers adatok Adattisztítás
Kódolás

Eredmények leírása Változók kialakítása

Táblázatok Skálák létrehozása

Diagramok Tulajdonságok beállítása

Hibák szűrése

Outlierek szűrése

Tiszta, elemzésre
alkalmas adatok

Egyéni tapasztalataim alapján az adatok Google formról való letöltése és az első hipotézis tesztelése közötti munkák
teszik ki általában egy statisztikai elemzés egyharmadát. Jól átgondolt kísérlettervezéssel ez az idő rövidíthető le.
Az órán használt adatbázishoz tartozó kérdőív
Jelige:___________________________ Kérjük, tekintse át Facebook ismerőseit, és sorolja fel azon személyeket, akikre igaz a
következő állítások valamelyike! Elég, ha a nevek Ön számára azonosíthatók. Olyan
Szemek teszt pontszáma (a vizsgálat személyt is megemlíthet, aki nincs Facebook ismerősei között!
nevezője tölti ki):__________________
1. Merne tőle nagyobb összeget kérni. Elmondaná neki, ha súlyos betegsége lenne. Kérne
Kérjük adja meg korát:______________ tanácsot tőle egy súlyos probléma esetén:
________________________________________________________________________
Nem:
férfi 2. Legalább néhány hetente tartják a kapcsolatot, és életét viszonylag jól ismeri, illetve ők
nő ismerik az ön életét:
________________________________________________________________________
Legmagasabb iskolai végzettség: ________________________________________________________________________
általános iskola
középiskola vagy gimnázium Kérjük, karikázza be azt a válaszlehetőséget, mely legjobban leírja, hogyan érezte magát
főiskola, egyetem vagy magasabb az elmúlt 2 hét során!
Az elmúlt két hét során érezte-e egyáltalán alig jellemző teljesen
Családi állapot: magát… nem jellemző jellemző jellemző
egyedülálló
1. vidámnak és jókedvűnek? 0 1 2 3
párkapcsolatban élő
házas 2. nyugodtnak és ellazultnak? 0 1 2 3
özvegy 3. aktívnak és élénknek? 0 1 2 3
egyéb:_________________________
4. ébredéskor frissnek és élénknek? 0 1 2 3
Facebook ismerősök száma:_________ 5. A napjai tele voltak számára érdekes 0 1 2 3
dolgokkal?
Beolvasás, változók tulajdonságainak beállítása
• Az előző adatbázis segítségével megismerkedtünk a JASP kezelésének
alapjaival, most a megszerzett tudást felhasználva végighaladunk az
adatfeldolgozás lépésein úgy, ahogy azt egy kutatás során érdemes tenni.
• 1. Olvasd be az adatbázist!
• Fájl: JASPgyak_wbi_adattisztitas_eredeti.xlsx
• Hozd létre a csv kiterjesztésű fájlt
• Az Excelfájlban található kódkönyv segítségével állítsd be a változók tulajdonságait!
• Kategóriális változóknál adj értékcímkét!
• Állítsd be a változók mérési szintjét!

Amikor létrehoztuk az adatbázist, figyelni kell a hiányzó értékekre. Mit jelent a „nagykor”
változó 0 értéke?

A JASPban hiánykódok…….
Hiányzó adatok
A 0-s értékeket egy hiánykódra
cseréljük
Mi történne, ha a 0-át definiálnánk
hiánykódnak?

Figyelni kell a csere beállításaira


Mit, mire cserélünk

Ezt be kell pipálni, hogy csak azokat


cserélje, aminek a tartalma 0.
Pl a 420-ban maradjon meg a 0

Ezek után a JASP már „látja”, hogy hiányzó adat


Beállítások
Itt láthatjuk, hol találjuk a hiánykódok beállításait
Másrészt azt, hol kell beállítani, hogy automatikusan szinkronizáljon, ha az adatokban módosítás történt
Hiba
8

7
.
6

Gyakoriság
4

0
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Kor

Fig. 1. A statisztika kurzus hallgatóinak életkori eloszlása


Hibák
• A „hiba” szó több értelemben is előfordul a statisztikában, az adattisztítás során az adathibákkal
foglalkozunk
• Adathiba
• Téves adatok
 Legtöbbször félregépelésekből, mérési problémákból, esetleg nem őszinte válaszadókból adódnak. (Pl.
ha valaki 165 cm magas, de az adatok bevitelekor véletlenül 175-öt ütöttél be, az hiba. De az is hiba,
ha meg volt nyúlva a mérőszalag, és mindenkit 2 centivel rövidebbnek mértél.)
• Törekedni kell arra, hogy adathiba ne legyen az elemzésben.
• Adathiba leggyakoribb forrásai:
• Félregépelések adatbevitelkor
• Félregépelés, tizedesvessző rossz helyen
• (Számítási) hibák kiértékeléskor
• Elszámolások „fejben” számoláskor
• Rosszul megírt kiértékelő, rossz megoldó kulcs
• Rosszindulatú / komolytalan kitöltők
• Beleunt, és csupa 1-est nyom, vagy mintázat szerint tölti ki
• Visszajelzést adsz, ezért megpróbálja egy „alternatív személyisége” szerint is kitölteni
Adathibák keresése

Először minden változóról kikérjük a legegyszerűbb leíró statisztikákat.


Több részletben, hogy ne legyen túl széles a táblázatunk
Nézzük az elemszámokat, lehetséges értékeket (min, max)….
Mit láthatunk az alábbi táblázatból?

Descriptive Statistics
nem kor isk kapcs
Valid 51 50 51 50
Missing 0 1 0 1
Mean 1.510 49.860 1.980 1.960
Std.
0.505 90.929 0.883 0.832
Deviation
Minimum 1.000 18.000 1.000 1.000
Maximum 2.000 666.000 3.000 3.000
Adathibák keresése
Hogyan keressük meg, hogy hol is van a biztos hibás adat?
Sorbarendezzük kor szerint

Ezért van a kor adatokban eggyel kevesebb elemszám (hiányzó adat). Ez nem hiba

Látjuk, hogy a „noname” jeligéjű vizsgálati személy az, akit keresünk


És azt is látjuk, hogy van még egy hibás adat, „piramis” jelige

Megvannak a felvett tesztek, tehát visszakeressük, mi történt


piramis
 Mit kezdjünk a hibás értékekkel?
36
26
 Ha vissza tudjuk keresni a helyes adatot (pl. Anyu, apu, Juli, Peti

papírról), akkor javíthatjuk, minden más


esetben TÖRÖLNI KELL. Anyu, apu, Juli, Peti, AnnA, Lacika, ANDris, balu, bence, Pista, Isti, Csenge,
Eszter, Robi, Zsolti, Feri, golyó, K. Andris, Kristi, F. Zoli, danó

 Nézzünk a 27. sorban lévő „piramis” jeligét! Az


adatbázisban hozzá 126 került, az adatlapról 
viszont látszik, hogy egyszerűen elgépeltünk. Az

ő értékét javíthatjuk az adatbázisban is 26-ra. 756

 Nézzük a 38. sorban lévő „noname” jeligét!


Látható, hogy nem elgépelésről van szó, a noname
kitöltő maga írt 666-ot a korához. Ilyenkor 36
érdemes megnézni, hogy a többi adata validnak Andi, Steve, Kata, Kótya, Laci, Feri
tűnik-e, és ha nem, az egész sort törölni
érdemes. Andi, Steve, Kata, Kótya, Laci, Feri, anyám, apám,
nagyapám

 Ha nem tudjuk ehhez hasonlóan visszakeresni


az adatlapot, vagy nincs okunk feltételezni, hogy
a többi adata hamis lenne, akkor nem kell az
egész sort, elég csak a hibás értéket törölni.
69
Adathibák keresése

Megállapítottuk, hogy „noname” egész sorát töröljük


„piramis” javítható, ott átjavítottuk a helyes értékre

Az output ablakban rögtön láthatjuk a változást


Kikérjük a következő változókról is a leírót, itt is a
A leíró statisztika min/max értékeinél
min/max értékeket figyeljük, nem találunk hibát
Adathibák keresése
Descriptive Statistics
WBI1 WBI2 WBI3 WBI4 WBI5
Valid 50 50 50 50 50
Missing 0 0 0 0 0
Mean 1.840 1.980 1.880 2.020 1.520
Std.
Deviatio 0.510 0.622 0.594 0.553 0.886
n
Minimu
0.000 1.000 0.000 1.000 0.000
m
Maximu
3.000 3.000 3.000 3.000 4.000
m

A kikért leíró táblázatokból azt is láthatjuk, hogy WBI5 tételnél is van egy hibás érték (tudjuk, hogy a tételek 0-3 között
vehetnek fel értéket)
Az előbbi módon kikeressük a hibás értéket, és mivel visszakereshető az adatlap, látjuk, hogy elgépelés történt, ezért
javítjuk. 3-as volt a helyes érték
Gyakoriságok
 Érdemes ilyenkor kikérni a gyakoriság táblákat is
a kategoriális változókra, hogy leellenőrizzük,
van-e olyan kategória, melyben értelmetlenül
kevés személy van, nincs-e szükség
összevonásokra vagy egy-egy kategória
kihagyására.
Láthatjuk, most minden kategoriális változó
minden kategóriája megfelelő elemszámú.
 Ha tudjuk, hogy további alcsoportokat (például
házas férfiak) fogunk majd vizsgálni, érdemes
ellenőrizni az adott tulajdonságok
keresztmetszetét is, mert az, hogy a mintában
van elég férfi és elég házas, nem jelenti azt is,
hogy házas férfiből is van elegendő (lehet, hogy
a mintában az összes férfi egyedülálló, és az
összes házas nő)
További transzformációk
 Végül hozzuk létre a WBI öt tételéből a WBI skálapontszámot
 A WBI teszt kiértékelési útmutatójából tudjuk, hogy nincs fordított tétel, és a skálapontszám a
tételek összegéből adódik. Mivel tudjuk azt is, hogy nincsenek hiányzó értékek, ezért az
összeadás megfelelő eljárás lesz, nincs szükség az átlagolásra.
 Mikor létrehozták excel-csv-ben a tesztpontot, ne felejtsék el másolással csak az értéket
megtartani. (A jasp nem szereti az utasításokat az adatfileban)
 A létrehozott változónak állítsuk be a tulajdonságait is!
Outlier
.
Outlier definíciója
• Általános definició: outlier az,
• „ami valid érték, de nagyon eltér a többi adatunktól”
• Miért probléma:
• Bár valid érték, de nem jól reprezentálja a populációt – ez főleg kis minták esetén
probléma (egy 15 fős mintában van egy 2m magas nő – a valóságban nincs a nők közel
7%-a 2m körül)
• Torzítja a statisztikai mutatókat: elhúzza az átlagot, megnöveli a szórást.
• Skála típusú változók (nagyon ritkán ordinális változók) esetén van értelme outlierről
beszélni, nominális változóban nem lehet outlier!
• Hogy találjuk meg őket:
• Outlier labelling rule
• Olvasni lehet néha az „átlag ± 2 szórás” szabályról is, de az elavult, ne használjátok!
• Outlier labelling rule
Outlier labelling rule
• Outlier az, ami távolabb van az alsó/felső
negyedtől, mint a középső 50% nagyságának
OLRf = 116 115
másfélszerese 110

• Kvartiliseknek azokat az értékeket nevezzük,

1,5 * IQR
105
100
melyek a mintát pont 4 egyforma részre bontják. 95 A minta 25%-a,
• Q1 – alsó kvartilis alatt van a minta 90 tehát 30 ember
egynegyede, felette háromnegyede 85

• Q2 – a medián, azaz pont félbeveszi a mintát 80


Q3 = 76,775 75
• Q3 – felső kvartilis alatt van a minta 70 30 ember
háromnegyede, felette egynegyede.

IQR
65
Q2 = Mdn = 61,65 60
• IQR – interkvartilis terjedelem, a Q1 és Q3 30 ember
55
közötti rész, azaz a minta középső 50%-a Q1 = 50,625 50
• Azaz outliernek tekintjük azt, aki magasabb illetve
45

1,5 * IQR
40
alacsonyabb értéket vesz fel, mint a következő 35

határok. 30 30 ember
• Felső határ: Q3 + 1,5 * IQR 25
20
• Alsó határ: Q1 - 1,5 * IQR 15
OLRa = 11,4 10
• Később módosították a határok számítási módját: 5
• Q1 – 2,2 * IQR és Q3 + 2,2 * IQR 0
N = 120
Outlier keresés

Minden skála típusú változóra keresünk outliert


Ordinális változóinknak kevés lehetséges értéke van,
azokat nem vizsgáljuk

A leíró statisztikában kiválasztjuk a „Boxplots” kikérését


is.

„Label outliers” választás azért szükséges, hogy azt is


lássuk, hol van az outlier
Outlier keresés
Outlier keresés
Módosított outlier labelling rule
• Az outlier labelling rule-nak van egy módosított
verziója, ahol a szorzó 1,5 helyett 2,2
• A gyakorlati tapasztalatok alapján a 2,2-es sokkal
jobban működik, de a JASP-ben nem lehet ezt kérni,
ezért kézzel kell számolni a határt.

• Descriptive – Statistics – Quartilis


és ugyanitt a szóródási mutatóknál IQR

• A negyedelő pontok ismeretében számológéppel


(vagy az excelben, úgyis mindig kéznél van)
kiszámoljuk a módosított alsó és felső határt
• Az alsó határ: Q1 - IQR*2,2 = 23 - 21* 2,2 = - 23,2
• A felső határ: Q3 +IQR*2,2 = 44 + 21* 2,2 = 90,2
Q1 az alsó negyedelő
Q3 pedig a felső negyedelő
Módosított outlier laballing rule
A mi esetünkben a felső határ az érdekes. Megnéztük már, hogy a 77 éves személy tűnik outliernek. Most
láthatjuk, hogy a módosított határ kiszámolásával ez az adat már nem outlier. Így semmi teendőnk nincs vele,
a mintában hagyhatjuk.

Nézzük meg kicsit pontosabban, mit látunk a boxploton!


Az alsó whiskers szára látványosan rövidebb – A minimum értéknél lejjebb
nem húzza a JASP

Ha kiszámoljuk, pontosan hol is van a felső határ az 1,5-ös számolással:


Q3+1,5*IQR = 75,5
Látjuk, hogy a felső whiskers szára sem ott látszik
Mert: A következő legnagyobb elemig húzza. Ez a 65 év.

Ezek a használhatóságot nem befolyásolják, mert úgyis a jelölt pontokra figyelünk.


• Mit kezdjünk velük? Outlierek
• -1. Hiba vagy outlier?
• Ha hiba, akkor nincs helye a mérlegelésnek, mennie kell 160 14

• 0. Elemezzük a helyzetet
140 12

• Pl. nem normális eloszlásnál mit jelentenek? 120


10
• 2,2-es szorzóval is outliereknek tekinthetők? 100
8

• A. Töröljük őket 80


6
Ésszel!! 60

• PRO: torzító hatás megszűnik KON: információt vesztünk 40


4

• Leggyakrabban használt, kis minta esetén bajos


• Gondoljuk át, miből jöhet egy szélsőséges érték 20 2

• B. Transzformáljuk az adatokat 0
X 𝑋
0

• PRO: nincs információveszteség KON: nehéz értelmezni


• Nemlineáris transzformációkkal (pl. gyökvonással) az outlierek hatásának csökkentése– elméletileg
legjobb megoldás, gyakorlatilag minél jobban transzformáljuk az adatokat, annál nehezebb
pszichológiailag releváns következtetéseket levonni majd
• C. Winzorizálás - Átírjuk az értéket valami olyanra, ami már nem outlier
• PRO: torzító hatás megszűnik kevés információvesztéssel KON: sokan (feleslegesen) idegenkednek tőle
• Csalás lenne? De ha benne hagyjuk, az is torzítja az adatokat, a két rossz közül ez a kisebb
• Mire? A következő legnagyobb -már nem outlier- érték plusz 1 egység (a következő legkisebb -1 egység)
Winzorizálás
• A tág kapcsolati körre a boxplotot kikérve láttuk, hogy itt is van egy outlier.
• -1. ellenőrizzük, hogy ez inkább hiba vagy outlier. Az 47. sorban lévő vegas
jeligéjű személy facebook ismerőseinek száma 1910, ami elképzelhető érték,
hiszen a Facebook ismerős-limitje 5000 főnél van
• 0. a módosított outlier labelling rule-lal ellenőrizzük,
mennyire tekinthető szélsőségesnek. A módosított
felső határ 516*2,2 + 702 = 1837,2
tehát igen, a módosított szabály alapján is outlier.
• A. Törölhetjük az értéket. Ekkor elegendő csak
ezt az egy adatot törölni, nem kell az egész
személyt, hisz a többi adata rendben van
• B. Használhatunk transzformációt – a
gyökvonás például jól működne
• C. Winzorizálhatunk. Sorbarendezés után látjuk, hogy a következő
legmagasabb érték 1217, tehát vegas barátainak számát átírjuk 1218-ra.
Hiba vagy outlier?
• Hiba
• Mi hiba?
• Nincs információ értéke, például valamilyen elgépelésből származik. A megtalálható hibák gyakran az adott
skálán nem képzelhetők el. Például nemi adatoknál 3 vagy 0-5-ig terjedő skálán 7 vagy magasság
adatokban 257 (oké, kivéve, ha a Guinness rekordok könyvéből veszed az adatokat )
• Honnan tudom, hogy vannak-e hibás értékek, és ha igen, hol?
• A leíró statisztikában minimum és maximum nem megfelelő
• A boxploton ÁLTALÁBAN a nagyon messze lévő értékek valamilyen elírásból származnak
• Mit kell velük kezdeni?
• Hibás értékeknél nincs kérdés, ha tudod, javítod őket, ha nem tudod javítani, törlöd

• Outlier
• Mi outlier?
• Olyan érték, mely elképzelhető az adott skálán, de annyira szélsőséges, hogy torzíthatja a statisztikákat
• Honnan tudom, hogy vannak-e outlierek, és ha igen, hol?
• A bloxploton ÁLTALÁBAN a körökkel jelzett értékek outlierek
• Mit kell velük kezdeni?
• Eldöntheted, lásd az előző diát!
Boxplot csillagok és körök
• Körök: ami távolabb az alsó/felső negyedtől, mint a középső 50% nagyságának másfélszerese
• Bizonyos statisztikai programokban csillagok jelzik, ami távolabb az alsó/felső negyedtől, mint a középső
50% nagyságának háromszorosa. Ezt a JASP nem csinálja. De figyelni kell, ha nagyon messze van, gyanús 

• Nagyon gyakran a csillagok valamilyen elírásból származnak, míg a körök outlierek a mintában, de ez nem
feltétlenül igaz:
• Példa1: nemi adatoknál a 0 (ami egyértelműen elírás) nem jelenik meg csillagként, de még körként sem.
• Példa2: 5 fokú skálán a 6-os érték (ami elírás), lehet, hogy nem jelenik meg csillagként, csak körként
• Megjelenhetnek a skálán elképzelhető értékek is csillagként (például sikerült beválogatnod egy NBA
játékost). Ezek bár elképzelhető értékek, de annyira szélsőségesek, hogy mindenképp kezdeni kell velük
valamit.
Lehetséges publikálás
A adatokban a hagyományos outlier labelling rule (Tukey, 1977) alapján két szélsőséges értéket is
találtunk, a kor adatokban egy 77 éves személyt és a tág kapcsolati körben egy személyt, akinek 1910
Facebook ismerőse van.
Az így megtalált outlierek közül a felülvizsgált; 2,2-es szorzót használó outlier labelling szabály (Hoaglin és
Iglewicz, 1987) alapján csak a tág kapcsolati kör érték minősül outliereknek.
A megtalált szélsőséges értéket a winzorizálás szabályainak megfelelően átírtuk a rangsorban következő
legnagyobb már nem szélsőséges értéknél egy egységgel nagyobbra, azaz 1218-ra.

• Hivatkozások:
• Tukey, J. W. (1977). Exploratory data analysis.
• Hoaglin, D. C., & Iglewicz, B. (1987). Fine-tuning some resistant rules for outlier labeling. Journal of the
American Statistical Association, 82(400), 1147-1149.
• Hoaglin, D.C., Iglewicz, B., and Tukey, J.W. (1986). Performance of some
resistant rules for outlier labeling, Journal of American Statistical
Association, 81, 991-999.
Összefüggések statisztikai
elemzése
BBNPS01000

Statisztikai alapfogalmak:
2. Következtető statisztikák
Gyakoriság eloszlások
Honnan tudjuk egy érték valószínűségét?
.

1998 G. Meixner
Nevezetes eloszlások és értékeik
• ?: Az eddigi fagyifogyasztás alapján mennyi a  ?: Az eddigi magasság adatok alapján mennyi a
valószínűsége annak, hogy a következő fagyi, amit valószínűsége annak, hogy a következő személy
kérnek, citrom lesz? 170-180 cm között lesz?
• V: Ez könnyű: Az eddigi 130 emberből 10 kért  V: Bonyolultabb esetben (pl. folytonos
citromot: az emberek 7,7%-a kér citromot. változóknál), nehéz a valószínűségeket
kiszámítani

9
45
40 8
? ?
40
34 7
35

30
6 ? ?
? ? ?
Gyakoriság

24 5
25 22
20
4 ? ?
15 3
10
10 2

5 1

0 0
csoki vanilia karamell citrom eper
Fagyi
A valószínűség fogalma
A gyakorisági eloszlás elméleti kiterjesztése alapján vezettük be a valószínűség fogalmát
Tehát
A gyakorisági eloszlás azt mutatja meg, hogy adott osztály/intervallum felett mennyi adat
van
Képzeletben az osztályokat teljesen csökkenteni és az elemszámot növelni – eljutunk oda,
hogy a gyakorisági görbe kisimul.
Mit fejez ki?
Egy intervallum felett mennyi elem lesz várhatóan, azaz mennyire valószínű, hogy ott
elemet találunk.
Folytonos eloszlásnál tehát csak intervallum esetén beszélhetünk valószínűségről.

0≤𝑝≤1
Nevezetes eloszlások és értékeik
• Bonyolultabb esetekre nehéz lenne kiszámolni a valószínűségeket.
• Léteznek táblázatok nevezetes eloszlásokra, melyek megadják, hogy az eloszlás egy
intervallumához (adott paraméterek esetén) milyen valószínűség tartozik.
• Meg kell feleltetnünk a saját mért adatainkat egy nevezetes eloszlás értékeinek, és az adott
értékhez tartozó valószínűséget fogjuk a mi adatainkhoz is feltételezni.
• Tananyagban szereplő, ismert eloszlások: Normál eloszlás, t-eloszlás, χ2-eloszlás, F-eloszlás

9
?
8 ?
7

6 ? ?
5
? ? ?
4 ? ?
3

0
Normál eloszlás
• Normál vagy Z vagy Gauss-eloszlás
• Tulajdonságai
• Folytonos változók eloszlásának leírására alkalmas
• Unimodális (egy csúcsú)
• Szimmetrikus az átlag körül
• Haranggörbe alakú – a legtöbb egyed az átlag körül
helyezkedik el, majd ahogy távolodunk a középponttól,
egyre kevesebb egyed van, aki az adott értéket
felveszi.
• Bár értéke az egész számegyenesen nézve soha nem
csökken nullára, három szórás távolságra gyakorlatilag
annak tekintető
• Kiemeltük a standard normális eloszlást, értékei a z-
érték, mely átlaga 0, szórása 1

-3 -2 -1 0 1 2 3
Normál eloszlás – z-érték
• A normál eloszlás Z-értékeihez tartozó valószínűségeket ismerjük, azokat táblázatba foglalták.
(Például kikereshető, hogy -1-es z-érték alatt van az értékek 15,86%-a, 2-es z-érték felett az értékek
2,27%-a, -1 és -0,5 között 15%, -2 és +2 között 95,55%)
• Ahhoz, hogy a mi mintánkra is használható legyen ez a táblázat, a mintánk pontjait meg kell feleltetni a
normál görbe z-értékeinek (meg kell határozni, hogy pl. a 180 cm-hez milyen z-érték tartozik).
• A kettő nagyon különbözik: a normálgörbe átlaga=0 és szórása=1, a mi mintánk átlaga=149,06 és
szórása=21,02…. Hogyan lesz ez összehasonlítható?
• Lineáris transzformációkkal alakítsuk át a mintánkat úgy, hogy az ő átlaga is 0 és szórása 1 legyen!
9
?
8 ?
7

6 ? ?
5
? ? ?
4 ? ?
3

0
Normál eloszlás – z-érték
9
Átlaga 0 legyen: Ezzel csak9 annyi történt, hogy a görbét
minden értékből eltoltuk az 8 x-tengelyen.
• Standardizálás / z-érték: 8
7
kivonjuk az átlagot 7
6 6
𝒙𝒊 −ഥ
𝒙
• 𝒛𝒊 = 𝒔
5
4
5
4
3 3

• A minta értékeiből kivonva 2


1
2
1
a mintaátlagot, az új minta 0 0

átlaga 0 lesz
• A minta értékeit elosztva
szórással, az új minta Ezzel
9 csak átskáláztuk az eloszlásgörbét
szórása 1 lesz 9
8 („lekicsinyítettük
8 / felnagyítottuk”)
7
7
• Az így kapott új értékeket 6
6
5
z-értékeknek nevezzük 5
4
4
3
3
2
2
1
1
0
0
Normál eloszlás – z-érték
• Az így kapott z-értékek eloszlása már összevethető a standard normál eloszlással.

2,5% 95% 2,5%

Z-érték
Szórás

-1,96 1,96
• Egy fontos z-érték: ±1.96, ez az eloszlás felső és alsó 2,5% vágja le (összesen a szélső 5%-ot), tehát az
adatok 95%-a a ±1.96-os z-érték közé fog esni
Normál eloszlás – z-érték
• Kérdés:
• Van egy tinédzserekből álló mintánk. A magasság átlaga=149,06 és szórása=21,02. Mennyi a
valószínűsége, hogy egy tini 180cm-nél magasabb legyen?

• Hogyan válaszoljuk meg?


• 1. Keressük meg a 180cm-hez tartozó z-értéket:
𝑥𝑖 −ഥ
𝒙 180−149,06
𝑧𝑖 = = = 1,47
𝑠 21,02
• 2. Keressük ki a normáltáblából, hogy mi a kapott
z-értékhez tartozó jobb oldali valószínűség
• A táblázatból kikeresve a z=1,47-es érték feletti
részhez a 7,215% valószínűség tartozik.

• Válasz:
• Annak valószínűsége, hogy egy tini 180cm-nél magasabb lesz, 7,215%, feltételezve, hogy a
magasság a populációban normál eloszlást követ, és a mintánk jól reprezentálja a
populációt.
Eltérés a normál eloszlástól
• Két fontos eltérés
• Ferdeség (skewness) és csúcsosság (kurtosis)
• Ferdeség:
• A normál eloszlás ferdesége 0 (szimmetrikus)
• Pozitív ferdeség: az az eloszlásgörbe pozitív irányba nyúlik el
• Negatív ferdeség: az eloszlásgörbe negatív irányba nyúlik el
• Értéke az egész számegyenesen értelmezett, de ±3-at ritkán
haladja meg

normál negatív irányban ferde


normál pozitív irányban ferde
Eltérés a normál eloszlástól
• Csúcsosság:
• A normál eloszlás csúcsossága 0
• Pozitív csúcsosság: az az eloszlásgörbe csúcsos
• Negatív csúcsosság: az eloszlásgörbe lapos
• Értéke az egész számegyenesen értelmezett, de ±3-at ritkán
haladja meg
• Az eloszlásgörbe csúcsossága és a szórás között negatív
összefüggés van: minél csúcsosabb az eloszlásgörbe, annál
kisebb a minta szórása

normál csúcsos normál lapos


Normál eloszlás a valóságban
Statisztikai modellek
„I'll be honest, we're throwing science at the wall here to see what sticks.”
Cave Johnson
.
Populáció és minta
Leíró statisztikák

Következtető
statisztikák -
következtetés
Minta, melyet mérni tudunk
a populációra x̅ - mintaátlag
(ezt tudjuk mérni)
Random
mintavétel

Populáció, amire a tudományos kérdés vonatkozik


µ - populációátlag
Erről akarunk valamit megtudni

(Annette Kopp-Schneider ábrája alapján)


Modellek
• A statisztika
• A világ összefüggéseit modellezi, hogy a modellek alapján becsléseket tehessen
• Ellenőrzi, a felállított modellek milyen valószínűséggel helytállóak a populcióban

80
190
50-es kapcs. háló Férfiakhoz predikált
70
pontszámhoz magasság érték
predikált jólét 60 180

Magasság (cm)
50

170
Jólét

40

30

160
20

10
150
0
0 10 20 30 40 50 60 70 80 90 100
Kapocslati háló minősége
Férfi Nő
Nem
1. Fontos a jól megválasztott modell.
6 6 6

5 5 5

4 4 4

3 3 3

2 2 2

1 1 1

0 0 0
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8

2. A legtöbb összefüggés, amivel 3. De attól még a világ nem csak 4. Ha egy nem lineáris összefüggést
találkozni fogunk, viszonylag jól lineáris összefüggésekből áll. lineáris modellel írsz le, alul fogod
leírható egy lineáris modellel. becsülni a hatást.
6
5. Sőt tévesen akár arra a 6. Nem szabad azonban
10
következtetésre is juthatsz, 5 túlzásba esni. Egy
hogy nincs összefüggés a két 4 túlillesztett görbe
8 változó között. (overfitting) csak a
3
Ezért egy lineáris modellt mintádra lesz igaz, nem
6 használó próba kikérése 2 lesz általánosítható a
előtt ellenőrizni kell, 1 populációra.
megfelelő-e a lineáris
4 0
0 2 4 6 8 modell! 0 2 4 6 8
Statisztikai érték
• A függő változó teljes varianciája – a függő változóban lévő változatosság

• A teljes variancia két részből áll:


• Szisztematikus változatosság – általunk előidézett vagy általunk kontrollált tényező miatt
van – a modellünkben számolunk vele (nem, kísérleti csoportok, stb. hatása)

• Nem-szisztematikus változatosság – olyan változatosság, mely okáról nem tudunk számot


adni, nem emeljük be a modellbe – (egyéni különbségek hatása, pl. milyen napja volt)

á𝑡𝑙𝑎𝑔𝑜𝑠 𝑣á𝑙𝑡𝑜𝑧𝑎𝑡𝑜𝑠𝑠á𝑔, 𝑎𝑚𝑖𝑡 𝑎 𝑚𝑜𝑑𝑒𝑙𝑙 𝑚𝑎𝑔𝑦𝑎𝑟á𝑧 ℎ𝑎𝑡á𝑠


𝑠𝑡𝑎𝑡𝑖𝑠𝑧𝑡𝑖𝑘𝑎𝑖 é𝑟𝑡é𝑘 = =
á𝑡𝑙𝑎𝑔𝑜𝑠 𝑣á𝑙𝑡𝑜𝑧𝑎𝑡𝑜𝑠𝑠á𝑔, 𝑎𝑚𝑖𝑡 𝑎 𝑚𝑜𝑑𝑒𝑙𝑙 𝑛𝑒𝑚 𝑚𝑎𝑔𝑦𝑎𝑟á𝑧 ℎ𝑖𝑏𝑎

• (Ez egyelőre egy kicsit pongyola meghatározás, de a statisztikai értéke jelentésének megértéséhez elég. A
fogalmak ennél pontosabb definíciójától egyelőre eltekintünk, majd a lineáris regresszió alatt visszatérünk rá.)

Durva megközelítésben azt lehet mondani, hogy ez a végrehajtási utasítás kiszámított értéke
A függő (kimeneti) változó teljes varianciája: A magasságnak van egy varianciája, változatossága.
A prediktor változó szerepe: A függő változó varianciát szeretnénk egy magyarázó (prediktor) változóval, például a
nemmel magyarázni.
Modell: Látjuk, hogy a férfiak átlagosan magasabbak, mint a nők. Erre felállítunk egy modellt.
Hatás: A férfi és női minta átlaga közötti különbség, az a varianciarész, melyet a magasságból a nem megmagyaráz,
melyről a modellel számot tudunk adni.
Hiba: A mintákon belüli változatosság pedig a hiba, az a varianciarész, melyet a prediktor (a nem) nem magyaráz.

modell
Teljes variancia

hiba
magasság
magasság

magasság

hatás

hiba
Nőkhöz
Férfiakhoz predikált érték
predikált érték
Hipotézis tesztelés
„The six most confusing words in statistics: failed to reject the null hypothesis”
Rebecca G. Bettencourt
.
Null és alternatív hipotézis
• Nullhipotézis
• Nincs hatása a kísérleti manipulációnak / nincs kapcsolat a változók között / nincs különbség a
minták között
• Ez az, amit tesztelni tudunk, amihez a eloszlásgörbe tartozik. (nullhipotézis eloszlása)
• Példák a nullhipotézisre:
• Ha az a hipotézised, hogy férfiak és nők különböző magasságúak, akkor a nullhipotézis, hogy
• férfiak és nők magassága között nincs különbség
• (mert) férfiak és nők a magasság szempontjából egyazon populációból származnak
• Ha az a hipotézised, hogy a magasság és súly összefüggésben van, akkor a nullhipotézis, hogy
• magasság és súly között nincs kapcsolat
• (mert) a magasság és súly a populációban egymástól független (ortogonális) tulajdonságok

• Alternatív hipotézis
• Az adott kísérleti elrendezésnek hatása van a vizsgált változóra / a vizsgált változók között
kapcsolat van / a minták között különbség van
• Ha a nullhipotézis valószínűsége túl kicsi, akkor elvetjük, és helyette elfogadjuk az alternatív
hipotézist igaznak.
• Fisher és a teakóstoló nő
Muriel Bristol
• 193X-ben egy teázgatás során a Rothamsted Kutatóközpont fiatal algakutatónője,
Muriel azt állította, hogy meg tudja állapítani a tej vagy tea került először
kitöltésre.
• Null hipotézis: a nő nem tudja megállapítani a sorrendet
• Kísérlet: nyolc csésze tea (felébe tej, majd tea, másik felébe fordítva). Válassza ki
azt a négyet, amibe először a tea került! (a feladat nyolcból négy kiválasztása)
• Ha igaz is a nullhipotézis, találgatás közben előfordulhat, hogy eltalál egy-két
csészét (ez véletlen szerepe). 0.6

• Megvan a maga valószínűsége annak, hogy egyet 0.5

sem talál el, annak, hogy egyet, kettőt, stb...

Valószínűség
0.4

A valószínűségek felrajzolhatók eloszlásgörbén. 0.3

• Ha csak találgat – legnagyobb valószínűsége 0.2

(51,4%) annak van, hogy a felét találja el, és 0.1

annak, hogy mind a négyet, összesen 1,42%. 0


0 1 2 3 4
Eltalált csészék száma

• Így ha mindet eltalálta, akkor nagyon kicsi a valószínűsége annak, hogy nincs
valamilyen tea-kóstoló képessége
• Tehát ebben az esetben elvetjük a nullhipotézist, és elfogadjuk az alternatívat.
Az ifjú Ronald Fisher
Szignifikancia
• Az eloszlásgörbén a nullhipotézis teljesülése esetén várható statisztikai értékek valószínűségét ábrázoljuk
• Példa: Mekkora statisztikai értéket (t-értéket / különbséget a férfi és női minta magassága között) várunk
abban az esetben, ha a null hipotézis igaz (populációban nincs különbség férfiak és nők magassága
között)?

• Ezen keressük ki a statisztikai értékünk (t-érték) valószínűségét


• p-érték (szignifikancia érték): Adott t-érték előfordulási 0.4

t-értékek valószínűsége df=18 esetén


valószínűsége, ha a nullhipotézis igaz 0.35

0.3

• Ha a nullhipotézis teljesülése esetén a kapott statisztikai 0.25 α = 2,5% α = 2,5%


érték előfordulási valószínűsége nagyon alacsony, akkor 0.2
elvetjük a nullhipotézist. t = 2,717
0.15
p = 1,4%
0.1
• Mi legyen a „nagyon alacsony” kritériuma? 0.05
• Fisher definíciója alapján legyen 5% a kritérium
• Szignifikancia szint (α): az a kritérium szint, aminél a p-nek 0

-0.8
-0.4
0

4
-3.8
-3.6
-3.4
-3.2
-2.8
-2.6
-2.4
-2.2
-1.8
-1.6
-1.4
-1.2

-0.6
-0.2

3.8
-4

-3

-2

-1

0.2
0.4
0.6
0.8
1.2
1.4
1.6
1.8
2.2
2.4
2.6
2.8
3.2
3.4
3.6
kisebbnek kell lenni ahhoz, hogy elvessük a null hipotézist t-értékek

• Szignifikancia Fisher definíciója alapján:


• Csak ha maximum 5% a valószínűsége annak, hogy a mintát véletlenül úgy válogattuk össze, hogy
úgy tűnik van valamilyen hatás, pedig valójában nincsen, akkor hisszük el a hatás létezését.
Szignifikancia előző példa részletesebben
p < .05
p-érték / szignifikancia érték – adott hatásnagyság Szignifikancia szint – az a kritérium szint, aminél a p-nek
valószínűsége a nullhipotézis igaz volta esetén kisebbnek kell lenni ahhoz, hogy elvessük a nullhipotézist
Ezt az értéket keretük a táblázatban, most a program nem intervallumot, hanem pontos értéket fog adni

• Hipotézis: Különbség van férfiak és nők magasságában. Ez az az érték, amit a hipotézisizsálat 4. pontjában határoztunk meg. Ennyi hibát vállalunk

• Elméleti megközelítés:
• Nullhipotézis: nincs különbség férfiak és nők között a magasságban. Magasság tekintetében egy populációból
származnak. Alternatív hipotézis: Van különbség férfiak és nők között a magasság mértékében.

• Statisztika:
• Lemérek 10 férfit és 10 nőt. Férfiak: M = 171.4 SD = 4.24 ; nők: M = 166.4 SD = 3.97 ; df=18
• A t-próba eredménye: t(18) = 2.717 p = .014
• A 2.717-es t-értékhez (és df=18-hoz) tartozó valószínűség p = .014, tehát 1.4% a valószínűsége annak, hogy a
nullhipotézis igaz (a populációban nincs különbség), és véletlenül mégis olyan mintát vettem belőle, amiben ekkora
különbség látszik férfiak és nők között. Másképp: ha a nullhipotézis igaz (a populációban nincs különbség), és a
populációból veszek véletlenszerűen 100 mintát, akkor várhatóan 1,4 mintában kapok férfiak és nők között legalább
ekkora különbséget.

• Ez szignifikáns-e vagy sem?


• p < .05 tehát szignifikáns különbséget találtunk (az 1.4% kisebb, mint az előre megállapított kritérium szintem, ami 5%)
• 5%-nál kisebb a valószínűsége, hogy a nullhipotézis igaz, mégis ekkora különbséget mérek.
• Ezért a nullhipotézist elvetem, és az alternatív hipotézist fogadom el igaznak.
Szignifikancia – gyakori tévedések
• „Elég a p < .05-öt kiírni”
• „A szignifikancia szintet még a statisztikák elvégzése előtt állapítottam meg, ezért az érdekes
csak, hogy p ennél kisebb vagy nagyobb, nem az, hogy mennyi” – elavult elgondolás
• Mert: egyik kutató p = .055-ot másik p = .045-et talál
• APA formátum szerint ki kell írni a p értékét 3 tizedesjegyig!
(APA = American Psychological Association)
• „Nagyon szignifikáns hatást találtam”
• Attól, hogy valami szignifikáns még nem biztos, hogy jelentős
• Nagyon pici hatás is lehet szignifikáns, ha például elég emberrel vettem fel
• „Nem szignifikáns a különbség, tehát a két minta egyenlő”
• Ha el kell vetnem az alternatív hipotézist, attól még a nullhipotézis NEM lesz igaz
• Lehet, hogy nincs hatás, vagy annyira gyenge, hogy nem tudom megmondani, a véletlen
műve-e
• A nem-szignifikáns eredmény jelentése: (1) A populációban vélhetőleg nincs hatás (2) túl nagy a zaj
vagy túl kicsi a minta, hogy el merjem vetni a nullhipotézist

• "Szignifikáns különbséget találtam, tehát tuti különböznek”


• Valószínűségekkel számolunk. Ha valami szignifikáns, az csak azt jelenti, hogy kicsi az esélye,
hogy nincs hatás, és mégis ilyen adatokat sikerült gyűjtenem, de soha nem biztos a hatás
létezése
Első- és másodfajú hiba
• A statisztikában valószínűségekkel dolgozunk, ezért bárhogy döntünk, mindig megvan a valószínűsége, hogy
tévedtünk. Kétféleképpen tévedhetünk:
• Elsőfajú hiba ( α - szint )
• Amikor valamilyen hatásról azt hisszük, hogy létezik,
pedig nem.
• Amikor a nullhipotézist elvetjük, pedig igaz.
• A tévedés maximálisan elfogadható valószínűségét a
szignifikancia szinttel határozzuk meg (5%)
• Másodfajú hiba ( ß - szint)
• Amikor valamilyen hatásról azt hisszük, hogy nem létezik,
pedig csak nem vettük észre
• Amikor a null hipotézist elfogadjuk, pedig nem igaz
• Cohen alapján elvárható érték 0.2 alatt van, tehát
maximum 20% valószínűsége lehet annak, hogy nem veszünk
észre egy meglévő hatást
• Trade-off a kettő között – de nem egyenes összefüggés
Másodfajú hiba és statisztikai erő
• Statisztikai erő
• Arra való képességet méri, hogy
• ha a változónknak van hatása, azt észrevesszük
• a null hipotézist helyesen elutasítsuk, ha nem igaz
• A másodfajú hiba komplementuma (másodfajú: amikor valamilyen hatásról azt hisszük, hogy nem
létezik, pedig csak nem vettük észre)
• Elfogadható értéke: 1-ß = 0.8
• Elfogadható, ha 0.8 feletti, tehát, ha van valamilyen hatás, azt 80% valószínűséggel észre fogjuk venni

• Mire használjuk?
• A szükséges elemszám becslésére használják
• A már felvett minta értékei alapján megtudhatjuk, hogy körülbelül mennyi fővel kell még
felvennünk a tesztet, hogy a hatás kimutatható legyen
• https://www.dssresearch.com/KnowledgeCenter/toolkitcalculators/samplesizecalculators.aspx
• http://epitools.ausvet.com.au/content.php?page=SampleSize
• Használatukról: samplesize_alternativ.pdf és a statgyak-03-alapfogalmak-08 youtube videó
A következő diákon az elemszám becslő program használata látszik

Végeztünk egy előkísérletet férfiak nők magasságának mérésére. A következő


eredményeket kaptuk:
férfiak csoportja:
𝑥ҧ = 181,2 𝑠 = 31,2
nők csoportja:
𝑥ҧ = 158,9 𝑠 = 20,8
Arra vagyunk kíváncsiak, hogy ha a szignifikancia szint 5%, a második fajta
hibát 20%-ban maximáljuk, mekkora elemszámú mintákat kell venni?
Válasszák a
http://epitools.ausvet.com.au/content.php?page=SampleSize
programot. Elinduláskor a következőt kell látniuk
A következő diákon az elemszám becslő program használata látszik
Válasszák a kérdésünknek megfelelő utat :
Two means with unequal sample size and unequal variances

Adják meg az adatokat:


Figyeljenek, a program csak tizedes pontot fogad el!
A kérdésben variancia szerepel, nem szórás
Nem a szignifikancia szint, hanem a konfidencia szint a kérdés, azaz 95%
Nem a második fajta hiba, hanem az erő a kérdés, tehát 80%
Az elemszámok arányát kell megadni, így egyenlő elemszámot fog javasolni a
két csoporthoz. Ez általában jó, csak akkor kérünk mást, ha tudjuk, hogy az
egyik csoportunkhoz nehezen találunk elemeket (ritka betegség….)
Figyeljenek, hogy egyoldali vagy kétoldali kérdést fognak feltenni. Én itt
kétoldalit jelöltem
A következő diákon az elemszám becslő program használata látszik

Ha mindez megvan, kapják az eredményt:

Tehát két 23 fős csoportot számolt


Elemszám / szignifikancia
• Minél nagyobb az elemszám, annál kisebb hatás is szignifikáns lesz. Miért?
• Melyik esetben hiszed el inkább, hogy különbség van a két csoport között?
16 16
16

15 15
15

14 14
14

13 13
13

12 12
12

11 11
11

10 10
10
0 1 2 3 0 1 2 3
0 1 2 3

Áltag: 12.5 és 13 Áltag: 12.5 és 13 Áltag: 12.5 és 13


Szórás: 0.7 és 0.7 Szórás: 0.7 és 0.7 Szórás: 0.7 és 0.7
Elemszám: 2 és 2 Elemszám: 5 és 5 Elemszám: 15 és 15

• Ha tényleg ott a hatás, minél nagyobb az elemszám, annál szignifikánsabb lesz az eredmény, ha nincsen
ott a hatás, az elemszám növelése nem segít
Egy- és kétvégű statisztikai tesztek
• One & Two-tailed test / egy- és kétoldalú / egy- és kétvégű tesztek
• t-érték legyen férfiak magassága minusz nőké, ekkor 3 lehetőség van:
• Férfiak magasabbak a nőknél: t-érték pozitív lesz
• Nők magasabbak a férfiaknál: t-érték negatív lesz
0
• Nincs különbség a férfiak és nők magasságában (nullhipotézis): t-érték nulla körül lesz

Egyoldalú tesztelés Kétoldalú tesztelés


Férfiak magasabbak a nőknél Nők magasabbak a férfiaknál Férfiak és nők között különbség van

5% 5% 2,5% 2,5%

• (Az eredményekben az irányt az fogja mutatni, hogy negatív vagy pozitív a szám: például r = -0.45 p <
0.05 vagy t(46) = -3.7 p < 0.001)
• A p-értékek után a statisztika tesztelésénél MINDIG közölni kell, hogy 1-tailed vagy 2-tailed történt a
tesztelés!
Egy- és kétvégű statisztikai tesztek
• Példa egyoldalú hipotézisekre:
• A férfiak szorongása magasabb a nőkénél.
• A magasság és súly között pozitív összefüggés van
• A feladatban mért gyorsaság és pontosság negatívan függ össze
• A tréninget követően magasabb a személyek éntudatossága, mint a tréninget megelőzően.
• Az ötven év feletti társadalomban a nemi arány eltér az 50-50%-tól. Ötven év felett több a nő.
• Különbség van anorexiás és egészséges személyek BMI értékében. Az anorexiások BMI értéke
alacsonyabb.

• Példa kétoldalú hipotézisekre:


• Férfiak és nők szorongásában különbség van
• A szakmák különböznek abban, a személyek mennyire elkötelezettek.
• A túlórázás mértéke és a munkahellyel való elégedettség közt összefüggés van.
Effect-size
• Effect-size (hatásnagyság)
• A hatás nagyságát adja meg a mintában.
• Ebből adódóan az effect-size mutatók valójában a leíró statisztikákhoz tartoznak!!!
• A megmagyarázott és teljes variancia aránya (a modell mennyit magyaráz a függő
változó változatosságából)
• Több effect-size mutató létezik, mi kettőről tanulunk: ez a Pearson-féle korrelációs
együttható és a Cohen-féle delta érték
• 1. Pearson-féle korrelációs együttható ( r ) és annak négyzete (R2)
• Az r 0-tól 1-ig adja meg a megmagyarázott variancia arányát
• r < .10 elhanyagolhatóan kicsi hatás
• r = .10 kicsi hatás – a variancia 1%-át tudjuk magyarázni
• r40 = .30 közepes hatás – a variancia
40
9%-át tudjuk magyarázni 40


30
r30 = .50 erős hatás – a variancia30 25%-át tudjuk magyarázni
20
20 20
10
10 10
0
0 -3 2 7 12
0 -10
-3 2 7 12
-3 2 7 12
r = 1 az Y varianciáját teljesen r < 1, de az Y varianciájának nagy Az effect size még kisebb, az Y varianciájából
megmagyarázza az X részét meg tudjuk X-szel magyarázni még kevesebb tudunk X-szel megmagyarázni
Effect-size
• 2. Cohen-féle d (delta) érték
• A két csoport átlagának különbsége a szórás függvényében
• Megadja, két minta mennyire van átfedésben egymással
ഥ1 −ഥ
𝒙 𝒙2
•𝑑= 𝑠
APA style
.
Publikáció szabályai (APA formátum)
• Minden tesztnek van publikációs formája, melyet követni kell
• Pl. t(23) = 1.49 p = .023 (1-tailed) r = .24

• Dőlt betűk:
• A statisztikai jelöléseket dőlt betűvel kell írni
• Pl. átlag: M , szórás: SD , t-próba: t
• Ez alól kivétel a konfidencia intervallum, amit nem szabad dönteni (95%-os CI vagy CI95)

• Kezdő nulla:
• Azoknál a mutatóknál, melyek értéke nem haladhatja meg az 1-et (pl. szignifikanciaszint, effect-size), a
tizedesvessző/pont előtti nullát el kell hagyni
• Pl. p = .023 vagy r = .52
• Az eddigi diákon az egyszerűség kedvéért nem így szerepeltek az értékek, mostantól azonban
eszerint fogom publikálni a próbák eredményét
• Figyelj! Nem mindegy, hogy p = 0.05 illetve p = .05 vagy p = 0.5 illetve p = .5
• Ahol viszont meghaladhatja az 1-et, kötelező a kezdő nulla kiírása
• Pl. t(26)=0.123
Publikáció szabályai (APA formátum)
• p-érték
• A p értékét ki kell írni 2 vagy 3 tizedes jegy pontossággal.
• Ez alól kivétel, ha olyan kicsi/nagy az értéke, hogy nem fér bele a három tizedes jegybe vagy nem
állapítható meg pontosan

Eset SPSS-ben Helyes jelölés


p nagyon kicsi .000 p < .001
p a megjeleníthető tartományban van .034 p = .034
p túl nagy .200* ill. 1.000 p > .200 ill. p > .999

• Egyes táblázatokban vagy grafikonokon néha csak csillaggal jelöljük a szignifikanciát. Ilyenkor a táblázat
alá kell a csillagok jelentését írni. Tukey HSD utóvizsgálat a különböző mértékben terhelt
csoportok közötti különbség vizsgálatára
***
Tábla 12. Tukey HSD utóvizsgálat a különböző mértékben terhelt csoportok közötti 20
**
különbség vizsgálatára

Teljesítmény ± CI95
15
Különbség SE
Kontrol Alacsony terhelés -1 0.886 10

Kontrol Magas terhelés -2,6 *** 0.859 5

Alacsony terhelés Magas terhelés -1,6 ** 0.915 0


Kontrol Alacsony terhelés Magas terhelés
** szignifikáns p < .01 szinten; *** szingifikáns p < .001 szinten ** szignifikáns p < .01 szinten; *** szignifikáns p < .001 szinten
Publikáció szabályai (APA formátum)
• A statisztikai próbáknál a következő mutatókat kell publikálni:
• statisztikai érték (pl. t-érték, F-érték)
• szignifikanciaérték (p-érték) és a próba oldalisága (1-tailed vagy 2-tailed)
• Effect size (pl. r, d, η, φ, Ѡ) – nagyon ritkán, pl. feltételek tesztelésénél elhagyható
• Szabadságfok (df) – ez nem minden esetben van, de van olyan, hogy kettő is van

• Minta bemutatásánál minden esetben kell publikálni:


• Középérték (pl. átlag vagy medián)
• Szórás
• Elemszám

• APA tizedespontot ír elő, magyar helyesírás tizedes vesszőt. Választhatsz, de légy konzisztens

• Felsorolásoknál (pl. több df esetén) tegyél szóközt, hogy elkülönítsd az értékeket pl. F(2, 33) a helyes az
F(2,33) helyett, mely tört számként is érthető

• Egyenlőségjelek köré tégy szóközöket a könnyebb átláthatóság érdekében


Rövidítések gyűjteménye
Statisztikában gyakran Mintára vonatkozó Populációra vonatkozó
használt jelölés jelölés jelölés
Elemszám n vagy N n N
Átlag (mean) M 𝑥ҧ µ („mű”)
Szórás (standard deviation) SD vagy s s σ („szigma”)
Variancia Var vagy s2 s2 σ2
Standard error SE vagy 𝑠𝑥ҧ 𝑠𝑥ҧ σ𝑥ҧ
Konfidencia intervallum (confidence interval) 95% CI vagy CI95
p-érték p vagy Sig.
Pearson-féle korrelációs együttható r
Cohen-féle delta d
Standardizált érték (z-érték) Z vagy z
Szabadságfok df
Elsőfajú hiba α
Másodfajú hiba β
Null hipotézis H0
Összefüggések statisztikai
elemzése
BBNPS01000

Statisztikai próbák feltételeinek ellenőrzése


A két orvosi ló
Hipotézisek – próbák - feltételek
• A kutatásokat azért
végzünk, mert kérdéseink vannak. Például kíváncsiak
lehetünk arra, különbözik-e férfiak és nők szorongása egymástól.
• A kérdések mentén hipotéziseket fogalmazunk meg, például: Férfiak és nők különböznek a
szorongás tekintetében.
• Egy hipotézis tesztelésére több statisztikai próba is alkalmas lehet:
• Például az előző kérdés vizsgálható független mintás t-próbával, Mann-Whitney
teszttel, Moses extreme reaction teszttel, Wald-Wolfowitz run teszttel, stb.
• A lehetséges próbák közül néhány alkalmasabb az adott hipotézis
tesztelésére, mint a többi, mert
• amit a próba tesztel, jobban illeszkedik a kutatási kérdéshez
• Például ehhez a hipotézishez jobban illik a t-próba és a Mann-Whitney teszt, melyek a
középértékek között keresnek különbséget, mint a Moses Extreme reaction teszt, mely a
szórásokban keres különbséget. (Tehát valójában nem is erre a kérdésre keres választ)
• érzékenyebb teszt, mint a másik
• Például a t-próba érzékenyebb, mint a Mann-Whitney próba, míg a t-próba egy úgynevezett
parametrikus próba, a Mann-Whitney próba nem az (erről később)
A két orvosi ló
• A következő diasorban ezekről a feltételekről, és ellenőrzésükről fogunk
tanulni.

• Átismételjük két tanult próba elméletét, hogy tudjuk mihez kötni a


feltételek ellenőrzését
Megnézzük a mostani és következő félév legnagyobb két próbáját, a
Pearson korrelációt és a független mintás t-próbát, és ezen próbák
feltételein keresztül tanuljuk meg, hogyan kell a statisztikai próbák
feltételeit ellenőrizni. A próbákat részletesen ez és a következő félév során
tanulni fogjuk.

A hipotézisvizsgálat pontjai, miket emelünk most ki:


1. Kérdésfeltevés
2. Módszerválasztás
3. Nullhipotézis
Röviden a Pearson korrelációról
• Két folytonos változó közötti lineáris együttjárást vizsgálja.
• Például az elfogyasztott csoki mennyisége és a boldogság között pozitív kapcsolat
található, mert ha nő az elfogyasztott csoki mennyisége, azzal együtt nő a boldogság
is. (Egyoldali kérdés)
• Működése konyhanyelven:
• A két változó közötti kapcsolatot egy egyenessel próbálja modellezni. Annál erősebb
korrelációt jelez,
• minél jobban leírja a modell a pontokat, azaz
• minél közelebb helyezkednek el a pontok az egyeneshez, azaz
25
• 25
minél kisebb a modell pontatlansága, azaz 25
Nem lineáris
20 • 20
összefüggés
minél pontosabban be lehet20 jósolni az egyik változóból a másik változó értékét.
• Csak lineáris összefüggések vizsgálatára alkalmas
Boldogság mértéke

Boldogság mértéke

Boldogság mértéke
15 15 15

10 10 10

5 5 5

Erősebb korreláció Gyengébb korreláció


0 0 0
0 50 100 150 200 0 50 100 150 200 250 300 0 5 10 15 20
Elfogyasztott csoki mennyisége (gramm) Elfogyasztott pizza mennyisége (gramm) Elfogyasztott alkohol mennyisége (dl)
Röviden a független mintás t-próbáról
• Két csoport eltérését vizsgálja valamely tulajdonság mentén
• Például férfiak és nők különböznek a téri vizualizáció képességében, a férfiak
ügyesebbek e területen. (Egyoldali kérdés)
• Működése konyhanyelven:
• A két csoportot a két mintaátlag reprezentálja.
• Kiszámolja, mekkora a hatás (a két csoport átlaga közötti különbség) és mekkora a zaj
(a csoportokon belüli változatosság).
• A t-próba annál jelentősebb eltérést fog a két csoport között jelezni,
• minél nagyobb a különbség a csoportok átlaga között és/vagy minél kisebb a különbség az
egyedek
25 között a csoportokon belül,25 azaz 25

• minél jobb a hatás/zaj arány. (emlékezzenek, ez a statisztikai érték)


20 20 20

Mechanikai érvelés

Becslési pontosság
Téri vizualizáció

hiba

15
hatás 15 15

10 10 10

5 5 5

Nagy hatás Kicsi zaj


0 0 0
Férfi Nő Férfi Nő Férfi Nő
Feltételek ellenőrzése
Parametrikus adatok
(a normális eloszlásból származó adatokat nevezzük parametrikusnak, mert úgy ismerjük meg, hogy a paramétereit becsüljük)

• Minden tesztnek, amit végzünk vannak feltételei. A feltételek közül öt nagyon sok tesztnél
előfordul, ezért ezeket külön vesszük.

• Parametrikusság négy feltétele


• Parametrikus tesztek megkívánják, hogy az adatok parametrikusak legyenek, tehát az
alábbi négy feltételt kielégítsék.
• Függetlenség (ezt a véletlen mintavétel biztosítja)
Kialakítani kell
• Legalább intervallumskála típusú adatok
• Normál eloszlás
• Szóráshomogenitás Ellenőrizni kell

• Linearitás
Nyilván csak kapcsolat jellegű kérdésnél jön elő
Tudjuk, hogy ha a két változó együtt normális
• Összefoglaló flowchart: adatfeldolgozas_flowchart.pdf (harangfelület), akkor a kapcsolat csak lineáris lehet.
De! csak külön-külön tudjuk a normalitást vizsgálni
Milyen mintán ellenőrizzük a feltételeket?
• A feltétel-ellenőrzést nem l'art pour l'art végezzük, hanem H1: Összefüggés van a WBI H2: Összefüggés van a WBI
mindig egy adott statisztikai teszthez kötötten – így fontos, és a szűk kapcsolati kör és a tág kapcsolati kör
hogy azokon az adatokon végezzük el a feltételtesztelést, amin mérete között mérete között
majd a teszt is dolgozik.
• Például teszteljük a WBI normalitását!
• H1 esetén a tesztelést mind az 50 főn kell
végezni, mert mindenkinek megvan mindkét
adata, azaz mindenki részt vesz az elemzésben
• H2 esetén nincs mindenkinek nagykör értéke,
így az elemzésben sem vesz mindenki részt. A
WBI normalitását csak azok körében kell
végezni, akiknek mind a két adata megvan.
• Helytelen gyakorlat, hogy a műhelymunka
„Eredmények” részének első fejezete egy
általános feltételellenőrzés, és csak ezt
követik a hipotézisek. Minden egyes
hipotézis megválaszolására végzett
statisztikai próba előtt feltételellenőrzés kell
álljon!
1. Kérdésfeltevés:
Pozitív összefüggés van a pszichológiai jól-lét és a szűk kapcsolati kör mérete között
2. Lineáris korreláció vizsgálata (korrelációs t-próba
3. Nullhipotézis
4. Szignifikancia szint
5. Tervezés
6. Végrehajtás
7. Adatgyűjtés
8. Itt kell ellenőrizni a feltételeket
9.

Hipotézis: Pozitív összefüggés van a pszichológiai jól-lét és a szűk kapcsolati kör mérete között.

Feltételek ellenőrzése korrelációs vizsgálatnál:


függetlenség
skála típusú változók
normalitás
szóráshomogenitás
linearitás
Első hipotézis
• Hipotézis: Pozitív összefüggés van a pszichológiai jól-lét és a szűk kapcsolati kör mérete
között.
• A hipotézist Pearson korrelációval szeretnénk ellenőrizni.
• A Pearson korrelációnak öt feltétele van (hogy melyik próbának mi a feltétele, azt mindig
az adott próba megismerése során fogjuk megtanulni). Szűk kapcsolati kör
Pszichológiai jól-lét mérete
Egyedek függetlensége

Skála típusú változók

Normalitás

Szóráshomogenitás

Linearitás
Függetlenség
• Minek a függetlensége a parametrikusság feltétele?
• Válaszadók (mérések, azaz sorok) függetlenségét feltételezzük.
• Miért szükséges a függetlenség teljesülése?
• A nagy számok törvénye (melyre a próbák építenek) független megfigyelések esetén működik.
• Példa a sérülésére:
• Tanulással töltött idő és tanulmányi eredmény összefüggésének vizsgálata – de az
évfolyamban tanulócsoportok vannak – egy-egy csoporton belül, mivel együtt tanulnak,
hasonló lesz a tanulással töltött idő, és mivel ugyanazokat a példákat nézik át, ugyanazt értik
meg jobban/kevésbé, ezért hasonló lesz az eredmény is. A tanulócsoportok tagja nem lesznek
függetlenek egymástól.
• Reakcióidő mérésben egy ember válaszainak összevonása helyett az összes mérés egymás alá
téve. Az egy személytől származó adatok nem függetlenek egymástól.
• Két részvény mozgásának összefüggés-vizsgálatához a tőzsdei árfolyam monitorozása egy éven
keresztül. Egy napi árfolyam nem független a megelőző napoktól (ez az ún. szeriális korreláció)
• Ne zavarjon össze, későbbiekben más függetlenségi feltételek is lesznek (pl. ANOVA
feltétele a csoportok függetlensége is)
• Teljesül a függetlenség a két vizsgált változónál?
• A kitöltők nem ismerik egymást, így nem egymásnak barátai, a szűk kapcsolati
körük mérete tekintetében egymástól függetlenek. Illetve nem befolyásolják
egymás pszichológiai jól-létét, így ebből a szempontból is függetlenek.
Szűk kapcsolati kör
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók

Normalitás

Szóráshomogenitás

Linearitás
Skála típusú adatok
• A parametrikus tesztek legalább intervallum skála típusú (függő) változó(ko)n működnek
• Intervallum skála típusú - az elemek sorba rendezhetőek, az elemek közötti különbség is
kifejezhető, nincs természetes nulla pont.
• Arány skála típusú – az értékek nagyság szerint sorba rendezhetőek, az elemek közötti különbség
kifejezhető, lehet arányokat számítani, és van természetes nulla pont.
• Skála típusú – A legtöbb statisztikai elemzés során nem használjuk ki a természetes nulla pont
előnyeit, ezért az az intervallum és arány skálát sokszor egységesen, skála típusként kezeljük
• Együtt kezeljük őket, de azért okozhatnak különbséget a statisztikáinkban, BA alatt tanult
próbákban ilyen nem jön elő, MA alatt tanult regresszióban látható rá példa)
• Legalább intervallum szintű – a skála típusú változókra szoktunk így hivatkozni, legalább
intervallum szintű, tehát vagy intervallum skála típusú vagy arányskála típusú.
• Folytonos – tehát minden ponton értelmezhető (legalább egy intervallumon belül), például az 1 és
2 cm között van 0,5cm, de 0,25 vagy 0,22453cm is, a skála tetszőleges finomsággal felbontható. Bár
ez így rendkívül pontatlan, és a két fogalom nem azonos, sokszor a skála típusú változókra utalunk a
folytonos változó elnevezéssel.
Skála típusú adatok
• Néhány kivétel:
• Kvázi intervallum típusú – a változó szigorú értelemben véve ordinálisnak tekintendő, de bizonyos
tulajdonságai miatt olyan próbákban is használható, melyek feltétele a legalább intevallum szintű
változó.
• Intelligencia – az IQ számolásából adódóan csak ordinális változónak tekinthető, de az elemzések
során kvázi intervallum skála típusúnak tekintjük.
• Likert-skála – Statisztikailag a Likert-skála egy iteme ordinálisnak tekintendő, de sok esetben kvázi
intervallum típusúnak tekintjük, és az itemekből számolt skálákkal már, mint skála típusú változóval
szoktunk számolni.
• Dichotóm változó – csak kétféle értéket vehet fel
• Dichotóm változók sokszor beemelhetők parametrikus próbákba, de nem mindig – például Pearson
korrelációba beemelhető egy dichotóm változó, de a t-próba függő változója nem lehet az

• Dummy változó – megoldás arra, hogy miként lehetne kategoriális változókat betenni olyan elemzésbe,
melybe eredetileg csak skála típusúak kerülhettek.
• Tegyük fel, hogy van egy nemzetiség változónk angol, német, francia kategóriákkal, és szeretnénk ezt a regresszióba betenni.
Készítsünk egy darab nemzetiség változóból két dummy változót: (1) angolság, ahol 1, ha angol, és 0, ha nem angol, vagyis
német vagy francia (2) németség, ahol 1, ha német, és 0, ha nem német, vagyis angol vagy francia. A harmadikra dummyra, a
franciaságra nincs szükség, hiszen egyértelműen adódik, ha a németség és angolság is nulla, akkor franciáról van szó. Az így
kapott két dummy változó már dichotóm, tehát betehető a regressziós elemzésbe.
• Teljesül a skála típus feltétele a két vizsgált változónál?
• A szűk kapcsolati kör mérete arányskála típusú változó, hiszen akinek hat
barátja van, annak kétszer annyi barátja van, mint akinek három. A
Pszichológiai jól-lét egy Likert-skálás kérdőívből számolt skála változó.
Szűk kapcsolati kör
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók  

Normalitás

Szóráshomogenitás

Linearitás
Emlékeztető a normál eloszlásról
• Normál vagy Z vagy Gauss-eloszlás
• Folytonos változók eloszlásának leírására alkalmas,
• Haranggörbe alakú, Unimodális, Szimmetrikus az átlag körül,
• Bár értéke az egész számegyenesen nézve soha nem csökken nullára, három szórás távolságra
gyakorlatilag annak tekinthető
Emlékeztető a normál eloszlásról
• Két fontos eltérés
• Ferdeség (skewness) és csúcsosság (kurtosis)
• Ferdeség:
• A normál eloszlás ferdesége 0 (szimmetrikus)
• Pozitív ferdeség: az az eloszlásgörbe pozitív irányba nyúlik el
• Negatív ferdeség: az eloszlásgörbe negatív irányba nyúlik el
• Értéke az egész számegyenesen értelmezett, de ±3-at ritkán
haladja meg

• Csúcsosság:
• A normál eloszlás csúcsossága 0
• Pozitív csúcsosság: az az eloszlásgörbe csúcsos
• Negatív csúcsosság: az eloszlásgörbe lapos
• Értéke az egész számegyenesen értelmezett, de ±3-at ritkán
haladja meg

1998 G. Meixner
Normalitás feltételének ellenőrzése
• Grafikusan hisztogramot megnézve (Q-Q plot – mintánként külön megjelenítve)
• Statisztikailag
• három elégséges feltétele van a normalitásnak, BÁRMELYIK teljesül a három közül, a normalitás
feltételét teljesültnek tekinthetem. (mivel a használatukhoz szükséges munka tekintetében A < B < C,
érdemes ebben a sorrendben megpróbálni őket)
• A) Shapiro-Wilk vagy Kolmogorov-Smirnov teszt
• Ellenőrzik, hogy a mintánk eloszlása szignifikánsan különbözik-e egy előre meghatározott eloszlástól
(a mi esetünkben a normál eloszlástól)
• A szignifikáns eredmény jelentése, hogy a minta eloszlása szignifikánsan különbözik a normál
eloszlástól, tehát a normalitás feltétele nem teljesül
• B) z-tesztek
• Mintánként 15 fő felett, ha a minta outlierek nélküli, eloszlása unimodális, ferdesége és csúcsossága
nem tér el szignifikánsan a normál eloszlás esetén várhatótól, feltételezhetjük a normalitás
feltételének teljesülését
• C) Robusztussági körülmények vizsgálata
• Ha egy próba robusztus egy feltételre, az azt jelenti, hogy az adott próba nem érzékeny a feltétel
sérülésére. Ahhoz, hogy egy próba robusztus legyen egy feltételére, bizonyos körülményeknek
teljesülnie kell.
• Nem minden tanult próbánál vannak ilyen körülmények (például a Pearson korrelációnál nem
tanulunk ilyet), de ha vannak, azt az adott próbánál említeni fogjuk.
Normalitás tesztelése a mintán

• A minta normál eloszlása


• önmagában nem feltétel, de tesztelhető, hogy a minta eloszlása szignifikánsan
eltér-e a normál eloszlástól.
• Ha nem tér el a minta szignifikánsan a normál eloszlástól, akkor feltételezhető,
hogy a populáció sem tér el jelentősen tőle

Gondolatmenet iránya

Minta normál Populáció normál


eloszlású eloszlású

Tesztelés iránya
Shapiro-Wilk teszt
• A) Shapiro-Wilk (vagy Kolmogorov-Smirnov teszt)
Azt adja meg, hogy a változó eloszlása szignifikánsan eltér-e a normálistól

Leíró statisztikában találjuk a feltétel


ellenőrzéshez szükséges mutatókat
Shapiro-Wilk teszt

Statistics lehetőségeinél találjuk a Shapiro-Wik


tesztet
Ez már statisztikai próba, tehát
hipotézisvizsgálatban vagyunk
1. Eltér-e a mintánk eloszlása a normálistól
2. S-W
3. A minta és a normál eloszlás között nincs
eltérés (illeszkedik)
4. Szignifikancia szint 0,05
5.
6.
7. Adatgyűjtés
8. Számolás
Két próbát (hipotézisvizsgálatot végzünk
egyszerre, Wbipont és kiskor változókra)
Itt láthatjuk a végrehajtási utasítás
eredményét (statisztikai érték)
9. Döntés
Itt van a keresett p érték (szignifikancia
érték)
A S-W és K-S próba azt teszteli, hogy van-e szignifikáns különbség a mi eloszlásunk és a normáleloszlás
között, így ha szignifikáns, az azt jelenti, hogy az adataink eloszlása szignifikánsan eltér a normál eloszlástól,
azaz nem feltételezhetjük a normál eloszlást. Nézzünk meg a gondolatmenetet:

Szignifikáns
p < .05 Különböznek, tehát NEM feltételezhető
különbség van a
a mintánk eloszlása a normalitás
azaz a S-W teszt mintánk eloszlása és
NEM hasonlít a teljesülése a
szignifikáns a normáleloszlás
normál eloszlásra mintánkon
között

NINCS szignifikáns
p > .05 NINCS Különbség, Feltételezhető a
különbség a
tehát a mintánk normalitás
azaz a S-W teszt mintánk eloszlása és
eloszlása hasonlít a teljesülése a
NEM szignifikáns a normáleloszlás
normál eloszlásra mintánkon
között
Shapiro-Wilk teszt a gyakorlatban

• A WBIpont esetén a S-W teszt nem szignifikáns, azaz nincs


szignifikáns eltérés a normál eloszlástól, tehát feltételezhető
a normalitás.
• A szűk kapcsolati kör mérete esetén a S-W teszt szignifikáns,
azaz, szignifikánsan eltér a normál eloszlástól, tehát NEM
feltételezhető a normalitás a S-W teszt alapján.
• Emlékezz: ez még nem baj, hiszen a normalitás-feltételeket vizsgáló
módszerek közül elég egy alapján teljesülnie a feltételnek.
Publikálása:
Shapiro-Wilk: W([elemszám]) = [W-érték] p = [p-érték]

A normalitás feltételének teszteléséhez Ghasemi és Zahedi-Asl (2012) útmutatását követve a Shapiro-Wilk normalitás tesztet használtam.

A teszt alapján a WHO-WBI skála nem tér el szignifikánsan a normál eloszlástól W(50) = .977 p =
.428.
A szűk kapcsolati kör mérete változó szignifikánsan különbözik a normál eloszlástól: W (50)= .947
p = .025

Hivatkozások:
Ghasemi, A., & Zahedi-Asl, S. (2012). Normality tests for statistical analysis: a guide for non-
statisticians. International journal of endocrinology and metabolism, 10(2), 486.
Thode, H. C. (2002). Testing for normality (Vol. 164). CRC press.
Steinskog, D. J., Tjøstheim, D. B., & Kvamstø, N. G. (2007). A cautionary note on the use of the
Kolmogorov-Smirnov test for normality. Monthly Weather Review, 135(3), 1151-1157.
• Hivatkozhatunk a S-W tesztre a normalitás tesztelése során a két
vizsgált változónál?
• A S-W teszt a WBI esetén nem szignifikáns, ott igen, a szűk kapcsolati kör
Szűkeloszlástól.
esetén azonban szignifikáns eltérést mutat a normál kapcsolati kör
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók  


Normalitás S-W () ()
Z
Robosztus
Szóráshomogenitás

Linearitás
Shapiro-Wilk teszt és a nagy minták
• Nagy mintákon a S-W (és K-S) teszt akkor is szignifikáns lehet, ha a hisztogramon szinte
tökéletes haranggörbe alakot látunk.
• Mint minden hipotézis tesztelés, a Shapiro-Wilk teszt is érzékeny az elemszámra. Minél nagyobb az
elemszám, annál kisebb normalitástól való eltérés is szignifikáns, hiszen minél nagyobb az elemszám,
annál biztosabbak lehetünk abban, hogy a populációban is ott az eltérés a normál eloszláshoz képest.

• Ezért nagy mintákon a S-W teszt eredményét fenntartással kell kezelni, mert
„túl érzékeny”, azaz a normál eloszlástól való kis mértékű, statisztikai elemzést
nem zavaró eltérést is szignifikánsan jelezheti (hiszen valószínű, hogy ez az eltérés
a populációban is jelen van)
Z-tesztek
• Mi van, ha a S-W teszt szignifikáns eltérést mutat a normál eloszlástól?
• Vizsgáld meg közelebbről, mi a baj! Kérj ki hisztogramot, elemezd részletesebben a
problémát!
• Mi okozhat problémát?
• A minta eloszlása túl ferde
• A minta eloszlása túl csúcsos/lapos
• A minta eloszlásának több csúcsa van
• A mintában outlierek vannak
• Ha ezeket leellenőrizted, és egyik sem jellemző
a minta eloszlására, akkor dönthetsz úgy, hogy a
normalitás feltételét teljesültnek tekinted, az
alábbi Z-tesztek segítségével: Példa NEM unimodális eloszlásra

• B) Z-tesztek
• Ha 15 adatnál több van, az eloszlásgörbe legfeljebb csak enyhén ferde, enyhén
csúcsos, unimodális (egy csúcsa van), outlierek nélküli, akkor feltételezhetjük a
normalitás feltételének teljesülését.
Ferdeség és csúcsosság ellenőrzése
• A normálgörbe
ferdesége és
csúcsossága 0.
• Z-tesztekkel
ellenőrizhetjük,
hogy a mintánk
ferdesége és
csúcsossága
szignifikánsan eltér-
e a 0-tól.
• Hogy kérjük ki a ferdeségi és
csúcsossági értékeket?
A boxplotból látjuk, hogy nincs
outlier (már megtisztítottuk az
adatbázist)
Az új dolog ferdeség/csúcsosság,
azt nézzük
Z-értékek számolása ferdeség és csúcsossághoz

• A Z-értéket úgy kapod, hogy a leíró statisztikában látható ferdeség illetve csúcsosság
statisztikai értékét elosztod a hozzá tartozó standard errorral.
𝑺 0,242
𝒛𝒔𝒌𝒆𝒘 = KISKOR: = 0,718
𝑺𝑬𝒔𝒌𝒆𝒘 0,337
Tudjuk, hogy ez a statisztikai érték hatás/hiba
𝑲 −0,930
𝒛𝒌𝒖𝒓𝒕 = KISKOR: = −1,405
𝑺𝑬𝒌𝒖𝒓𝒕 0,662

• Ha |zskew|> 1,96 , akkor a mintaeloszlás ferdesége szignifikánsan eltér a normálistól


• Ha |zkurt|> 1,96, akkor a mintaeloszlás csúcsossága szignifikánsan eltér a normálistól
Z-tesztek
• Teljesül-e a két változónál a normalitás a Z-tesztek alapján:
A normalitást feltételét tel-
jesültnek tekinthetjük, ha  WHO-WBI  Szűk kapcsolati kör
15 adatnál több van,  - 50 embernek van meg mindkét adata.  - 50 embernek van meg mindkét adata.
az eloszlásgörbe  - A kiszámolt Z-érték: −0,653, ami a ±1,96-os  - A kiszámolt Z-érték: 0,718. Ez sem szignifikáns
legfeljebb csak enyhén határon belül helyezkedik el, tehát a minta eltérés a normál eloszlás esetén várttól.
ferde, eloszlásának ferdesége nem tér el szignifikánsan a
normál eloszlás 0 ferdeségétől. A minta eloszlásának
ferdesége nem jelentős.
legfeljebb csak enyhén  - A kiszámolt Z-érték: −0,113, nem szignifikáns,  - A kiszámolt Z-érték: −1,405. Nem szignifikáns
csúcsos, azaz enyhének tekinthető a (jelen esetben) laposság. az eltérés a normál eloszlásnál várt csúcsosságtól.
unimodális - Ez az eloszlás  - az unimodalitás
(egy csúcsa van), gyönyörű. főleg kis elem-
számnál elég enyhe
kritérium, hiszen az
itt látható „lyuk” is
három ember
„hiányából” adódik.

outlierek nélküli.  - elvégeztük az adattisztítást.  - elvégeztük az adattisztítást.


• Hivatkozhatunk a Z-tesztekre a normalitás tesztelése során a két
vizsgált változónál?
• Van legalább 15 fő, akinek megvan mind a két adata, a ferdeség és csúcsosság
tesztek nem szignifikánsak, a hisztogram alapján nincs okunk feltételezni, hogy
Szűk kapcsolati kör
nem unimodálisak az eloszlások, az outliereket szűrtük.
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók  


Normalitás S-W () ()
Z () ()
Robusztus
Szóráshomogenitás

Linearitás
Robusztusság
• Mi van, ha a S-W teszt és a Z-tesztek szignifikáns eltérést mutat a normál
eloszlástól?
• Vizsgáld meg közelebbről, mi a baj! Vannak könnyen észrevehető problémák, melyeken
segíteni lehet, például outlierszűréssel. Ha nem tudod a problémát orvosolni, akkor sincsen
feltétlenül baj, mert vannak olyan körülmények, amikor egy-egy feltételtől el lehet tekinteni.

• C) Robosztussági körülmények vizsgálata


• Az előbb tanultuk meg, hogy a Pearson korrelációnak feltétele a normalitás, és csak akkor
végezhető el a próba, ha teljesül e feltétel, mert ha sérül, akkor az eredmények pontatlanok,
félrevezetők lehetnek (a pontatlanság vezethet akár az első-, akár a másodfajú hiba
megnövekedéséhez is, azaz előfordulhat, hogy szignifikáns eredményt kapunk ott is, ahol
nem kéne, vagy ott sem, ahol igen).
• Néha azonban, ha „szerencsésen állnak együtt a csillagok”, a Pearson korreláció nem lesz
érzékeny a normalitás sérülésére, azaz robusztus lesz a feltételre. Hogy mik ezek a
körülmények, azt az elszánt statisztikusok egyfajta szisztematikus próbálgatással, az úgy
nevezett Monte Carlo szimulációs módszerrel keresik meg.
• Példa: Egyes statisztikusok azt találták, hogy ha az elemszám eléri a 40 főt, és a
szóráshomogenitás feltétele teljesül, akkor hiába sérül a normalitás feltétele, az nem növeli
meg sem az első-, sem a másodfajú hiba valószínűségét, azaz, a próba robusztussá válik a
normalitás feltételére.
• A probléma csak az, hogy a Pearson korrelációnál igen ellentmondásos a szakirodalom, így
ehhez a próbához nem tanulunk használható robusztussági körülményt!
• A Pearson korreláció robusztusságával kapcsolatos szakirodalom
ellentmondásos, így nem tanulunk olyan körülményt, ahol a korreláció
robusztus lenne a normalitás sérülésére.
Szűk kapcsolati kör
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók  


Normalitás S-W () ()
Z () ()
Robusztus (-) (-)

Szóráshomogenitás

Linearitás
• A három módszert összegezve teljesül-e a normalitás feltétele a két
vizsgált változónál?
• A három módszer közül ELÉG, ha az egyik alapján feltételezhető a normalitás.
Szűk kapcsolati kör
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók  


Normalitás S-W () ()
Z ()  () 
Robusztus (-) (-)

Szóráshomogenitás

Linearitás
Ha nincs normalitás?
• Mit csináljak, ha nem-normális?
• Kutatói mérlegelés kérdése, melyik mellett döntesz
• Találd meg a választ, miért nem normális!
• Outliererek
• Valamiért több dolgot sikerült egyszerre mérnünk
• Nem elég érzékeny skála
• Kiválogatott adat (az adatoknak csak egy részét látom)
• Természetes határ (neuron-tüzelés)
• Az adat valamilyen más eloszlást követ
• Növeld az elemszámot!
• Általában a nagyobb elemszám jobban reprezentálja a populációt
• Traszformáld az adatokat!
• Outlierek és ferde eloszlás esetén például jól
működhet az adatokból való gyökvonás vagy
a logaritmizálás
• Használj non-parametrikus próbákat!
Szóráshomogenitás
• Varianciák homogenitása / Szóráshomogenitás
• A két fogalom ugyanazt jelenti (hiszen a variancia „csak” a szórás négyzete), angolban a
homogeneity of variances, magyarban a szóráshomogenitás kifejezés terjedt el
• Azt jelenti, hogy a varianciáknak egyformának kell lenniük az egész mintában

• Ha korrelációs próba feltételeként vizsgáljuk,


• akkor az egyik változónk varianciájának stabilnak kell lennie a másik változó minden szintjén
• Konyhanyelven a pontfelhőnek egyforma „vastagnak” kell mindenhol lenni.
• Miért baj, ha sérül a feltétel? A modell nem fog mindenhol egyforma pontos becslést adni.

280 5
110 300
250 100 250 4
220 90
200 3
190 80
150
160 70 2
60 100
130 1
50 50
100
40 0 0
100 150 200
100 150 200 100 150 200 0 5 10
• Teljesül a szóráshomogenitás feltétele a két vizsgált változó
összefüggésében?
• A pontfelhő egyforma vastag mindenhol, így igen. Vedd észre, hogy
szóráshomogenitás csak két változó összefüggésében
Szűk kapcsolati kör létezik, egyetlen
változóra nem értelmezhető.
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók  

Normalitás  

Szóráshomogenitás 

Linearitás
Linearitás
• Linearitás
• Bár klasszikus értelemben nem tartozik a parametrikusság feltételei közé, a legtöbb statisztika,
amit használni fogunk, lineáris modellt használ.
• Ha nem teljesül, pontatlanok lesznek a felállított modell általi becslések – ez kiemelten igaz
extrapoláció esetén, plusz alul fogod becsülni a magyarázóerőket.
Linearitás vizsgálata pontdiagrammon
• Ugyanazt a pontfelhőt használjuk, mint a szóráshomogenitásnál.

• Ráillesztjük az egyenest
Nem azt kell nézni, hogy jó lesz-e a lineáris modell, hanem, hogy nincs más, ami jellemző
• Teljesül a linearitás feltétele a két vizsgált változó összefüggésében?
• A pontfelhő jól leírható egy egyenessel. Legalább is, nem látható olyan másik
modell (görbe), mely az egyenesnél jobb leírást adna.
Szűk kapcsolati kör
Pszichológiai jól-lét mérete
Egyedek függetlensége  

Skála típusú változók  

Normalitás  

Szóráshomogenitás 

Linearitás  1. Kérdésfeltevés:
Pozitív összefüggés van a pszichológiai jól-lét és a szűk kapcsolati kör mérete között
2. Lineáris korreláció vizsgálata (korrelációs t-próba
3. Nullhipotézis
4. Szignifikancia szint
5. Tervezés
6. Végrehajtás
7. Adatgyűjtés
8. Itt kell ellenőrizni a feltételeket
9.
1. Kérdésfeltevés:
Különbség van férfiak és nők pszichológiai jól-léte között?
2. Független mintás t-próba (d-próba)
3. Nullhipotézis
4. Szignifikancia szint
5. Tervezés
6. Végrehajtás
7. Adatgyűjtés
8. Itt kell ellenőrizni a feltételeket
9.

Hipotézis: Különbség van férfiak és nők pszichológiai jól-léte között.

Feltételek ellenőrzése független mintás t-próba vizsgálatnál:


egyedek függetlenség
minták függetlensége
skála típusú függő változó
normalitás
szóráshomogenitás
Második hipotézis
• Hipotézis: Különbség van férfiak és nők pszichológiai jól-léte között.
• A hipotézist független mintás t-próbával szeretnénk ellenőrizni.
• A független mintás t-próbánal öt feltétele van (hogy melyik próbának mi a feltétele, azt mindig
az adott próba megismerése során fogjuk megtanulni).
• Itt is két változó szerepel, a nem és a pszichológiai jól-lét, de a két változó
nem egyenrangú
• A pszichológia jól-lét ún. függő változó, ezzel kapcsolatban kell a feltételeket ellenőrizni
• A nem csoportosító változó, annak nem kell normál eloszlást
Pszichológiai jól-lét követni vagy skála típusúnak lenni
(függő változó)
Egyedek függetlensége
Minták függetlensége
Skála típusú függőváltozó
Normalitás
Szóráshomogenitás
Kétféle függetlenség-feltétel? Hogy van ez?

• Az egyedek függetlensége
• Válaszadók (mérések, azaz sorok) függetlenségét feltételezzük.
• Ez az a függetlenség-feltétel, mely a parametrikusság feltételei közé tartozik

• A minták függetlensége
• Csoportokat összehasonlító próbáknál jelenik meg
• Azt jelenti, hogy egy személy csak egy mintába tartozik
• Például ha összehasonlítunk angolokat és németeket, akkor egy angol-német kétnemzetiségű
személy nem vehető fel a vizsgálatba, és főleg nem tehető meg, hogy egyszer az angol, egyszer
a német mintába is bekerül
• Teljesül a két függetlenség-feltétel?
• A kitöltők nem ismerik egymást, nem befolyásolják egymás pszichológiai jól-
létét, így ebből a szempontból függetlenek.
• A mintában nincs olyan, aki egyszerre férfi és nő is, így a csoportok függetlenek
egymástól.
Pszichológiai jól-lét (függő változó)
Egyedek függetlensége 
Minták függetlensége 
Skála típusú függőváltozó
Normalitás
Szóráshomogenitás
Skála típusú függő változó
• Teljesül a skála-típus feltétele?
• Skála típusúnak csak a függő változónak kell lenni, mely teljesül. A nem csak a
csoportosító változó, annak nem kell skála típusúnak lenni (és természetesen
nem is az, hiszen nominális változó)

Pszichológiai jól-lét (függő változó)


Egyedek függetlensége 
Minták függetlensége 
Skála típusú függőváltozó 
Normalitás
Szóráshomogenitás
Normalitás feltétele csoportonként
• A normalitás feltételét mintánként külön kell ellenőrizni
• Azt várjuk, hogy a minták különböznek egymástól, azaz eltér az átlaguk. Viszont ha különböznek az
átlagok, akkor máshol lesz a két görbe csúcsa, és ha közösen nézzük őket, nem lesz a közös eloszlásuk
egycsúcsú, azaz unimodális.
• Példaként nézzük meg a női magasságot Bolíviában és Hollandiában!
Bolíviában az átlagos női magasság 142,2cm, és szép normál
eloszlást látunk. Hollandiában is normál eloszlás látható, ott
az átlagos női magasság 170,7cm. Amikor egyben nézzük a
két csoportot, akkor a közös átlag 156,5cm, de az
eloszlásnak jól láthatóan két csúcsa van
• Minél inkább eltér két – egyébként normál
eloszlást követő – populáció középértéke,
annál kevésbé lesz normál eloszlású a
kettőből közösen vett minta eloszlása.
• Normalitás feltételének ellenőrzésénél ez a következőt jelenti:
• S-W vagy K-S teszt: a tesztelést mintánként kell végezni
• Z-tesztek: a feltételeknek mintánként kell teljesülniük
• Robusztussági körülmények: ha mintánként megvan a 40 fő, a két minta
megközelítőleg azonos méretű (az arány kisebb, mint 1,5, azaz a nagyobb nem éri el a
kisebb méretének másfélszeresét), és a szóráshomogenitás teljesül, akkor a
normalitás feltételét nem kell ellenőrizni, mivel a t-próba robusztus a normalitás
sérülésére.
• Az S-W teszt a következőképp kérhető ki:
A leíró statisztikában találjuk, nemenként kérjük Bejelöljük a S-
W tesztet
Az eredményt itt látjuk

Descriptive Statistics
WBIpont
férfi nő
Valid 24 26
Missing 0 0
Mean 9.917 8.577
Std. Deviation 1.976 2.194
Shapiro-Wilk 0.977 0.970
P-value of
0.831 0.614
Shapiro-Wilk
Minimum 6.000 4.000
Maximum 14.000 13.000
• Ugyanazokat a táblázatokat és grafikonokat kapjuk meg, mint az előbb, de most a férfi és női mintára
külön.

• Teljesül a normalitás feltétele férfiak és nők mintáján?


• S-W teszt férfiak esetében nem szignifikáns, W(24)=.977 p = .831, tehát itt teljesül
a
normalitás feltétele. Nők esetében sem szignifikáns W(26)=.970 p=.614, tehát itt
is teljesül a feltétel.
• Mivel a S-W teszt nem szignifikáns egyik csoportban sem, a Z-teszteket már nem
is kell elvégezni. De a hozzá szükséges mutatókat (ferdeségi, csúcsossági értékek,
hisztogram, box-plot), most ugyanúgy férfiakra és nőkre külön kapjuk meg.
• Robusztusságra nem hivatkozhatnánk, mert csak 24 férfi és 26 nő van,
szerencsére
nincs is szükség rá.
Skála típusú függő változó
• Teljesül a normalitás feltétele férfi és női mintán?
• Igen, a S-W teszt egyik csoportban sem szignifikáns (férfiak: W(24)=.977 p =
.831 nők: W(26)=.970 p=.614), tehát a normalitás feltétele teljesül mindkét
mintában.

Pszichológiai jól-lét (függő változó)


Egyedek függetlensége 
Minták függetlensége 
Skála típusú függőváltozó 
Normalitás 
Szóráshomogenitás
Szóráshomogenitás
• Varianciák homogenitása / Szóráshomogenitás
• Ha mintákat hasonlítunk össze, akkor azt jelenti, hogy a két minta szórása legyen hasonló
mértékű

• Miért baj, ha sérül a feltétel?


• A mintákat a középértékükkel (legtöbb esetben átlaggal) reprezentáljuk). Ha az egyik mintában
nagyobb a szórás, akkor ott kevésbé lesz reprezentatív a középérték, azaz kevésbé lesz pontos a
modell.
• Nem tanuljuk miért, de a súlyosabb probléma, hogy eltérő elemszámok esetén a statisztikai érték
számítását is torzítja, így a számolt szignifikancia érték lesz torz. A probléma az, hogy előfordulhat,
hogy a próba szigorúbb lesz így a kelleténél (azaz meglévő hatást sem mutat majd ki), és az is, hogy
megengedőbb lesz, mint szabadna lennie (azaz nem létező különbséget is szignifikánsan jelez)
270 10

240 8

210 6

180 4

2
150
0
120
0 1 2 3
0 1 2
Parametrikus adatok / Szóráshomogenitás
Csoportok összehasonlításánál Levene teszttel

Ez is egy hipotézisvizsgálat
1. Egyformák-e a csoportok szórása?
2. Levene teszt

3. A szórások megegyeznek
4. 0,05

5.
6.

7.
Parametrikus adatok / Szóráshomogenitás
Csoportok összehasonlításánál Levene teszttel
Nem a leíró statisztikáknál találjuk, hanem az adott próbánál. A menüsávban válasszuk a a T-tests

A függetlenmintás t próbánál kiválaszthatjuk a keresett próbát (Equality of variances). Láthatjuk,


hogy rengeteg lehetőség van, ezekről a következő félévben lesz szó.
Eredmények: (most csak a szóráshomogenitáshoz tartozó eredményt másolom ide)
Parametrikus adatok / Szóráshomogenitás
Test of Equality of Variances (Levene's)
F df1 df2 p
WBIpont 0.302 1 48 0.585

Nem szignifikáns

• A Levene-teszt azt nézi meg, hogy van-e szignifikáns különbség a szórások között.
• Most nem tudtunk kimutatni szignifikáns különbséget a varianciában, tehát teljesül a szóráshomogenitás
feltétele teljesül.
• Publikálása: F([df1], [df2]) = [Levene teszt értéke] p = [szignifikancia]. Itt: F(1, 48) = .302 p = .585
Skála típusú függő változó

• Teljesül a szóráshomogenitás feltétele?


• Igen, a két minta szórása között nem mutatható ki szignifikáns különbség F(1, 48)
= .302 p = .585

Pszichológiai jól-lét (függő változó)


Egyedek függetlensége 
Minták függetlensége 
Skála típusú függőváltozó 
Normalitás 
Szóráshomogenitás 
A feltételteszteléséről ezt írjuk az Eredmények részbe
• Az Eredmények rész legelejére röviden összefoglaljuk az adattisztítást és az előzetes feldolgozás fontosabb
lépéseit.
• Ezt követően az Eredmények rész hipotézisenként halad, és minden rész elején
írunk röviden a használt próba feltételeinek ellenőrzéséről.
• Például a második hipotézisnél így lehet:
H2: Különbség van férfiak és nők pszichológiai jól-léte között.
A hipotézist független mintás t-próbával ellenőriztük. A próba feltételei teljesülnek.
A normalitás feltétele a Shapiro-Wilk teszt alapján teljesül mind a férfiak W(24)=.977
p = .831, mind a nők W(26)=.970 p=.614 esetében. A szórások a Levene-teszt
eredményei alapján homogénnek tekinthetők, F(1, 48) = .302 p = .585.
A t-próba eredményei alapján a két csoport…. stb.

• A műhelymunkában az olyan feltételeket, melyek teljesülését nem ellenőrizni


kell, hanem a kutatás tervezése során biztosítani (pl. személyek
függetlensége), nem szükséges megemlíteni.
• Ha a műhelymunkán húzni kell, a feltételekről szóló rész átkerülhet a
függelékbe, és a szövegtörzsben elegendő megemlíteni, hogy ellenőrizve
voltak, és a függelékben megtalálhatók.
Összefüggések statisztikai
elemzése
BBNPS01000

Korreláció
Pearson korreláció elméleti háttere
Pearson korreláció
• A korreláció a két változó közötti lineáris együttjárást vizsgálja
• „két változó közötti”
• Két változó kapcsolatának vizsgálatára alkalmas: az, hogy „A problémamegoldási stílusok
együttjárnak a személyiségstílusokkal”, nem helyes hipotézis, és nem ellenőrizhető Pearson-
korrelációval, mert nem két változó kapcsolatát vizsgálja. Helyes hipotézis például, hogy „A
kompromisszum-készség pozitív kapcsolatban van a barátságosság mértékével”

• „lineáris”
• A Pearson-korreláció modellje egy egyenes – csak lineáris kapcsolatok vizsgálatára alkalmas
• Többek között ezért is helytelen kutatói hozzáállás sok változót vakon korrelációs vizsgálatba
rakni, és a kapott összefüggés-rengetegből szemezgetni

• „együttjárást”
• Az, hogy két változó együtt mozog, nem jelenti,
hogy ok-okozati kapcsolat van közöttük
(részletesen később)
Pearson korreláció
• Megadja, hogy mennyire lehet egy lineáris modell (az egyenes) segítségével bejósolni az egyik
változó értékéből a másik változó értékét. Minél kisebb az eltérés a modell által jósolt és
ténylegesen mért érték között, annál pontosabban lehet az egyikből a másikat megbecsülni,
azaz annál erősebb az együttjárás a két változó között.

A heti 11 szelfihez tartozó mért poszt-számok 20


(tehát van egy ember, aki hetente 11-et szelfizik, és 95
19
90
18
56-ot posztol, és egy másik ember, aki 11-et 85
17
szelfizik, és 38-at posztol) 80
16 Modell

FB posztok száma hetente


75
15
70
14
65
13
60
12 Mért értékek
55
11
Hiba – eltérés a predikált 50
10
és mért értékek között 45
9
40
8
35
7
30
6
11 szelfihez tartozó predikált posztszám 25
5
20
4
(tehát azt becsüljük, hogy aki 11-et szelfizik 15
3
hetente, az kb. 52-őt fog posztolni hetente) 10
2
15
00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Szelfik száma hetente
Korreláció iránya és erőssége
• Mérőszáma a lineáris korrelációs együttható (jelölése: r) az összefüggés
irányát és erősségét jelzi
• A kapcsolat iránya lehet
• pozitív, azaz minél nagyobb az egyik változó értéke, annál nagyobb a másiké is
• (0, azaz nincs kimutatható kapcsolat)
• negatív, azaz minél nagyobb az egyik változó értéke, annál kisebb a másiké

• Erősség alapján értéke 0-tól 1-ig terjedhet (az irányt is figyelembe véve -1-től +1-ig)
• |r| = 0 – nincs kimutatható kapcsolat
• 0 < |r| < 0.1 – elhanyagolhatóan gyenge a kapcsolat a két változó között
• 0.1 ≤ |r| < 0.3 – gyenge
• 0.3 ≤ |r| < 0.5 – közepes
• 0.5 ≤ |r| < 1 – erős kapcsolat
• |r| = 1 – tökéletesen meghatározott kapcsolat (egyenlet)
200
Pozitív, erős korreláció r = .83
• Az irány a kapcsolatot leíró 200
Negatív, erős korreláció r = -.83

160 lineáris modell (az 160

120

80
egyenes) emelkedéséből / 120

80

40 eséséből látható 40

0 0
0 20 40 60 80 100 0 20 40 60 80 100

• Az erősség abból látszik,


Pozitív, közepes korreláció r = .46 hogy a pontok mennyire Negatív, közepes korreláció r = -.46
200 200

160
vannak közel az 160

120 egyeneshez, azaz 120

80

40
mennyire pontosan lehet 80

40

0
0 20 40 60 80 100
X-ből Y értékét a modell 0
0 20 40 60 80 100

(egyenes) segítségével
Pozitív, gyenge korreláció r = .26 megjósolni.
Nincs korreláció r = .01 Negatív, gyenge korreláció r = -.26
200 200
200

• Ha nincs korreláció, azt


160 160
160
120 120
120
80
egy vízszintes vonal jelzi,
80
80

hiszen ilyenkor bármely X


40 40
40
0 0
0
0 20 40 60 80 100
értékhez bármely Y
0 20 40 60 80 100 120
0 20 40 60 80 100
• Itt látható három korrelációs vizsgálat – egy pozitív, egy negatív és egy, ahol
nincs összefüggés
• Jelöljük be a változók átlagait (szaggatott fekete vonalak)!
• ZH: 28.2 pont; Házik: 23.6 pont; FB: 9.15 óra; Kávé: 10.6 liter
• A két változó átlaga négy negyedre osztja a diagram területét
• Azt látjuk, hogy
• A pozitív kapcsolatra az jellemző, hogyha valaki az egyik változóban átlagon aluli, a
másikban is az lesz. Ha átlag feletti, akkor a másikban is az lesz.
50 • Negatív kapcsolat esetén az emberek nagyrészére az igaz, hogy ha egyik változóban
50 50

40
átlagon felüliek, a másikban átlagon aluliak lesznek, és vice versa, ha egyikben átlag
40
45
40

alatt, a másikban átlag felett lesznek.


ZH pontszám

ZH pontszám

ZH pontszám
35
30 30 30

20
• Ha nincs korreláció, akkor mind a négy negyedben egyforma mértékben jelennek meg
20
25
20

10
emberek. 10
15
10
5
0 0 0
0 10 20 30 40 50 0 2 4 6 8 10 12 14 16 18 20 22 24 0 5 10 15 20

Házikon elért pontszám Naponta FB-on töltött órák száma Kávé mennyisége hetente (liter)
Kis kitérő egy testvérmutatóra, a kovarianciára
• Használjuk fel az előző megfigyelést a kovariancia kiszámításához! 50

• 1. Számoljuk ki a két változó átlagát! ZH: 28.2 és Házi: 23.6 pont 40

ZH pontszám
• 2. Számoljuk ki az átlagtól való eltéréseket! (a ZH pontból a ZH átlaga és a 30

Házi pontból a házi átlaga) 20


• Figyeld meg! Az első személy az átlagosnál jobb ZH-t írt, és több házipontja is van, így mind a
két különbségértéke pozitív. A második személy az átlagnál rosszabb ZH-t írt és kevesebb a 10
házipontszáma is. Nála mind a két különbség negatív.
0
• 3. Szorozzuk össze a két különbséget! 0 10 20 30 40 50

• Mivel két pozitív szám szorzata is pozitív, illetve két negatív számé is az, Házikon elért pontszám
így azoknál, akik a zöld negyedekbe esnek, a szorzat pozitív szám lesz. A narancs negyedekben pedig negatív.
• 4. Átlagoljuk a kapott szorzatokat!
• A különbségek szorzatának átlaga a kovariancia (jelölése: Cov). A teljes mintára számolt összege 109.77,
mely egy pozitív szám, mely azt jelenti, hogy a két változó közötti kapcsolat pozitív.
ZH pontszám 41 23 4 50 34 22 17 32 …
ZH - MZH +12.8 -5.2 -24.2 +21.8 +5.8 -6.2 -11.2 +3.8 …
Házi pontszám 39 13 5 45 21 27 11 33 …
Házi - MHázi +15.4 -10.6 -18.6 +21.4 -2.6 +3.4 -12.6 +9.4 …
Különbségek szorzata +197.12 +55.12 +450,12 +466.52 -15.08 -21.08 +141.12 +35.72 …
• Játsszuk végig ugyanezt a FB-ozással töltött idő és ZH pont összefüggésére! 50

• 1. Számoljuk ki a két változó átlagát! ZH: 28.2 és FB: 9.15 40

ZH pontszám
• 2. Számoljuk ki az átlagtól való eltéréseket! 30

• Figyeld meg! Az első személy FB-on töltött ideje az átlagnál kevesebb, ZH-ja pedig az átlagnál 20
jobb. A második személynél a FB-ozás az átlagosnál több, a ZH pedig az átlagnál rosszabb.

• 3. Szorozzuk össze a két különbséget! 10

• Mivel egy pozitív és negatív szám szorzata negatív, így azoknál, akik a 0
0 2 4 6 8 10 12 14 16 18 20 22 24
narancs negyedekbe esnek, a szorzat negatív szám lesz. Naponta FB-on töltött órák száma
• 4. Átlagoljuk a kapott szorzatokat!
• A legtöbb személynél egy pozitív és egy negatív különbség érték van párban, így a legtöbb szorzat is negatív.
A teljes mintára számolt kovariancia érték -52.52, mely egy negatív szám, mely azt jelenti, hogy a két
változó közötti kapcsolat negatív.

ZH pontszám 41 23 4 50 34 22 17 32 …
ZH - MZH +12.8 -5.2 -24.2 +21.8 +5.8 -6.2 -11.2 +3.8 …
FB idő 2 13 18 1 10 7 15 5 …
FB - MFB -7,15 +3,85 +8,85 -8,15 +0,85 -2,15 +5,85 -4,15 …
Különbségek szorzata -91,52 -20,02 -214,17 -177,67 4,93 13,33 -65,52 -15,77 …
50

• Végül nézzük meg a kávé és ZH kapcsolatát! 45


40

• 1. Számoljuk ki a két változó átlagát! ZH: 28.2 és kávé: 10.6

ZH pontszám
35
30

• 2. Számoljuk ki az átlagtól való eltéréseket! 25


20

• 3. Szorozzuk össze a két különbséget! 15


10

• 4. Átlagoljuk a kapott szorzatokat! 5


0
• Ebben az összefüggés-vizsgálatban vegyesen vannak pozitív és 0 5 10 15 20

negatív szorzatok. A teljes mintán a kovariancia értéke 4.4, mely a Kávé mennyisége hetente (liter)
változók skálázását figyelembe véve (a ZH 0-tól 50-ig terjedhet) nullához
elég közeli értéknek tekinthető, tehát a két változó között nem mérhető
kapcsolat.

ZH pontszám 41 23 4 50 34 22 17 32 …
ZH - MZH +12.8 -5.2 -24.2 +21.8 +5.8 -6.2 -11.2 +3.8 …
Kávé mennyiség 8.61 19.11 7.35 20.06 8.74 15.54 15.75 10.82 …
Kávé - MKávé -1,99 8,51 -3,25 9,46 -1,86 4,94 5,15 0,22 …
Különbségek szorzata -25,472 -44,252 78,65 206,228 -10,788 -30,628 -57,68 0,836 …
Kapcsolat a kovariancia és a korreláció között
• A kovariancia tehát megmutatja két változó közötti kapcsolat irányát. 50

40
• Nem alkalmas azonban a kapcsolat erősségének kifejezésére, mivel

ZH pontszám
30
értéke függ a változók szórásától, vagy például a skálázásától is.
20
• Ha a ZH eredményt nem pontszámban, hanem százalékban adtam volna meg, változna az
átlag (az új átlag 56.4% lenne), változna a különbségek nagysága (az iránya nem), változna 10
a szorzatok nagysága (az iránya ennek sem), így változna a kovariancia értéke (de nem az iránya).
0
• A mintán az új kovariancia érték 219.54 lenne, mely továbbra is pozitív, 0 10 20 30 40 50

de az előzőtől eltérő érték. Házikon elért pontszám

ZH %-ban 41 82 23 46 4 8 50100 34 68 22 44 17 34 32 64 …
ZH% - MZH% +12.8 +25.6 -5.2 -10.4 -24.2 -48.4 +21.8 +43.6 +5.8 +11.6 -6.2 -12.4 -11.2 -22.4 +3.8 +7.6 …
Házi pontszám 39 13 5 45 21 27 11 33 …
Házi - MHázi +15.4 -10.6 -18.6 +21.4 -2.6 +3.4 -12.6 +9.4 …
+197.12 +55.12 +450,12 +466.52 -15.08 -21.08 +141.12 +35.72
Különbségek szorzata …
+394,24 +110,24 +900,24 +933,04 -30,16 -42,16 +282,24 +71,44

• Ahhoz, hogy a kapcsolat erősségét is mérni tudjuk, kontrollálni kell a változók szóródására. Kovarianciából a
korreláció egyszerűen számolható: a kovariancia értékét el kell osztani mind a két változó szórásával. Az így kapott
korrelációs érték már nem csak a kapcsolat irányát, de erősségét is megmutatja.

𝒄𝒐𝒗(𝒙,𝒚) σ(𝒙𝒊 − 𝒙
ഥ)(𝒚𝒊 − 𝒚
ഥ)
𝒓= =
𝒔𝒙 𝒔𝒚 (𝑵 − 𝟏)𝒔𝒙 𝒔𝒚
Korrelációs t-próba és r érték
Tudjuk, hogy korrelációs t próba esetén a végrehajtási utasítás:
𝑛−2
𝑡=𝑟
1 − 𝑟2
𝑡2
Ezt átalakítva : 𝑟 =
𝑛−2+𝑡
Tehát, ha „ismerjük” a t táblázatot, tudunk csinálni egy táblázatot az r értékekre
Pl
A t-eloszlás táblázata

Valószínűségek
f 0,90 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001

15 0,128 0,393 0,691 1,074 1,341 1,753 2,131 2,602 2,947 4,073
Az r táblázata
n
17 0,0309 0,0942 0,1643 0,2526 0,3131 0,4048 0,4872 0,5877 0,6598 0,8873
Pearson, Sprearman, Kendall & feltételeik
Pearson korreláció feltételei
• Független személyek
• Skála típusú változók
• Mind a két változónak skála típusúnak kell lenni
• Ez alól egy kivétel van, az ún. point-biserial korreláció (jelölése rpb)
• az egyik változó lehet dichotóm (olyan változó, melynek két kategóriája van)
• Normáleloszlás
• A normalitásvizsgálat korábban megtanult formái szerint
• Linearitás
• Pontdiagramon ellenőrizendő
• A változók közötti kapcsolat leírható egy egyenessel
• Nem az a lényeg, hogy egyértelműen lásd az egyenest, hanem azt, hogy ne láss
valamilyen más alakú összefüggést)
• Szóráshomogenitás
• Pontdiagramon ellenőrizendő
Pearson korreláció alternatívái
• Ha nem teljesül a Pearson-korreláció valamelyik feltétele, két
nemparametrikus eljárás közül választhatunk:
• Spearman-féle korreláció
• Rangsoroláson alapuló korrelációs eljárás
• -1 és 1 között vehet fel értéket
• Értékelése kicsit eltér a Pearsontól
• 0-.19 elhanyagolhatóan gyenge; .20-.39 gyenge; .40 -.59 közepes; .6-.79 erős; .8-1 nagyon erős
• Feltételei:
• Független személyek
• Ordinális vagy skála típusú változók
• Nem kell linearitás, de az adatoknak monoton módon kell változniuk

• Kendall-féle tau
• Olyan ordinális változók kapcsolatának vizsgálatára alkalmas, ahol sok eset ugyanazt a
rangot kapja
• Más kutatások szerint meg éppen akkor, mikor nincsenek kapcsolt rangok 
Mi ez a monotonitás?
• A Spearman és Kendall korrelációk feltételei között is látható, hogy nem
szükséges linearitás, de monotonitás igen.
• Alább látható egy lineáris, egy monoton módon növekvő, egy monoton módon
csökkenő és egy nem monoton összefüggés.
• A monoton összefüggés bár eltérő sebességgel, de folyamatosan növekszik illetve
csökken, nincsenek benne „visszafordulások”
• Az eltérő sebesség nem jelent problémát a nemparametrikus korrelációknak,
hiszen a rangsorolással amúgy is elvesztettük ezt az információt

Lineáris Monoton növekvő Monoton csökkenő Nem monoton


Gondolatmenet
• A próba kiválasztása avagy mikor Pearson mikor Spearman vagy Kendall-
féle tau?
Nézd meg a hipotézist! Mit vizsgálsz? Két változó kapcsolatát.
Érdemes először a Pearson korrelációval próbálkozni.

Teljesülnek a
feltételei?

Próbáld meg a Spearmant


Használd a Pearsont!
vagy a Kendall-féle taut!

Teljesülnek a
feltételei?

Speciális eset – nézd meg a


Használd!
tesztválasztó pdf-et!
Pdf-ben áttekintett hipotézisek
Adatbázis: statgyakGY1_06_korrelacio_wbi.sav
1. Pozitív összefüggés van a pszichológiai jól-lét és a szűk kapcsolati kör mérete között. tananyag
2. Pozitív összefüggés van a pszichológiai jól-lét és a közepes kapcsolati kör mérete között. gyakorlás
3. Pozitív összefüggés van a pszichológiai jól-lét és a tág kapcsolati kör mérete között. tananyag
4. Összefüggés van a kor és a pszichológiai jól-lét között. tananyag +
kiegészítő anyag
5. Összefüggés van nem és jól-lét között. tananyag
6. Összefüggés van a családi állapot és a jól-lét között. tananyag
7. A magasabb iskolai végzettség magasabb pszichológiai jól-léttel jár. gyakorlás
8. A barátok száma és a pszichológiai jól-lét összefüggésére részben a személyek érzelmi kiegészítő anyag
intelligenciájával magyarázható.
9. A közepes méretű kapcsolati kör és a jól-lét közötti összefüggés erősebb nők esetében, mint kiegészítő anyag
férfiaknál.
10. A szűk és tág baráti kör mérete között pozitív összefüggés van. gyakorlás
11. A kor és a tág kapcsolati kör mérete között összefüggés van. gyakorlás
Hipotézis: Pozitív összefüggés van a pszichológiai jól-lét és a szűk kapcsolati kör mérete között.
Feltételek
• Pozitív összefüggés van a pszichológiai jól-lét és a szűk kapcsolati kör
mérete között
• A hipotézist Pearson korrelációval szeretnénk vizsgálni, melynek 5
feltétele van (ezeket előző órákon már megnéztük, most csak átszaladunk
rajtuk):
• Személyek függetlensége:
• Teljesül, az emberek nem ismerik egymást, így sem pszichológiai jól-létükben nem
befolyásolják egymást, és nem jelennek meg egymás közeli ismerőseiként sem
• Skála típusú változók:
• Teljesül, a pszichológiai jól-létet a WBI skálán mérjük, mely egy Likert-skálás kérdőív, a WBI
pontszámot skála típusúnak tekinthetjük. A közeli ismerősök száma szintén skála típusú
• Normalitás:
• Teljesül, például Z-tesztek alapján.
• Szóráshomogenitás:
• Teljesül, pontdiagramon ellenőriztük
• Linearitás:
Melyik változók között

Itt látható, hogy milyen mérési szintű


változót fogad el

Melyik együtthatót választom

Látszódjon p érték
Jelölje, ha szignifikáns (ezt látjuk a p értékéből, de segítség,
kényelmi funkció  )
Elemszám feltüntetése

Egyoldali vagy kétoldali. Egyoldali


esetén az irány is megadható
Az eredmény táblázata
Ez a táblázat szimmetrikus, csak az alsó fele látszik
Az önmagával való korrelációk, amik értéke értelemszerűen 1, nincsenek feltüntetve

elemszám

korreláció típusa

Szignifikancia érték

Itt látjuk, hogy egyoldali volt a


kérdés, pontosan pozitív oldali

Pearson korrelációt használva a szűk kapcsolati kör mérete és jól-lét között szignifikáns, pozitív, közepes
erősségű összefüggést találtunk, r = .324 p = .011 (1-tailed). Általában elmondható, hogy minél több közeli
ismerőse van valakinek annál jobb a pszichológiai jól-léte.
Publikálás, értelmezés
Eredmények publikációs formája
• A korreláció eredményének publikálásánál négy dolgot kell megadni, azt,
hogy milyen korreláció történt, a korrelációs együtthatót, a szignifikancia
értéket, és azt, hogy egy- vagy kétoldalú hipotézistesztelés történt.
• Forma: r = [korrelációs együttható értéke] p = [szignifikancia értéke] ([oldaliság])
• A korreláció típusát a r jelölés alsó indexében jelöljük:
• Pearson – r (nincs jelölés)
• Point biserial – rpb
• Spearman – rs
• Kendall – ez kivétel, jelölése τ (ejtsd tau)

• Szövegesen a következőket kell megadni:


• Ha nem szignifikáns, akkor elég annyi, hogy X és Y változó között nem találtunk
szignifikáns kapcsolatot. (Az adott kérdésnek megfelelően…..)
• Ha szignifikáns, akkor le kell írni, hogy szignifikáns, milyen irányú és milyen
Példák
• Pearson korrelációt használva az életkor és a nyalókaevés között
szignifikáns negatív, közepes erősségű kapcsolatot találtunk gyerekkorban, r
= -.355 p = .002 (1-tailed).
• Pearson korrelációt használva nem találtunk szignifikáns összefüggést az
életkor és a nyalókaevés között felnőttkorban, r = .015 p = .132 (2-tailed).
• Spearman korrelációt használva szignifikáns, negatív, erős összefüggést
találtunk a fürdések hossza és a stressz mértéke között rs = -.523 p < .001
(1-tailed).
• Pearson korrelációt használva szignifikáns, de elhanyagolhatóan gyenge,
pozitív összefüggést találtunk a megevett csoki mennyisége és a naponta
lefutott távolság között r = .0059 p = .001 (2-tailed).
• Kendall-féle taut használva szignifikáns, pozitív, közepes erősségű
összefüggést találtunk egy tárgy követelményeinek nehézsége és
Korrelációs
• Együttjárás tévhitek
és okozat
• A korrelációból csak az együttjárásra lehet következtetni, ez nem jelenti azt, hogy a
két változó között ok-okozati kapcsolat lenne, vagy ha esetleg van is, annak milyen
az iránya!
• Példák arra, amikor két változó együtt jár, még sincs közvetlen ok-okozati
kapcsolat
• A harmadik változó kérdése
• Közvetítő változó
• Aki magas beosztásban van, annak nagy a háza
– közvetítő változó a fizetés
• Közös ok
• Aki sokat rágja a körmét, annak rossz az
immunrendszere – közös ok a stressz
• Néha olyan dolgok is korrelálnak, amiknek semmi
köze egymáshoz
• Erős, pozitív korreláció van az egy főre jutó
csokifogyasztás és sorozatgyilkosok száma között.
• Az egy főre jutó
csokifogyasztás és
sorozatgyilkosok száma
közötti összefüggés egy
olyan közleményben jelent
meg, mely a látszat-
korrelációkra kívánta
felhívni a figyelmet (szerzők
James R. Winters és Seán
G. Roberts).
• Figyelni kell, az ember ne
váljon az ilyen látszat-
Hipotézis: Pozitív összefüggés van a pszichológiai jól-lét és a közepes kapcsolati kör mérete között.
• Pozitív összefüggés van a pszichológiai jól-lét és a közepes kapcsolati kör
mérete között.

• A hipotézist Pearson korrelációval szeretnénk vizsgálni, melynek 5 feltétele


Descriptive Statistics
van: kozkor WBIpont
Valid 50 50
• Személyek függetlensége: Missing 0 0

• Teljesül, korábban megbeszéltek itt is állnak Shapiro-


Wilk
0.967 0.977

• Skála típusú változók: P-value


of
0.176 0.428
• Teljesül, a WBI-t megbeszéltük, a közepesen közeli Shapiro-
Wilk
ismerősök száma szintén skála típusú
• Normalitás:
• Teljesül, például a S-W teszt alapján.
• Szóráshomogenitás:
• Teljesül, pontdiagramon ellenőrizzük
• Linearitás:
• Teljesül, pontdiagramon ellenőrizzük

• Nincs akadálya a Pearson korreláció kikérésének


• Pearson korrelációt használva a pszichológiai jól-lét és a közepes kapcsolati
kör mérete között szignifikáns, pozitív, közepes erősségű kapcsolatot
találtunk r = .440 p < .001 (1-tailed)
Pearson's Correlations
Variable kozkor WBIpont
1. kozkor n —
Pearson's r —
p-value —
2. WBIpont n 50 —
Pearson's r 0.440 *** —
p-value < .001 —

Note. All tests one-tailed, for positive correlation


* p < .05, ** p < .01, *** p < .001, one-tailed
Hipotézis: Pozitív összefüggés van a pszichológiai jól-lét és a tág kapcsolati kör mérete között.
• Pozitív összefüggés van a pszichológiai jól-lét és a tág kapcsolati kör mérete
között.
• Személyek függetlensége: Teljesül, korábban megbeszéltek itt is állnak
• A •hipotézist Pearson
Skála típusú változók: korrelációval
Teljesül, szeretnénk
a WBI-t megbeszéltük, vizsgálni,
a tág kapcsolati kör szintén melynek
skála típusú 5 feltétele
van:
• Normalitás:
• Személyek függetlensége:
• Skála típusú változók:
• Normalitás:
A normalitás ellenőrzéséhez meg kell teremtenünk, hogy csak azokat az elemeket vizsgáljuk, ahol mindkét
adat megvan. Tudjuk, hogy WBIpontszáma mindenkinek van, viszont tág kapcsolati kör (nagykor) értéke csak
azoknak, akiknek van fb.
Tehát készítünk egy jelölőt eszerint (1, ha megvan mindkét érték, 0, ha nincs)
Szűrés után csak azokra az elemekre kérjük az eredményeket, ahol mindkét érték megvan

Láthatjuk a következő táblázatban, hogy a Shapiro-Wilk teszt a tág kapcsolati körre szignifikáns, tehát nem
feltételezhetjük a normális eloszlást
WBIpontra: W(37) = .958 p = .180 Itt teljesül a normalitás feltétele
Tág kapcsolati körre W(37) = .914 p = .007 Itt nem teljesül, tehát Z tesztekkel vizsgáljuk tovább

0,771 −0,044
𝑍𝑠𝑘𝑒 = = 1,987 𝑍𝑘𝑢𝑟𝑡 = = −0,058
0,388 0,759

Láthatjuk, hogy a ferdeség eltér a normálistól


Descriptive Statistics
nagykor WBIpont
Valid 37 37
Missing 0 0
Mean 455.189 9.108
Std. Deviation 324.992 2.157
Skewness 0.771 -0.411
Std. Error of
0.388 0.388
Skewness
Kurtosis -0.044 0.061
Std. Error of
0.759 0.759
Kurtosis
Shapiro-Wilk 0.914 0.958
P-value of Shapiro-
0.007 0.180
Wilk
Minimum 45.000 4.000
Maximum 1218.000 13.000
• Pozitív összefüggés van a pszichológiai jól-lét és a tág kapcsolati kör mérete
között.
• Személyek függetlensége: Teljesül, korábban megbeszéltek itt is állnak
• A •hipotézist Pearson
Skála típusú változók: korrelációval
Teljesül, szeretnénk
a WBI-t megbeszéltük, vizsgálni,
a tág kapcsolati kör szintén melynek
skála típusú 5 feltétele
van:
• Normalitás: Nem teljesül. Bár a S-W teszt a WBI-re továbbra sem szignifikáns W(37) = .958 p = .180, de a tág
kapcsolati körre az W(37) = .914 p = .007. Z-teszteket nézve, a tág kapcsolati kör ferdesége szignifikáns Z = 1,987
• Személyek függetlensége:
így ez alapján sem teljesül a normalitás.
• Skála típusú változók:
• Szóráshomogenitás: Mivel találtunk olyan feltételt, ami nem teljesül, nem is érdemes nézni
• Normalitás:
• Linearitás: Mivel találtunk olyan feltételt, ami nem teljesül, nem is érdemes nézni

• Szóráshomogenitás:
• Linearitás:

• Nem teljesül a Pearson minden feltétele, ezért nem használható.


A Spearman korrelációval próbálkozunk, melynek 3 feltétele van:
• Személyek függetlensége
• Teljesül
• Legalább ordinális változók
• Teljesül, hiszen skála típusúak
• Spearman korrelációt használva a pszichológiai jól-lét és a tág kapcsolati
kör mérete (melyet a FB ismerősök számával mértünk) között nem
találtunk
Spearman's szignifikáns összefüggést, rs = .139 p = .206 (1-tailed).
Correlations
Variable nagykor WBIpont
1. nagykor n —
Spearman's

rho
p-value —
2. WBIpont n 37 —
Spearman's
0.139 —
rho
p-value 0.206 —

Note. All tests one-tailed, for positive correlation


* p < .05, ** p < .01, *** p < .001, one-tailed
Hipotézis: Összefüggés van a kor és a pszichológiai jól-lét között.
• Összefüggés van a kor és a pszichológiai jól-lét között.
• A feltételek ellenőrzésénél itt is figyelni kell az elemszámra: jelölő, csak a
párokat nézni….
• A hipotézist Pearson korrelációval szeretnénk vizsgálni, melynek 5
feltétele van:
• Személyek függetlensége
• Skála típusú változók
• Normalitás
• Szóráshomogenitás
• Linearitás
Láthatjuk, hogy a WBIpont igen, a kor nem követ normális eloszlást
WBIpont W(49) = .967 p = .187
kor W(49) = .920 p = .003
Z teszt a korra 𝑍𝑠𝑘𝑒 = 2,488 𝑍𝑘𝑢𝑟𝑡 = 0,189
Tehát a ferdeség eltér a normálistól
Descriptive Statistics

kor WBIpont

Valid 49 49

Missing 0 0

Skewness 0.846 -0.370

Std. Error of
0.340 0.340
Skewness

Kurtosis 0.126 -0.153

Std. Error of Kurtosis 0.668 0.668

Shapiro-Wilk 0.920 0.967

P-value of Shapiro-
0.003 0.187
Wilk
• Összefüggés van a kor és a pszichológiai jól-lét között.
Az előbb látott módon már a normalitás vizsgálatnál „megbukott”
De van, hogy már az adatok megismerésénél nem ebben a sorrendben,
hanem egy pontdiagramon látjuk, hogy nem lehet lineáris a kapcsolat
• A hipotézist Pearson korrelációval szeretnénk vizsgálni, melynek 5
feltétele van:
• Személyek függetlensége
• Skála típusú változók
• Normalitás
• Szóráshomogenitás
• Linearitás
• Összefüggés van a kor és a pszichológiai jól-lét között.
• A hipotézist Pearson korrelációval szeretnénk vizsgálni, melynek 5
feltétele van:
• Személyek függetlensége
• Skála típusú változók
• Normalitás
• Szóráshomogenitás
• Linearitás
• A pontdiagramon azonnal látható, hogy
nem teljesül, jól kivehető az U alakú görbület
• Pearson nem használható.
• Próbáljuk meg a Spearmant!
• Személyek függetlensége:
• Teljesül
• Legalább ordinális változók:
• Teljesül
• Monotonitás:
• Nem teljesül, az U alak nem monoton

• Nem használható a Spearman sem, és a monotonitás


sérülése miatt a Kendall-féle tau sem.
Nem-lineáris modell
• Mivel sem a Pearson, sem a Spearman vagy Kendall-féle tau nem
használható, a BA alatt tanult próbák segítségével nem ellenőrizhető a
hipotézis.
• Mit lehet tenni?
• Fapados megoldás: vegyük félbe az adatokat, és végezzünk két korrelációt!
• Nem-lineáris regresszió
• Nem-lineáris regresszió
• Ha nem működik a lineáris modell, megpróbálunk az adatokra egy görbe modellt illeszteni
• A modellhez tartozó statisztikai érték az F érték, mely az ANOVA táblában található
• A magyarázóerőt az R Square adja meg.
• Megmondja, hogy az adott modell a függőváltozó varianciájának hány százalékát tudja megmagyarázni
• A probléma az, hogy az R2 magában foglalja a lineáris ÉS a nemlineáris magyarázóerőt is. Miért baj ez?
Mert lehet egy erős lineáris kapcsolatom, ami a hátán viszi az egészet, és a nemlineáris modell már
nem is szignifikáns
Nézzük a fapados megoldást. Az ábráról úgy látjuk, hogy kb 40 éves korig van csökkenés, ezt fogjuk határnak
használni
Előző tudásunk alapján ellenőrizhetjük, hogy
mindkét változónk ilyen szűrés mellett normális
eloszlást követ és a többi feltétel is teljesül
Most nézzük a 40 vagy feletti korúakat
Hipotézis: Összefüggés van nem és pszichológiai jól-lét között.
• Összefüggés van a nem és a pszichológiai jól-lét között.
• A hipotézist Pearson korrelációval szeretnénk vizsgálni,
melynek 5 feltétele van:
• Személyek függetlensége:
• Teljesül, korábban megbeszéltek itt is állnak
• Skála típusú változók:
• Teljesül! A feltételnél van egy olyan kiegészítés, hogy az egyik változó lehet
dichotóm! Ilyenkor változik a név, és Point biserial korrelációnak nevezzük.
• Normalitás:
• Teljesül. (A dichotóm változónak nyilván nem kell normál eloszlást követni).
• Szóráshomogenitás:
• Teljesül, Levene-teszttel ellenőrizzük, mert a dichotóm változó felfogható
csoportosító változóként is. A Levene-teszt nem szignifikáns, F(1, 48) = .302
p = .585

• Linearitás:
• Nem értelmezhető dichotóm változó esetén, mert a modell, a két átlagot
összekötő vonal lesz. Két pontot pedig egy egyenessel is pont olyan jól
össze lehet kötni, mint egy görbével.

• A Pearson korrelációnak (illetve Point biserial


• Pearson point biserial korrelációt használva a pszichológiai jól-lét és a nem
között szignifikáns, negatív, közepes erősségű összefüggést találtunk, 𝑟𝑝𝑏 =
.-310 p = .028 (2-tailed). A negatív összefüggés jelentése az, hogy a nőknek
alacsonyabb a jól-léte.
• Megjegyzések:
• Gondold át, honnan tudom, hogy a•negatív összefüggés azt jelenti, hogy a nőknek
Bár lehetőség van a point biserial korrelációra,
alacsonyabb a WBI értéke! legtöbbször szerencsésebb a dichotóm változót két
• Figyeld meg, hogy a hipotézis nem specifikálta
csoportnak az irányt,ésezért
tekinteni, a korrelációt
t-próbát 2-tailed
végezni korreláció
kértük ki! helyett.
Hipotézis: Összefüggés van a családi állapot és a pszichológiai jól-lét között.
• Összefüggés van a családi állapot és a pszichológiai jól-lét között.
• A hipotézist Pearson Teljesül.
korrelációval szeretnénk vizsgálni, melynek 5 feltétele
van: Nem teljesül, a családi állapot egy négy csoportból álló nominális változó!
• Személyek függetlensége:
• Skála típusú változók:
• Normalitás:
• Szóráshomogenitás:
• Linearitás: Teljesül.
Nem teljesül, a családi állapot egy négy csoportból álló nominális változó!
• Próbáljuk meg Spearman korrelációval! 3 feltétel van:
• Személyek függetlensége:
• Legalább ordinális változó:
• Monotonitás:

• Valójában ez egy szerencsétlenül megfogalmazott hipotézis. Azt sugallja,


hogy kapcsolat vizsgálatot fogunk végezni, miközben négy csoport között
keresünk különbséget, amit ANOVÁval lehet vizsgálni (következő félév
Hipotézis: A magasabb iskolai végzettség magasabb pszichológiai jól-léttel jár.
• A magasabb iskolai végzettség magasabb pszichológiai jól-léttel jár.
• A hipotézist Pearson korrelációval
Teljesül. szeretnénk vizsgálni, melynek 5 feltétele
van: Nem teljesül, az iskolai végzettség ordinális változó!
• Személyek függetlensége:
• Skála típusú változók:
• Normalitás:
• Szóráshomogenitás:
• Linearitás: Teljesül.
Teljesül.
Teljesül.
• Próbáljuk meg Spearman korrelációval! 3 feltétel van:
• Személyek függetlensége:
• Legalább ordinális változó:
• Monotonitás:
14
12
10

• Nincs akadálya a Spearman korreláció kikérésének.


8
6
4

• Megjegyzés: a monotonitás nehezen látható, mert túl sok pont esik


2
0

egymásra. általános középfokú felsőfokú


• Spearman korrelációt használva nem találtunk szignifikáns, pozitív
összefüggést az iskolai végzettség és a pszichológiai jól-lét között rs = .141 p
= .164 (1-tailed).
Spearman's Correlations
Variable WBIpont isk
1. WBIpont n —
Spearman's

rho
p-value —
2. isk n 50 —
Spearman's
0.141 —
rho
p-value 0.164 —

Note. All tests one-tailed, for positive correlation


* p < .05, ** p < .01, *** p < .001, one-tailed
Hipotézis: A barátok száma és a pszichológiai jól-lét összefüggése részben
a személyek érzelmi intelligenciájával magyarázható.
A pszichológiai koncepció
• Az előzőkhez képest ez egy jóval bonyolultabb gondolat.
• A hipotézis kifejtése pszichológiai szempontból:
• Elképzelhető, hogy azoknak, akiknek magasabb az érzelmi intelligenciája, több barátjuk van,
hiszen könnyebben, sikeresebben kezelik másokkal való kapcsolataikat. Emellett a magas érzelmi WBI barát
intelligenciájú személyek lehet, hogy boldogabbak is, hiszen jobban felismerik saját mentális és
EQ
érzelmi állapotaikat, jobban átlátják, és könnyebben kezelik a stresszes helyzeteket,
konfliktusokat, hatékonyabban küzdenek meg az őket érő nehézségekkel. (ez az az eset, amikor
az EQ egy közös háttérokként jelenik meg a WBI és közkör korrelációjában)
• Elképzelhető az is, hogy akinek sok barátja van, az nagyobb arányban van kitéve szociális WBI barát
helyzeteknek, mely fejleszti érzelmi intelligenciáját, ami a fentebb leírtak alapján magasabb jól-
léthez vezet (azaz az EQ közvetítő változóként jelenik meg a WBI és közkör korrelációjában) EQ

• Az is elképzelhető, hogy mind a három változó hat egymásra – a magasabb EQ-val rendelkező
emberek könnyebben szereznek barátokat, mely visszafele hatva segít fejleszteniük érzelmi
intelligenciájukat. A magasabb EQ-jú személyek boldogabbak is, és a pozitív élettapasztalat
megerősíti bennük a pozitív irányultságokat, növelve EQ-jukat. Illetve a sok jó barát szociális WBI barát
hálót képez, növelve a személyek boldogságát, és a boldogabb emberek könnyebben találnak EQ
barátokat. (ez az, amikor bár van ok-okozati kapcsolat, de annak nem meghatározható az iránya)
• Előfordulhat az is, hogy nincs ok-okozati kapcsolat e három változó között, de ez szakmai
tudásunk alapján nem valószínű.
• A fentebb leírtak mind csak feltételezések – a korreláció nem adja meg, hogy melyik igaz, ha egyáltalán
igaz bármelyik is. Statisztikailag csak az ellenőrizhető, hogy igaz-e, hogy a WBI és közkör kapcsolatának
erősségét befolyásolja az EQ.
A statisztikai koncepció
WBI
• Hogyan értelmezd az illusztrációt?
• A körök jelöljék a változók varianciáját (azaz
a változókban lévő változatosságot)
• Minél nagyobb az átfedés két kör között,
annál inkább meg tudja az egyik változó a
másik változó varianciáját magyarázni, azaz EQ
annál nagyobb a korreláció közöttük. Most
azt látjuk, hogy a WBI-t körülbelül
ugyanolyan mértékben fedi le a barátok
számának és az EQ-nak a köre, és a
korrelációkból is ezt látjuk: a barátok Barátok
számával r = .440, az EQ-val r = .450
korrelációt mutat a WBI.
• Ha két változó között egyáltalán nincs
Cipőméret
WBI
• Megfigyelhetjük, hogy a barátok száma és
az EQ nem csak a WBI-vel, hanem
egymással is összefüggésben vannak. Ez a
korrelációban is megjelenik, r = .455 a
kettő közötti kapcsolat.
• Ez pszichológiailag is értelmezhető, hiszen EQ
minél jobb valaki érzelmi intelligenciája,
annál könnyebben szerez barátokat, illetve
a szociális kapcsolatok fejlesztik az EQ-t.
• Mindez kérdéseket szülhet bennünk. Nem Barátok

lehet, hogy a barátok és WBI kapcsolatát Ez az a rész, amit az EQ is


az érzelmi intelligencia magyarázza? VagyEz a rész létezése a kérdés magyaráz a barátok és WBI
van a barátokban valami plusz, ami az kapcsolatából
A parciális korreláció
• A kérdés máshogy is megfogalmazható:
• Ha az összefüggésből kivesszük az EQ hatását, úgymond kontrolláljuk azt, akkor
mekkora a korreláció a barátok száma és a jól-lét között.
• Pszichológiailag ez a következőt jelenti: képzeljük el, hogy van egy olyan igazságos
világ, ahol mindenkinek pontosan ugyanakkora az EQ-ja. Ebben a világban van-e és ha
igen, mekkora összefüggés a barátok száma és a jól-lét között? Az összefüggés még
ebben a világban is elképzelhető, ha azt gondoljuk, hogy a kapcsolataikból felépülő
szociális hálónak van szerepe az emberek boldogságában vagy el tudjuk képzelni, hogy
a boldog emberek népszerűbben, ezért több baráttal rendelkeznek (ez két példa a
kapcsolat lehetséges ok-okozati magyarázataira)

• Parciális korrelációval elemezhető, mekkora az összefüggés két változó


között, ha egy harmadik változó hatását kontrolláljuk.
Amilyen nehéz az elmélet, olyan könnyű a gyakorlat Parciális korrelációt használtunk az érzelmi intelligencia
hatásának kontrollálására. A korreláció jól-lét és a közepes kör
mérete között így r = .295 p = .020 (1-tailed). Látható, hogy az
érzelmi intelligencia kontroljával a korreláció gyengébb a
korábban kapott r = .440 p = .001(1-tailed) értékhez képest,
azaz az érzelmi intelligencia hozzáad a közepesen közeli
barátok száma és jól-lét kapcsolatához.

Pearson's Partial Correlations


Variable WBIpont kozkor
1. WBIpont n —
Pearson's r —
p-value —
2. kozkor n 50 —
Pearson's r 0.295 —
p-value 0.020 —

Note. All tests one-tailed, for positive correlation


Conditioned on variables: eqpont
Hipotézis: A közepes méretű kapcsolati kör és a jól-lét közötti pozitív
összefüggés erősebb nők esetében, mint férfiaknál.
Korrelációk nemek szerinti bontásban
• Először bontsuk a mintát nem szerint
ketté Végezzük el a közepes kapcsolati kör
és WBI korrelációját (a Split file miatt
külön férfiakon és nőkön).
• Ne felejtsd el, hogy a feltételeket is nem
szerint bontva kell ellenőrizni, tehát a
korreláció feltételeinek külön teljesülnie kell
a férfi és női mintán.
Nem = Férfi

Korrelációk nemek szerinti bontásban


• 1-tailed kérjük ki, mivel a hipotézisnek van
iránya (a változók között pozitív összefüggést
várunk).
• Eredmények:
• Férfiak esetén a korreláció r = .399 p = .027
• Nők esetén a korreláció r = .454 p = .010
• Az látszik, hogy a nők esetén erősebb az
összefüggés, ez a hipotézisünknek megfelel. Nem = Nő
Már csak az a kérdés, hogy szignifikánsan
erősebb-e nőknél a korreláció, mint
férfiaknál.
• A hipotézis megválaszolásához a két
korrelációt kell összehasonlítanunk
egymással.
Korreláció r-értékéhez tartozó Z-érték
• Korrelációk statisztikai összehasonlítása sajnos nincs
kiszámolása
implementálva a Jasp-ben, de két ijesztő képlet segítségével mi
magunk is elvégezhetjük az elemzést.
• Kelleni fog:
• Korrelációs együtthatók: férfi: r = .399 nő: r = .454
• Elemszámok: férfi: N = 24, nő: N = 26
• Számoljuk ki a korrelációkhoz tartozó Z-értékeket a következő
képlet segítségével:
1 1+𝑟
𝑧𝑟 = ln( )
2 1−𝑟
• A képletben az ln a természetes logaritmus jele, tudományos
számológépeken biztosan megtalálható. Másik jelölése 𝑙𝑜𝑔𝑒
1 1.399 1 1
• Férfi: 𝑧𝑟,𝑓é𝑟𝑓𝑖 = ln = ln 2.328 = ∗ 0.845 = 0.422
2 0.601 2 2
1 1.454 1 1
• Nők: 𝑧𝑟,𝑛ő = 2 ln = 2 ln 2.663 = 2 ∗ 0.979 = 0.490
0.546
• Korrelációk erősségének
A korrelációk Z-értékeit statisztikai
és elemszámokat felhasználva számoljuk ki a különbséghez
tartozó Z-értéket!
összehasonlítása 𝑧 − 𝑧 𝑟1 𝑟2
𝑧𝑑𝑖𝑓𝑓 =
1 1
+
𝑁1 − 3 𝑁2 + 3

• Hogy melyik minta korrelációját tekinted 𝑧𝑟1 -nek és melyiket 𝑧𝑟2 -nek, az matematikai
szempontból mindegy. Érdemesebb az erősebb korrelációt tekinteni 𝑧𝑟1 -nek, hogy ne
kelljen negatív számokkal dolgozni. Éppen ezért most a nőket fogom 𝑧𝑟1 -nek tekinteni.
0.490−0.422 0.068 0.068
• 𝑧𝑑𝑖𝑓𝑓 = = = = 0.239
1 1 1 1 0.284
+
26−3 24+3
+
23 27

𝑧𝑑𝑖𝑓𝑓 = 0.239. Ez a két korreláció különbségéhez tartozó Z-érték. Már csak azt kell
eldönteni, hogy ez szignifikáns-e vagy sem. Korábban megtanultuk, hogy a |Z|>1.96 –hez
(azaz a ±1.96-nál akár pozitív, akár negatív irányba szélsőségesebb Z-értékhez) tartozik a
p<.05 valószínűség 2-tailed tesztelésnél.
Mivel 0.239 nem szélsőségesebb a ±1.96-nál, ezért a különbség nem szignifikáns, férfiak és
nők között nincs szignifikáns különbség abban, hogy milyen erős a kapcsolat a barátaik
száma és a pszichológiai jól-létük között.
Hipotézis: A szűk és tág baráti kör mérete között pozitív összefüggés van.
• Megjegyzés:
• A tág körnél sérül a normalitás, ezért Pearson nem használható. A Spearman feltételei teljesülnek.
• Bár most nem lényeges, mert a Pearson már a normalitás miatt sem
használható, de figyeld meg, hogy a szóráshomogenitás is sérül!
Statisztikai szempontok mellett pszichológiailag is érdekes ez, mert azt
jelenti, hogy akinek kevés közeli kapcsolata van, arról elég biztosan
feltételezhetjük, hogy laza kapcsolata sem lesz sok. Akinek viszont sok
közeli kapcsolata van, nem biztos, hogy sok haverral is rendelkezni fog.
• Figyeld meg, hogy a korrelációt 1-tailed kértem ki, mivel a hipotézis is
meghatározta az irányt.

• Eredmények közlése:
• Bár a szűk kapcsolati kör esetén feltételezhető a normalitás teljesülése, W(37) = .947 p =
Spearman's Correlations

.079, a tág Variable kiskor nagykor


1. kiskor n —
kapcsolati kör esetén sérül e feltétel W(37) = .909 Spearman's

rho
p = .005, a változó ferdesége miatt, Z = 2.505. p-value —

• A normalitás sérülése miatt Spearman korrelációt


2. nagykor n 37 —
Spearman's
0.420 ** —
választottunk, melynek minden feltétele teljesül. rho
p-value 0.005 —
• Spearman korreláció alapján a szűk és tág kapcsolati
kör mérete között szignifikáns, pozitív, közepes
Note. All tests one-tailed, for positive correlation
* p < .05, ** p < .01, *** p < .001, one-tailed
erősségű kapcsolat van rs = .420 p = .005 (1-tailed).
Hipotézis: A kor és a tág kapcsolati kör mérete között összefüggés van.
Descriptive Statistics
kor nagykor
Valid 37 37
Missing 0 0
Mean 35.216 455.189
Std. Deviation 14.388 324.992
Skewness 0.862 0.771
Std. Error of 𝑍 = 2,22 Z=1,99
0.388 0.388
Skewness
Kurtosis 0.365 -0.044
Std. Error of
𝑍 = 0,48 Z=-0,06
0.759 0.759
Kurtosis
Shapiro-Wilk 0.923 0.914
P-value of Shapiro-
0.014 0.007
Wilk
Minimum 18.000 45.000
Maximum 77.000 1218.000
• Megjegyzés:
• A tág körnél és a kornál is sérül a normalitás, ezért Pearson nem használható. A Spearman feltételei
teljesülnek.
• Itt is figyeld meg a szóráshomogenitás sérülését, próbáld meg
pszichológiai szempontból értelmezni.
• Figyeld meg, hogy a korrelációt 2-tailed kértem ki, mivel a hipotézis
nem határozta meg az irányt.

• Eredmények közlése:
• Pearson korreláció nem használható, mert sem a kor, sem a tág
kapcsolati kör mérete esetén nem teljesül a normalitás, W(37) = .923
p = .014 és W(37) = .914 p = .007. Mindkét esetben
Spearman'sa változó
Correlations
ferdesége okozza az eltérést, Z = 2.22 és Z = 1.99. Variable kor nagykor

• A normalitás sérülése miatt Spearman korrelációt1. kor n


Spearman's

választottunk, melynek minden feltétele teljesül. rho


• Spearman korreláció alapján a kor és a tág


p-value —
2. nagykor n 37 —
kapcsolati kör mérete között szignifikáns, Spearman's
-0.583 *** —
rho
negatív, közepesen erős/erős kapcsolat van p-value < .001 —
rs = -.583 p < .001 (2-tailed).
* p < .05, ** p < .01, *** p < .001

You might also like