You are on page 1of 453

RODOSZ © Typotex Kiadó

2012-03-02 13:29:22

SZÉKELYI MÁRIA – BARNA ILDIKÓ

TÚLÉLİKÉSZLET AZ SPSS-HEZ

Többváltozós elemzési technikákról


társadalomkutatók számára

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

SZÉKELYI MÁRIA – BARNA ILDIKÓ

TÚLÉLİKÉSZLET AZ SPSS-HEZ

Többváltozós elemzési technikákról


társadalomkutatók számára

TYPOTEX KIADÓ
2002

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Ez a könyv az illetékes kuratórium döntése alapján az


támogatásával a Felsıoktatási Pályázatok irodája által lebonyolított Tankönyv-
támogatási Program keretében jelent meg. A kiadást az Eötvös Loránd
Tudományegyetem Szociológiai és Szociálpolitikai Intézete támogatta.

 Székelyi Mária, Barna Ildikó; Typotex, 2002


ISBN 963 9326 42 9

Kedves Olvasó!
Önre gondoltunk, amikor a könyv elıkészítésén munkálkodtunk. Kapcsola-
tunkat szorosabbra főzhetjük, ha belép a Typoklubba, ahonnan értesülhet új
kiadványainkról, akcióinkról, programjainkról, és amelyet a www.typotex.hu
címen érhet el. Honlapunkon megtalálhatja az egyes könyvekhez tartozó hiba-
jegyzéket is, mert sajnos hibák olykor elıfordulnak.

Kiadja a Typotex Elektronikus Kiadó Kft., az 1795-ben alapított Magyar


Könyvkiadók és Könyvterjesztık Egyesülésének tagja
Felelıs kiadó Votisky Zsuzsa
Felelıs szerkesztı Bernát Anikó
Borítóterv Tóth Norbert
Tördelés Lukács Andrea
Terjedelem 31,75 (A/5) ív
Készült a Kinizsi Nyomdaipari és Szolgáltató Kft.-ben
Felelıs vezetı

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Tartalomjegyzék

Bevezetés ................................................................................................... 11
A hasznos véletlen hiba .......................................................................... 13
I. Adatredukciós módszerek ................................................................. 17
1. Fıkomponens-elemzés.................................................................. 18
1.1. A fıkomponens jelentése .................................................... 25
1.2. Mikor használjunk fıkomponens-elemzést? .................... 25
1.3. A puding próbája .................................................................. 28
1.3.1. Az egyenlı teherviselés ............................................ 30
2. Faktorelemzés ................................................................................ 40
2.1. A modell javítgatása ............................................................. 49
2.2. Lássunk tisztán! A rotálás .................................................... 53
2.3. Mentsük, ami menthetı: a faktorszkórok létrehozása .... 60
2.4. Amiért fáradoztunk: létrejöttek a látens változók ............ 62
2.5. A hiányzó adatok kezelése .................................................. 64
2.6. A faktorelemzés buktatói .................................................... 65
2.6.1. A Kaiser–Meyer–Olkin mutató
és a Bartlett-teszt ....................................................... 66
2.6.2. Amikor a faktorok 100 százaléknál többet
magyaráznak .............................................................. 71
2.6.2.1. A legnagyobb kommunalitású változó
kihagyása ..................................................... 71
2.6.2.2. A rosszul interpretálható változók
kihagyása ..................................................... 78
2.6.2.3. Az egyeduralomra törı változók esete ... 82
2.6.2.4. Vissza az elágazási ponthoz ..................... 85
2.6.3. A változók tartalma és a faktorok jelentése .......... 89
2.6.4. A konfirmációs modell ............................................ 91
2.6.5. Amikor minden reménytelen .................................. 96
2.6.5.1. Kétségbeesett kísérlet ................................ 101
2.6.5.2. Feladás helyett: visszahátrálás
a fıkomponensbe ...................................... 103
2.7. Szezon és fazon .................................................................... 108

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

6 Túlélıkészlet az SPSS-hez

3. Klaszterelemzés ............................................................................. 109


3.1. Tudás versus anyagi javak ................................................... 109
3.2. Hierarchikus klaszterek ....................................................... 115
3.2.1. A hierarchikus klaszterezés módszerei .................. 119
3.2.1.1. A legközelebbi, illetve a legtávolabbi
szomszéd .................................................... 119
3.2.1.2. Klaszterek távolsága mint a klaszterelemek
távolságainak átlaga ................................... 122
3.2.1.3. Klaszterek távolságának meghatározása a
klaszterközéppontok segítségével ........... 125
3.2.2. Miben mérjük a távolságot? .................................... 129
3.2.2.1. Euklideszi távolság .................................... 129
3.2.2.2. Az euklideszi távolság négyzete ............... 130
3.2.2.3. Asszociáción alapuló közelség-távolság . 130
3.2.3. Sok hőhó majdnem semmiért ................................. 132
3.3. Klaszterezés nagy file-okon ................................................ 133
3.3.1. Iniciális klaszterközéppontok ................................. 133
3.3.2. Útban a tökéletesség felé: iterálás ........................... 137
3.3.3. A klaszterek interpretálása ...................................... 138
3.3.3.1. Kendızetlen ıszinteség versus
a standardizálás álcája ............................... 141
3.4. Kilépés az életbe: típuskeresés klaszterekkel .................... 143
3.4.1. És megint elölrıl: iterálás több lépésben .............. 145
3.4.2. Névadás: klaszterek interpretálása ......................... 148
3.4.3. Adjunk-e profilt a bizonytalankodóknak?
A hiányzó adatok kezelése ...................................... 150
3.4.4. Egy tautológia két jelentése: ANOVA egy kicsit
másképpen ............................................................................ 154
3.4.5. Minden út Rómába vezet? Változtassunk a
kezdıpontokon! ........................................................ 157
3.4.5.1. A magunk ásta verem és a kiút ................ 159
3.5. Tanulságok ............................................................................ 163

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Tartalomjegyzék 7

II. Magyarázó modellek .......................................................................... 164


4. Variancia-analízis ........................................................................... 166
4.1. Egyutas variancia-analízis .................................................... 167
4.2. Kétutas variancia-analízis .................................................... 175
4.3. Az interakció ......................................................................... 176
4.3.1. Az interakcióról bıvebben ...................................... 178
4.3.2. A négyzetösszegek értelmezése
a kétutas ANOVA-ban ................................................ 180
4.3.3. Az interferencia ......................................................... 182
4.4. A hierarchikus ANOVA ......................................................... 188
4.5. Korlátozó feltételek .............................................................. 192
4.5.1. Normalitás-vizsgálat ................................................. 194
5. Lineáris regresszióanalízis ............................................................ 204
5.1. A regressziós egyenes egyenlete ......................................... 205
5.2. Egyszerő példa a lineáris regresszióra ................................ 209
5.3. Illeszkedés: mennyire vehetjük komolyan a regressziós
egyenest? ................................................................................ 211
5.4. Lineáris regresszióanalízis „élesben” – egyszerő modell 214
5.4.1. A „deviánsokról” ...................................................... 217
5.4.2. Vissza az output-hoz ................................................ 220
5.5. Kétváltozós regressziós modell .......................................... 222
5.5.1. Kétértékő vagy dummy változók ............................ 222
5.5.2. Modellépítés .............................................................. 223
5.5.3. Még egy kicsit a dummy változókról ..................... 226
5.6. Többváltozós regressziós modell ....................................... 227
5.6.1. Ordinális független változók ................................... 227
5.6.2. A Lazarsfeld-paradigma és a regresszió ................. 230
5.7. Interferencia a regresszióban: a változószelektálás
módszerei ............................................................................... 234
5.7.1. A FORWARD módszer ............................................... 235
5.7.2. A BACKWARD módszer ............................................ 238
5.7.3. A STEPWISE módszer ................................................ 241
5.7.4. Az ENTER módszer ................................................... 244
5.8. Nominális mérési szintő változók becsempészése
a regressziós modellbe: dummyzás .................................... 246

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

8 Túlélıkészlet az SPSS-hez

5.9. Összefüggı független változók: a multikollinearitás ....... 252


5.9.1. Függvényszerő multikollinearitás ........................... 252
5.9.1.1. A baj nem jár egyedül: magas mérési
szintő és dummy változók a regressziós
modellben ................................................... 259
5.9.1.2. Amikor csak a gondolkodás segít –
dummyzzunk másként .............................. 266
5.9.1.3. Szabaduljunk meg a nominális
változóktól .................................................. 269
5.9.2. Függvényszerő kapcsolat – sztochasztikus
multikollinearitás ...................................................... 271
5.9.2.1. Miért félünk a sztochasztikus
multikollinearitástól? ................................. 274
5.9.2.2. Barátságosabb út a multikollinearitás
meghatározására – kétféle mérıszám ..... 277
5.9.2.3. Hogyan védekezzünk a sztochasztikus
multikollinearitás ellen? ................................. 282
5.10. Hab a tortán: a homoszkedaszticitás és az elsırendő
autokorreláció ...................................................................... 289
5.11. Biztos, ami biztos: a regressziós modellek validitása ..... 296
6. Útmodellek .................................................................................... 301
6.1. Az utak erıssége ................................................................... 302
6.2. Közvetlen és közvetett hatások .......................................... 308
6.3. Gondolkodási sémák ........................................................... 310
6.3.1. Mi az ok, és mi az okozat? ...................................... 313
6.3.2. A modell továbbépítése ........................................... 314
6.3.3. A modell interpretációja .......................................... 317
6.4. Az útmodell korlátai ............................................................ 318
7. Diszkriminancia-analízis .............................................................. 320
7.1. A romák lehetséges beilleszkedése a többségi
társadalomba: ahogyan a többség látja .............................. 320
7.1.1. Sok kicsi sokra megy? .............................................. 324
7.1.2. A magyarázó változók együttes jelentése:
a diszkrimináló függvények ..................................... 327
7.1.3. Az üdvözlendı diszkrimináció .............................. 333

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Tartalomjegyzék 9

7.1.4. Sose lehetünk elég óvatosak – átlagok


és eloszlások összehasonlítása ............................... 334
7.1.5. Lássuk a medvét! ....................................................... 338
7.2. Komplex modell ................................................................... 340
7.2.1. Antiszemitizmus és cigányellenesség ..................... 341
7.2.2. Státus és attitődök: együttes magyarázat ................ 347
8. Többdimenziós skálázás .............................................................. 352
8.1. Kisebbségek egy rokonszenv-térképen ............................. 353
8.1.1. Többdimenziós skálázás az SPSS-ben ..................... 356
8.1.2. Meddig mehetünk el? A dimenziócsökkentés
határai ......................................................................... 359
8.2. Etnikai csoportok az egymásról alkotott vélemények
terében .................................................................................... 366
9. Logisztikus regresszió ................................................................... 374
9.1. A „sztahanovista” lineáris regresszió. Miért van szükség
logisztikus regresszióra? ....................................................... 375
9.2. A legfontosabb fogalmak .................................................... 378
9.2.1. A valószínőség és az esély ....................................... 379
9.2.2. Az esélyhányados ...................................................... 379
9.3. Út a logisztikus regresszióanalízis felé ............................... 380
9.4. Egy egyszerő modell ............................................................ 384
9.4.1. A likelihood függvényrıl ......................................... 386
9.4.2. Az output érdemi része ............................................ 389
9.4.3. A modell magyarázóereje ......................................... 391
9.4.3.1. Találatmátrix a logisztikus
regresszióban .............................................. 394
9.4.4. A független változó hatása ...................................... 396
9.5. A modell bıvítése ................................................................. 398
9.5.1. Összemérhetı hatások: a standardizált regressziós
együttható .................................................................. 401
9.6. Kategoriális független változó a logisztikus
regresszióban ......................................................................... 404
9.7. Mindent bele! Sokváltozós modell ..................................... 410
9.8. Ugyanaz másképpen ............................................................. 419

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

10 Túlélıkészlet az SPSS-hez

Melléklet .................................................................................................... 425


A parancsikonok használata: Fıkomponens- és faktorelemzés .. 425
A parancsikonok használata: Klaszterelemzés ............................... 430
Hierarchikus klaszterezés .................................................................. 430
K-Means klaszterezés ........................................................................ 434
A parancsikonok használata: Variancia-analízis ............................. 438
A parancsikonok használata: A lineáris regresszióanalízis ........... 438
A parancsikonok használata: Diszkriminancia-analízis ................ 442
A parancsikonok használata: A többdimenziós skálázás .............. 446
A parancsikonok használata: A logisztikus regresszió .................. 449
Felhasznált irodalom ............................................................................... 452

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

BEVEZETÉS

Ez a könyv nem olvasni való. A „felhasználót” úgy képzeltük el, hogy ül


a számítógépe elıtt, letölti az Internetrıl a www.typotex.hu utasításra
megjelenı információs ablakból a könyvhöz tartozó adatfile-okat, be-
hívja az SPSS programcsomagot, majd kinyitja ezt a könyvet.
Minden témakör elsı oldalain az adott elemzési technika SPSS-beli
alkalmazásának leírását találja, tehát elıször a parancssorokkal ismer-
kedhet meg. Ennyiben kifejezetten úgy érezheti magát az olvasó,
mintha egy SPSS kézikönyvet forgatna. Reményeink szerint azonban
a fejezetekben található futtatások önállóan véghez vitt megismétlése és
a szöveg türelmes elolvasása után nem csak az adott módszer alkalmaz-
hatóságának feltételeivel ismerkedhet meg, hanem azt is megérti, mi-
lyen típusú kérdések megválaszolására alkalmas az adott eljárás, mik az
alkalmazás korlátai és milyen „cselek” vethetık be akkor, mikor már
minden reménytelennek látszik.
A könyv elsı felében olyan aggregáló módszereket ismertetünk,
amelyek nem csak a mérések érvényességének és megbízhatóságának
növelésére alkalmasak, hanem esetenként a társadalomkutatók legfıbb
kínját is enyhítik: magasabb mérési szintre transzformálják az eredeti
változókat. A második rész a magyarázó modellekkel foglalkozik, meg-
mutatva a többdimenziós térben való tájékozódás nehézségeit és szép-
ségeit. A könyvet két „divatos” eljárás, a többdimenziós skálázás és a
logisztikus regresszió ismertetése zárja.
E munkát természetesen azok is haszonnal forgathatják, akik nem
megalapozni, hanem bıvíteni szeretnék ismereteiket, illetve akik egy
konkrét probléma megválaszoláshoz szeretnének segítséget kapni. Az ı
tájékozódásukat a tárgymutató segíti. A Melléklet a 9-es SPSS parancs-
ikonjait mutatja be, lehetıséget teremtve ezzel arra, hogy a syntax ab-
lakból futtatandó parancsok helyett a „klikkelés” gyors technikáját is
megismerhessük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

12 Túlélıkészlet az SPSS-hez

A kötet nem tartalmaz külön tárgymutatót, mivel úgy gondoljuk,


hogy a részletes tartalomjegyzék egyben a tárgymutató funkcióját is be-
tölti.
Végezetül szeretnénk köszönetet mondani Csepeli Györgynek,
Ferge Zsuzsának, Kovács Andrásnak és Örkény Antalnak, akik lehe-
tıvé tették, hogy egy-egy kutatásuk adataiból elkészítsük azokat a kis
file-okat, amelyek a könyv példaanyagát szolgáltatják.

Budapest, 2002. január

a szerzık

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

A HASZNOS VÉLETLEN HIBA

Nem kell még szociológia szakos hallgatónak sem lenni ahhoz, hogy
valaki belássa, egy kérdıívben nem lehet egyetlen direkt kérdéssel mér-
ni olyan összetett dolgokat, mint az elıítéletesség, az elégedettség vagy
a lakóhelyhez való ragaszkodás. A kérdıív kérdéseire kapott válaszokat
az empirikus szociológia mérésként kezeli, és elfogadhatónak azokat
a méréseket tekinti, amelyek érvényesek és megbízhatóak. Az érvényes-
ség a szóban forgó fogalom valódi jelentésének megragadását jelenti.
Megbízhatónak akkor tekintünk egy mérést, ha megismételve ugyanazt
az eredményt kapjuk. Könnyen beláthatjuk, hogy ha egy összetett dol-
got nem egyetlen, hanem – az operacionalizálás szabályinak megfelelı
módon – több kérdéssel mérünk, jó eséllyel fokozzuk a mérés érvé-
nyességét. Kevésbé kézenfekvı azonban, hogy a több kérdéssel történı
mérések megbízhatóbbak is. A szociológus számára a meglehetısen
szőkös kutatási források miatt ritkán adódik lehetıség arra, hogy a mé-
rések megbízhatóságát tesztelje, azaz azonos mintán, rövid idıinterval-
lumon belül megismételje kérdéseit. Az ELTE Szociológiai Intézetének
Kisebbségszociológia Tanszéke Kárpát-projekt nevő vizsgálatsorozatá-
ban a magyarországi szlovákok kérdıívébe hiba csúszott: egy nyolc
itembıl álló kérdésblokkot véletlenül megismételtünk a kérdıívben. A kér-
dések heterosztereotípiák mérésére szolgáltak, s azt firtatták, hogy a Szlo-
vákiában élı szlovákok hány százaléka jellemezhetı az erıszakos, intel-
ligens, lusta, önzı, segítıkész, tehetetlen, toleráns és versenyszellemő
tulajdonságokkal.1 A két azonos kérdésblokkra adott válaszok nem
estek egybe. Az erıszakosság megítélését mutató eloszlást az 1. táblázat
mutatja.

1 A továbbiakban a TBD.KÖNYV_MOSZLOV.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

14 Túlélıkészlet az SPSS-hez

1. táblázat: A szlovákiai szlovákok hány százaléka jellemezhetı


az erıszakos jelzıvel?

Elıször feltett kérdés Másodszor feltett kérdés


N % N %
0 60 9,9 37 6,1
10 145 23,8 117 19,2
20 70 11,5 65 10,7
30 35 5,7 31 5,1
40 21 3,4 24 3,9
50 26 4,3 37 6,1
60 5 0,8 13 2,1
70 6 1,0 15 2,5
80 7 1,1 6 1,0
90 1 0,2 2 0,3
100 7 1,1 4 0,7
nem tudja 226 37,1 258 42,4

A nyolc jelzıre adott válaszok eltéréseit egyenként jellemezzük négy-


zetes eltérésekkel. Rendre nézzük meg az egy-egy jelzıre adott elsı és
második válasz különbségét, e különbséget emeljük négyzetre.2 Ezekkel
a négyzetes eltérésekkel fogjuk jellemezni az egyes itemekre adott vála-
szok megbízhatóságát.
Próbáljunk a sztereotíp jelzıkbıl összetett mérıszámot konstruálni.
Tekintsük az egyes itemeket egy Likert-skála állításainak. Mivel a jelzık
között pozitív és negatív értéktartalmúak is szerepelnek, döntsünk úgy,

2 Most LISTWISE logikával dolgozunk, tehát csak azokra figyelünk, akik mind a nyolc
itemre válaszoltak. A megbízhatóság tárgyalásához szükségtelen olyan bonyolult
számítással dolgoznunk, amely a részleges válaszmegtagadókat is beemeli az eltéré-
sek jellemzésébe.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

A hasznos véletlen hiba 15

hogy a Likert-skála a pozitív heterosztereotípiákat jelzi majd, így a ne-


gatív jelzıkhöz tartozó válaszokat be kell forgatnunk. Ha valaki úgy
vélte, hogy a szlovákok 20 százaléka erıszakos, akkor 80 százalékukat
nem erıszakosnak ítéli, tehát a beforgatás a negatív jellemzıre adott
érték 100-ból való kivonását jelenti. Az SPSS parancssor tehát a követ-
kezı lesz:
COMPUTE sz1erosb = 100 - sz1erosz .
COMPUTE sz1lustb = 100 - sz1lusta .
COMPUTE sz1teheb = 100 - sz1tehet .
COMPUTE sz1onzob = 100 - sz1onzo .
COMPUTE sz2erosb = 100 - sz2erosz .
COMPUTE sz2lustb = 100 - sz2lusta .
COMPUTE sz2teheb = 100 - sz2tehet .
COMPUTE sz2onzob = 100 - sz2onzo .
EXECUTE .

Az elsı és a második kérdésblokkra adott válaszokból egy-egy Likert-


skálát készítünk:
COMPUTE likert1 = (sz1int + sz1segit + sz1toler +
sz1verse + sz1erosb +
sz1onzob + sz1teheb + sz1lustb)/8 .
COMPUTE likert2 = (sz2int + sz2segit + sz2toler +
sz2verse + sz2erosb + sz2onzob + sz2teheb + sz2lustb)/8.
EXECUTE .

A Likert-skálák terjedelme éppúgy nulla és száz közötti, mint az egyes


itemeké. Ez azért fontos, mert a négyzetes eltérések összehasonlításá-
hoz azonos range-dzsel bíró változókkal dolgozunk. A két kérdés-
blokkra adott válaszokból megkonstruált két Likert-skála távolságait
(négyzetes eltérések) átlagolva kisebb értéket kapunk, mint az egyes
itemekre adott válaszkettısök távolságai. Példaként a három leghason-
lóbb válaszkettıs és a Likert-skálák távolságait mutatjuk be a 2. táblá-
zatban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

16 Túlélıkészlet az SPSS-hez

2. táblázat: Az egyes itemekre adott válaszkettısök


3
és a Likert-skálák eltérései

négyzetes eltérések átlaga


Likert-skálák távolsága 79,65
A lustaságra adott válaszok távolsága 177,78
Az intelligenciára adott válaszok távolsága 239,67
Az erıszakosságra adott válaszok távolsága 280,63

Ebben a gondolatmenetben ne vesztegessük a szót arra, hogy ha nyolc


itembıl egyetlen mutatót készítünk, akkor elveszítjük az eredeti vála-
szokban meglevı információtartalom egy részét. Éppen ennek köszön-
hetjük, hogy a Likert-skála kisimította az azonos kérdésekre adott vála-
szok ingadozásait, és így egyfajta általános, a szlovákokkal kapcsolatos
attitődöt kifejezı, sokkal „megbízhatóbb” mérésnek bizonyult, mint a
kérdések egyenként.

________________________
3 A négyzetes eltéréseket a COMPUTE paranccsal számítottuk ki. A Likert-skálák
távolságát mérı változót például a következı parancssorral hoztuk létre: COMPUTE
LIKDIF =(LIKERT1–LIKERT2)*(LIKERT1–LIKERT2). A táblázatban e változó átlaga
szerepel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

I. ADATREDUKCIÓS MÓDSZEREK

Az eddig tárgyaltak meggyızı erejét kisebbre-nagyobbra értékelve


annyit leszögezhetünk, hogy szerencsésebb majdnem mindent több
kérdéssel mérni. Ez esetben az érvényesség és a megbízhatóság megkö-
zelíthetı célként lebeghet a szemünk elıtt. Mikor azonban az egy fo-
galmat mérı itemeket megalkottuk, és a válaszokat beszereztük, nem
dılhetünk hátra a székünkben a jól végzett munka örömével. Az
itemekbıl valahogyan össze kell raknunk azt a dolgot, amelynek meg-
ragadására vállalkoztunk.
Ezt az „összerakást” néha aggregálásnak, néha dimenziócsökkentés-
nek, néha pedig adatredukciónak nevezik. Lehet összetett mérıszámot
konstruálni az itemekbıl egyszerő összegzéssel (Likert-skála), fıkom-
ponens-készítéssel, néha skálázással (Guttman-skála), kicsit módosított
értelmezésben faktorstruktúra-feltárással, klaszterelemzéssel és többdi-
menziós skálázással. Mi a következı két fejezetben a fıkomponens- és
a faktorelemzéssel foglalkozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

1. FİKOMPONENS-ELEMZÉS

A fıkomponens-elemzés egy olyan statisztikai eljárás, amely egy válto-


zószettet alakít át lineáris transzformáció segítségével egy, az eredetinél
kisebb számú, új változószetté. Az átalakítás után létrejött új változók a
fıkomponensek, amelyek korrelálatlanok egymással és a kiinduló válto-
zók által megtestesített információtömeg lehetı legnagyobb részét
megırzik.
A lineáris transzformáció azt jelenti, hogy az eredeti változókat nem
egyszerően összeadja az eljárás, miként azt a Likert-skála készítésénél
tettük. (Nem is kell nagyon hangsúlyozni, hogy az egyszerő összeadás
azt jelenti, hogy egyforma erısségőnek tekintettük az itemeket, és ezért
azonos – éppen egységnyi – súllyal szoroztuk mindegyiket.) A fıkom-
ponens-készítés során az új változó az eredeti, mért (megfigyelt, válasz-
ként kapott) változókhoz különbözı súlyokat rendel, és ezekkel szo-
rozva adja össze azokat. A súlyok pedig éppen akkorák, hogy biztosítva
legyen, hogy a fıkomponens a lehetı legtöbb információt (varianciát)
megırzi az eredeti változók teljes heterogenitásából.
Alkossunk a négy pozitív tartalmú sztereotípia-itembıl egyszerő
összegzéssel egy Likert nevő változót.
COMPUTE likert=(sz1int+sz1segit+sz1toler+sz1verse)/4 .

Ha fıkomponens-elemzéssel hozzuk létre a súlyokat, akkor az új válto-


zónk garantálja a maximális információtartalom megırzését.1 (1.1. táb-
lázat)
Az 1.2. tábla csak szemlélteti, hogy a fıkomponens varianciája való-
ban nagyobb, mint a Likert-skáláé. (A bizonyítástól, hogy az összes le-
hetséges lineáris kombináció közül éppen a fıkomponens-elemzés által
létrehozott ırzi meg a legtöbb információt, eltekintünk.)

1 Most ne bánkódjunk azon, hogy nem tudjuk, milyen SPSS paranccsal kaptuk meg
ezeket a súlyokat.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 19

1.1. táblázat: A pozitív sztereotípiákból alkotott fıkomponens-szkórok


kiszámításához használt súlyok

eredeti változók súlyok


intelligens 0,752
segítıkész 0,810
toleráns 0,837
versenyszellemő 0,676

Számítsuk ki – a Likert-skála pontértékéhez hasonlóan – a szkórokat.


A súlyokkal létrehozott fıkomponens:
COMPUTE fokomp=(0.752*sz1int+0.810*sz1segit+0.837*
sz1toler+0.676*sz1verse)/(0.752+0.810+0.837+0.676).

Az 1.2. tábla csak szemlélteti, hogy a fıkomponens varianciája valóban


nagyobb, mint a Likert-skáláé. (A bizonyítástól, hogy az összes lehet-
séges lineáris kombináció közül éppen a fıkomponens-elemzés által
létrehozott ırzi meg a legtöbb információt, eltekintünk.)

1.2. táblázat: A Likert-skála és a fıkomponens átlaga és heterogenitása

változó átlag variancia


Likert-skála 56,94 231,66
fıkomponens 56,90 232,93

Ebben a szemléltetı példában nem tudjuk értelmezni a definícióban


szereplı „korrelálatlan” kijelentést, hiszen egyetlen fıkomponens írta
le, aggregálta a pozitív heterosztereotípiákat. Nem véletlenül választot-
tunk olyan példát, amelyben az eredeti változókat egyetlen egy fıkom-
ponensbe aggregálhatjuk. Nem tárgyaljuk azokat – az egyébként gya-
kori – eseteket, mikor a mért változók kettı vagy még több fıkompo-
nenssel ragadhatók csak meg.
A fıkomponens-elemzés során egyébként nem kell külön fáradnunk
az új változó értékeinek kiszámolásával (a fıkomponens szkórjainak
meghatározásával). A program létrehozza ezeket az értékeket, de stan-
dardizált (nulla átlagú, egységnyi szórású) formában.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

20 Túlélıkészlet az SPSS-hez

Nézzük meg, hogyan is fest egy fıkomponens-elemzés outputja.


Kezdjük a parancssorokkal.
FACTOR
/VARIABLES sz1int sz1segit sz1toler sz1verse
/MISSING LISTWISE
/ANALYSIS sz1int sz1segit sz1toler sz1verse
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/SAVE REG(ALL)
/METHOD=CORRELATION .

/VARIABLES sz1int sz1segit sz1toler sz1verse


Ez a sor sorolja fel azokat a változókat, amelyeket aggregálni kívánunk.
/MISSING LISTWISE
Itt rendelkezünk arról, hogy miként akarunk bánni a hiányzó adatokkal.
A LISTWISE mód azt jelenti, hogy mindazokat a kérdezetteket kihagy-
juk az elemzésbıl, akik akár csak egyetlenegy kérdésre nem válaszoltak.
(A további két missing-kezelı lehetıségrıl, a PAIRWISE és a REPLACE
WITH MEAN módszerrıl kicsit késıbb beszélünk.)
PRINT INITIAL EXTRACTION
Ebben a sorban kérjük, hogy printelje ki a program a kezdeti (INITIAL)
„állapotot”.
/CRITERIA FACTORS (1) ITERATE(25)
A CRITERIA parancs alatt most azt kérjük, hogy csak egyetlen fıkom-
ponenst hozzon létre. Az iterációra vonatkozó parancs a fıkompo-
nens-elemzésben abszolút értelmetlen. (Majd késıbb látni fogjuk, hogy
ugyanebbıl a parancssorból indítjuk a faktoranalízist is, ahol már ér-
telmet nyer az iteráció.)
EXTRACTION PC
Itt mondtuk meg, hogy fıkomponens-elemzést (PRINCIPAL COM-
PONENT, PC) kérünk és nem valami mást.
ROTATION NOROTATE
A rotálás a fıkomponens-elemzésben ritkán vezet jóra, egyetlen fı-
komponens esetében nincs is értelme. A rotálást is a faktorelemzések-
nél tárgyaljuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 21

SAVE REG(ALL)
Ez a parancs ment meg bennünket a fıkomponens-szkórok kiszámol-
gatásától, hatására minden válaszadó, aki valamennyi itemünkre vála-
szolt (LISTWISE!) kap egy új, aggregált változóértéket.
/METHOD=CORRELATION .
Ez a sor arra utal, hogy a fıkomponens a változók közötti páronkénti
korreláció2 figyelembevételével határozódik meg.3

Nézzük most már, mi történik a parancsok hatására.

1.3. táblázat
Communalities

Initial Extraction
SZ1INT kérdés1:hány %
1,000 ,566
intelligens?
SZ1SEGIT kérdés1:hány
1,000 ,656
% segítõkész?
SZ1TOLER kérdés1:hány
1,000 ,701
% toleráns?
SZ1VERSE kérdés1:hány
1,000 ,457
% versenyszellemû?
Extraction Method: Principal Component Analysis.

Az 1.3. táblázat elsı oszlopa (INITIAL) csupán felsorolja az elemzésbe


bevont mért változókat, és jelzi, hogy mindegyik változónk standardi-
zált formában, egységnyi szórással lép be az elemzésbe. Érdemes mind-
járt ennek kapcsán megjegyeznünk, hogy e négy változó egy négydi-

2 A Pearson-féle korreláció két magas mérési szintő változó közötti lineáris kapcso-
lat erısségét méri. A korreláció képlete:
∑ ( xi − x )( yi − y ) Cov( x, y ) . Ezt a korrelációt gyakran emlegetik nullad-
r ( x, y ) = i
=
ns x s y sx s y
rendő, szorzatmomentum korreláció néven is.
3 Lehetséges lenne az is, hogy a fıkomponens-elemzést a változók közötti kovarian-
ciákból indítjuk. A kovariancia nem más, mint a Pearson-féle korrelációs együtt-
ható számlálója. Mi ezzel a módszerrel nem foglalkozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

22 Túlélıkészlet az SPSS-hez

menziós teret testesít meg, s a bennük rejlı teljes információt a varian-


ciájuk összege jelzi (jelen esetben: 12+12+12+12=4).
Az 1.3. táblázat EXTRACTION oszlopából megtudhatjuk, hogy az
egyes mért változók mennyire jól helyettesíthetık az új, összevont vál-
tozónkkal, a fıkomponenssel. Ahhoz, hogy a kommunalitások jelenté-
sét megérthessük, nézzük meg a fıkomponens-szkórjai és az eredeti,
mért változók közötti (Pearson-féle, lineáris) korrelációs együtthatókat.

1.4. táblázat: A fıkomponens-szkórok és az eredeti, mért változók


kapcsolata
a korrelációs
együtthatók
korrelációk a
eredeti változók négyzetei a kommunalitások
fıkomponenssel
(megmagyarázott
hányad)
intelligens 0,752 0,565504 0,566

segítıkész 0,810 0,656100 0,656

toleráns 0,837 0,700569 0,701

versenyszellemő 0,676 0,456976 0,457

A korrelációk „szimmetrikus viszonyban” lévı változók közötti lineáris


kapcsolatot mérnek, a korrelációs együtthatók négyzetei viszont (mint
ezt a magyarázó modelleknél az ANOVA-modell ETA négyzetén, vagy az
egy független változós regressziós modell R2-n látni fogjuk) azt mutat-
ják meg, hogy a függı változó heterogenitásából mennyit magyaráz
meg a független változó. Semmi akadálya annak, hogy az eredeti, mért
változót (intelligencia) tekintsük függı változónak, és a fıkomponens-
szkórjait független változónak. Ebben az esetben az r2 éppen azt mu-
tatja meg, hogy az új, aggregált változónk, a fıkomponens mennyire jól
ragadja meg az eredeti mért változót, mennyit ıriz meg az eredeti vál-
tozó információtartalmából. Ezek az r2-k azonban minden mért változó
esetében éppen a kommunalitásokkal egyeznek meg. Mivel – mint az
1.3. táblázat INITIAL oszlopában láttuk – az eredeti változók stan-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 23

dardizált formában (nulla átlaggal és egységnyi szórással) lépnek be a


fıkomponens-modellbe, a kommunalitások éppen azt mutatják meg,
hogy az adott eredeti változó heterogenitásának hány százalékát (0,566-
os kommunalitásnál 56,6 százalékát) ırzi meg a fıkomponens.

1.5. táblázat
Total Variance Explained

Extraction Sums of Squared


Initial Eigenvalues Loadings
% of Cumulativ % of Cumulativ
Component Total Variance e% Total Variance e%
1 2,379 59,485 59,485 2,379 59,485 59,485
2 ,732 18,292 77,777
3 ,537 13,434 91,211
4 ,352 8,789 100,000
Extraction Method: Principal Component Analysis.

Az 1.5. táblázat COMPONENT oszlopában a fıkomponensek sorszámai


szerepelnek. Az INITIAL EIGENVALUES (eredeti sajátértékek) táblázat-
rész TOTAL oszlopában látható, hogy az egyes fıkomponensek mennyi
információt tömörítettek magukba. Az elsı fıkomponens információ-
tartalma 2,38; a másodiké 0,73 stb. Ha mind a négy fıkomponenst
megtartanánk, akkor a bennük lévı összes információtartalom éppen
úgy 4 lenne, mint a négy eredeti változó varianciájának összege. Ha
négy változóból négy fıkomponenst készítenénk, akkor egyáltalán nem
veszítenénk információt. De mi végre a fıkomponens-készítés, ha
ugyanannyi darabbal kell bajlódnunk, mint ahány változónk volt? Az
volt a cél, hogy aggregáljunk, kevesebb változóval ragadjuk meg az ér-
zületet operaconalizáló heterosztereotípiákat. S mit kezdhetnénk az in-
formációt alig tartalmazó (1-nél kisebb sajátértékő) fıkomponensekkel?
Csak azzal a fıkomponenssel fogunk törıdni, amely legalább annyi
információt tömörít magába, mint amennyit egy eredeti, mért (standar-
dizált) változó tartalmaz. Azaz csak az 1-nél nagyobb sajátértékő fı-
komponens(ek) lesz(nek) az új aggregált változó(k), a többit elfelejtjük.
Ezzel persze elveszítjük az eredeti változókban meglévı információ egy
részét. Ugyanezen táblázatrész % OF VARIANCE oszlopa azt mutatja,

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

24 Túlélıkészlet az SPSS-hez

hogy a fıkomponens a teljes információ hány százalékát tartalmazza.


A CUMULATIVE % (kumulált százalék) azt mutatja, hogy az adott sor-
hoz tartozó fıkomponens, az összes elıtte állóval együtt a teljes infor-
mációtartalom hány százalékát tömöríti.
Az EXTRACTION SUMS OF SQUARED LOADINGS táblázatrész a meg-
tartott fıkomponens adatait tartalmazza, és nem más, mint az INITIAL
EIGENVALUES táblázatrész elsı sorának ismétlése. A CUMULATIVE %
jelen esetben semmi újat nem mond, mivel egyetlen fıkomponensünk
van, de egyébként megkímél bennünket az összeadás okozta fáradság-
tól, hiszen azt jelzi, hogy két vagy még több fıkomponens együttesen a
teljes információ hány százalékát tömöríti.

1.6. táblázat
Component Matrixa

Compone
nt
1
SZ1INT kérdés1:hány %
,752
intelligens?
SZ1SEGIT kérdés1:hány
,810
% segítõkész?
SZ1TOLER kérdés1:hány
,837
% toleráns?
SZ1VERSE kérdés1:hány
,676
% versenyszellemû?
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

Az 1.6. táblázatban bemutatott COMPONENT MATRIX már ismerıs,


ezekkel a súlyokkal számoltuk a fıkomponens értékeit, mikor a Likert-
skála kisebb heterogenitását mutattuk be. Itt is, mint mindegyik output
táblázat alatt láthatjuk, hogy fıkomponens-analízist (PRINCIPAL COM-
PONENT ANALYSIS) futtattunk. A COMPONENT MATRIX-ban mutatott
súlyokkal létrehozott fıkomponens értékei minden megkérdezetthez
hozzárendelıdnek, és ettıl kezdve a négy mért item helyett már egyet-
len, heterosztereotípiákat jelzı mutatószámmal dolgozhatunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 25

1.1. A fıkomponens jelentése

Hogyan is jött létre a példabeli fıkomponens? Az eredeti változókat –


különbözı (faktor)súlyokkal – összeadtuk. Az eredeti változók „kis” ér-
tékei azt jelentették, hogy az adott tulajdonságot nem tartották jellemzı-
nek, a „nagy” értékek pedig azt, hogy az adott tulajdonságot jellemzınek
vélik. A fıkomponens nagy értékei tehát a négy pozitív tartalmú item el-
fogadását, kis értékei meg az elutasításukat jelzik. Mi végre ez a homályos
„kis és nagy érték” megfogalmazás? Képzeljük csak el a fıkomponens
eloszlását! A négy eredeti itemre 0 és 10 között lehetett valamilyen egész-
értékkel válaszolni. A válasznégyesek elvben 114 (14.641) különféle kon-
figurációt alkothatnak. A fıkomponens eloszlását joggal képzelhetjük
„folytonos”-nak, nagyon sok értékkel bírónak. Ha az eloszlást meg akar-
juk nézni, a hagyományos FREQUENCIES parancs irdatlan hosszú szám-
sorokat produkálna. Nézzünk inkább egy hisztogrammos ábrát!
Az 1.1. ábra szerint a fıkomponens értékei –3,73 és +2,67 között
vannak, és az eloszlás nem túlságosan tér el a normális eloszlástól (kissé
jobbra ferde). A negatív értékek keletkezésének történetét azonnal
megértjük, ha arra gondolunk, hogy a fıkomponens-szkórjai standardi-
zált (nulla átlagú, egységnyi szórású) alakban kerülnek mentésre, így
keletkeztek negatív értékek (ezek a „kis” értékek), amelyek a „jó tulaj-
donságok” elutasítását fejezik ki, míg a szkórok által kifeszített tengely
másik pólusán a „nagy” értékek helyezkednek el, amelyek a szóban
forgó heterosztereotípiák elfogadását jelezik.

1.2. Mikor használjunk fıkomponens-elemzést?

Tartalmi és formai kritériumokat fogalmazunk meg a fıkomponens-


elemzés használatát illetıen, s mint általában, egyszerőbb a dolgunk,
mikor az elemzésbe bevont változók mérési szintjével, eloszlásával
szemben támasztott követelményeket definiáljuk, mint amikor a „mi-
lyen típusú változószett esetében merjük akár csak fontolgatni a fı-
komponens-elemzés lehetıségét?” kérdésre akarunk válaszolni. Nézzük
elıször a változókkal szembeni követelményeket.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

26 Túlélıkészlet az SPSS-hez

1.1. ábra: A fıkomponens-szkórok eloszlása


pozitív sztereotípiák szlo-szlo PC-je
50

40

30

20
Frequency

10
Std. Dev = 1,00
Mean = 0,00

0 N = 345,00
-3

-3

-2

-2

-1

-1

-,7

-,2

,2

,7

1,

1,

2,

2,
5

25

75

25

75
,7

,2

,7

,2

,7

,2

5
5

pozitív sztereotípiák szlo-szlo PC-je

A fıkomponens-elemzés tárgyalása során már említettük, hogy az


eljárás kulcsfogalma a korreláció. A mért változók közötti korrelációs
mátrixból képes a program azokat a súlyokat létrehozni, amelyek biz-
tosítják a maximális információtartalom megırzését. (Korreláción a
Pearson-féle lineáris korrelációt értjük.) Ez a korreláció viszont inter-
vallum (illetve aránymérı) mérési szintő változók esetében használatos.
Empirikus szociológiával foglalkozók életében ritka az a pillanat, mikor
intervallum szintő mért változócsokorra bukkan az ember, és ezekbıl
egy aggregált változó készítése nem tőnik teljes képtelenségnek. Ilyen
eset lehet például, ha egy nıkbıl álló mintában a kihordott terhességek
számából, a naponta elfogyasztott szénhidrát mennyiségbıl és a na-
ponta testmozgásra fordított idıbıl van merszünk egy túlsúlyosság-
esélyt mérı aggregált változót létrehozni. Az adatfelvételek azonban
inkább attitődkérdésekben gazdagok, és ezek rendszerint öt-, illetve
hétfokú ordinális változókat eredményeznek. Indíthatjuk persze a fı-
komponens-programot olyan korrelációs mátrixból4, amelynek elemei
polinominális korrelációk, az efféle korrelációk elıállítása azonban igen

4 A fıkomponens-elemzés korrelációs mátrixból való indításához a DOS alatt futó


SPSS programcsomag HELP-jében, illetve a Manuel-ben találhatunk eligazítást.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 27

nehézkes, és az SPSS programcsomagon belül nem is valósítható meg.


Mielıtt kétségbeesnénk, hogy nincs mód kvázi-egydimenziós attitőd
(például lakóhelyhez való ragaszkodás) több itemmel való mérésére
úgy, hogy az itemeket a megbízhatóság érdekében egyetlen változóba
tömörítsük, gondoljunk a Likert-skálára. Mi is történik e klasszikus
skála megkonstruálásakor? Ordinális mérési szintő változókat átlago-
lunk. Tehát a „bőnt”, azaz ordinális skálák felértékelését, az intervallum
szintő változókat megilletı mőveletek elvégzését sokan elkövették.
Ráadásul, az empirikus szociológiai irodalom tele van ordinális válto-
zókból készített fıkomponensekkel. Akik e nem abszolút meggyızı
érvek után úgy vélik, hogy nem bíznak a lineáris korrelációkból indított
fıkomponens-elemzésekben, azoknak is azt ajánljuk, ismerkedjenek
tovább ezzel az elemzési technikával, s az eredeti, mért változók teré-
ben értelmezzenek és használjanak olyan asszociációs mérıszámot,
amelynek elfogadása ellen nem tiltakozik a lelkiismeretük. Minden, ami
ezután következik, az ı számukra is használható.
Még ennél is kevésbé megnyugtató módon tárgyalható a tartalmi
kritériumok köre. A probléma az operacionalizálás folyamatáig nyúlik
vissza. Amikor a kutató elhatározza, hogy érzületet, értéket, attitődöt
több kérdéssel fog mérni, az itemeket a tartalmi érvényesség5 követelmé-
nyeinek szem elıtt tartásával állítja össze. Azt a „dolgot”, amit mérni
kíván, kérdıív kérdéssel mérhetı itemekre bontja, majd az adatfeldol-
gozás során az adattá, változóvá lett itemekbıl újra össze akarja rakni.
Ennek az „összerakásnak” az eszköze a fıkomponens-elemzés. Nem-
csak eszköze, de próbája is. Nincs az a kutató, aki ne szembesült volna
azzal a keserő tapasztalattal, hogy bármilyen csillogó kreativitással és
aprólékos gondossággal állította is össze a kérdıív kérdéseit, a válaszok
más struktúrába szervezıdnek, mint ahogy azt elızetesen elképzelte.

5 Lásd errıl bıvebben Babbie, E. (1995) 137–162.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

28 Túlélıkészlet az SPSS-hez

1.3. A puding próbája

Ha egy itemcsokorral, például az emberekben élı szabadságvágyat6 kí-


vánjuk mérni, akkor az operacionalizálás során össze kell szednünk,
azokat a „területeket” (vallás, vélemény, orvosválasztás, sajtó, pártalakí-
tás, egyéb szervezetalakítás, tulajdonszerzés, utazás, életforma-válasz-
tás, vállalkozás, politika), amelyeket meg akarunk ítéltetni, aszerint,
hogy mennyire fontos az emberek számára.7
Hosszú és valószínőleg nem konszenzussal végzıdı vitát lehet foly-
tatni arról, hogy vajon minden lényeges, intézményesen szabályozott
terület bekerült-e az itemcsokorba. Azon azonban nem érdemes vitát
nyitni, hogy a felsorolt területek mindegyike része-e a „szabadságvágy-
nak”. A fıkomponens-elemzés meg fogja mutatni, létezik-e ez az
egyetlen dimenzióban kifejezhetı szabadságvágy és azt is, hogy minden
mért item része-e, alkotóeleme-e ennek az aggregált mutatónak.
A fıkomponens létrehozását kérı parancssor a következı:
FACTOR
/VARIABLES vallas velemeny orvosval sajto partalak
szervala tulajdon utazas eletform vallalk politika
/MISSING LISTWISE /ANALYSIS vallas velemeny orvosval
sajto partalak szervala tulajdon utazas eletform
vallalk politika
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION .

6 A példa egy 1995-ös nemzetközi összehasonlító vizsgálat magyarországi adatbázi-


sából származik. A kutatás „Az átalakulás következményei” címet viseli, vezetıje
Ferge Zsuzsa volt. A fejezet ezen részében a TBD.KÖNYV_SZABVAGY.SAV adataival
dolgozunk majd.
7 A kérdés pontosan így hangzott: „Kérem, mondja meg, hogy a következı jogok
milyen mértékben fontosak Önnek. Osztályozzon 1-tıl 7-ig, ahol a 7-es azt jelenti,
hogy nagyon fontosak, az 1-es pedig azt, hogy egyáltalán nem fontosak.” A minı-
sítésre felkínált itemeket a fıszövegben soroltuk fel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 29

Az elsı dolog, amit meg kell vizsgálnunk, az, hogy az új, aggregált vál-
tozónk, a fıkomponens mennyit ırzött meg az eredeti változók infor-
mációtartalmából. (1.7. táblázat)

1.7. táblázat
Total Variance Explained

Extraction Sums of Squared


Initial Eigenvalues Loadings
% of Cumulativ % of Cumulativ
Component Total Variance e% Total Variance e%
1 5,297 48,155 48,155 5,297 48,155 48,155
2 1,452 13,200 61,355
3 ,992 9,018 70,374
4 ,684 6,214 76,588
5 ,508 4,615 81,203
6 ,471 4,283 85,487
7 ,394 3,579 89,065
8 ,369 3,358 92,424
9 ,319 2,903 95,327
10 ,263 2,395 97,721
11 ,251 2,279 100,000
Extraction Method: Principal Component Analysis.

A 11 mért változó által megtestesített heterogenitás (információ) 11


egység, ebbıl a fıkomponens 5,297-nyit ırzött meg, azaz mindössze
48 százaléknyi információnk maradt, 52 százalékot elvesztettünk. Ez
nem túl örömteli észrevétel, de mire is számíthattunk volna? Tizenegy
darab változót egyetlen változóba sőrítettünk bele, ez csak információ-
vesztés árán lehetséges. De nem nagyon tetemes ez a veszteség? Mikor
mondhatjuk azt, hogy jó üzletet kötöttünk: nem kell tizenegy változó
össze-vissza eloszlását kezelnünk, vagy ami még rosszabb, minden
megállapításunkat 11 darab kereszttáblából leszőrnünk, hanem egyetlen
változóval dolgozhatunk, s ezért cserébe kevésbé pontos képünk van
a válaszok sokféleségérıl, hiszen a fıkomponens heterogenitása kisebb,
mint a tizenegy változóé együttvéve? A kérdésre nincs egzakt válasz.
„Hüvelykujj-szabályt” azonban megfogalmazhatunk: boldogan elfogad-
hatunk egy fıkomponenst, ha benne megırzıdik a teljes változótér in-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

30 Túlélıkészlet az SPSS-hez

formációjának legalább a fele. Ezt a szabályt annál szigorúbban kell


vennünk, minél kevesebb mért változót aggregálunk. (Három változó-
ból egy fıkomponenst készíteni nem jelenthet olyan nagy információ-
veszteséget, mint ha tizenegy változóból tesszük ugyanezt.) Semmikép-
pen se tekintsük elfogadhatónak azt a fıkomponenst, amely a változók
teljes információtartalmának kevesebb, mint egyharmadát tartalmazza.
A most tárgyalt példa határeset, sok az a tizenegy változó, s nem túl ke-
vés az a 48 százaléknyi megırzött információ.

1.3.1. Az egyenlı teherviselés

A következı kérdés az, hogy vajon minden változó egyaránt részt


vesz-e ennek a fıkomponensnek a megalkotásában?
Az a változó, amely mellett nagy szám áll a COMPONENT MATRIX-
ban (1.8. táblázat), azaz nagy a faktorsúlya, komolyan befolyásolja a fı-
komponens aktuális értékét. De mi az a „nagy” súly? Erre sincs egyér-
telmő kritérium. A válaszhoz a kommunalitásokat kell segítségül hív-
nunk. (1.9. táblázat)
Azt a változót tekintjük a fıkomponens alkotóelemének, amelynek
kommunalitása legalább 0,25, azaz a fıkomponens és az eredeti válto-
zó közötti kapcsolat szorossága legalább 0,5-ös korrelációval jellemez-
hetı. (Ennél szigorúbb kritériummal is dolgozhatunk.)
A szabadságvágyat megragadó fıkomponens-elemzésben a vallás-
szabadságnál egy 0,135-ös kommunalitást találunk. A vallásszabadság
„kilóg a sorból”, rosszul illeszkedik a fıkomponensre (kicsi a faktorsú-
lya is). Ha a vallásszabadság nem illeszkedik az aggregált szabadságvágy
mutatóra, akkor azt kell gondolnunk, hogy a válaszadók szerint ez nem
is része ennek az általános szabadságvágynak. Vannak válaszadók, akik
miközben a többi tíz itemet fontosnak ítélik, a vallásszabadságot nem
tartják fontosnak, míg mások mind a tizenegy itemre magas pontszá-
mot adtak, illetve a válaszolók más csoportja nem tartja annyira fontos-
nak egyik itemet sem, megint mások csak a vallásszabadságot tartják
fontosnak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 31

1.8. táblázat
Component Matrixa

Compone
nt
1
VALLAS mennyire fontos:
,368
vallásszabadság
VELEMENY mennyire
fontos: ,641
véleményszabadság
ORVOSVAL mennyire
fontos: orvosválasztás ,505
szabadsága
SAJTO mennyire fontos:
,740
sajtószabadság
PARTALAK mennyire
fontos: pártalakítás ,686
szabadsága
SZERVALA mennyire
fontos: szervezetalakítás ,728
szabadsága
TULAJDON mennyire
fontos: tulajdon ,741
szabadsága
UTAZAS mennyire fontos:
,770
utazás szabadsága
ELETFORM mennyire
fontos:
,767
életforma-választás
szabadsága
VALLALK mennyire
fontos: vállalkozás ,765
szabadsága
POLITIKA mennyire
fontos: politikai ,796
szabadságjogok
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

32 Túlélıkészlet az SPSS-hez

1.9. táblázat
Communalities

Initial Extraction
VALLAS mennyire fontos:
1,000 ,135
vallásszabadság
VELEMENY mennyire
fontos: 1,000 ,410
véleményszabadság
ORVOSVAL mennyire
fontos: orvosválasztás 1,000 ,255
szabadsága
SAJTO mennyire fontos:
1,000 ,548
sajtószabadság
PARTALAK mennyire
fontos: pártalakítás 1,000 ,471
szabadsága
SZERVALA mennyire
fontos: szervezetalakítás 1,000 ,530
szabadsága
TULAJDON mennyire
fontos: tulajdon 1,000 ,549
szabadsága
UTAZAS mennyire fontos:
1,000 ,592
utazás szabadsága
ELETFORM mennyire
fontos:
1,000 ,588
életforma-választás
szabadsága
VALLALK mennyire
fontos: vállalkozás 1,000 ,585
szabadsága
POLITIKA mennyire
fontos: politikai 1,000 ,633
szabadságjogok
Extraction Method: Principal Component Analysis.

Bíráljuk felül az operacionalizálás mőveletét, megállapítva, hogy a val-


lásszabadság megítélése független az „általános szabadságvágytól”, és
nézzük meg, vajon a maradék tíz item már „ráül-e” egyetlen fıkompo-
nensre. Újra futtatjuk a parancsot, de kihagyjuk a változólistából a val-
lásszabadságot.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 33

FACTOR
/VARIABLES velemeny orvosval sajto partalak szervala
tulajdon utazas eletform vallalk politika
/MISSING LISTWISE /ANALYSIS velemeny orvosval sajto
partalak szervala tulajdon utazas eletform vallalk
politika
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION .

Az elızı futtatás során láttuk, hogy elsıként a TOTAL VARIANCE


EXPLAINED táblázat EXTRACTION SUMS OF SQUARED LOADINGS ré-
szét kell megvizsgálnunk. (1.10. táblázat)

1.10. táblázat
Total Variance Explained

Extraction Sums of Squared


Initial Eigenvalues Loadings
% of Cumulativ % of Cumulativ
Component Total Variance e% Total Variance e%
1 5,182 51,824 51,824 5,182 51,824 51,824
2 1,187 11,871 63,694
3 ,992 9,920 73,614
4 ,543 5,428 79,042
5 ,488 4,875 83,918
6 ,401 4,012 87,930
7 ,370 3,699 91,629
8 ,321 3,207 94,836
9 ,265 2,646 97,482
10 ,252 2,518 100,000
Extraction Method: Principal Component Analysis.

Elsı pillantásunk a megırzött információhányadra esik, és örömmel


látjuk, hogy az információtartalom átlépte az 50 százalékos határt, a fı-
komponens megırzi az eredeti változók információtartalmának több
mint felét.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

34 Túlélıkészlet az SPSS-hez

Nézzük meg, hogy az új fıkomponens megalkotásából minden vál-


tozó megfelelıen kivette-e a részét. (1.11. táblázat)

1.11. táblázat
Communalities

Initial Extraction
VELEMENY mennyire
fontos: 1,000 ,389
véleményszabadság
ORVOSVAL mennyire
fontos: orvosválasztás 1,000 ,241
szabadsága
SAJTO mennyire fontos:
1,000 ,540
sajtószabadság
PARTALAK mennyire
fontos: pártalakítás 1,000 ,457
szabadsága
SZERVALA mennyire
fontos: szervezetalakítás 1,000 ,524
szabadsága
TULAJDON mennyire
fontos: tulajdon 1,000 ,568
szabadsága
UTAZAS mennyire fontos:
1,000 ,614
utazás szabadsága
ELETFORM mennyire
fontos:
1,000 ,609
életforma-választás
szabadsága
VALLALK mennyire
fontos: vállalkozás 1,000 ,608
szabadsága
POLITIKA mennyire
fontos: politikai 1,000 ,631
szabadságjogok
Extraction Method: Principal Component Analysis.

Fájdalom, az elızı futásban (mikor még a vallásszabadság is része volt


a fıkomponens-képzésnek) az orvosválasztás megítélése harmonizált
a többi itemével. Most, hogy a vallásszabadságtól meg kellett válnunk,

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 35

az orvosválasztás is „rossz” item lett. Az eljárás (a nem illeszkedı vál-


tozók kidobása) esetleg azzal fenyeget, hogy ha így haladunk, fokoza-
tosan elveszítjük az aggregálható változóinkat.8 Mi lehet az oka annak,
hogy a vallásszabadság „kidobása” az orvosválasztás illeszkedését is le-
rontotta? A két itemre adott válaszok legalább a kérdezettek egy részé-
nél erısen összefüggtek egymással. Az idısebbek számára a vallás tra-
dicionális érték, az orvosválasztásnak az életkorral összefüggı egészségi
állapot adja a fontosságát. Nem véletlen, hogy a hetvenévesnél idıseb-
bek esetében a két item közötti korreláció majdnem 0,30, míg a har-
mincévesnél fiatalabbak esetében csak –0,03.9
Akár sikerült értelmeznünk az orvosválasztás illeszkedésének romlá-
sát, akár nem, az elfogadható fıkomponens érdekében újabb futással
kell kísérleteznünk, immár csak kilenc itemmel.
FACTOR
/VARIABLES velemeny sajto partalak szervala tulajdon
utazas eletform vallalk politika
/MISSING LISTWISE
/ANALYSIS velemeny sajto partalak szervala tulajdon
utazas eletform vallalk politika
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION .

Nézzük az output elsı részét (1.12. és 1.13. táblázat):

8 Természetesen ez a szomorú eset elı is állhat, azaz kiderülhet, hogy a mért válto-
zóink nem kényszeríthetık bele egyetlen dimenzióba. Ez sem tanulság nélküli vég-
kifejlet, de a változók mögött felsejlı két vagy több dimenzió megragadásáról
a faktorelemzés fejezetben beszélünk.
9 Emelkedettebb magyarázatot is főzhetünk a két „rossz” item együtt járásához.
A tizenegy itembıl ez a kettı már a rendszerváltás elıtt is létezı szabadságjog volt.
Az összes többi viszont nem létezett (például: pártalakítás), vagy nagyon korláto-
zottan érvényesült (például: utazás szabadsága). Gondolhatjuk azt is, hogy a kilenc,
újonnan megvalósult szabadságjogról másképpen gondolkodnak az emberek, mint
arról a kettırıl, amely már régen megadatott nekik. Ehhez a magyarázathoz azon-
ban még olyan közvetett bizonyítékot sem találhatunk, mint amit az idıs-fiatal
korosztályokra bontás jelent.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

36 Túlélıkészlet az SPSS-hez

1.12. táblázat
Total Variance Explained

Extraction Sums of Squared


Initial Eigenvalues Loadings
% of Cumulativ % of Cumulativ
Component Total Variance e% Total Variance e%
1 4,978 55,307 55,307 4,978 55,307 55,307
2 1,133 12,593 67,899
3 ,773 8,584 76,484
4 ,490 5,450 81,934
5 ,409 4,546 86,480
6 ,373 4,143 90,622
7 ,324 3,605 94,228
8 ,265 2,942 97,170
9 ,255 2,830 100,000
Extraction Method: Principal Component Analysis.

1.13. táblázat
Communalities

Initial Extraction
VELEMENY mennyire
fontos: 1,000 ,365
véleményszabadság
SAJTO mennyire fontos:
1,000 ,519
sajtószabadság
PARTALAK mennyire
fontos: pártalakítás 1,000 ,461
szabadsága
SZERVALA mennyire
fontos: szervezetalakítás 1,000 ,534
szabadsága
TULAJDON mennyire
fontos: tulajdon 1,000 ,581
szabadsága
UTAZAS mennyire fontos:
1,000 ,628
utazás szabadsága
ELETFORM mennyire
fontos:
1,000 ,620
életforma-választás
szabadsága
VALLALK mennyire
fontos: vállalkozás 1,000 ,631
szabadsága
POLITIKA mennyire
fontos: politikai 1,000 ,640
szabadságjogok
Extraction Method: Principal Component Analysis.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 37

Láthatjuk, hogy a fıkomponens a kilenc eredeti, mért változó informá-


ciótömegébıl 55 százaléknyit megıriz, és a COMMUNALITIES táblázat
(1.13. táblázat) EXTRACTION oszlopában minden változó mellett elfo-
gadhatóan nagy érték áll, azaz a fıkomponens kialakításában mind a ki-
lenc változó elfogadható mértékben részt vett. A COMPONENT MATRIX
(1.14. táblázat) azt mutatja meg, hogy milyen erısséggel befolyásolják
az egyes mért változók a fıkomponens értékét.

1.14. táblázat
Component Matrixa

Compone
nt
1
VELEMENY mennyire
fontos: ,604
véleményszabadság
SAJTO mennyire fontos:
,720
sajtószabadság
PARTALAK mennyire
fontos: pártalakítás ,679
szabadsága
SZERVALA mennyire
fontos: szervezetalakítás ,731
szabadsága
TULAJDON mennyire
fontos: tulajdon ,762
szabadsága
UTAZAS mennyire fontos:
,792
utazás szabadsága
ELETFORM mennyire
fontos:
,787
életforma-választás
szabadsága
VALLALK mennyire
fontos: vállalkozás ,794
szabadsága
POLITIKA mennyire
fontos: politikai ,800
szabadságjogok
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

38 Túlélıkészlet az SPSS-hez

Látható, hogy a politikai szabadság megítéléséhez tartozik a legnagyobb


súly, de a vállalkozás-, az utazás- és a tulajdonszerzés szabadsága mel-
lett is magas érték áll. Úgy tőnik, az emberek a „magánszféra” szabad-
ságának fontosságát egyöntetőbben ítélik meg, míg a „homo politicus”
szférájába tartozó szervezet-, pártalakítás, sajtó- és véleményszabadság
kérdésében megosztottabbak. Ezzel együtt is kijelenthetjük, hogy sike-
rült létrehoznunk egy aggregált változót, amely a szabadság fontosságát
hivatott mérni.10
A fıkomponens készítése rendszerint nem egy lépésben történik,
mint láttuk, ebben a példában is csak a harmadik futás után kaptunk el-
fogadható eredményt. Most jött el az ideje annak, hogy az outputban
„felkínált” fıkomponens értékeit kiszámíttassuk, és minden válaszadó-
hoz11 hozzárendeljük az ıt jellemzı értéket. Ehhez a /SAVE REG (ALL)
sorral kell kiegészítenünk a parancsot. Ennek hatására minden válasz-
adóhoz hozzárendelıdik egy új, a szabadságvágyat kifejezı fıkompo-
nens-szkór, azaz FAC1_1 néven megszületett az új, aggregált válto-
zónk.12 Mivel az eredeti változók 1–7-ig terjedı skálán voltak mérve, s
a 7 jelentette az abszolút fontosságot, az 1 pedig azt, hogy az adott
„szabadság” nem fontos, a fıkomponens „nagy” értékei jelentik az
erıteljes szabadságvágyat.

1.15. táblázat: A férfiak és a nık átlagos szabadságvágya

a fıkomponens-szkór átlaga
férfiak 0,11
nık –0,37

10 A „magán” és a „homo politicus” szféra elkülönítésére a faktoranalízist bemutató


fejezetben teszünk kísérletet.
11 Értelemszerően csak azok kapnak fıkomponens-szkórt, akik mind a kilenc itemre
válaszoltak.
12 Itt hívjuk fel a figyelmet, hogy akkor lesz az új fıkomponens neve FAC1_1, ha még
nincs elmentett fıkomponens az adatfile-ban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Fıkomponens-elemzés 39

Nézzük meg például, van-e különbség a férfiak és nık között a szabad-


ságvágy tekintetében? A választ a MEANS utasítás segítségével kaphat-
juk meg (1.15. táblázat)
Milyen különbségek mutathatók ki az életkor mentén? (1.16. táb-
lázat)

1.16. táblázat: A különbözı korcsoportok átlagos szabadságvágya

a fıkomponens-szkór átlaga
Legfiatalabb kvintilis 0,19
0,22
0,10
–0,11
legidısebb kvintilis –0,47

A két, átlagokat összehasonlító táblázatból kibontható közhelyek (a nık-


ben kisebb a szabadságvágy, mint a férfiakban, az idısekben kevésbé
tombol ez az érzület, mint a fiatalokban) arra szolgálnak, hogy lássuk,
az elıállított fıkomponens nem mond ellent a hétköznapi tapasz-
talatoknak, ha valós és releváns kérdéseket vagyunk képesek feltenni,
bízvást reménykedhetünk a helytálló válaszok megtalálásában.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

2. FAKTORELEMZÉS

A szabadságvágy aggregálására kialakított fıkomponens-elemzés során


láttuk, hogy nem lenne botorság a különféle szabadságjogok fontossá-
gát firtató kérdések mögött látens struktúrát keresni. Tételezzük fel,
hogy az emberek számára a „magánemberi” és a „közemberi” szabad-
ságok két, egymástól független dimenziót jelentenek, és a már ismert
itemsor e két látens dimenzió operacionalizálására szolgált. Modellün-
ket a 2.1. ábra mutatja.
Az ábra jól szemlélteti a faktorelemzés logikáját. Van néhány (a mi
példánkban kettı) látens, azaz nem mérhetı, közvetlenül nem megfigyel-
hetı változónk. Mivel ezek a látens változók nem mérhetık (gondol-
junk a „mennyire fontos Önnek a magán- illetve a közszféra szabadsága”
jellegő kérdés abszurditására, illetve az ilyen típusú kérdés érvényes-
ségére és megbízhatóságára), egy alapos és hibátlan operacionalizálási
mőveletsor után a már ismert itemcsokor segítségével tesszük megra-
gadhatóvá a látens változóinkat. A gyakorlatban inkább az történik,
hogy a kutató a vizsgálni kívánt jelenséghez többé-kevésbé kapcsolódó
itemeket győjt egybe, nem tesz elıfeltevéseket a látens dimenziók „mi-
benlétérıl” és számáról, hanem a jó szerencsére bízza, hogy mit lehet
kihozni az adatokból.
Bármennyire csillogó kreativitással is alkottuk meg itemcsokrunkat,
abban nem lehetünk biztosak, hogy az emberek is azokban a látens
struktúrákban gondolkoznak, amelyeket mi oly sok fáradsággal kimun-
káltunk. Meg kell bizonyosodnunk arról, hogy a válaszokból kibontha-
tó látens struktúra illeszkedik az elemi, mért változókra. Egyszerőbben
fogalmazva, ha tizenegy item helyett két faktorral (a magán- és a köz-
szféra szabadságával) dolgozunk, tudnunk kell, hogy jogunk volt-e
effajta adatredukcióra, azaz a mért változók ugyanúgy „viselkednek-e”,
mint a látens változók.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 41

2.1. ábra: A szabadságvágy dimenziói

tulajdon

életforma

MAGÁN- vállalkozás
SZFÉRA
utazás

.
.
.
KÖZ- sajtó
SZFÉRA
vélemény

pártalakítás

tulajdon

Akkor lehetünk nyugodtak, ha minden, a magánszférát operacionali-


záló item mentén magas értékkel („nagyon fontos” alternatívával) vála-
szoltak mindazok, akik nagy szabadságvágyat mutatnak a magánszféra
faktorán, míg azok, akikben nem munkál ebben a dimenzióban erıs
szabadságigény, azok minden itemre alacsony („nem fontos”) értékkel
válaszoltak. S ugyanezt kell tapasztalnunk a közszféra esetében is. Ter-
mészetesen, gondolni sem akarunk a minta minden elemére kiterjedı
összeméregetésre, hiszen mit nyernénk azzal, ha a minta egy részére

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

42 Túlélıkészlet az SPSS-hez

illeszkedést, más részére pedig eltéréseket tapasztalnánk. Egyáltalán,


hogyan definiálnánk az eltérést?1
A mért változók és a faktorok illeszkedését két korrelációs mátrix
összehasonlításával mérjük. Két mátrix (ha nem tudjuk, mi a mátrix,
gondoljunk kereszttáblákra) egyformaságának megítélésére kiválóan al-
kalmas a khí-négyzet próba. Amikor összeismerkedtünk ezzel a teszt-
statisztikával, akkor a megfigyelt és az elméleti gyakoriságok táblázatát
hasonlítottuk össze, és a „nagy” khí-négyzet azt jelezte, hogy a két táb-
lázat különbözik, a „kicsi” khí-négyzet meg azt, hogy a két táblázat
kvázi-egyforma. A khí-négyzet értékét nem vérmérsékletünknek meg-
felelıen tartottuk nagynak vagy kicsinek, hanem a hozzá tartozó szigni-
fikancia segítségével döntöttünk. A nagyon kicsi (az SPSS outputban így
láttuk: p<0.0000) szignifikancia azt jelezte, hogy nagyon kicsi annak a
valószínősége, hogy a két táblázat egyforma, azaz ilyen esetekben – vál-
lalva a tévedés (az elsıfajú hiba) minimális kockázatát – a két táblázatot
különbözınek tekintettük.
Most már csak azt kellene tudnunk, milyen két korrelációs mátrixot
(táblázatot) fogunk összehasonlítani a faktorok illeszkedésének vizsgá-
latakor, s mivégre tesszük ezt.
Az egyik korrelációs mátrix (R) a mért változók korrelációs mátrixa.
A másik egy skizoid állapotban létrehozott mátrix. Skizoid azért, mert
egy kis idıre elfelejtjük, hogy vannak mért változóink és hiányukban a
létrehozott látens változókból próbáljuk meg kitalálni – pontosabban
megbecsülni –, mit is válaszoltak az egyes emberek az egyes kérdésekre.
A látens változók persze nem tudják pontosan leírni minden ember
minden egyes válaszát, ezért a mért változók becsült értékeirıl kell be-
szélnünk ebben az esetben. Ezeknek a becsült értékeknek a korrelációs
mátrixa a második korrelációs mátrix és jelölésére az R̂ -ot használjuk.
Ha volt a mért változók mélyén látens struktúra, és a faktorok segítsé-
gével jól megragadható ez a szerkezet, akkor a két korrelációs mátrix ha-

1 Valami olyasféle mutatóra lenne szükségünk, mint a Guttman-skála reprodukálha-


tósági együtthatója, amely a skálaszerkezetben adott „jó” és az ettıl eltérı, nem
skálaszerkezető, „rossz” válaszok számából konstruált mutató, és segít eldönteni,
hogy használhatjuk-e itemeinket úgy mint egy Guttman-skála itemsort, azaz aggre-
gálhatjuk-e a sok itemet minden kérdezett esetében egyetlen skálára.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 43

sonlítani fog egymásra (a faktorok kiválóan helyettesítik a mért változó-


kat). Az R-rıl és az R̂ -ról akkor fogjuk azt mondani, hogy hasonlítanak
egymásra, ha a khí-négyzet próba nem mutat közöttük különbséget, azaz
a khí-négyzet értéke elegendıen kicsiny lesz. A khí-négyzet értéke akkor
elegendıen kicsiny, ha a hozzá tartozó szignifikancia nagy. Mivel itt nagy
elemszámú mintából származó, a mért változók számával megegyezı
sor- és oszlopszámú mátrixok összehasonlításáról van szó, gyakran meg-
elégszünk azzal, ha a szignifikancia elmozdul a 0,000-ról, de igazán elége-
dettek csak akkor lehetünk, ha a szignifikancia nagyobb 0,05-nél.
Az R̂ mátrix létrehozásakor skizoid állapotról beszéltünk. Ez a tu-
dathasadás azonban azt is jelenti, hogy feltételeztük, hogy a faktorok
valahogyan létrejöttek és így voltunk képesek a mért változók becslé-
sére. A faktorok azonban csak akkor létezhetnek, ha létrehozzuk ıket.
Az eljárás pontos menete tehát az, hogy a mért változókból létrehoz
valamilyen faktorstruktúrát, ezekkel a faktorokkal megbecsüli, hogy
mekkorák is lehetnek a mért változók, s ha úgy találja, hogy az R és az
R̂ túlságosan különbözik egymástól, akkor létrehoz a mért változókból
egy másik faktorstruktúrát. Ezt az oda-vissza lépegetést iterálásnak ne-
vezzük. Látni fogjuk, hogy gyakran a leglelkesebb iterálási folyamat
végén sem sikerül elérni, hogy a faktorstruktúra jól leképezze a mért
változókat. Az ilyenkor használható gyógymódokra késıbb térünk ki.
Nézzük meg, mi történik, ha – az elızı példát folytatva – a különfé-
le szabadságvágyak mögött megpróbáljuk megkeresni a köz- és a ma-
gánszférára vonatkozó szabadságigény két látens változóját. A módszer
a faktorelemzés lesz. A terep némileg ismerıs, hiszen a kezdı lépések
ugyanolyanok, mint a fıkomponens-elemzésnél.
FACTOR
/VARIABLES vallas velemeny orvosval sajto partalak
szervala tulajdon utazas eletform vallalk politika
/MISSING LISTWISE
/ANALYSIS vallas velemeny orvosval sajto partalak
szervala tulajdon utazas eletform vallalk politika
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/ROTATION NOROTATE .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

44 Túlélıkészlet az SPSS-hez

Nézzük a parancs egyes sorait:


FACTOR
/VARIABLES vallas velemeny orvosval sajto partalak
szervala tulajdon utazas eletform vallalk politika
Itt soroltuk fel azt a változószettet, amelyben a látens struktúrát keres-
sük.
/MISSING LISTWISE
Ez a sor a hiányzó adatok kezelésére vonatkozik.
/ANALYSIS vallas velemeny orvosval sajto partalak
szervala tulajdon utazas eletform vallalk politika
Itt azokat a változókat soroljuk fel, amelyek ténylegesen szerepelnek a
faktoranalízisben ebben a futásban.2
/PRINT INITIAL EXTRACTION
Ebben a sorban jelöltük meg, hogy milyen output-okat szeretnénk lát-
ni. Az INITIAL itt többszörös korrelációs együtthatókat jelent, azaz azt
mutatja meg, hogy egy-egy mért változót mennyire tud elıre jelezni az
összes többi. Az EXTRACTION-nal kérjük, hogy maga a faktormátrix és
a végsı kommunalitások is megjelenjenek.
/CRITERIA FACTORS(2) ITERATE(25)
A faktorszámmal (FACTORS) jelölhetjük meg, hogy hány látens dimen-
ziót próbálunk felfedezni a mért változók mögött. Az iterációk
(ITERATE) száma automatikusan 25-re van beállítva. Ennyiszer próbálja
a program végigjárni a „faktorelıállítás–változóbecslés–illeszkedés-
vizsgálat–új faktorok készítése” algoritmust. Ha már nagy tapasztala-
tunk lesz a faktorelemzésben, látni fogjuk, hogy nem sok jót ígér, ha 25
iteráláson belül nem találja meg a program a legjobb megoldást. Ilyen-
kor az output-ban is látjuk, hogy 25-nél több iterációra van szükség. Eb-
ben az esetben módosíthatjuk az iterációk számát, maximum 9999-re.
/EXTRACTION ML
Ez a sor jelzi, hogy a fıkomponens-elemzéshez képest valami újról,
másról van szó, nevezetesen arról, hogy faktorokat, azaz látens struktú-
rát keresünk. Az EXTRACTION után álló ML azt jelenti, hogy a lehetsé-
ges faktorelemzési technikák közül mi a maximum likelihood módszert
választottuk.

2 A /VARIABLES után megnevezett változószettet tehát tetszés szerint szőkíthetjük


az /ANALYSIS sorban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 45

/ROTATION NOROTATE .
Ez az utolsó sor a rotálásra vonatkozik, de errıl majd késıbb lesz szó.
Nézzük, hogy a parancs hatására milyen output keletkezik.

2.1. táblázat
Communalities

Initial Extraction
VALLAS vallásszabadság ,245 ,195
VELEMENY véleményszabadság ,425 ,309
ORVOSVAL orvosválasztás szabadsága ,290 ,175
SAJTO sajtószabadság ,494 ,465
PARTALAK pártalakítás szabadsága ,586 ,717
SZERVALA szervezetalakítás szabadsága ,599 ,675
TULAJDON a tulajdon szabadsága ,538 ,582
UTAZAS az utazás szabadsága ,623 ,706
ELETFORM az életforma szabadsága ,631 ,732
VALLALK a vállalkozás szabadsága ,598 ,642
POLITIKA politikai szabadságjogok ,552 ,586
Extraction Method: Maximum Likelihood.

Az iniciális kommunalitások (INITIAL) többszörös korrelációs együttha-


tók négyzetei.3 (2.1. táblázat) Tanulmányozásuk nem haszon nélküli,
mert azok a változók, amelyek mellett kis érték áll, „kilógnak” a változó-
szettbıl, az ı viselkedésüket kevéssé magyarázza az összes többi mért
változó. A többszörös korrelációs együtthatók négyzetei többé-kevésbé
jól jelzik, hogy mely változók lesznek azok, amelyek nem simulnak bele a
látens struktúrába és elıbb-utóbb meg kell válnunk tılük. A vallássza-
badsággal és az orvosválasztás szabadságával kapcsolatos rossz elıérze-
tünket rögtön igazolja is az EXTRACTION feliratú oszlopban található két
0,195-ös és 0,175-ös érték. (2.1. táblázat) Az EXTRACTION oszlopban
ugyanis a végsı kommunalitások szerepelnek, vagyis azt láthatjuk, hogy a
létrehozott két faktor a mért változók szóródásának hány százalékát ma-
gyarázza. A már ismert hüvelykujj-szabály szerint elfogadható módon le-

3 A többszörös korrelációs együttható négyzetének (R2) jelentése a regresszióanalízis


tárgyalásakor válik majd világossá. Az R2 megmagyarázott hányadot jelent, azaz a
vallásszabadság mellett álló 0,245-ös érték azt jelenti, hogy e változó szóródásából
az összes többi mért változó 24,5 százalékot képes megmagyarázni.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

46 Túlélıkészlet az SPSS-hez

képezettnek tekintünk minden olyan változót, amelynek kommunalitása


eléri a 0,25-öt. A vallásszabadságot és az orvosválasztás szabadságát
rosszul képezi le a mi két faktorunk. Ha ragaszkodunk ahhoz a feltevé-
sünkhöz, hogy a szabadságvágyak mögött két látens dimenzió húzódik
meg, akkor ettıl a két változótól elıbb-utóbb meg kell válnunk.4

2.2. táblázat
Total Variance Explained

Extraction Sums of Squared


Initial Eigenvalues Loadings
% of Cumulativ % of Cumulativ
Factor Total Variance e% Total Variance e%
1 5,297 48,155 48,155 4,850 44,089 44,089
2 1,452 13,200 61,355 ,937 8,514 52,603
3 ,992 9,018 70,374
4 ,684 6,214 76,588
5 ,508 4,615 81,203
6 ,471 4,283 85,487
7 ,394 3,579 89,065
8 ,369 3,358 92,424
9 ,319 2,903 95,327
10 ,263 2,395 97,721
11 ,251 2,279 100,000
Extraction Method: Maximum Likelihood.

A 2.2. táblázatban található INITIAL EIGENVALUE fejléchez tartozó három


oszlop számunkra most nem jelent semmit.5 A másik, az EXTRACTION
SUMS OF SQUARES LOADINGS fejléchez tartozó oszlopok a faktorokban
megtestesülı információtartalmat mutatják. Mivel az elemzésbe tizenegy
mért változót vontunk be, mindegyiküket standardizált alakban, az általuk

4 Ha egy vagy több változót adott faktorszám mellett csak rosszul tudunk leképezni
(a változóknak alacsony a végsı kommunalitása), próbálkozhatunk a faktorszám
növelésével is. Ha szeretne némi gyakorlatot szerezni a faktorelemzésben, akkor a
fejezet végigolvasása után próbálja meg négy faktorral leképezni a változóteret.
5 Az SPSS programcsomagban a fıkomponens- és a faktorelemzés közös pontról
ágazik el. Ez az output-okban bizonyos zőrzavart eredményez. Az output más ré-
szeit kell elemezni, ha fıkomponens-elemzést hajtunk végre, és megint csak mást,
ha faktorokat keresünk. A jelentésnélkülinek bélyegzett három oszlop egy fıkom-
ponens-elemzés output-darabja.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 47

megtestesített összinformáció mennyisége 11 egység. Ebbıl az elsı faktor


4,850, a második 0,937 egységnyit testesít meg. Késıbb, amikor a rotálás-
sal is megismerkedünk, látni fogjuk, hogy számunkra a kumulatív százalé-
kokat tartalmazó oszlop fontos, amelybıl azt láthatjuk, hogy a két faktor
együttesen a változók információtartalmából 52,6 százalékot ıriz meg. Ezt
a százalékot magasnak ítélhetjük, hiszen a 48 százaléknyi elveszített infor-
mációtartalomért cserébe két változóval dolgozhatunk az eredetileg mért
tizenegy helyett. Egy újabb hüvelykujj-szabály szerint általában akkor te-
kintjük elfogadhatónak a faktorok által megırzött információmennyiséget,
ha az meghaladja a 33 százalékot.

2.3. táblázat
Factor Matrixa

Factor
1 2
VALLAS vallásszabadság ,283 ,339
VELEMENY véleményszabadság ,545 ,114
ORVOSVAL orvosválasztás szabadsága ,410 8,767E-02
SAJTO sajtószabadság ,664 ,154
PARTALAK pártalakítás szabadsága ,668 ,520
SZERVALA szervezetalakítás szabadsága ,711 ,412
TULAJDON a tulajdon szabadsága ,732 -,216
UTAZAS az utazás szabadsága ,777 -,321
ELETFORM az életforma szabadsága ,779 -,354
VALLALK a vállalkozás szabadsága ,768 -,229
POLITIKA politikai szabadságjogok ,760 9,675E-02
Extraction Method: Maximum Likelihood.
a. 2 factors extracted. 7 iterations required.

A FACTOR MATRIX-ban (2.3. táblázat) faktorsúlyok szerepelnek, ame-


lyek azt jelzik, hogy az egyes változók mekkora súllyal és milyen irányban
alakítják a faktorokat. A faktormátrixon múlik, hogy sikerül-e jelentést,
értelmet, címkét adnunk az egyes faktoroknak. Ezt a nem túlságosan
egzakt folyamatot nevezzük interpretálásnak. Lehetünk bár maximá-
lisan elégedettek a látens struktúra illeszkedésével, ha nem sikerül a fak-
torokat interpretálnunk, azaz ha nem tudjuk, hogy mi az egyes faktorok
jelentése, hiába volt minden fáradozásunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

48 Túlélıkészlet az SPSS-hez

Egy változót nem tekintünk egy faktor alkotóelemének, ha a hozzá


tartozó faktorsúly nem éri el a 0,25-öt. Ez a faktormátrix nem sok jóval
kecsegtet, hiszen az elsı faktoron az összes változó „rajta ül”, tehát az el-
sı faktorról azt mondhatjuk, hogy egy általános és differenciálatlan sza-
badságvágyat fejez ki. A második faktor egy olyan skálát feszít ki, amely-
nek értékei az utazás és az életforma szabadságától a vallásszabadságon
át a szervezet- és pártalakítás szabadságáig vezetnek.6 Kell némi bátorság
ahhoz, hogy egy ilyen faktornak jelentést próbáljunk adni.
Ráadásul több változóról, például a párt- vagy szervezetalakítás sza-
badságáról elmondhatjuk, hogy mindkét faktoron „rajta ül”. Ismét fo-
galmazzunk meg egy hüvelykujj-szabályt: egy változóról akkor mond-
juk, hogy egy és csakis egy faktorhoz tartozik, ha (1) faktorsúlya csak
egyetlen faktoron haladja meg a 0,25-öt, vagy ha (2) faktorsúlya az
egyik faktoron nagyobb, mint bármelyik másik faktorhoz tartozó fak-
torsúlyának kétszerese. Nézzünk néhány példát. (2.4. táblázat)

2.4. táblázat: Több faktoron jelen lévı változók hovatartozása

Faktor 1 Faktor 2 Faktor 3


V1 0,70 0,12 –0,21
V2 0,30 –0,65 –0,11
V3 0,38 0,22 –0,03
V4 0,42 0,19 0,64

A V1 változó az elsı faktorhoz tartozik, hiszen a második és a harma-


dik faktoron lévı faktorsúlyai „nem léteznek” (kisebbek, mint 0,25).
A V2 változó a második faktorhoz tartozik, hiszen a harmadik faktoron
lévı súlya „nem létezik” és bár rajta van az elsı faktoron, de ottani fak-
torsúlya kevesebb, mint a fele a második faktorhoz tartozó faktor-
súlyának.7 A V3 változó – bár csak lazán – szintén az elsı faktorhoz
6 Az életforma és az utazás szabadságához negatív faktorsúlyok tartoznak, a többi
említett változóhoz pedig pozitívak. Ez azt jelenti, hogy az utazás- és életforma-vá-
lasztás szabadságának igenelése a szervezet- és a pártalakítás szabadságának tagadá-
sával jár együtt; és fordítva.
7 Amikor azt akarjuk eldönteni, hogy egy változó melyik faktoron van rajta, akkor
a faktorsúlyok abszolútértékét vizsgáljuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 49

tartozik, mert a másik két faktorhoz tartozó faktorsúlya „nem létezik”.


A V4 változó interpretációjánál azonban akadályba ütközünk, mivel
mind az elsı, mind a harmadik faktoron „rajta ül”. Az olyan faktor-
struktúrát, amelyben egy változó több faktorhoz is tartozik, nem lehet
egyértelmő jelentéssel felruházni. Az interpretálás problémáját a rotálás
segítségével próbáljuk majd megoldani.
A modell illeszkedését mutató khí-négyzet azonban azt jelzi, hogy
még sokat kell fáradnunk, mire a látens struktúra megtalálásáig elju-
tunk. (2.5. táblázat)

2.5. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
388,474 34 ,000

A khí-négyzet értéke túlságosan nagy, azaz a faktorok rosszul képezik


le a mért változókat. Mindezt a szignifikancia 0,000 értékébıl láthatjuk.
(2.5. táblázat) Mit tehetünk, ha az illeszkedés rossz?

2.1. A modell javítgatása

Kétféle technikával is próbálkozhatunk rossz illeszkedés esetén. Nyil-


ván jobban le lehet képezni a mért változók tizenegy-dimenziós terét
három vagy még több faktorral, mint kettıvel. (Tudjuk, hogy 11 faktor-
ral hibátlan illeszkedést produkálhatnánk, de ez esetben szemfényvesz-
tés lenne adatredukcióról beszélni.) A mi esetünkben azonban elköte-
leztük magunkat amellett az elképzelés mellett, hogy a különféle sza-
badságvágyak mögött két dimenzió rejtızködik.
Ezért egy másik technikát alkalmazunk, azaz megkeressük azokat
a változókat, amelyek miatt rossz volt az illeszkedés. Azokat a változókat
keressük tehát, amelyek végsı kommunalitása kisebb, mint 0,25. A 2.1.
táblázat COMMUNALITIES táblázat EXTRACTION oszlopában láthatjuk,

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

50 Túlélıkészlet az SPSS-hez

hogy az orvosválasztás szabadsága rosszul leképezett változónak szá-


mít, ezért megválunk tıle.
Gyorsabb és hatékonyabb eljárásnak tőnhet, hogy egy lépésben az
összes rossz kommunalitású változót kihagyjuk a modellbıl. Ez azonban
egy téves és veszélyes elképzelés, hiszen fogalmunk sem lehet arról, hogy
ha a tizenegy változó által kifeszített tizenegy-dimenziós teret tízdimen-
ziósra változtatjuk, akkor ebben a térben javul vagy romlik a bent maradt
tíz változó kommunalitása. Ráadásul, ha egynél több változót dobunk ki
egyszerre, akkor azt sem sejthetjük, hogy az illeszkedés, illetve a faktor-
struktúra változását melyik változó kihagyása okozhatta, illetve az egyes
változók elhagyása milyen mértékben járul hozzá ehhez a változáshoz.
Az így futtatott parancs tehát a következı:
FACTOR
/VARIABLES vallas velemeny sajto partalak szervala
tulajdon utazas eletform vallalk politika
/MISSING LISTWISE
/ANALYSIS vallas velemeny sajto partalak szervala
tulajdon utazas eletform vallalk politika
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/ROTATION NOROTATE .

A tíz mért változóra futtatott kétfaktoros modell illeszkedése is rossz,


a khí-négyzet szignifikanciája 0,000. (2.6. táblázat)

2.6. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
242,519 26 ,000

A végsı kommunalitások jelzik is, hogy mely változó elhagyásával javít-


hatunk az illeszkedésen. (2.7. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 51

2.7. táblázat
Communalities

Initial Extraction
VALLAS vallásszabadság ,241 ,179
VELEMENY véleményszabadság ,393 ,292
SAJTO sajtószabadság ,459 ,447
PARTALAK pártalakítás szabadsága ,585 ,738
SZERVALA szervezetalakítás szabadsága ,598 ,690
TULAJDON a tulajdon szabadsága ,535 ,581
UTAZAS az utazás szabadsága ,624 ,707
ELETFORM az életforma szabadsága ,629 ,731
VALLALK a vállalkozás szabadsága ,597 ,646
POLITIKA politikai szabadságjogok ,552 ,584
Extraction Method: Maximum Likelihood.

Láthatjuk, hogy a vallásszabadság a vétkes. Váljunk meg ettıl is. A most


futtatott parancs a következı:
FACTOR
/VARIABLES velemeny sajto partalak szervala tulajdon
utazas eletform vallalk politika
/MISSING LISTWISE
/ANALYSIS velemeny sajto partalak szervala tulajdon
utazas eletform vallalk politika
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/ROTATION NOROTATE .

Az illeszkedést a 2.8. táblázat mutatja.

2.8. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
136,436 19 ,000

Láthatjuk, hogy az illeszkedés még mindig nem megfelelı.


A 2.9. táblázatban azonban hiába keressük a vétkeseket, minden vál-
tozó végsı kommunalitása megfelelı.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

52 Túlélıkészlet az SPSS-hez

2.9. táblázat
Communalities

Initial Extraction
VELEMENY véleményszabadság ,329 ,279
SAJTO sajtószabadság ,456 ,437
PARTALAK pártalakítás szabadsága ,577 ,754
SZERVALA szervezetalakítás szabadsága ,598 ,704
TULAJDON a tulajdon szabadsága ,535 ,580
UTAZAS az utazás szabadsága ,620 ,706
ELETFORM az életforma szabadsága ,629 ,732
VALLALK a vállalkozás szabadsága ,594 ,643
POLITIKA politikai szabadságjogok ,548 ,577
Extraction Method: Maximum Likelihood.

Következik-e mindebbıl, hogy az emberek fejében, amikor a szabad-


ságvágyakról gondolkodnak nem különül el a köz- és a magánszférára
vonatkozó két látens dimenzió? Erre a kérdésre akkor tudunk válaszol-
ni, ha megvizsgáljuk, hogy mi is ennek a két látens dimenziónak a „tar-
talma”. A FACTOR MATRIX szemrevételezése nem sokat segít rajtunk.
(2.10. táblázat)
A faktoroknak nehéz jelentést adni. Ezen az interpretációs problé-
mán a faktorok rotálása fog segíteni.

2.10. táblázat
Factor Matrixa

Factor
1 2
VELEMENY véleményszabadság ,527 4,435E-02
SAJTO sajtószabadság ,653 ,107
PARTALAK pártalakítás szabadsága ,685 ,534
SZERVALA szervezetalakítás
,726 ,421
szabadsága
TULAJDON a tulajdon szabadsága ,730 -,219
UTAZAS az utazás szabadsága ,772 -,331
ELETFORM az életforma szabadsága ,773 -,366
VALLALK a vállalkozás szabadsága ,768 -,230
POLITIKA politikai szabadságjogok ,756 6,815E-02
Extraction Method: Maximum Likelihood.
a. 2 factors extracted. 6 iterations required.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 53

2.2. Lássunk tisztán! A rotálás

A rotálás a faktorok elforgatását jelenti. A rotálás jelentésének megérté-


séhez tekintsük a következı ábrát.

2.2. ábra: A faktorok rotálása

F2

F2’
F1’

F1

A 2.2. ábrán lévı fekete pöttyök nyolc mért változót jelképeznek, az F1


és F2 tengely jelenti a képzeletbeli faktormátrixban megjelenı két fak-
tort. Láthatjuk, hogy a mért változók majd mindegyike egyformán távol
vagy közel van mindkét faktorhoz. (A változók mindkét faktorhoz tar-
tozó súlyai páronként közel egyformák.) Ha a faktorokat elforgatjuk
egy alkalmas szögben, akkor az F1 F1’-vé, az F2 pedig F2’-vé alakul.
Ezek az elforgatott faktorok már könnyen interpretálhatók, hiszen négy
mért változó egyértelmően az egyiken, négy másik pedig a másik fak-
toron „ül”. Ha a közelebbrıl nem definiált négy-négy mért változó
együttesen jelent valamit, akkor az elforgatott faktoroknak sem lesz ne-
héz jelentést adni.
Az elforgatástól természetesen nem változik meg a modell illeszke-
dése, az egyes változók végsı kommunalitása, valamint az az informá-
ciótartalom, amelyet a faktorok együttesen megıriznek. Megváltozik

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

54 Túlélıkészlet az SPSS-hez

azonban az a mód, ahogyan az egyes faktorok a megırzött információ


mennyiségén osztozkodnak.
A valóságban a rotálás nem minden esetben jelent olyan tökéletes
megoldást, mint amit az ábrán bemutattunk, de az kétségkívül igaz,
hogy a rotálás mindig javítja a faktorok interpretálásának esélyeit. Néz-
zük a szabadságvágy két látens faktorának rotált változatát:
FACTOR
/VARIABLES velemeny sajto partalak szervala tulajdon
utazas eletform vallalk politika
/MISSING LISTWISE
/ANALYSIS velemeny sajto partalak szervala tulajdon
utazas eletform vallalk politika
/PRINT INITIAL EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

A parancs a megjelölt sorban változott, amely azt mondja meg, hogy


a rotálás a VARIMAX módszer szerint történjen.8
Tudjuk, hogy az illeszkedés, pontosabban a nem illeszkedés (túl
nagy volt a khí-négyzet) a rotálás után nem változott, de természetesen
más lesz a rotálás utáni faktormátrix, amelyet a ROTATED FACTOR
MATRIX-ban (2.11. táblázat) tekinthetünk át.

8 Rotálni többféle módszer szerint lehet, de mindegyik módszer arra törekszik, hogy
egy változó egy és csakis egy faktoron üljön nagy súllyal. A VARIMAX módszer a
következı célfüggvény maximalizálásával dolgozik: ∑ f ij2 → max , ahol fij az i-edik
j

változó j-edik faktorhoz tartozó súlyát jelenti, azaz a módszer az egy változóhoz
tartozó valamennyi faktorsúly négyzetösszegét akarja maximálni. Ha például egy
változó rotálás elıtt 0,25-ös, 0,25-ös súllyal „ül” két faktoron, a rotálás után az
egyiken 0,5-tel, a másikon 0-val, akkor míg az elsı esetben a faktorsúlyok
négyzetösszege 0,125, addig rotálás után 0,25 lesz. Tehát miközben a VARIMAX
módszer az adott négyzetösszeget maximalizálja, azt éri el, hogy minden változóra
igaz legyen, hogy egy és csakis egy faktoron „ül rajta”.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 55

2.11. táblázat
Rotated Factor Matrixa

Factor
1 2
VELEMENY véleményszabadság ,373 ,374
SAJTO sajtószabadság ,429 ,503
PARTALAK pártalakítás szabadsága ,177 ,850
SZERVALA szervezetalakítás
,282 ,790
szabadsága
TULAJDON a tulajdon szabadsága ,698 ,305
UTAZAS az utazás szabadsága ,803 ,246
ELETFORM az életforma szabadsága ,826 ,221
VALLALK a vállalkozás szabadsága ,735 ,321
POLITIKA politikai szabadságjogok ,533 ,541
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

Amint az a 2.11. táblázatból kiderül, a rotálás után kibontakozni látszik


a magánszférához főzıdı szabadságjogok dimenziója az elsı faktoron,
és a közszféráé a másodikon, azonban három olyan változónk is van,
amely mindkét faktorhoz is kapcsolódik. Ha belegondolunk a faktorok
jelentésébe, akkor nincs okunk meglepıdni, hiszen ez a kissé zavaros
kép azt sugallja, hogy a vélemény- és a sajtószabadság, valamint a politi-
kai szabadságjogok mind a magánszférát, mind a közszférát érintı sza-
badságvágyakhoz is kapcsolódnak. Mi azonban olyan látens dimenzió-
kat (faktorokat) keresünk, amelyek tisztán jelenítik meg a köz-, illetve
a magánszférát érintı szabadságjogokhoz való viszonyt, ezért azoktól
a változóktól, amelyek mindkét faktorhoz kapcsolódnak, valamilyen
sorrendben megválunk.9 Milyen sorrendben váljunk meg a változóktól?

9 Ha egy tanulmányt írnánk az emberekben munkáló szabadságvágyról, akkor


hosszan kellene tárgyalnunk azt az egyébként örvendetes felfedezést, hogy a rend-
szerváltás után a vélemény- és a sajtószabadság, valamint a politikai szabadságjo-
gok a magánszférát is átható értékekké váltak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

56 Túlélıkészlet az SPSS-hez

Elıször a legrosszabbul leképezett, azaz a legalacsonyabb végsı kom-


munalitású véleményszabadságtól válunk meg.10
Az immár nyolc mért változóból álló modell illeszkedése még min-
dig nem megfelelı. (2.12. táblázat)

2.12. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
49,399 13 ,000

Rossz végsı kommunalitású változónk nincs. (2.13. táblázat)


A sajtószabadság és a politikai szabadságjogok változatlanul hozzá-
tartoznak mindkét faktorhoz. Megint csak az alacsonyabb végsı kom-
munalitású változótól fogunk megválni, amely ebben az esetben a sajtó-
szabadság. (2.13. táblázat)

2.13. táblázat
Communalities

Initial Extraction
SAJTO sajtószabadság ,411 ,426
PARTALAK pártalakítás szabadsága ,577 ,769
SZERVALA szervezetalakítás szabadsága ,596 ,701
TULAJDON a tulajdon szabadsága ,537 ,586
UTAZAS az utazás szabadsága ,614 ,702
ELETFORM az életforma szabadsága ,631 ,734
VALLALK a vállalkozás szabadsága ,591 ,653
POLITIKA politikai szabadságjogok ,546 ,575
Extraction Method: Maximum Likelihood.

Nézzük a faktorok interpretálhatóságát. (2.14. táblázat)

10 Ne felejtsük el, hogy a rotálás nem változtatta meg a végsı kommunalitásokat.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 57

2.14. táblázat
Rotated Factor Matrixa

Factor
1 2
SAJTO sajtószabadság ,433 ,488
PARTALAK pártalakítás szabadsága ,184 ,857
SZERVALA szervezetalakítás szabadsága ,289 ,786
TULAJDON a tulajdon szabadsága ,704 ,301
UTAZAS az utazás szabadsága ,803 ,238
ELETFORM az életforma szabadsága ,830 ,214
VALLALK a vállalkozás szabadsága ,743 ,318
POLITIKA politikai szabadságjogok ,540 ,533
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

Végre eljutottunk egy illeszkedı faktorstruktúrához. A khí-négyzet azt


mutatja (2.15. táblázat), hogy a mért változók korrelációs mátrixa, illet-
ve a faktorokból becsült változók korrelációs mátrixa nem különbözik
szignifikánsan egymástól, vagyis a faktorok jól képezik le a mért válto-
zók immáron csak hétdimenziós terét. (Minden változó végsı kommu-
nalitása megfelelı nagyságú.)
2.15. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
19,177 8 ,014

A faktorok interpretálhatóságával még mindig van egy kis probléma,


nevezetesen a politikai szabadságjogok mindkét faktoron „rajta ülnek”.
(2.16. táblázat)
A politikai szabadságjogokat is ki kell hagynunk a modellbıl és az ered-
mény azt mutatja, hogy a fáradozásaink nem voltak hiábavalók, hiszen
az illeszkedés megfelelı, a khí-négyzethez tartozó szignifikancia 0,148.
(2.17. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

58 Túlélıkészlet az SPSS-hez

2.16. táblázat
Rotated Factor Matrixa

Factor
1 2
PARTALAK pártalakítás szabadsága ,191 ,888
SZERVALA szervezetalakítás szabadsága ,314 ,757
TULAJDON a tulajdon szabadsága ,711 ,286
UTAZAS az utazás szabadsága ,805 ,227
ELETFORM az életforma szabadsága ,831 ,202
VALLALK a vállalkozás szabadsága ,752 ,301
POLITIKA politikai szabadságjogok ,549 ,510
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

2.17. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
6,778 4 ,148

A végsı kommunalitások alig változtak az elızı futáshoz képest, tehát


azok is kiválóak. A faktorok interpretálása sem látszik megoldhatatlan
feladatnak, hiszen a rotált faktormátrix a következı. (2.18. táblázat)

2.18. táblázat
Rotated Factor Matrixa

Factor
1 2
PARTALAK pártalakítás szabadsága ,233 ,773
SZERVALA szervezetalakítás szabadsága ,286 ,865
TULAJDON a tulajdon szabadsága ,701 ,297
UTAZAS az utazás szabadsága ,805 ,220
ELETFORM az életforma szabadsága ,836 ,197
VALLALK a vállalkozás szabadsága ,745 ,303
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 59

A táblázatból látható, hogy az elsı faktoron a magán-, a másodikon a köz-


szférához kapcsolódó szabadságvágyak szerepelnek. Miután ez a két fak-
tor minden próbát kiállt (illeszkedés, végsı kommunalitás, interpre-
tálhatóság), még egyetlen dologról kell meggyızıdnünk, hogy vajon
van-e elegendı információtartalom a két faktorban.
A 2.19. táblázat nemcsak azt mutatja, hogy a két faktor a változók
információtartalmából 69 százalékot megıriz, hanem azt is, hogy a ro-
tálás után valóban nem változik meg a faktorok által együttesen megır-
zött információmennyiség.

2.19. táblázat
Total Variance Explained

Extraction Sums of Squared


Loadings Rotation Sums of Squared Loadings
% of Cumulativ % of Cumulativ
Factor Total Variance e% Total Variance e%
1 3,328 55,468 55,468 2,530 42,162 42,162
2 ,816 13,594 69,062 1,614 26,900 69,062
Extraction Method: Maximum Likelihood.

Azt is láthatjuk, hogy a rotálás után a faktorok másként osztozkodnak


az információtartalmon. Rotálás elıtt az elsı faktor 55,5, a második
13,6 százalékot ırzött meg az összes információmennyiségbıl, míg ro-
tálás után az elsı faktorban 42,2, a másodikban 26,9 százaléknyi infor-
máció tömörül.
A táblázat még egy tanulsággal szolgál. Emlékezzünk vissza, hogy
a mért változók standardizált formában lépnek be a faktormodellbe,
azaz bennük 1 egységnyi információ testesül meg. Nem sok jóval ke-
csegtet az olyan faktor elfogadása, amelyben ennél az 1 egységnél keve-
sebb információ ırzıdik meg, hiszen ez egyfelıl azt jelenti, hogy a fak-
tornak alig van heterogenitása (durván fogalmazva: majdnem minden
válaszadó ugyanolyan értéket vesz fel rajta), másfelıl pedig nincs értel-
me olyan aggregált változóval dolgozni, amelyben kevesebb információ
van, mint bármelyik mért változóban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

60 Túlélıkészlet az SPSS-hez

2.3. Mentsük, ami menthetı: a faktorszkórok létrehozása

Arassuk le fáradozásunk gyümölcsét, hozzuk létre a faktorszkórokat. Ez


azt jelenti, hogy minden válaszadó kap valamilyen egy, a magán- és egy,
a közszférát érintı szabadságvágy jellemzésére szolgáló értéket. Mindezt
a SAVE parancs beiktatásával érjük el, amelyet a /SAVE REG (ALL) pa-
rancssor illesztésével oldunk meg. A faktorszkórok létrehozására három
módszer is kínálkozik: a regressziós (REGRESSION), a BARTLETT- és az
ANDERSON–RUBIN-módszerek. Ez az a pont, ahol az egyes módszerek
közötti választás kritériumait csak komoly matematikai apparátus mozga-
tásával tudnánk megvilágítani. Annyit azonban mondhatunk, hogy a reg-
ressziós módszer arra törekszik, hogy a megtalált faktorok a lehetı leg-
jobban közelítsenek ahhoz az ideális esethez, amelyben a faktorok illesz-
kedése a lehetı legtökéletesebb. A 2.3. ábra segítségével könnyebben
megérthetjük, mirıl is van szó. Az egyszerőség kedvéért csak egy faktort
rajzolunk le, amely faktor a három, mért változó mögötti látens változó.

2.3. ábra: A faktorok létrehozásának mechanizmusa


X1

F X2 F̂

X3
Az ábra a faktor létrehozásának mechanizmusát szemlélteti: a látens
változó (F), amely mozgatja a mért változókat, mérhetetlen. A mért vál-
tozókból nem egy „igazi” látens változót, hanem annak egy jó-rossz
közelítését vagyunk képesek létre hozni ( F̂ ). A regressziós módszer ar-
ra törekszik, hogy az F és F̂ közötti eltérést minimalizálja.
A BARTLETT módszer a mért változók és a faktorok által „visszabe-
csült” X̂ -ok közötti négyzetösszeget minimalizálja. Az ANDERSON–
RUBIN-módszer minimalizálja a mért és a faktorokból visszabecsült ér-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 61

tékek különbségének négyzetösszegét úgy, hogy az egyes eltéréseket


a kommunalitásoknak megfelelıen súlyozza. (A nagy kommunalitású vál-
tozókhoz nagyobb súlyt rendel.) Az ANDERSON–RUBIN módszerrel létre-
hozott faktorok függetlenek egymástól, és szórásuk mindig egységnyi.
A különbözı faktormentési módszerek közötti választások követ-
kezményeit nem vagyunk képesek átlátni. Ha azt találjuk, hogy a há-
romféle módszerrel elmentett megfelelı faktorszkórok között nincs
lényeges különbség, nem is érdemes hosszan tőnıdni a módszerek mé-
lyén meghúzódó megfontolásokon. A mi esetünk ilyen, hiszen a há-
romféle módszerrel elmentett magánszférához kapcsolódó faktorszkó-
rok közötti eltérések minimálisak. Nem lenne szerencsés azonban, ha
minden esetben hosszas számolással kellene meggyızıdnünk arról,
van-e lényeges különbség a különbözı mentési módszerek között.
(Nem szólva arról, hogy ha lényeges különbséget észlelnénk, aligha len-
nénk felvértezve a helyes választáshoz szükséges tudással.) Bár az
ANDERSON–RUBIN-módszer garanciája arra, hogy mindig független és
egységnyi szórású látens változókat produkál, nagyon vonzó, fogadjuk
meg Tucker11 tanácsát: ha a faktorokat azért alkottuk meg, mert más,
a modellben nem szereplı változókkal szeretnénk egy modellbe
építeni, használjuk a regressziós módszert. Egy társadalomkutató mi
másért bajlódna a faktorokkal, ha nem azért, hogy viselkedésüket meg-
magyarázza vagy segítségükkel más változók viselkedését megjósolja?
Mi tehát a regressziós módszerre voksolunk.
FACTOR
/VARIABLES partalak szervala tulajdon utazas eletform
vallalk
/MISSING LISTWISE
/ANALYSIS partalak szervala tulajdon utazas eletform
vallalk
/PRINT INITIAL EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/SAVE REG(ALL) .

11 Tucker, L.R. (1966) 427–436.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

62 Túlélıkészlet az SPSS-hez

A SAVE parancs hatására két új változónk keletkezik.12 Miután az elsı fak-


torunk a magán-, a második pedig a közszférához kapcsolódó szabad-
ságjogokat tömörítette, az elsıt MAGAN, a másodikat KOZ névvel látjuk el.

2.4. Amiért fáradoztunk: létrejöttek a látens változók

Nézzük a két új változó eloszlását és fontosabb statisztikáit. (2.4. és 2.5.


ábra)
2.4. ábra
A magánszféra szabadságának fontossága
300

200

100

Std. Dev = ,92


Mean = 0,00
0 N = 899,00
-3
-3 0
-3 5
-2 0
-2 5
-2 0
-2 5
-1 0
-1 5
-1 0
-1 5
-,7 0
-,5
-,2
0,
,2 0
,5
,7
1,
1, 0
0
5
0
5
0
25
,5
,2
,0
,7
,5
,2
,0
,7
,5
,2
,0
5
0
5

magánszféra szabadságvágy (regression)

A látens struktúrát megjelenítı két faktor mindegyike 0 átlagú és szórá-


suk pedig annál közelebb van az egyhez, minél jobb volt a modell il-
leszkedése, azaz minél közelebb van egymáshoz az R és az R̂ mátrix.
A magán- és a közszférához főzıdı szabadságjogokat tartalmazó két

12 Ha valóban az elsı és egyetlen mentés hatására keletkezett a két faktorunk, akkor


mindig FAC1_1 és FAC1_2 néven jelennek meg az adatmátrixban. Ha véletlenül
„bekapcsolva” felejtettük a SAVE parancsot és a nem jól illeszkedı futások vég-
eredményeit is elmentjük, akkor a FACX_Y formátumban keletkezı újabb és újabb
változóknál az Y-ok azt jelzik, hogy hányadik futással kísérletezünk, az X-ek pedig
az egy adott futásban keletkezı faktorok sorszámai.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 63

faktor eloszlása meglehetısen különbözı. Mielıtt ezeket a különbsége-


ket szemügyre vennénk, emlékezzünk vissza, hogy az eredeti változók
esetében az 1-es érték azt jelentette, hogy az adott szabadságjog nem
fontos, a 7 pedig azt, hogy nagyon fontos a válaszadó számára. A fak-
torsúlyok minden változó és mindkét faktor esetében pozitív számok
voltak, így amiatt, hogy a faktorok átlaga a mentés során 0-vá „válto-
zott”, a faktoron lévı kicsi, tehát negatív értékek azt jelzik, hogy az
adott dimenzió szabadsága nem fontos, a nagy, tehát pozitív értékek
pedig azt, hogy az adott dimenzió fontos. Jóllehet, azt tanultuk, hogy
az átlag körüli eltérések jellemzésére a szórások szolgálnak, és a két
faktor szórása egyenlı, mégis azt kell mondanunk, hogy a magánszfé-
rához kapcsolódó szabadságjogok faktora sokkal ferdébb eloszlást
mutat, mint a közszféráé. (Az eloszlás ferdeségét mutató SKEWNESS
értéke a magánszféránál –1,4; a közszféránál –0,3.)13 Ebbıl a ténybıl
már azt is láthatjuk, hogy a magánszféra tekintetében szélsıségesebben
megosztottak az emberek, mint a közszféra esetében.

2.5. ábra
A közszféra szabadságának fontossága
160

140

120

100

80

60

40
Std. Dev = ,91
20 Mean = 0,00

0 N = 899,00
-1
-1
-1
-1
-,7
-,5
-,2
0,
,2
,5
,7
1,
1,
1,
1,
2,
00
5
0
5
00
25
50
75
00
,7
,5
,2
,0

5
0
5
5
0
5
0

közszféra szabadságvágy (regression)

13 A SKEWNESS negatív értéke azt jelzi, hogy mindkét eloszlás jobbra ferde, azaz töb-
ben vannak azok, akiknek fontosak, mint azok, akiknek nem fontosak az adott
szabadságjogok.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

64 Túlélıkészlet az SPSS-hez

Ahhoz, hogy megérthessük, hogy mi is a hozadéka a két látens dimen-


zió megtalálásának, magyarázó modelleket kell megfogalmaznunk, ahol
azt próbáljuk felmérni, hogy mitıl is függ az, hogy kik mennyire tartják
fontosnak az egyes szférák szabadságát. A magyarázó modellek építésé-
re azonban csak a következı fejezetben kerül sor.

2.5. A hiányzó adatok kezelése

Mielıtt továbbhaladnánk a faktorelemzésben, térjünk vissza a hiányzó


adatok kezelésének lehetséges módszereihez. Láttuk, hogy a LISTWISE
módszer alkalmazása azt jelenti, hogy minden olyan válaszadó kimarad
a fıkomponens-, illetve faktorelemzésbıl, aki az eredeti, mért változók
közül akárcsak egyre is nem válaszolt. A PAIRWISE módszer valamivel
szelídebb. Igaz ugyan, hogy ha valaki akárcsak egy, az adatredukcióban
részt vevı változóra nem válaszolt, az nem kaphat faktorszkór értéket
sem, de a faktorstruktúrán minden részleges válaszmegtagadó rajta
hagyhatja a keze nyomát. A faktorelemzés ugyanis – akárcsak a fıkom-
ponens-elemzés – a mért változók korrelációs mátrixából indul. A kor-
relációs mátrix egyes elemeinek (az i-edik és a j-edik változó közötti
korreláció) kiszámításakor mindazokat figyelembe vesszük, akik az
adott kérdéspárra válaszoltak, akkor is, ha néhány más kérdésnél vá-
laszmegtagadók voltak. Így tehát a változók összekapcsolódási módját,
és így a látens struktúra szerkezetét befolyásolják azok is, akik nem
minden kérdésre válaszoltak. Mivel azonban a faktor- (és a fıkompo-
nens-) szkórok kiszámításakor minden mért változóra szükség van,
azok, akik egy-egy kérdésre nem válaszoltak, faktorszkór értéket sem
kaphatnak.
A hiányzó adatok kezelésére hivatott harmadik módszer a REPLACE
WITH MEAN. E módszer esetében a program az egyes kérdésekre nem
válaszolók „missingjét” az adott kérdések válaszainak átlagával helyet-
tesíti. Nem kell hangsúlyoznunk, hogy mennyire indokolatlan feltéte-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 65

leznünk, hogy a válaszmegtagadás, vagy a ’nem tudom’ válasz mögött


egy „átlagos” válasz húzódik meg. Ennek az opciónak az alkalmazását
szinte lehetetlen indokolni, és ezért a hiányzó adatok ilyetén kezelésétıl
érdemes tartózkodni.

2.6. A faktorelemzés buktatói

Most térjünk vissza a faktorelemzéshez és nézzük meg, hogy miféle


buktatók várhatnak ránk, ha látens struktúrát keresünk különbözı vál-
tozószettekben.
Elıször járjunk végig együtt egy olyan utat, amelynek során az eddig
tanultakat „gondolkodás nélkül” hajtjuk végre. Ahhoz, hogy valóban
csak mechanikusan jussunk el egy illeszkedı látens struktúrához, úgy
kezdünk egy mért változószett faktorizálásához, hogy azt sem definiál-
juk, mit mértek az eredeti változók. Tehát van kilenc darab változónk,
keressünk mögöttük látens struktúrát!14
Az elsı kérdés: hány látens dimenzióba próbáljuk begyömöszölni
a kilenc mért változót? Ennek a kérdésnek az eldöntéséhez ad segítsé-
get a SCREE PLOT az EXTRACTION ablakban. (2.6. ábra)
A SCREE PLOT mutatja, hogy körülbelül hány dimenzióval érdemes
próbálkoznunk. A 2.6. ábra szerint három, viszonylag nagy információ-
tartalmú faktorra számíthatunk. Tehát háromfaktoros modellel nyitunk.
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_7
q59_8 q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_7
q59_8 q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

14 A TBD.KÖNYV_VAK.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

66 Túlélıkészlet az SPSS-hez

2.6. ábra

Factor Scree Plot


3,0

2,5

2,0

1,5
Eigenvalue

1,0

,5

0,0
1 2 3 4 5 6 7 8 9

Factor Number
Analysis weighted by UJSULY

2.6.1. A Kaiser–Meyer–Olkin mutató és a Bartlett-teszt

Mielıtt a háromfaktoros modellt megvizsgálnánk, tegyünk egy kitérıt.


Nem minden változószett mögött húzódik meg látens struktúra. Azt is
mondhatnánk, hogy vannak olyan változószettek, amelyek alkalmasak,
és vannak olyanok is, amelyek nem alkalmasak faktoranalízisre. Ezt
a fajta alkalmasságot a KAISER–MEYER–OLKIN-mutató (KMO) segítsé-
gével tesztelhetjük. A KMO-mutató képlete a következı:
∑∑ r 2
ij

KMO = i≠ j
i j
,
∑∑ r +∑∑ a
i j
2
ij
i j
2
ij

ahol rij az i-edik és a j-edik mért változó közötti Pearson-féle korrelációs


együttható, az aij pedig az i-edik és a j-edik mért változó közötti parciális
korrelációs együttható.
A parciális korrelációs együttható úgy mutatja meg az i-edik és a j-
edik változó közötti kapcsolat szorosságát, hogy közben az elemzésbe
bevont többi mért változó hatását kiküszöböli, kontroll alatt tartja.
A parciális kapcsolatok megértését talán jobban segíti egy szemléletes

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 67

példa, mint a matematikai definíció. A nık életkora és a gyerekszám


közötti összefüggés azt mutatja, hogy az idıs nıknek több, a fiatalok-
nak kevesebb gyerekük van. Tegyük fel, hogy a magasan iskolázott
nıknek kevesebb, az iskolázatlanoknak több gyerekük van. Tegyük fel
azt is, hogy az idıs nık iskolázatlanabbak, mint a fiatalok. Ha csak az
életkor és a gyerekszám kapcsolatára vagyunk kíváncsiak, a Pearson-
féle korrelációs együtthatót használjuk. Ha az életkor és a gyerekszám
kapcsolatát úgy vizsgáljuk, hogy ebbıl az iskolázottság hatását
kiszőrjük (azonos iskolai végzettségő nıknél külön-külön vizsgáljuk az
életkor és a gyerekszám kapcsolatát), ez a parciális korrelációs együtt-
ható. Az életkor és a gyerekszám Pearson-féle korrelációs együtthatójá-
ban benne rejtezik az iskolai végzettség hatása is. (Amikor idıs nıkrıl
beszélünk, akkor inkább iskolázatlanokról van szó, a fiatal nık eseté-
ben pedig inkább iskolázottakról.) Mivel az iskolai végzettség hatása
felerısítette az életkor és a gyerekszám közötti kapcsolatot, itt az élet-
kor és a gyerekszám közötti parciális korrelációs együttható kisebb lesz,
mint a Pearson-féle korrelációs együttható. A parciális kapcsolat olyan,
mint az érdek nélküli szerelem. Nem azért szeretünk valakit, mert gaz-
dag, szép stb., hanem önmagáért szeretjük. A parciális kapcsolat a két
változó közötti „igaz szerelem”, minden más változó hatásától meg-
tisztítva.
A látens struktúra keresésére alkalmas változószettekben a parciális
korrelációk nem lehetnek túlságosan magasak, hiszen ez azt jelentené,
hogy változópárok vannak egymással erıs kapcsolatban, olyan erıs kap-
csolatban, hogy más változók a közelükbe se érhetnek. A magas parciális
korrelációk azt jelentik, hogy a változók klikkesednek. Nem egy látens
struktúra rejtızködik a változók mögött, hanem páronkénti összekap-
csolódások. A KMO-mutató szellemesen teszteli, hogy a parciális kor-
relációk egy elfogadható mértéken belül maradnak-e. A mutató számláló-
jában és nevezıjében is pozitív kifejezés áll (négyzetszámok összege), így
a mutató értéke akkor maximális, ha a parciális korrelációk négyzetösszege
0. Ilyenkor az rij2 -k összegét osztjuk egymással, amely 1-et ad. Minden
olyan változószett alkalmas látens struktúrakeresésre, amelynél ez a KMO-
érték legalább 0,5. Természetesen minél közelebb van a KMO értéke az 1-
hez, annál vérmesebb reményekkel nézhetünk a faktorelemzés elébe.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

68 Túlélıkészlet az SPSS-hez

Amikor a FACTOR ANALYSIS parancsablakon belül a DESCRIPTIVES


ablakban a KMO kiszámítását kérjük, automatikusan végrehajtja a prog-
ram a Bartlett-tesztet is. Ez a teszt azt vizsgálja, hogy a változószettünk
korrelációs mátrixa mennyire hasonlít egy egységmátrixra. Mivel az egy-
ségmátrix olyan mátrix, amelynek a fıátlójában csupa 1-esek, minden-
hol másutt csupa 0-k szerepelnek, a Bartlett-teszt tulajdonképpen azt
vizsgálja, hogy a változóink páronként nem korrelálatlanok-e. Egymás-
tól páronként független15 változók mögött aligha találhatnánk látens
struktúrát, ezért a Bartlett-teszt mögött álló kis (0,05-nél kisebb) szigni-
fikancia szolgál majd örömünkre, és jelzi azt, hogy a mért változószett
megfelel a minimálkövetelményeknek.16
A 2.20. táblázatból láthatjuk, hogy a változószettünkben a parciális
korrelációk elfogadhatóan kicsik (KMO=0,748), és a változóink páron-
ként nem függetlenek (Bartlett-teszt szignifikanciája=0,000).

2.20. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,748

Bartlett's Test of Approx. Chi-Square 1102,969


Sphericity df 36
Sig. ,000

A három faktor kielégítıen leírja a mért változók által definiált kilencdi-


menziós teret, hiszen az R és R̂ mátrixok illeszkedése megfelelı. (2.21.
táblázat)
Nézzük meg, hogy minden változó kivette-e a részét az illeszkedés
elısegítésébıl. (2.22. táblázat)

15 Természetesen lineáris függetlenségrıl van szó.


16 A Bartlett-teszt valójában egy khí-négyzet próba, amely a mért változók korrelá-
ciós mátrixát (R) hasonlítja a változók páronkénti függetlenségét reprezentáló egy-
ségmátrixhoz.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 69

2.21. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
23,883 12 ,021

2.22. táblázat
Communalities

Initial Extraction
Q59_1 ,348 ,467
Q59_2 ,198 ,270
Q59_3 ,169 ,285
Q59_4 ,287 ,482
Q59_5 ,246 ,330
Q59_6 ,427 ,678
Q59_7 ,136 ,221
Q59_8 ,255 ,523
Q59_9 ,372 ,458
Extraction Method: Maximum Likelihood.

A 7. változó végsı kommunalitása (2.22. táblázat EXTRACTION oszlop)


túlságosan kicsi (0,221), ezért ettıl a változótól megválunk. Az új futta-
tásban már csak nyolc változónk van:
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

70 Túlélıkészlet az SPSS-hez

A KMO értéke és a Bartlett-teszt azt mutatja, hogy az újabb kísérletünk


a látens struktúra megtalálására ígéretes. (2.23. táblázat)

2.23. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,743

Bartlett's Test of Approx. Chi-Square 1010,326


Sphericity df 28
Sig. ,000

Nézzük, hogy az egyes változókat mennyire jól képezték le a faktorok.


(2.24. táblázat)

2.24. táblázat
Communalitiesa

Initial Extraction
Q59_1 ,347 ,397
Q59_2 ,198 ,290
Q59_3 ,164 ,348
Q59_4 ,283 ,473
Q59_5 ,246 ,348
Q59_6 ,425 ,909
Q59_8 ,198 ,277
Q59_9 ,372 ,513
Extraction Method: Maximum Likelihood.
a. One or more communalitiy estimates greater than
1.0 were encountered during iterations. The
resulting solution should be interpreted with caution.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 71

2.6.2. Amikor a faktorok 100 százaléknál többet magyaráznak

Elsı ránézésre minden rendben, hiszen minden változó mellett 0,25-


nél nagyobb végsı kommunalitás áll (2.24. táblázat EXTRACTION osz-
lop). A tábla alatt azonban egy fontos figyelmeztetés áll: az iterációs fo-
lyamat során egy vagy több változó kommunalitása 1,0 fölé szaladt.
Természetesen egy változó végsı kommunalitása sohasem lehet na-
gyobb mint 1, hiszen az lehetetlen, hogy a látens struktúra a változót
a tökéletesnél jobban leírja. Ez a figyelmeztetés azt jelenti, hogy még
akkor is, hogyha a megtalált faktorstruktúra minden kritériumnak meg-
felel, kételkednünk kell a modell validitásában, azaz érvényességében.
Végsı tanulságként jegyezzük meg, hogy az ilyen figyelmeztetéseket
tartalmazó futtatásokat nem fogadhatjuk el. Kétféle úton próbálhatjuk
meg a figyelmeztetést megszüntetni. Az egyik az, hogy megválunk
a legmagasabb kommunalitású változótól (Q59_6), arra gondolván,
hogy ez a változó lehetett a vétkes az iterációs folyamat során 1-nél ma-
gasabbra ugró kommunalitásban. A második úthoz szemügyre kell ven-
nünk a rotált faktormátrixot, és a rosszul interpretálható változó(k) el-
hagyásával próbálkozhatunk.

2.6.2.1. A legnagyobb kommunalitású változó kihagyása

Nézzük az elsı utat, amely kihagyja az „egészségtelenül” nagy kommu-


nalitású 6. változót.
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_8 q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_8 q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

A KMO értéke és a Bartlett-teszt megfelelı, az illeszkedés csodás, hi-


szen a khí-négyzethez tartozó szignifikancia 0,851. A figyelmeztetéstıl

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

72 Túlélıkészlet az SPSS-hez

megszabadultunk ugyan, és a kommunalitások is jók, de támadt egy


újabb probléma. A három faktorban megtestesülı együttes információ-
tartalom 3 alá csökkent, mint ahogy azt a 2.25. táblázat mutatja:

2.25. táblázat
Total Variance Explained

Extraction Sums of Squared


Loadings
% of Cumulativ
Factor Total Variance e%
1 1,793 25,612 25,612
2 ,783 11,188 36,800
3 ,162 2,312 39,112
Extraction Method: Maximum Likelihood.

A három faktorban együttesen 1,793 + 0,783 + 0,162 = 2,738 egységnyi in-


formáció testesül meg, és ezen rotálás után bárhogy osztozzanak is
a faktorok, legalább egyikük túl alacsony információtartalmú lesz. Ebbıl
az következik, hogy a következı lépésben a faktorszámot csökkentjük.
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_8 q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_8 q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

Attól, hogy csak két faktort kérünk, a mért változók struktúrája nem
változik, tehát a KMO és a Bartlett-teszt éppen azt mutatja, mint az elı-
zı futásban.
A kétfaktoros modell is megfelelıen le tudja írni a hétdimenziós
teret. (2.26. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 73

2.26. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
8,757 8 ,363

A változók végsı kommunalitásai elfogadhatóak. (2.27. táblázat)

2.27. táblázat
Communalities

Initial Extraction
Q59_1 ,182 ,315
Q59_2 ,190 ,272
Q59_3 ,161 ,294
Q59_4 ,281 ,477
Q59_5 ,244 ,337
Q59_8 ,197 ,262
Q59_9 ,281 ,565
Extraction Method: Maximum Likelihood.

Most már csak az van hátra, hogy a faktorok interpretálhatóságát meg-


vizsgáljuk. (2.28. táblázat)

2.28. táblázat
Rotated Factor Matrixa

Factor
1 2
Q59_1 -1,52E-02 ,561
Q59_2 ,492 ,171
Q59_3 ,505 -,196
Q59_4 ,684 9,400E-02
Q59_5 ,512 ,273
Q59_8 ,394 ,326
Q59_9 ,209 ,722
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

74 Túlélıkészlet az SPSS-hez

Sajnos, mind a Q59_8, mind a Q59_5 változó mindkét faktoron rajta ül.
A Q59_8 változó elhagyását az alacsonyabb kommunalitás és a két fak-
toron való szinte szimmetrikus elhelyezkedés is indokolja, ezért tıle vá-
lunk meg elıször.
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

A KMO-értéket, amely esetünkben 0,674, azért nem érdemes nézegetni,


mert korántsem biztos, hogy a végsı megoldásnál járunk, és ha újabb
változót kell elhagynunk, akkor a KMO értéke úgyis meg fog változni.
Az illeszkedés még mindig jó. (2.29. táblázat)

2.29. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
2,106 4 ,716

A végsı kommunalitások is megfelelıek. (2.30. táblázat)

2.30. táblázat
Communalities

Initial Extraction
Q59_1 ,180 ,300
Q59_2 ,185 ,273
Q59_3 ,161 ,296
Q59_4 ,267 ,492
Q59_5 ,211 ,307
Q59_9 ,260 ,607
Extraction Method: Maximum Likelihood.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 75

Már csak a faktorok interpretálhatóságán múlik, hogy eljutottunk-e a végsı


megoldáshoz. (2.31. táblázat)

2.31. táblázat
Rotated Factor Matrixa

Factor
1 2
Q59_1 -1,05E-02 ,547
Q59_2 ,493 ,172
Q59_3 ,512 -,186
Q59_4 ,695 9,485E-02
Q59_5 ,489 ,261
Q59_9 ,207 ,751
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

A Q59_5 változó még mindig két faktoron ül.17 A következı lépésben


ettıl a változótól is megválunk. (2.32. táblázat)
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

17 Mielıtt a Q59_5 változó elhagyásával egy ötdimenziós térben keresnénk a látens


struktúrát, célszerő megpróbálni a Q59_5 változó elhagyásával és a Q59_8 változó
visszaemelésével ellenırizni, hogy valóban mindkét változó kidobása-e a helyes út.
Ha így teszünk, akkor a Q59_8 változó végsı kommunalitása a kritikus érték alá
csökken, tehát indokolt az öt mért változó mögötti struktúrakeresés.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

76 Túlélıkészlet az SPSS-hez

2.32. táblázat
Rotated Factor Matrixa

Factor
1 2
Q59_1 -1,05E-02 ,547
Q59_2 ,493 ,172
Q59_3 ,512 -,186
Q59_4 ,695 9,485E-02
Q59_5 ,489 ,261
Q59_9 ,207 ,751
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

KMO-értékünk még éppen elfogadható, a Bartlett-teszt szignifikanciája


megfelelı. (2.33. táblázat)

2.33. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,588

Bartlett's Test of Approx. Chi-Square 362,355


Sphericity df 10
Sig. ,000

A modell illeszkedése kiváló. (2.34. táblázat)

2.34. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
,758 1 ,384

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 77

A változók végsı kommunalitásai elfogadhatóak. (2.35. táblázat)

2.35. táblázat
Communalities

Initial Extraction
Q59_1 ,179 ,331
Q59_2 ,166 ,260
Q59_3 ,151 ,288
Q59_4 ,233 ,528
Q59_9 ,226 ,553
Extraction Method: Maximum Likelihood.

A faktorok interpretálhatóak is, hiszen az elsı faktoron ül a Q59_2,


a Q59_3 és a Q59_4, míg a második faktoron a Q59_1 és a Q59_9 vál-
tozó. (2.36. táblázat)

2.36. táblázat
Rotated Factor Matrixa

Factor
1 2
Q59_1 -3,46E-02 ,574
Q59_2 ,470 ,198
Q59_3 ,512 -,162
Q59_4 ,714 ,133
Q59_9 ,167 ,724
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

Tehát úgy tőnik, hogy az elsı út, amelyen elindultunk annak érdekében,
hogy a figyelmeztetéstıl megszabaduljunk, sikerre vezetett. Ezt a sikert
egyetlen dolog árnyékolja be: a két faktorban megtestesülı együttes in-
formációmennyiség nem éri el a két egységnyit. (2.37. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

78 Túlélıkészlet az SPSS-hez

2.37. táblázat
Total Variance Explained

Extraction Sums of Squared Rotation Sums of Squared


Loadings Loadings
% of Cumulativ % of Cumulativ
Factor Total Variance e% Total Variance e%
1 1,187 23,743 23,743 1,022 20,439 20,439
2 ,772 15,447 39,190 ,938 18,751 39,190
Extraction Method: Maximum Likelihood.

A rotálás után két olyan faktor keletkezett, amelynek információtartal-


ma közel egységnyi. A második faktorban 0,938 egységnyi információ
testesül meg, és az elsı faktor sem sokkal gazdagabb információban,
mintha egyetlen mért változóval dolgoznánk. Ez a faktorstruktúra csak
abban az esetben tekinthetı végsı megoldásnak, ha segítségükkel két
„értelmes” dimenzió bontakozott ki.18

2.6.2.2. A rosszul interpretálható változók kihagyása

Térjünk most vissza a 2.24. táblázat alatti figyelmeztetést tartalmazó fu-


táshoz:
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

18 Mindaddig amíg „vakon” keressük a látens struktúrát, azaz nem tudjuk, hogy mi
a mért változók jelentése, addig ebben a kérdésben nem tudunk állást foglalni.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 79

Most azokat a változókat keressük, amelyek rosszul interpretálhatóak, és


azt reméljük, hogy elhagyásukkal a figyelmeztetéstıl is megszabadulunk.

2.38. táblázat
Rotated Factor Matrixa

Factor
1 2 3
Q59_1 ,596 ,160 -,128
Q59_2 2,117E-02 ,496 ,208
Q59_3 -,129 ,198 ,541
Q59_4 5,232E-02 ,502 ,468
Q59_5 ,149 ,530 ,210
Q59_6 ,951 4,343E-02 5,756E-02
Q59_8 ,189 ,482 9,177E-02
Q59_9 ,528 ,472 -,107
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 7 iterations.

A Q59_4 és Q59_9 változók két faktoron is rajta ülnek. (2.38. táblázat)


Elıször az alacsonyabb kommunalitású Q59_4-est hagyjuk el. (2.39.
táblázat)
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_5 q59_6 q59_8 q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_5 q59_6 q59_8 q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

80 Túlélıkészlet az SPSS-hez

2.39. táblázat
Communalitiesa

Initial Extraction
Q59_1 ,347 ,397
Q59_2 ,198 ,290
Q59_3 ,164 ,348
Q59_4 ,283 ,473
Q59_5 ,246 ,348
Q59_6 ,425 ,909
Q59_8 ,198 ,277
Q59_9 ,372 ,513
Extraction Method: Maximum Likelihood.
a. One or more communalitiy estimates greater than
1.0 were encountered during iterations. The
resulting solution should be interpreted with caution.

Láthatjuk, hogy mind a KMO értéke, mind a Bartlett-teszt megfelelı


eredményt adott. (2.40. táblázat)

2.40. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,718

Bartlett's Test of Approx. Chi-Square 787,178


Sphericity df 21
Sig. ,000

Az illeszkedés rendben van. (2.41. táblázat)

2.41. táblázat
Goodness-of-fit Test

Chi-Squa
re df Sig.
3,548 3 ,315

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 81

A változók mindegyikét elfogadhatóan leképezik a faktorok, de láthatjuk,


hogy a figyelmeztetéstıl nem sikerült megszabadulnunk. (2.42. táblázat)

2.42. táblázat
Communalitiesa

Initial Extraction
Q59_1 ,335 ,432
Q59_2 ,155 ,250
Q59_3 9,661E-02 ,999
Q59_5 ,223 ,381
Q59_6 ,410 ,717
Q59_8 ,187 ,301
Q59_9 ,364 ,484
Extraction Method: Maximum Likelihood.
a. One or more communalitiy estimates greater than
1.0 were encountered during iterations. The
resulting solution should be interpreted with caution.

A figyelmeztetésért felelıs változót a Q53_3 változóban vélhetjük fel-


fedezni: nem csak a végsı kommunalitása „egészségtelenül” magas, ha-
nem egyedül uralja a harmadik faktort. (2.43. táblázat)

2.43. táblázat
Rotated Factor Matrixa

Factor
1 2 3
Q59_1 ,646 9,963E-02 -7,01E-02
Q59_2 2,882E-02 ,486 ,112
Q59_3 -,108 ,210 ,971
Q59_5 ,131 ,595 9,906E-02
Q59_6 ,840 ,106 -1,27E-02
Q59_8 ,184 ,516 2,292E-02
Q59_9 ,557 ,414 -5,71E-02
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 5 iterations.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

82 Túlélıkészlet az SPSS-hez

2.6.2.3. Az egyeduralomra törı változók esete

Az orvoslás további lehetséges módja most nem egyszerően a Q59_3


változó elhagyása, hiszen ezzel az elhagyással a harmadik faktort is ki-
üresítjük, hanem el kell hagynunk a Q59_3 változót és a faktorszámot is
csökkentenünk kell eggyel.
FACTOR
/VARIABLES q59_1 q59_2 q59_5 q59_6 q59_8 q59_9
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_5 q59_6 q59_8 q59_9
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

Láthatjuk, hogy a KMO értéke és a Bartlett-teszt megfelelı. (2.44. táblá-


zat)
2.44. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,718

Bartlett's Test of Approx. Chi-Square 723,250


Sphericity df 15
Sig. ,000

Az illeszkedés jó. (2.45. táblázat)

2.45. táblázat
Goodness-of-fit Test

Chi-Squa
re df Sig.
3,206 4 ,524

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 83

Minden változó végsı kommunalitása megfelelı. (2.46. táblázat)

2.46. táblázat
Communalities

Initial Extraction
Q59_1 ,329 ,438
Q59_2 ,132 ,240
Q59_5 ,201 ,387
Q59_6 ,410 ,703
Q59_8 ,185 ,301
Q59_9 ,360 ,477
Extraction Method: Maximum Likelihood.

Látens struktúránk elfogadása most már csak az interpretálhatóságtól


függ. (2.47. táblázat)

2.47. táblázat
Rotated Factor Matrixa

Factor
1 2
Q59_1 ,657 8,380E-02
Q59_2 2,870E-02 ,489
Q59_5 ,126 ,609
Q59_6 ,832 ,105
Q59_8 ,187 ,516
Q59_9 ,562 ,401
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

A rotált faktormátrixból láthatjuk, hogy a Q59_9 változó mindkét fak-


toron rajta ül, ezért meg kell válnunk tıle.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

84 Túlélıkészlet az SPSS-hez

FACTOR
/VARIABLES q59_1 q59_2 q59_5 q59_6 q59_8
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_5 q59_6 q59_8
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

Az outputban elég egyetlen pillantást vetnünk a COMMUNALITIES táblá-


ra (2.48. táblázat), és láthatjuk, hogy modellünk több sebbıl vérzik. Új-
ra felbukkant a figyelmeztetés és ráadásul van túl alacsony végsı kom-
munalitású változónk is (Q59_2).

2.48. táblázat
Communalitiesa

Initial Extraction
Q59_1 ,311 ,327
Q59_2 ,114 ,222
Q59_5 ,181 ,408
Q59_6 ,329 ,951
Q59_8 ,168 ,301
Extraction Method: Maximum Likelihood.
a. One or more communalitiy estimates greater than
1.0 were encountered during iterations. The
resulting solution should be interpreted with caution.

Akár azt reméljük, hogy az alacsony kommunalitású változó kihagyása


a figyelmeztetést is megszüntetni, akár azt, hogy a magas kommunali-
tású változó elhagyása nemcsak a figyelmeztetést szünteti meg, hanem
a Q59_2 változó kommunalitását is feljavítja, egy változótól minden-
képpen meg kell válnunk. Ebben az esetben a mért változóink száma
négyre csökken. Négy változó mögött nem szokás látens struktúrát ke-
resni, hiszen csak úgy képzelhetı el mögöttük egy kétdimenziós látens
struktúra, hogy az egyik dimenziót három mért változó, a másikat pedig

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 85

egy alkotja, vagy két-két mért változó alkot egy-egy faktort. Az elsı
esetben, a probléma „csináljunk három változóból egyetlen dimenziót”
feladatra redukálódik, azaz fıkomponenst kellene a három változóra
futtatnunk. A második esetben pedig két-két változó alkotna egy-egy
dimenziót, ez pedig ellentmond a faktorelemzés egész logikájának, hi-
szen valójában két-két változó páronként összekapcsolódásának lehe-
tünk tanúi. Aligha állhatunk elı azzal az elképzeléssel, hogy kilenc mért
változó mögött úgy fedeztünk fel látens struktúrát, hogy közülük két-
két változó képez egy-egy dimenziót, a többi változó pedig elvérzett.

2.6.2.4. Vissza az elágazási ponthoz

Az út, amelyet választottunk, nem vezetett sikerhez. Térjünk vissza ah-


hoz a ponthoz, ahol tévútra keveredtünk. Most a két rosszul interpre-
tálható változó közül ne az alacsonyabb kommunalitású Q59_4-et, ha-
nem a Q59_9-et hagyjuk el. (2.38. és 2.39. táblázat)
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

Újra megjelent a figyelmeztetés, és most a bajok forrását nem találjuk


a COMMUNALITIES táblában. (2.49. táblázat)
A változóink közül a túl alacsony vagy túl magas kommunalitásra hi-
vatkozva nem hagyhatunk el egyet sem. A mentsvárat a három
faktorban megtestesülı összes információ mennyisége jelenti. Lássuk
a TOTAL VARIANCE EXPLAINED táblázat egy részletét. (2.50. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

86 Túlélıkészlet az SPSS-hez

2.49. táblázat
Communalitiesa

Initial Extraction
Q59_1 ,332 ,772
Q59_2 ,182 ,260
Q59_3 ,158 ,274
Q59_4 ,280 ,513
Q59_5 ,228 ,368
Q59_6 ,344 ,447
Q59_8 ,182 ,349
Extraction Method: Maximum Likelihood.
a. One or more communalitiy estimates greater than
1.0 were encountered during iterations. The
resulting solution should be interpreted with caution.

2.50. táblázat
Total Variance Explained

Extraction Sums of Squared


Loadings
% of Cumulativ
Factor Total Variance e%
1 1,418 20,261 20,261
2 1,358 19,403 39,664
3 ,206 2,947 42,611
Extraction Method: Maximum Likelihood.

A három faktorban együtt kevesebb, mint három egységnyi információ


tömörül. A három dimenzió túl tág a mért változók teréhez képest. Ez-
után tehát a dimenziószámot csökkentjük és így futtatjuk le a parancsot.
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_6 q59_8
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 87

A COMMUNALITIES táblázatból jól látszik, hogy a Q59_8 változót nem


jól írja le a két faktor. (2.51. táblázat)
2.51. táblázat
Communalities

Initial Extraction
Q59_1 ,332 ,533
Q59_2 ,182 ,268
Q59_3 ,158 ,238
Q59_4 ,280 ,478
Q59_5 ,228 ,327
Q59_6 ,344 ,598
Q59_8 ,182 ,242
Extraction Method: Maximum Likelihood.

Nincs értelme az output további böngészésének, hiszen ezen a problé-


mán csak a Q59_8 változó elhagyásával tudunk segíteni. Tegyük is ezt.
FACTOR
/VARIABLES q59_1 q59_2 q59_3 q59_4 q59_5 q59_6
/MISSING LISTWISE
/ANALYSIS q59_1 q59_2 q59_3 q59_4 q59_5 q59_6
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

A KMO értéke és a Bartlett-teszt megfelelı. (2.52. táblázat)


2.52. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,623

Bartlett's Test of Approx. Chi-Square 585,294


Sphericity df 15
Sig. ,000

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

88 Túlélıkészlet az SPSS-hez

Az illeszkedés jó. (2.53. táblázat)

2.53. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
6,492 4 ,165

A kommunalitások minden változó esetében elfogadhatóak. (2.54. táblázat)

2.54. táblázat
Communalities

Initial Extraction
Q59_1 ,331 ,557
Q59_2 ,173 ,259
Q59_3 ,158 ,253
Q59_4 ,264 ,520
Q59_5 ,188 ,282
Q59_6 ,337 ,577
Extraction Method: Maximum Likelihood.

Most nézzük meg a TOTAL VARIANCE EXPLAINED táblázat megfelelı


részletét. (2.55. táblázat)
2.55. táblázat
Total Variance Explained

Rotation Sums of Squared Loadings


% of Cumulativ
Factor Total Variance e%
1 1,256 20,929 20,929
2 1,192 19,872 40,801
Extraction Method: Maximum Likelihood.

Láthatjuk, hogy mindkét faktoron egy egységnél nagyobb információ


ırzıdött meg. Most már csak a faktorok interpretálhatóságáról kell
meggyızıdnünk. (2.56. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 89

2.56. táblázat
Rotated Factor Matrixa

Factor
1 2
Q59_1 2,231E-02 ,746
Q59_2 ,505 6,305E-02
Q59_3 ,476 -,162
Q59_4 ,719 6,017E-02
Q59_5 ,502 ,173
Q59_6 6,765E-02 ,756
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

Láthatjuk, hogy az elsı faktoron a Q59_2, Q59_3, Q59_4, Q59_5 válto-


zók, míg a másodikon a Q59_1 és a Q59_6 változók ülnek rajta.19 Azt
az érdemi kérdést, hogy a most már véglegesnek tekinthetı két fakto-
runknak mi a jelentése csak akkor tudjuk megválaszolni, ha megismer-
kedünk a mért változók tartalmával.

2.6.3. A változók tartalma és a faktorok jelentése

Az itt szereplı változók egy 2000-ben végzett reprezentatív felmérés-


bıl származnak. A kérdésblokk azt vizsgálta, hogy a többségi társada-
lom tagjai szerint milyen beilleszkedési stratégiákkal valósulhat meg
a roma társadalom szegregációjának csökkentése. A kérdıív a követke-
zıképpen fogalmazott: „Mi kell ma ahhoz Magyarországon, hogy egy ci-
gány sikeres legyen? Kérjük az iskolai osztályzatoknak megfelelıen osz-
tályozza a következı feltételeket, ahol az 1 azt jelenti, hogy egyáltalán
nem szükséges, az 5 pedig azt, hogy nagyon szükséges.” (2.57. táblázat)

19 Ebben az esetben a második faktort mindössze két változó alkotja, de most jól ér-
zékelhetıen más esettel állunk szemben, mint amikor négy változó mögött próbál-
tunk látens struktúrát keresni. A mostani esetben arról van szó, hogy a hat változó
közül négy alkot egy dimenziót és kettı egy másikat.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

90 Túlélıkészlet az SPSS-hez

2.57. táblázat: Mi kell ma ahhoz Magyarországon, hogy egy cigány


sikeres legyen? Osztályozza az alábbi szempontokat!

Q59_1 akaraterı 1 2 3 4 5
Q59_2 jó kapcsolatok 1 2 3 4 5
Q59_3 a roma származás eltitkolása 1 2 3 4 5
Q59_4 szerencse, véletlen 1 2 3 4 5
Q59_5 jó családi háttér 1 2 3 4 5
Q59_6 szorgalom 1 2 3 4 5
Q59_7 a roma származás felvállalása 1 2 3 4 5
Q59_8 segítıkész társadalmi környezet 1 2 3 4 5
Q59_9 tehetség 1 2 3 4 5

A kutatás elızetes koncepciója az volt, hogy a többség által megvalósít-


hatónak vélt stratégiák három látens dimenziót alkotnak. Az integrációs
stratégiához a roma származás felvállalása, a segítıkész társadalmi kör-
nyezet tartozik; az asszimilációs stratégiához a jó kapcsolatok és a roma
származás eltitkolása; a szegregációs, tehát a csak belsı erıforrásokra
apellálló stratégiához pedig az akaraterı, a szorgalom és a tehetség. Bi-
zonytalanok voltunk a szerencse és a jó családi háttér „helyét” illetıen,
hiszen logikailag mindhárom dimenzióhoz tartozhatnak.
Emlékezzünk vissza az elsı véglegesnek tekintett faktorstruktúrára,
ahol az elsı faktort a jó kapcsolatok (Q59_2), a roma származás eltitko-
lása (Q59_3) és a szerencse (Q59_4) alkotta. Ez a dimenzió a szerencse
szerepét illetı bizonytalansággal együtt is az asszimilációs stratégiát jele-
níti meg. A második faktoron az akaraterı (Q59_1) és a tehetség
(Q59_9) ült, s ez – ha hiányosan is, hiszen a szorgalom (Q59_6) nem
szerepel a faktoron –, a szegregációs stratégiát képezi le.
A második elágazásból származó végleges faktorstruktúrában az
elsı faktort a jó kapcsolatok (Q59_2), a roma származás eltitkolása
(Q59_3), a szerencse (Q59_4) és a jó családi háttér (Q59_5) alkotta.
A második faktoron pedig az akaraterı (Q59_1) és a szorgalom (Q59_6)
ültek. Bizonyos nagyvonalúsággal azt mondhatjuk, hogy a két végleges

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 91

faktorstruktúra hasonlít egymásra, hiszen mindkettıbıl egy asszimilá-


ciós és egy szegregációs stratégia bontakozik ki.
Ha elızetes elképzelések nélkül, „vakon” keressük a látens struktú-
rát a kilenc változó mögött, akkor eltérı utakon ugyan, de hasonló lá-
tensdimenzió-struktúrához jutottunk, az asszimilációs és a szegregációs
struktúrát leltük meg.

2.6.4. A konfirmációs modell

Mire jutnánk látens dimenzió keresésével akkor, ha azt a hipotézist kí-


vánnánk tesztelni, hogy a kilenc mért item mögött az integrációs, az
asszimilációs és a szegregációs stratégia hármassága húzódik meg. A szeg-
regációs, csak a romák „belsı erıforrásaira” apelláló stratégiát az aka-
raterı, a szorgalom és a tehetség testesíti meg, az asszimilációs straté-
giához a roma származás eltitkolása, a szerencse és a jó kapcsolatok
tartoznak. Az integrációs stratégia a roma származás felvállalásában és
a segítıkész társadalmi környezetben „testesül” meg. Bizonytalanok va-
gyunk a jó családi háttér „helyét” illetıen, hiszen ez az erıforrás mind-
három sikerstratégiához tartozhat. A kiindulásunk a háromfaktoros
modell, de most elıször arra a kérdésre keressük a választ, hogy vajon
a jó családi háttér melyik faktorra „ül”.20
Az induláshoz a már egyszer használt parancssor (a változóknak új,
„beszélı” neveket adtunk):
FACTOR
/VARIABLES akarater jokapcs titkol szerencs csalad
szorgalo vallalas tarsadal tehetseg
/MISSING LISTWISE
/ANALYSIS akarater jokapcs titkol szerencs csalad
szorgalo vallalas tarsadal tehetseg
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

20 A TBD.KÖNYV_SIKERSTRATÉGIA.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

92 Túlélıkészlet az SPSS-hez

Az eredmények bíztatóak, hiszen az illeszkedés elfogadható. (2.58. táb-


lázat)

2.58. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
23,883 12 ,021

Tudjuk, hogy a végsı kommunalitások nem hibátlanok. (2.59. táblázat)

2.59. táblázat
Communalities

Initial Extraction
AKARATER ,348 ,467
JOKAPCS ,198 ,270
TITKOL ,169 ,285
SZERENCS ,287 ,482
CSALAD ,246 ,330
SZORGALO ,427 ,678
VALLALAS ,136 ,221
TARSADAL ,255 ,523
TEHETSEG ,372 ,458
Extraction Method: Maximum Likelihood.

Most azonban nem a rossz kommunalitású változó elhagyásával pró-


bálkozunk, hanem a rotált faktormátrixot vesszük szemügyre (abban
bízva, hogy a jó családi háttér valóban nem egyetlen faktoron ül, s elha-
gyásával az alacsony kommunalitások megjavulnak). (2.60. táblázat)
A jó családi háttér (CSALAD) valóban az asszimilációs (2. faktor) és
az integrációs (3. faktor) stratégiát megjelenítı látens dimenzión is rajta
ül, így elhagyása indokolt. Tegyük ezt!

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 93

2.60. táblázat
Rotated Factor Matrixa

Factor
1 2 3
AKARATER ,673 -3,05E-02 ,117
JOKAPCS 7,728E-02 ,487 ,166
TITKOL -,126 ,517 -4,69E-02
SZERENCS 8,544E-02 ,669 ,164
CSALAD ,178 ,467 ,282
SZORGALO ,813 3,472E-03 ,129
VALLALAS ,148 4,556E-02 ,444
TARSADAL ,145 ,269 ,655
TEHETSEG ,590 ,197 ,266
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 5 iterations.

FACTOR
/VARIABLES akarater jokapcs titkol szerencs szorgalo
vallalas tarsadal tehetseg
/MISSING LISTWISE
/ANALYSIS akarater jokapcs titkol szerencs szorgalo
vallalas tarsadal tehetseg
/PRINT INITIAL EXTRACTION ROTATION
/FORMAT BLANK(.25)
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

A faktoranalízis parancsot egy új, /FORMAT BLANK(.25) sorral egészí-


tettük ki, ezzel biztosítva, hogy a rotált faktorokon csak azokat a vál-
tozókat lássuk, amelyek valóban rajta is vannak az adott faktoron.
(A 0,25-nél kisebb faktorsúlyú változók faktorsúlya helyén üres fehér
folt, blank van.)
A „jó családi háttér” változó elhagyása után a KMO-érték megfelelı,
az illeszkedés jó. (2.61. és 2.62. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

94 Túlélıkészlet az SPSS-hez

2.61. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,706

Bartlett's Test of Approx. Chi-Square 924,120


Sphericity df 28
Sig. ,000

2.62. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
18,434 7 ,010

Nézzük, hogy a mért változók mindegyikét megfelelıen leképezte-e


a modell. A végsı kommunalitások, ha nem is lenyőgözıek, de elfo-
gadhatóak. (2.63. táblázat)

2.63. táblázat
Communalities

Initial Extraction
AKARATER ,348 ,464
JOKAPCS ,186 ,261
TITKOL ,159 ,282
SZERENCS ,263 ,519
SZORGALO ,426 ,689
VALLALAS ,135 ,257
TARSADAL ,227 ,457
TEHETSEG ,357 ,446
Extraction Method: Maximum Likelihood.

A látens dimenziók interpretálása sem tőnik lehetetlennek, hiszen a ro-


tált faktormátrixból (2.64. táblázat) látható, hogy az elsı dimenzió a bel-
sı erıforrásokra támaszkodó, szegregációs elképzeléseket testesíti meg.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 95

A második faktor a roma származás megtagadását is magában foglaló,


a szerencse és a jó kapcsolatok jelentıségét hangsúlyozó asszimilációs
stratégiát jeleníti meg. A harmadik faktoron mindössze két változó
szerénykedik a roma származás felvállalását is elfogadó, a társadalmi
szolidaritás fontosságát is hangsúlyozó integrációs stratégiát szimbo-
lizálva.
2.64. táblázat
Rotated Factor Matrixa

Factor
1 2 3
AKARATER ,669
JOKAPCS ,466
TITKOL ,518
SZERENCS ,687
SZORGALO ,820
VALLALAS ,486
TARSADAL ,606
TEHETSEG ,589 ,272
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 5 iterations.

A modell szinte tökéletes. Kicsit nyugtalaníthat bennünket, hogy a khí-


négyzethez tartozó szignifikancia mindössze 0,01 (2.62. táblázat), azaz
nem gondolhatunk úgy az R és az R̂ mátrixokra, mint olyanokra, ame-
lyek egypetéjő ikrekként hasonlítanak egymásra. A nem túl fényesre si-
keredett illeszkedés „okait” a 0,25-ös végsı kommunalitást éppen csak
meghaladó változókban kereshetjük: a roma származás felvállalásában,
a jó kapcsolatokban és a roma származás eltitkolásában. Ráadásul a har-
madik, az integrációs stratégiát megjelenítı faktor információtartalma
kevesebb egynél. (2.65. táblázat)
Ilyen esetekben rajtunk, a modell megalkotóin múlik, hogy a jól vég-
zett munka örömével tekintünk-e a létrehozott három látens dimenzió-
ra, vagy szabadkozva elhatározzuk, hogy a sikerstratégiák mérésére – ha
tehetjük – legközelebb több mért változót használunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

96 Túlélıkészlet az SPSS-hez

2.65. táblázat
Total Variance Explained

Rotation Sums of Squared Loadings


% of Cumulativ
Factor Total Variance e%
1 1,544 19,297 19,297
2 1,048 13,103 32,400
3 ,782 9,772 42,172
Extraction Method: Maximum Likelihood.

2.6.5. Amikor minden reménytelen

Gyakran – sıt az esetek többségében – hiába a ragyogó itemsor, a kivá-


lóan kimunkált elméleti dimenziók, a kérdezettek teljes empátiahiánnyal
válaszolgatnak, és a szépen eltervezett látens struktúra sehogyan sem
akar elıállni. Egy 1991-ben végzett igazságosság-kutatásban arról kér-
dezték az embereket, hogy véleményük szerint mi az oka annak, hogy
az emberek egy (kisebb vagy nagyobb) része szegény. A felkínált okok
a következık voltak:
• a képesség, tehetség hiánya
• a szerencse hiánya
• laza erkölcsök
• erıfeszítések hiánya
• elıítéletek
• esélyegyenlıség hiánya
• a gazdasági rendszer igazságtalanságai
Az itemcsokorból elsı ránézésre látszik, hogy az állítások egy része
a szegényeket magukat hibáztatja sanyarú sorsukért, azaz a szegénysé-
get önhibának tekinti és „belsı” okokkal magyarázza. Az itemek másik
fele viszont az össztársadalmi felelısséget hangsúlyozza, a szegénység-
nek külsı okokat tulajdonít. Egyedül a balszerencse „helye” kétséges,
hiszen adatok nélkül nehéz eldönteni, hogy a ’90-es évek elején az em-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 97

berek a szerencsére, mint külsı, az ember cselekedeteitıl független fá-


tumra tekintettek-e, vagy éppen ellenkezıleg, úgy gondolták, hogy
„mindenki a maga szerencséjének kovácsa”.21
Mint a faktorelemzésben jártas szakemberek, jól tudjuk, hogyan kell
eldöntenünk, vajon az emberek gondolkodásában is elkülönül-e a sze-
génység belsı, illetve külsı okokkal való magyarázata, és azt is tudjuk,
hogyan lehet eldönteni, hogy a balszerencsét önhibának vagy a sors
igazságtalanságának tekintik-e inkább. Nézzük, mire jutunk, ha a hét
változó mögött látens struktúrát keresünk.
FACTOR
/VARIABLES kepesseg szerencs lazaerk erofesz eloitel
lehetose gazdrend
/MISSING LISTWISE
/ANALYSIS kepesseg szerencs lazaerk erofesz eloitel
lehetose gazdrend
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

A KMO-érték nem túl lelkesítı (2.66. táblázat), de nem csüggedünk, hi-


szen még csak a struktúrakeresés elején vagyunk.

2.66. táblázat
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy. ,605

Bartlett's Test of Approx. Chi-Square 371,130


Sphericity df 21
Sig. ,000

21 Az adatok a TBD.KÖNYV_SZEGOK.SAV file-ban találhatók.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

98 Túlélıkészlet az SPSS-hez

A modell illeszkedésével nincs probléma. (2.67. táblázat)

2.67. táblázat
Goodness-of-fit Test

Chi-Square df Sig.
20,076 8 ,010

Kicsit aggasztó, hogy a két faktorban megtestesülı információtartalom


kisebb kettınél. (2.68. táblázat)

2.68. táblázat
Total Variance Explained

Rotation Sums of Squared Loadings


% of Cumulativ
Factor Total Variance e%
1 1,019 14,552 14,552
2 ,747 10,676 25,228
Extraction Method: Maximum Likelihood.

Az igazi baj azonban az, hogy a két faktor mindössze két mért változót
„ír le” megfelelıen, a többi öt változó végsı kommunalitása igen kicsi.
(2.69. táblázat)
Vessünk egy pillantást a rotált faktormátrixra is. (2.70. táblázat)
Látjuk, hogy körvonalazódik a belsı és a külsı okok dimenziója, és azt
is észrevehetjük, hogy a szerencse mindkét faktoron rajta ül. Ebbıl
az következik, hogy két út áll elıttünk, amelyet végigjárva – reményeink
szerint – elfogadható modellhez juthatunk. Az egyik út a legrosszabb
kommunalitású változó kidobásával indul, a másik út pedig a rosszul
interpretálható szerencse elhagyásával kezdıdik. Ha megkeressük a leg-
alacsonyabb végsı kommunalitású változót, látjuk, hogy az bizony ma-
ga a balszerencse változója. Ebbıl következik, hogy a modell javítására
nem két, hanem egyetlen út áll csak rendelkezésünkre.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 99

2.69. táblázat
Communalities

Initial Extraction
KEPESSEG 48.1
szegénység okai:
7,611E-02 ,140
képesség, tehetség
hiánya
SZERENCS 48.2 a
szegénység okai: 7,940E-02 ,119
szerencse hiánya
LAZAERK 48.3 a
szegénység okai: laza ,109 ,310
erkölcsök
EROFESZ 48.4 a
szegénység okai: nem ,101 ,219
eröltetik meg magukat
ELOITEL 48.5 a
szegénység okai:
,147 ,227
bizonyos csoportok
megkülönböztetése
LEHETOSE 48.6 a
szegénység okai: az ,203 ,571
esélyegyenlöség hiánya
GAZDREND 48.7 a
szegénység okai: a ,115 ,181
gazdasági renszer
Extraction Method: Maximum Likelihood.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

100 Túlélıkészlet az SPSS-hez

2.70. táblázat
Rotated Factor Matrixa

Factor
1 2
KEPESSEG 48.1
szegénység okai:
1,077E-02 ,374
képesség, tehetség
hiánya
SZERENCS 48.2 a
szegénység okai: ,265 ,220
szerencse hiánya
LAZAERK 48.3 a
szegénység okai: laza -2,28E-02 ,556
erkölcsök
EROFESZ 48.4 a
szegénység okai: nem 2,333E-02 ,467
eröltetik meg magukat
ELOITEL 48.5 a
szegénység okai:
,459 ,127
bizonyos csoportok
megkülönböztetése
LEHETOSE 48.6 a
szegénység okai: az ,754 -4,40E-02
esélyegyenlöség hiánya
GAZDREND 48.7 a
szegénység okai: a ,409 -,114
gazdasági renszer
Extraction Method: Maximum Likelihood.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 101

2.6.5.1. Kétségbeesett kísérlet

Nézzük, a rossz kommunalitású (és rosszul interpretálható) „balszeren-


cse” változó elhagyása hová vezet!
FACTOR
/VARIABLES kepesseg lazaerk erofesz eloitel lehetose
gazdrend
/MISSING LISTWISE
/ANALYSIS kepesseg lazaerk erofesz eloitel lehetose
gazdrend
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

2.71. táblázat
Communalities

Initial Extraction
KEPESSEG 48.1
szegénység okai:
5,661E-02 ,114
képesség, tehetség
hiánya
LAZAERK 48.3 a
szegénység okai: laza ,103 ,293
erkölcsök
EROFESZ 48.4 a
szegénység okai: nem 9,886E-02 ,254
eröltetik meg magukat
ELOITEL 48.5 a
szegénység okai:
,147 ,230
bizonyos csoportok
megkülönböztetése
LEHETOSE 48.6 a
szegénység okai: az ,198 ,612
esélyegyenlöség hiánya
GAZDREND 48.7 a
szegénység okai: a ,112 ,176
gazdasági renszer
Extraction Method: Maximum Likelihood.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

102 Túlélıkészlet az SPSS-hez

A KMO értéke vészesen kicsi, már csak 0,574 az értéke, az illeszkedés


viszont javult (a khí-négyzet szignifikanciája 0,07). A két faktorban
megtestesülı információtartalom mindössze 1,68 egység, s ami még na-
gyobb baj, maradt két rossz kommunalitású változónk. (2.71. táblázat)
Mivel a rotált faktormátrix azt mutatja, hogy minden változó egy, és
csakis egy faktoron ül, csak azt tehetjük, hogy elhagyjuk a legalacso-
nyabb végsı kommunalitású „képesség” nevő változót.
FACTOR
/VARIABLES lazaerk erofesz eloitel lehetose gazdrend
/MISSING LISTWISE
/ANALYSIS lazaerk erofesz eloitel lehetose gazdrend
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION ML
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .

2.72. táblázat
Communalitiesa

Initial Extraction
LAZAERK 48.3 a
szegénység okai: laza 7,395E-02 ,153
erkölcsök
EROFESZ 48.4 a
szegénység okai: nem 8,957E-02 ,467
eröltetik meg magukat
ELOITEL 48.5 a
szegénység okai:
,154 ,249
bizonyos csoportok
megkülönböztetése
LEHETOSE 48.6 a
szegénység okai: az ,202 ,622
esélyegyenlöség hiánya
GAZDREND 48.7 a
szegénység okai: a ,112 ,173
gazdasági renszer
Extraction Method: Maximum Likelihood.
a. One or more communalitiy estimates greater than
1.0 were encountered during iterations. The
resulting solution should be interpreted with caution.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 103

A KMO-érték alig romlott, de így is aggodalommal tekintünk a 0,56-os


értékre, a khí-négyzet szignifikanciája egyenesen csodás: 0,752. A végsı
kommunalitások két változónál is túlságosan alacsonyak, s ez nem elég,
megjelent a faktorelemzések réme, a FIGYELMEZTETÉS, hogy iteráció
közben egy vagy több változó kommunalitása 1 fölé emelkedett. (2.72.
táblázat)
Most megpróbálkozhatnánk a LEHETOSE nevő, az esélyegyenlıtlen-
ség hiányát felpanaszoló magas kommunalitású változó elhagyásával is,
hátha ezzel megszabadulunk a „WARNING”-tól. Vegyük észre, hogy ha
még egy változót elhagyunk, akkor már csak négy változónk marad, s
mögöttük már nem lehet látens struktúrát keresni. A szegénység okté-
telezései mögött nem találtunk látens struktúrát.

2.6.5.2. Feladás helyett: visszahátrálás a fıkomponensbe

Nem kell különösebben bizonygatnunk, hogy – a rendszerváltás után


különösen, de napjainkban is – releváns probléma annak kimutatása,
hogy kik azok, akik inkább önhibának tartják a szegénységet, s kik
azok, akik a szegénységre inkább mint a társadalmi igazságtalanság
egyik megtestesülésére tekintenek. Hogyan állíthatunk elı egy-egy
aggregátumot, amely a belsı, illetve a külsı okokat foglalja magába?
A rendszerváltás tömeges és látványos szegénységet (is) hozott, és a vá-
laszadók nagy része maga is a szegénységtıl veszélyeztetett térfélen áll-
va válaszolt a kérdésekre. Ne felejtsük el, hogy 1991-es adatokról van
szó. Miért kellene világosan elkülönült dimenziókban gondolkodniuk
a szegénység okairól, hiszen maguk is ismernek „érdemes” szegényeket,
maguk is félik a jövıt, amelyben fenyeget a deklasszáció veszélye. Elı-
ítéletekbıl, ismeretekbıl, a negyven éven át sugallt ideológiából az a sze-
gény-kép is elıállt, amely az érdemtelen, munkakerülı, iszákos embe-
reket ábrázolja. A külsı és belsı okok „összefolyása”, nevezetesen,
hogy az emberek nem különítik el a két elméleti dimenziót, szinte ter-
mészetesnek tekinthetı. Meg kell elégednünk tehát azzal, hogy olyan
mutatószámokat hozunk létre, amelyek közül az egyik azt mutatja,
mennyire hajlik valaki a szegénységet belsı okokkal magyarázni, s egy

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

104 Túlélıkészlet az SPSS-hez

másikat, amely azt fejezi ki, hogy a szegénység mögött milyen mérték-
ben lát valaki külsı ok-együttest. Tehát vegyük a belsı okokat és aggre-
gáljuk ıket egy fıkomponens-elemzéssel.
FACTOR
/VARIABLES kepesseg lazaerk erofesz
/MISSING LISTWISE
/ANALYSIS kepesseg lazaerk erofesz
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION .

A fıkomponensben, ami nem más, mint egy, az eredeti változók infor-


mációtartalmából a legtöbbet megırzı index, 46 százaléknyi információ
testesül meg a három mért változó együttes információtartalmából.
(2.73. táblázat)

2.73. táblázat
Total Variance Explained

Extraction Sums of Squared


Loadings
% of Cumulativ
Component Total Variance e%
1 1,400 46,676 46,676
Extraction Method: Principal Component Analysis.

A változók és a fıkomponens kapcsolata elegendıen erıs. (2.74. táblázat)


A változókból a következı együtthatókkal készül a belsı okokat
aggregáló mutató. (2.75. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 105

2.74. táblázat
Communalities

Extraction
KEPESSEG 48.1
szegénység okai:
,388
képesség, tehetség
hiánya
LAZAERK 48.3 a
szegénység okai: laza ,529
erkölcsök
EROFESZ 48.4 a
szegénység okai: nem ,483
eröltetik meg magukat
Extraction Method: Principal Component Analysis.

2.75. táblázat
Component Matrixa

Compone
nt
1
KEPESSEG 48.1
szegénység okai:
,623
képesség, tehetség
hiánya
LAZAERK 48.3 a
szegénység okai: laza ,728
erkölcsök
EROFESZ 48.4 a
szegénység okai: nem ,695
eröltetik meg magukat
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

106 Túlélıkészlet az SPSS-hez

Ugyanezen a módon aggregálhatjuk a külsı okok mutatószámát:


FACTOR
/VARIABLES eloitel lehetose gazdrend
/MISSING LISTWISE
/ANALYSIS eloitel lehetose gazdrend
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(1) ITERATE(25)
/EXTRACTION PC
/ROTATION NOROTATE
/METHOD=CORRELATION .

A fıkomponensben megırzött információtartalom elégséges, a válto-


zók mindegyike megfelelıen „erıs” kapcsolatban van az aggregált mé-
rıszámmal. (2.76. és 2.77. táblázat)

2.76. táblázat
Total Variance Explained

Extraction Sums of Squared


Loadings
% of Cumulativ
Component Total Variance e%
1 1,569 52,301 52,301
Extraction Method: Principal Component Analysis.

A szeparáltan futtatott két fıkomponens adott egy-egy aggregált mérı-


számot a belsı okok, illetve a külsı okok együttesére, de ezek az aggre-
gátumok nem a válaszok mögött meghúzódó látens struktúrát testesítik
meg, hanem „csak” egymással megfelelıen összefüggı itemekbıl alko-
tott, az eredeti változók heterogenitásából a legtöbbet megırzı inde-
xek. A két fıkomponensbıl kiválóan készíthetünk olyan tipológiát,
amely a külsı, illetve belsı okokat preferálókat különíti el, és azokat is
megjeleníti, akik mindkét ok-együttest egyszerre érvényesnek tartják.
Az ilyen tipológiák készítéséhez a klaszterelemzés ad majd segítséget,
a tipológiába tartozás magyarázatára pedig majd a diszkriminancia-ana-
lízis fejezetben kerül sor.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Faktorelemzés 107

2.77. táblázat
Communalities

Initial Extraction
ELOITEL 48.5 a
szegénység okai:
1,000 ,500
bizonyos csoportok
megkülönböztetése
LEHETOSE 48.6 a
szegénység okai: az 1,000 ,649
esélyegyenlöség hiánya
GAZDREND 48.7 a
szegénység okai: a 1,000 ,421
gazdasági renszer
Extraction Method: Principal Component Analysis.

2.78. táblázat
Component Matrixa

Compone
nt
1
ELOITEL 48.5 a
szegénység okai:
,707
bizonyos csoportok
megkülönböztetése
LEHETOSE 48.6 a
szegénység okai: az ,805
esélyegyenlöség hiánya
GAZDREND 48.7 a
szegénység okai: a ,649
gazdasági renszer
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

108 Túlélıkészlet az SPSS-hez

2.7. Szezon és fazon

A fıkomponens- és a faktorelemzés olyan adatredukciós eljárások,


amelyek sok mért változóból kevés aggregált változót hoznak létre.
Mindössze ennyi a közös bennük, minden egyéb vonatkozásban külön-
böznek. A fıkomponens-elemzés – abban a formában, ahogy mi meg-
ismerkedtünk vele – valójában egy indexkészítési eljárás. Elegánsabb és
könnyebben megalkotható, mint a „mezei” indexek, de mindössze arra
vállalkozik, hogy több összetartozó, egymással lineárisan korreláló,
mért itemet egyetlen mutatóval helyettesítsen.
A faktorelemzés nem-mérhetı, látens dimenziók megragadására
szolgál. Azt feltételezi, hogy a látens dimenziók operacionalizálásával
létrehozott itemek viselkedése mögött maguk a látens dimenziók mun-
kálnak. A faktorok megtalálása differenciáltabb kép megalkotásához se-
gít bennünket, gondoljunk a globális szabadságvágyat megragadó fı-
komponensünkre, illetve a magán- és a közszférában érvényesülı sza-
badságjogokkal szembeni elvárásokat leíró faktorokra. A faktorok
„megtalálása” gyakran igen nehéz, bizonyos kreativitást igénylı feladat.
Szép faktorstruktúrák létrejöttét nagyban elısegítheti, ha az operacio-
nalizálás folyamatában mindent megteszünk azért, hogy a kérdések ne
kíváncsiságunk kielégítésére, a világra való rácsodálkozásra szolgáljanak,
hanem dimenziók megragadását célozzák. A problémafeltáró kutatá-
sokban elengedhetetlen, hogy kérdéseink ne csak a „dolgok” megisme-
résére, hanem a „dolgok közötti összefüggések” feltárására irányulja-
nak. Ha mindehhez hozzávesszük, hogy a faktorok létrejöttéhez az is
szükséges, hogy a válaszadók is képesek legyenek a mi „megtalálni vá-
gyott” dimenzióinkban gondolkodni, beláthatjuk, hogy egy szép faktor-
struktúra megtalálása igazi örömünnep. A sikertelen kísérletek sem haszon
nélküliek, hiszen a faktorstruktúra keresése közben számos új ötlettel,
verifikálandó hipotézissel gazdagodhatunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

3. KLASZTERELEMZÉS

A klaszterelemzés tulajdonképpen egy dimenziócsökkentı eljárás. A meg-


figyelési egységekhez rendelt változók jelentik azokat az eredeti dimen-
ziókat, amelyek mentén a megfigyelteket csoportosítani kívánjuk oly mó-
don, hogy az egy csoportba tartozók minden változó mentén közel
legyenek egymáshoz, és mindegyik más csoporttól, klasztertıl távol
essenek. A definícióból következik, hogy a klaszterelemzés kulcsfogal-
ma a távolság. A távolságot definiálhatjuk euklideszi értelemben, de
a távolságot mérhetjük tetszıleges asszociációs mérıszámmal is, oly
módon, hogy az erıs asszociáció közelséget, a gyenge pedig nagy távol-
ságot jelent.

3.1. Tudás versus anyagi javak

Nézzük meg egy konkrét példán, mire és hogyan használható a klasz-


terelemzés. Alkossunk egy szerény társadalmi struktúra modellt, ahol
az embereket két tengely mentén kívánjuk elhelyezni. Az egyik tengely
az iskolai végzettség, a másik pedig a jövedelem. Azt feltételezzük, hogy
ebben a kétdimenziós térben négy markáns csoport különíthetı el.
Az elsı az iskolázatlan szegényeké, a második azoké a szerencséseké,
akik alacsony iskolai végzettségük ellenére magas jövedelemre tesznek
szert, a harmadik csoportba azok a magas iskolázottságúak tartoznak,
akik rosszul értékesítik munkaerejüket a munkaerıpiacon, és ezért ke-
veset keresnek, a negyedik csoport pedig a boldog privilegizáltaké, ık
azok, akik magasan iskolázottak és sokat is keresnek. Rajzoljuk le eb-
ben a kétdimenziós térben a fiktív mintánk adatait.1 A rajz elkészítésé-
hez a 3.1. táblázatból dolgozunk.

1 A TBD.KÖNYV_KLASZTER-TANULÓ.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

110 Túlélıkészlet az SPSS-hez

3.1. táblázat: Iskolai végzettség és jövedelemadatok

iskolai osztályok száma kereset (ezer Ft)


1 10
2 20
1 160
4 50
4 170
8 80
8 180
11 50
11 170
12 40
14 190
15 80
15 200
17 80
17 250

Ebben az egyszerő esetben, amikor összesen két dimenziónk és tizenöt


esetünk van, szabad szemmel is felfedezhetjük az összetartozó csopor-
tokat. Ennek a szemrevételezésnek az eredményét rajzoltuk be a 3.1.
ábrán.
Nézzük meg, hogy mit tud kezdeni az SPSS klaszterelemzés parancsa
ezzel a problémával. A parancssor a következı:
CLUSTER iskoszt joved
/METHOD CENTROID
/MEASURE= SEUCLID
/PRINT CLUSTER(4)
/PLOT VICICLE
/SAVE CLUSTER(4) .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 111

3.1. ábra: Az iskolai végzettség és jövedelem szerint összetartozó


csoportok
275

250

225

200

175
4
2
150

125

100

75

50 3
25
1
0
0 2 4 6 8 10 12 14 16 18

A CLUSTER utasítás után soroljuk fel a klaszterképzı változókat. A kö-


vetkezı sorban azt a módszert választhatjuk meg, amellyel a klasztere-
zést végre kívánjuk hajtani. E módszerekrıl késıbb részletesen szó esik
majd. A parancs MEASURE sorában adjuk meg azt a módot, ahogy két
kérdezett között a távolságot definiálni kívánjuk, példánkban az eukli-
deszi távolság négyzetét (SEUCLID) használjuk. A PRINT sorban rendel-
kezünk arról, hogy hány klaszteres megoldásra vágyunk, és azt is itt
kérjük, hogy a program minden egyes megfigyeléshez rendeljen hozzá
egy klaszterazonosítót, azaz mondja meg, hogy ki, melyik klaszterbe
tartozik. A PLOT sornak köszönhetıen egy – momentán számunkra ér-
telmezhetetlen – ábrához jutunk. Végül a SAVE parancs segítségével
rendeljük hozzá minden egyes esethez új változóként a klaszterazono-
sítót.
Az output elsı érdemleges darabja a CLUSTER MEMBERSHIP táblá-
zat. (3.2. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

112 Túlélıkészlet az SPSS-hez

3.2. táblázat
Cluster Membership

Case 4 Clusters
1 1
2 1
3 2
4 1
5 2
6 3
7 2
8 1
9 2
10 1
11 2
12 3
13 2
14 3
15 4

Ábrázoljuk a klaszteranalízis végeredményét, azaz nézzük meg, hogyan


csoportosította a megkérdezetteket az SPSS. (3.2. ábra)
Úgy tőnik, a program képtelen volt megérteni a feladatot. Az általa
létrehozott klaszterek az alacsony–magas jövedelemtengelyen helyezték
el a megkérdezetteket. Mielıtt undorral elfordulnánk a – használhatat-
lannak tőnı – klaszterelemzéstıl, emlékezzünk vissza arra, hogy a klasz-
terelemzés kulcsfogalma a távolság. Mikor kézzel rajzoltuk be a klaszte-
reket, túltettük magunkat azon, hogy az iskolai végzettség és a jövedelem
nem azonos léptékő változók, és képesek voltunk a négy értelmes klasz-
ter kijelölésére. Az SPSS klaszteranalízis parancsa azonban mechani-
kusan mőködik. Számára úgy definiálódik a feladat, hogy az egymáshoz
közel esı embereket pakolja be egy klaszterbe. Amíg az iskolai végzett-
ség mentén az egymástól legtávolabb esı két ember között is csak 16
egységnyi a távolság, addig a jövedelem-tengely mentén a legkisebb

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 113

távolság is 10, a legnagyobb pedig 240 egységnyi.2 A program a közel-


séget a két dimenzióban együtt definiálta. Szükségképpen nagyobb
súlyt helyezett a jövedelmi tengely mentén, mint – a jövedelmi range-
hez képest majdnem homogénnek tetszı – iskolai végzettség mentén
való csoportosításra. Sıt, ha nem akarjuk szépíteni a dolgot, az SPSS
az iskolai végzettség mentén való különbségekre ügyet sem vetett.

3.2. ábra: Az iskolai végzettség és jövedelem szerinti klaszterek


az 1. SPSS futtatás után
275

250

225 4
200

175

150 3
125

100

75 2
50

25 1
0
0 2 4 6 8 10 12 14 16 18

A baj azonban orvosolható. Ha úgy gondoljuk, hogy a társadalmi stá-


tusnak egyformán fontos alkotóeleme az iskolázottság és a kereset, ak-
kor biztosítanunk kell, hogy az SPSS is egyforma fontosságúnak lássa

2 Késıbb válik világossá, hogy a CENTROID módszerhez miért kell az euklideszi


távolság négyzetét használnunk. Az azonban mindannyiunk számára világos, hogy
ha pontok vagy klaszterek távolságát az euklideszi távolságok szerint rendezzük
sorba, ugyanolyan sorrendhez jutunk, mintha ezt a rendezést az euklideszi
távolságok négyzete szerint hajtanánk végre.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

114 Túlélıkészlet az SPSS-hez

a két változót. Ennek a megvalósítására pedig a már jól bevált módszer,


a standardizálás szolgál.3 Ha mind az iskolázottságot, mind a keresetet
standardizált formában visszük be a modellbe, a program mindkét di-
menzió mentén egyformán fontosnak tartja majd a homogenizálást.
A standardizált változókra futtatott parancs tehát a következı:
CLUSTER ziskoszt zjoved
/METHOD CENTROID
/MEASURE= SEUCLID
/PRINT CLUSTER(4)
/PLOT VICICLE
/SAVE CLUSTER(4) .

3.3. ábra: A standardizált iskolai végzettség és jövedelem szerinti


klaszterek a 2. SPSS futtatás után
275

250

225

200 4
175
2
150

125

100

75
3
50

25 1
0
0 2 4 6 8 10 12 14 16 18

xi − x
3 A ti = transzformációra gondolunk, amelyet a DESCRIPTIVES parancsablak-
sx

ból érhetünk el.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 115

A 3.3. ábra4 azt mutatja, hogy a klaszterelemzés mind a jövedelem,


mind az iskolázottság mentén egyértelmő vágást hajtott végre. A hat
vagy kevesebb osztályt végzetteket tekinti alacsony végzettségőeknek,
illetve 120(ezer) forint körül húzza meg az alacsony és magasabb jöve-
delmőek közötti választóvonalat. Jóllehet az SPSS klaszterbesorolása nem
identikus a mi kézi klaszterezésünk csoportosításával, az eltérések egy-
felıl nem jelentısek, másfelıl az SPSS adta klaszterek minden nehézség
nélkül értelmezhetık. A példából megérthettük a klaszterelemzés lénye-
gét, de számos fontos dolgot nem tisztáztunk még. Az elsı dolog, amit
tudnunk kell, hogy kétféle megközelítésben lehet klasztereket készíteni,
az egyik a hierarchikus klasztereljárás, a másik pedig a nem-hierarchikus
módszer.

3.2. Hierarchikus klaszterek

A hierarchikus klaszterelemzés azon az elgondoláson alapul, hogy elsı


lépésben valamennyi klaszterezésre váró egyedet külön-külön egysze-
mélyes klaszterekben képzelünk el. Elsı lépésben tehát annyi klaszte-
rünk van, ahány elemő a mintánk. A második lépésben abból a két
elembıl, amely a legközelebb van egymáshoz, a program közös klasz-
tert készít. A harmadik lépésben két dolog történhet. Elsı esetben talál
a program egy olyan elemet, amely közel van a kételemő klaszterhez, és
ekkor a kételemő klasztert háromelemővé bıvíti. A második esetben
talál két, egymáshoz közel esı elemet, és ebbıl egy új, kételemő klasz-
tert hoz létre. Az építgetés mindaddig folytatódik, míg valamennyi ele-
münk egyetlen klaszterben tömörül.
Nézzük meg az iskolázottság- és jövedelemadatokat tartalmazó
minifile-unk adatain, hogyan is megy végbe ez a klaszterépítgetés.5

4 A tengelyen az eredeti (nem pedig a standardizált) mértékegységeket tüntettük fel.


5 Ez a VERTICAL ICICLE tábla a standardizált iskolázottság- és jövedelemadatokra
korábban futtatott klaszterelemzés outputjának egy részlete.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

116 Túlélıkészlet az SPSS-hez

3.3. táblázat
Vertical Icicle

Number Case
of
15

13

11

14

12

10
9

1
clusters
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X

3 X X X X X X X X X X X X X X X X X X X X X X X X X X X

4 X X X X X X X X X X X X X X X X X X X X X X X X X X

5 X X X X X X X X X X X X X X X X X X X X X X X X X

6 X X X X X X X X X X X X X X X X X X X X X X X X

7 X X X X X X X X X X X X X X X X X X X X X X X

8 X X X X X X X X X X X X X X X X X X X X X X

9 X X X X X X X X X X X X X X X X X X X X X

10 X X X X X X X X X X X X X X X X X X X X

11 X X X X X X X X X X X X X X X X X X X

12 X X X X X X X X X X X X X X X X X X

13 X X X X X X X X X X X X X X X X X

14 X X X X X X X X X X X X X X X X

A 3.3. táblázatot rendhagyó módon alulról felfelé kell olvasni. Ráadásul


a beígért tizenöt klaszter helyett csak tizennégyet tüntet fel a tábla,
megspórolva az utolsó sort, amelyben minden elem külön-külön klasz-
terben található. Az utolsó sor azt mutatja, hogy a 13. és a 11. elem oly
közel van egymáshoz, hogy egy klaszterbe kerülhetnek. A tábla olvasá-
sa azért is nehéz, mert minden egyes elemhez (kivéve az utolsót) két
oszlop tartozik. A kétoszlopos megjelenítés azt a célt szolgálja, hogy
bármelyik sort is vesszük szemügyre, mindig meg tudjuk mondani,
hogy mely elemek tartoznak egy klaszterbe6, és melyek szeparálódnak.
Annak érdekében, hogy biztosak legyünk abban, hogy jól olvassuk
a táblát, nézzük meg, mit mutat például a kilencedik sor. Egyfelıl kilenc
klaszterünk van, hiszen az elsı oszlop éppen az aktuálisan létrehozott
klaszterek számát jelöli. Az elsı klaszter egyszemélyes: a 15. sorszámú
elembıl áll. A második klaszterben a 13. és a 11. elem található, a har-
madikban pedig a 9. és a 7. elem. A negyedik klasztert a 14. és a 12.
elem alkotja, az ötödikben a 10. és a 8. elem van. A hatodik klaszter is-
mét egyszemélyes, a 6. sorszámú elemmel. A hetedik klaszterben az 5.
és a 3. elem van. A nyolcadik klaszter egyetlen eleme a 4., s végül a ki-
lencedik klaszterben a 2. és 1. elem található.
A 3.3. ábra minden igényt kielégít, hiszen ha egyszer megtanultuk
értelmezni, könnyen hozhatunk döntést abban a kérdésben, hogy hány

6 Ezek azok az elemek, amelyek között az „elválasztó” oszlopban már „X” szerepel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 117

klaszteres megoldást tartunk a legmegfelelıbbnek. Ez a szempont kü-


lönösen akkor válik fontossá, ha kettınél több dimenziós térben akar-
juk elhelyezni a válaszadókat, és nincs biztos elképzelésünk arról, hogy
hány klaszteres megoldás lenne az optimális.
Az SPSS outputból más módon is nyomon követhetı, hogy hogyan
alakulnak ki a klaszterek: ehhez a PRINT sort a SCHEDULE utasítással
kell bıvítenünk.7
CLUSTER ziskoszt zjoved
/METHOD CENTROID
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT VICICLE.

Ennek hatására áll elı a 3.4. táblázat.

3.4. táblázat
Agglomeration Schedule

Stage Cluster First


Cluster Combined Coefficien Appears
Stage Cluster 1 Cluster 2 ts Cluster 1 Cluster 2 Next Stage
1 11 13 4,708E-02 0 0 9
2 8 10 4,708E-02 0 0 8
3 1 2 4,708E-02 0 0 7
4 12 14 ,119 0 0 10
5 7 9 ,286 0 0 11
6 3 5 ,286 0 0 13
7 1 4 ,398 3 0 13
8 6 8 ,577 0 2 10
9 11 15 ,708 1 0 11
10 6 12 1,052 8 4 12
11 7 11 1,268 5 9 12
12 6 7 3,010 10 11 14
13 1 3 3,301 7 6 14
14 1 6 3,658 13 12 0

7 A parancs végérıl ebben az esetben lehagytuk a SAVE alparancsot, mivel a négy-


klaszteres megoldást egyszer már elmentettük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

118 Túlélıkészlet az SPSS-hez

A STAGE oszlopban látjuk, hogy tizennégy lépésen keresztül folytatható


az elemek klaszterekbe tömörítése.8 (3.4. táblázat) Elsı lépésben a 11. és
a 13. elem kerül közös klaszterbe, és az összevonás okát a COEFFICIENTS
oszlopban látjuk. Ez az együttható nem más, mint a két megfigyelés
közötti euklideszi távolság négyzete. A 11. elem történetesen egy 14
osztályt végzett és 190(ezer) forintot keresı, a 13. elem pedig egy 15
osztályt végzett és 200(ezer) forintot keresı válaszadót takar.9 Az eukli-
deszi távolság négyzete ebben az esetben nem más, mint a két ember
jövedelemkülönbségének négyzete plusz az általuk elvégzett osztályok
különbségének négyzete. A két különbség négyzetének összege valóban
0,04708.10 Ezzel a számolgatással nem elsısorban az SPSS mőködésének
helyességét akartuk bizonyítani, hanem arra kívánjuk felhívni a figyel-
met, hogy a közös klaszterbe kerülés olyan kritériumokon alapszik,
amelyeknek csak akkor van értelme, ha a klaszterképzés dimenzióit
jelentı változók magas mérési szintőek. Ha alacsony mérési szintő vál-
tozók mentén óhajtunk klaszterezni, akkor a változók kifeszítette tér-
ben a távolságot-közelséget célszerőbb asszociáción alapuló mérıszám-
mal mérni. A távolság mérésére szolgáló módszereket a következı feje-
zetben tárgyaljuk.
Mostanra megértettük a hierarchikus klasztereljárás logikáját. Képe-
sek vagyunk a nekünk legjobban tetszı klaszterstruktúrát kiválasztani,
és az ennek megfelelı klaszterazonosítókat új változóként a kérdezet-
tekhez rendelni. Nem tudunk azonban semmit arról, hogy miféle mód-
szerek állnak rendelkezésre az SPSS-ben az elemek klaszterbe rendezésé-
re, és alig sejtünk valamit arról, hogy hogyan kezeljük az alacsony méré-
si szintő változókat.

8 Ezt a táblát már a szokásos módon felülrıl lefelé kell olvasni.


9 A standardizálás után a 11. elem iskolázottsága 0,81-gyel, jövedelme 0,98-cal, míg
a 13. elem iskolázottsága 0,98-cal, jövedelme pedig 1,11-gyel egyenlı.
10 Az SPSS-ben is használt 4,708E-02 formátum jelentése: 4,708⋅10-2.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 119

3.2.1. A hierarchikus klaszterezés módszerei

A módszerek lényegében abban különböznek egymástól, hogy hogyan


definiálják egy elem és egy klaszter, illetve két klaszter távolságát. Fon-
tos megjegyeznünk, hogy a távolság mértékegységétıl függetlenül kü-
lönböztethetjük meg ezeket a módszereket. Mindegyiküket használhat-
juk akkor, ha a távolságot euklideszi értelemben definiáljuk, és csak bi-
zonyos módszerek használhatók akkor, ha a távolság mérésének alapja
a változók közötti asszociáció.

3.2.1.1. A legközelebbi, illetve a legtávolabbi szomszéd

A két legegyszerőbb eljárás a legközelebbi és a legtávolabbi szomszéd meg-


keresésén alapuló módszer, a programban ezeket NEAREST NEIGHBOR és
FURTHEST NEIGHBOR néven találhatjuk meg.11 A módszerek lényegé-
nek megértéséhez ismerkedjünk össze az AGGLOMERATION SCHEDULE
tábla egy még nem tárgyalt darabjával.
CLUSTER ziskoszt zjoved
/METHOD SINGLE
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT VICICLE.

A 3.5. táblázat a NEAREST NEIGHBOR módszerrel létrehozott klaszter-


struktúra kialakulását mutatja.12 A 3.5. táblázat elsı sorából azt látjuk,
hogy a 11. és a 13. elem kapcsolódott össze egy klaszterbe, lévén
közöttük a legkisebb a távolság.13 A táblázat utolsó oszlopában a NEXT
STAGE rovatban azt üzeni nekünk a program, hogy ez a kételemő klasz-
ter a nyolcadik lépésben fog újabb elemmel bıvülni, s valóban: a nyol-

11 A legközelebbi szomszéd módszert szokták még egyszerő lánc módszernek is ne-


vezni, míg a legtávolabbi szomszéd módszer teljes lánc módszer néven is ismert.
12 Még mindig a TBD.KÖNYV_KLASZTER-TANULÓ.SAV file adataival dolgozunk.
13 A táblázatból jól látszik, hogy a 8. és a 10., illetve az 1. és a 2. elem is éppen ilyen
távol van egymástól. Az elsı három kételemő klaszter összekapcsolódásának sor-
rendje tehát önkényes, de ez a sorrend ugyanakkor érdektelen is.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

120 Túlélıkészlet az SPSS-hez

cadik sorban azt látjuk, hogy a 7. elem csatlakozott ehhez a klaszterhez.


Ráadásul a kételemő klaszterünkhöz nem egyszerően egy újabb elem
csatlakozik, hanem két klaszter egyesül. Ahhoz, hogy ezt átlássuk, azt
kell tudnunk, hogy a táblázat nem sorolja fel a klaszterek valamennyi al-
kotóelemét, hanem úgy utal egy-egy klaszterre, hogy annak legkisebb
sorszámú elemét használja a klaszter jelölésére. Ennek alapján a ha-
todik sorból látható, hogy a 7. elem már közös klaszterbe szervezıdött
a 9. elemmel. A nyolcadik sor tehát az elsı és a hatodik lépésben már
kialakult két kételemő klaszter egyesülésérıl tudósít.

3.5. táblázat
Agglomeration Schedule

Stage Cluster First


Cluster Combined Coefficien Appears
Stage Cluster 1 Cluster 2 ts Cluster 1 Cluster 2 Next Stage
1 11 13 4,708E-02 0 0 8
2 8 10 4,708E-02 0 0 9
3 1 2 4,708E-02 0 0 5
4 12 14 ,119 0 0 11
5 1 4 ,275 3 0 13
6 7 9 ,286 0 0 8
7 3 5 ,286 0 0 10
8 7 11 ,337 6 1 10
9 6 8 ,424 0 2 11
10 3 7 ,495 7 8 12
11 6 12 ,544 9 4 13
12 3 15 ,550 10 0 14
13 1 6 ,632 5 11 14
14 1 3 1,665 13 12 0

A NEAREST NEIGHBOR logikája a következı: kiszámolja valamennyi


megfigyelés távolságát, majd ezeket a távolságokat sorba rakja. A legki-
sebb távolság szerint szeretne összevonni, de figyelmen kívül hagyja
azokat a „legkisebb távolságokat”, amelyek mentén már képzett klasz-
tereket, például ügyet sem vet a 11. és 13. elem közötti távolságra, ho-
lott az az egyik legkisebb távolság. Egy elem és egy klaszter távolságán

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 121

az adott elem és a hozzá legközelebb esı klaszterelem távolságát érti.


Két klaszter távolsága pedig számára nem más, mint az egymáshoz leg-
közelebb esı két, külön klaszterbe tartozó elem távolsága. Ezek közül
a „legkisebb távolságok” közül választja ki a minimálisat, és ennek meg-
felelıen történik a soron következı besorolás. Így a nyolcadik lépésben
történı összevonás annak köszönhetı, hogy a 9. és a 11. elem közötti
távolság a legkisebb.
A FURTHEST NEIGHBOR módszer abban különbözik a NEAREST
NEIGHBOR módszertıl, hogy egy elem és egy klaszter távolságán az adott
elem és a tıle legtávolabb lévı klaszterelem távolságát érti. Két klaszter
távolsága pedig az egymástól legtávolabb esı két, külön klaszterbe
tartozó elem távolsága. Az összevonás ennél a módszernél úgy törté-
nik, hogy ezen „legnagyobb távolságok” közül választja ki a minimáli-
sat. Nézzünk a FURTHEST NEIGHBOR módszer mőködésére egy példát.
A parancssor a következı:
CLUSTER ziskoszt zjoved
/METHOD COMPLETE
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT VICICLE.

Az output számunkra érdekes része továbbra is az AGGLOMERATION


SCHEDULE tábla. (3.6. táblázat)
A 3.6. táblázatból jól látszik, hogy az elsı négy lépés éppen úgy tör-
ténik, mint a NEAREST NEIGHBOR esetében, hiszen két-két elem távol-
ságát csak egyféleképpen lehet definiálni. Az elsı eltérés az ötödik lé-
pésben következik be, mert ez a módszer a 7. és a 9. elem távolságát
kisebbnek találta, mint a harmadik lépésben keletkezı klaszter és a 4.
elem távolságát.14 Ezen klaszter és a 4. elem közötti távolságot az 1. és
a 4. elem közötti távolságként definiálta, amelynek értéke 0,544, a 2. és
a 4. elem távolsága viszont csak 0,275.

14 A NEAREST NEIGHBOR módszer az ötödik lépésben a 4. elemet főzte hozzá az 1.


és a 2. elemet tartalmazó klaszterhez.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

122 Túlélıkészlet az SPSS-hez

3.6. táblázat
Agglomeration Schedule

Stage Cluster First


Cluster Combined Coefficien Appears
Stage Cluster 1 Cluster 2 ts Cluster 1 Cluster 2 Next Stage
1 11 13 4,708E-02 0 0 9
2 8 10 4,708E-02 0 0 8
3 1 2 4,708E-02 0 0 7
4 12 14 ,119 0 0 10
5 7 9 ,286 0 0 11
6 3 5 ,286 0 0 11
7 1 4 ,544 3 0 12
8 6 8 ,753 0 2 10
9 11 15 ,889 1 0 13
10 6 12 2,416 8 4 13
11 3 7 3,000 6 5 12
12 1 3 7,398 7 11 14
13 6 11 8,352 10 9 14
14 1 6 17,571 12 13 0

A két módszer bemutatásából jól látszik, hogy a szélsıségek erısen be-


folyásolják a klaszterstruktúrát. Valószínőleg szerencsésebb olyan mód-
szereket választani, ahol a klaszterstruktúrát nem a véletlentıl erısen
befolyásolt két szélsı elem távolságával, hanem a klaszter egészét meg-
ragadó mutató segítségével próbáljuk kialakítani.

3.2.1.2. Klaszterek távolsága


mint a klaszterelemek távolságainak átlaga

A BETWEEN-GROUPS LINKAGE és a WITHIN-GROUPS LINKAGE mód-


szer két klaszter távolságát úgy definiálja, hogy a klaszterek valamennyi
elemét figyelembe veszi.
A BETWEEN-GROUPS LINKAGE módszer egy elem és egy klaszter tá-
volságát az adott elem és az összes klaszterelem közötti átlagos távol-
ságként definiálja. Futtassuk le modellünket ezzel a módszerrel:

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 123

CLUSTER ziskoszt zjoved


/METHOD BAVARAGE
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT VICICLE.

Nézzük a már jól ismert klaszterstruktúra-szervezıdést mutató táblán-


kat a BETWEEN-GROUPS LINKAGE módszer esetében. (3.7. táblázat)

3.7. táblázat
Agglomeration Schedule

Stage Cluster First


Cluster Combined Coefficien Appears
Stage Cluster 1 Cluster 2 ts Cluster 1 Cluster 2 Next Stage
1 11 13 4,708E-02 0 0 9
2 8 10 4,708E-02 0 0 8
3 1 2 4,708E-02 0 0 7
4 12 14 ,119 0 0 10
5 7 9 ,286 0 0 11
6 3 5 ,286 0 0 12
7 1 4 ,409 3 0 12
8 6 8 ,588 0 2 10
9 11 15 ,720 1 0 11
10 6 12 1,218 8 4 13
11 7 11 1,505 5 9 13
12 1 3 3,469 7 6 14
13 6 7 3,788 10 11 14
14 1 6 5,678 12 13 0

A hatodik lépésig páronkénti összekapcsolódások történnek, a hetedik


lépésben az 1. és 2. elemhez hozzákapcsolódik a 4. elem. Ennek az az
oka, hogy a 4. elem és a harmadik lépésben létrejött klaszter közötti tá-
volság bizonyult minimálisnak. Ezt a távolságot mint a 4. és az 1., vala-
mint a 4. és a 2. elem távolságának átlagát határozza meg a program.
A tizedik lépésben láthatjuk elıször két klaszter összekapcsolódását.
Itt, a negyedik lépésben létrejött kételemő, valamint a második és nyol-
cadik lépésekben létrejött háromelemő klaszterek egyesültek. A két

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

124 Túlélıkészlet az SPSS-hez

klaszter távolsága nem más, mint a két klaszterbıl minden lehetséges


módon kiválasztott elempárok közötti távolságok átlaga, azaz a követ-
kezı párok közötti távolságokat átlagolja a program: (12;6), (12;8), (12;10),
(14;6), (14;8), (14;10).
A WITHIN-GROUPS LINKAGE módszer még a BETWEEN-GROUPS
LINKAGE módszernél is körültekintıbb. Akkor fogad el egy klaszterbı-
vülést, hogyha a bıvülés hatására a klaszteren belüli elemek távolsága
a lehetı legkisebb mértékben növekszik. Lássuk a parancssort:
CLUSTER ziskoszt zjoved
/METHOD WAVARAGE
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT VICICLE.

Nézzük a WITHIN-GROUPS LINKAGE módszer AGGLOMERATION


SCHEDULE tábláját. (3.8. táblázat)

3.8. táblázat
Agglomeration Schedule

Stage Cluster First


Cluster Combined Coefficien Appears
Stage Cluster 1 Cluster 2 ts Cluster 1 Cluster 2 Next Stage
1 11 13 4,708E-02 0 0 9
2 8 10 4,708E-02 0 0 8
3 1 2 4,708E-02 0 0 7
4 12 14 ,119 0 0 10
5 7 9 ,286 0 0 11
6 3 5 ,286 0 0 12
7 1 4 ,289 3 0 12
8 6 8 ,408 0 2 10
9 11 15 ,496 1 0 11
10 6 12 ,865 8 4 13
11 7 11 1,080 5 9 13
12 1 3 2,197 7 6 14
13 6 7 2,537 10 11 14
14 1 6 4,000 12 13 0

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 125

Itt is a tizedik lépésben történik elıször klaszterek összekapcsolódása.


Ahhoz, hogy ez az összekapcsolódás létrejöjjön, az kell, hogy az új
klaszteren belül az elemek átlagos távolsága kisebb legyen minden más
összevonás adta új klaszteren belüli átlagos távolságnál. A program ter-
mészetesen pillanatok alatt képes az összes lehetséges új klaszterstruk-
túrát jellemzı belsı heterogenitásokat15 kiszámítani, és ezek alapján azt
a klasztert létrehozni, amelyen belül ez a heterogenitás minimális. A ti-
zedik lépéshez tartozó koefficiens egy ötelemő klaszter elemeinek átla-
gos távolságát jelöli, ahol az átlagos távolságot úgy számítja ki a prog-
ram, hogy a (12;6), (12;8), (12;10), (14;6), (14;8), (14;10); (12;14), (6;8),
(6;10) és (8;10) párok közötti távolságokat átlagolja.

3.2.1.3. Klaszterek távolságának meghatározása


a klaszterközéppontok segítségével

A BETWEEN-GROUPS LINKAGE és a WITHIN-GROUPS LINKAGE mód-


szer minden besorolt és besorolásra váró elemet figyelembe vesz, ami-
kor a klaszterek távolságát meghatározza. A minden elem figyelembe-
vétele szó szerint értendı, hiszen a távolságok kiszámítása meglehetı-
sen hosszadalmas procedúra.
Viszonylag egyszerő módon kezeli a klaszterek távolságát a CENTROID
CLUSTERING módszer azzal, hogy két klaszter távolságát a klaszterbe
tartozó elemek átlagai közötti távolságként definiálja. Futtassuk le a kö-
vetkezı parancssort:
CLUSTER ziskoszt zjoved
/METHOD CENTROID
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT VICICLE.

A CENTROID CLUSTERING módszerrel készült AGGLOMERATION


SCHEDULE tábla a 3.9. táblázatban látható.

15 A klasztereken belüli heterogenitáson itt és most a klaszterelemek közötti összes


lehetséges elempáronkénti távolság átlagát értjük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

126 Túlélıkészlet az SPSS-hez

3.9. táblázat
Agglomeration Schedule

Stage Cluster First


Cluster Combined Coefficien Appears
Stage Cluster 1 Cluster 2 ts Cluster 1 Cluster 2 Next Stage
1 11 13 4,708E-02 0 0 9
2 8 10 4,708E-02 0 0 8
3 1 2 4,708E-02 0 0 7
4 12 14 ,119 0 0 10
5 7 9 ,286 0 0 11
6 3 5 ,286 0 0 13
7 1 4 ,398 3 0 13
8 6 8 ,577 0 2 10
9 11 15 ,708 1 0 11
10 6 12 1,052 8 4 12
11 7 11 1,268 5 9 12
12 6 7 3,010 10 11 14
13 1 3 3,301 7 6 14
14 1 6 3,658 13 12 0

Itt a tizedik lépésben történik meg elıször két klaszter összekapcsolódá-


sa, az egyikben a 6., 8. és 10., a másikban a 12. és a 14. elem található.
A CENTROID CLUSTERING módszernél az összekapcsolódás kritériuma,
hogy a két klaszter középpontja közötti távolság minimális legyen az
összes többi lehetséges klaszter összekapcsolódásához képest. A klasz-
terközéppontok koordinátái a klaszterbe tartozók elvégzett iskolai osz-
tályainak, illetve kereseteinek átlagával egyenlık. Az elsı, háromelemő
klaszter középpontjának koordinátái: (0,173;–0,771)16, míg a második,
kételemő klaszter középpontjának koordinátái (1,151;–0,464). Emlé-
kezzünk vissza, hogy ezek a „furcsa” számok a standardizált iskolai vég-
zettség és kereset mutatószámai, és azt jelzik, hogy az elsı klaszterbe
az átlagosnál valamivel iskolázottabb, nagyon kevés keresettel rendel-
kezık tartoznak, míg a másodikban az átlagosnál sokkal iskolázottabb,

16 A három elem standardizált iskolai osztály adatai az adatfile-ból: –0,230; 0,288;


0,461. Így a középpont iskolai osztály szerinti koordinátája e három érték átlaga,
azaz 0,173. A standard jövedelem adatok a három elemre: –0,464; –0,858; –0,989.
A klaszterközéppont jövedelem koordinátája –0,771.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 127

de jövedelem szempontjából hátrányos helyzetben lévık találhatók.17


A CENTROID módszer e két klaszter közötti távolságot találta a legki-
sebbnek, és ezért egyetlen klaszterben egyesítette ıket, körvonalazva az
iskolázott, ám rosszul keresık végsı típusát.
Ugyancsak a klaszterközéppontok felhasználásával definiálja a klasz-
terek távolságát a WARD’S módszer. Ez a módszer logikájában hasonlít
a WITHIN-GROUPS LINKAGE módszerhez, amennyiben ez is a létreho-
zandó klaszterek belsı heterogenitásának minimalizálására törekszik.
Egy klaszter egy elemmel való bıvítését, illetve két klaszter összevoná-
sát akkor hajtja végre a program, ha ettıl az új klaszter belsı heteroge-
nitásának növekedése kisebb, mint minden más lehetséges klaszter-
struktúra változás esetében. A belsı heterogenitást ez a módszer a klasz-
terelemeknek a klaszter átlagától való négyzetes eltéséseként18 definiálja.
Két klaszter összevonása akkor történhet meg, ha az új klaszterben a bel-
sı heterogenitás a lehetı legkisebb mértékben növekszik. A parancssor
ebben az esetben a következı:
CLUSTER ziskoszt zjoved
/METHOD WARD
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT VICICLE.

Lássuk, hogyan jön létre a klaszterstruktúra a WARD’S módszerrel.


(3.10. táblázat) A tizedik lépésig csak kételemő klaszterek jönnek létre,
illetve ezek bıvülnek egy-egy újabb elemmel, valódi klaszterösszevonás
csak a tizedik lépésben történik. Az összevonásnak – mint már tudjuk –
az a kritériuma, hogy ezzel az összes belsı heterogenitás a lehetı
legkisebb mértékben növekedjék. A kilencedik lépésben már létrejött
klaszterstruktúra a következı: (11;13;15), (6;8;10), (1;2;4), (12;14), (7;9)
és (3;5). Az így kialakult klaszterstruktúrát jellemzı belsı heterogenitást
17 Itt most az átlagosnál magasabb, illetve alacsonyabb iskolázottságon és kereseten
azt értjük – standardizált változókról lévén szó – hogy a kis pozitív értékek a min-
tára jellemzı átlagnál valamivel magasabbak, a nagy pozitív értékek pedig ezt a min-
taátlagot erıteljesen meghaladják. Értelemszerően hasonlóan fogalmazhatunk a ne-
gatív elıjelő klaszterközéppontok esetében is.
18 Ez az ANOVA fejezetben tárgyalandó SUM OF SQUARES.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

128 Túlélıkészlet az SPSS-hez

a következıképpen számítja ki a program: meghatározza az elsı klasz-


terben az elvégzett iskolai osztályok átlagát, illetve jövedelemátlagát. Ez-
után kiszámítja az ebben a klaszterben található három elem euklideszi
távolságát a klaszterátlagtól, majd sorra veszi a következı klasztereket,
és mindegyiknél ugyanígy jár el. Végezetül eljut tizenöt darab euklideszi
távolsághoz, amelynek összegével jellemzi a hat darab klaszterbıl álló
struktúra belsı heterogenitását.

3.10. táblázat
Agglomeration Schedule

Stage Cluster First


Cluster Combined Coefficien Appears
Stage Cluster 1 Cluster 2 ts Cluster 1 Cluster 2 Next Stage
1 11 13 2,354E-02 0 0 9
2 8 10 4,708E-02 0 0 8
3 1 2 7,061E-02 0 0 7
4 12 14 ,130 0 0 10
5 7 9 ,273 0 0 11
6 3 5 ,416 0 0 11
7 1 4 ,681 3 0 13
8 6 8 1,066 0 2 10
9 11 15 1,538 1 0 12
10 6 12 2,800 8 4 13
11 3 7 4,279 6 5 12
12 3 11 9,288 11 9 14
13 1 6 15,684 7 10 14
14 1 3 28,000 13 12 0

Ezután már csak két „valódi” klaszter összevonásával próbálkozhat


a program, hiszen nincsen egy elembıl álló klaszterünk. Mivel hat darab
összevonásra esélyes klaszterünk van, a lehetséges összevonás-kombi-
6
nációk száma   = 15 . Ebbıl a tizenöt lehetséges kombinációból
2
a program azért választotta a 6., 8., 10. elemet tartalmazó klaszter
összevonását a 12. és 14. elemet tartalmazóval, mert az így létrejött öt-
elemő klaszter teljes belsı heterogenitása adta a legkisebb növekményt.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 129

Az AGGLOMERATION SCHEDULE táblázat COEFFICIENTS oszlopában


(3.10. táblázat) azonban nem a belsı heterogenitás növekmény, hanem az új
klaszterstruktúra egészét jellemzı belsı heterogenitás-érték áll.

3.2.2. Miben mérjük a távolságot?

A hierarchikus klaszterezés módszerei különféle lehetıségeket adnak


a klaszterek közötti távolság definiálására. Nem beszéltünk azonban még
arról, hogy a változótérben két elem távolságát – a köznapi gondolkodás-
hoz közel álló – euklideszi távolságon kívül más módon is mérhetjük.

3.2.2.1. Euklideszi távolság

Egy kétváltozós térben (gondoljunk az iskolázottság és a jövedelem ál-


tal kifeszített térre) két megkérdezett közötti távolságot – koordináta-
geometriai alapismereteinket felidézve – könnyen meghatározhatjuk.

3.4. ábra: Az euklideszi távolság jelentése


120

100

80
(100 – 10) = 90

60
d

40

20
(12 – 2) = 10
0
0 2 4 6 8 10 12 14

Az ábrán d-vel jelöltük az euklideszi távolságot. Ebben a példában a d


értéke:
d = 10 2 + 90 2 = 30,17

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

130 Túlélıkészlet az SPSS-hez

3.2.2.2. Az euklideszi távolság négyzete

A klaszterek középpontja közötti távolsággal dolgozó módszerek eseté-


ben az SPSS program – ha más távolságmérési módszert választottunk –
arra figyelmeztet bennünket, hogy az euklideszi távolság négyzetével
dolgozzunk. A figyelmeztetés puszta jóindulatból történik, hiszen ha
a klaszterek belsı heterogenitását a belsı négyzetösszeggel jellemezzük
(WARD’S módszer), célszerő a klaszterközéppontok közötti távolságot
is négyzetes formában definiálni.19
Nincs semmi probléma a távolság definíciójával mindaddig, amíg
magas mérési szintő változóink vannak. Mit kezdjünk azonban az ala-
csony mérési szintő változókkal? Az eddigi fejezetek során már némi
edzettségre tettünk szert az ilyen típusú problémák kezelésében. Való-
ban hasonló kezelési módokat találunk a hierarchikus klaszterelemzés
esetében is. Az ordinális változók intervallum szintővé transzformálása
(iskolai végzettségi fokozatok helyett az elvégzett iskolai osztályok szá-
ma) éppúgy szóba jöhet, mint a változók aggregálása. Van azonban a vál-
tozóknak egy speciális típusa, amelyek esetében a távolságot az asszo-
ciációval jelzett közelség ellentettjeként kezelhetjük.

3.2.2.3. Asszociáción alapuló közelség-távolság

Nyilván mindenki hallott a zámolyi romák esetérıl. A szerteágazó


történet nagyon leegyszerősítve a következı: a zámolyi romák házait
a helyi önkormányzat életveszélyesnek nyilvánította, és leromboltatta. Az
otthontalanná lett roma családok hosszú kálváriája franciaországi kiván-
dorlással végzıdött. Az ügyet a magyar sajtó hosszú idın keresztül tár-
gyalta. Tételezzük fel, hogy az a feladatunk, hogy a különbözı újságo-
kat a zámolyi roma ügy kapcsán megfogalmazott állásfoglalások segít-
ségével tipizáljuk. A feladat végrehajtására mennyiségi tartalomelemzést
végzünk, azaz megszámláljuk, hogy egy fél év alatt az A, B, C újságban

19 A nagy file-ok klaszterezésére alkalmas eljárásnál látni fogjuk, hogy a CENTROID


módszer esetében a figyelmeztetés ellenére is euklideszi távolsággal fogunk dolgoz-
ni, és nem ennek négyzetével.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 131

hány olyan cikk jelent meg, amely a romákat okolja a történtekért, hány
olyan, amely az önkormányzatot teszi felelıssé, és hány újságcikkben
esett szó az események romapárti nemzetközi visszhangjáról. A tarta-
lomelemzés „végeredménye” a 3.11. táblázatban olvasható.

3.11. táblázat: A mennyiségi tartalomelemzés eredménye


nemzetközi önkormányzati
cigányellenes összesen
visszhang felelısség
A újság 23 17 34 74
B újság 77 2 29 108
C újság 45 11 33 89
összesen 145 30 96 271

Ha most a három újság közötti távolságot a különbözı értékítéleteket


tartalmazó cikkek eloszlásával és a szokásos nullhipotézisbıl származ-
tatott elméleti gyakoriságokra alapozott khí-négyzet segítségével defi-
niáljuk, a khí-négyzet hagyományos számítási módját kell alkalmaz-
nunk. Két elem – a mi esetünkben két újság – távolságát a következı
képlettel határozhatjuk meg:
(f m (A) − f e (A))2 (f m (B) − f e (B))2
távolság (A,B) = ∑ i i
+∑ i i
,
i f e (A)
i
i f e (B)
i

ahol az f mi -k az A, illetve a B újsághoz tartozó megfigyelt gyakorisá-


gok (i = 1, 2, 3) és az f ei -k pedig az elméleti, a függetlenség esetén várt
gyakoriságok. A khí-négyzet kiszámításához szükséges elméleti gyakori-
ságokat tartalmazza a 3.12. táblázat.

3.12. táblázat: Elméleti gyakoriságok


nemzetközi Kormány-
cigányellenes összesen
visszhang felelısség
A újság 39,59 8,19 26,21 77,00
B újság 57,79 11,96 38,26 108,00
C újság 47,62 9,85 31,53 89,00
összesen 145,00 30,00 96,00 271,00

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

132 Túlélıkészlet az SPSS-hez

A mi példánkban az A és B újság közötti távolság tehát:


távolság (A,B) = 13,49 + 17,89 = 5,60
Adatainkból ránézésre is látszik, hogy az A és a C újság valamelyest ha-
sonlítanak egymásra, a B újság pedig az A újságtól erısebben, míg a C-
tıl mérsékeltebben különbözik. Az A és C újság közötti távolság való-
ban csak 4,26, míg a C és a B újság távolsága 4,75.
A khí-négyzeten alapuló távolságokat – lévén a khí-négyzet elem-
számérzékeny – lehet tovább finomítani, ha a távolság mérıszámaként
khí-négyzeten alapuló asszociációs mérıszámot használunk, amely a jól
ismert phí20.
Minden olyan esetben, amikor az adataink khí-négyzeten vagy
asszociációs mérıszámon alapuló távolságdefiníciót kívánnak, a klasz-
terek kialakításának módszerei közül csak azokat alkalmazhatjuk, ame-
lyek két elem távolságán alapulnak. Tehát, ha a távolságot így definiál-
juk, a CENTROID és a WARD’S módszer nem alkalmazható.

3.2.3. Sok hőhó majdnem semmiért

Fájdalom, hiába kerültünk közeli barátságba a hierarchikus klaszterezés


módszereivel, az SPSS programcsomag csak igen kismérető file-ok ese-
tében alkalmas a hierarchikus klaszterelemzésre. Elegendıen nagy ka-
pacitású számítógépen lefut ugyan a hierarchikus klaszterelemzés, de
a nagy elemszám miatt mind az AGGLOMERATION SCHEDULE, mind
VERTICAL ICICLE táblázat olyan nagymérető, hogy áttekinthetetlenné
válik. Nagy file-ok esetében eltőnik a hierarchikus klaszterezésnek az a va-
rázsa, amely minden elemet személyes ismerısünkké tett, amelynek se-
gítségével minden klaszterezésre váró egyed bolyongását figyelemmel
kísérhettük, míg egy elfogadhatóan koherens klaszter-struktúrához nem
érkeztünk.
A hierarchikus klaszterelemzés lehetıségeinek áttanulmányozása
mégsem volt haszontalan, hiszen túl azon, hogy kis elemszámú file-ok
20 A phí egyszerően a khí-négyzet elemszámra vetített része. Mindig nyugodtan hasz-
nálhatjuk a phí asszociációs mérıszámot, hiszen mindig (2×k)-s mátrixokkal dol-
gozunk, mivel két elem távolságát akarjuk meghatározni.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 133

esetében avatott szakértıi lehetünk az ilyen típusú klaszterezéseknek,


sokkal könnyebben meg fogjuk érteni a nagymérető file-ok esetében al-
kalmazható klasztereljárás logikáját, mőködési elvét, valamint outputját.

3.3. Klaszterezés nagy file-okon

A nagy file-okon alkalmazható K-MEANS CLUSTER21 eljárás egy nem-


hierarchikus módszer. Ez azt jelenti, hogy ahelyett, hogy a file elemszá-
mával megegyezı számú egyelemő klaszterek összeépítésével jutnánk el
az általunk optimálisnak vélt klaszter-struktúrához, elızetes elvárásokra
támaszkodva, vagy szerencsétlen esetben „vakon” kell eldöntenünk,
hogy hány klaszterbe kívánjuk tömöríteni az elemeket. Ha sikerült dő-
lıre jutnunk, és eldöntöttük, hogy hány klasztert kívánunk létrehozni,
a program minden klaszterhez egy-egy középpontot rendel. Ezek a kö-
zéppontok nem mások, mint az adatfile-ból meghatározott módon ki-
választott elemek adatai.

3.3.1. Iniciális klaszterközéppontok

Az iniciális középpontok elsı lépésben az adatfile elsı k elemének ada-


tait jelentik, ahol k a kért klaszterek száma. Mi ezeket a kezdıpontokat
az esetek nagy részében soha nem láthatjuk, mert a „valódi” iniciális
középpontokat egy algoritmussal alakítja ki a program.22 Az algoritmus
lényege a következı: az elsı k elem kiválasztása után a program sorba
veszi az adatfile maradék elemeit. Akkor cserél ki egy másik esetre egy,
már kiválasztott klaszterközéppontot, ha ennek az „új” esetnek a távol-
sága a hozzá legközelebb esı klaszterközépponthoz képest nagyobb,
mint a két egymáshoz legközelebb esı, már kiválasztott klaszterközép-
pont távolsága. Azt a klaszterközéppontot helyettesíti ezzel az „új”

21 Amikor az SPSS gördülı menüjét használjuk, akkor a K-MEANS CLUSTER megje-


löléssel találkozunk, a parancssorban, valamint az output címsorában viszont
a QUICK CLUSTER elnevezés szerepel. A két kifejezést mi is szinonímaként hasz-
náljuk.
22 Csak ezek az iniciális középpontok jelennek meg az outputban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

134 Túlélıkészlet az SPSS-hez

elemmel, amely hozzá a legközelebb esik. Nézzünk erre egy grafikus


példát (3.5. ábra), ahol négy klasztert kértünk és ezért a program indu-
láskor az adatfile elsı négy elemét tekintette iniciális középpontnak.
Most az ötödik elemet vizsgálja.

3.5. ábra: Az iniciális középpontok megváltozása

C4 C3

C2

C1

E5

Jól láthatjuk, hogy az ötödik elem (E5) az elsı klaszterközépponthoz


(C1) van a legközelebb, tehát ıt helyettesítheti, ha megfelel a már ismert
kritériumnak. Mivel az (E5;C1) távolság nagyobb, mint a két egymáshoz
legközelebb esı két klaszterközéppont, esetünkben a C3 és a C4, távol-
sága, így az ötödik elem a már kiválasztott elsı iniciális klaszterközép-
pont „helyére lép”, ı lesz az egyik új iniciális középpont.
A következı lépésben a hatodik elemet (E6) vizsgálja a program, de
természetesen most már a módosított iniciálisokhoz képest.23 (3.6.
ábra)

23 Az E5 már C1-ként szerepel az új ábrán.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 135

3.6. ábra: Amikor az iniciális középpontok nem változnak

C4
E6 C3

C2

C1

Az E6 a C3-hoz esik a legközelebb, tehát ıt helyettesíthetné. Mivel


azonban az (E6;C3) távolság kisebb, mint az egymáshoz legközelebb esı
két klaszter – a C3 és a C4 – távolsága, az E6 nem módosít az iniciáliso-
kon. Mivel az iniciálisok módosítása mindig egyetlen, az éppen soron
következı elem figyelembevételével történik, a végleges, az output-ban
látható iniciális középpontok értéke attól is függ, hogy az adatfile ele-
mei milyen sorrendben követik egymást. Ennek a megállapításnak ké-
sıbb, amikor azt vizsgáljuk, hogy „valódi” klaszter-struktúrára bukkan-
tunk-e, még nagy hasznát vesszük.
Nézzünk egy példát! A példában felejtsük el, hogy nagy file-okat
ígértünk, nézzük meg, hogy hogyan fest a társadalmi struktúra model-
lünk, ha K-MEANS CLUSTER eljárással keresünk típusokat a jövedelem
és az iskolázottság által kifeszített térben.24 A parancssor a következı:

24 A TBD.KÖNYV_KLASZTER-TANULÓ.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

136 Túlélıkészlet az SPSS-hez

QUICK CLUSTER
iskoszt joved
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/PRINT INITIAL.

Az elsı sorban (QUICK CLUSTER) a parancs nevét láthatjuk. A követke-


zı sorban azokat a változókat adjuk meg, amelyek a klaszterezés di-
menzióit jelentik. A MISSING sor már jól ismert. Itt is LISTWISE vagy
PAIRWISE módszert alkalmazhatunk, attól függıen, hogy a válaszmegta-
gadásokat25 szigorúbban vagy enyhébben kívánjuk-e kezelni. A CRITERIA
sorban a CLUSTER mögötti zárójelben határozzuk meg, hogy hány
klaszterbe kívánjuk az adatokat tömöríteni. Az iterációra (MXITER), a kon-
vergenciára (CONVERGE), valamint a módszerre (METHOD) vonatkozó
utasításokat késıbb fogjuk megérteni. A PRINT sorban az INITIAL pa-
ranccsal kérjük, hogy az induló klaszterközéppontokat hozza tudomá-
sunkra a program. Ezek a kezdeti középpontok a 3.13. táblázatban lát-
hatók.

3.13. táblázat
Initial Cluster Centers

Cluster
1 2 3 4
ISKOSZT elvégzett
1,00 15,00 17,00 17,00
osztályok száma
JOVED jövedelem
10,00 200,00 80,00 250,00
(ezer Ft)

Ha jól átlátható, kismérető adatfile-unkat megvizsgáljuk, észrevehetjük,


hogy a négy kezdı klaszter középpontja nem más, mint az 1., a 13.,
a 14. és a 15. megkérdezett iskolai végzettsége, illetve jövedelme.

25 A hiányzó adatok kezelésérıl késıbb még szó lesz.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 137

3.3.2. Útban a tökéletesség felé: iterálás

Ha már megvannak az iniciális középpontjaink, a programnak vala-


mennyi esetet el kell rendeznie, az e középpontok által megjelenített
klaszterekbe. A klaszterbe sorolás kritériuma számunkra már könnyen
érthetı, hiszen egy elem abba a klaszterbe kerül, amelynek közép-
pontjához a legközelebb van. A távolságot euklideszi távolságként defi-
niálja a program. Most, hogy már a klasztereket nem egyetlen elem, az
iniciális középpont reprezentálja, hanem az összes elemet berakta a prog-
ram valamelyik klaszterbe, ki kell számítanunk a klaszterek új közép-
pontjait. Ezen új középpontoknak annyi koordinátája van, ahány változó
mentén klaszterezünk. Egy-egy koordináta pedig a klaszterbe tartozó
megfigyelések – adott változó szerinti – átlaga. Ezeket az új középpon-
tokat a program úgy kezeli, mint ahogy az elsı lépésben az iniciális kö-
zéppontokat kezelte: tehát újra megkeresi azokat az elemeket, amelyek
az adott középponthoz vannak a legközelebb, és – szükség esetén – át-
sorolja ıket a megfelelı klaszterekbe. Ezeket az új megfigyeléscsopor-
tokat tekinti egy-egy klaszternek, és újra kiszámolja a klaszterközép-
pontokat. Ezt a folyamatot iterálási folyamatnak nevezzük. Az iterálás
mindaddig folytatódik, míg a klaszterközéppontok már nem változnak,
azaz megtaláltuk az adott iniciálisokból következı stabil klaszterstruk-
túrát.
A programban mi magunk határozhatjuk meg, hogy maximum
hányszor szeretnénk iterálni; legfeljebb 999 iterálás lehetséges. Ezt a szá-
mot a parancssor CRITERIA sorában, a MXITER mögötti zárójelben talál-
juk. Ugyancsak ebben a sorban, a CONVERGE utáni zárójelben rendel-
kezhetünk arról, hogy mekkora különbség esetén mondjuk azt, hogy
a klaszterközéppontok nem változnak. Lehetünk nagyon rigidek, ilyen-
kor teljes egyezıséget kívánunk, és a CONVERGE utáni zárójelbe 0-t
írunk, de a program lehetıvé teszi azt is, hogy a dolgot nagyvonalúb-
ban kezeljük. Ha csak nincs alapos indokunk az ellenkezıjére, akkor
válasszuk a legszigorúbb kritériumot. Az alábbi output-részlet az iterá-
ciók „történetét” mutatja be. (3.14. táblázat)
Az output-részletbıl látszik, hogy a társadalmi struktúra-modell ké-
szítésére hivatott modellünk egyetlen iterálás után eljut a stabil szerke-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

138 Túlélıkészlet az SPSS-hez

zethez. Az elsı klaszter iniciális középpontjához (valójában az 1. elem


iskolai végzettség és jövedelem adataihoz) képest 13,920 egységnyi tá-
volsággal26 eltolódott az új klaszterközéppont. Ugyanígy láthatjuk a má-
sodik és a harmadik klaszter középpontjának megváltozását, és azt is,
hogy a negyedik klaszter középpontja nem változott az iterálás során.

3.14. táblázat
Iteration Historya

Change in Cluster Centers


Iteration 1 2 3 4
1 13,920 22,527 13,416 ,000
2 ,000 ,000 ,000 ,000
a. Convergence achieved due to no or small distance
change. The maximum distance by which any center
has changed is ,000. The current iteration is 2. The
minimum distance between initial centers is 50,040.

3.3.3. A klaszterek interpretálása

Az iterálási folyamat végén keletkezı stabil klaszterek középpontjainak


koordinátáit a FINAL CLUSTER CENTERS táblázat tartalmazza. (3.15.
táblázat)

3.15. táblázat
Final Cluster Centers

Cluster
1 2 3 4
ISKOSZT elvégzett
5,00 8,83 11,00 17,00
osztályok száma
JOVED jövedelem
23,33 178,33 68,00 250,00
(ezer Ft)

26 Itt – ahogy a K-MEANS klaszter eljárásban mindig – euklideszi távolsággal (d) dol-
gozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 139

A klasztereket a középpontok segítségével interpretálhatjuk. Ennek


megfelelıen az elsı klaszter az iskolázatlan alacsony jövedelmőeket tar-
talmazza, a másodikban az iskolázatlan „gazdagokat” találjuk. A harma-
dik klaszter az iskolázott „szegényeké”, és a negyedik klaszter az,
amelybe mindnyájan vágyunk, itt vannak az iskolázott magas jövedel-
mőek.
A NUMBER OF CASES IN EACH CLUSTER táblázat azt is elárulja, há-
nyan tartoznak az egyes klaszterekbe. (3.16. táblázat)

3.16. táblázat
Number of Cases in each Cluster
Cluster 1 3,000
2 6,000
3 5,000
4 1,000
Valid 15,000
Missing ,000

Emlékezzünk vissza, hogy amikor a hierarchikus klaszterekkel ismer-


kedtünk, milyen kudarc ért bennünket, mikor standardizálatlanul vittük
be az iskolázottság- és a jövedelemadatokat az elemzésbe. A K-MEANS
eljárás jobban vette az akadályt, hiszen a négy klaszter a „várt” jelentést
hordozza. Ettıl függetlenül el kell gondolkodnunk azon, nem téveszt-
jük-e meg a világ dolgaiban járatlan SPSS-t azzal, hogy érdemén felüli
jelentıséget tulajdonítunk a nagy heterogenitású jövedelemnek, és elha-
nyagoljuk a terjedelmébıl adódóan homogénebb iskolázottság fontos-
ságát. Az SPSS-t megtéveszteni annyit jelent, mint önmagunkat becsap-
ni. Lássunk tisztán, nézzük a modellt standardizált adatokkal:
QUICK CLUSTER
ziskoszt zjoved
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT INITIAL.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

140 Túlélıkészlet az SPSS-hez

Az iniciálisok – mint az adatfile-ból látszik – most az 1., 10., 3. és a 15.


elem koordinátáit jelentik. (3.17. táblázat)

3.17. táblázat
Initial Cluster Centers

Cluster
1 2 3 4
ZISKOSZT Zscore:
-1,43927 ,46057 -1,43927 1,32413
elvégzett osztályok száma
ZJOVED Zscore:
-1,38332 -,98934 ,58660 1,76855
jövedelem (ezer Ft)

Az iterálás most is csak egy lépésbıl áll. (3.18. táblázat)

3.18. táblázat
Iteration Historya

Change in Cluster Centers


Iteration 1 2 3 4
1 ,318 ,357 ,590 ,784
2 ,000 ,000 ,000 ,000
a. Convergence achieved due to no or small distance
change. The maximum distance by which any center
has changed is ,000. The current iteration is 2. The
minimum distance between initial centers is 1,940.

A végsı klaszterek értelmezése a FINAL CLUSTER CENTERS tábla (3.19.


táblázat) alapján nem okoz semmi nehézséget: a deprivált csoport, a két
státusz inkonzisztenciával jellemezhetı klaszter és a privilegizáltak cso-
portja rajzolódott ki. Egyetlen dologra érdemes felhívni a figyelmet,
hogy a standardizált modellben a második klaszterbe tartoznak a szegé-
nyek, és a harmadikba az iskolázatlan gazdagok, de mivel a klaszterbe
tartozás új változója nominális mérési szintő változó, az egyes klaszte-
rekhez rendelt számoknak csak megkülönböztetı funkciója van.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 141

3.19. táblázat
Final Cluster Centers

Cluster
1 2 3 4
ZISKOSZT Zscore:
-1,20899 ,56419 -,86356 ,84917
elvégzett osztályok száma
ZJOVED Zscore:
-1,16444 -,64788 ,71793 1,14474
jövedelem (ezer Ft)

3.3.3.1. Kendızetlen ıszinteség versus a standardizálás álcája


Ha arra is kíváncsiak vagyunk, hogy a standardizált változókra épített
modell középpontjai – és így a klaszterek jelentése – mennyire külön-
bözik a nem standardizált modell középpontjaitól, számítsuk „vissza”
a standardizált értékeket eredeti formájukra27, és hasonlítsuk össze
a középpontokat.

3.20. táblázat: A standardizált és a nem standardizált változókból létrejött


klaszterstruktúra klaszterközéppontjai eredeti mértékegységben28

változók 1. klaszter 2. klaszter 3. klaszter 4. klaszter


iskolai osztályokból 5,00 8,83 11,00 17,00
jövedelembıl 23,33 178,33 68,00 250,00
standardizált iskolai
2,33 4,33 12,60 14,25
osztályokból
standardizált
26,67 170,00 66,00 202,50
jövedelembıl

27 Az elsı klaszter esetében például a számítás a következıképpen történt:


–1,21*5,79+9,33, ahol –1,21 az elsı klaszter standardizált iskolai osztályok szerinti
középpontja, az 5,79 az eredeti ISKOSZT változó szórása, a 9,33 pedig ugyanezen
változó átlaga. A számításokat a többi középpont esetében is hasonlóan kell elvé-
gezni. Használhatjuk a TABLES parancsot is.
28 A standardizált modellben a második és a harmadik klasztert, az összevethetıség
kedvéért megcseréltük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

142 Túlélıkészlet az SPSS-hez

Láthatjuk, hogy a standardizálás hatására élesedtek az iskolai végzettség


mentén való vágások, a jövedelem mentén viszont valamelyest csök-
kentek a klaszterek közötti különbségek.29
Ha a QUICK CLUSTER parancssort a /SAVE CLUSTER sorral egészít-
jük ki, akkor adatfile-unk egy új változóval bıvül. Ezen változó minden
megkérdezetthez egy értéket rendel hozzá, amely azt mutatja, hogy az
illetı melyik klaszterbe tartozik a négy közül. Nézzük meg, hogyan mó-
dosul a klaszter-besorolás a nem standardizált és a standardizált válto-
zókra épült klaszterelemzés esetében.30

3.21. táblázat
NEMSTCL nem standardizált adatokból quick clusterek * STCL standardizált adatokból quick
clusterek Crosstabulation

Count

STCL standardizált adatokból quick clusterek


2 3
1 iskolázatlan- iskolázott- 4
depriváltak gazdag szegény privilegizált Total
NEMSTCL 1 depriváltak 2 1 3
nem 2 iskolázatlan-gazdag 3 3 6
standardizált
adatokból 3 iskolázott-szegény 1 4 5
quick clusterek 4 privilegizált 1 1
Total 3 3 5 4 15

Láthatjuk, hogy a standardizálás az iskolázottság mentén való csoporto-


sítást módosította, a jövedelem mentén minden változatlan maradt.
Ha az lenne a feladatunk, hogy egyszerő kis modellünket országok
közötti társadalmi tagozódás összehasonlítására használjuk, még gon-
dolkodnunk sem szabadna azon, hogy standardizált adatokat használ-
junk-e. Ugyanis attól függıen, hogy a két összehasonlítandó országban
mennyire eltérı vásárlóerejő pénznem van forgalomban, a jövedelmek-

29 A standardizálásnak nem csak az a funkciója, hogy az egyes változók mentén a tá-


volságokat egynemősítse. A standardizálás a megfigyelések relatív pozícióit fejezi
ki, tehát akkor is indokolt lehet az alkalmazása, ha azonos szórású, de eltérı
eloszlású változók mentén keresünk klasztereket.
30 Mind a nem standardizált, mind a standardizált változókkal végzett futások klasz-
ter-azonosítóit elmentettük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 143

nek – mint mindig, itt is egyszerő véletlen mintavételt feltételezve – or-


szágonként igen eltérı lenne a heterogenitása. Az olasz modellben az is-
kolázottsághoz képest nagyon nagy lenne a jövedelem klaszterképzı
ereje, Magyarországon kisebb, Nagy-Britanniában még kisebb. Ha mind-
három országban egyenlı esélyt akarunk biztosítani a jövedelmeknek
a klaszterek meghatározásában, mindenképpen standardizálnunk kell.
Ha úgy gondoljuk, hogy a mai elanyagiasodott világban a jövedelem
erısebben befolyásolja az emberek társadalmi pozícióját, mint az isko-
lai végzettség, és e feltételezésnek megfelelıen akarunk nemzetközi
összehasonlítást végezni, egyszerre kell biztosítanunk a különbözı
pénznemek összemérhetıségét31, és a jövedelmek nagyobb súlyát. Ha
mondjuk azt gondoljuk, hogy a jövedelemnek nagyobb súlya van a tár-
sadalmi pozíció meghatározásában, a jövedelmeket például 0 átlagú, 2
egységnyi szórású változókká transzformálhatjuk32. Kell azonban ahhoz
némi bátorság, hogy az ember a különbözı klaszterképzı változókhoz
önkényesen rendeljen súlyokat.

3.4. Kilépés az életbe: típuskeresés klaszterekkel

1991-ben egy nemzetközi összehasonlító vizsgálat33 keretében a közép-


kelet-európai országokban34 arról faggatták a kérdezetteket, hogy véle-
ményük szerint, mi az oka az országukban tapasztalható szegénység-
nek, továbbá arra kérték ıket, hogy becsüljék meg a szegények arányát.
A szegénység magyarázatára felkínált itemek közül három a szegénye-
ket önmagukat hibáztatta35 sorsukért, három pedig a társadalom fele-
31 Most kivételesen ne jusson eszünkbe úgy megoldani a problémát, hogy minden jö-
vedelmet euro-ban számolunk.
32 Ilyenkor a transzformálás a 2*(változó–(változó-átlag)/változószórás alapján törté-
nik.
33 A TBD.KÖNYV_JUST91.SAV file adataival dolgozunk.
34 A résztvevı országok közül mi most Bulgária, a volt Kelet-Németország, Magyar-
ország és Oroszország adataival dolgozunk. Az egyes országok mintáinak nagysága
arányos az országok lakosságszámával, így a minták egyesítésével egy, a négy or-
szág által megjelenített régiós elemzést mutatunk be.
35 A három item a képességek és az erıfeszítések hiányát, valamint a laza erkölcsöket
kínálta fel egyetértésre, illetve elutasításra.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

144 Túlélıkészlet az SPSS-hez

lısségét36 hangsúlyozta. A belsı, illetve a külsı okok együttesét egy-egy


fıkomponens segítségével aggregáltuk37.
Azt feltételezzük, hogy a posztszocialista országokban már közvetle-
nül a rendszerváltás után is jól körvonalazhatók a különbözı „társada-
lomlátás-típusok”. Az emberek gondolkodásában élı társadalomképe-
ket egy egyszerő modell segítségével próbáljuk meg bemutatni. A képek
háromdimenziósak lesznek. Két dimenziót a szegénység külsı és belsı
oktételezése, a harmadikat pedig a társadalom elszegényedésének mér-
tékét jelzı, a szegények becsült arányát kifejezı változó testesíti meg.
A társadalomkép-típusokat klaszterelemzés segítségével fogjuk megra-
gadni.
A szegénység külsı és belsı oktételezését egy-egy fıkomponens je-
leníti meg, így ezek a változók már eleve standardizáltak, a szegények
arányát kifejezı változó viszont elméletileg 0 és 100 százalék közötti ér-
tékeket38 vehet fel. Ha azt szeretnénk, hogy modellünkben ne a sze-
génység becsült aránya vigye a prímet, ezt a változót is standardizált
formában kell beépítenünk a klaszterbe.
Jó tíz évvel a rendszerváltás után érdekes kísérletnek tőnhet meg-
vizsgálni, hogy közvetlenül a rendszerváltás után kimutathatók-e az em-
berek társadalomlátásában azoknak a politikai irányultságoknak a csírái,
amelyek napjainkban már kikristályosodottabb formában léteznek.
Fontosnak tartjuk megjegyezni, hogy nem egy politológiai, hanem egy
módszertani eszmefuttatás közepén vagyunk, ezért azokat a fenntartá-
sokat amelyeket a létrehozandó klaszterek számával és interpretálásával
kapcsolatban bárki megfogalmazhat, érdemes félretenni. Célszerőbb

36 A társadalom felelısségét az esélyegyenlıtlenség, a diszkrimináció és a gazdasági


rendszer hármasa jelenítette meg.
37 Érdemes az olvasónak magának utánanézni, hogy a dimenziókeresı faktorelemzés
hogyan fulladt kudarcba, illetve hogy a faktorelemzés hogyan segített bennünket
mégis abban, hogy legyen bátorságunk a külsı és belsı okok két, szeparáltan futta-
tott fıkomponenssel való megragadására.
38 A régióban a szegények arányát 0 és 99 százalék közötti értékkel becsülték. Külön
eszmefuttatást érdemelne, hogy a rendszerváltás után mennyire hajlamosak a rossz
helyzetbe került emberek a társadalom többségét is szegénynek látni, illetve az,
hogy hogyan gondolkodnak errıl azok, akik az elsı években a rendszerváltás nyer-
teseinek hihették magukat.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 145

csak arra koncentrálni, hogy ha egy háromdimenziós térben négy típust


szeretnénk létrehozni, mit tehetünk ennek érdekében.
Nézzük az SPSS parancssort:
QUICK CLUSTER
szegokb szegokk zszegar
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/PRINT INITIAL
/OUTFILE='C:\k1.sav'.

3.4.1. És megint elölrıl: iterálás több lépésben

Ha éles szemmel vizsgáljuk a parancsot, egy új sort fedezhetünk fel.


Az OUTFILE=’C:\K1.SAV’ sor arról tudósít, hogy ha az elsı tíz39 iterálás
után még mindig tudna módosítani a program a klaszterközépponto-
kon, akkor a tizedik lépésben létrejövı klaszterközéppontokat elmenti
a K1.SAV nevő file-ba. Ezzel lehetıség nyílik arra, hogy e végsı közép-
pontokat egy újabb futtatás iniciális középpontjaiként használja. Néz-
zük az iterálások történetét bemutató táblát. (3.22. táblázat)
Abban az esetben, ha azt látjuk, hogy a klaszterstruktúra még nem
stabilizálódott, nem is érdemes a FINAL CLUSTER CENTERS táblázatot
szemügyre vennünk.
Újabb futtatásra van szükségünk, ahol az iterálások számát megnö-
veljük, és a biztonság kedvéért az itt keletkezı végsı klaszterek közép-
pontjait ismét csak elmentjük. Lássuk az újabb parancssort:

39 Az iterálások maximális számánál a program eredeti beállítását használtuk, azaz tíz


iterálást kértünk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

146 Túlélıkészlet az SPSS-hez

QUICK CLUSTER
szegokb szegokk zszegar
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(100) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT INITIAL
/FILE='C:\k1.sav'
/OUTFILE='C:\k2.sav'.

3.22. táblázat
Iteration Historya

Change in Cluster Centers


Iteration 1 2 3 4
1 2,030 2,182 2,458 2,226
2 9,151E-02 ,136 ,199 ,305
3 3,583E-02 7,611E-02 7,356E-02 ,183
4 3,888E-02 4,271E-02 2,286E-02 ,113
5 3,545E-02 2,716E-02 2,989E-02 7,284E-02
6 2,731E-02 2,149E-02 4,600E-02 6,832E-02
7 2,694E-02 2,648E-02 4,334E-02 8,575E-02
8 2,997E-02 3,019E-02 4,068E-02 6,621E-02
9 1,838E-02 1,974E-02 2,266E-02 3,857E-02
10 1,670E-02 9,673E-03 2,229E-02 2,707E-02
a. Iterations stopped because the maximum number of
iterations was performed. Iterations failed to converge.
The maximum distance by which any center has
changed is 2,561E-02. The current iteration is 10. The
minimum distance between initial centers is 4,794.

Az ideiglenes klaszterközéppontokat tartalmazó K1.SAV file funkcióját


az elsı és a második futás output-részleteinek összehasonlításával lát-
hatjuk igazán. Az elsı futás még nem stabil struktúrát jelentı FINAL
CLUSTER CENTERS-ei (3.23. táblázat) megegyeznek a második futás
INITIAL CLUSTER CENTERS-eivel (3.24. táblázat). Elıször nézzük az el-
sı futásból származó output-részletet.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 147

3.23. táblázat
Final Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,84669 -,39369 ,23147 -1,04820
belsõ okok (PC)
SZEGOKK szegénység:
,62359 ,33123 -1,21507 ,11465
külsõ okok (PC)
ZSZEGAR Zscore:
,58070 -,80639 -,48184 ,98551
szegények aránya

Majd a másodikból valót.


3.24. táblázat
Initial Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,84669 -,39369 ,23147 -1,04820
belsõ okok (PC)
SZEGOKK szegénység:
,62359 ,33123 -1,21507 ,11465
külsõ okok (PC)
ZSZEGAR Zscore:
,58070 -,80639 -,48184 ,98551
szegények aránya
Input from FILE Subcommand

Egy sokak számára magától értetıdı technikai tanácsot érdemes meg-


fogadni. Ha használjuk az /OUTFILE parancsot, kínosan kell ügyelnünk
arra, hogy a klaszter-futtatások során ne változtassuk meg a változók
sorrendjét, mert az elmentett file így a program számára használhatat-
lanná válik.
A második futás a tizenharmadik iterációra hozza létre a stabil klasz-
terstruktúrát. (3.25. táblázat)
Most már minden okunk megvan arra, hogy a végsı klaszterek kö-
zéppontjait is megvizsgáljuk. A klaszterelemzés abban az értelemben mu-
tat rokon vonást a faktorelemzéssel, hogy még egy minden szempontból
korrekt modell esetében is kudarcot vallhatunk az interpretálás során.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

148 Túlélıkészlet az SPSS-hez

3.25. táblázat
Iteration Historya

Change in Cluster Centers


Iteration 1 2 3 4
1 1,138E-02 5,535E-03 9,991E-03 1,754E-02
2 4,311E-03 2,999E-03 2,307E-03 7,153E-03
3 ,000 1,977E-03 2,257E-03 ,000
4 ,000 1,918E-03 2,200E-03 ,000
5 ,000 4,685E-03 2,676E-03 3,289E-03
6 2,290E-03 2,607E-03 5,392E-03 ,000
7 ,000 9,157E-03 1,076E-02 ,000
8 ,000 1,172E-02 1,407E-02 ,000
9 2,749E-03 3,150E-03 5,532E-03 4,511E-03
10 4,345E-03 8,468E-03 3,385E-03 3,442E-03
11 ,000 2,970E-03 3,268E-03 2,801E-03
12 ,000 1,487E-03 1,815E-03 ,000
13 ,000 ,000 ,000 ,000
a. Convergence achieved due to no or small distance
change. The maximum distance by which any center
has changed is ,000. The current iteration is 13. The
minimum distance between initial centers is 1,699.

3.4.2. Névadás: klaszterek interpretálása

Nézzük, mi a jelentése a végsı klaszterközéppontoknak. (3.26. táb-


lázat)
Az elsı klaszterbe tartozók sok szegényt látnak a társadalomban és
szegénységmagyarázatukban mind a belsı, mind a külsı okokat elfo-
gadják. A második klaszter optimistább világképet formál, hiszen a sze-
gények arányát alacsonyra becsüli, viszont fontosnak tartja a társadalmi
szolidaritás eszményét, mivel a külsı okok szerepét hangsúlyozza és ta-
gadja, hogy a szegények önmaguk tehetnek szegénységükrıl. A harma-
dik klaszter tagjai is relatíve kevés szegényt látnak a társadalomban, vi-
szont egyértelmően önhibának tekintik a szegénységet, és a társadalmat

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 149

felmentik a felelısség alól. A negyedik csoport látja a legmagasabbnak


a szegények arányát, nagyon határozottan elutasítja a belsı okok szere-
pét, viszont hajlik a külsı okok elfogadására.

3.26. táblázat
Final Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,86209 -,34491 ,20222 -1,03999
belsõ okok (PC)
SZEGOKK szegénység:
,62299 ,30947 -1,25982 ,14115
külsõ okok (PC)
ZSZEGAR Zscore:
,57578 -,81234 -,45330 ,97985
szegények aránya

Ha viszonylag kevés változó mentén klaszterezünk, és a különbözı


klaszterek középpontjai nem hasonlítanak egymásra, akkor az interpre-
tálás tulajdonképpen nem más, mint a klaszterközéppontokat jelentı
változóátlagok bemutatása. Ha sok változóval dolgozunk, ez az út nem
járható. Ilyenkor a rengeteg változóátlag ismertetése nem segíti a klasz-
ter jelentésének megértését. Ebben az esetben olyan beszélı neveket
(labels) kell adnunk a klasztereknek, amelyek többé-kevésbé leírják a klasz-
ter jelentését. Természetesen mindig be kell mutatnunk a végsı klasz-
terközéppontokat tartalmazó táblázatot, de a további elemzések során
már ezen címkék segítségével beszélhetünk a klaszterekrıl.
A mi példánkban is megkíséreljük a label-ezést. Az elsı klasztert
a populisták csoportjának fogjuk nevezni abból a megfontolásból, hogy
egy populista a bajt mindig nagynak láttatja, és igyekszik egymásnak
akár ellentmondó gyógymódokat is ajánlani csak azért, hogy a népsze-
rőségét növelje. Ennek a politikai irányzatnak a csíráit véljük felfedezni
ebben a klaszterben. A második klaszterbe tartozók label-je a szociálli-
berális. İk azok, akik nem hisznek a tömeges elszegényedésben, a sze-
génységet kezelhetı, ám össztársadalmilag kezelendı problémának tartják.
A harmadik klaszter a konzervatív címkét kapja. İk is relatíve kismér-
tékőnek látják a szegénységet, de elhárítják a felelısségvállalást. Végül

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

150 Túlélıkészlet az SPSS-hez

a negyedik csoport azért kapta a posztszocialista nevet, mert az elszegé-


nyedés egyik okát a rendszerváltásban látja, és mert az elszegényedésért
a kialakult új, központi akaratot teszi felelıssé.40

3.4.3. Adjunk-e profilt a bizonytalankodóknak?


A hiányzó adatok kezelése

A stabil és interpretált klaszterstruktúrát még abból a szempontból is


meg kell vizsgálnunk, hogy nem keletkeztek-e majdnem üres klaszte-
reink, azaz hogy minden klaszter elegendı számosságú-e. A klaszterek
elemszámát mutatja a NUMBER OF CASES IN EACH CLUSTER táblázat.
(3.27. táblázat)

3.27. táblázat
Number of Cases in each Cluster
Cluster 1 719,000
2 749,000
3 615,000
4 523,000
Valid 2606,000
Missing 608,000

A legnépesebb klaszter a szociálliberálisoké, legkevesebben pedig a poszt-


szocialisták vannak. Azt mondhatjuk, hogy a klaszterek elemszámai
elegendıen nagyok ahhoz, hogy a társadalomlátás ilyen klaszterekkel
való megjelenítése további elemzések kiindulópontja lehessen.
A NUMBER OF CASES IN EACH CLUSTER táblázatból (3.27. táblázat)
az is látható, hogy 608 megkérdezett besorolása nem sikerült, ık a MISSING
rovatban szerepelnek. Az elızı parancsban a hiányzó adatok kezelésé-
rıl a következıképpen rendelkeztünk:
/MISSING=LISTWISE

40 Ne feledjük, az adatok 1991-bıl származnak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 151

Ennek az az eredménye, hogy mindenki kimarad az elemzésbıl, aki


akár csak egyetlen klaszterképzı változón hiányzó értékkel szerepel.
Lehetıségünk van azonban arra is, hogy PAIRWISE módban futtassuk
a klaszteranalízist. A következı SPSS parancssort futtatjuk41:
QUICK CLUSTER
szegokb szegokk zszegar
/MISSING=PAIRWISE
/CRITERIA= CLUSTER(4) MXITER(100) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT INITIAL
/OUTFILE='C:\kp1.sav'.

A klaszterbe sorolás teljes sikerrel járt, minden válaszadó bekerült vala-


melyik klaszterbe. Ezt mutatja a NUMBER OF CASES IN EACH CLUSTER
tábla. (3.28. táblázat)

3.28. táblázat
Number of Cases in each Cluster
Cluster 1 869,000
2 925,000
3 759,000
4 661,000
Valid 3214,000
Missing ,000

Mi lehetett a besorolás alapja azoknak a válaszadóknak az esetében,


akik csak két, vagy esetleg csak egy klaszterképzı változón bírnak érde-
mi értékkel? A hiányzó adatok PAIRWISE módon való kezelése a klasz-
terelemzés esetében azt jelenti, hogy ha valakinek egy adata hiányzik,
akkor ıt a kétdimenziós térben hozzá legközelebb esı klaszterbe sorol-

41 Itt az iterálások számát azonnal 100-ra állítottuk, hogy egy lépésben létrejöjjön
a stabil klaszterstruktúra.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

152 Túlélıkészlet az SPSS-hez

ja a program. Ha viszont valakinek két adata hiányzik, akkor ez a beso-


rolás egyetlen adat mentén történik.42
Nem is kell túlságosan ébernek lennünk ahhoz, hogy megérezzük,
az eljárás nem az igazi. Milyen alapon képzeljük azt, hogy ha valaki nem
nyilatkozott a szegénység külsı okairól, akkor ıt csak a szegények ará-
nya és a belsı okokról való vélekedése alapján kell valamelyik klaszter-
be sorolni? Ha így járunk el, akkor tulajdonképpen azt feltételezzük,
hogy az illetı a külsı okokról éppen úgy vélekedett volna, ha válaszolt
volna, mint ahogy azt az ıt befogadó klaszter külsı okra vonatkozó
középpontja jelzi. Emlékszünk még a fıkomponens-, illetve faktor-
elemzésnél tárgyalt REPLACE WITH MEAN hiányzó adatkezelés módszer-
re? A klaszterelemzésnél a PAIRWISE módszer kísértetiesen hasonlít er-
re, s ha a faktorok esetében halált megvetı bátorság szükségeltetett
a REPLACE WITH MEAN használatához, akkor ugyancsak erıs lélek, vagy
némi tájékozatlanság kell a PAIRWISE módszer használatához a klaszter-
elemzésben. Ráadásul, a hiányzó adatokkal is rendelkezı válaszadók be-
sorolása a végsı klaszterközéppontokat is módosítja. Nézzük a PAIRWISE
módszerrel futtatott klaszterelemzés végsı klaszterközéppontjait. (3.29.
táblázat)
Az eltérések nem drámaiak a LISTWISE módszer adta outputhoz ké-
pest. A konzervatív társadalomkép kicsit markánsabban rajzolódik ki,
hiszen a belsı okok elfogadása valamelyest erıteljesebbé vált, mint
a LISTWISE módszer esetében, a posztszocialisták viszont még halvá-
nyabban hangoztatják a társadalom felelısségét. A végsı klaszterközép-
pontok módosulása a bátrabbakat nem tántorítja el feltétlenül a PAIRWISE
módszer alkalmazásától. Végsı érvként idézzük fel a klaszterbe sorolás
folyamatát, és gondoljuk meg, hogy az iterálás éppen azt jelenti, hogy
a változó klaszterközéppontok megváltoztatják az egyes válaszadók he-
lyét a klaszter-struktúrában.

42 Természetesen eszmefuttatásunk az éppen tárgyalt példára vonatkozik, amelyben


három darab klaszterképzı változónk van. Abból a ténybıl, hogy minden válasz-
adó besorolásra került, az is következik, hogy nem volt olyan válaszadó, akinek mind-
három adata hiányzott.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 153

3.29. táblázat
Final Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,84313 -,42117 ,32854 -,99543
belsõ okok (PC)
SZEGOKK szegénység:
,70226 ,30865 -1,19366 ,06984
külsõ okok (PC)
ZSZEGAR Zscore:
,62363 -,92186 -,47310 1,01342
szegények aránya

Nézzük meg, hogy mennyire változik meg a klaszterbe sorolás a kétféle


hiányzó adatkezelési módszerrel. Nem az érdekel most bennünket,
hogy a LISTWISE módszerrel be nem sorolt válaszadók melyik klaszter-
be kerültek akkor, amikor PAIRWISE módszert használtunk. Arra va-
gyunk kíváncsiak, hogy a mindhárom változón érvényes adattal rendel-
kezık besorolása változik-e a két különbözı missing-kezelési módszer
esetén.43 (3.30. táblázat)
Fájdalom, a klaszterközéppontok megváltozása a PAIRWISE hatására
az eredeti klaszter-besorolásokat is megváltoztatta. Jóllehet, a táblázat
fıátlójában látjuk a legnagyobb számokat, nem elhanyagolható azoknak
a száma sem, akik „világképet váltottak” a PAIRWISE módszer hatására.
Nyilvánvalóan azok veszítették el eredeti besorolásukat, akik amúgy
sem a klaszterek „kemény magját” jelentették, hanem valahol a perifé-
rián „szerénykedtek”, de a besorolások kétértelmősége mindenképpen
arra int bennünket, hogy csak jó okkal és elfogadható magyarázattal vá-
lasszuk a PAIRWISE módszert a klaszterelemzésnél.

43 A LISTWISE, illetve a PAIRWISE módszerrel létrehozott klaszter-azonosítókat átne-


veztük és megcímkéztük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

154 Túlélıkészlet az SPSS-hez

3.30. táblázat
TARSKEP társadalomkép (listwise) (szegokb,szegokk,zszegar) * TARSKEPP
társadalomkép (pairwise) (szegokb,szegokk,zszegar) Crosstabulation

Count
TARSKEPP társadalomkép (pairwise)
(szegokb,szegokk,zszegar)
4
2 3 poszt-
1 szociál- konzer- szocia-
populista liberális vatív lista Total
TARSKEP 1 populista 693 18 8 719
társadalomkép 2 szociál-liberális 13 703 31 2 749
(listwise)
(szegokb,szegokk, 3 konzervatív 10 595 10 615
zszegar) 4 poszt-szocialista 6 3 514 523
Total 712 716 644 534 2606

3.4.4. Egy tautológia két jelentése: ANOVA egy kicsit másképpen

A QUICK CLUSTER (K-MEANS CLUSTER) parancs még egy említésre


méltó elemmel bıvíthetı:
/PRINT INITIAL ANOVA

Ennek hatásra annyi darab egyutas variancia-analízis44 fut le, ahány


klaszterképzı változónk volt. A variancia-analízisekben a függı változó
az adott klaszterképzı változó45, független változóként pedig a létreho-
zott klaszterváltozó szerepel.
A klaszterelemzés parancssorát tehát most a következıképpen fut-
tatjuk46:

44 Reméljük, az olvasó tisztában van az egyutas variancia-analízis mibenlétével. Ha


mégsem, e könyv variancia-analízis fejezetében kaphat segítséget.
45 Ismét egy kikerülhetetlen érv amellett, hogy magas mérési szintő változókat hasz-
náljunk klaszterképzésre.
46 Hosszas fejtegetéseink után visszatérünk a LISTWISE módszerre. Klasztereinket
most már nem mentjük el, hiszen célunk most csak az ANOVA táblázat bemutatása.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 155

QUICK CLUSTER
szegokb szegokk zszegar
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(100) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/PRINT INITIAL ANOVA.

Outputunk a következı táblázattal gazdagodott. (3.31. táblázat)

3.31. táblázat
ANOVA

Cluster Error
Mean Mean
Square df Square df F Sig.
SZEGOKB szegénység:
404,331 3 ,534 2602 757,485 ,000
belsõ okok (PC)
SZEGOKK szegénység:
445,710 3 ,479 2602 930,454 ,000
külsõ okok (PC)
ZSZEGAR Zscore:
453,515 3 ,411 2602 1102,221 ,000
szegények aránya
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.

A táblázat kicsit különbözik a hagyományos ANOVA táblázattól: hiány-


zik a SUM OF SQUARES oszlop és a TOTAL sor. Csak a klaszterváltozó
által megmagyarázott (CLUSTER) és a megmagyarázatlanul hagyott
(ERROR) variancia47 szerepel MEAN SQUARE álnév alatt, a hagyományos
ANOVA outputtól eltérıen nem egymás alatt, hanem egymás mellett.
A táblából levonható következtetések azonban a szokásos módon
történnek: az F-statisztika mellett álló 0,000 szignifikancia azt jelzi,
hogy a klaszterközéppontok mindhárom klaszterképzı-változó mentén
szignifikánsan különböznek. De mi mást is várhatnánk? A klaszter-
képzés során az SPSS elıtt egyetlen cél lebegett: olyan klasztereket akart
létrehozni, amelynek középpontjai távol vannak egymástól, és a klaszte-
reken belül kicsi a heterogenitás. Ennek köszönhetıen mindig szignifi-
káns különbségeket láthatunk ezekben az ANOVA táblákban, minden
47 Tehát nem a négyzetösszegek, hanem a nekik megfelelı szabadságfokkal osztott
hányadosok, vagyis az F-statisztika számlálója és nevezıje szerepel a táblázatban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

156 Túlélıkészlet az SPSS-hez

változó mentén.48 A tábla alatti megjegyzés arra utal, hogy itt nem egy
hagyományos értelemben vett szignifikancia-tesztrıl van szó, hiszen az
alacsony szignifikanciák azt jelzik, hogy az SPSS beváltotta ígéretét, való-
ban az egymástól lehetı legnagyobb távolságra lévı klaszterközéppon-
tokat találta meg.
A táblázat azonban nem pusztán egy tautológiát szemléltet, hanem al-
kalmat ad arra is, hogy a klaszterképzı változók „erısségérıl” kapjunk in-
formációt. A külsı és belsı varianciákat úgy számolta ki a program, hogy
a külsı négyzetösszegeket mindig a (klaszterek száma mínusz 1)-gyel,
a belsı négyzetösszegeket pedig a (mintaelemszám mínusz klaszterszám)-
mal osztotta. Ez azt jelenti, hogy a belsı heterogenitás szabadságfoka min-
den változónál ugyanaz volt, és nem volt ez másképpen a külsı hetero-
genitás esetében sem. Ezért a táblabeli F értékek azt jelzik, hogy melyik
változó mentén sikerült homogénebb klasztereket kialakítani, és ezzel pár-
huzamosan melyik változó mentén vannak egymástól legtávolabb a klasz-
terközéppontok. Minél nagyobb az F értéke, annál inkább nevezhetjük tö-
kéletesnek az adott változó mentén a klaszterképzıdést, annál fontosabbnak,
erısebbnek nevezhetjük az adott változó hatását az egész klaszterezési
eljárásra. Esetünkben – annak ellenére, hogy mindhárom klaszterképzı
változónk standardizált – a szegények aránya a legerısebb klaszterképzı
változó, míg a leggyengébb a belsı oktulajdonítás. A létrejött társadalom-
kép-típusok elsısorban a szegénységpercepció mentén különböznek, és
csak másodsorban számít az, hogy a szegénység mögött milyen magyará-
zatokat preferálnak az emberek.

48 Ha kísérletképpen konstans változót vonunk be a klaszterképzı változók közé


– egy ilyen változó mentén nem lehet különbözı klaszterközéppontokat definiálni –
akkor, az ANOVA tábla ezen sorában nem szerepelnek adatok. Ezzel jelzi a prog-
ram, hogy önellentmondásba került.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 157

3.4.5. Minden út Rómába vezet?


Változtassunk a kezdıpontokon!

A QUICK CLUSTER eljárás, mint tudjuk, az adatfile-unk elsı k db ele-


mébıl kiindulva határozza meg az iniciális klaszterközéppontokat, így
könnyen lehet, hogy a végsı klaszterközéppontok megváltoznak, ha
más középpontokból indulunk. Az adatfile-ban az elemzési egységek
sorrendjét SORT-olással változtathajuk meg. Rakjuk új, növekvı sorrend-
be az adatfile-unkat49 a egyik klaszterképzı változó szerint, és legyen ez
a belsı oktulajdonítás fıkomponense. Az SPSS parancssor a következı:
SORT CASES BY
szegokb (A) .

Nézzük meg, hogy a sorbarendezés után mit produkál a QUICK


CLUSTER:
QUICK CLUSTER
szegokb szegokk zszegar
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(100) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/PRINT INITIAL.

3.32. táblázat
Initial Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
1,69982 -1,89031 2,07542 -2,73632
belsõ okok (PC)
SZEGOKK szegénység:
1,60115 1,97688 -3,09812 -1,63102
külsõ okok (PC)
ZSZEGAR Zscore:
2,06814 -1,08683 ,11126 2,42756
szegények aránya

49 Bár a SORT-olás parancssorát feltüntetjük, felhívjuk a figyelmet arra, hogy ha egy


file-t egyszer egy változó szerint sorba rendezünk, rendszerint csak igen nagy
fáradsággal tudjuk visszaállítani az eredeti állapotot. Ezért dolgozunk a
TBD.KÖNYV_JUST91.SAV file helyett a TBD.KÖNYV_JUST91_SORT.SAV file-lal,
amely a már sorbarendezett adatokat tartalmazza.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

158 Túlélıkészlet az SPSS-hez

A könnyebbség kedvéért elıször lássuk az eredeti file-ból keletkezı ini-


ciális középpontokat. (3.32. táblázat)
És most nézzük meg a belsı oktulajdonítás szerint sorbarendezett
file-ból kapott iniciálisokat. (3.33. táblázat)

3.33. táblázat
Initial Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
2,07542 2,07542 -2,73632 -,26437
belsõ okok (PC)
SZEGOKK szegénység:
1,22541 -3,09812 -1,63102 1,97688
külsõ okok (PC)
ZSZEGAR Zscore:
-1,28651 ,11126 2,42756 2,42756
szegények aránya

A starthelyzet valóban más. A kérdés azonban az, hogy a végsı klasz-


terközéppontok is különböznek-e. Ha a különbözı kezdıpontokból
indított két klasztereljárás hasonló végsı klaszterstruktúrát eredmé-
nyez, akkor nem csak azt mondhatjuk, hogy a klasztereink stabilak, ha-
nem azt is, hogy ezek a klaszterek valószínőleg egy „valóságos” struktú-
rát ragadnak meg. Elıször megint lássuk az eredeti file-ból létrejött
végsı klaszterközéppontokat. (3.34. táblázat)

3.34. táblázat
Final Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,86209 -,34491 ,20222 -1,03999
belsõ okok (PC)
SZEGOKK szegénység:
,62299 ,30947 -1,25982 ,14115
külsõ okok (PC)
ZSZEGAR Zscore:
,57578 -,81234 -,45330 ,97985
szegények aránya

Majd nézzük meg a sorbarendezett file-ból kapott klaszterközépponto-


kat. (3.35. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 159

3.35. táblázat
Final Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,45409 -,01212 -1,44107 ,41521
belsõ okok (PC)
SZEGOKK szegénység:
,47460 -1,22016 ,31253 ,33156
külsõ okok (PC)
ZSZEGAR Zscore:
-,64201 -,57792 ,18346 1,08880
szegények aránya

Az új, már SORT-olt file-ból keletkezett klaszterstruktúra oly drámaian


különbözik az eredetitıl, hogy minden okunk megvan a kétségbeesésre.

3.4.5.1. A magunk ásta verem és a kiút

Mi is történt valójában? Mi volt a célunk, és hogyan próbáltuk elérni?


A cél az volt, hogy egy más, de véletlenszerően már sorba rendezett file-
ból indítsuk a klaszterezést, így ellenırizve, hogy ezekbıl az iniciálisok-
ból is ugyanazokhoz a végsı klaszterekhez jutunk-e. A sorbarendezés
azonban abszolút szisztematikusan történt, hiszen a SORT-olással a bel-
sı oktulajdonítás szerinti sorrendet alakítottuk ki a file-ban: elöl álltak
azok a válaszadók, akik a belsı oktulajdonítást elutasították és a file vé-
gén találhatóak azok, akik a szegénységet önhibának tartják.50 Ezzel
a technikával oly durván beavatkoztunk a kezdıpontok kialakításába,
hogy nem is várhattunk mást, mint radikálisan különbözı végsı klasz-
terstruktúrát.
Más módon kell tehát megkísérelnünk az eredetitıl eltérı iniciálisok
kialakítását. Az a feladat, hogy olyan változót keressünk, amelynek elég
sok értéke van ahhoz, hogy a SORT-olás érdemi sorrendváltozást ered-

50 A pontosság kedvéért megemlítjük, hogy a sorbarendezés eredményeképpen a file


legelején azok szerepelnek, akik a belsı okok fıkomponensén missing értéket kap-
tak. SORT-olni nem csak növekvı, hanem csökkenı sorrendben is lehet. Ez azon-
ban a problémát nem szünteti meg, legfeljebb modifikálja.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

160 Túlélıkészlet az SPSS-hez

ményezzen, és ami még fontosabb, ez a változó ne mutasson szoros


összefüggést egyik klaszterképzı változóval sem. Nézzük meg, hogy
például az életkor vagy a családi összjövedelem alkalmas lenne-e a file
új sorrendjének kialakítására. Ennek „ellenırzésére” nézzük meg a vál-
tozók közötti Pearson-féle korrelációs együtthatókat. (3.36. táblázat)

3.36. táblázat
Correlations

CSALJOV
KOR a család
kérdezett összjöve-
életkora delme
ZSZEGAR Zscore: Pearson Correlation -,079 ,086
szegények aránya Sig. (2-tailed) ,000 ,000
N
3211 3086

SZEGOKB szegénység: Pearson Correlation ,025 ,057


belsõ okok (PC) Sig. (2-tailed) ,180 ,003
N 2861 2759
SZEGOKK szegénység: Pearson Correlation -,048 -,065
külsõ okok (PC) Sig. (2-tailed) ,011 ,001
N 2723 2627

Láthatjuk, hogy mind az életkor, mind az családi összjövedelem kevés-


sé korrelál a klaszterképzı változókkal, tehát bármelyiküket választhat-
nánk a sorbarendezés alapjául. Mi most az életkor szerint rendezzük
sorba az adatokat:
SORT CASES BY
kor (A) .

A QUICK CLUSTER parancssora természetesen mit sem változott:


QUICK CLUSTER
szegokb szegokk zszegar
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(100) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/PRINT INITIAL.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 161

Az iniciálisok a 3.37. táblázatban láthatók.

3.37. táblázat
Initial Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
2,07542 -2,73632 -2,73632 2,07542
belsõ okok (PC)
SZEGOKK szegénység:
1,97688 1,97688 -3,09812 -3,09812
külsõ okok (PC)
ZSZEGAR Zscore:
-,68747 1,90839 -,68747 ,11126
szegények aránya

Az iniciális klaszterközéppontok tehát tényleg megváltoztak. Bennün-


ket azonban a végsı klaszterközéppontok izgatnak. (3.38. táblázat)

3.38. táblázat
Final Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,86242 -,97293 -,48950 ,23605
belsõ okok (PC)
SZEGOKK szegénység:
,63160 ,13946 ,30112 -1,21867
külsõ okok (PC)
ZSZEGAR Zscore:
,49726 1,04066 -,80801 -,46866
szegények aránya

Az összehasonlíthatóság kedvéért álljon itt az eredeti file-ból kialakult


végsı klaszterközéppontok táblázata is. (3.39. táblázat)
Bár a klaszterek sorrendje megváltozott, a négy társadalomkép-típus
mindkét outputból szépen kirajzolható. A klaszterközéppontok hason-
lítanak egymásra. Ha igazán pontos kritériumot szeretnénk annak meg-
határozására, hogy a kétféle iniciálisból indított végsı klaszterstruktúra
azonosnak nevezhetı-e, páros mintás t-próbára van szükség. Nem
a t-próba végrehajtása, illetve az SPSS-szel való végrehajtatása jelenti

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

162 Túlélıkészlet az SPSS-hez

a problémát, hanem az, hogy egy olyan új adatfile-t kell létrehoznunk,


amelyben sikerül egymás mellé tennünk az eredeti és a sorbarendezett
file adatait. Ezen új file-ban az elsı változó azt reprezentálja, hogy az
eredeti file populista klaszterébe tartozók mekkora értéket vettek fel
a belsı okok fıkomponensén. A második változón a SORT-olt indítás-
ból létrejött populisták belsıok-szkórjait találhatjuk. E két változó kö-
zött kell kiszámítanunk az elsı t-próbát.51 Ha a t-értékhez tartozó szig-
nifikancia nem csökken 0,05 alá, nekikezdhetünk az újabb t-próbának.
Ehhez két újabb változóra van szükségünk. Az egyik a populisták külsı
oktulajdonításának szkórjait jelenti az eredeti file-ból átmentve, a másik
pedig ugyanez a sorbarendezett változatból átvéve. Az eljárást a szegé-
nyek becsült arányának standardizált változatára is el kell végeznünk. S
ha mindhárom t-próba a nullhipotézist verifikálja, kijelenthetjük, hogy
a populisták klasztere azonos mindkét esetben. Az eljárást a további
három klaszter esetében is végre kell hajtanunk52, s ha egyik t-érték sem
olyan nagy, hogy a hozzá tartozó szignifikancia 0,05 alá süllyedjen, biz-
ton remélhetjük, hogy a klaszterek segítségével „valóságos” struktúrát
fedeztünk fel.

3.39. táblázat
Final Cluster Centers

Cluster
1 2 3 4
SZEGOKB szegénység:
,86209 -,34491 ,20222 -1,03999
belsõ okok (PC)
SZEGOKK szegénység:
,62299 ,30947 -1,25982 ,14115
külsõ okok (PC)
ZSZEGAR Zscore:
,57578 -,81234 -,45330 ,97985
szegények aránya

51 Ezt az SPSS programcsomag COMPARE MEANS menü PAIRED-SAMPLES T-TEST el-


ágazásából indíthatjuk.
52 Gondosan ügyeljünk arra, hogy az azonos jelentéső klaszterek középpontjait haso-
nítsuk össze egymással.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Klaszterelemzés 163

Valamelyest egyszerősíthetjük e fáradságos eljárást oly módon, hogy


„ránézésre” kiválasztjuk a két összetartozó, ám egymástól legjobban
különbözı klaszterközéppontot és erre végezzük el a t-próbát. Ha azt
tapasztaljuk, hogy „tőréshatáron” belül maradunk, vagyis a szignifikan-
cia elég nagy, bízvást mondhatjuk, hogy az ennél kisebb különbségek
sem lehetnek szignifikánsak.53

3.5. Tanulságok

Nagy elemszámú mintákon a K-MEANS klaszterezés a járható út. A klasz-


terképzı változóknak magas mérési szintőeknek kell lenniük, hiszen
euklideszi értelemben vett távolságokkal dolgozunk. A stabil klaszterek
létrejötte nem biztosíték a „valóságos” csoportok megtalálására. A klasz-
terek valósághőségét a klaszteranalízist eltérı iniciális középpontokból
indítva ellenırizhetjük. Amikor a végsı klaszterközéppontok alapján
jelentést akarunk adni a klasztereknek, azzal a problémával kell szem-
besülnünk, hogy az SPSS engedelmes, bármilyen változószetten képes
klaszterstruktúrát találni, de ha koncepció nélkül állítottuk össze a klasz-
terképzı változókat, nem sok jóban reménykedhetünk.

53 Mivel a klaszterezés végeredményeként nagy belsı homogenitású végsı klaszterek-


hez jutunk, feltételezhetjük, hogy a klaszterek belsı szóródása nem különbözik
szignifikánsan. Ha kétségeink vannak, végezzünk F-próbát a varianciák egyenlısé-
gének tesztelésére.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

II. MAGYARÁZÓ MODELLEK

A magyarázó modellekben egymással aszimmetrikus viszonyban álló


változókat találunk. Ez a viszony azért aszimmetrikus, mert a változók
között van egy kitüntetett szereppel bíró: a függı változó. E függı vál-
tozó „viselkedését” magyarázzuk ezekben a modellekben a független
változó(k) segítségével. A „viselkedés” magyarázata pedig nem jelent
mást, mint a függı változó teljes heterogenitásának1 két részre bontá-
sát. A teljes heterogenitás egyik része az, amelynek „okai” a független
változók, a másik heterogenitás-rész pedig az, amelynek „okait” a mo-
dellünk nem tartalmazza. A heterogenitás mérésére többféle mérıszám
szolgál: a range2; az átlagos eltérés3; a szórás4; illetve a variancia- vagy
szórásnégyzet5. Mindebbıl világosan látszik, hogy a függı változónak
mindenképpen magas (intervallum, illetve arányskála) mérési szintőnek
kell lennie.

1 A változó heterogenitása azt jelenti, hogy az adott változó nem konstans.


2 A range jelentése: terjedelem. Terjedelem = maximum – minimum.
3 Ha egy változó értékeinek az átlagtól való eltéréseit összegezzük, mindig nullát ka-
punk, akkor is, ha a változó értékei nagyon-nagyon közel esnek az átlaghoz, azaz
kicsi a heterogenitás, és akkor is, ha a változó eloszlása szélsıséges, azaz nagy a he-
terogenitás. Az átlagos eltérés ezt a törvényszerőséget úgy játssza ki, hogy az át-
lagtól való eltérések abszolútértékeit összegzi és vetíti egy elemre. A mutató képle-
1 N
te a következı: δ = ∑ x i − x .
N i =1
4 A szórás vagy standard deviáció azt a trükköt alkalmazza, hogy az átlagtól való el-
térések négyzeteit összegzi. Ez a mutató „megbocsátja” az átlagtól való kis eltéré-
seket, viszont szigorúan „bünteti” a nagyokat. A mutató képlete a követke-
1 N
zı: σ = ∑ ( xi − x ) 2 .
N i =1
5 A variancia- vagy szórásnégyzet, mint a neve is mutatja, a következı képlettel szá-
1 N
mítható ki: σ 2 = ∑ ( x i − x ) 2
N i =1

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 165

Attól függıen, hogy a független változók alacsony vagy magas méré-


si szintőek, eltérı magyarázó modelleket kell felépítenünk. Ha a függet-
len változóink legfeljebb ordinális mérési szintő, kategoriális változók,
akkor variancia-analízissel kereshetjük a magyarázatot a függı változó
„viselkedésére”. Ha a független változók is magas mérési szintő válto-
zók, akkor a lineáris regressziós modelleket hívhatjuk segítségül.
Amikor a függı változó alacsony, a magyarázatára szolgáló változók
viszont magas mérési szintőek, diszkriminancia-analízis segítségével
konstruálhatunk modellt.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

4. VARIANCIA-ANALÍZIS

Arra az álnaiv kérdésre, hogy miért nem egyforma minden ember jöve-
delme, nem tudunk közvetlenül válaszolni a variancia-analízis segítségé-
vel, de arra a kérdésre, hogy mitıl függ, hogy az emberek sokat vagy
keveset keresnek, nos arra már igen.
Az, hogy megtalálunk-e minden olyan fontos változót, amely befo-
lyásolja az emberek keresetét, természetesen tılünk függ (feltéve, hogy
az adatbázist mi hoztuk létre). Ha azt gondoljuk, hogy az emberek jö-
vedelme iskolázottságuktól, életkoruktól és a nemüktıl függ, akkor a va-
riancia-analízis segítségével tesztelhetjük ezt az elızetes elképzelésün-
ket. Megvizsgálhatjuk tehát, hogy a férfiak többet keresnek-e, mint
a nık, hogy a magasabb iskolázottsághoz magasabb kereset társul-e, il-
letve hogy igaz-e, hogy minél idısebbek az emberek, annál többet ke-
resnek.
Amikor azt akarjuk megtudni, hogy a férfiak többet keresnek-e,
mint a nık, akkor a férfiak átlagjövedelmét hasonlítjuk össze a nık át-
lagjövedelmével. Nem egyszerően azt nézzük meg, hogy a férfiak átlag-
jövedelme több-e, mint a nıké, hanem – mint ez már a hipotézis-vizs-
gálatok logikájából jól ismert – arra a kérdésre keressük a választ, hogy
a két átlagjövedelem közötti különbség elég nagy-e ahhoz, hogy a kü-
lönbséget a „valóságban”, a teljes populációban is létezınek tekinthes-
sük. Az „elég nagy-e a különbség?” kérdésre teszt-statisztika segítségé-
vel válaszolunk.
A variancia-analízis mőködési logikájának megértéséhez tekintsünk
egy háromváltozós adatbázist. Az adatbázison egy olyan modellt állí-
tunk fel, amelyben a „mennyire függ a megkérdezettek jövedelme a ne-
müktıl és az iskolázottságuktól?” kérdésre keressük a választ.6 (4.1. táb-
lázat)

6 A TBD.KÖNYV_ANOVA.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 167

4.1. táblázat
JOVED * ISK * NEME Crosstabulation

Count
ISK
NEME alacsony magas Total
férfi JOVED 50,00 10 ,00 10
100,00 20 20 40
150,00 10 40 50
Total 40 60 100
nõ JOVED 50,00 50 ,00 50
100,00 20 20 40
150,00 ,00 10 10
Total 70 30 100

4.1. Egyutas variancia-analízis

A kérdezettek átlagjövedelmét és a jövedelmek heterogenitását egy


DESCRIPTIVES parancs segítségével határozhatjuk meg.
DESCRIPTIVES
VARIABLES=joved
/STATISTICS=MEAN .

4.2. táblázat
Descriptive Statistics

N Mean
JOVED 200 100,0000
Valid N (listwise) 200

A 4.2. táblázatból látszik, hogy a mintában szereplı 400 ember átlago-


san 100(ezer) forintot keres.7 A jövedelemegyenlıtlenségeket egy eddig

7 A megkérdezettek jövedelmét ezer forintban mértük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

168 Túlélıkészlet az SPSS-hez

még nem használt heterogenitás-mérıszámmal, az átlagtól való eltéré-


sek négyzetösszegével8 fogjuk jellemezni.
SSTELJES = ∑∑ ( x − xij ) 2 ,
i j

ahol x a minta egészére jellemzı függıváltozó-átlagot, xij pedig az


i-edik csoporthoz tartozó j-edik megfigyelést jelenti.
A jövedelmek alapmegoszlása a 4.3. táblázatban látható.

4.3. táblázat: A jövedelmek alapmegoszlása


JOVED

Frequency
Valid 50,00 60
100,00 80
150,00 60
Total 200

Az átlagtól való eltérések négyzetösszege tehát a következıképpen szá-


molható ki:
SSTELJES = 60 ⋅ (100 − 50) 2 + 80 ⋅ (100 − 100) 2 + 60 ⋅ (100 − 150) 2 = 300000
Ennek a 300 000-es számnak önmagában nincs jelentése, de azt min-
denképpen szögezzük le, hogy ezzel a számmal fogjuk jellemezni a jö-
vedelmek teljes heterogenitását.
Most fordítsuk figyelmünket a férfiak és a nık jövedelemkülönbsé-
geire. A férfiak átlagosan 120(ezer), a nık 80(ezer) forintot keresnek.
Természetesen, mind a férfiak, mind a nık jövedelmei ingadoznak a rá-
juk jellemzı átlag körül. Ezt az ingadozást belsı heterogenitásnak ne-
vezzük, és csoportokon belüli négyzetösszeggel jellemezzük:

8 Vegyük észre, hogy a négyzetösszeg-mutató nem más, mint a variancia N-szerese,


vagyis az összheterogenitást megragadó mutatószámmal állunk szemben, ami csak
abban különbözik a szórásnégyzettıl, hogy nem vetítjük egy elemre, azaz nem osz-
tunk az elemszámmal.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 169

SS BELSİ = ∑ ∑ ( x i − x ij ) 2 ,
i j

ahol xi a függı változó i-edik csoportra vonatkozó átlaga, xij pedig


az i-edik csoporthoz tartozó j-edik megfigyelés.
Emlékeztetıül álljon itt a férfiak és a nık jövedelemeloszlása. (4.4.
táblázat)
4.4. táblázat
JOVED * NEME Crosstabulation

Count
NEME
férfi nõ
JOVED 50,00 10 50
100,00 40 40
150,00 50 10
Total 100 100

A belsı négyzetösszeget úgy számítjuk ki, hogy a férfiak átlagjövedel-


mét rendre összevetjük az egyes férfi-jövedelmekkel, a különbségeket
négyzetre emeljük és összegezzük, majd ugyanezt tesszük a nık eseté-
ben is. Azaz:
SS BELSİ = 10 ⋅ (120 − 50) 2 + 40 ⋅ (120 − 100) 2 + 50 ⋅ (120 − 150) 2 +
+ 50 ⋅ (80 − 50) 2 + 40 ⋅ (80 − 100) 2 + 10 ⋅ (80 − 150) 2 = 220000

Önmagában ennek a 220 000-es számnak sincsen jelentése, de a teljes


négyzetösszeggel való összehasonlítás már sokat elárul a nem és a jöve-
delem összefüggésébıl. Ahhoz, hogy a belsı és a teljes négyzetösszeg
összehasonlításából levonható következtetéseket megértsük, módosít-
suk az adatbázisunkat egy gondolatkísérlet erejéig. Tegyük fel, hogy
egy 200-as mintában 100 ember 120(ezer), 100 ember pedig 80(ezer)
forintos jövedelemmel rendelkezik. A 200-as minta jövedelemátlaga
100(ezer) lesz, a teljes négyzetösszeg pedig:
SS TELJES = 100 ⋅ (100 − 120) 2 + 100 ⋅ (100 − 80) 2 = 80000

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

170 Túlélıkészlet az SPSS-hez

Tegyük fel, hogy a 120(ezres) jövedelemmel rendelkezık mindegyike


férfi, a 80(ezresek) mindegyike nı. Mekkora ebben az esetben a belsı
négyzetösszeg? Mindnyájan látjuk, hogy a férfiak „doboza” és a nık
„doboza” is teljesen homogén. Mindenki a saját nemének megfelelı át-
lagjövedelemmel rendelkezik. Tehát a belsı négyzetösszeg nulla. Pró-
báljunk arra a kérdésre válaszolni, hogy ebben az esetben a nem milyen
erısen befolyásolja a jövedelmet! Ha tudjuk valakirıl, hogy férfi, egé-
szen biztosak vagyunk abban, hogy mekkora a jövedelme. És ugyanilyen
biztosan meg tudjuk mondani minden nırıl is, hogy mennyit keres.
A nem tehát egyértelmően, determinisztikusan meghatározza a jövedel-
met. A jövedelmek heterogenitását, a teljes négyzetösszeget kizárólag
a férfiak és a nık átlagjövedelmei között lévı eltérésnek köszönhetjük.
Ebben az esetben tehát a jövedelmek heterogenitását 100 százalékban
megmagyarázza a kérdezettek neme.
Kanyarodjunk vissza az eredeti példánkhoz, ahol a kérdezettek jöve-
delemegyenlıtlenségeit 300.000-es teljes négyzetösszeggel jellemeztük,
a belsı heterogenitás pedig 220.000 volt. Itt biztosan nem beszélhetünk
„teljes” magyarázatról, hiszen a belsı négyzetösszeg nem 0. A belsı és
a teljes négyzetösszeg hányadosa éppen azt mutatja meg, hogy a jöve-
delemegyenlıtlenségek hány százalékát hagyja a modellünk megmagya-
rázatlanul. A mi modellünk magyarázóereje meglehetısen szerény, hi-
szen a teljes négyzetösszeg által megjelenített heterogenitásnak több
mint 70 százaléka marad megmagyarázatlan. Ha optimistábban akarjuk
közelíteni a dolgot, úgy is fogalmazhatunk, hogy a modellünk majdnem
30 százalékot magyaráz a teljes négyzetösszegbıl.
Jussunk el egy másik úton ehhez a megmagyarázott hányadhoz. Arra
a kérdésre keressük a választ, hogy vajon a férfiak és a nık átlagjöve-
delmeinek eltérése a teljes mintaátlagtól mekkora négyzetösszeget pro-
dukál. Mivel:
SS KÜLSİ = ∑ ( x − xi ) 2 ,
i

ahol x a minta egészére jellemzı, xi pedig az i-edik kategóriához tar-


tozó függıváltozó-átlag. A mi számszerő példánkban tehát:
SS KÜLSİ = 100 ⋅ (100 − 120) 2 + 100 ⋅ (100 − 80) 2 = 80000

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 171

Láthatjuk, hogy a teljes négyzetösszeget egy megmagyarázott, külsı


négyzetösszegre és egy megmagyarázatlan, belsı négyzetösszegre bon-
tottuk. Képletszerően:
SS TELJES = SS BELSİ + SS KÜLSİ

A külsı és a teljes négyzetösszeg hányadosát megmagyarázott hányad-


nak hívják, E2-tel jelölik és gyakran torzított korrelációs együtthatónak
is nevezik.9
SS KÜLSİ 80000
E2 = = = 0,266
SS TELJES 300000

Tehát a megmagyarázott hányad ebben az esetben 27 százalék.


Nézzük mindezt az SPSS programcsomag segítségével.
ANOVA
VARIABLES=joved
BY neme (1 2)
/STATISTICS MEAN MCA
/METHOD HIERARCHICAL
/FORMAT LABELS .

A parancssor az ANOVA utasítással kezdıdik, ezzel mondjuk meg, hogy


variancia-analízist szeretnénk futtatni (ANOVA = Analysis of Variance).
Ezután a VARIABLES mögött nevezzük meg elıször a függı, a magya-
rázni kívánt (legalább intervallum szintő) változónkat, majd BY-jal ide-
kapcsoljuk a független változót. A független változó neve után zárójel-
ben fel kell tüntetni az adott változó minimális és a maximális értékét.
A STATISTICS alparancs után határozzuk meg, hogy átlagra (MEAN) és
fıátlagtól való eltérésekre (MCA) van szükségünk. A METHOD alparancs
után mindig HIERARCHICAL-t írunk. Ennek a módszernek a definícióját

9 Miután mintából következtetünk az alapsokaságra, az E2 nem önmagában érdekel


bennünket, hanem arra vagyunk kíváncsiak, hogy az alapsokaságban mekkora lehet
a megmagyarázott hányad. Az E2-tel tehát becsülni kívánjuk a valóságos, az alap-
sokaságbeli összefüggést. Egy becslést akkor nevezünk torzítatlannak, ha az összes
lehetséges n-elemő mintára kiszámított paraméter (esetünkben az E2) várható
értéke (átlaga) megegyezik magával az alapsokaságbeli paraméterrel. A torzított
becslés azt jelenti, hogy ez a várható érték valamelyest eltér a tényleges, alap-
sokaságbeli értéktıl.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

172 Túlélıkészlet az SPSS-hez

késıbb adjuk meg. A FORMAT LABELS alparancs segítségével érjük el,


hogy az MCA táblában a független változó címkéi is megjelenjenek.
Nézzük az output-ot! A CASE PROCESSING SUMMARY tábla (4.5. táb-
lázat) a modellben szereplı kérdezettek számát adja meg (INCLUDED),
s ha lennének, itt láthatnánk azokat, akiknek akármelyik adatuk hiány-
zik (EXLUDED).

4.5. táblázat
Case Processing Summarya

Cases
Included Excluded Total
N Percent N Percent N Percent
200 100,0% 0 ,0% 200 100,0%
a. JOVED by NEME a kérdezett neme

A következı, 4.6. táblázat a fıátlagot és a cellaátlagokat (a teljes minta


jövedelemátlagát, illetve a férfiak és a nık átlagos jövedelmét) tünteti fel.

4.6. táblázat
Cell Meansb

JOVED
NEME Mean N
1,00 120,0000 100
2,00 80,0000 100
Total 100,0000a 200
a. Grand Mean
b. JOVED by NEME

A következı táblázat az ANOVA „lelke”. (4.7. táblázat) A SUM OF


SQUARES oszlop a jól ismert négyzetösszegeké. A táblázat TOTAL sorá-
ban a teljes négyzetösszeg, a MAIN EFFECTS sorban a külsı négyzet-
összeg szerepel. A RESIDUAL név mögött a belsı négyzetösszeg rejte-
zik. A DF oszlopban a szabadságfokok vannak feltüntetve (degree of free-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 173

dom). Rájuk azért van szükség, mert – mint a fejezet elején ígértük – egy
teszt-statisztika segítségével döntjük el, hogy a megmagyarázott hányad
elég nagy-e ahhoz, hogy szignifikáns összefüggésrıl, magyarázatról be-
széljünk. A teszt-statisztika, az F-próba pedig szórásnégyzetek összeha-
sonlításával mondja meg, hogy a megmagyarázott hányad elég nagy-e.
A szórásnégyzet nem más, mint a négyzetösszeg és a szabadságfok há-
nyadosa, és ezek a szórásnégyzetek találhatóak a MEAN SQUARE oszlop-
ban. Ez az oszlop csak a teljesség kedvéért szerepel a táblázatban,
az ANOVA megértéséhez nincs rá szükségünk. Az F oszlopban látható
maga az F-statisztika, amelynek nagyságától függıen alakul a következı
SIG. (szignifikancia) feliratú oszlopban lévı érték. Ha ez a szignifikancia
kicsi (általában ha 0,05-nél kisebb), akkor elvetjük azt a nullhipotézist,
amely úgy szól, hogy a magyarázó és a magyarázandó változó függet-
lenek egymástól.10

4.7. táblázat
ANOVAa

Hierarchical Method
Sum of Mean
Squares df Square F Sig.
JOVED Main Effects NEME a
80000,0 1 80000,000 72,000 ,000
kérdezett neme
Model 80000,0 1 80000,000 72,000 ,000
Residual 220000,0 198 1111,111
Total 300000,0 199 1507,538
a. JOVED by NEME a kérdezett neme

A mi output-unkban a MAIN EFFECTS-hez tartozó szignifikancia 0,000,


így kijelenthetjük, hogy a kérdezett neme szignifikánsan befolyásolja
a jövedelem alakulását. Csak ezután – tehát miután tudjuk, hogy a füg-
getlen változó szignifikáns darabot magyaráz a függı változó hetero-
genitásából – érdemes azzal foglalkoznunk, hogy milyen erıs ez a ha-
tás, vagyis hogy mekkora a megmagyarázott hányad.

10 Valójában az F-statisztika két szórásnégyzet egyenlıségét teszteli. A külsı és a bel-


sı variancia különbözısége azonban éppen azt jelzi, hogy a független változó szig-
nifikánsan befolyásolja a függı változó viselkedését.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

174 Túlélıkészlet az SPSS-hez

A megmagyarázott hányadot mi magunk is kiszámolhatnánk az


output-ból a külsı és a teljes négyzetösszeg hányadosaként, de ez egy-
részt fáradságos, másrészt pedig torzított becslést ad. Most ugorjunk
egyet az output-ban és vegyük szemügyre a 4.8. táblát.

4.8. táblázat
Model Goodness of Fit

R R Squared
JOVED by NEME ,516 ,267

Az R SQUARED oszlopban látható 0,267-es érték mutatja a megmagya-


rázott hányad torzítatlan értékét.
Ha visszalépünk az output-ban az MCA táblához (4.9. táblázat), túl
sok új dolgot nem tudunk meg. E tábla olvasása azonban a késıbbiek-
ben igencsak fontos lesz.

4.9. táblázat
MCAa

Predicted Mean Deviation


Unadjust Adjusted Unadjust Adjusted
N ed for Factors ed for Factors
JOVED NEME 1,00 100 120,0000 120,0000 20,0000 20,0000
2,00 100 80,0000 80,0000 -20,0000 -20,0000
a. JOVED by NEME

Az ADJUSTED oszlopokat akkor fogjuk tudni értelmezni, amikor egynél


több független változónk lesz az ANOVA-modellben (most ezek az osz-
lopok az UNADJUSTED oszlopban feltüntetett adatok egyszerő ismét-
léseit tartalmazzák). A PREDICTED MEAN oszlopban a férfiak és a nık
jövedelemátlagait láthatjuk viszont, a DEVIATION oszlop pedig azt mu-
tatja, hogy a férfiak és a nık átlagjövedelme és a fıátlag között mennyi
az eltérés.
Végezetül a teljesség kedvéért a FACTOR SUMMARY táblára is ves-
sünk egy pillantást (4.10. táblázat). Az itt látható ETA értéke megegyezik
az R értékével. Az ETA kiszámítása a következıképpen történik:

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 175

MS BELSİ
eta = 1 − , ahol MS a megfelelı négyzetösszeg és szabadságfok
MS TOTAL
hányadosa.11 Ha egy kicsit utánagondolunk, beláthatjuk, hogy az ETA2
a megmagyarázott hányadot fejezi ki, hiszen (1 – megmagyarázatlan
hányad)-ként definiáltuk, ami éppen a megmagyarázott rész.

4.10. táblázat
Factor Summarya

Beta
Adjusted
Eta for Factors
JOVED NEME a kérdezett neme ,516 ,516
a. JOVED by NEME a kérdezett neme

4.2. Kétutas variancia-analízis

Ha visszatérünk eredeti kérdésfeltevésünkhöz, vagyis arra keressük a vá-


laszt, hogy hogyan függ a jövedelem az iskolázottságtól és a nemtıl,
olyan variancia-analízis modellt kell felépítenünk, amelyben a függı vál-
tozót két független változóval magyarázzuk.
Ez az ANOVA parancs csak annyiban különbözik az elızıtıl, hogy a BY
után következı független változók között az iskolai végzettséget is fel-
tüntettük, zárójelben a minimális és a maximális értékével.
ANOVA
VARIABLES=joved
BY neme (1 2) isk (0 1)
/STATISTICS MCA MEAN
/METHOD HIERARCHICAL
/FORMAT LABELS .

11 Az ETA2-t éppen ezért nevezhetjük a megmagyarázott hányad torzítatlan becslésé-


nek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

176 Túlélıkészlet az SPSS-hez

A CELL MEANS feliratú output-részlet (4.11. táblázat) valójában egy há-


romdimenziós tábla, amelyben a nem, az iskolázottság és a jövedelem
szerepel. Megtudhatjuk belıle, hogy mekkora az alacsony, illetve magas
iskolázottságú férfiak és nık átlagjövedelme. Leolvashatjuk azt is, hogy
az egyes cellákban mekkora az elemszám.

4.11. táblázat
Cell Meansb

a kérdezett iskolai JOVED


a kérdezett neme végzettsége Mean N
férfi alacsony 100,0000 40
magas 133,3333 60
Total 120,0000 100
nõ alacsony 64,2857 70
magas 116,6667 30
Total 80,0000 100
Total alacsony 77,2727 110
magas 127,7778 90
Total 100,0000a 200
a. Grand Mean
b. JOVED by a kérdezett neme, a kérdezett iskolai
végzettsége

4.3. Az interakció

Ha grafikusan is ábrázoljuk az átlagjövedelmeket (4.1. ábra), azt látjuk,


hogy az iskolázottság nem egyformán befolyásolja a jövedelmet a fér-
fiaknál és a nıknél. A nıknek érdemesebb magas iskolai végzettséget
szerezni, hiszen sokkal meredekebben nı az átlagjövedelmük, mint a fér-
fiaknak. Ezt a jelenséget interakciónak nevezzük. Az interakció termé-
szetesen csak akkor léphet fel, ha legalább két független változónk van.
Az interakció azt jelenti, hogy ha rögzítjük az egyik független változó
értékét (csak a férfiakat vizsgáljuk), akkor a második független változó

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 177

mentén másként viselkedik a függı változó (az iskolai végzettség és a jö-


vedelem alakulása a férfiak esetében), mintha az elsı független változó
egy másik értékét rögzítenénk (csak a nıket vizsgáljuk). E bonyolult
megfogalmazás helyett azt is mondhatnánk, hogy a grafikonunkon sze-
replı két egyenes nem párhuzamos (4.1. ábra). Ha nem párhuzamosak,
akkor valahol metszik egymást, azért szokták az interakciót másképpen
kereszthatásnak nevezni.

4.1. ábra
Átlagjövedelem iskolázottság és nem szerint
140

120
Estimated Marginal Means

100

80 a kérdezett neme

férfi

60 nõ
alacsony magas

a kérdezett iskolai végzettsége

Mielıtt továbbhaladnánk a variancia-analízis útvesztıiben, álljunk meg


egy pillanatra és próbáljuk meg alaposabban átlátni, mit is jelent az in-
terakció.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

178 Túlélıkészlet az SPSS-hez

4.3.1. Az interakcióról bıvebben

A következı kereszttábla (4.12. táblázat) a foglalkozás, az életkor és a jö-


vedelem „együttállását” mutatja. Példánk meglehetısen „kimódolt”, hi-
szen pusztán két foglalkozási kategória, a prostituáltak és az akadémi-
kusok szerepelnek benne. Az életkori kategóriák száma is csak kettı,
csak fiatalokat és idıskorúakat különböztetünk meg.12

4.12. táblázat
jövedelem (1000Ft) * a kérdezett kora * a kérdezett foglalkozása

Count
FOGL a kérdezett KOR a kérdezett kora
foglalkozása 1,00 fiatal 2,00 idõs Total
1,00 prostituált JOVED jövedelem 100,00 ,00 50 50
(1000Ft) 500,00 50 ,00 50
Total 50 50 100
2,00 akadémikus JOVED jövedelem 100,00 50 ,00 50
(1000Ft) 500,00 ,00 50 50
Total 50 50 100

A táblázatot nézegetve jól látjuk, hogy az ifjú prostituáltak sokat, a idı-


sebbek keveset keresnek. Az akadémikusok, midın ifjú kutatók voltak,
keveset kerestek, idıs korukra, az akadémikusi cím elnyerésével jöve-
delmük magas lett. A jövedelem eloszlása a 4.13. táblázatban látható.

4.13. táblázat
JOVED jövedelem (1000Ft)

Frequency
Valid 100,00 100
500,00 100
Total 200

12 A TBD.KÖNYV_INTERAKCIÓ.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 179

Az eloszlás szimmetrikus, tehát az átlag középen van, a 100 és az 500


között, azaz 300. Számítsuk ki a négyzetösszegeket.
SS TELJES = 100 ⋅ (300 − 100) 2 + 100 ⋅ (300 − 500) 2 = 8000000
SS KÜLSİ ( KOR ) = 100 ⋅ (300 − 300) 2 + 100 ⋅ (300 − 300) 2 = 0
SS KÜLSİ ( FOGL ) = 100 ⋅ (300 − 300) 2 + 100 ⋅ (300 − 300) 2 = 0
Önállóan sem a kor, sem a foglalkozás nem magyaráz semmit a jövede-
lem heterogenitásából.
4.2. ábra
Jövedelem életkor szerint
foglalkozásonként
600

500
Estimated Marginal Means

400

300

200
a kérdezett foglalko

100 prostituált

0 akadémikus
fiatal idõs

a kérdezett kora

Az interakció viszont teljes: minden fiatal prostituált 500(ezer) forintot


keres, minden öreg prostituáltnak 100(ezer) forinttal kell beérnie. Míg
az akadémikusok ifjú éveikben csak 100(ezer) forintot keresnek, most,
hogy már akadémikusok 500(ezer) forintot. (4.2. ábra) A független vál-
tozók együttesen a teljes jövedelem-heterogenitást megmagyarázzák (a bel-
sı négyzetösszeg 0).
Az interakció létébıl az következik, hogy a független változók ön-
álló hatása érdektelen számunkra, és csak a független változók által de-
finiált kétdimenziós13 térben szabad vizsgálódnunk.
13 Ha a független változók száma több, mint kettı, akkor három-, illetve többutas in-
terakcióra is számítanunk kell.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

180 Túlélıkészlet az SPSS-hez

4.3.2. A négyzetösszegek értelmezése a kétutas ANOVA-ban

Kanyarodjuk vissza az eredeti kétutas modellhez14, amelyben annyit


már felfedeztünk, hogy az iskolázottság másként hat a jövedelemre ha
férfiakat, és másként akkor, ha nıket vizsgálunk. A modell szignifikan-
ciáját tesztelı ANOVA tábla (4.14. táblázat) bonyolultabb lett, mint azt
az egyszempontú variancia-analízis táblánál láttuk.

4.14. táblázat
ANOVAa

Hierarchical Method
Sum of Mean
Squares df Square F Sig.
JOVED Main (Combined) 160222,2 2 80111,111 115,697 ,000
Effects a kérdezett neme 80000,000 1 80000,000 115,537 ,000
a kérdezett iskolai
80222,222 1 80222,222 115,858 ,000
végzettsége
2-Way a kérdezett neme *
Interactions a kérdezett iskolai 4063,492 1 4063,492 5,869 ,016
végzettsége
Model 164285,7 3 54761,905 79,088 ,000
Residual 135714,3 196 692,420
Total 300000,0 199 1507,538
a. JOVED by a kérdezett neme, a kérdezett iskolai végzettsége

Az oszlopokban lévı számok jelentése nem változott, a sorok azonban


bıvültek. Az elsı oszlop (SUM OF SQUARES) második és harmadik sorában
a nem és az iskolai végzettség által produkált külsı négyzetösszegek
szerepelnek. Az elsı sorban (MAIN EFFECTS) a két megmagyarázott rész
összegét látjuk, amelyet fıhatásnak is neveznek. A negyedik sorban (2-
WAY INTERACTIONS) az interakció okozta négyzetösszeg van. A MODEL
címszó alatt a fıhatások és az interakció által létrehozott négyzetösszegek
összege található. Tehát a MODEL mellett szereplı négyzetösszeg jelenti
a teljes megmagyarázott hányadot. A reziduális (RESIDUAL) már ismerıs,
itt lelhetjük meg a meg-nem-magyarázott négyzetösszeget. A TOTAL
nem más, mint a teljes négyzetösszeg, a MODEL és a RESIDUAL összege.
A szignifikancia oszlopban szereplı számok azt mutatják, hogy a nem,
az iskolázottság és az interakció magyarázóereje is szignifikáns.

14 Megint a TBD.KÖNYV_ANOVA.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 181

Az a tény, hogy az interakció szignifikáns, azt jelenti, hogy nincs értel-


me a két független változó (nem és iskolázottság) önálló hatásáról beszélni
(gondoljunk az akadémikus–prostituált példára), hanem csak az általuk ki-
feszített kétdimenziós térben elemezhetünk. Tehát valójában – lévén mind
a nem, mind az iskolázottság két-két értékő – egy négyértékő (alacsony
iskolázottságú férfiak, magas iskolázottságú férfiak, alacsony iskolázottságú
nık, magas iskolázottságú nık) változó mentén kell elemeznünk az át-
lagjövedelmek alakulását. Ha létrehozunk egy új változót, amely éppen ezt
a négy értéket tartalmazza, akkor „empirikusan” is meggyızıdhetünk
arról, hogy az interakciós és az egyutas magyarázatok összege jelenti a mo-
dell által megmagyarázott négyzetösszeget. (4.15. táblázat)
4.15. táblázat
ANOVAa

Hierarchical Method
Sum of Mean
Squares df Square F Sig.
JOVED Main Effects UJVALT2 nem és iskola
164285,7 3 54761,905 79,088 ,000
4 kategóriás változó
Model 164285,7 3 54761,905 79,088 ,000
Residual 135714,3 196 692,420
Total 300000,0 199 1507,538
a. JOVED by UJVALT2 nem és iskola 4 kategóriás változó

Vegyük észre, hogy a négykategóriás új változónk által megmagyarázott


négyzetösszeg éppen akkora, mint a kétutas ANOVA-ban a (fıhatás+in-
terakció) négyzetösszege, azaz a modell teljes külsı négyzetösszege.
Az új változó által megmagyarázott hányad egyenlı az R2-tel, ami ez
esetben 0,548-as értéket jelent. (4.16. táblázat)
4.16. táblázat
Model Goodness of Fit

R R Squared
JOVED by UJVALT2
nem és iskola 4 ,740 ,548
kategóriás változó

A kétutas ANOVA-ban, ahol a nem és az iskolázottság a két független


változó, az E2-et magunknak kell kiszámolnunk a következıképpen:

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

182 Túlélıkészlet az SPSS-hez

SS KÜLSİ 164285,7
E2 = = = 0,548
SS TELJES 300000
A kétutas ANOVA-ban, ha szignifikáns az interakció, az R2 nem a mo-
dell teljes magyarázóerejét mutatja, csak a fıhatás által megmagyarázott
hányadot jelenti.
4.17. táblázat
Model Goodness of Fit

R R Squared
JOVED by NEME a
kérdezett neme,
,731 ,534
ISK a kérdezett
iskolai végzettsége

Ha tehát arra a kérdésre akarunk válaszolni, hogy a jövedelem hetero-


genitásából mennyit sikerült modellünkkel megmagyarázni, az E2-et
kell használnunk, azaz nekünk magunknak kell kiszámolnunk, hogy
mekkora a modell négyzetösszegének (MODEL) és a teljes (TOTAL)
négyzetösszegnek a hányadosa. A mi esetünkben az E 2 = 0,548 , tehát
a modell által megmagyarázott hányad 55 százalék. A 4.17. táblázatban
szereplı „használhatatlan” R 2 = 0,534 . Ebben az esetben a különbség
az E2-hez képest kicsi, hiszen az interakció által produkált négyzet-
összeg maga is kicsi volt. Ennek ellenére fontos megjegyeznünk, hogy
a szignifikáns interakciónak az a következménye, hogy elemzésünket
nem szőkíthetjük le két egydimenziós elemzésre, hanem kétdimenziós
térben kell mozognunk.

4.3.3. Az interferencia

Nézzük most a FACTOR SUMMARY táblát. (4.18. táblázat) Az itt látható


ETA-kból a nem és az iskola önálló magyarázóereje fejezhetı ki. Ne fe-
ledjük, hogy mivel az interakció szignifikáns, ezeknek az ETA-knak nin-
csen értelme. Mégis érdemes megvizsgálnunk a táblát, mert a második
oszlopban szereplı BETA-k és ETA-k összehasonlítása a két független

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 183

változó közötti viszonyra derít fényt. A BETA az adott független változó


parciális hatását fejezik ki a függı változóra. A parcialitás azt jelenti,
hogy az egyik független változó és a függı változó kapcsolatából kire-
kesztjük az összes többi független változó hatását. Azt is szokták mon-
dani, hogy egy független és a függı változó kapcsolatát úgy mutatja a par-
ciális BETA, hogy a többi független változó hatását kontroll alatt tartja.
Ha nem matematikai-statisztikai nyelvezetben fogalmazzuk meg a par-
cialitás lényegét, akkor a következıket mondhatjuk. A nem és az isko-
lázottság összefüggenek egymással (a közöttük lévı kapcsolat erısségét
jelzı CRAMER’S V=0,30). Ez azt jelenti, hogy a férfiak és nık között
nem egyforma arányban fordulnak elı alacsony és magas iskolázott-
ságúak, a nık iskolázatlanabbak. Emlékezzünk rá, hogy a nık keve-
sebbet keresnek, mint a férfiak, és arra is, hogy az alacsony iskolázott-
sághoz alacsonyabb jövedelem társul, mint a magashoz. Amikor a nem
magyarázó szerepét vizsgáljuk a jövedelem alakulásában, akkor a nık
kategóriájához nem csak azért tartozik alacsonyabb átlagjövedelem,
mert a nık „általában” kevesebbet keresnek, hanem azért is, mert a nık
között relatíve sok az iskolázatlan. És fordítva. Az alacsony iskolázott-
ságúak azért is keresnek kevesebbet, mert közöttük sok a nı. A két
változó esendı emberek módjára viselkedik. Mindketten sokat akarnak
magyarázni a jövedelem heterogenitásából és e célból nem átallják a má-
sik változó magyarázóerejének egy részét sajátjukként feltüntetni. A BETA
ezt az „idegen tollakkal való ékeskedést” szünteti meg, és azt mutatja,
hogy mire képes egy független változó, ha csak a saját magyarázóerejére
támaszkodik.

4.18. táblázat
Factor Summarya

Beta
Adjusted
Eta for Factors
JOVED NEME a kérdezett neme ,516 ,353
ISK a kérdezett iskolai
,649 ,542
végzettsége
a. JOVED by NEME a kérdezett neme, ISK a kérdezett
iskolai végzettsége

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

184 Túlélıkészlet az SPSS-hez

Azt a jelenséget, amikor egy független változó magyarázóereje megvál-


tozik (más lesz a változó ETA-ja, mint a BETA-ja), ha egy másik függet-
len változót is bevonunk a modellbe, interferenciának nevezik.
Végezetül vegyük szemügyre az MCA táblát (4.19. táblázat), amely-
ben – lévén, hogy két független változót vontunk be az elemzésbe –
az UNADJUSTED és az ADJUSTED oszlopokban szereplı számok soron-
ként valóban különböznek. Az UNADJUSTED az ETA fémjelezte állapot
átlagait és fıátlagtól való eltéréseit mutatja. Az ADJUSTED oszlopban
pedig azok az átlagok, illetve átlagtól való eltérések szerepelnek, ame-
lyekbıl a másik független változó hatása ki van szőrve.

4.19. táblázat
MCAa

Predicted Mean Deviation


Unadjust Adjusted Unadjust Adjusted
N ed for Factors ed for Factors
JOVED a kérdezett neme férfi 100 120,0000 113,6667 20,0000 13,6667
nõ 100 80,0000 86,3333 -20,0000 -13,6667
a kérdezett iskolai alacsony 110 77,2727 81,0000 -22,7273 -19,0000
végzettsége magas 90 127,7778 123,2222 27,7778 23,2222
a. JOVED by a kérdezett neme, a kérdezett iskolai végzettsége

Nézzünk most egy másik empirikus példát. Az adatfile-ban Dél-Szlová-


kiában élı szlovák és magyar családok egy fıre jutó jövedelme, a család
etnikuma és a családfı iskolai végzettsége szerepel.15
Egy kétutas ANOVA-ban magyarázzuk az egy fıre esı jövedelmet
az ETHNIC és a ISK változó segítségével. A kétutas ANOVA parancssor
a következı:
ANOVA
VARIABLES= egyfojov
BY ethnic (1 2) isk (1 4)
/STATISTICS MCA MEAN
/METHOD HIERARCHICAL
/FORMAT LABELS .

15 A TBD.KÖNYV_INTERFERENCIA.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 185

A következı ANOVA tábla (4.20. táblázat) mutatja, hogy az interakció


nem szignifikáns (az iskolai végzettség hasonlóan befolyásolja a jöve-
delmet a magyarok és a szlovákok esetében).

4.20. táblázat
ANOVAa

Hierarchical Method
Mean
Sum of Squar
Squares df e F Sig.
EGYFOJOV Main (Combined) 111,655 4 27,914 37,741 ,000
Effects ETHNIC család
77,558 1 77,558 104,9 ,000
etnikuma
ISK a háztartásfõ
legmagasabb iskolai 34,097 3 11,366 15,367 ,000
végzettsége
2-Way ETHNIC család
Interactions etnikuma * ISK a
háztartásfõ 4,818 3 1,606 2,171 ,090
legmagasabb iskolai
végzettsége
Model 116,472 7 16,639 22,497 ,000
Residual 832,097 1125 ,740
Total 948,569 1132 ,838
a. EGYFOJOV by ETHNIC család etnikuma, ISK a háztartásfõ legmagasabb iskolai
végzettsége

Abból, hogy az interakció nem szignifikáns, nem következik feltétlenül,


hogy az iskolai végzettség és a jövedelem összefüggését ábrázoló grafi-
konok, amelyeket a szlovákokra és a magyarokra külön-külön rajzolha-
tunk fel, a szó geometriai értelmében párhuzamosak. (4.3. ábra)
A „nem párhuzamosság” azonban az F-próba szerint olyan kis mér-
tékő, hogy azt kell feltételeznünk, hogy az alapsokaságban, vagyis Dél-
Szlovákiában egy-egy foknyi emelkedés az iskolai végzettségben éppen
akkora jövedelemnövekedést eredményez a magyarok, mint a szlová-
kok körében. (Más kérdés, hogy a magyarok átlagjövedelme minden is-
kolai végzettség esetében kisebb, mint a szlovákoké.)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

186 Túlélıkészlet az SPSS-hez

4.3. ábra
Estimated Marginal Means of EGYFOJOV
3,5

3,0

2,5
Estimated Marginal Means

2,0

1,5
család etnikuma
1,0
magyar

,5 szlovák
alapfok szakmunkásképzõ középfok felsõfok

a háztartásfõ legmagasabb iskolai végzettsége

Nézzük az iskolai végzettség és az etnikai hovatartozás magyarázóere-


jét a 4.21. táblázatban. (A 4.20. tábla szerint mindkettınek szignifikáns
a hatása.)
4.21. táblázat
Factor Summarya

Beta
Adjusted
Eta for Factors
EGYFOJOV ETHNIC család etnikuma ,286 ,322
ISK htfõ legmagasabb
,144 ,193
iskolai végzettsége
a. EGYFOJOV by ETHNIC család etnikuma, ISK htfõ
legmagasabb iskolai végzettsége

Az etnikai hovatartozás önállóan16 8,2 százalékot magyaráz az egy fıre


jutó jövedelem szóródásából (ETA2 = 0,082), az iskolázottság pedig 2,1
százalékot (ETA2 = 0,021).

16 Az önálló magyarázóerıt egy olyan modellben érhetnénk tetten, amelyben függet-


len változóként egyedül az adott változó szerepel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 187

Ha az iskolázottság hatását kiszőrjük, az etnikum magyarázóereje


megváltozik. (BETA=0,322). Itt valami új jelenséggel állunk szemben,
az etnikai hovatartozás szerepe megnıtt az egy fıre jutó jövedelem
meghatározásában, ha az iskolázottság hatását kontroll alatt tartjuk, az-
az azonos iskolázottságú szlovákokat és magyarokat hasonlítunk össze.
Hogyan lehetséges ez? Látjuk, hogy a magyaroknak kisebb az egy fıre
jutó jövedelme, mint a szlovákoknak. (4.22. táblázat)

4.22. táblázat
Cell Means

EGYFOJOV
ETHNIC család etnikuma Mean N
1,00 magyar 1,1763 352
2,00 szlovák 1,7415 781
Total 1,5657 1133

A magyar háztartásfık azonban iskolázottabbak, mint a szlovákok. A 4.23.


táblázatban látható kereszttábla szerint a szlovákok több, mint egy-
harmada csak alapfokú végzettséggel rendelkezik, míg a magyaroknál
ez az arány csak 17 százalék. A szakmunkás végzettségőek aránya azo-
nos a szlovákok és magyarok között, azonban az érettségizettek és kü-
lönösen a diplomások aránya a magyarok között sokkal magasabb,
mint a szlovákoknál.
A magyaroknak tehát úgy kisebb az egy fıre jutó jövedelme, hogy
iskolázottabbak, mint a szlovákok, pedig az iskolázottság emeli a jöve-
delmet. A magyar családok hátrányos helyzetét „elfedi” az iskolázott-
ságbeli fölényük. A magyarok hátrányos megkülönböztetése a „valóság-
ban” (ne feledjük, csak két dimenzióban elemzünk, a valóság ennél
bonyolultabb!) sokkal nagyobb, mint ahogy azt az egydimenziós (csak
az etnikai hovatartozás szerinti) jövedelmek mutatják.
Az ETA-knál rendre nagyobb BETA-k hívják fel a figyelmet arra,
hogy az egydimenziós elemzésben „elrejtızik”, nem mutatkozik meg
a magyarázó változók „valóságos” magyarázóereje.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

188 Túlélıkészlet az SPSS-hez

4.23. táblázat
ISK a háztartásfõ legmagasabb iskolai végzettsége * ETHNIC család etnikuma Crosstabulation

ETHNIC család
etnikuma
1,00 2,00
magyar szlovák Total
ISK a 1,00 alapfok Count 67 332 399
háztartásfõ % within ETHNIC
legmagasabb 16,8% 35,4% 29,8%
család etnikuma
iskolai 2,00 szakmunkásképzõ Count 98 232 330
végzettsége
% within ETHNIC
24,5% 24,8% 24,7%
család etnikuma
3,00 középfok Count 174 310 484
% within ETHNIC
43,5% 33,1% 36,2%
család etnikuma
4,00 felsõfok Count 61 63 124
% within ETHNIC
15,3% 6,7% 9,3%
család etnikuma
Total Count 400 937 1337
% within ETHNIC
100,0% 100,0% 100,0%
család etnikuma

4.4. A hierarchikus ANOVA

A variancia-analízis eredeti modelljét nem az empirikus társadalomtu-


dományok számára dolgozták ki. Kezdetben, akárhány független válto-
zót is tartalmazott a modell, a különbözı cellákban azonos elemszá-
mok szerepeltek. A mi elıbbi példánk esetében ez azt jelentené, hogy
ugyanannyi iskolázott és iskolázatlan szlovák, illetve magyar szerepel
az elemzésben. Az ilyen modellekben az interferencia nem fordulhat
elı. Amikor a variancia-analízis az empirikus társadalomtudományok-
ban is teret kapott, akkor dolgozták ki az interferenciát kezelni képes
eljárásokat. Az SPSS programcsomagban szereplı lehetséges módszerek
közül – leginkább – a hierarchikus módszer ırizte meg a klasszikus
variancia-analízis gondolatmenetét. Ezért használjuk mi is ezt a mód-
szert. Egy speciális vonásáról azonban nem szabad megfeledkeznünk.
Mint a módszer neve is mutatja, az eljárás a bevont független változó-
kat hierarchiába rendezi. Az elsıként bevont független változó külsı
négyzetösszege pontosan annyi, mint amekkorát egy egyutas variancia-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 189

analízisben produkálna. A másodikként bevont független változó külsı


négyzetösszegébıl az eljárás kiküszöböli az elsı független változó által
már megragadott hányadot. Minél több független változónk van, annál
kisebb az utolsóként bevont független változó esélye arra, hogy még
szignifikáns magyarázatot produkáljon, hiszen az ı külsı négyzetössze-
gébıl mindaz levonatik, amelyet az elıtte lévı független változók már
tartalmaznak.
Így a hierarchikus módszer esetében – különösen, ha sok független
változónk van – nem szabad elhamarkodott következtetéseket levonni
az F-próbákhoz tartozó szignifikanciákból, hiszen az utolsóként bevont
független változó nem szignifikáns magyarázóereje gyakran a sorban elıtte
állóknak köszönhetı. Mint minden magyarázó modellben, az ANOVA
esetében is meg kell fontolnunk, hogy milyen logikai vagy teoretikus
sorrend van a változóink között. Építhetjük a modellt oly módon, hogy
a legfontosabb magyarázó változót elsı helyen vonjuk be a modellbe,
így ırködve azon, hogy magyarázóereje a maga teljességében tündököl-
jön. Építkezhetünk azonban más logika alapján is. Ha arra vagyunk
kíváncsiak, hogy egy független változó – más független változó hatását
kontroll alatt tartva – képes-e szignifikánsan magyarázni a függı
változó heterogenitását, akkor a „kitüntetett” független változót utolsó-
ként építjük be a független változók sorába.
Építsünk fel egy háromutas ANOVA-modellt, ahol a jövedelem he-
terogenitását az életkor, az iskola és a nem segítségével magyarázzuk.17
Ha a független változókat ebben a sorrendben építjük be a hierarchikus
ANOVA-ba, akkor azt teszteljük, hogy vajon kevesebbet keresnek-e
a nık akkor is, ha iskolázottságuk és életkoruk nem különbözik a fér-
fiakétól. A háromutas ANOVA parancssor tehát a következı:
ANOVA
VARIABLES=joved
BY kor (0 1) isk (0 1) neme (1 2)
/STATISTICS MCA MEAN
/METHOD HIERARCHICAL
/FORMAT LABELS .

17 Ismét a TBD.KÖNYV_ANOVA.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

190 Túlélıkészlet az SPSS-hez

Mivel a háromutas interakció szignifikáns, csak a három független vál-


tozó definiálta háromdimenziós térben mozoghatunk. A megmagyará-
zott négyzetösszeg = 196388,9. (4.24. táblázat) Ha ezt a teljes négyzet-
összeghez (300000,0) viszonyítjuk, a megmagyarázott hányad 65,5 szá-
zalék.
4.24. táblázat
ANOVAa

Hierarchical Method
Sum of Mean
Squares df Square F Sig.
JOVED Main (Combined) 160479,4 3 53493,132 99,127 ,000
Effects KOR a kérdezett kora 5208,333 1 5208,333 9,651 ,002
ISK a kérdezett iskolai
121875,0 1 121875,0 225,845 ,000
végzettsége
NEME a kérdezett neme 33396,062 1 33396,062 61,886 ,000
2-Way (Combined) 6356,048 3 2118,683 3,926 ,009
Interactions KOR a kérdezett kora *
ISK a kérdezett iskolai 561,960 1 561,960 1,041 ,309
végzettsége
KOR a kérdezett kora *
246,749 1 246,749 ,457 ,500
NEME a kérdezett neme
ISK a kérdezett iskolai
végzettsége * NEME a 5854,869 1 5854,869 10,850 ,001
kérdezett neme
3-Way KOR a kérdezett kora *
Interactions ISK a kérdezett iskolai
29553,446 1 29553,446 54,765 ,000
végzettsége * NEME a
kérdezett neme
Model 196388,9 7 28055,556 51,989 ,000
Residual 103611,1 192 539,641
Total 300000,0 199 1507,538
a. JOVED by KOR a kérdezett kora, ISK a kérdezett iskolai végzettsége, NEME a kérdezett neme

A jövedelmek alakulását szemléltetı táblából a három független változó


metszéspontjában lévı átlagokat kell összehasonlítanunk. (4.25. táblá-
zat)
Például: a legtöbbet a fiatal, magas iskolázottságú férfiak keresnek;
legkevesebbet az idıs, iskolázatlan nık stb. Ami a nık irányában érvé-
nyesülı diszkriminációt illeti, a nem magyarázóereje akkor is szigni-
fikáns, ha az iskolázottság és a kor hatását kiküszöböljük. Az azonos
iskolázottságú és azonos korú csoportokra is igaz, hogy a férfiaknak
magasabb a fizetése, mint a nıké.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 191

4.25. táblázat
Cell Meansb

ISK a kérdezett JOVED


KOR a kérdezett kora iskolai végzettsége NEME a kérdezett neme Mean N
,00 fiatal ,00 alacsony 1,00 férfi 83,3333 15
2,00 nõ 72,2222 45
Total 75,0000 60
1,00 magas 1,00 férfi 140,0000 50
2,00 nõ 100,0000 10
Total 133,3333 60
Total 1,00 férfi 126,9231 65
2,00 nõ 77,2727 55
Total 104,1667 120
1,00 idõs ,00 alacsony 1,00 férfi 110,0000 25
2,00 nõ 50,0000 25
Total 80,0000 50
1,00 magas 1,00 férfi 100,0000 10
2,00 nõ 125,0000 20
Total 116,6667 30
Total 1,00 férfi 107,1429 35
2,00 nõ 83,3333 45
Total 93,7500 80
Total ,00 alacsony 1,00 férfi 100,0000 40
2,00 nõ 64,2857 70
Total 77,2727 110
1,00 magas 1,00 férfi 133,3333 60
2,00 nõ 116,6667 30
Total 127,7778 90
Total 1,00 férfi 120,0000 100
2,00 nõ 80,0000 100
Total 100,0000a 200
a. Grand Mean
b. JOVED by KOR a kérdezett kora, ISK a kérdezett iskolai végzettsége, NEME a kérdezett
neme

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

192 Túlélıkészlet az SPSS-hez

4.5. Korlátozó feltételek

Az ANOVA egy olyan magyarázó modell, amely nemcsak azt kívánja


meg, hogy a függı változó magas mérési szintő legyen, hanem azt is
„szereti”, ha a függı változó normális eloszlású. Éppen ezért, mielıtt
egy ANOVA-modellt felépítünk, célszerő megvizsgálnunk a függı válto-
zó eloszlását18. Legyen a függı változónk a fıfoglalkozásból származó
havi nettó jövedelem (FOJOV). Nézzük meg ezen változó eloszlását
a 4.4. ábrából.

4.4. ábra
A megkérdezett fõállásból származó
havi nettó jövedeleme
160

140

120

100

80

60

40
Frequency

20

A jövedelemeloszlás – mint általában lenni szokott – balra ferde, loga-


ritmikus normális eloszlást követ, jelezve, hogy sokan vannak a szegé-
nyek és kevesen a jómódúak. Nézzük meg, hogy ha a jövedelemválto-
zót ebben a formában építjük be egy ANOVA-modellbe, mennyire tud-
juk a heterogenitását az iskolai végzettséggel és a nemmel magyarázni.

18 A TBD.KÖNYV_NORMALITÁS-VIZSGÁLAT.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 193

ANOVA
VARIABLES=fojov
BY isk5 (1 5) neme (1 2)
/STATISTICS MCA MEAN
/METHOD HIERARCHICAL
/FORMAT LABELS .

4.26. táblázat
ANOVA

Hierarchical Method
Sum of Mean
Squares df Square F Sig.
FOJOV fõállásból Main (Combined) 3951,853 5 790,371 13,377 ,000
havi nettó Effects ISK5 5 kategóriás
jövedelem 1000Ft 3257,264 4 814,316 13,783 ,000
iskolai végzettség
NEME 1. a kérdezett
694,589 1 694,589 11,756 ,001
neme
2-Way ISK5 5 kategóriás
Interactions iskolai végzettség *
76,728 4 19,182 ,325 ,861
NEME 1. a kérdezett
neme
Model 4028,581 9 447,620 7,576 ,000
Residual 17102,084 289 59,083
Total 21130,665 298 70,799

Láthatjuk, hogy az interakció nem szignifikáns, ezért beszélhetünk


a nem és az iskolai végzettség önálló magyarázóerejérıl. (4.27. táblázat)

4.27. táblázat
Factor Summary

Beta
Adjusted
Eta for Factors
FOJOV fõállásból havi ISK5 5 kategóriás
,393 ,385
nettó jövedelem 1000Ft iskolai végzettség
NEME 1. a
,198 ,185
kérdezett neme

Az egyes magyarázó változókhoz tartozó BETA-kból láthatjuk, hogy


az iskolai végzettség erısebben befolyásolja a jövedelmek alakulását,
mint a nem. Azt is észrevehetjük, hogy az interferencia nem jelentıs,

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

194 Túlélıkészlet az SPSS-hez

tehát ha azonos iskolai végzettségő férfiakat és nıket hasonlítunk


össze, a nık „jövedelemhátránya” nem változik lényegesen, vagyis a fér-
fiak és a nık közötti jövedelemkülönbség alapvetıen nem azért áll fenn,
mert a nık iskolázatlanabbak.19
Vizsgáljuk meg, hogy hogyan változik az ANOVA-modell „szerkeze-
te” akkor, ha a függı változó eloszlását megpróbáljuk normális elosz-
lássá transzformálni.

4.5.1. Normalitás-vizsgálat

A balra ferde, logaritmikus normális eloszlású változókat logaritmikus


skálán ábrázolva normális eloszlású változókhoz juthatunk, azaz ha egy
logaritmikus normális eloszlású változó helyett az adott változó logarit-
musával dolgozunk, az új transzformált változónk már normális elosz-
lású lesz. Azt, hogy egy változó valóban normális eloszlásúnak tekint-
hetı-e, nem ránézésre szoktuk eldönteni, hanem azt vizsgáljuk, hogy
az átlaghoz közel, illetve az átlagtól távol esı intervallumokhoz ugyan-
olyan gyakoriságok tartoznak-e, mint ahogy ez egy normális eloszlású
görbe esetén várható.20 Az átlaghoz közeli és távoli intervallumokat tet-
szés szerint definiálhatjuk. Átlaghoz közelinek tekinthetjük például az át-
lag ± 0,5 szórásnyi intervallumot; viszonylag távol esı intervallum a 0,5
és 1 szórás közötti, és távol esı az 1 szórásnál messzebb található inter-
vallum.
A standard normális eloszlás ábrájából (4.5. ábra) leolvasható, hogy
az egyes intervallumok fölött az esetek hány százaléka található. Most
már csak azt kell eldöntenünk, hogy a mi empirikusan tapasztalt elosz-
lásunk mennyire felel meg az ábrán található ideális esetnek, a normális
eloszlásnak. Két eloszlás hasonlóságának/különbözıségének eldönté-
sére a khí-négyzet statisztika alkalmas.

19 Természetesen a jövedelem az iskolai végzettségen és a nemen kívül még más té-


nyezıkkel is magyarázható. Kijelentéseink csak erre a modellre érvényesek.
20 A normalitás-vizsgálat szokásos tesztelésére a Kolgomorov-Szmirnov féle z-próba
szolgál, de csak abban az esetben, ha a mintaelemszám kicsi (n < 30).

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 195

4.5. ábra
Standard normális eloszlás

15% 38% 15%

16% 16%

-3,5 -3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

Nézzük meg, hogy az eredeti jövedelem változónk (FOJOV) eloszlása


mennyire hasonlít a normális eloszláshoz. Ehhez a FOJOV változóból
egy, az ábrán látható, a normális eloszlás felosztásának megfelelı
kategoriális változót kell létrehoznunk. Elsı lépésben szükségünk van
a FOJOV változó átlagára és szórására. Ehhez elıször meg kell tisztíta-
nunk a jövedelem változót: biztosan meg kell válnunk a 999-es kóddal
jelölt nem válaszolóktól, és ha úgy döntünk, hogy a fıfoglalkozásból
származó jövedelemmel nem rendelkezıket is kirekesztjük a vizsgáló-
dásból, akkor a nulla értékkel rendelkezıkkel is így kell tennünk:
missing values fojov (0 999).

A FOJOV változó átlagát és szórását a DESCRIPTIVES parancs segítségé-


vel számítjuk ki.
DESCRIPTIVES
VARIABLES=fojov
/STATISTICS=MEAN STDDEV .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

196 Túlélıkészlet az SPSS-hez

4.28. táblázat
Descriptive Statistics

Std.
N Mean Deviation
FOJOV fõállásból havi
300 11,50 8,41
nettó jövedelem (1000 Ft)
Valid N (listwise) 300

Az átlag és a szórás ismeretében (4.28. táblázat) hozzuk létre a fıjöve-


delembıl az ötkategóriás új változónkat a 4.29. táblázat alábbi táblázat-
nak megfelelıen.

4.29. táblázat: Új, kategoriális változó a fıjövedelem alapján


kategóriahatárok a FOJOV változó
kategóriahatárok
esetében
1. kategória minimumtól ( x − s ) -ig 1 – 3,1
2. kategória ( x − s ) -tól ( x − 0,5s ) -ig 3,11 – 7,3
3. kategória ( x − 0,5s ) -tól ( x + 0,5s ) -ig 7,31 – 15,7
4. kategória ( x + 0,5s ) -tól ( x + s ) -ig 15,71 – 19,9
5. kategória ( x + s ) -tól maximumig 19,91 – 150

Az új változó létrehozásához a következı RECODE paranccsal jutha-


tunk el:
RECODE fojov (1 thru 3.1=1) (3.11 thru 7.3=2) (7.31
thru 15.7=3) (15.71 thru 19.9=4)(19.91 thru 150=5) into
fojov5.

Az új változó eloszlása fogja jelenteni a khí-négyzet statisztika megfi-


gyelt gyakoriságait (4.30. táblázat), a normális eloszlás ábráján látható
százalékok pedig az elméleti gyakoriságokat. A megfigyelt gyakorisá-
gokhoz egy egyszerő FREQUENCIES utasítással juthatunk:
FREQUENCIES
VARIABLES=fojov5
/ORDER ANALYSIS .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 197

4.30. táblázat
FOJOV5 5 kategóriás fõállásból származó jövedelem

Frequency Percent
1,00 átlag–1 szórásnál kisebb 2 ,7
2,00 átlag-1 és átlag-0,5 szórás között 79 26,2
3,00 átlag plusz-mínusz 0,5 szórás 172 57,3
4,00 átlag+0,5 szórás és 1 szórás között 19 6,4
5,00 átlag+1 szórásnál nagyobb 28 9,3
Total 300 100,0

Az összehasonlítandó elméleti és megfigyelt gyakoriságok táblázatából


(4.31. táblázat) magunknak kell kiszámolnunk a khí-négyzetet, tudván,
hogy ebben az esetben a szabadságfok – a (kategóriák száma–1), azaz –
4; és így az 5 százalékos szignifikancia-szinthez tartozó khí-négyzet kü-
szöbérték 9,48. Még egy dologra figyelemmel kell lennünk: a khí-négy-
zet elemszám-érzékeny, ezért kiszámításakor nem a százalékos, hanem
az abszolút számos adatokkal kell dolgoznunk.

4.31. táblázat: Az elméleti és megfigyelt gyakoriságok összehasonlítása


elméleti megfigyelt elméleti gyakoriságok
gyakoriságok gyakoriságok elemszámra vetítve
1. kategória 16% 2 48
2. kategória 15% 79 45
3. kategória 38% 172 114
4. kategória 15% 19 45
5. kategória 16% 28 48
Összesen 100% 300 300

A khí-négyzet képlete a következı:


( f megfigyelt − f elméleti ) 2
χ2 = ∑
minden f elméleti
cella

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

198 Túlélıkészlet az SPSS-hez

Ebben az esetben a khí-négyzet értéke 122,64, ami azt jelenti, hogy –


mint azt a fıjövedelem hisztogrammos ábrájából (4.4. ábra) már sejt-
hettük – az eloszlás szignifikánsan különbözik a normális eloszlástól.
Minden okunk megvan arra, hogy megpróbáljuk a FOJOV változón-
kat egy olyan logaritmikus transzformációnak alávetni, amely remé-
nyeink szerint végül normális eloszlást eredményez. Érdemes már most
elgondolkodni azon, hogy ha a jövedelmek logaritmusait építjük be
függı változóként egy ANOVA-modellbe, akkor hogyan kell majd értel-
meznünk az eredményeket. Tudnunk kell, hogy a logaritmikus transz-
formáció megırzi a „sorrendiséget”, tehát minden a-ra és b-re igaz,
hogy ha a ≤ b , akkor lg a ≤ lg b . Más szavakkal, ha valakinek nagyobb
a fıállásból származó jövedelme, akkor jövedelmének logaritmusa is
nagyobb értéket jelent.
Mi a helyzet a heterogenitással? Nyilvánvalóan más lesz a teljes
négyzetösszeg, ha a jövedelmet forintokban, és más akkor ha ln(forint)-
okban mérjük. A teljes négyzetösszegnek azonban önmagában nincs je-
lentése, az ANOVA-modell éppen arra szolgál, hogy megmutassa, hogy
ennek a teljes négyzetösszegnek mekkora hányadát sikerül a független
változó(k) és az interakció(k) segítségével megmagyaráznunk. Akár ter-
mészetes alakban, forintokban, akár logaritmikus transzformáció után
számoljuk ki a teljes négyzetösszeget, csak az érdekel bennünket, hogy
ebbıl mekkora hányadot képvisel a külsı, megmagyarázott négyzet-
összeg. A logaritmikus transzformáció a jövedelmek közötti eltéréseket
„lefokozza”, hiszen ha „A” 100 forintot, „B” 1000 forintot keres, ak-
kor jövedelmük között 10-szeres az eltérés. Ha átlépünk a logaritmikus
skálára21, azaz logaritmus-forintban mérjük a jövedelmeket, akkor „A”
és „B” logaritmus-jövedelmei között a különbség lg100-lg1000=2-3,
azaz 1 egység lesz. A kisebb teljes négyzetösszeg azonban nem teremt
automatikusan több esélyt az erısebb magyarázatra, hiszen a külsı
négyzetösszegek is ugyanezen összetömörített skálának megfelelı érté-
kekbıl számítódnak. Nézzük a logaritmikus skálára transzformálást!

21 A szemléletesség kedvéért most 10-es alapú logaritmus-skálával dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 199

COMPUTE lnfojov=ln(fojov).
VARIABLE LABELS lnfojov 'COMPUTE lnfojov = LN(fojov)' .
DESCRIPTIVES
VARIABLES=lnfojov
/STATISTICS=MEAN STDDEV .

4.32. táblázat
Descriptive Statistics

Std.
N Mean Deviation
LNFOJOV COMPUTE
300 2,3059 ,4869
lnfojov = LN(fojov)
Valid N (listwise) 300

4.33. táblázat: A logaritmikus skálára transzformált új jövedelem változó


csoportjai
kategóriahatárok az LNFOJOV változó
kategóriahatárok
esetében
1. kategória minimumtól ( x − s ) -ig 0 – 1,82
2. kategória ( x − s ) -tól ( x − 0,5s ) -ig 1,83 – 2,06
3. kategória ( x − 0,5s ) -tól ( x + 0,5s ) -ig 2,07 – 2,55
4. kategória ( x + 0,5s ) -tól ( x + s ) -ig 2,56 – 2,79
5. kategória ( x + s ) -tól maximumig 2,80 – 5,01

A jövedelmek logaritmusainak eloszlásán kijelölt osztópontok (át-


lag±valahány szórás) segítségével egy új változót hozunk létre, a logarit-
mus jövedelmek kategoriális változatát, abból a célból, hogy ellenırizzük,
vajon a transzformálással normális eloszláshoz jutottunk-e. (4.32. és
4.33. táblázat)
RECODE lnfojov (lowest thru 1.82=1) (1.83 thru 2.06=2)
(2.07 thru 2.55=3) (2.56 thru 2.79=4)(2.80 thru
highest=5)
into lnfojov5.
FREQ lnfojov5.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

200 Túlélıkészlet az SPSS-hez

A FREQUENCIES paranccsal létrehozott eloszlás szerepel a 4.34. táblázat


megfigyelt gyakoriságok oszlopában. Az elméleti gyakoriságok a nor-
mális eloszlás már jól ismert ábrájáról olvashatók le.

4.34. táblázat: A logaritmizált jövedelem változó eloszlása


elméleti megfigyelt elméleti gyakoriságok
gyakoriságok gyakoriságok elemszámra vetítve
1. kategória 16% 49 48
2. kategória 15% 32 45
3. kategória 38% 134 114
4. kategória 15% 45 45
5. kategória 16% 40 48
Összesen 100% 300 300

Ebben az esetben a khí-négyzet értéke 8,62, ami azt jelenti, hogy a jö-
vedelmek logaritmusai normális eloszlást követnek.22
Nézzük meg most már, hogy a logaritmizált jövedelmek alakulását
mennyire képes megmagyarázni a nem és az iskolai végzettség változó.
ANOVA
VARIABLES=lnfojov
BY isk5 (1 5) neme (1 2)
/STATISTICS MCA MEAN
/METHOD HIERARCHICAL
/FORMAT LABELS .

Az ANOVA táblából (4.35. táblázat) azt látjuk, hogy a nem és az iskolai


végzettség közötti interakciós hatás nem létezik, és éppen úgy, mint a fo-
rintokban mért fıjövedelem esetében, és mind a nemnek, mind az isko-
lázottságnak szignifikáns hatása van.

22 Négyes szabadságfok mellett, 5 százalékos szingifikancia-szinten a khí-négyzet kü-


szöbértéke 9,49, ami azt jelenti, hogy megtarthatjuk nullhipotézisünket, azaz azt,
hogy az eloszlásunk nem különbözik a normális eloszlástól.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 201

4.35. táblázat: A nem és az iskolai végzettség magyarázóereje


a kétféle jövedelem változóra
ANOVA

Hierarchical Method
Sum of
Square Mean
s df Square F Sig.
LNFOJOV Main (Combined) 21,344 5 4,269 25,047 ,000
COMPUTE lnfojov Effects ISK5 5 kategóriás
= LN(fojov) 16,522 4 4,130 24,235 ,000
iskolai végzettség
NEME 1. a kérdezett
4,822 1 4,822 28,294 ,000
neme
2-Way ISK5 5 kategóriás
Interactions iskolai végzettség *
,140 4 3,5E-02 ,205 ,936
NEME 1. a kérdezett
neme
Model 21,484 9 2,387 14,006 ,000
Residual 49,334 289 ,170
Total 70,818 298 ,237

A következı táblázat arra alkalmas, hogy összehasonlíthassuk a nem és


az iskolai végzettség magyarázatának erısségét a balra ferde eloszlású
fıjövedelem és a normális eloszlású logaritmus-forintokban mért jöve-
delem változókra.

4.36. táblázat: A modellek paramétereinek összehasonlítása

ETA BETA Adjusted R2

ISK5 0,393 0,385


FOJOV 0,187
NEME 0,198 0,185
ISK5 0,483 0,471
LNFOJOV 0,301
NEME 0,283 0,267

A forintokban mért jövedelemre és a normális eloszlásúvá transzfor-


mált „(ln)forintokban” mért jövedelemre felépített ANOVA-k különbö-
zı ETA-kat és BETA-kat produkáltak. Ennek köszönhetıen az ANOVA
kívánalmainak megfelelı logaritmikus modell magyarázóereje nagyobb,
mint a torzításokat is tartalmazó „forintos” modell. A két modellbıl
azonban nem adódnak ellentétes következtetések, mindkettıbıl azt

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

202 Túlélıkészlet az SPSS-hez

látjuk, hogy ha kiszőrjük az iskolai végzettség hatását, akkor is igaz ma-


rad, hogy a nık átlagosan kevesebbet keresnek a férfiaknál. Értelemsze-
rően mindkét modellbıl egyformán gyenge interferencia látszik, a férfiak
és a nık közötti jövedelemkülönbséget nem változtatta meg érdemben
az iskolai végzettség.
A matematikai-statisztikai kézikönyvek az ANOVA-t „robusztus”
módszernek nevezik, s azt állítják, hogy azt a feltételt, hogy a függı vál-
tozónak normális eloszlásúnak kell lennie, nem kell véresen komolyan
venni. Ha matematikailag korrekt módon akarjuk használni az ANOVA-t,
mindent el kell követnünk, hogy a függı változót normális eloszlásúvá
transzformáljuk. Az ár, amit fizetnünk kell, azonban nem elhanyagol-
ható: az a világos kép, amelyben a forintokban mért jövedelmek hete-
rogenitását megmagyarázott és megmagyarázatlan hányadra különítjük
el, kicsit összekuszálódik, ha ugyanezt logaritmus-forintokkal tesszük.
Biztosak lehetünk abban, hogy a logaritmus-forintokra létrehozott
ANOVA-modell ETA-iban és BETA-iban nincsenek a normálistól eltérı
eloszlásból következı torzítások, de ezek a mérıszámok logaritmus-fo-
rintokban mért megmagyarázott és teljes varianciák viszonyát fejezik ki.
Praktikusan azt tanácsolhatjuk, hogy akik számára a logaritmikus
skálán mért egyenlıtlenségek nehezen értelmezhetık, azok fogadják el
az ANOVA-modellek robusztusságára vonatkozó empirikus tapasztala-
tot és a magyarázandó változó eloszlásától függetlenül nyugodt lelkiis-
merettel alkalmazzák az ANOVA-t. Akik szeretnék komolyan venni azo-
kat a matematikai megszorításokat, amelyek betartása esetén korrekt
eredményre számíthatnak, a függı változó normálissá transzformálása
után barátságot kell kössenek az új transzformált változó „jelentésével”
és az ott tapasztalható különbségekkel.
Az olvasók ezen utóbbi csoportjának a figyelmét szeretnénk felhívni
arra, hogy a jobbra ferde eloszlások normális eloszlássá transzformálása
sem megoldhatatlan probléma. Elsı lépésben a függı változó értékeit
mínusz eggyel megszorozva balra ferde eloszláshoz juthatunk. Innen a már
ismert úton indulhatunk el, arra azonban mindvégig ügyelnünk kell, hogy
a logaritmus függvény csak pozitív számokra értelmezett. Ezért a balra

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Variancia-analízis 203

ferdévé „varázsolt” eloszlást úgy kell pozitív irányba eltolni az x-ten-


gely mentén, hogy a minimális érték is pozitívvá váljék. A kísérletezı
kedvőek figyelmébe ajánljuk, hogy maguk tapasztalják ki, mi történik
akkor, ha a logaritmizálásra szánt függı változó minimális értéke éppen
csak meghaladja a nullát, és mi történik akkor, ha a minimális érték
meghaladja az alkalmazott logaritmus alapját.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

5. LINEÁRIS REGRESSZIÓANALÍZIS

A magyarázó modellek másik nagy családja a regresszióanalízis. A reg-


ressziós modellekben1 egy függı változó viselkedését olyan független vál-
tozókkal magyarázzuk, amelyek maguk is magas mérési szintőek. Attól
függıen, hogy a független és a függı változó „együttállását” milyen alakú
függvénnyel írhatjuk le, beszélhetünk lineáris és nem lineáris regresszióról.
Ebben a fejezetben csak a lineáris regresszióval lesz módunk megismerked-
ni, és mint minden korlátozás, ez is szegényebbé tesz bennünket. Meg-
foszt bennünket attól, hogy például jól leírhassuk a jövedelem és az életkor
kapcsolatát, hiszen a szenioritás elve az ifjúkortól csak a nyugdíjazásig ér-
vényesül, attól kezdve, ahogy az egyre idısebbek és idısebbek felé hala-
dunk, úgy találkozunk egyre kisebb és kisebb nyugdíjakkal.

5.1. ábra: A jövedelem és az életkor összefüggése


18
A fõállásból havi nettó jövedelem átlaga (1000 Ft)

16

14

12

10

4
20,00 30,00 40,00 50,00 60,00 70,00 80,00

Életkor

1 A logisztikus regressziót külön tárgyaljuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 205

Az 5.1. ábra az életkor mentén elıször emelkedı, majd csökkenı jöve-


delmeket mutatja be és jól látszik, hogy a jövedelmek viselkedése nem
írható le egy egyenessel, hanem inkább valamilyen harang alakú görbére
lenne szükségünk. Az ábra ugyanakkor a kiutat is mutatja: ha egy függı
változó viselkedését nem sikerül egy egyenessel leírnunk, próbálkoz-
hatunk kettı vagy akár több egyenessel, „szakaszosan” leírva a függı
változó alakulását.

5.1. A regressziós egyenes egyenlete

Hogyan is határozzuk meg azt az egyenest, amely a lehetı legjobban


közelíti a függı változó valóságos alakulását a független változó men-
tén? A kérdés megválaszolásához idézzük fel a koordináta-geometriai
tanulmányaink során szerzett ismereteinket, és írjuk fel az egyenes
egyenletét. (5.2. ábra)

5.2. ábra: Az egyenes egyenlete

y Y = BX + C

B
C

ahol az egyenes C magasságban metszi az y tengelyt, B pedig az egyenes


meredekségét jelöli, azaz azt mutatja meg, hogy az x érték egységnyi
növekedésével, mekkora értékkel változik az y.
A lineáris regressziós egyenlet illesztése azon egyenes egyenletének
a „megtalálását” jelenti, amelynek minden (az értelmezési tartomány-
hoz tartozó) pontjára igaz, hogy:

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

206 Túlélıkészlet az SPSS-hez

∑ Yi − Yˆi → min vagy ∑ (Yi − Yˆi ) 2 → min


i i

ahol az Ŷi az Xi értékhez tartozó regressziós becslést, az Yi pedig


az Xi-khez tartozó tényleges értéket jelöli. A jól illeszkedı regressziós
egyenes Ŷi értékei és a tényleges Yi értékek eltérésének összege nulla.2
Olyan függvényt kell tehát konstruálnunk, amely a regressziós és a tény-
leges értékek közötti eltérések összegét kezelni tudja. Két egyszerő vá-
lasztásunk lehet: vagy az eltérések abszolút értékével, vagy az eltérések
négyzetével dolgozunk. A regressziós egyenes meghatározásakor ter-
mészetesen nem élhetünk szabadon a fenti két egyenlet kínálta válasz-
tási lehetıséggel. A lineáris regressziós egyenes egyenletének meghatá-
rozásakor a legkisebb négyzetek módszerét alkalmazzák, azaz a négy-
zetes különbségek összegének minimumát keresik. Mivel az Ŷi értékek
a regressziós egyenes pontjait jelentik, azt is mondhatjuk, hogy a
n
f (C , B ) = ∑ (Yi − C − BX i ) 2
i =1
függvény minimumát keressük. A függvény valóban C és B függvénye,
hiszen éppen az egyenes egyenletében szereplı konstans (C) és az egye-
nes meredeksége (B) változtatásával érhetjük el, hogy az egyenes a le-
hetı legjobban közelítse a valóságos Y értékeket. Egy függvény mi-
nimumát megtalálni úgy lehet, hogy megkeressük azt a pontot, ahol
az adott függvény deriváltja éppen nulla lesz.3
Deriváljunk elıször C szerint:
∂f n
= −2 ∑ Yi − C − BX i
∂C i =1
majd deriváljunk B szerint:

2 Hasonló jelenséggel állunk szemben, amikor egy adatsor saját átlagától való eltéré-
seit összegezzük: itt is mindig nullát kapunk. Ha az adatok átlagtól való eltéréseire
akarunk mutatószámot alkotni, akkor meg kell kerülnünk ezt a „törvényszerősé-
get”. Vagy az átlagtól való eltérések abszolút értékével (átlagos eltérés), vagy az át-
lagos eltérések négyzetével (variancia) jellemezhetjük a heterogenitást.
3 A függvény, amelynek deriváltját keressük, egy olyan másodfokú egyenlettel írható
le, amelynek képe egy, a középiskolából is jól ismert helyzető, ’U’ alakú parabola,
tehát a megtalálandó szélsıérték biztosan minimumot (és nem maximumot) jelent.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 207

∂f n
= −2 ∑ X i (Yi − C − BX i )
∂B i =1
A két derivált minimumának megkeresése nem jelent mást, mint meg-
oldani a két egyenletet, úgy, hogy nullával tesszük egyenlıvé ıket. Az
elsı egyenletbıl következik, mivel összeget és különbséget tagonként is
szummázhatunk4, hogy:
n n
∑ Yi = nC + B ∑ X i
i =1 i =1
A B-szerinti deriváltat nullával egyenlıvé téve a következı egyenlethez
jutunk:
n n n
∑ X i Yi = C ∑ X i + B ∑ X i2
i =1 i =1 i =1
Annak ellenére, hogy a két egyenlet igen barátságtalan formájú, azt ér-
demes észrevennünk, hogy a bennük szereplı Xi és Yi értékek ismertek,
ık jelentik a függı és független változónk értékeit, és ismerjük az n-et is,
hiszen az a minta elemszáma. A két egyenletben két ismeretlen szere-
pel, a C és a B. Pusztán azért, hogy könnyebben kezeljük ezt a két
egyenletet, végezzünk el egy apró transzformációt. Toljuk el a koordi-
náta-rendszer kezdıpontját az ( X ; Y ) pontba.
Ez a transzformáció nem változtatja meg a berajzolandó egyenes
meredekségét. (5.3. ábra) A transzformáció nem jelent mást, mint hogy
az Y értékek helyett olyan dY értékekkel dolgozunk, amelyeket úgy
nyerünk, hogy minden Y értékbıl kivonjuk az Y -ot. Ugyanilyen
módon hozzuk létre a dX értékeket. Mivel az új dX , dY változónk átlaga
nulla, nyilvánvaló, hogy a
n n
∑ d X i = ∑ d Yi = 0
i =1 i =1

n n n n
4 A ∑ Yi = ∑ C + B ∑ X i kifejezésben a ∑ C nem jelent mást, mint hogy n-szer kell
i =1 i =1 i =1 i =1
szummáznunk a C értékét.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

208 Túlélıkészlet az SPSS-hez

5.3. ábra: Az egyenes képe a koordináta rendszer eltolt kezdıpontja esetén

y dY

Y
dX

X x
Ennek a megállapításnak késıbb nagy használt vesszük, hiszen a C-re
és B-re vonatkozó egyenletrendszerünkben most már a dX, dY változók-
kal számolunk, akkor a következı egyenletekhez jutunk:
n n
∑ d Yi = nC + B ∑ d X i
i =1 i =1
n n n
∑ d X i d Yi = C ∑ d X i + B ∑ d X2 i
i =1 i =1 i =1

A második egyenletbıl:
n
∑ d X i d Yi
i =1
B= n
∑ d X2 i
i =1
Eljutottunk tehát egy egyenlethez, amelynek segítségével meghatároz-
hatjuk a legjobban illeszkedı egyenes meredekségét. A transzformáció-
val egy olyan koordináta-rendszerhez jutottunk, amelynek kezdıpontján
halad át a regressziós egyenes.5 Ahhoz, hogy visszajussunk az eredeti
koordináta-rendszerben a regressziós egyenes és az y-tengely metszés-
5 Hogyha az elsı egyenletet megoldjuk, a C=0 eredmény adódik, tehát ez az egyenes
valóban az origón halad keresztül.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 209

pontját jelentı C értékhez, használjuk fel azt a felfedezésünket, hogy


az ( X ; Y ) pont mindig rajta van a regressziós egyenesen, és ezért
Y = C + BX . Így a második paraméter, a C értéke is meghatározható:
C = Y − BX

5.2. Egyszerő példa a lineáris regresszióra

Nézzünk egy egyszerő példát: legyen egy háromelemő sokaságunk,


amelyben az életkor és a jövedelem összefüggését vizsgáljuk, pontosab-
ban, arra vagyunk kíváncsiak, hogy milyen erısen határozza meg az élet-
kor a jövedelmek alakulását. (5.1. táblázat)

5.1. táblázat: Az életkor és a jövedelem kapcsolata


jövedelem
életkor (X) dX dY dX dY d2X d2Y
(ezer Ft) (Y)
20 20 –10 –20 200 100 400
30 60 0 20 0 0 400
40 40 10 0 0 100 0
összesen 90 120 200 200 800
átlag 30 40

Ábrázoljuk az életkor és a jövedelem együttes eloszlását. (5.4. ábra) A pon-


tokra legjobban illeszkedı egyenes meredekségét a már jól ismert kép-
lettel számíthatjuk ki:
n
∑ d X i d Yi 200
B= i =1
n
= =1
200
∑ d X2 i
i =1
A regressziós egyenes és az y tengely metszéspontjának ordinátáját pe-
dig a következı képlettel határozhatjuk meg:
C = Y − bX = 40 − 1 ⋅ 30 = 10

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

210 Túlélıkészlet az SPSS-hez

5.4. ábra: Az életkor és a jövedelem együttes eloszlása


70

60

50
jövedelem (e Ft)

40

30

20

10

0
0 5 10 15 20 25 30 35 40 45
életkor

Az 5.5. ábrán együtt láthatjuk a valóságos adatokat, illetve az életkor és


a jövedelem együttjárását legjobban közelítı regressziós egyenest.

5.5. ábra: Az életkor és a jövedelem összefüggése alapján kapott


regressziós egyenes
70

60

y = x + 10
50
jövedelem (e Ft)

40

30

20

10

0
0 5 10 15 20 25 30 35 40 45
életkor

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 211

Mit láthatunk az ábránkon? Ha megbocsátjuk azokat az eltéréseket,


amelyek a tényleges és a regresszió által becsült jövedelmek között van-
nak, akkor úgy gondolhatunk az életkorra és a jövedelemre, mint olyan
két változóra, amelyeknek kapcsolatát leírhatjuk az ábrán berajzolt
egyenessel. Ekkor nem csak azt olvashatjuk le, hogy a regressziós eljá-
rás hány forintra becsüli a 20, 30 és 40 évesek jövedelmét, hanem inter-
polálhatunk és extrapolálhatunk is, azaz lehet valami fogalmunk arról,
hogy hány forintot keresnek például a 25 évesek, annak ellenére, hogy
a sokaságban nem volt adatunk az ilyen korúak jövedelmérıl (interpo-
lálás), illetve a 20 évnél fiatalabb és a 40 évesnél idısebbek jövede-
lemére is lesz a regresszió által becsült adatunk (extrapolálás). Nézzük
meg, mi a regressziós egyenes két paraméterének jelentése. A C értéke
azt mutatja, hogy mekkora a függı változó regresszió által becsült érté-
ke a független változó 0 értékénél. A C értéke nem más, mint egy ma
született csecsemı átlagos becsült jövedelme. A C interpretálása már elı-
re jelzi, hogy a regresszióelemzésben nem lesz mindig egyszerő a kons-
tansnak (C) jelentést tulajdonítani. (A mi esetünkben gondolhatunk
arra, hogy a megszületett gyerekek után családi pótlékot folyósítanak.)
Mit jelent a B érték? A regressziós egyenes meredeksége azt mutatja,
hogy egy évet öregedvén, mennyivel több jövedelemre tehetünk szert.
Ebben az esetben ez a B érték azért jelent biztosan több jövedelmet,
mert elıjele pozitív, ami azt jelenti, hogy a regressziós egyenes növekvı
függvény.

5.3. Illeszkedés: mennyire vehetjük komolyan a regressziós


egyenest?
A három elemet tartalmazó példánkban a jövedelmek heterogenitását
jellemezzük a varianciával (szórásnégyzettel). Az 5.1. táblázatban már
rendelkezésünkre áll a d Y2 szummája, s mint erre a szórás képletébıl
kiválóan emlékezünk, ezeket az átlagtól való eltérés-négyzeteket össze-
gezvén, már csak az elemszámmal kell osztanunk, és elıttünk a varian-

cia, vagyis: σ 2 ( Y ) =
∑ d Y2 = 800 . Mekkora az a heterogenitás, ame-
n 3

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

212 Túlélıkészlet az SPSS-hez

lyet a regressziós egyenes testesít meg, jelezve, hogy az életkor mentén


egy egyenessel leírható módon változnak a jövedelmek. Ehhez szüksé-
günk van a példánkban szereplı életkorokhoz tartozó becsült jövedel-
mekre, amelyeket a regressziós egyenes egyenletébıl könnyen meghatá-
rozhatunk.

5.2. táblázat: Az életkor alapján becsült jövedelmek

2
életkor (X) Yˆ = x + 10 d̂ Y d̂ Y
20 30 –10 100
30 40 0 0
40 50 10 100
összesen 120 200
átlag 40

A regressziós egyenes által produkált variancia éppen azt mutatja, hogy


mennyire szóródhatnának a jövedelmek, ha az életkor determiniszti-
kusan határozná meg a jövedelmeket. A regressziós értékek varianciája
– hasonlóan az ANOVA-modellben szereplı külsı négyzetösszeghez –
a megmagyarázott heterogenitás-részt testesíti meg. A regressziós egye-
nes varianciája6:
n
∑ (Yˆi − Y ) 2 200
σ 2 (Yˆ ) = i =1 =
n 3
Hol keressük a megmagyarázatlan hányadot, amelyet a valóságos jöve-
delemértékek és a regresszió által becsült értékek különbségei produ-
kálnak? A kérdésben benne a válasz, azaz valóban a regressziós egyenes
pontatlanságaiból fogjuk a megmagyarázatlan varianciát kiszámítani.

6 A képletben nem elírás az Y , jóllehet a regressziós értékek eltérését a regressziós


értékek átlagától kell tekintetnünk, de mi már jól tudjuk, hogy a regressziós egye-
nes értékeinek átlaga és a tényleges Y értékek átlaga megegyezik.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 213

5.6. ábra: A reziduálisok szemléltetése


70

Y2
60

Ŷ3
50
jövedelem (e Ft)

40

Ŷ1 Yˆ 2 Y3
30

y = x + 10
20
Y1
10

0
0 5 10 15 20 25 30 35 40 45
életkor

A tényleges és a becsült jövedelmek közötti különbségeket a regresszió-


elemzésben reziduálisoknak is nevezik, és ezen reziduálisok heterogeni-
tása éppen azt jelzi, hogy mennyire nem sikerült a regressziós egyenes-
sel pontosan „belıni” a tényleges jövedelmeket. (5.6. ábra) A reziduáli-
sok átlaga értelemszerően nulla, hiszen a legjobban közelítı egyenes
megalkotása azt jelenti, hogy éppen akkora „függıváltozó-tömeg” lesz
az egyenes fölött, mint alatta. A reziduálisok varianciájának kiszámítása
sem túl bonyolult, a számításokhoz szükséges adatokat az 5.3. táblázat-
ban találhatjuk.

5.3. táblázat: A reziduálisok átlaga és szórása


jövedelem 2
Ŷ e = (Yˆ − Y) (Yˆ − Y)
(ezer Ft) (Y)
20 30 10 100
60 40 –20 400
40 50 10 100
összesen 600

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

214 Túlélıkészlet az SPSS-hez

A reziduálisok varianciája:
n
∑ ( Ŷi − Yi )2 600
σ 2( e ) = i =1
=
n 3
Most már csak azt kell felfedeznünk, hogy a teljes variancia – éppen
úgy, mint az ANOVA esetében a teljes négyzetösszeg – a megmagyará-
zott és a megmagyarázatlan rész összegébıl tevıdik össze, azaz:
σ 2 (Y ) = σ 2 (Yˆ ) + σ 2 (e)
A megmagyarázott hányad jelzi a regressziós modell „jóságát”:
σ 2 (Yˆ )
R2 = 2
σ (Y )
A mutatószám, amely a megmagyarázott hányaddal egyenlı, a többszörös
korrelációs együttható négyzete. A mi példánkban az R2 a 200/3-ad és a
800/3-ad hányadosával egyenlı, azaz értéke 25 százalék. Az életkor te-
hát a jövedelmek heterogenitásának 25 százalékát magyarázza, 75 szá-
zalékát megmagyarázatlanul hagyja, mintegy kínálva a lehetıséget, hogy
újabb változó bevonásával próbáljunk a jövedelmek alakulására erı-
sebb magyarázatot találni.

5.4. Lineáris regresszióanalízis „élesben” – egyszerő modell

Alkossunk magyarázó modellt a jövedelem és az életkor segítségével,


most már egy igazi mintán, a következı SPSS parancs futtatásával:7
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER kor .

7 A TBD.KÖNYV_REGRESSZIÓ.SAV file adataival dolgozunk. A file-ban csak az 50


éves, illetve fiatalabb aktív munkavállalók szerepelnek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 215

Az elsı sor mondja meg, hogy regresszióelemzést fogunk futtatni, a má-


sodik sorban a hiányzó adatok kezelésére vonatkozó opció található,
amely éppen úgy, mint a fıkomponens-, illetve a faktorelemzés eseté-
ben, alapesetben LISTWISE módszert használ. Természetesen választhatjuk
a PAIRWISE opciót is, ha szeretnénk, hogy a részleges válaszmegtagadók,
amennyire lehet, rajta hagyják a „kezük nyomát” a kapott eredményeken.
A REPLACE WITH MEAN opció használatától minden erınkkel óvakodjunk.
A következı sorban a kért statisztikákat sorolhatjuk fel. Alapesetben a reg-
ressziós együttható (COEFF), a modellbıl szignifikáns magyarázóerı híján
kizárt változó(k) (OUTS), a többszörös korrelációs együttható (R) és a mo-
dell relevanciáját tesztelı ANOVA statisztikák szerepelnek a parancsban.
A CRITERIA parancs mögött álló paraméterek jelentését késıbb fogjuk
megérteni. A NOORIGIN megkötés azt jelenti, hogy nem ragaszkodunk
ahhoz, hogy a megrajzolandó regressziós egyenes keresztülhaladjon az ori-
gón, azaz nem zárjuk ki annak lehetıségét, hogy a regressziós egyenes
egyenletében szereplı konstansot is felhasználjuk a modell értelmezésé-
hez.8 Ezután a DEPENDENT sorban kell megneveznünk a függı változót,
amely esetünkben a fıállásból származó havi nettó jövedelem ezer forint-
ban mérve (FOJOV). Egy újabb, pillanatnyilag homályos jelentéső sor kö-
vetkezik, amelyben azt a módszert lehet megjelölni, amely szerint a függet-
len változók bekerülnek a modellbe (ENTER).9
Az output elsı táblázatában (5.4. táblázat) semmi új információhoz
nem jutunk. Azt láthatjuk belıle, hogy a KOR nevő független változó
lépett be a modellbe, és a (b) jelő lábjegyzetbıl az is kiderül, hogy a füg-
gı változónk a FOJOV nevő változó volt. A METHOD oszlopban a hasz-
nált módszer megnevezése szerepel.

8 Attól, hogy a regressziós egyenest eltoljuk úgy, hogy keresztülhaladjon az origón,


az egyenes meredeksége nem változik.
9 Ez esetünkben teljesen érdektelen, mivel jelenleg csak egyetlen független változót
vontunk be az elemzésbe.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

216 Túlélıkészlet az SPSS-hez

5.4. táblázat
Variables Entered/Removedb

Variables Variables
Model Entered Removed Method
1 KOR a
kérdezett
a
, Enter
kora
a. All requested variables entered.
b. Dependent Variable: FOJOV fõállásból
havi nettó jöv. (1000 Ft)

5.5. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,135a ,018 ,017 9,63
a. Predictors: (Constant), KOR a kérdezett kora

Az 5.5. táblázat már informatívabb, hiszen láthatjuk, hogy a jövedelem


varianciájából hány százalékot sikerült megmagyaráznunk az életkor se-
gítségével (ADJUSTED R SQUARE).10 A STD. ERROR OF THE ESTIMATE
bizonyos értelemben szintén a regressziós egyenes illeszkedését jelzi,
hiszen ez az érték a reziduálisok szórását jelenti. Minél nagyobb az érté-
ke, annál inkább számíthatunk olyan jövedelemadatokra, amelyek igen
messze esnek a regressziós egyenes által becsült értéktıl. Ha a parancs-
sorunkat kiegészítjük, és kérjük a szélsıséges jövedelemértékek meg-
mutatását, megtalálhatjuk a „vétkeseket”.

10 Az ADJUSTED R SQUARE a valóságos, az alapsokaságbeli megmagyarázott hányad


torzítatlan becslése. Az R SQUARE ennek a torzított változata.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 217

5.4.1. A „deviánsokról”

A fenti parancssort tehát a következı sorral egészítjük ki:


/CASEWISE PLOT(ZRESID) OUTLIERS(3) .11
Ezzel a paranccsal azt kérjük, hogy a program „nevezze meg” azokat,
akiknek a jövedelme három standard hibánál messzebb van a reg-
resszió által becsült értéktıl (OUTLIERS (3)).

5.6. táblázat
Casewise Diagnosticsa

FOJOV
fõállásból
havi nettó
Std. jöv. (1000 Predicted
Case Number Residual Ft) Value Residual
212 4,949 60 12,35 47,65
236 3,803 50 13,38 36,62
471 3,061 43 13,53 29,47
501 4,261 55 13,97 41,03
541 5,728 70 14,85 55,15
653 3,727 50 14,12 35,88
772 10,744 118 14,56 103,44
808 4,827 60 13,53 46,47
840 14,419 150 11,17 138,83
914 12,357 130 11,02 118,98
926 3,972 50 11,76 38,24
1033 3,464 46 12,64 33,36
1122 3,299 45 13,23 31,77
1158 4,964 60 12,20 47,80
1282 6,827 80 14,26 65,74
1331 4,307 55 13,53 41,47
1360 10,447 115 14,41 100,59
1362 8,001 91 13,97 77,03
a.
Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

11 Természetesen elıbb az elızı parancs végérıl törölni kell a parancs végét jelzı
pontot.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

218 Túlélıkészlet az SPSS-hez

A parancssor hatására keletkezı output-részlet (5.6. táblázat) azt mutat-


ja, hogy a tényleges (FOJOV) és a regresszió által becsült (PREDICTED
VALUE) értékek milyen reziduálisokat (RESIDUAL) eredményeztek.
Ha a regresszióelemzést úgy fogjuk fel, hogy segítségével a függı és
a független változó együttjárását úgy akarjuk megragadni, hogy az az
esetek döntı többségére érvényes legyen, akkor joggal hibáztathatjuk
a „szélsıséges” eseteket a rossz illeszkedésért. Ha így gondolkodunk,
az is megfordulhat a fejünkben, hogy megválunk a „deviánsoktól” és az
„átlagos” viselkedésőekre illesztjük a regressziót.
Nézzük meg, hogy mit is jelent egy regressziós egyeneshez képest
„deviánsnak” lenni. Az 5.7. ábra a kor és a jövedelem együttes eloszlá-
sát mutatja úgy, hogy az ábrán a regressziós egyenest is feltüntettük, és
külön megjelöltük azt a tizennyolc válaszadót, akiknek jövedelme
messze eltér attól, amit életkoruk alapján a regresszió „elıírna” nekik.

5.7. ábra: Az életkor és a jövedelem együttes eloszlása,


regressziós egyenessel
160
y = 7,638+0,147x
2
140 R = 0,017

120

100
jövedelem (e Ft)

80

60

40

20

0
15 20 25 30 35 40 45 50 55
életkor

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 219

Ha megválunk a „deviánsoktól”12, a modell illeszkedése javul és termé-


szetesen a reziduálisok szórása is csökken, ezt mutatja az 5.7. táblázat.

5.7. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,182a ,033 ,032 6,32
a. Predictors: (Constant), KOR a kérdezett kora

Az eljárás hozadékának megítélése nézıpont kérdése: mondhatjuk,


hogy az R2-ünk közel kétszeresére nıtt, de mondhatjuk azt is, hogy fá-
radozásainknak mindössze annyi a gyümölcse, hogy alig 2 százalékról
valamivel 3 százalék fölé tornáztuk a megmagyarázott hányadot.
Ráadásul korántsem biztos, hogy helyes úton jártunk, amikor meg-
váltunk a „deviánsoktól”, hiszen mi a minta egészére akarunk reg-
ressziós modellt illeszteni, s ha például arra vagyunk kíváncsiak, hogy
a jövedelmeknél mennyire érvényesül a senioritás elve, akkor éppen
ezek a szélsı értékek azok – ahogy az 5.7. ábrán látjuk –, amelyek meg-
törik a „minél idısebb, annál többet keres” elv érvényesülését. További
érv a „deviánsok” elhagyása ellen az, hogy a második, a szélsıséges ér-
tékektıl megtisztított regresszióban is definiálhatjuk a túlságosan nagy
reziduálisokat, újra csak megválhatunk a rosszul illeszkedı esetektıl, és
a logikailag lehetséges végállomás az, hogy összesen két megkérdezet-
tünk marad. Az ı életkor-jövedelem adataikra már egészen biztosan tö-
kéletesen illeszkedı egyenest tudunk fektetni, kár, hogy ennek semmi
értelme.

12 Ez korántsem olyan egyszerő, hiszen a mi szempontunkból szélsıséges válaszadók


eltávolítása az azonosító szám (CASE NUMBER) alapján történik úgy, hogy az azo-
nosító számot elıször meg kell feleltetnünk a file-ban szereplı sorszámváltozónak,
majd RECODE utasítással létrehozni egy filter változót, amely mentén a számunkra
„érdekes” eseteket le kell válogatni. Próbálja önállóan megoldani ezt a feladatot!

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

220 Túlélıkészlet az SPSS-hez

5.4.2. Vissza az output-hoz

Térjünk vissza a minden esetet tartalmazó modellhez, amelynek „jósá-


gát” mutató R2-e után egy ANOVA táblázat következik (5.8. táblázat),
amely azt teszteli, hogy sikerült-e a regressziós egyenes segítségével ak-
kora részt megragadni a függı változó varianciájából, hogy a független
változó hatását szignifikánsnak tekinthessük.

5.8. táblázat
ANOVAb

Sum of Mean
Model Squares df Square F Sig.
1 Regression 2566,926 1 2566,926 27,690 ,000a
Residual 139236,9 1502 92,701
Total 141803,8 1503
a. Predictors: (Constant), KOR a kérdezett kora
b. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

Az 5.8. táblázatban szereplı elemek már a variancia-analízis fejezetnek


köszönhetıen ismerısnek tőnhetnek. A regresszió sorában szereplı
F-érték szignifikanciája csupa 0-ból áll, ami azt mutatja, hogy az életkor
hatását (REGRESSION) – lett légyen az akármilyen szerény – szignifi-
kánsnak, az alapsokaságra is érvényesnek kell tekintenünk.
Az 5.9. táblázatban találhatjuk meg a regressziós egyenes paraméte-
reit, a konstanst és az egyenes meredekségét jelzı B értéket.

5.9. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 7,638 1,018 7,501 ,000
KOR a kérdezett kora ,147 ,028 ,135 5,262 ,000
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 221

Az egyenes egyenlete tehát: Yˆ = 7,638 + 0,147 ⋅ KOR


Ez azt jelenti, hogy egy évnyi öregedés, átlagosan 147 forint jövede-
lem-emelkedést eredményez, hiszen a jövedelmet ezer forintban mér-
tük. A konstans jelentése: a nulladik életévhez tartozó átlagos jövedelem,
ennek interpretációjával, mint általában mindenféle extrapolációval,
csínján kell bánnunk. A B értékhez tartozó standard hiba arra figyel-
meztet bennünket, hogy mi csak mintával dolgozunk, s ha arra vagyunk
kíváncsiak, hogy az alapsokaságban mekkora jövedelemváltozást ered-
ményez, ha egy évet elmozdulunk az életkor mentén, akkor attól füg-
gıen, hogy milyen megbízhatósági szinten adjuk a becslést, különbözı
szélességő konfidencia-intervallumokat kell konstruálnunk a B érték
köré. Ha 95 százalékos megbízhatósággal akarjuk „belıni” a B értéket,
akkor ±2 standard hiba szélességő konfidencia-intervallumra lesz szük-
ségünk, vagyis azt mondhatjuk, hogy egy évnyi öregedés Magyaror-
szágon 1992-ben (az 50 éves, illetve fiatalabb aktívak körében)
147 Ft ± 2 ⋅ 0,028 (ezer Ft), azaz 91 és 203 Ft közötti jövedelemnöveke-
dést eredményezett.
A táblázatban szereplı BETA érték jelentését akkor fogjuk megérte-
ni, amikor kettı vagy több független változót építünk be egy reg-
ressziós modellbe.
A táblázat utolsó oszlopaiban szereplı t-érték és a hozzá tartozó
szignifikancia azt jelzi, hogy az életkor változó hatása szignifikáns a jö-
vedelemre.13 Amikor egyetlen változónk van, és az ANOVA táblázat
F-értéke már jelzi, hogy a regresszió szignifikáns darabot testesít meg
a függı változó varianciájából, akkor biztosak lehetünk abban, hogy ez
a mi egyetlen független változónk érdeme, tehát természetesnek vehet-

B
13 A t-érték képlete: t = , azaz a B regressziós együttható és a hozzá tartozó
SE B
standard hiba hányadosa. Gyakran teszteljük azt a nullhipotézist, hogy két változó
között nincs lineáris kapcsolat, vagyis, hogy a populációban a regressziós egyenes
meredeksége 0. Ebben az esetben, a Student-féle t eloszlású, fenti képlető t-statisz-
tikát használjuk a nullhipotézis tesztelésére. Az 5.9. táblázat utolsó két oszlopában
tehát a t-statisztika értéke és a hozzá tartozó szignifikancia-érték található. Ha ez
a szignifikancia kisebb, mint 0,05, akkor a „nincs lineáris összefüggés”
nullhipotézist elvetjük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

222 Túlélıkészlet az SPSS-hez

jük, hogy a t-érték szignifikáns kapcsolatot jelez. Majd ha több függet-


len változónk lesz, alaposabban szemügyre kell vennünk a t-értékeket
és a hozzájuk tartozó szignifikanciákat.

5.5. Kétváltozós regressziós modell

Bıvítsük a modellünket a nem változójával, azaz arra a kérdésre keres-


sük a választ, hogy a jövedelem heterogenitásából mennyit magyará-
zunk az életkor és a nem változóival, és azt is meg fogjuk tudni, hogy
a magyarázatból a két független változó hogyan veszi ki a részét.

5.5.1. Kétértékő vagy dummy változók

A nem változójának egy regressziós modellbe való beépítése nem ma-


gától értetıdı, hiszen a fejezet elején leszögeztük, hogy csak magas mé-
rési szintő változókkal dolgozhatunk. A nem pedig abszolút nominális
mérési szintő. A kétértékő változóknak, legyenek akármilyen mérési
szintőek van egy speciális tulajdonságuk: mindig értelmezhetı az átla-
guk. Gondoljuk meg, hogy ha van egy 1000 fıs mintánk, ahol a férfiak
aránya 40, a nıké pedig 60 százalék, akkor a férfiakhoz 0, a nıkhöz
40 ⋅ 0 + 60 ⋅ 1
1-es kódértéket rendelve, az átlag nem más mint = 0,6 . Ez
40 + 60
az átlag az egyes értékkel bírók, vagyis példánkban a nık arányát jelenti.
A kétértékő változók ezen tulajdonsága akkor is megmarad, ha a fér-
fiakat 1-es, a nıket 2-es kódértékkel jelöljük. Ez esetben az átlag 1,6
lesz, amibıl megint csak egyértelmően leolvasható, hogy a 2-es értékkel
bíró nık aránya 60 százalék.
Márpedig ha az átlagnak van értelme, akkor a kétértékő változókat
magas mérési szintőnek kell tekintenünk.14 A kétértékő változókat egyéb-

14 Mindazoknak, akiknek a kétértékő változókról írottak túlságosan gyermetegnek


tőnnek, érdemes végiggondolni a binomiális eloszlásról tanultakat.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 223

ként dummy változóknak is nevezik, és ennek az elnevezésnek azért van


jelentısége, mert késıbb az alacsony mérési szintő változókat éppen
a dummyzás segítségével fogjuk becsempészni a regressziós modellbe.

5.5.2. Modellépítés

A modell tehát két független változót tartalmaz:


REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme2 kor .

A magyarázóerı nem túlságosan nagy, mert a nem és az életkor együt-


tesen a függı változó varianciájának valamivel kevesebb, mint 5 száza-
lékát magyarázza. (5.10. táblázat)

5.10. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,214a ,046 ,045 9,49
a. Predictors: (Constant), KOR a kérdezett kora,
NEME2 a kérdezett neme

A regresszió azonban a teljes heterogenitás szignifikáns hányadát teste-


síti meg. Ezt az F-próbához tartozó szignifikanciából olvashatjuk le.
(5.11. táblázat)
A regressziós B értékekbıl és a konstansból egy regressziós hiper-
sík15 egyenletét írhatjuk fel:
15 A hipersík két független változó esetén valójában egy kétdimenziós sík. Három vagy
több független változó esetén pedig a független változók számával megegyezı
dimenzióban kifeszített – korlátos képzeletünkkel megragadhatatlan – síkot jelent.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

224 Túlélıkészlet az SPSS-hez

Yˆ = B0 + B1 X 1 + B 2 X 2 = 9,285 − 3,243 ⋅ NEME2 + 0,149 ⋅ KOR


Ebben az esetben a konstans értéke a ma született fiúcskák becsült jö-
vedelmét jelenti, mivel a NEME2 változó esetében a 0 érték a férfiakat,
míg az 1 a nıket jelenti.16 (5.12. táblázat)

5.11. táblázat
ANOVAb

Sum of Mean
Model Squares df Square F Sig.
1 Regression 6513,973 2 3256,987 36,135 ,000a
Residual 135289,8 1501 90,133
Total 141803,8 1503
a. Predictors: (Constant), KOR a kérdezett kora, NEME2 a kérdezett neme
b. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

5.12. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 9,285 1,034 8,976 ,000
NEME2 a kérdezett neme -3,243 ,490 -,167 -6,618 ,000
KOR a kérdezett kora ,149 ,028 ,136 5,384 ,000
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

Bármennyire is biztosak lehetünk az F-próba alacsony szignifikanciája


miatt abban, hogy modellünk szignifikáns darabot magyaráz a jövede-
lem heterogenitásából, most minden független változó esetében meg
kell gyızıdnünk arról, hogy ebben a magyarázatban az adott független
változó szignifikáns részt vállalt-e. Az 5.12. táblázatban a nemhez és

16 A Yˆ = B0 + B1 X 1 + B 2 X 2 = 9,285 − 3,243 ⋅ NEME2 + 0,149 ⋅ KOR egyenletben akkor juthatunk


a konstans értékéhez, ha a NEME2 és a KOR változó értéke egyaránt 0, hiszen
ekkor Ŷ = B0 . Tehát a konstans a 0 éves „férfiak” regresszió által becsült jövedel-
mét jelenti.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 225

a korhoz tartozó t-értékek melletti szignifikancia azt jelzi, hogy mindkét


független változó hatása szignifikáns. A független változók magyarázó-
ereje (B) semmiféle átfedést nem tartalmaz. (Emlékezzünk vissza az
ANOVA-modelleknél tárgyalt interferenciára!) A regressziós együtthatók
parciálisak, azaz egy-egy független változó hatása (B) úgy jelenik meg,
hogy közben az összes többi független változó hatása kontroll alatt
van.
A B értékek azt sugallják, hogy a regressziós sík a „nem” dimenzió-
ban sokkal meredekebb, mint a „kor” dimenzióban, hiszen a nemhez
tartozó B érték abszolút értékben lényegesen nagyobb, mint a korhoz
tartozó. Valóban sokkal erısebben befolyásolja a jövedelmet a kérde-
zett neme, mint az életkora? Ahhoz, hogy a kérdésre válaszolhassunk,
vegyük figyelembe, hogy a kor-változó terjedelme, vagyis a minimális és
a maximális értékek közötti különbség 32, míg a nem esetében ez a ter-
jedelem mindössze 1. A jövedelmeknek sokkal több „lehetıségük” van
az életkor mentén elhelyezkedni, mint a pusztán kétértékő NEME2 vál-
tozónál. Ha a magyarázóerı tekintetében versenyeztetni szeretnénk
a változókat, akkor olyan mutatóra lesz szükségünk, amely egyfelıl
mértékegység nélküli, másfelıl a független változók eltérı szóródásából
adódó torzítások kiküszöböltetnek. Ilyen mutató a regressziós béta,
amelyet standardizált regressziós együtthatónak is neveznek. A reg-
ressziós béták kiszámítása úgy történik, hogy az összes változót stan-
dardizált alakban (0 átlaggal és egységnyi szórással) léptetjük be a mo-
dellbe, és a B értékhez hasonló módon kiszámítjuk ezeket a regressziós
együtthatókat. A béta értékek tehát valóban azt mutatják meg, hogy
mely független változó hatása erısebb, a béták elıjele – akárcsak a B-ké
– az összefüggés irányát jelzik, és a konstans ebben a modellben értel-
mét és értékét veszti. A mi modellünk bétái azt mutatják, hogy az élet-
kor és a nem hatásának erıssége alig különbözik. A béták elıjelébıl le-
olvashatjuk, hogy az életkor növekedésével nı a jövedelem, akkor is, ha
a nem hatását kontroll alatt tartjuk, illetve az életkor hatását kiszőrve is
állíthatjuk, hogy a nık kevesebbet keresnek, mint a férfiak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

226 Túlélıkészlet az SPSS-hez

5.5.3. Még egy kicsit a dummy változókról

Ha készítenénk egy statisztikát a forgalomban lévı kérdıívekrıl, azok


elsöprı többségében azt tapasztalnánk, hogy a nem változó esetében az
1-es érték a férfiakat, a 2-es a nıket jelenti. Mi történik akkor, ha a nem
változót ebben a formában építjük be a modellbe? Biztosak lehetünk
abban, hogy a modell magyarázóerejét jelentı R2 és a modell illeszkedé-
sét jelzı F-statisztika ettıl nem fog megváltozni. A regressziós egyen-
letben szereplı együtthatók azonban változnak. (5.13. táblázat)

5.13. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 12,528 1,247 10,049 ,000
NEME a kérdezett neme -3,243 ,490 -,167 -6,618 ,000
KOR a kérdezett kora ,149 ,028 ,136 5,384 ,000
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

Vessük össze az 5.13. és az 5.12. táblázatot. Utóbbiban a NEME2 válto-


zó szerepel, amelyen a férfiak 0, míg a nık 1-es értéket kaptak.
Látható módon eltérést csak a konstans esetében tapasztalunk, azaz
a regressziós sík másutt metszi a jövedelem y tengelyét. Ebben a reg-
ressziós egyenletben a konstans értelmezése szinte lehetetlen, hiszen
azt még elgondolhatjuk, hogy egy ma született csecsemı jövedelmé-
nek becslésérıl van szó, de mit gondoljunk e csecsemı nemérıl?17
Az azonban teljesen világos, hogy ha a regressziós modellt a független
változók „versenyeztetésére” használjuk, vagyis azt akarjuk megtudni,
hogy melyikük milyen erıséggel hat a független változóra, akkor a B, és
így a béta értékek teljesen érzéketlenek arra, hogy a dummy változókat
(0,1) vagy (1,2) értékkel kódoltuk.

17 Ha a NEM változó 1-es értéke a férfi, 2-es értéke a nı, akkor a 0 értéknek csak tan-
könyvbe nem illı, nem túl szellemes, ámde értelmetlen interpretációt adhatunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 227

5.6. Többváltozós regressziós modell

Kézenfekvı, hogy a „mitıl függ a jövedelem” kérdésre keresve a választ,


az iskolázottságnak is helyet kell szorítanunk a modellben. Az iskolai
végzettség azonban ordinális mérési szintő, s ha független változóként
szerepeltetjük egy regresszióelemzésben, megszegjük a magas mérési
szintő változók szerepeltetésre vonatkozó szabályt. Mi a teendı?

5.6.1. Ordinális független változók

Ha az egyes iskolai végzettségbeli fokozatokat az elvégzett osztályok


számával helyettesítjük, a probléma megoldódni látszik, hiszen az el-
végzett osztályok száma intervallum szintő. Ha valaki nem járt iskolába,
akkor nulla osztályt végzett, ha elemi iskolába járt, akkor négyet, ha
polgáriba járt, akkor hatot és így tovább egészen az egyetemig, amely
17 osztály elvégzését jelenti. Biztosak lehetünk abban, hogy ezzel meg-
oldottuk a problémát? Biztosak lehetünk abban, hogy az elvégzett osz-
tályok egynemőek? Igaz-e, hogy az általános iskola négy osztálya éppen
annyit „ér”, mint a gimnázium négy osztálya? A tíz, esetenként tizenegy
év tanulást igénylı szakmunkás végzettséget egyetlen (maximum két)
osztály választja el a gimnáziumi érettségitıl, amely a felsıfokú végzett-
ség megszerzése felé nyit kaput. Sajnos, a válaszokban bizonytalanok
vagyunk, és inkább hajlunk a fenntartások hangoztatására. Az iskolai
végzettség fontos meghatározója a jövedelemnek, mindenképpen sze-
retnénk bevonni a magyarázó modellbe. Nézzük meg, hogy viselkedik
a hétértékő iskolai végzettség és a jövedelem egy ANOVA-modellben. Itt
nem kell tartanunk az iskolázottság mérési szintjétıl, sıt attól sem kell
félnünk, hogy az iskolai végzettség és a jövedelem közötti összefüggés
nem lineáris.18
Az 5.8. ábrán egy fiktív adatokon nyugvó összefüggést láthatunk
az iskolázottság és a jövedelem között. Az apró pontok a tényleges jö-
vedelemeloszlást szemléltetik, a nagy fekete pöttyök pedig az egyes
iskolai végzettségekhez (elvégzett osztályok számához) tartozó jövede-
18 A TBD.KÖNYV_REGRESSZIÓ-ANOVA.SAV file adataiból dolgoztunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

228 Túlélıkészlet az SPSS-hez

lemátlagokat mutatják. A folytonos vonal az iskolázottság és a jövede-


lem közötti regressziós egyenes, a szaggatott vonal pedig egyszerően
összeköti az adott iskolai végzettséghez tartozó jövedelemátlagokat.
Úgy is fogalmazhatunk, hogy a folytonos vonal egy regresszióelemzés,
a szaggatott pedig egy variancia-analízis output-ja. Az ábra jól szemlél-
teti a két eljárás közötti különbséget.

5.8. ábra: Az iskolázottság és a jövedelem összefüggése fiktív adatok alapján

200

180

160

140
jövedelem (ezer Ft)

120

100

80

60

40

20

0
0 2 4 6 8 10 12 14 16 18
elvégzett osztályok száma

Míg a regressziónak az a dolga, hogy az egyes iskolai végzettségekhez


tartozó átlagokat (és így a valóságos jövedelmeket) a lehetı legjobban
közelítse egy egyenessel, addig az ANOVA megelégszik azzal, hogy elénk
tárja ezeket a jövedelemátlagokat, ezzel egy cizelláltabb elemzésre ad-
ván lehetıséget. Az ANOVA-ból jól láthatjuk például, hogy a szakmunká-
sok átlagosan többet keresnek, mint az érettségizettek, vagy hogy a sem-
milyen végzettséggel nem rendelkezıktıl az alapfokú végzettségőekig
haladva az átlagos jövedelmek, ha nem is nagy mértékben, de csökken-
nek. A regresszió ezzel ellentétben inkább egy elnagyolt, az oszcillációt

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 229

figyelmen kívül hagyó alapvetı „trendet” mutat be, mely szerint az is-
kolai végzettség növekedésével nı a jövedelem. Ha rátekintünk az áb-
rára, megérthetjük, hogy miért képes az ANOVA-modell erısebb magya-
rázatra, mint a regresszióelemzés. Példánkban az ETA2 értéke 0,727,
míg a regresszióban az R2 értéke csak 0,422.
A fejezet elején már megfogalmaztuk kétségeinket azt illetıen, hogy
az elvégzett osztályok száma valóban egy intervallum mérési szintő vál-
tozó-e, s hogy háborgó lelkiismeretünket megnyugtathatjuk-e azzal, ha
az ordinális mérési szintő iskolai végzettséget „intervallum mérési szin-
tővé” konvertáljuk. Egy olyan hétfokú iskolai végzettség skála, amely-
nek egyes értékei jól-rosszul, de elkülönítik azokat a végzettség típuso-
kat, amelyek részben meghatározzák a munkaerıpiaci pozíciókat, éppen
úgy alkalmas lehet egy regresszióelemzés független változójaként mő-
ködni, mint az iskolai osztályok száma, amely csak nevében intervallum
mérési szintő. E kijelentésünket nem bizonyítjuk, hiszen lehetetlen is
bizonyítani, mindössze bemutatjuk, hogy ha az iskolai végzettséget
a maga ordinális mivoltában építjük be egy regressziós modellbe a jöve-
delem magyarázatára, sem a megmagyarázott hányad, sem a hatás erıs-
sége nem változik jelentısen. Az ordinális mérési szintő iskolai végzett-
ség által megmagyarázott hányad 0,438, míg ha az iskolai végzettséget
az elvégzett osztályok számával mérjük, akkor 0,422. A béta értéke az el-
sı esetben 0,682, míg a másodikban 0,672.
Mindebbıl az következik, hogy ha olyan ordinális mérési szintő vál-
tozókkal van dolgunk, ahol az egyes kategóriák mögé elkülönült szo-
ciológiai hátteret vetíthetünk, akkor vehetjük a bátorságot, hogy az
adott változót a maga ordinalitásában építsük be a regressziós modell-
be. Egy településtípus változó, amelynek egyes értékei a különféle stá-
tusú településeket különítik el, sok esetben nem írja le rosszabbul a „va-
lóságot”, mint egy olyan arányskála mérési szintő változó, ahol a tele-
pülés típusát az ott élık számával mérjük. Szofisztikáltabb változata
a település változó magasabb mérési szintre való transzformálásának
az, amikor a településstatisztikai adattárból az egyes települések fejlett-
ségét mutató fıkomponens-szkórokat használjuk. Nagyobb merészség
szükséges az olyan ordinális mérési szintő változók független változó-
ként való használatához, amelyek egyes kategóriái mögött nehezen de-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

230 Túlélıkészlet az SPSS-hez

finiálható tartalmak vannak. Ilyenek például a színházba járás, vagy az új-


ságolvasás gyakoriságát mérı, a gyakran, néha, soha alternatívákat felkíná-
ló változók.19

5.6.2. A Lazarsfeld-paradigma és a regresszió

Képzeljünk magunk elé egy elkötelezett polgárjogi harcost, aki adatokkal


akarja bebizonyítani, hogy a romáknak nem a „vérükben van a bőnözési
hajlam”. Elıször elıveszi a bőnözési statisztikákat, és megállapítja, hogy
a börtönlakók között sokkal magasabb a romák aránya, mint az összlakos-
ságon belül. Most tegyük félre azokat a nehezen operacionalizálható érve-
ket, hogy a romákat már a nyomozó hatóságok is könnyebben fogják gya-
núba, hogy gyakran nincs pénzük ügyvédre és hathatós jogi képviselet hiá-
nyában nehezebb azokat a jogi kiskapukat megtalálni, amelyek enyhébb
ítélethez vezetnének. Csak a börtönlakók elıéletére támaszkodva vessünk
egy pillantást néhány olyan szociológiai körülményre, amelyeknek bizonyí-
tottan hatása van a „bőnözési hajlandóságra”. Ha az azonos iskolai vég-
zettségő, azonos életszínvonalon, településszerkezetben stb. élı romákat
és nem romákat tekintjük viszonyítási alapnak, és ezen két „alpopuláció-
ban” vizsgáljuk a börtönbüntetésre ítéltek számát, a roma és nem roma
mutatószámok igen közel esnek egymáshoz.
Hasonló logikával mőködik az a variancia-analízisbıl már ismert mo-
dell is, amely arra a kérdésre keresi a választ, hogy diszkriminálják-e
a nıket a munkaerıpiacon. Nézzük, hogy az életkor, az iskolázottság20 és
a nem, mennyire magyarázza a fıállásból származó jövedelem varianciáját.21

19 Mindaz, amit a fıkomponens-elemzésrıl megtanultunk, bizonyos optimizmussal


tölthet el bennünket a probléma megoldását illetıen, hiszen ha például a kultúrafo-
gyasztást mérı több változót sikerül egy fıkomponenssé aggregálnunk, akkor
megszőnhetnek a mérési szintekkel kapcsolatos aggályaink.
20 Azon ellenérzések leküzdésére, amelyek az ordinális változók független változó-
ként való beépítésére vonatkoznak, az iskolázottság mérésére az elvégzett iskolai
osztályok számát használjuk.
21 Ez a modellünk nem azonos az ANOVA fejezetben megismerttel, mert ebben csak
az aktív korúak szerepelnek. Itt is a TBD.KÖNYV_REGRESSZIÓ.SAV file adataival
dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 231

A következı parancsot futtatjuk:


REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme kor iskoszt .

A modellünk magyarázóereje majdnem 16 százalék. (5.14. táblázat)

5.14. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,400a ,160 ,159 8,91
a. Predictors: (Constant), ISKOSZT elvégzett osztályok
száma, KOR a kérdezett kora, NEME a kérdezett neme

A három független változó elég nagy részt magyaráz meg a jövedelem


heterogenitásából ahhoz, hogy az összefüggést az alapsokaságban is lé-
tezınek tekinthessük. (5.15. táblázat)
5.15. táblázat
ANOVAb

Sum of Mean
Model Squares df Square F Sig.
1 Regression 22741,163 3 7580,388 95,501 ,000a
Residual 119062,6 1500 79,375
Total 141803,8 1503
a. Predictors: (Constant), ISKOSZT elvégzett osztályok száma, KOR a kérdezett
kora, NEME a kérdezett neme
b. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

A t-statisztikák azt mutatják, hogy a magyarázatból minden független


változó kivette a részét, mindegyikük hatása szignifikáns. A jövedelmet
legerısebben az iskolázottság (β=0,339) befolyásolja, azután a nem
(β=–0,180), majd a kor (β=0,126) következik a sorban. Láthatjuk, hogy
ha azonos életkorú és iskolázottságú férfiakat és nıket hasonlítunk

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

232 Túlélıkészlet az SPSS-hez

össze, akkor is igaz, hogy a nık kevesebbet keresnek, mint a férfiak.


Jóllehet az életkorral és az iskolázottsággal nem fogtuk be az összes
olyan tényezıt, amely befolyásolja a jövedelem nagyságát, de a közhe-
lyen – mely szerint a nık korral is összefüggı szakképzetlenségük miatt
keresnek kevesebbet – erıs fogást találtunk. (5.16. táblázat)

5.16. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -1,892 1,545 -1,225 ,221
NEME a kérdezett neme -3,505 ,460 -,180 -7,616 ,000
KOR a kérdezett kora ,138 ,026 ,126 5,342 ,000
ISKOSZT elvégzett
1,346 ,094 ,339 14,298 ,000
osztályok száma
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

Nézzük, hogyan mutat ez a modell akkor, ha az ANOVA-t hívjuk segít-


ségül. A két modell között nem lehet teljes a megfelelés, hiszen az
ANOVA-ban iskolai osztályok helyett az iskolai végzettség fokozatait
kell használnunk, és a „folytonos” kor-változót kategoriálissá kell alakí-
tanunk.22 A lefuttatott parancs a következı:
ANOVA
VARIABLES=fojov
BY kor3 (1 3) isk7 (1 7) neme (1 2)
/STATISTICS MCA MEAN
/METHOD HIERARCHICAL
/FORMAT LABELS .

22 Az ANOVA-modellben ügyelnünk kell arra, hogy a hierarchikus módszert használva


a nem változót utolsóként emeljük be a modellbe, ha valóban azt akarjuk, hogy
a nem hatását úgy mérjük a jövedelemre, hogy közben az életkort és az iskolázott-
ságot kontroll alatt tartjuk. Ilyen sorrendi megkötöttség a regresszió-analízisben
nincs.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 233

Látható, hogy az ANOVA is azzal a tanulsággal szolgál, hogy az azonos


korú és iskolázottságú férfiak és nık közötti jövedelemkülönbség még
mindig szignifikáns. (5.17. táblázat)
A független változók parciális hatását mutató BETA-k arra hívják fel
a figyelmet, hogy a nem önálló magyarázóereje kisebb (ETA=0,166),
mint az a magyarázóerı, amelyet akkor produkál, ha az életkor és az
iskolázottság hatását kiszőrjük (BETA=0,187). (5.18. táblázat)

5.17. táblázat
ANOVAa

Hierarchical Method
Sum of Mean
Squares df Square F Sig.
FOJOV Main (Combined) 25501,393 9 2833,488 36,901 ,000
fõállásból Effects KOR3 három kategóriás
havi nettó 3049,877 2 1524,938 19,859 ,000
életkor
jöv. (1000 Ft) ISK7 hét kategóriás
17793,792 6 2965,632 38,621 ,000
iskolai végzettség
NEME a kérdezett neme 4657,724 1 4657,724 60,658 ,000
2-Way (Combined) 3521,833 20 176,092 2,293 ,001
Interactions KOR3 három kategóriás
életkor * ISK7 hét
2244,469 12 187,039 2,436 ,004
kategóriás iskolai
végzettség
KOR3 három kategóriás
életkor * NEME a 358,221 2 179,110 2,333 ,097
kérdezett neme
ISK7 hét kategóriás
iskolai végzettség * 650,262 6 108,377 1,411 ,207
NEME a kérdezett neme
3-Way KOR3 három kategóriás
Interactions életkor * ISK7 hét
kategóriás iskolai 517,645 12 43,137 ,562 ,874
végzettség * NEME a
kérdezett neme
Model 29540,871 41 720,509 9,383 ,000
Residual 112262,9 1462 76,787
Total 141803,8 1503 94,347
a. FOJOV fõállásból havi nettó jöv. (1000 Ft) by KOR3 három kategóriás életkor, ISK7 hét kategóriás
iskolai végzettség, NEME a kérdezett neme

Az aktív korú népességre tehát nem egyszerően azt mondhatjuk, hogy


a nık kevesebbet keresnek, mint a férfiak, hanem azt is, hogy a nık jö-
vedelemhátránya még fokozottabb, ha azonos korú és iskolázottságú
férfiakéval hasonlítjuk össze a jövedelmüket. Mielıtt bemutatnánk,
hogy hogyan lehet az ANOVA-ból ismert interferenciát egy regressziós

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

234 Túlélıkészlet az SPSS-hez

modellben is tetten érni, még megemlítjük, hogy az ANOVA-modell ma-


gyarázóerejét – mivel a kor és az iskolázottság között szignifikáns inter-
akció van – a megmagyarázott és a teljes négyzetösszeg hányadosaként
definiált torzított korrelációs együtthatóval (E2) mérjük, amelynek érté-
ke 0,208. Ez az érték magasabb mint, amit a regressziós modellben ta-
pasztaltunk (R2=0,159).23

5.18. táblázat
Factor Summarya

Beta
Adjusted
Eta for Factors
FOJOV fõállásból havi KOR3 három
,147 ,117
nettó jöv. (1000 Ft) kategóriás életkor
ISK7 hét kategóriás
,364 ,364
iskolai végzettség
NEME a kérdezett neme ,166 ,187
a. FOJOV fõállásból havi nettó jöv. (1000 Ft) by KOR3 három kategóriás
életkor, ISK7 hét kategóriás iskolai végzettség, NEME a kérdezett
neme

5.7. Interferencia a regresszióban: a változószelektálás


módszerei
A regresszióanalízis parancssorával való ismerkedés során már talál-
koztunk a METHOD=ENTER kifejezéssel, de bıvebb magyarázatot nem
főztünk hozzá. Itt az idı, hogy szemügyre vegyük, milyen lehetıségeket
kínál nekünk az SPSS regresszió lefuttatására. A kínálatból négyféle mód-
szerrel foglalkozunk részletesen: a FORWARD, a BACKWARD, a STEPWISE
és az ENTER módszerrel.24

23 A két modell magyarázóereje közötti eltérés okait már részletesen tárgyaltuk az


5.6.1. fejezetben.
24 Az SPSS egy további módszert is felkínál: a REMOVE módszert. Ezzel nem foglal-
kozunk. Arra is fel kell hívnunk a figyelmet, hogy a módszer megválasztásának
csak akkor van jelentısége, ha legalább két magyarázó változó szerepel a mo-
dellben.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 235

5.7.1. A FORWARD módszer

A FORWARD módszer egyesével lépteti be a magyarázó változókat


a modellbe. Elsıként az a független változó lép be, amely a legerıseb-
ben korrelál (Pearson-féle lineáris korreláció) a függı változóval. A má-
sodikként belépı független változót már a parciális korrelációk erıssége
szerint választja ki a program. Emlékezzünk, hogy a parcialitás ebben
az esetben azt jelenti, hogy a bevonásra váró változók milyen erısen
hatnak a függı változóra akkor, ha a már bevont független változót
kontroll alatt tartjuk. Más szavakkal: a program azt vizsgálja minden
még bevonásra váró független változóra külön-külön, hogy a beléptetés
mennyire növelné meg a – már beléptetett független változó(k) által –
megmagyarázott hányadot. Az a független változó fog másodikként be-
lépni a modellbe, amely a megmagyarázott hányad legnagyobb növek-
ményét szolgáltatja. Az újonnan belépı változók közötti választás krité-
riuma tehát a következı:
σ 2 (Y ) − σ 2 (reziduális ) k +1 ,
FENTER =
σ 2 (Y ) − σ 2 (reziduális ) k
ahol k a már bevont változók számát jelenti.
Az a változó lép be tehát a modellbe, amelyhez tartozó FENTER érték
a legnagyobb (illetve az adott FENTER értékhez tartozó szignifikancia
a legkisebb). Ha eljutunk addig a pontig, hogy az újonnan beléptetendı
változó hatására már csak olyan kissé növekszik a megmagyarázott há-
nyad, azaz olyan kicsi FENTER érték tartozik hozzá, amelynek szignifi-
kanciája nagyobb, mint 0,05, akkor a modellépítés befejezıdik.25
Nézzünk egy konkrét példát. A modell arra vonatkozik, hogy a gyer-
mekkori sanyarú sors mennyire befolyásolja a felnıttkori karriert.26
A gyermekkori sorsot négy változóval operacionalizáljuk: a gyerekkori
családnagysággal (GYHANYFO), azzal, hogy volt-e villany a lakásban

25 A 0,05-ös szignifikancia-szintet az OPTIONS ablakban mi magunk is megváltoztat-


hatjuk, szigorúbb 0,01, vagy akár 0,001-es szignifikancia-szintet választva, és ezzel
szőkítve a még beléptethetı változók körét. Ugyanebben az ablakban magát
az FENTER küszöbértékét is változtathatjuk, de ennek csak akkor van értelme, ha
az F eloszlástáblázat ismeretében cselekszünk.
26 A TBD.KÖNYV_FORWARD-BACKWARD-ENTER.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

236 Túlélıkészlet az SPSS-hez

(GYVILLAN), harmadik változónk azt méri, hogy kellett-e valakinek fő-


tetlen szobában aludni (GYFUTLEN), a negyedik pedig azt, hogy éhe-
zett-e gyermekkorában a megkérdezett (GYEHES2). A felnıttkori kar-
riert pedig a fıállásból származó jövedelemmel jelenítjük meg (FOJOV).
Az SPSS parancssor a következı:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=FORWARD gyvillan gyhanyfo gyfutlen gyehes2 .

Az outputból elıször a magyarázó változók belépésének „történetét”


vegyük szemügyre. (5.19. táblázat)

5.19. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 8,026 ,299 26,842 ,000
GYVILLAN gyerekkori
3,195 ,353 ,167 9,063 ,000
lakásban volt-e villany
2 (Constant) 9,888 ,573 17,267 ,000
GYVILLAN gyerekkori
2,809 ,366 ,147 7,676 ,000
lakásban volt-e villany
GYHANYFO gyerekkori
-,300 ,079 -,073 -3,809 ,000
háztartásban élõk száma
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

Elsıként, mint legerısebb magyarázó változó a GYVILLAN változó lé-


pett be a modellbe, 0,167-es béta együtthatóval. A második lépésben
a GYHANYFO változó is bekerült a modellbe –0,073-as béta értékkel.
Azt is vegyük észre, hogy gyerekkori családnagyság belépése módo-
sította a GYVILLAN béta értékét 0,147-re. A végsı modell tehát azt mu-
tatja, hogy azok keresnek többet, akik gyermekkorukban olyan lakásban
éltek, ahol volt villanyvilágítás és a családjuk nem volt nagylétszámú.
Az a tény, hogy a gyerekkori lakásban volt-e villany, összefügg az ott

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 237

élı család nagyságával, hiszen a villany és a jövedelem közötti összefüg-


gés erısségét 0,167-es béta érték jelzi, ha ez az egyetlen független válto-
zónk van a modellben, viszont ha a családnagyságot is beemeljük, ak-
kor ennek a változónak a hatása 0,147-re csökken. A regressziós modell
két független változója közötti összefüggést éppen úgy interferenciának
nevezzük, mint azt az ANOVA-modellben tettük. Nézzük meg, mi tör-
tént a többi független változóval. (5.20. táblázat)

5.20. táblázat
Excluded Variablesc

Collinearity
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
1 GYHANYFO gyerekkori a
-,073 -3,809 ,000 -,071 ,923
háztartásban élõk száma
GYFUTLEN gyerekkorban a
valaki aludt-e fûtetlen -,027 -1,460 ,144 -,027 ,967
szobában
GYEHES2 éhezett-e a
-,031 -1,605 ,109 -,030 ,921
gyerekkorában
2 GYFUTLEN gyerekkorban b
valaki aludt-e fûtetlen -,017 -,906 ,365 -,017 ,946
szobában
GYEHES2 éhezett-e b
-,017 -,862 ,389 -,016 ,883
gyerekkorában
a. Predictors in the Model: (Constant), GYVILLAN gyerekkori lakásban volt-e villany
b. Predictors in the Model: (Constant), GYVILLAN gyerekkori lakásban volt-e villany, GYHANYFO
gyerekkori háztartásban élõk száma
c. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

Láthatjuk, hogy a GYFUTLEN és a GYEHES2 változók nem kerültek be


a végsı modellbe, és ennek az az oka, hogy a fıjövedelem heterogeni-
tásából a GYVILLAN és a GYHANYFO által megmagyarázatlanul hagyott
részbıl már egyikük sem tud szignifikáns darabot megmagyarázni. Azt
a tényt, hogy mindkét változó „érdemtelen” a belépésre, a változó mel-
lett szereplı t-érték, illetve a hozzá tartozó szignifikancia jelzi. (5.20.
táblázat) Azt látjuk, hogy mindkét szignifikancia meghaladja a bővös
0,05-ös értéket, csak azt nem értjük, hogy ha a modell a megmagyará-
zott hányadnövekményének relevanciáját eldöntı F-próbával dolgozik,
akkor most miért t-próbákkal jelezzük a változók „alkalmatlanságát”.
A magyarázat részben technikai: semmi akadálya sem lenne annak,

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

238 Túlélıkészlet az SPSS-hez

hogy a be nem léptetett változók mellett egy F-statisztika értéke és szig-


nifikanciája szerepeljen, megmutatván, hogy a változók beléptetése
mennyire kicsiny (nem szignifikáns) növekedést idézne elı a megma-
gyarázott hányadban. Ugyanakkor azt is tudnunk kell, hogy a késıbb
ismertetendı ENTER módszer esetében, ahol minden független változó
– tekintet nélkül arra, hogy szignifikáns vagy nem szignifikáns magya-
rázatot produkál a függı változó viselkedésében – belép a modellbe,
olyan statisztikára van szükségünk, amely minden független változóra
külön-külön jelzi, hogy az összes többi független változó hatásán túl
képes-e még szignifikáns darabot hozzátenni a magyarázathoz. Erre
a kérdésre a t-statisztika adja meg a választ: ha mellette 0,05-nél kisebb
szignifikancia látható, akkor az adott változó parciális hatása szigni-
fikáns. Ezt a formát ırzi az SPSS output, amikor az EXLUDED VARIABLES
táblázatban a kimaradt változók mellett t-statisztikával indokol.

5.7.2. A BACKWARD módszer

A BACKWARD módszer, mint a neve is mutatja, a FORWARD módszer


ellentéte. Az elsı lépésben valamennyi független változó benne van
a modellben, és a „hulljon a férgese” elv alapján elıször a leggyengébb
parciális magyarázatot produkáló független változó kerül ki a modell-
bıl. A „rossz” független változók kidobálása mindaddig folytatódik,
míg a modellben benne lévı változók mindegyikérıl elmondható, hogy
parciális magyarázata szignifikáns. A modellbıl való kikerülés kritériu-
mát egy F-statisztika fogalmazza meg: az a változó kerülhet ki a mo-
dellbıl, amelynek elhagyása nem csökkenti érdemben a megmagyaráz-
ott hányadot. Az FREMOVE statisztika képlete a következı:
σ 2 ( Y ) − σ 2 ( reziduális )k
FREMOVE = 2 ,
σ ( Y ) − σ 2 ( reziduális )k −1
ahol k a még bent lévı változók számát jelenti. Tehát az a változó kerül
ki a modellbıl, amelyhez tartozó FREMOVE érték a legkisebb, illetve az
adott FREMOVE értékhez tartozó szignifikancia a legnagyobb. 27

27 Természetesen a szignifikancia „küszöbértéke” alapesetben itt is 0,05.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 239

Az SPSS parancssor a következı:


REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=BACKWARD gyvillan gyhanyfo gyfutlen gyehes2 .

Nézzük elıször a modellben szereplı változókat.

5.20. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 10,017 ,588 17,044 ,000
GYVILLAN gyerekkori
2,703 ,378 ,141 7,150 ,000
lakásban volt-e villany
GYHANYFO gyerekkori
-,278 ,081 -,067 -3,427 ,001
háztartásban élõk száma
GYFUTLEN gyerekkorban
valaki aludt-e fûtetlen -,403 ,494 -,016 -,817 ,414
szobában
GYEHES2 éhezett-e
-,261 ,340 -,015 -,767 ,443
gyerekkorában
2 (Constant) 9,920 ,574 17,289 ,000
GYVILLAN gyerekkori
2,764 ,369 ,144 7,481 ,000
lakásban volt-e villany
GYHANYFO gyerekkori
-,289 ,080 -,070 -3,631 ,000
háztartásban élõk száma
GYFUTLEN gyerekkorban
valaki aludt-e fûtetlen -,445 ,491 -,017 -,906 ,365
szobában
3 (Constant) 9,888 ,573 17,267 ,000
GYVILLAN gyerekkori
2,809 ,366 ,147 7,676 ,000
lakásban volt-e villany
GYHANYFO gyerekkori
-,300 ,079 -,073 -3,809 ,000
háztartásban élõk száma
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

Az elsı lépésben valamennyi független változó szerepel a modellben,


jóllehet kettırıl is látszik, hogy nem járul hozzá szignifikánsan a jöve-
delem magyarázatához. (5.20. táblázat) Az elsı lépésben az abszolút ér-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

240 Túlélıkészlet az SPSS-hez

tékben legkisebb t-értéket produkáló GYEHES2 változó kerül ki a mo-


dellbıl. Az interferencia miatt a változó elhagyásával a bent maradó
változókhoz tartozó t-értékek módosulnak.28 A kiesésre esélyes másik
deprivációt mérı változónk, a főtetlen szobában való alvás t-értéke
meg is nıtt valamelyest, de nem eléggé, így a következı lépésben ez
a változónk is a kisesés sorsára jut. A végsı modellben szereplı vál-
tozók éppen azok, amelyek a FORWARD módszer esetében is szignifi-
kánsnak bizonyultak.
Az 5.21. táblázat az egyes lépésekben kiesett változókat tartalmazza.

5.21. táblázat
Excluded Variablesc

Collinearit
y
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
2 GYEHES2 éhezett-e a
-,015 -,767 ,443 -,014 ,873
gyerekkorában
3 GYEHES2 éhezett-e b
-,017 -,862 ,389 -,016 ,883
gyerekkorában
GYFUTLEN gyerekkorban b
valaki aludt-e fûtetlen -,017 -,906 ,365 -,017 ,946
szobában
a. Predictors in the Model: (Constant), GYFUTLEN gyerekkorban valaki aludt-e fûtetlen szobában,
GYHANYFO gyerekkori háztartásban élõk száma, GYVILLAN gyerekkori lakásban volt-e villany
b. Predictors in the Model: (Constant), GYHANYFO gyerekkori háztartásban élõk száma,
GYVILLAN gyerekkori lakásban volt-e villany
c. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

A BACKWARD módszer semmit sem árul el a modellben bent maradt


változók közötti interferenciáról. Éppen ennek köszönheti, hogy a tár-
sadalomtudományi elemzésekben csak ritkán használják.

28 A t-értékek nemcsak az interferencia, hanem az egész modell szabadságfokának


csökkenése miatt is változtak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 241

5.7.3. A STEPWISE módszer

A STEPWISE módszerben az a csodálatos, hogy egyetlen, a modellbe


már bekerült független változónak sincs „bérelt helye”. Ha egy új válto-
zó beléptetésével egy már bent lévı változó magyarázóereje oly mér-
tékben lecsökken, hogy a hozzá tartozó t-érték nem szignifikáns ma-
gyarázatot jelez, a „legyengült” változó kilép a modellbıl.
A folyamat illusztrálására egy olyan regressziós modellt vizsgálunk
meg, amely nem valós adatokon alapul.29 A függı változót (Y) három
független változóval kíséreljük meg magyarázni (X1, X2, X3). Az SPSS
parancssor a következı:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT y
/METHOD=STEPWISE x1 x2 x3 .

Az output táblákból (5.22. és 5.23. táblázat) a be- és kilépések „törté-


netét” érdemes szemügyre vennünk.
Elsıként az X3 változó lép be a modellbe, mert a függı változóval
ez a változó korrelál a legerısebben. A hatás erısségét 0,876-os béta
érték jellemzi. Ha megnézzük az 5.23. táblázat 1-es számmal jelölt
részét, láthatjuk, hogy a második lépésben való bekerülésre az X1 vál-
tozó esélyesebb, hiszen a hozzá tartozó t-érték magasabb. Az X3 válto-
zóhoz tartozó béta érték a második lépésben az X1 változó belépésével
0,525-re csökken, a két független változó közötti interferenciának
köszönhetıen. A harmadik lépésnek didaktikai funkciója van: az 5.23.
táblázat 2-es számmal jelölt sora mutatja, hogy az X2 változónak „joga
van” belépni a modellbe, hiszen parciális magyarázóereje szignifikáns.
Az X2 változó belépésével azonban az X2 és X3 közötti interferencia
miatt az X3 elveszíti szignifikáns magyarázóerejét, így kerül sor a negye-
dik, korrekciós lépésre, amely a már egyszer bekerült X3 változót kiveti

29 A TBD.KÖNYV_STEPWISE-ILLUSZTRÁCIÓ.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

242 Túlélıkészlet az SPSS-hez

a modellbıl. A kivetés a bevont változókat tartalmazó 5.24. táblázat


szerint jogos, hiszen az X1 és X2 magyarázó változók bevonása után az
X3 változóhoz tartozó t-érték szignifikanciája 0,359-re nı.

5.22. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -,306 ,100 -3,065 ,002
X3 ,347 ,009 ,876 37,148 ,000
2 (Constant) ,697 ,103 6,765 ,000
X3 ,208 ,012 ,525 17,765 ,000
X1 ,190 ,012 ,456 15,408 ,000
3 (Constant) 3,482 ,767 4,541 ,000
X3 4,280E-02 ,047 ,108 ,918 ,359
X1 ,376 ,052 ,903 7,191 ,000
X2 -,239 ,065 -,302 -3,664 ,000
4 (Constant) 4,181 ,095 44,236 ,000
X1 ,424 ,009 ,982 49,759 ,000
X2 -,297 ,016 -,376 -18,377 ,000
a. Dependent Variable: Y

5.23. táblázat
Excluded Variablesd

Collinearit
y
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
1 X1 ,456a 15,408 ,000 ,602 ,407
X2 ,275a 13,559 ,000 ,553 ,942
2 X2 -,302b -3,664 ,000 -,177 5,072E-02
4 X3 ,108c ,918 ,359 ,045 2,497E-02
a. Predictors in the Model: (Constant), X3
b. Predictors in the Model: (Constant), X3, X1
c. Predictors in the Model: (Constant), X1, X2
d. Dependent Variable: Y

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 243

Ha a modellünket FORWARD módszerrel futtatjuk, akkor a végsı


output-ban (5.24. táblázat) az X3 változó is benne szerepel magyarázó
változóként. A FORWARD módszer védelmében annyit mondhatunk,
hogy az X3-hoz tartozó t-érték szignifikanciája jelzi, hogy az X3 változó
parciális magyarázóereje nem szignifikáns.

5.24. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -,306 ,100 -3,065 ,002
X3 ,347 ,009 ,876 37,148 ,000
2 (Constant) ,697 ,103 6,765 ,000
X3 ,208 ,012 ,525 17,765 ,000
X1 ,190 ,012 ,456 15,408 ,000
3 (Constant) 3,482 ,767 4,541 ,000
X3 4,280E-02 ,047 ,108 ,918 ,359
X1 ,376 ,052 ,903 7,191 ,000
X2 -,239 ,065 -,302 -3,664 ,000
a. Dependent Variable: Y

5.25. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 3,482 ,767 4,541 ,000
X1 ,376 ,052 ,903 7,191 ,000
X2 -,239 ,065 -,302 -3,664 ,000
X3 4,280E-02 ,047 ,108 ,918 ,359
2 (Constant) 4,181 ,095 44,236 ,000
X1 ,424 ,009 ,982 49,759 ,000
X2 -,297 ,016 -,376 -18,377 ,000
a. Dependent Variable: Y

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

244 Túlélıkészlet az SPSS-hez

A BACKWARD módszerrel ebben az esetben ugyanahhoz a végsı out-


put-hoz jutunk, mint a STEPWISE módszerrel. (5.25. táblázat) A BACKWARD
módszer azonban semmit sem árul el az X3 változó kalandos útjáról,
arról, hogy bár kezdetben ı volt a legerısebb magyarázó változó, végül
a versenytársak megfosztották magyarázóerejétıl. Sic transit gloria
mundi …

5.7.4. Az ENTER módszer

Az ENTER módszer alkalmazása azt jelenti, hogy valamennyi magyarázó


változónk belép a modellbe, tekintet nélkül arra, hogy parciális hatása
szignifikáns-e vagy sem. Az ENTER módszer bemutatásához ugyanazzal
a modellel dolgozunk, mint amelyet már a FORWARD módszer tárgyalá-
sakor megismertünk.30 A fıfoglalkozásból származó jövedelemmel jel-
zett karriert magyarázzuk a starthelyzettel, amelyet a gyerekkori lakás-
körülményekkel (GYVILLAN, GYHANYFO, GYFUTLEN) és a kibocsátó
családban megélt deprivációval (GYEHES2) mértünk.
Az SPSS parancssor a következı:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER gyvillan gyhanyfo gyfutlen gyehes2 .

A gyermekkori életviszonyoknak csekély a befolyása a jelenlegi jövedel-


mi helyzetre: a modell magyarázóereje (ADJUSTED R SQUARE) alig ha-
ladja meg a 3 százalékot, jóllehet a modell szignifikáns. (5.26. és 5.27.
táblázat)

30 Ismét a TBD.KÖNYV_FORWARD-BACKWARD-ENTER.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 245

5.26. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,182a ,033 ,032 8,46
a. Predictors: (Constant), GYEHES2 éhezett-e
gyerekkorában, GYFUTLEN 11. gykorban vki fütetlen
szobában aludt, GYHANYFO 8. gyerekkori háztartásban
élök száma, GYVILLAN 13.1. gykori lakban villany

5.27. táblázat
ANOVAb

Sum of Mean
Model Squares df Square F Sig.
1 Regression 7043,382 4 1760,846 24,606 ,000a
Residual 204664,7 2860 71,561
Total 211708,1 2864
a. Predictors: (Constant), GYEHES2 éhezett-e gyerekkorában, GYFUTLEN 11.
gykorban vki fütetlen szobában aludt, GYHANYFO 8. gyerekkori háztartásban
élök száma, GYVILLAN 13.1. gykori lakban villany
b. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

A gyermekkori életviszonyokat megjelenítı változókból nem mind-


egyik hatása bizonyult szignifikánsnak. Éppen úgy, mint a FORWARD és
a BACKWARD módszerrel futatott regressziós modellben, a gyerekkori
családlétszám és a villany léte, illetve hiánya a gyerekkori lakásban be-
folyásolja szignifikánsan a felnıttkori jövedelem nagyságát. (5.28. táb-
lázat)
Az ENTER és a BACKWARD/FORWARD módszer adta béták között
apró eltéréseket figyelhetünk meg. Ennek az az oka, hogy a BACKWARD,
illetve a FORWARD módszer csak a jövedelemre szignifikánsan ható füg-
getlen változókat építette be a modellbe, míg az ENTER módszer mind-
egyiket. Mivel az egyébként nem szignifikáns magyarázatot jelentı füg-
getlen változók interferálnak a modellben szereplı egyéb független vál-
tozókkal, „bentlétük” megváltoztatja a béta értékeket.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

246 Túlélıkészlet az SPSS-hez

5.28. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 10,017 ,588 17,044 ,000
GYVILLAN 13.1. gykori
2,703 ,378 ,141 7,150 ,000
lakban villany
GYHANYFO 8. gyerekkori
-,278 ,081 -,067 -3,427 ,001
háztartásban élök száma
GYFUTLEN 11. gykorban
vki fütetlen szobában -,403 ,494 -,016 -,817 ,414
aludt
GYEHES2 éhezett-e
-,261 ,340 -,015 -,767 ,443
gyerekkorában
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

5.8. Nominális mérési szintő változók becsempészése


a regressziós modellbe: dummyzás
Az empirikus szociológiai felvételek – sajnos – nem túlságosan gazda-
gok magas mérési szintő változókban, és ráadásul egy változó fontossá-
ga nincs arányban a mérési szint magasságával. Ha a jövedelem magya-
rázatára építünk fel modelleket, nem maradhat ki belılük a foglalkozás.
Ha az egy fıre jutó jövedelmek viselkedését vizsgáljuk, akkor a család-
szerkezet nominális változójától várhatunk erıs magyarázatot. Ezek a pél-
dák segítenek bennünket abban, hogy megértsük, egy függı változó
magyarázatából nem rekeszthetünk ki vele szoros kapcsolatban álló vál-
tozókat pusztán azért, mert az adott független változó történetesen no-
minális mérési szintő. Ugyanakkor a fejezet elején szigorúan leszögez-
tük, hogy regressziós modellben csak magas mérési szintő változóknak
van helye.31 Az ellentmondás feloldására egy sajátos módszert alkalma-
zunk: a „dummyzást”. A „dummyzás” azt jelenti, hogy egy nominális
változóból annyi darab, kétértékő (dummy) változót hozunk létre,
ahány kategóriája van az eredeti nominális változónak. Nézzünk egy

31 Az ordinális független változók kezelését az 5.6.1. fejezetben tárgyaltuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 247

példát. Ötkategóriás foglalkozás változónk megoszlását az 5.29. táblá-


zatban láthatjuk.32

5.29. táblázat
FOGL5 öt kategóriás foglalkozás

Valid Cumulativ
Frequency Percent Percent e Percent
Valid 1,00 szakképzetlen fizikai 1001 38,4 38,7 38,7
2,00 szakképzett fizikai 694 26,6 26,8 65,5
3,00 egyszerû szellemi 443 17,0 17,1 82,6
4,00 értelmiségi,vezetõ 337 12,9 13,0 95,6
5,00 vállalkozó 113 4,3 4,4 100,0
Total 2588 99,3 100,0
Missing System 19 ,7
Total 2607 100,0

Ha a nominális változónak öt kategóriája van, akkor a dummyzás defi-


níciója szerint az a dolgunk, hogy öt darab kétértékő változót hozzunk
létre. Az elsı dummy változónk neve a SZTLEN lesz, amelynek 1-es ér-
téke azt jelzi, hogy az illetı szakképzetlen fizikai foglalkozású, 0 értéke
pedig azt, hogy nem. (5.30. táblázat)
RECODE fogl5 (1=1) (2 thru 5=0) INTO sztlen.
VARIABLE LABELS sztlen ’szakképzetlen fizikai-e’.
VALUE LABELS sztlen
0’nem’ 1’igen’.

5.30. táblázat
SZTLEN szakképzetlen fizikai-e

Valid Cumulativ
Frequency Percent Percent e Percent
Valid ,00 nem 1587 60,9 61,3 61,3
1,00 igen 1001 38,4 38,7 100,0
Total 2588 99,3 100,0
Missing System 19 ,7
Total 2607 100,0

32 A TBD.KÖNYV_DUMMY.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

248 Túlélıkészlet az SPSS-hez

A következı dummy változónk a SZKEPZ nevet viseli. A változó elké-


szítési módja éppen olyan, mint az elızı dummy változóé:
RECODE fogl5 (2=1) (1=0) (3 thru 5=0) INTO szkepz.
VARIABLE LABELS szkepz ’szakképzett fizikai-e’.
VALUE LABELS szkepz
0’nem’ 1’igen’.

A változónk – a FOGL5 változóból kikövetkeztethetı – megoszlását az


5.31. táblázat mutatja.

5.31. táblázat
SZKEPZ szakképzett fizikai-e

Valid Cumulativ
Frequency Percent Percent e Percent
Valid ,00 nem 1894 72,7 73,2 73,2
1,00 igen 694 26,6 26,8 100,0
Total 2588 99,3 100,0
Missing System 19 ,7
Total 2607 100,0

Hasonlóképpen hozzunk létre a maradék három dummy változót


EGYSZELL, ERTVEZ és VALLAL néven. Mielıtt bemutatnánk, hogy mi-
hez is kezdjünk a dummy változókkal a regressziós modellben, vizsgál-
juk meg a jövedelem és a foglalkozás kapcsolatát ismerıs terepen: fut-
tassunk ANOVA-t.
ANOVA
VARIABLES=fojov
BY fogl5 (1 5)
/STATISTICS MCA MEAN
/METHOD HIERARCHICAL
/FORMAT LABELS .

Nézzük elıször a foglalkozáskategóriákhoz tartozó jövedelemátlagokat.


(5.32. táblázat) Az egész mintára jellemzı átlagtól az értelmiségi, illetve
vezetı foglalkozásúak jövedelemátlaga van a legtávolabb, és a szakkép-
zett fizikaiaké a legközelebb. Ennek a kijelentésnek a két változó közöt-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 249

ti kapcsolat természetét bemutató elemzéshez viszonylag kevés köze


van, de látni fogjuk, hogy amikor a foglalkozás dummy változóit épít-
jük majd be egy regressziós modellbe, ennek az észrevételnek még sok
hasznát vesszük.
5.32. táblázat
Cell Meansb

FOJOV 129. föállásból


FOGL5 öt kategóriás havi nettó jöv. 1000Ft
foglalkozás Mean N
1,00 szakképzetlen fizikai 8,60 1001
2,00 szakképzett fizikai 11,74 694
3,00 egyszerû szellemi 12,60 443
4,00 értelmiségi,vezetõ 17,59 337
5,00 vállalkozó 14,01 113
Total 11,53a 2588
a. Grand Mean
b. FOJOV 129. föállásból havi nettó jöv. 1000Ft
by FOGL5 öt kategóriás foglalkozás

Jól láthatjuk, hogy a foglalkozás szignifikáns hatással van a jövedelemre:


az F-értékhez tartozó szignifikancia csupa nullából áll. (5.33. táblázat)

5.33. táblázat
ANOVAa

Hierarchical Method
Sum of Mean
Squares df Square F Sig.
FOJOV fõállásból Main FOGL5 öt
havi nettó jöv. Effects kategóriás 22210,047 4 5552,512 89,057 ,000
1000Ft foglalkozás
Model 22210,047 4 5552,512 89,057 ,000
Residual 161044,0 2583 62,348
Total 183254,0 2587 70,836
a. FOJOV 129. föállásból havi nettó jöv. 1000Ft by FOGL5 öt kategóriás foglalkozás

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

250 Túlélıkészlet az SPSS-hez

A foglalkozás változójának magyarázóereje 0,348, a megmagyarázott


hányad pedig 12 százalék. (5.34. és 5.35. táblázat)

5.34. táblázat
Factor Summarya

Beta
Adjusted
Eta for Factors
FOJOV 129. föállásból FOGL5 öt kategóriás
,348 ,348
havi nettó jöv. 1000Ft foglalkozás
a. FOJOV 129. föállásból havi nettó jöv. 1000Ft by FOGL5 öt
kategóriás foglalkozás

5.35. táblázat
Model Goodness of Fit

R R Squared
FOJOV 129. föállásból
havi nettó jöv. 1000Ft
,348 ,121
by FOGL5 öt
kategóriás foglalkozás

Nézzük meg, mi történik akkor, ha a nominális mérési szintő FOGL5


változó helyett az öt dummy változót építjük be egy regressziós mo-
dellbe.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER sztlen szkepz egyszell ertvez vallal .

Mivel az ENTER módszert választottuk a regressziós modell felépítésé-


re, azt várjuk, hogy mind az öt dummy változó beépül a modellbe.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 251

5.36. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 8,600 ,250 34,461 ,000
SZKEPZ szakképzett
3,142 ,390 ,165 8,055 ,000
fizikai-e
EGYSZELL egyszerû
3,996 ,451 ,179 8,867 ,000
szellemi-e
ERTVEZ
8,993 ,497 ,360 18,084 ,000
értelmiségi,vezetõ-e
VALLAL vállalkozó-e 5,408 ,784 ,131 6,902 ,000
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

5.37. táblázat
Excluded Variablesb

Collinearit
y
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
1 SZTLEN a
, , , , ,000
szakképzetlen fizikai-e
a. Predictors in the Model: (Constant), VALLAL vállalkozó-e, ERTVEZ értelmiségi,vezetõ-e,
EGYSZELL egyszerû szellemi-e, SZKEPZ szakképzett fizikai-e
b. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

Egy dummy változó azonban kimaradt a modellbıl. (5.36. és 5.37. táb-


lázat) A SZTLEN változó az EXCLUDED VARIABLES táblázatban szere-
pel. Mi lehet az oka annak, hogy az ENTER módszer nem a tıle elvárt
módon viselkedik? Ahhoz, hogy a kérdésre válaszolni tudjunk, gondol-
juk meg, milyen kapcsolatban van ez az öt dummy változó egymással.
Tegyük fel, hogy „kitalálom a foglalkozásod” címő játékot játszunk. Ha
biztosak vagyunk abban, hogy csak ötféle foglalkozással találkozhatunk,
maximum hány kérdés megválaszolására van szükségünk ahhoz, hogy
minden esetben mindenkirıl meg tudjuk mondani, hogy mi a foglalko-
zása? Lehet szerencsénk, és kaphatunk például a „szakképzetlen fizikai
foglalkozású-e” kérdésre ’igen’ választ, s ez esetben nincs is szükségünk
több kérdésre, de ha pechünk van, négy darab „rákérdezésre” (szak-
képzetlen fizikai-e, szakképzett fizikai-e, egyszerő szellemi-e, értelmi-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

252 Túlélıkészlet az SPSS-hez

ségi, illetve vezetı-e) is kaphatunk ’nem’ választ. Szükségünk van az ötö-


dik kérdés (vállalkozó-e) feltételére is? Mindnyájan jól tudjuk, hogy
nincs, hiszen öt különbözı foglalkozás van, és tudjuk, hogy ha valaki
bármelyik négyhez nem tartozik, akkor bizonyos, hogy az ötödik foglal-
kozást őzi.33

5.9. Összefüggı független változók: a multikollinearitás

Az öt darab dummy változónk tehát nem egyszerően nemfüggetlen


egymástól, hanem ennél erısebb állítást is tehetünk, bármelyik dummy
változó értéke abszolút bizonyossággal „megjósolható” a másik négy
változó értékeinek ismeretében.
Azt a jelenséget, amikor a független változóink között lineáris össze-
függés tapasztalható, multikollinearitásnak nevezzük. A multikollineari-
tásnak két megkülönböztetendı fajtája van: az egyik a függvényszerő,
a másik a sztochasztikus multikollinearitás.

5.9.1. Függvényszerő multikollinearitás

A multikollinearitást a regresszióelemzés „rosszul tőri”. Könnyebb a hely-


zetünk, ha függvényszerő multikollinearitással állunk szemben, mert
ilyenkor a regresszióelemzés úgy védekezik, hogy az egyik független
változót, amelyet a már bevont független változók egyértelmően meg-
határoznak, nem engedi belépni a modellbe. A mi példánkban ez a ki-

33 Szeretnénk felhívni a figyelmet arra, hogy a RECODE utasításban a (2 thru 5=0) he-
lyett (else=0) is kézenfekvınek látszik, vagyis minden 1-tıl különbözı értéket 0-vá
kódoltathatunk át a programmal. Ez azonban azt jelenti, hogy az eredeti FOGL5
változónk minden 1-tıl különbözı értéke – így a missing is – 0-vá változik. Ebben
az esetben hiába látjuk, hogy négy dummy változó mentén 0 érték tartozik egy kér-
dezetthez, nem lehetünk bizonyosak abban, hogy az ötödik változón 1-es értéket
kap, hiszen lehet, hogy egyszerően nem válaszolt a foglalkozását firtató kérdésre.
Ebben az esetben az ENTER módszeres regresszió anélkül fut le, hogy az egyik
dummy változót kidobná a modellbıl. Próbálja ki!

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 253

hagyott változó éppen a SZTLEN volt.34 Mit jelentenek a COEFFICIENTS


táblában szereplı béta értékek? A béták értelmezéséhez nagy segítséget
nyújthat, ha elıször a B értékeket és a konstanst vesszük szemügyre.
(5.36. táblázat) A konstans értéke 8,600. Ez az érték azt jelzi, hogy
a négy független változó által kifeszített hipersík hol metszi azt a ten-
gelyt, amelyen a fıjövedelem értékei szerepelnek. Ez a hipersík akkor
metszi a fıjövedelem tengelyét, ha mind a négy bevont dummy változó
értéke 0. Ekkor azonban a be nem vont ötödik dummy változó értéke
szükségképpen 1.35 Tehát a konstans értéke éppen a szakképzetlen fizi-
kaiak átlagjövedelmét testesíti meg.36 A SZKEPZ változó mellett álló
3,142-es B érték pedig azt mutatja, hogy ha ezen a tengelyen a 0-hoz
képest elmozdulunk 1 értéket – vagyis abba a pontba jutunk, ahol ép-
pen a szakképzett fizikaiak találhatók – akkor a 8,600-hez képest egy B
értékkel nı a jövedelem. A szakképzett fizikaiak átlagjövedelme tehát
8,600+3,142=11,742. Ugyanígy értelmezhetı a másik három dummy
változó B értéke is. Láthatjuk tehát, hogy a legtöbbet az értelmiségi-
vezetı foglalkozásúak keresnek. İket a vállalkozók, az egyéb szelle-
miek, majd a szakképzett fizikaiak követik. A jövedelemrangsor végén
pedig a modellben nem szereplı, de a konstans érték segítségével
mégiscsak megjelenített szakképzetlen fizikaiak állnak. A béta értékek
interpretálása sem túlságosan bonyolult. A legerısebb hatása az ERTVEZ
változónak van 0,360-os béta értékkel, ami azt jelenti, hogy a legha-
tékonyabb jövedelemnövelı stratégia az értelmiségivé, illetve a vezetıvé
válás. A B értékek mentén azt a megállapítást szőrtük le, hogy a máso-
dik legmagasabb jövedelemkategória a vállalkozóké. A béták azonban
a VALLAL változó hatását az utolsó helyre rangsorolják. Ennek az az oka,
hogy bár a vállalkozók átlagos jövedelme valóban a második helyen áll,
vállalkozóvá lenni csak „átlagosan” jelent jó jövedelempozíciót, vállal-
34 Az ENTER módszer függvényszerő multikollinearitás esetén a legnagyobb szórású
független változót hagyja ki a modellbıl.
35 Ha valaki se nem szakképzett fizikai, se nem egyszerő szellemi, se nem értelmiségi,
illetve vezetı, se nem vállalkozó, akkor biztosan szakképzetlen fizikai foglalkozású
kell legyen. (5.32. táblázat)
36 A szakképzetlenek átlagjövedelme a fenti CELL MEANS táblából is leolvasható, és
valóban 8,60. Mivel a jövedelmek 1000 Ft-ban vannak mérve, ezért ez 8600 Ft-ot
jelent.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

254 Túlélıkészlet az SPSS-hez

kozóvá azonban kevesen válnak. A béták valójában olyan regressziós B


értékek, amelyek akkor jönnének létre, ha a modellbe standardizált
alakban építenénk be a függı változót és a független változókat. Ezt az
5.38. táblázatból láthatjuk.37
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT zfojov
/METHOD=ENTER zszkepz zegyszel zertvez zvallal .

5.38. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 3,570E-03 ,018 ,193 ,847
ZSZKEPZ Zscore:
,165 ,021 ,165 8,055 ,000
szakképzett fizikai-e
ZEGYSZEL Zscore:
,179 ,020 ,179 8,867 ,000
egyszerû szellemi-e
ZERTVEZ Zscore:
,360 ,020 ,360 18,084 ,000
értelmiségi,vezetõ-e
ZVALLAL Zscore:
,131 ,019 ,131 6,902 ,000
vállalkozó-e
a. Dependent Variable: ZFOJOV Zscore: 129. föállásból havi nettó jöv.

Hol veszett el a VALLAL változó erıs befolyása? Csak a standardizálás


során történhetett a dolog. A standardizálás – mint mindnyájan jól tud-
juk – a változót 0 átlagú, egységnyi szórású új változóvá transzformálja.
A mi példánkban azok a foglalkozáskategóriák, amelyekhez nagy gya-
koriság tartozik, egészen más standardizált változókká alakulnak, mint
azok, amelyek kisebb gyakorisággal fordulnak elı. A legnépesebb fog-
lalkozáskategória a szakképzetlen fizikai volt, a legkevesebben pedig
a vállalkozók voltak. A standardizálás pedig nagy abszolút értékkel ju-

37 A változók standardizált alakját a DESCRIPTIVES paranccsal hoztuk létre. Még min-


dig a TBD.KÖNYV-DUMMY.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 255

talmazza a ritkaságot. Nézzük meg, milyen értékké transzformálódtak


a dummy változók (0;1) értékei, amikor standardizáltuk ıket.

5.39. táblázat
Descriptive Statistics

N Range Minimum Maximum


ZSZTLEN Zscore:
2588 2,05293 -,79404 1,25889
szakképzetlen fizikai-e
ZSZKEPZ Zscore:
2588 2,25689 -,60521 1,65168
szakképzett fizikai-e
ZEGYSZEL Zscore:
2588 2,65439 -,45436 2,20003
egyszerû szellemi-e
ZERTVEZ Zscore:
2588 2,97083 -,38685 2,58398
értelmiségi,vezetõ-e
ZVALLAL Zscore:
2588 4,89276 -,21363 4,67912
vállalkozó-e
Valid N (listwise) 2588

Az 5.39. táblázatból jól láthatjuk, hogy míg az eredeti modellben min-


den dummy változó esetében a 0-ról az 1-ig kellett elmozdulni ahhoz,
hogy a „nem ide tartozik” kategóriából az „ide tartozik” kategóriába
jussunk, addig most, hogy a standardizált változókkal dolgozunk, ez
a lépéshossz változónként különbözı. A legnagyobb távolságot (RANGE)
a nem vállalkozóból a vállalkozóig kell megtenni. Az a jövedelemnöve-
kedés tehát, amely a nem vállalkozók és a vállalkozók között mutatko-
zik, „hosszú út” eredménye. Ennek köszönhetjük, hogy a VALLAL vál-
tozó B értéke a második volt a rangsorban, béta értéke azonban csak
a negyedik. Minden eddigi tudásunk a regresszióról azt mondatja
velünk, hogy a független változók magyarázóerejének rangsorát a béta
értékek fejezik ki helyesen, mert a B értékek a független változók
szóródása által torzítottak.38 Bármennyire is nehéz lesz belátnunk, ez
a dummy változós regressziós modellben is így van. Ha a vállalkozók
kevesen vannak – vagy általánosabban fogalmazva: egy dummy változó
nagyon egyenetlenül oszlik meg a 0 és 1 értékek között –, akkor a stan-

38 A mértékegységbeli különbségekbıl adódó torzításokról itt nem beszélhetünk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

256 Túlélıkészlet az SPSS-hez

dardizálás után egy nagy range-dzsel rendelkezı változóhoz jutunk. Ez


a nagy range „lerontja” a béta értékét a B-hez képest. Ez a lerontás
azonban abszolút helyénvaló, hiszen a dummy változókból épített reg-
ressziós modell éppen úgy mőködik, mint egy ANOVA. Az ANOVA-ban
egy-egy kategória hozzájárulása a megmagyarázott hányadhoz két dolog-
tól függ, a kategóriához tartozó függı változó átlagától és a kategória
számosságától. A B érték csak a függı változó átlagát veszi figyelembe,
a béta érték azonban azt is, hogy ez az átlag milyen gyakran fordul elı,
azaz milyen létszámú az adott kategória. Hiába keresnek viszonylag
sokat a vállalkozók, ha kevesen vannak.39 A VALLAL változó magyará-
zóereje, a béta érték éppen erre hívja fel a figyelmünket.
Mielıtt elhatalmasodna rajtunk a kétség, hogy mi végre fáradunk
a „dummyzással” és a regresszióelemzéssel, ha semmivel több informá-
cióhoz sem jutunk ahhoz képest, amit egy ötkategóriás nominális méré-
si szintő foglalkozásváltozó az ANOVA modellbıl már adott nekünk,
gondolkodjunk még egy kicsit. A dummy változók természetének meg-
értése akkor kamatozik majd igazán, amikor azzal a feladattal kell meg-
birkóznunk a késıbbiekben, hogy a foglalkozást más, magas mérési
szintő változókkal együtt építsük be magyarázó változókként egy reg-
ressziós modellbe.
Amikor egyetlen nominális mérési szintő változót vonunk be a mo-
dellbe, a dummyzás valóban nem ad több információt, mint egy egy-
szerő variancia-analízis, de ahhoz, hogy egy sokváltozós regressziós
modellben a dummy változók szerepét értelmezni tudjuk, egyszerő pél-
dán kell megértenünk a viselkedésüket.
Mi történne akkor, ha nem a programra bíznánk, hogy a függvény-
szerő multikollinearitás miatt hagyja ki az egyik dummy változót, ha-
nem mi magunk már jó elıre eldöntenénk, hogy melyik dummy válto-
zótól kívánunk megválni. Hagyjuk ki a szakképzett fizikai foglalkozást
megtestesítı dummy változót. Döntésünket az motiválja, hogy az 5.32.

39 Ugyanilyen típusú jelenséggel állnánk szemben akkor is, ha a vállalkozók túlságo-


san sokan lennének, arányuk 96 százalék lenne, a nem vállalkozók pedig csak 4 szá-
zalékot tennének ki. Ezen utóbbi esetben azonban a FOGL5 változó magyarázó
ereje elég kicsi lenne.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 257

táblázat szerint e kategória átlagjövedelme van a legközelebb a teljes


minta átlagához.40
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER sztlen egyszell ertvez vallal .

A SZKEPZ kihagyása és a SZTLEN változó beléptetése radikálisan meg-


változtatta a „régi modelltagok” B értékeit.

5.40. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 11,742 ,300 39,176 ,000
SZTLEN
-3,142 ,390 -,182 -8,055 ,000
szakképzetlen fizikai-e
EGYSZELL egyszerû
,854 ,480 ,038 1,778 ,075
szellemi-e
ERTVEZ
5,851 ,524 ,234 11,161 ,000
értelmiségi,vezetõ-e
VALLAL vállalkozó-e 2,267 ,801 ,055 2,830 ,005
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

A radikális változás azonban csak látszólagos, hiszen a konstans értéke


is megváltozott az új modellben 11,742-re, és a már jól ismert logika
szerint ez éppen a modellbıl kihagyott szakképzett fizikaiak átlagjöve-
delmét jelenti. (5.40. táblázat) A B értékek változásai pedig éppen azt
jelzik, hogy ehhez a 11,742-höz képest, mennyivel többet, illetve keve-
sebbet keresnek az egyes foglalkozáskategóriákban. A szakképzetlenek

40 Ha így járunk el, akkor a regressziós hipersíknak egy olyan dimenzióját hagyjuk ki
a modellbıl, amely majdnem párhuzamos a neki megfelelı koordináta-tengellyel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

258 Túlélıkészlet az SPSS-hez

például 3,142-vel kevesebbet, azaz 8,600-et, a vállalkozók pedig 2,267-


tel többet, azaz 14,009-et.41
Ez az új modell azt is jelzi, hogy az egyszerő szellemi foglalkozásúak
átlagjövedelme nem tér el szignifikánsan a szakképzett fizikaiak átlagos
jövedelmétıl. (Az EGYSZELL változó melletti t-érték túl kicsi, a hozzá-
tartozó szignifikancia nagyobb 0,05-nél.)
Mi a helyzet a béta értékekkel? Az elıbbi modell alapján már
könnyő a dolgunk, a magyarázóerı szerinti sorrendet az ERTVEZ válto-
zó vezeti, a második legerısebb változó a SZTLEN, és a VALLAL hatása
a leggyengébb, bár szignifikáns. Az elızı modellben, ahol a szakkép-
zetleneket jelölı SZTLEN változót hagytuk ki, a béták konkrét értékei
egészen mások, mint most. Ez nem is lehet másként, hiszen a „dummy-
zás” valójában egy viszonyítási pont kijelölését jelenti, s a viszonyítási
pont nem más, mint a modellbıl kihagyott dummy változó által meg-
testesített kategóriához tartozó függı változó átlaga.
Nem elıször szembesülünk azzal a tanulsággal, hogy egy-egy „trük-
közés” megold egy problémát, de újat, vagy szerencsétlen esetben újakat
teremt. A dummyzással megoldható lesz ugyan az alacsony mérési szin-
tő változók beépítése a regressziós modellbe, de attól függıen, hogy
a multikollinearitás elkerülése végett melyik dummy változót hagyjuk ki
a modellbıl, különbözı béta értékek tartoznak az egyes változókhoz.
Minél több kategóriája van egy nominális mérési szintő változónak,
amelyet „dummyzással” emelünk be a regressziós modellbe, annál több
lehetséges output-ot produkálhatunk, és igen nehézkes lesz még a hoz-
záértı olvasó számára is elmagyaráznunk, hogy valójában mit is fejez-
nek ki ezek a standardizált regressziós együtthatók. Az egyetlen viszony-
lag megnyugtató eredmény, hogy bármelyik dummy változót is hagyjuk
ki a regressziós modellbıl, a modell magyarázóereje nem változik.

41 Ne felejtsük el, hogy a jövedelmeket (ezer) forintban mértük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 259

5.41. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,348a ,121 ,120 7,90
a. Predictors: (Constant), VALLAL vállalkozó-e,
ERTVEZ értelmiségi,vezetõ-e, EGYSZELL
egyszerû szellemi-e, SZKEPZ szakképzett fizikai-e

5.42. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,348a ,121 ,120 7,90
a. Predictors: (Constant), VALLAL vállalkozó-e,
ERTVEZ értelmiségi,vezetõ-e, EGYSZELL egyszerû
szellemi-e, SZTLEN szakképzetlen fizikai-e

Az elsı MODEL SUMMARY táblázat ADJUSTED R SQUARE-je éppen úgy


0,120, mint a másodiké, holott az elsı esetben a szakképzetlenek, a má-
sodik esetben a szakképzett fizikaiak dummy változóját hagytuk ki a mo-
dellbıl.

5.9.1.1. A baj nem jár egyedül: magas mérési szintő és dummy


változók a regressziós modellben

Nézzünk egy olyan regressziós modellt, ahol a jövedelem alakulását az


életkorral, a nemmel és a foglalkozással kívánjuk magyarázni, és a fog-
lalkozásváltozót dummy változók segítségével építjük be a modellbe.42
A modellt STEPWISE módszerrel futtatjuk, hogy az interferencia alakulá-
sát is figyelemmel kísérhessük.43

42 Fogadjuk el most az ENTER módszer választását, és a legnagyobb szórású SZTLEN


nevő dummy változót hagyjuk ki a modellbıl.
43 Még mindig a TBD.KÖNYV_DUMMY.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

260 Túlélıkészlet az SPSS-hez

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=STEPWISE szkepz egyszell ertvez vallal kor neme.

A magyarázó változók belépésének történetét olvashatjuk le az 5.43.


táblázatból.
A legerısebb hatása az elsıként beemelt ERTVEZ változónak van,
a hatás erıssége 0,278-as bétával jellemezhetı. Másodikként a NEME
változó lép be –0,198-as bétával, jelezve, hogy a nık akkor is keve-
sebbet keresnek, ha az értelmiségi foglalkozású férfiakat és nıket, illet-
ve a nem értelmiségi foglalkozású férfiakat és nıket hasonlítjuk össze.
A NEME és az ERTVEZ változó között gyakorlatilag nincs interferencia,
hiszen az ERTVEZ változó béta értéke a második lépésben nem válto-
zik: az értelmiségi férfiak és nık is többet keresnek a nem értelmisé-
gieknél. Nézzük, hogy hogyan alakul az értelmiségi/vezetı, illetve a nem
értelmiségi/vezetı férfiak és nık átlagfizetése.
Az 5.44. táblázatból jól látszik, hogy az értelmiségi/vezetı és nem
értelmiségi/vezetık átlagjövedelme közötti különbség nem változik
meg akkor sem, ha férfi-nı bontásban vizsgálódunk. Ez azt jelenti,
hogy a két változó között nincsen interferencia, és ezért az ERTVEZ
változó béta értéke nem változik meg a második lépésben sem, hiába
lép be a NEME változó a modellbe.
A harmadik lépésben (5.43. táblázat) az EGYSZELL változó kerül be
a modellbe, mintegy specifikálva a nem-értelmiségi kategóriába tartozó-
kat. Ez a változó szükségképpen interferál az ERTVEZ változóval, hiszen
a két változó nem független egymástól. Igaz ugyan, hogy ha az ERTVEZ
változó értéke 0, akkor az EGYSZELL változó 0 és 1 értéket is felvehet, de
ha az ERTVEZ értéke 1, akkor az EGYSZELL értéke biztosan 0.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 261

5.43. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 10,631 ,171 62,339 ,000
ERTVEZ
6,963 ,472 ,278 14,740 ,000
értelmiségi,vezetõ-e
2 (Constant) 15,741 ,506 31,089 ,000
ERTVEZ
6,979 ,462 ,279 15,095 ,000
értelmiségi,vezetõ-e
NEME 1. a kérdezett
-3,336 ,312 -,198 -10,692 ,000
neme
3 (Constant) 15,871 ,500 31,740 ,000
ERTVEZ
7,674 ,464 ,307 16,540 ,000
értelmiségi,vezetõ-e
NEME 1. a kérdezett
-3,872 ,315 -,230 -12,306 ,000
neme
EGYSZELL egyszerû
3,517 ,423 ,157 8,309 ,000
szellemi-e
4 (Constant) 18,737 ,650 28,843 ,000
ERTVEZ
7,658 ,460 ,306 16,648 ,000
értelmiségi,vezetõ-e
NEME 1. a kérdezett
-3,793 ,312 -,225 -12,152 ,000
neme
EGYSZELL egyszerû
3,320 ,421 ,149 7,895 ,000
szellemi-e
KOR -6,25E-02 ,009 -,124 -6,825 ,000
5 (Constant) 18,390 ,650 28,279 ,000
ERTVEZ
7,890 ,460 ,316 17,145 ,000
értelmiségi,vezetõ-e
NEME 1. a kérdezett
-3,752 ,311 -,222 -12,071 ,000
neme
EGYSZELL egyszerû
3,546 ,421 ,159 8,423 ,000
szellemi-e
KOR -6,14E-02 ,009 -,122 -6,737 ,000
VALLAL vállalkozó-e 3,746 ,750 ,091 4,998 ,000
6 (Constant) 16,922 ,756 22,399 ,000
ERTVEZ
8,499 ,486 ,340 17,474 ,000
értelmiségi,vezetõ-e
NEME 1. a kérdezett
-3,417 ,322 -,203 -10,598 ,000
neme
EGYSZELL egyszerû
4,102 ,445 ,184 9,221 ,000
szellemi-e
KOR -5,42E-02 ,009 -,107 -5,835 ,000
VALLAL vállalkozó-e 4,409 ,768 ,107 5,742 ,000
SZKEPZ szakképzett
1,531 ,404 ,081 3,788 ,000
fizikai-e
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

262 Túlélıkészlet az SPSS-hez

5.44. táblázat: Cellaátlagok

nem értelmiségi/vezetı értelmiségi/vezetı


férfi 12,23 20,50
nı 9,22 15,09
Total 10,63 17,59

Az EGYSZELL változó beemelése a modellbe megnöveli az ERTVEZ bé-


tájának értékét, hiszen a 0,279-es béta érték kiszámításakor az értelmi-
ségi-nem értelmiségi átlagjövedelmeket kellett figyelembe venni: ez –
ahogy az 5.45. táblázat mutatja – a férfiak esetében a 20,50 és a 12,23
különbségét jelentette, a nıknél pedig a 15,09 és 9,22 különbségét.
Amikor az EGYSZELL változó is bekerült a modellbe, az ı hatását kont-
roll alatt tartva a férfi értelmiségiek jövedelmét már azokéhoz kellett vi-
szonyítani, akik nem csak, hogy nem értelmiségiek, de nem is egyszerő
szellemi foglalkozásúak. Tehát férfiak esetében a 20,50 és a 11,72, míg
a nıknél a 15,09 és a 8,41-es átlagok különbsége szolgált a béta kiszámí-
tásának alapjául. Ezek a nagyobb különbségek eredményezték az ERTVEZ
béta értékének 0,307-re való emelkedését.

5.45. táblázat: Cellaátlagok

férfi nı
nem egyszerő szellemi 11,72 8,41
nem értelmiségi/vezetı egyszerő szellemi 16,61 11,29
Total 12,23 9,22
nem egyszerő szellemi 20,50 15,09
értelmiségi/vezetı egyszerő szellemi – –
Total 20,50 15,09
Total 13,30 9,99

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 263

A harmadik lépésben (5.43. táblázat) az EGYSZELL változó belépésével


a nem magyarázóereje szintén megnövekedett. Ez a pozitív interferen-
cia a nemenként eltérı foglalkozásstruktúrából és az egyéb szellemie-
ken belüli, az átlagosnál erısebb nemi „diszkriminációból” fakad. Néz-
zük meg az egyes csoportok jövedelemátlagait. (5.46. táblázat)

5.46. táblázat: Cellaátlagok

nem egyszerő szellemi egyszerő szellemi Total


férfi 12,97 16,11 13,30
nı 9,57 11,29 9,99

Ha a foglalkozástól függetlenül vizsgáljuk a férfiak és a nık jövedelem-


különbségeit, átlagosan 3,31-es különbséget tapasztalhatunk a férfiak
javára, ha viszont alkalmazzuk az egyszerő szellemi/nem egyszerő szel-
lemi bontást, ezek a különbségek megnınek.44
Hasonlóképpen lehet végigvezetni a további lépésekben bekerülı
változók hatását, de talán ennyi is elegendı volt annak illusztrálására,
hogy a dummy változók értelmezése igen cizellált technikát kíván az elem-
zıtıl, és empatikus figyelmet a befogadótól.
Ha sem magunkat, sem az olvasót nem akarjuk fárasztani a dummy
változók viselkedésének megértésével, eljuthatunk egy valamelyest felü-
letes, de azért használható modellhez a következı módon. Vizsgáljuk
meg elıször, hogy hogyan befolyásolja a két „használható” változónk,
a nem és a kor a jövedelmet.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme kor .

44 Abból a ténybıl, hogy a használt két foglalkozási kategória mindegyikében nı a férfiak


és a nık átlagjövedelme közötti különbség, sejthetjük, hogy a nı-férfi arány különbözik
az egyszerő szellemi és nem egyszerő szellemi foglalkozási kategóriák között.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

264 Túlélıkészlet az SPSS-hez

5.47. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,240a ,058 ,057 8,16
a. Predictors: (Constant), KOR, NEME 1. a kérdezett
neme

Az életkor és a nem együttesen valamivel kevesebb 6 százalékot magya-


ráz a jövedelem szóródásából. (5.47. táblázat)

5.48. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 19,742 ,678 29,111 ,000
NEME 1. a
-3,286 ,321 -,195 -10,251 ,000
kérdezett neme
KOR -6,73E-02 ,010 -,134 -7,049 ,000
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

A magyarázatból a nem valamivel erısebben veszi ki a részét, mint az


életkor. A nık akkor is kevesebbet keresnek, ha a kor hatását kontroll
alatt tartjuk, tehát akár a férfiakat, akár a nıket vizsgáljuk, az öregedés-
sel csökken a jövedelmük. (5.48. táblázat)
Emeljük be a modellbe a foglalkozást megjelenítı dummy változó-
kat. Természetesen itt kihagyjuk a modellbıl az egyik, mondjuk a SZTLEN
változót.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme kor szkepz egyszell ertvez vallal.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 265

5.49. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,409a ,168 ,166 7,69
a. Predictors: (Constant), VALLAL vállalkozó-e, KOR,
NEME 1. a kérdezett neme, ERTVEZ
értelmiségi,vezetõ-e, EGYSZELL egyszerû
szellemi-e, SZKEPZ szakképzett fizikai-e

Azonnal láthatjuk, hogy a foglalkozás ilyetén beemelése a modellbe


rengeteget javított a megmagyarázott hányadon: az R2 17 százalékra
nıtt. (5.49. táblázat)

5.50. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 16,922 ,756 22,399 ,000
NEME 1. a kérdezett
-3,417 ,322 -,203 -10,598 ,000
neme
KOR -5,42E-02 ,009 -,107 -5,835 ,000
SZKEPZ szakképzett
1,531 ,404 ,081 3,788 ,000
fizikai-e
EGYSZELL egyszerû
4,102 ,445 ,184 9,221 ,000
szellemi-e
ERTVEZ
8,499 ,486 ,340 17,474 ,000
értelmiségi,vezetõ-e
VALLAL vállalkozó-e 4,409 ,768 ,107 5,742 ,000
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

A foglalkozás szerepeltetése a modellben megváltoztatta mind a nem,


mind az életkor magyarázóerejét. (5.50. táblázat) A nem esetében a béta
érték valamelyest megnövekedett, és ebbıl arra következtethetünk,
hogy egyes vagy minden foglalkozáskategóriában erısebb a nemek kö-
zötti jövedelemkülönbség, mintha a foglalkozástól függetlenül vizsgáló-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

266 Túlélıkészlet az SPSS-hez

dunk. Az életkor szerepének csökkenése pedig azt jelzi, hogy az eltérı


életkori csoportokat eltérı foglalkozásstruktúra jellemzi, az életkor és
a foglalkozás összefüggenek egymással és az ebbıl adódó redundancia
okozza a magyarázóerı csökkenését.
A foglalkozás és a jövedelem összefüggésérıl csak elég homályos
kép áll rendelkezésünkre, hiszen mint ezt már láttuk, a B értékek segít-
hetnek elhelyezni a foglalkozásokat a jövedelemrangsor mentén, ekkor
viszont összemérhetıségi problémáink lesznek az életkorral és a nem-
mel. Ha a béta értékekkel kívánjuk jellemezni a foglalkozás hatását, ak-
kor nem mondhatjuk feltétlenül, hogy a nagyobb béta értékekhez na-
gyobb jövedelem tartozik.45

5.9.1.2. Amikor csak a gondolkodás segít – dummyzzunk


másként

Mi végre is szeretnénk beépíteni a foglalkozásváltozót a jövedelemalaku-


lást magyarázó regressziós modellbe? Nyilván azt gondoljuk, hogy a mun-
kamegosztásban elfoglalt hely erıs hatással van a jövedelemre. Az ötkate-
góriás foglalkozásváltozónk valójában három dimenziót testesít meg,
nevezetesen azt, hogy valaki a magán vagy a közszférában dolgozik-e,
hogy fizikai vagy szellemi munkát végez-e az illetı, illetve hogy szakkép-
zett vagy szakképzetlen-e. Nézzük ebbıl a három dimenzióból azt a ket-
tıt, amelyeket egyértelmően meg tudunk ragadni.46 Vegyük észre, hogy
ez a két dummy változó egészen más, mint amikor az ötértékő foglalko-
zásváltozó minden egyes értékéhez dummy változókat rendeltünk. A mi
mostani két dummy változónk valójában két tengelyt testesít meg, a ma-
gánszféra-közszféra és a fizikai-szellemi tengelyt. A két tengely mentén
négy csoportba győlnek a megkérdezettek, a vállalkozók és a közszfé-
rában dolgozók egyaránt lehetnek fizikai vagy szellemi foglalkozásúak.

45 Lásd korábbi fejtegetéseinket a vállalkozók jövedelemátlagáról és a VALLAL változó


hatását mérı béta értékrıl.
46 Az eredeti adatfile-ban a foglalkozást huszonegy kategóriás változóval mértük. (Ez
a TBD.KÖNYV_DUMMY.SAV file FOGL nevő változója.) A huszonegy kategóriából
nem lehetett egyértelmően elkülöníteni a szakképzetteket és a szakképzetleneket,
ezért dolgozunk csak két dimenzióval.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 267

Hiába tudjuk, hogy ez egyik dummy változó mentén melyik kategóriába


tartozik az illetı, ebbıl még nem tudunk következtetni arra, hogy a má-
sik változó mentén melyik kategóriába fog tartozni. A két dummy válto-
zó együttes beemelése a modellbe nem fenyeget a függvényszerő multi-
kollinearitás rémével. Nézzük a regressziós modellt47:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=STEPWISE neme kor fizszell vallal .

A STEPWISE módszert választottuk, hogy figyelemmel kísérhessük a vál-


tozók közötti interferenciát. (5.51. táblázat)

5.51. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,287a ,082 ,082 8,07
2 ,365b ,133 ,133 7,84
3 ,385c ,148 ,147 7,77
4 ,395d ,156 ,155 7,74
a. Predictors: (Constant), FIZSZELL fizikai vagy szellemi
b. Predictors: (Constant), FIZSZELL fizikai vagy szellemi,
NEME 1. a kérdezett neme
c. Predictors: (Constant), FIZSZELL fizikai vagy szellemi,
NEME 1. a kérdezett neme, KOR
d. Predictors: (Constant), FIZSZELL fizikai vagy szellemi,
NEME 1. a kérdezett neme, KOR, VALLAL vállalkozó-e

Elsıként a FIZSZELL változó lép be a modellbe. (5.52. táblázat) A hozzá tar-


tozó 0,287-es béta érték azt jelenti, hogy a szellemi foglalkozásúak átlagosan
többet keresnek, mint a fizikaiak. Ez az egyváltozós modell mindössze 8
százalékot magyaráz a jövedelem heterogenitásából. (5.51. táblázat)

47 A FIZSZELL változó értéke 0, ha az illetı fizikai foglalkozású és 1, ha szellemi.


A VALLAL változót már ismerjük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

268 Túlélıkészlet az SPSS-hez

5.52. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 9,763 ,197 49,578 ,000
FIZSZELL fizikai
5,054 ,332 ,287 15,207 ,000
vagy szellemi
2 (Constant) 15,507 ,503 30,855 ,000
FIZSZELL fizikai
5,452 ,325 ,309 16,797 ,000
vagy szellemi
NEME 1. a kérdezett
-3,838 ,311 -,228 -12,359 ,000
neme
3 (Constant) 18,349 ,655 28,034 ,000
FIZSZELL fizikai
5,382 ,322 ,305 16,712 ,000
vagy szellemi
NEME 1. a kérdezett
-3,783 ,308 -,224 -12,280 ,000
neme
KOR -6,14E-02 ,009 -,122 -6,698 ,000
4 (Constant) 17,983 ,656 27,426 ,000
FIZSZELL fizikai
5,584 ,323 ,317 17,279 ,000
vagy szellemi
NEME 1. a kérdezett
-3,726 ,307 -,221 -12,143 ,000
neme
KOR -6,05E-02 ,009 -,120 -6,623 ,000
VALLAL vállalkozó-e 3,729 ,751 ,091 4,962 ,000
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

A második lépésben belép a modellbe a NEME változó és megnöveli


a FIZSZELL változó béta értékét. (5.52. táblázat) Ebbıl azt tudhatjuk
meg, hogy ha a férfiakon és a nıkön belül külön-külön hasonlítjuk
össze a fizikai, illetve szellemi foglalkozásúak átlagjövedelmét, akkor a kü-
lönbségek nagyobbak, mintha a nemek szerinti bontástól eltekintünk.
A NEME változó béta együtthatójából láthatjuk, hogy a nık kevesebbet
keresnek, mint a férfiak, akkor is, ha külön vizsgáljuk a jövedelemkü-
lönbségeket a fizikai és a szellemi foglalkozásúakon belül. A modell ma-
gyarázóereje a NEME változó belépésével 8 százalékról 13 százalékra
nıtt. (5.51. táblázat)
A harmadik lépésben a kor változó is belép a modellbe, elhanyagol-
ható mértékő interferenciát okozva. Belépésével mindössze annyi plusz

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 269

információhoz jutunk, hogy az életkor elırehaladtával csökken a jö-


vedelem, ha a férfi-nı és a fizikai-szellemi bontás hatását kiszőrjük.
A modell magyarázóereje mindössze két százalékkal nı, az R2 értéke
0,147. (5.51. és 5.52. táblázat)
Az utolsó lépésben a VALLAL változó is bekerül a modellbe, apróbb
módosításokat eszközölve a harmadik lépésben kiszámított regressziós
együtthatókon. Ennek a változónak csak a FIZSZELL változóval van
számottevı interferenciája. Ez azt jelenti, hogy a vállalkozókon belül
a fizikai-szellemi bontás nagyobb jövedelemkülönbségeket eredményez.
Az utolsó változó belépésével elértük a megmagyarázott hányad – eb-
ben az esetben lehetséges – maximumát, a 16 százalékot.

5.9.1.3. Szabaduljunk meg a nominális változóktól

Kérdés, hogy nem ragadhatnánk-e meg másként a foglalkozás fémjelez-


te társadalmi pozíciót. Ha meggondoljuk, az ötkategóriás foglalkozás-
változó elsı négy értéke többé-kevésbé megfeleltethetı az iskolai vég-
zettségnek, a vállalkozó kategória azonban egy új dimenziót testesít
meg. Ha így gondolkodunk, akkor a foglalkozás fémjelezte társadalmi
pozíciót egy olyan kétdimenziós térben írhatjuk le, ahol az egyik dimen-
ziót az iskolai végzettség, a másikat a magánszféra-közszféra jeleníti
meg. Ez esetben a regressziós modellünk a következıképpen alakul:48
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme kor befisk vallal .

48 Ismét az ENTER módszert használjuk. Ebben a modellben a nem és az életkor is


szerepel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

270 Túlélıkészlet az SPSS-hez

5.53. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,432a ,187 ,186 7,60
a. Predictors: (Constant), VALLAL vállalkozó-e, KOR,
NEME 1. a kérdezett neme, BEFISK 102.
legmagasabb isk. végzettsége

5.54. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 10,479 ,780 13,437 ,000
NEME 1. a kérdezett
-3,085 ,300 -,183 -10,282 ,000
neme
KOR -9,62E-03 ,009 -,019 -1,024 ,306
BEFISK 102.
legmagasabb isk. 1,916 ,095 ,375 20,176 ,000
végzettsége
VALLAL vállalkozó-e 1,794 ,732 ,044 2,450 ,014
a. Dependent Variable: FOJOV 129. föállásból havi nettó jöv. 1000Ft

A modell magyarázóerejét 19 százalékos R2-tel jellemezhetjük. (5.53.


táblázat) A négy független változóból csak három befolyásolja szignifi-
kánsan a jövedelem alakulását. Mivel az iskolai végzettség sokkal erı-
sebben függ az életkortól, mint a foglalkozás, a kor és az iskolázottság
közötti erıs interferencia következtében a kor magyarázóereje semmi-
vé lesz. A magasabb társadalmi pozíció, amit itt a magasabb iskolai vég-
zettséggel operacionalizáltunk, magasabb jövedelmet eredményez, kü-
lönösen a férfiak esetében. A kedvezı pozíciót tovább javíthatja, ha az
ember iskolázott férfi létére vállalkozóként próbál szerencsét. (5.54.
táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 271

Háromféle módon is megpróbáltuk a foglalkozást beépíteni a reg-


ressziós modellbe. Egyik megoldás sem bizonyult hibátlannak. Az egy-
szerő dummyzás49 komoly értelmezési nehézségeket vetett fel. A foglal-
kozáson belüli dimenziók megragadása50 nem feltétlenül járható út
minden nominális változó esetében, hiszen gyakran konszenzus nélküli
vitákat eredményez, hogy a nominális változó hány dimenziót tartalmaz,
s hogy van-e elegendı információ minden dimenzió létrehozására.51
A harmadik módszer esetében52 volt a legegyszerőbb a modell interpre-
tálása, hiszen nem kellett magunkat sok dummy változó értelmezésén
átrágni. Nem neheztelhetünk azonban azokra az olvasókra, akiknek az
a véleménye, hogy a foglalkozás másként operacionalizálja a társadalmi po-
zíciót, mint az iskolai végzettség, még akkor is, ha ez utóbbit a magán-
szféra-közszféra tengely által megtestesített dimenzió egészíti ki.

5.9.2. Függvényszerő kapcsolat – sztochasztikus


multikollinearitás

Akinek nincs mit enni, az kevéssé fogékony a szabadságra. Ezt a meg-


lehetısen leegyszerősített állítást próbáljuk meg egy regressziós modell-
ben tesztelni. Idézzük emlékezetünkbe a fıkomponens-elemzéssel fog-
lalkozó fejezetbıl az általános szabadságvágyat aggregáló mutatónkat.
Ezzel fogjuk operacionalizálni a szabadságra való fogékonyságot. Az
életszínvonal mérésére a családi összjövedelmet, az egy fıre jutó jöve-
delmet és a háztartás létszámát fogjuk használni, abból a megfontolás-
ból, hogy mást jelent egy adott egy fıre jutó jövedelem egy kis, mint
egy nagy létszámú családban, illetve, hogy a nagyobb összjövedelem
még azonos egy fıre jutó jövedelem esetén is magasabb diszkrecionális

49 Ötkategóriás nominális mérési szintő változóból öt dummy változó készítése.


50 A magánszféra-közszféra és a szellemi-fizikai dimenziók elkülönítésére gondolunk.
51 Ezzel a problémával a foglalkozás esetében mi magunk is szembesülhettünk. Mivel
nincs egyértelmő információnk, hogy kinek van, illetve kinek nincs szakképesítése,
az alapfokú és az érettségizett szellemi foglalkozásúak besorolásánál bajba kerül-
tünk.
52 Itt a foglalkozás fémjelezte társadalmi pozíciót az iskolázottság és a vállalkozó-al-
kalmazott tengely kifeszítésével ragadtuk meg.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

272 Túlélıkészlet az SPSS-hez

jövedelmet takarhat. Nem nehéz belátnunk, hogy az egy fıre jutó jöve-
delem az összjövedelem és a családlétszám függvénye, hiszen ennek
a kettınek a hányadosaként definiáljuk. Ha egyszer az egy fıre jutó jö-
vedelem egyenlı az összjövedelem és a családnagyság hányadosával,
akkor e három változó beépítése a regressziós modellbe függvényszerő
multikollinearitást jelent. Biztosan így van ez? Ha igen, akkor a reg-
ressziós modell ki fogja vetni magából az egyik magyarázó változót.
Futtassuk le a regressziót:53
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT szabvagy
/METHOD=ENTER htfo osszjov egyfojov .

5.55. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -,713 ,125 -5,722 ,000
HTFO háztartáslétszám ,163 ,036 ,224 4,547 ,000
OSSZJOV a háztartás
1,231E-04 ,000 ,034 ,512 ,609
összejövedelme (USD)
EGYFOJOV egy fõre
1,661E-03 ,001 ,137 2,201 ,028
jutó jövedelem (USD)
a. Dependent Variable: SZABVAGY általános szabadságvágy

Meglepetésünkre – az éberebb olvasó számára viszont magától értetı-


dı módon – mindhárom változó „befért” a regressziós modellbe.
(5.55. táblázat) Igaz, hogy a összjövedelem hatása nem szignifikáns, de
ez a változó mégsem jutott arra a sorsra, amilyenre a függvényszerő
multikollinearitás miatt jutnia kellett volna. Ha most újra figyelmesen
elolvassuk a multikollinearitás definícióját, akkor észre kell vennünk

53 A TBD.KÖNYV_SZTOCHMULT.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 273

a kulcsszót, nevezetesen a lineáris megszorítást. Függvényszerő multi-


kollinearitás akkor, és csak akkor léphet fel, ha a független változók kö-
zött teljes lineáris összefüggés van. A mi három változónk közötti függ-
vényszerő kapcsolat nem lineáris, hiszen az egyiket a másik kettı hánya-
dosaként hoztuk létre.
Ha az egy fıre jutó jövedelem alakulását megvizsgáljuk az összjöve-
delem és a háztartásnagyság függvényében egy regressziós modellben,
a modellhez tartozó R2 értéke mindössze 0,0669. Az összjövedelem
emelkedése növeli, a nagy családlétszám pedig csökkenti az egy fıre ju-
tó jövedelmet, de ez az összefüggés lineáris értelemben csak szto-
chasztikus.
Jóllehet tehát a szabadságvágy magyarázatára hivatott független vál-
tozóink között erıs a lineáris kapcsolat, de semmiképpen sem beszél-
hetünk függvényszerő multikollinearitásról. Ennek köszönhetjük, hogy
ENTER módszerrel mind a három független változó belépett a modell-
be, de a köztük lévı interferencia elég erıs ahhoz, hogy az összjövede-
lem magyarázóereje a kritikus érték alá csökkenjen.
Ami a fejezet elején megfogalmazott hipotézisünket illeti, azt mond-
hatjuk, hogy a jobb anyagi helyzet valamelyest valóban növeli a szabad-
ságvágyat az emberekben, de az egy fıre jutó jövedelemhez tartozó
béta érték meglehetısen kicsi, értéke 0,137. (5.55. táblázat) Valamivel
erısebb a hatása a családnagyságnak, tehát mindenképpen érdemes
lenne tovább vizsgálódnunk, hogy a modellünkben a családnagyság
révén az életkor hatása lopódzott-e be54, vagy inkább arról van-e szó,
hogy a nagy létszámú háztartásokban több gyerek él, és az ı révükön
az egész család nyitottabbá és a szabadságjogok iránt érzékenyebbé
válik. Modellünk magyarázóereje csekély, az R2 értéke 0,065. A 6 száza-
lékos magyarázóerı azonban mégis figyelemreméltó, hiszen egyfelıl meg-
lehetısen hiányosan operacionalizáltuk modellünkben az objektív élet-
helyzetet, másfelıl az objektív élethelyzet és az attitődök közötti össze-
függések ilyen egyszerő modellekben nem is igen lehetnek erısebbek.

54 Az idısebb és a szabadságvágy iránt kevéssé fogékony emberek gyakrabban egye-


dülállók vagy élnek kétszemélyes háztartásban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

274 Túlélıkészlet az SPSS-hez

5.9.2.1. Miért félünk a sztochasztikus multikollinearitástól?

Ahhoz, hogy a félelem okát megérthessük, újra emlékezetünkbe kell


idézzük, hogy a társadalomkutató – szinte majdnem – mindig minták-
kal dolgozik, azonban soha nem arra kíváncsi, hogy miféle összefüggé-
seket találhat a mintában, hanem mindig az a fontos számára, hogy mit
tudhat meg az alapsokaságról. Amikor egy mintára megalkotunk egy el-
fogadható regressziós modellt, egyfelıl meg kell bizonyosodnunk arról,
hogy a független változók oly mértékben befolyásolják a függı változó
viselkedését, hogy ezt a befolyásolást az alapsokaságban is érvényesnek
tekinthetjük. Erre szolgál az F-próba.
Tudnunk kell azt is, hogy a modellben szereplı független változók
egyenkénti hatása elég erıs-e ahhoz, hogy az alapsokaságban is létezı-
nek tekinthessük. Ebben a kérdésben a t-próbák orientálnak bennün-
ket. A regressziós modellbıl az egyes változók hatásának erısségét is
leolvashatjuk, az ezt jelzı B, illetve béta értékek azonban nem haj-
szálpontos becslései az alapsokaságra jellemzı regressziós paraméterek-
nek. Egy minta átlagából sem tudjuk pontosan megmondani, hogy
mekkora lehet az alapsokaság átlaga, hanem adott megbízhatósági szin-
ten konfidencia-intervallumot konstruálunk a mintaátlag köré, és csak
annyit állítunk, hogy az alapsokaság átlaga adott valószínőséggel valahol
ebben az intervallumban van. Ugyanígy kell a mintánkat jellemzı reg-
ressziós paraméterek köré is konfidencia-intervallumot konstruálnunk,
ha az alapsokaságbéli regressziós paramétereket akarjuk becsülni. En-
nek a konfidencia-intervallumnak a szélessége két dologtól függ: a stan-
dard hibától, illetve attól, hogy mennyire megbízhatónak szánjuk a becs-
lést. Ahogy általában szokásunkká lett, hogy az 5 százalékos szignifi-
kanciaszintet tekintjük vízválasztónak, ugyanúgy lecövekelhetünk a 95
százalékos megbízhatósági szint mellett is.55

55 A 95 százalékos megbízhatósági szint azt jelenti, hogy ha az alapsokaságból min-


den lehetséges módon kiválasztanánk az összes n elemszámú mintát, s e minta
mindegyikébıl konfidencia-intervallumos becslést adnánk az alapsokaság valamely
paraméterére, akkor e becslések 95 százaléka helyes, 5 százaléka pedig rossz becs-
lés lenne. A 95 százalék olyan sok, hogy a mi egyetlen mintánkból származó becs-
lésrıl is nyugodtan gondolhatjuk, hogy a helyes becslések közé tartozik.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 275

A standard hiba egy elméleti eloszlás szórása. Ezt az elméleti elosz-


lást mi magunk is elıállíthatnánk, ha idı és pénzbeli kapacitásunk lehe-
tıvé tenné, hogy az alapsokaságból az összes n elemő mintát kivá-
lasszuk, lekérdezzük, feldolgozzuk. Mivel érdeklıdésünk középpontjá-
ban a regressziós paraméterek állnak, most egy olyan eloszlást képzeljünk
el, ahol egy adott független változó regressziós paramétere szerepel
a vízszintes tengelyen. (5.9. ábra) Lesznek olyan mintáink, amelyben
ennek a regressziós paraméternek az értéke negatív, lesz, ahol 0, és lesz,
ahol az értéke pozitív. Az összes lehetséges minta B paraméterei azon-
ban az alapsokaságra jellemzı B érték körül szóródnak. Kevés olyan
mintánk lesz, amelyben az adott B paraméter akár az egyik, akár a má-
sik irányban nagyon messze esik az alapsokaságra jellemzı B paramé-
terétıl. A nagy számok törvényének köszönhetıen nemcsak annak van
jó esélye, hogy egy adott mintából jól becsülhetjük az alapsokaságbeli
paramétert, hanem még azt is állíthatjuk, hogy az összes lehetséges
minta paraméterei normális eloszlást56 követnek az alapsokaságbeli B
érték körül, és ennek a normális eloszlásnak a szórása a standard hiba.
Tehát ha 95 százalékos megbízhatósággal akarjuk becsülni a mintabeli
B érték segítségével az alapsokaságbeli „valóságos” regressziós együtt-
hatót, akkor két standard hibányi intervallumot kell konstruálnunk
jobbra és balra a mintabeli B érték köré, hogy ilyen megbízhatósággal
„garantáljuk” a jó becslést.

56 Ahhoz, hogy ez az eloszlás valóban normális eloszlás legyen, ismerni kellene


az alapsokaságbeli reziduálisok szórását, ami az alapsokaságbeli függı változó és
az alapsokaságban a regressziós egyenes által becsült függı változó közötti elté-
rések szórása. Mivel éppen azért vettük a mintát, mert az alapsokaságról „semmit
sem” tudunk, ezért ezt a szórást sem ismerhetjük. E szórás becslésére a mi konkrét
mintánk reziduálisainak szórását kell használnunk, ettıl azonban a normális el-
oszlás Student-féle t-eloszlássá laposodik. Ha a mintánk elemszáma nagyobb 120-
nál, ami az empirikus szociológiai kutatásokban mindig így van, a Student-féle t-el-
oszlás normális eloszlássá nemesül. Így tehát a pontatlan fogalmazás megbocsát-
ható.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

276 Túlélıkészlet az SPSS-hez

5.9. ábra: Az összes n-elemő minta B értékeinek elméleti eloszlása

B Bi-k a mintákban
az alapsokaságban

Az összes lehetséges, eredeti mintából származó regressziós együttható el-


oszlásának szórását – azaz a standard hibát – meglehetısen bonyolult kép-
lettel határozhatjuk meg. Az k-adik független változó magyarázóerejét rep-
rezentáló regressziós együttható standard hibájának képlete a következı:
sy 1 − R y2.12...k
σˆ bk = ⋅ ,
sk (1 − Rk2.12...( k −1) )(n − k − 1)
ahol sy a függı változó szórása, sk a k-adik független változó szórása,
R y2.12...k a függı változó szórásából a k darab, tehát valamennyi függet-
len változó által megmagyarázott hányad, Rk2.12...( k −1) a k-adik független
változó szórásából az összes többi független változó által megmagyará-
zott hányad, n a minta elemszáma, k pedig a független változók száma.
Adott megbízhatósági szinten az alapsokaságbeli regressziós együtt-
ható becslése tehát függ a kérdéses független változó szórásától és
a multikollinearitástól. A multikollinearitás mértékét a gyök alatti tört
nevezıjében szereplı Rk2.12...( k −1) kifejezés jelzi. Láthatjuk tehát, hogy
egy adott modellben, egy adott független változó regressziós együttha-
tójának standard hibája annál kisebb, minél nagyobb az adott független
változó szórása. Ez a megállapításunk partikuláris ugyan a multikolli-
nearitásnak a standard hibára gyakorolt hatása szempontjából, de ér-
demes meggondolnunk, hogy minél szőkebb tartományban oszlanak
meg az adott független változó értékei, annál pontatlanabb becsléseket

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 277

várhatunk a regressziós együttható alapsokaságbeli értékére. A multi-


kollinearitást jelzı Rk2.12...( k −1) érték akkor nagy, ha az adott független
változó erısen összefügg a többi független változóval. Hogyan hat ez
a multikollinearitás a standard hibára? Nagy multikollinearitás esetén
a nevezıben az (1 − Rk2.12...( k −1) ) kifejezés értéke kicsi lesz, az egész tört
értéke tehát megnı. A multikollinearitás növeli a regressziós együttha-
tók standard hibáját.
A multikollinearitással kapcsolatos félelmeinknek tehát az ad alapot,
hogy ha a független változóink erısen összefüggnek egymással, akkor
csak pontatlanabb becsléseket tudunk adni az alapsokaságbeli reg-
ressziós együtthatókra. Ha nagy a multikollinearitás, kénytelenek vagyunk
szélesebb konfidencia-intervallummal becsülni, és ez gyakran azt ered-
ményezi, hogy elbizonytalanodunk a független változók magyarázó-
erejének sorrendjét illetıen.57 A nagy multikollinearitás okozta széles
konfidencia-intervallum esetenként a regressziós együttható elıjelét ille-
tıen is bizonytalanságot teremt.58

5.9.2.2. Barátságosabb út a multikollinearitás meghatározására –


kétféle mérıszám
Mindazok számára, akik megrettentek az elızı fejezetben szereplı,
a regressziós együtthatók standard hibájának meghatározására szolgáló
bonyolult képlettıl, eláruljuk, hogy a multikollinearitás mértékét nem is
annyira nehéz meghatározni. A baj inkább az, hogy nem tudjuk eldön-
teni, hogy a kiszámított érték érvénytelenné teszi-e a modellt vagy még
a „tőréshatáron” belül van. Ennek ellenére, érdemes egy egyszerő mo-

57 Ha egy független változó 0,5-ös regressziós együtthatója köré 95 százalékos meg-


bízhatósági szinten ±0,3-as szélességő konfidencia-intervallumot kell konstruál-
nunk, míg egy másik független változó 0,4-es regressziós együtthatója ±0,1-es kon-
fidencia-intervallummal becsülhetı, akkor nem tudjuk, hogy a 0,2–0,8-as alapsoka-
ságbeli regressziós együtthatót, vagy a 0,3–0,5 intervallumba esıt tekinthetjük-e
erısebb hatásúnak.
58 Egy 0,2-es regressziós együttható köré ±0,3-as konfidencia-intervallumot konst-
ruálva az alapsokaságban pozitív és negatív elıjelő regressziós együtthatóra is szá-
míthatunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

278 Túlélıkészlet az SPSS-hez

dellben kiszámítanunk a multikollinearitás nagyságát. Nézzünk egy há-


romváltozós regresszióanalízist59, amelyben a jövedelem alakulását az
iskolázottsággal és a lakóhely településjellegével magyarázzuk.60 A két
független változó közötti lineáris korreláció nem félelmetesen magas,
értéke61 mindössze: 0,306. A regressziós parancssor a következı:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=STEPWISE befisk teltip .

Elıször a megmagyarázott hányadot tartalmazó táblát vegyük szem-


ügyre. (5.56. táblázat)
5.56. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,324a ,105 ,105 9,19
2 ,339 b ,115 ,114 9,14
a. Predictors: (Constant), BEFISK legmagasabb
iskolai végzettsége
b. Predictors: (Constant), BEFISK legmagasabb
iskolai végzettsége, TELTIP település tipusa

A megmagyarázott hányad alig haladja meg a tíz százalékot. Nézzük


meg, hogy hogyan osztoznak ezen a magyarázaton a független változók.

59 A TBD.KÖNYV_REGRESSZIÓ.SAV file adataival dolgozunk.


60 Most tegyük félre az ordinális mérési szintő változók iránti fenntartásainkat. Talán
már ráéreztek arra, mennyire nehéz egy minden szempontból megfelelı adatfile
létrehozása.
61 Sajnos, ha több független változónk van, a páronkénti korreláció nem igazít el ben-
nünket, hiszen a multikollinearitás a független változók közötti többdimenziós vi-
szonyt jeleníti meg.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 279

5.57. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 4,951 ,639 7,753 ,000
BEFISK legmagasabb
2,148 ,162 ,324 13,295 ,000
iskolai végzettsége
2 (Constant) 2,855 ,819 3,487 ,001
BEFISK legmagasabb
1,941 ,169 ,293 11,501 ,000
iskolai végzettsége
TELTIP település tipusa ,899 ,222 ,103 4,060 ,000
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

Mindkét változó hatása szignifikáns. A két független változó közötti lineá-


ris összefüggés is látszik, hiszen a második lépésben a TELTIP bekerülé-
sével a BEFISK béta értéke valamelyest csökkent. (5.57. táblázat) Ahhoz,
hogy a multikollinearitás egyik mérıszámát megalkossuk, azt kell meg-
értenünk, hogy a két független változó által együttesen megmagyarázott
hányad csak akkor lehet egyenlı az egyes változók önálló magyarázó-
erejének összegével, ha a két magyarázó változó független volt. A mi
példánkban azt várjuk, hogy a most lefuttatott modell magyarázóereje
kisebb lesz, mint ha az iskolázottság és a településjelleg külön-külön
modellben meghatározott R2-eit összeadnánk.62 Nézzük elıször az is-
kolázottságra épített modellt:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER befisk .

62 A gondolatmenet ismerıs, hiszen az interferencia jelenségét már ismerjük. Itt most


az az újdonság, hogy a független változók „átfedésének” mértéket is adunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

280 Túlélıkészlet az SPSS-hez

Az iskolázottság önálló magyarázóerejét mutatja az 5.58. tábla.

5.58. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,324a ,105 ,105 9,19
a. Predictors: (Constant), BEFISK legmagasabb
iskolai végzettsége

A második egyváltozós modellben a településjelleg lesz a független vál-


tozó. A parancs így fest:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER teltip .

A településjelleg által megmagyarázott hányad pedig az 5.59. táblázat-


ban látható.
5.59. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,192a ,037 ,036 9,53
a. Predictors: (Constant), TELTIP település tipusa

Az iskolázottság és a településtípus együttes magyarázóereje 0,114,


a két önálló magyarázóerı összege viszont (0,105+0,036) = 0,141. Az
együttes és a külön-külön produkált magyarázóerık különbsége:

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 281

M = (0,141-0114) = 0,027. A multikollinearitás teljes hiányát a mutató


0 értéke jelezné. A mi M értékünk alig haladja meg a nulla értéket, tehát
a multikollinearitás kicsi. Mindezt azonban – mivel csak két magyarázó
változónk van – már a két független változó közötti korrelációból is
sejthettük.
A másik lehetséges mód, ahogy a multikollinearitás mértékét megha-
tározhatjuk, a tolerancia-mutató kiszámítása. A tolerancia képlete a kö-
vetkezı:
T = 1 − R 2j ,
ahol R 2j = R j .1,2 ,..., j −1, j +1,...k

A tolerancia azt mutatja meg, hogy a j-edik független változó heteroge-


nitásából mennyit hagy magyarázatlanul az összes többi független vál-
tozó. A tolerancia-mutató kiszámításával nem kell magunk fáradjunk,
mert az SPSS változószelekciós módszerekkel futtatott regressziós
output-jában a tolerancia értéke is megjelenik. Nézzük, hol találjuk meg
az output-ban a toleranciát. A parancssor a következı:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=STEPWISE befisk teltip .

A toleranciát a modellbıl kihagyott változók táblázatában kell keres-


nünk. (5.60. táblázat)

5.60. táblázat
Excluded Variablesb

Collinearity
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
1 TELTIP település tipusa ,103a 4,060 ,000 ,104 ,908
a. Predictors in the Model: (Constant), BEFISK legmagasabb iskolai végzettsége
b. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

282 Túlélıkészlet az SPSS-hez

A lépés-sorszámból látjuk, hogy a modellbe már belépett az iskolázott-


ság, a településtípus pedig a parkolópályán várakozik. A településtípus
heterogenitásából a többi független változó (a mi esetünkben egyedül
az iskolázottság) 0,093-det magyaráz.63 A tolerancia értéke éppen a meg-
magyarázatlanul hagyott hányaddal, (1–0,093)-del egyenlı.64
A tolerancia tehát egy olyan 0 és 1 közé esı mutató, amelynek 1-hez
közeli értékei azt jelzik, hogy az adott független változó nem fenyegeti
a modellt azzal, hogy magas multikollinearitást okoz, míg a 0-hoz közel
esı értékek arra indítanak bennünket, hogy minden erınkkel próbáljuk
meg kiküszöbölni a multikollinearitást.65

5.9.2.3. Hogyan védekezzünk a sztochasztikus


multikollinearitás ellen?

Az elsı és legdrasztikusabb lehetıség annak, vagy azoknak a független vál-


tozóknak a kihagyása a modellbıl, amelyek túlságosan erısen összefüggnek
a többivel. Ennek a módszernek az a hátránya, hogy gyakran lényeges, az
elméleti modellalkotás szempontjából nélkülözhetetlen független válto-
zó(ka)t kell elveszítenünk. Ráadásul a multikollinearitás éppen azt jelenti,
hogy ha az egyik független változóval „történik valami”, ez az összes többi
független változó és a függı változó kapcsolatán nyomot hagy. Ha egy mul-
tikollinearitással átszıtt függetlenváltozó-szettbıl elhagyunk egyet, a többi
változó kölcsönviszonyai is megváltoznak, magyarázóerejük is módosul.
A második lehetıség, hogy az egymással összefüggı változók közül
elıször egyet – lehetıleg azt, amelyet legjobban magyaráz a többi füg-
getlen változó – azzal a reziduális változóval helyettesítünk, amely en-

63 Ehhez az R2 értékhez egy olyan regressziós modellbıl jutottunk el, amelyben a függı
változó a településtípus, a független pedig az – eredeti regressziós modellben már
bent lévı – iskolázottság.
64 A minimális eltérés a kerekítésekbıl adódik.
65 Ha az olvasónak kedve támad egy újabb modellt konstruálni, amelyben igen nagy
a multikollinearitás, magyarázza a jövedelmet (JOVED) a BEFISK és az ISKOSZT vál-
tozókkal. A modellbe elıször az ISKOSZT lép be, és a kívül maradó BEFISK mellett
0,103-des tolerancia-érték áll. A két közel azonos tartalmú változó beépítése tehát
– túl azon, hogy maga a modell értelmetlen – valóban igen alacsony toleranciát és
így magas multikollinearitást eredményez.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 283

nek a független változónak az összes többi független változó által ma-


gyarázatlanul hagyott66 részét testesíti meg. Nézzünk erre a módszerre
egy egyszerő példát, ahol két független változóval, nevezetesen a ház-
tartásfı által elvégzett iskolai osztályok és a házikönyvtárban található
lexikonok számával magyarázzuk a háztartásfı keresetét. A modellünk
két független változója erısen összefügg egymással, a két független vál-
tozó közötti lineáris korrelációs együttható értéke 0,816.
Mivel itt különbözı mértékegységekben mért, ezért nem összeha-
sonlítható változókról van szó, a béta értékekkel, illetve a hozzájuk tar-
tozó standard hibákkal kellene dolgoznunk. Az SPSS output-jából azon-
ban hiányzik a direkt lehetıség a béta együtthatók standard hibájának
meghatározására. Mi azonban jól tudjuk, hogy a B együtthatókat
könnyen átvarázsolhatjuk bétákká, pusztán annyit kell tennünk, hogy
mind a függı, mind a független változókat standardizált formában épít-
jük be a regressziós modellbe. Íme:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT zjoved
/METHOD=ENTER ziskoszt zlex .

5.61. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,689a ,475 ,470 ,7282967
a. Predictors: (Constant), ZLEX Zscore: lexikonok
száma a házi könyvtár, ZISKOSZT Zscore:
háztartásfõ által elvégzett isk

66 Ez a reziduális tehát az adott független változónak azt a részét reprezentálja, amely


az összes többi független változótól független, azaz ezzel a technikával a multi-
kollinearitást gyökerestıl kiirtottuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

284 Túlélıkészlet az SPSS-hez

A modellben a függı változó heterogenitásának 47 százalékát sikerült


megmagyarázni. (5.61. táblázat)

5.62. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -3,46E-17 ,051 ,000 1,000
ZISKOSZT Zscore:
háztartásfõ által elvégzett ,222 ,089 ,222 2,482 ,014
isk
ZLEX Zscore: lexikonok
,496 ,089 ,496 5,561 ,000
száma a házi könyvtár
a. Dependent Variable: ZJOVED Zscore: háztartásfõ jövedeleme (ezer Ft

Az 5.62. táblázatban a béta együtthatók standard hibái is leolvashatók.67


Ha a béta értékek köré konstruáljuk a 95 százalékos megbízhatósági
szintnek megfelelı két-két standard hiba szélességő intervallumot, lát-
hatjuk, hogy az alapsokaságbeli béta értékek erısorrendje nem eldönt-
hetı. Bennünket azonban rendszerint minden regressziós modell esetében
az érdekel, hogy melyik független változó hatása az erısebb. Küszö-
böljük ki a multikollinearitás torzítását, azaz az egyik független változó-
ból csak azt a részt építsük be magyarázó változóként, amely a másik
független változótól független darabot testesít meg. Ezt a változót an-
nak a regressziós modellnek a reziduálisai adják, amelyben függı válto-
zóként az eredeti modell egyik független változóját szerepeltetjük, ma-

67 Gondolkodjunk el azon, vajon miért egyenlı a két független változó béta együttha-
tójának standard hibája. Emlékezzünk vissza, hogy a standard hiba képletében két
olyan tényezı van, amely egy adott modellben a különbözı független változók reg-
ressziós együtthatójának standard hibáját befolyásolja. Az egyik a független változó
szórása, a másik a többi független változóval való összefüggés erıssége. A mi mo-
dellünkben – lévén a két független változónk standardizált – mindkét független
változó szórása 1. Mivel csak két független változónk van, a lexikonok száma épp
olyan erısséggel befolyásolja az iskolázottságot, mint az iskolázottság a lexikonok
számát. E két dolognak együttesen köszönhetjük, hogy a független változókhoz
tartozó béta értékek standard hibája egyenlı.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 285

gyarázó változóként pedig a másik független változót.68 Mivel a re-


ziduálisokra mint új változóra szükségünk lesz, a regressziós parancs
egy új /SAVE ZRESID69 sorral bıvül.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT zlex
/METHOD=ENTER ziskoszt
/SAVE ZRESID .

A regressziós output további részletei most nem érdekesek számunkra,


hiszen csak a reziduális változóra van szükségünk, amit azonnal beépí-
tünk az eredeti, a jövedelem magyarázatára szolgáló modellbe.70 Ebben
a modellben tehát az iskolázottság eredeti, de standardizált formájában
szerepel, míg a lexikonok számát jelentı változóból csak az a rész ke-
rült a modellbe, amely az iskolázottságtól független.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT zjoved
/METHOD=ENTER ziskoszt zresid1 .

A legfontosabb tanulság az, hogy a multikollinearitás kiküszöbölésére szol-


gáló technika nem befolyásolja a modell magyarázóerejét, az ADJUSTED R2
értéke itt is 47 százalékos. (5.63. táblázat)

68 Ha a modellünkben kettınél több független változó szerepel, akkor értelemsze-


rően egy eredetileg független változót az összes többi független változóval magya-
rázunk.
69 Az SPSS lehetıséget ad a reziduálisok standardizált és nem standardizált formában
való elmentésére is. Mi most annak érdekében, hogy a béták standard hibái rendel-
kezésünkre álljanak, minden változót standardizált formában használunk, így a re-
ziduálist is.
70 Az SPSS a futtatás során elsıként keletkezı standardizált reziduálist ZRES_1 néven
menti el, amelyet mi átneveztünk, ezért a file-ban ZRESID1 néven szerepel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

286 Túlélıkészlet az SPSS-hez

5.63. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,689a ,475 ,470 ,7282967
a. Predictors: (Constant), ZRESID1 standardizált
reziduális (zlex by ziskoszt), ZISKOSZT Zscore:
háztartásfõ által elvégzett isk

5.64. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 1,257E-16 ,051 ,000 1,000
ZISKOSZT Zscore:
háztartásfõ által ,626 ,052 ,626 12,135 ,000
elvégzett isk
ZRESID1 standardizált
reziduális (zlex by ,288 ,052 ,287 5,561 ,000
ziskoszt)
a. Dependent Variable: ZJOVED Zscore: háztartásfõ jövedeleme (ezer Ft

Rendet vágtunk a béta együtthatók konfidencia-intervallumaiban is:


nincs kétség afelıl, hogy az iskolázottság jobban befolyásolja a jövedel-
met, mint a lexikonok számának az iskolázottságtól „megtisztított” ré-
sze. (5.64. táblázat)
Most már csak az a kérdés, hogy nem bántunk-e túl igazságtalanul
a lexikonok számával. Nem törvényszerő-e, hogy ha a lexikonok számá-
ból „kiszakítottunk” egy, az iskolázottsággal összefüggı részt, akkor a ma-
radék, azaz a reziduális magyarázóereje lecsökken? Próbáljuk meg most
az iskolázottságból „kiszakítani” azt a részt, amely összefügg a lexikonok
számával, és nézzük meg, milyen lesz így a béták közötti erısorrend.
Ehhez elıször az iskolai végzettségnek azt a részét kell megragadnunk,
amely független a lexikonok számától. Futtassunk egy regressziót, ahol
az iskolai végzettség a függı, a lexikonok száma pedig független változó,
és standardizált formában mentsük el a reziduálisokat.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 287

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT ziskoszt
/METHOD=ENTER zlex
/SAVE ZRESID .

Az ehhez az SPSS parancshoz tartozó output most sem érdekes szá-


munkra.71 Futtassunk most tehát egy másik regressziót, amelyben függı
változóként a standardizált jövedelem változó, független változókét pe-
dig egyrészrıl a lexikonok számát jelölı változó standardizált változata,
másrészrıl pedig az iskolai osztályok számát jelentı változó azon „ré-
sze” szerepel, amely a lexikonok számától független.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT zjoved
/METHOD=ENTER zlex zresid2 .

A modell magyarázóereje természetesen itt sem változik. (5.65. táblázat)

5.65. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,689a ,475 ,470 ,7282967
a. Predictors: (Constant), ZRESID2 standardizált
reziduális (ziskoszt by zlex), ZLEX Zscore:
lexikonok száma a házi könyvtár

71 A most keletkezı reziduálist ZRESID2 néven mentettük el.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

288 Túlélıkészlet az SPSS-hez

5.66. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -1,05E-16 ,051 ,000 1,000
ZLEX Zscore: lexikonok
,677 ,052 ,677 13,116 ,000
száma a házi könyvtár
ZRESID2 standardizált
reziduális (ziskoszt by ,128 ,052 ,128 2,482 ,014
zlex)
a. Dependent Variable: ZJOVED Zscore: háztartásfõ jövedeleme (ezer Ft

Most jól látható módon a lexikonok magyarázóereje erısebb, mint az


iskolázottság már többször definiált reziduálisa. (5.66. táblázat) Foglal-
juk össze a három különbözı regressziós modell béta együtthatóiról és
a standard hibáiról szóló információkat. (5.67. táblázat)

5.67. táblázat: A regressziós modellek béta együtthatói és standard hibái


független
Béta SE Béta
változók
ZISKOSZT 0,222 0,89
1. modell
ZLEX 0,496 0,89
ZISKOSZT 0,626 0,52
2. modell
ZRESID1 0,287 0,52
ZLEX 0,677 0,52
3. modell
ZRESID2 0,128 0,52

Ebben a modellben könnyő dolgunk van, ha el akarjuk dönteni, hogy


melyik független változó magyarázóereje az erısebb, hiszen a lexiko-
nok száma önállóan72 erısebben hat a jövedelemre, mint az iskolázott-

72 A második és a harmadik modellben a reziduálisok szerepeltetése garantálja, hogy


az eredeti, de standardizált formában szereplı független változók béta értéke nem
más, mint az adott független változó önálló, a modellben szereplı többi magyará-
zó változótól független hatása.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 289

ság. Ráadásul, ha a lexikonok számából csak azt a részt vonjuk be a mo-


dellbe, amely független az iskolázottságtól, magasabb béta értéket ka-
punk, mint az iskolázottság reziduálisához tartozó béta. Gyakori azon-
ban az az eset, hogy a reziduálisok szerepeltetése a modellekben hol az
egyik, hol a másik független változó magyarázóerejét mutatja erısebb-
nek. Ilyenkor a független változók között a regressziós modelltıl füg-
getlenül kell egy teoretikus sorrendet megállapítani, és logikailag védhe-
tı módon kell a modellt felépíteni, azaz eldönteni, hogy mely változók
szerepelnek önállóan, és melyeket szorítunk be a rezidualitás okozta
szerepvesztésbe.
A harmadik lehetséges módszer, ahogy a multikollinearitás ellen vé-
dekezhetünk a fıkomponens-, illetve a faktorelemzés segítségül hívása.
Ha az összefüggést mutató független változók között találunk olyan
változóbokrokat, amelyek fıkomponens- vagy faktorelemzéssel egyet-
len vagy egy-két változóvá aggregálhatók, ezek az új aggregált változók
eliminálják a multikollinearitás problémáját.

5.10. Hab a tortán: a homoszkedaszticitás és az elsırendő


autokorreláció
Amikor már minden problémánk megoldódni látszik, és egy tökéletes
regressziós modellt alkottunk, még mindig nem dılhetünk hátra a jól
végzett munka örömével. Könnyen lehet, hogy a modell, amelyet alkot-
tunk, alapjaiban téves. Egy adekvát lineáris regressziós modellben azt
várjuk, hogy a reziduálisok szórása állandó legyen, azaz például ne tud-
junk jobb regressziós becslést adni az alacsony jövedelmőekre, mint
a magas jövedelmőekre. Ha a reziduálisok szórása nem állandó, akkor
joggal feltételezzük, hogy a lineáris modell felállítása helytelen volt, és
jobb közelítést adhatnánk a független változóra, ha nem lineáris össze-
függést feltételeznénk a függı és a független változók között. Ha telje-
sül az a feltétel, hogy a regressziós egyenes vagy hipersík minden pontján
azonos szórású reziduálisok találhatók, akkor ezeket a reziduálisokat ho-
moszkedasztikusnak nevezzük, és boldogan értelmezhetjük a lineáris reg-
ressziós modellt.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

290 Túlélıkészlet az SPSS-hez

Annak eldöntésére, hogy a homoszkedaszticitás fennáll-e, elıször


egy grafikus módszert mutatunk be, amely az SPSS LINEAR REG-
RESSION parancsablakából hívható elı. A grafikon vízszintes tengelyén
a függı változó regresszió által elırejelzett értékét, a függıleges tenge-
lyen pedig a reziduálisokat méri fel. Ha a reziduálisok beszoríthatók két
párhuzamos egyenes közé, akkor a lineáris regressziós modellt a homo-
szkedaszticitás szempontjából elfogadhatónak tekinthetjük. Bármilyen
ígéretes is ez a módszer, nagy teret enged a szubjektivitásnak. Nézzük
meg, mit is jelent ez a gyakorlatban. Futtassuk le a már jól ismert reg-
ressziót, amellyel a fıállásból származó jövedelmet magyarázzuk az el-
végzett osztályok számával és a kérdezett nemével.73
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme iskoszt
/SCATTERPLOT=(*ZRESID ,*ZPRED ) .

A parancs utolsó sorában kértük a reziduálisok grafikus ábrázolását.


Nézzük az eredményt!
Kétségkívül kell némi jóindulat, hogy a reziduálisokat az x-tengellyel
párhuzamos, egymáshoz viszonylag közel lévı két egyenes közé szorít-
hatónak lássuk. (5.10. ábra) Úgy tőnik tehát, hogy a grafikus ábrázolás
nem oszlatja el maradéktalanul abbéli félelmeinket, hogy a jövedelem
magyarázatára nem volt helyénvaló lineáris regressziót alkalmaznunk.
Léteznek más, „macerás” módszerek is a homoszkedaszticitás ellenır-
zésére, ezek közül egy viszonylag egyszerőt ismertetünk, amelynek az
a lényege, hogy az adatfile-unkból két – a mi esetünkben tíz százalékos
– mintát veszünk, mindkettıre lefuttatjuk a regressziós modellt, meg-

73 Ismét a TBD.KÖNYV_REGRESSZIÓ.SAV file adataival dolgozunk. Az 5.4.1. fejezet-


ben már definiált 18 válaszadótól ebben az esetben is eltekintünk, tehát model-
lünkben csak azok szerepelnek, akik a KIDOB változón 1-es értéket kaptak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 291

határozzuk a reziduálisok szórását és F-próbával eldöntjük, hogy egy-


formák-e.74 A leválogatáshoz a következı parancsot használjuk:
COMPUTE filter_$=(uniform(1)<=.10).
VARIABLE LABEL filter_$ 'Approximately 10 % of cases
(SAMPLE)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

5.10. ábra

Scatterplot

Dependent Variable: fõállásból havi nettó jöv. (1000 Ft)


14

12
Regression Standardized Residual

10

-2
-4
-6 -4 -2 0 2 4

Regression Standardized Predicted Value

74 Ha egyetlen független változónk van, akkor célszerő a független változó szerint


sorbarendezni a file-t, és a legkisebb k elembıl álló alminta reziduálisait a legna-
gyobb k elembıl álló alminta reziduálisokkal összehasonlítani.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

292 Túlélıkészlet az SPSS-hez

Majd az almintára futtassunk regressziót:75


REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme iskoszt
/SAVE RESID .

Nézzük az elsı minta reziduálisainak statisztikáit. (5.68. táblázat)

5.68. táblázat
Residuals Statisticsa

Std.
Minimum Maximum Mean Deviation N
Predicted Value 3,19 21,53 11,78 3,72 133
Residual -12,98 21,31 1,47E-16 5,52 133
Std. Predicted Value -2,308 2,617 ,000 1,000 133
Std. Residual -2,333 3,832 ,000 ,992 133
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

Válogassunk le egy másik mintát. Ehhez elıször dobjuk ki azokat, akik


az elsı almintában már szerepeltek:
FILTER OFF.
USE ALL.
SELECT IF(filter_$ = 0).
EXECUTE .

75 A fenti SELECT CASES parancs segítségével létrehoztunk egy filter-változót (FILTER_$),


amelynek 1-es értéke jelöli azokat, akik tagjai lettek a tíz százalékos véletlen mintának.
A filter-változó segítségével létrehoztunk egy TBD.KÖNYV_SAMPLE1.SAV nevő file-t,
amelyben csak ezek a megkérdezettek szerepelnek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 293

Fontos, hogy a válogatásnál (SELECT CASES) a DELETE gombra klikkel-


jünk. Ezek után az eredeti adatbázis kilencven százalékát tartalmazó
file-ból megint vegyünk egy körülbelül 10 százaléknyi mintát.
COMPUTE filter_$=(uniform(1)<=.10).
VARIABLE LABEL filter_$ 'Approximately 10 % of cases
(SAMPLE)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

Erre az almintára is futtassunk regressziót:76


REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme iskoszt
/SAVE RESID .

A reziduálisok statisztikáit tartalmazza a következı tábla. (5.69. táblázat)

5.69. táblázat
Residuals Statisticsa

Std.
Minimum Maximum Mean Deviation N
Predicted Value 6,37 18,45 12,51 2,62 126
Residual -9,96 17,55 4,93E-16 5,30 126
Std. Predicted Value -2,337 2,266 ,000 1,000 126
Std. Residual -1,864 3,282 ,000 ,992 126
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

A második almintában a reziduálisok szórása 5,30, az elsıben 5,52


(5.68 és 5.69 tábla). Nézzük meg egy F-próba segítségével, hogy a két
szórás szignifikánsan különbözik-e. Az F-statisztika két variancia há-

76 A filter-változó segítségével létrehozott file-t TBD.KÖNYV_SAMPLE2.SAV néven


mentettük el.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

294 Túlélıkészlet az SPSS-hez

nyadosa, tehát a mi esetünkben azt kell eldönteni, hogy az (5,52)2 és


az (5,30)2 hányados mekkora F-értéket produkál. Ennek a hányadosnak
az értéke: 1,08. A szokásos 5 százalékos szignifikancia-szinten 132-es,
illetve 134-es szabadságfoknál77 az F-statisztika küszöbértéke 1,88.
Tehát nem vetjük el a „két szórás egyforma” nullhipotézist. A homo-
szkedaszticitás kritériuma teljesült.
Még egy baj érhet bennünket, ha lineáris regresszióelemzésre adjuk
a fejünket. A baj neve: autokorreláció. Ahhoz ugyanis, hogy a regressziós
együtthatók megfelelıen becsüljék az alapsokaságbeli B, illetve béta értéke-
ket, teljesülni kell a reziduálisok függetlenségének. Ha egy adott független
változó i-edik értékénél tapasztalt reziduális függ az (i–1)-ik x értékhez
tartozó reziduálistól, akkor autokorrelációról beszélünk.78 Az autokorre-
láció tehát azt jelenti, hogy az i-edik megfigyeléshez tartozó reziduális leír-
ható az (i–1)-dik megfigyeléshez tartozó reziduális segítségével, azaz:
ei = p ⋅ ei −1 + u i ,
ahol ei az i-edik megfigyeléshez tartozó reziduális, p az autokorrelációs
együttható, ei–1 az (i–1)-dik megfigyeléshez tartozó reziduális, ui pedig
az a hibatag, amely jelzi, hogy a két megfigyeléshez tartozó reziduális
közötti összefüggés csak sztochasztikus. Annak eldöntésére, hogy az auto-
korreláció elég kicsi-e ahhoz, hogy regressziós modellünkre jól speci-
fikált modellként tekinthessünk, a Durbin–Watson-próba szolgál. Mind-
azok számára, akiket a Durbin–Watson statisztika eloszlása, illetve a pró-
ba lépései részletesen érdekelnek, javasoljuk a könyv végén szereplı
ajánlott irodalom áttekintését. Akik beérik azzal a megnyugtató érzés-

77 A számlálóban szereplı szóráshoz tartozó alminta elemszáma 133 volt, a nevezı-


beli szóráshoz tartozó alminta 126 elembıl állt, így az F-statisztika táblázatából
az öt százalékos szignifikanciaszinthez tartozó lapon a (132;125)-ös szabadságfok-
párhoz tartozó küszöbértéket kell leolvasnunk. Mivel az F táblázatok a 120-nál na-
gyobb szabadságfokokhoz már elnagyoltan tüntetik fel az F-értékeket, az általunk
megadott kritikus értékek csak közelítések.
78 Ha a reziduálisok közötti összefüggés csak az i-edik és az (i–1)-ik megfigyeléshez
tartozó reziduálisok között áll fenn, akkor elsırendő autokorrelációról beszélünk.
Ha nem csak a szomszédos, hanem a távolabbi megfigyelésekhez tartozó reziduáli-
sok között is van összefüggés, akkor magasabbrendő autokorrelációról beszélünk.
Mi csak az elsırendő autokorrelációval foglalkozunk, ezért autokorreláción mindig
az elsırendő autokorrelációt értjük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 295

sel, hogy a Durbin–Watson mutató segítségével megszüntethetik az


autokorreláció lététıl való félelmüket, azok fogadják el azt a hüvelykujj-
szabályt, hogy 500 elemőnél nagyobb minta esetében az 1,8 és 2,2 közé
esı Durbin–Watson statisztika azt jelzi, hogy az autokorreláció elha-
nyagolhatóan csekély.79
A statisztika kiszámítását az SPSS-tıl is kérhetjük a LINEAR REGRESSION
ablak STATISTICS alablakában. Ekkor a parancssor a /RESIDUALS DURBIN
sorral bıvül. Nézzünk egy példát.80
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme iskoszt
/RESIDUALS DURBIN .

5.70. táblázat
Model Summaryb

Std. Error
Adjusted of the Durbin-
Model R R Square R Square Estimate Watson
1 ,380a ,144 ,143 8,99 1,906
a. Predictors: (Constant), ISKOSZT elvégzett osztályok száma,
NEME a kérdezett neme
b. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

A példa egy már korábban futtatott modellünkre vonatkozik. Az 5.70.


táblából jól látható, hogy a MODEL SUMMARY táblázat itt egy újabb
oszloppal bıvült. Ebben az esetben a Durbin–Watson mutató értéke
1,906, tehát a hüvelykujj-szabályt alkalmazva azt mondhatjuk, hogy az
autokorreláció értéke elegendıen kicsiny.

79 Ha a Durbin–Watson-mutató értéke azt jelzi, hogy az autokorreláció túlságosan


nagy, lehetıség van a függı és független változók transzformációjával kezelni a prob-
lémát. Sok független változó esetén azonban az eljárás meglehetısen bonyolult.
Lásd errıl bıvebben a Cochran–Orcutt módszert.
80 Ismét a TBD.KÖNYV_REGRESSZIÓ.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

296 Túlélıkészlet az SPSS-hez

5.11. Biztos, ami biztos: a regressziós modellek validitása

Lelkiismeretünk megnyugtatására még egy utolsó ellenırzésnek is alá-


vethetjük regressziós modellünket, eldöntendı, hogy nem csak egy sze-
rencsés véletlennek köszönhetjük-e azt a megelégedettséggel párosult
büszkeséget, amelyet az eddigi tesztelések eredményeképpen érezhe-
tünk.
Bontsuk mintánkat két azonos elemszámú részre, és az elsı minta-
szeletre lefuttatva a regressziós modellt, becsüljük meg a függı változó
értékeit e regressziós együtthatók felhasználásával a második mintasze-
leten. Ezek a becslések nyilvánvalóan eltérnek a valódi értékektıl, így
minden megfigyelésre meghatározható a reziduális értéke. Ezeknek a re-
ziduálisoknak a szórását kell összevetnünk a második mintaszeleten fut-
tatott egyszerő regresszióelemzés reziduálisainak szórásával. Ha ez a két
szórás statisztikai értelemben megegyezik, akkor a regressziós model-
lünket bátran értelmezhetjük.
Nézzük a validitás-vizsgálat lépéseit. Elıször a mintánkat két hason-
ló elemszámú almintára kell bontanunk.81 Ehhez a SELECT CASES pa-
rancsot használtuk, és a következı parancssort futtattuk.
USE ALL.
COMPUTE filter_$=(uniform(1)<=.50).
VARIABLE LABEL filter_$ 'Approximately 50 % of cases
(SAMPLE)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

A minta felezését szolgáló filter-változónak a SAMPLE nevet adtuk. Az el-


sı mintaszelet leválogatása a következı paranccsal történik.82

81 A TBD.KÖNYV_VALIDITÁS-VIZSGÁLAT.SAV file adataival dolgozunk.


82 A KIDOB változó segítségével a szélsıséges, a regresszióra nem illeszkedı válasz-
adókat kihagyjuk az elemzésbıl, míg a SAMPLE változó segítségével felezzük a min-
tát.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 297

USE ALL.
COMPUTE filter_$=(sample = 0 & kidob = 1).
VARIABLE LABEL filter_$ 'sample = 0 & kidob = 1
(FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

Erre az almintára futtassuk a már jól ismert regressziós modellt, azaz


magyarázzuk a jövedelmet az iskolázottsággal és a nemmel.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme iskoszt .

Ebbıl a futásból csak a regressziós együtthatókra lesz szükségünk.


(5.71. táblázat)

5.71. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 4,914 1,188 4,137 ,000
NEME a kérdezett neme -3,199 ,440 -,244 -7,277 ,000
ISKOSZT elvégzett
1,075 ,091 ,397 11,808 ,000
osztályok száma
a. Dependent Variable: FOJOV fõállásból havi nettó jöv. (1000 Ft)

Azt gondoljuk, hogy ha helyesen specifikáltuk a regressziós modellt,


akkor az elsı almintából származó regressziós együtthatókat kiválóan
használhatjuk arra, hogy segítségükkel a második almintán regressziós
becslést tegyünk a jövedelmekre. Ezeknek a becsléseknek nagyon kell

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

298 Túlélıkészlet az SPSS-hez

hasonlítaniuk a második mintán egyszerően lefuttatott regresszió által


produkált becslésekhez. Azaz úgy gondoljuk, hogy az egyik és a másik
almintán futtatott két regressziós modellt akkor tekintjük „azonosnak”,
ha az egyikbıl nyert együtthatókkal éppen olyan becsült értékekhez ju-
tunk, mintha a másik alminta regressziós együtthatóit használnánk. A füg-
gı változóra kétféle módon nyert becslések egyezıségét pedig a hozzá-
juk tartozó reziduálisok szórásának egyenlıségével/különbözıségével
mérjük. Hozzuk létre tehát a második almintát.
USE ALL.
COMPUTE filter_$=(sample = 1 & kidob = 1).
VARIABLE LABEL filter_$ 'sample = 1 & kidob = 1
(FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

Ezen az almintán számítsuk ki, mekkorák lennének a becsült jövedel-


mek, ha az elsı alminta regressziós együtthatóival becsülnénk.
IF (sample=1 & kidob=1) becsjov = 4.914-3.199*neme+
1.075*iskoszt .
VARIABLE LABELS becsjov '1. alminta együtthatóival
becsült jövedelem' .
EXECUTE .

Számítsuk ki, mekkorák a tényleges jövedelmek és az így becsült jöve-


delmek közötti négyzetes eltérések.
IF (sample=1 & kidob=1) becsres = ((becsjov-fojov)*
(becsjov-fojov)) .
VARIABLE LABELS becsres '1. alminta együtthatóival
becsült jövedelem és a tényleges jövedelem négyzetes
eltérései' .
EXECUTE .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Lineáris regresszióanalízis 299

Ezeknek a négyzetes eltéréseknek az átlaga nem más, mint az így defi-


niált reziduálisok varianciája.83

5.72. táblázat
Descriptive Statistics

N Mean
BECSRES 1. alminta együtthatóival becsült jövedelem
768 30,1139
és a tényleges jövedelem négyzetes eltérései
Valid N (listwise) 768

Az elsı alminta regressziós együtthatóinak felhasználásával a második


alminta jövedelmeire egy olyan becslést nyertünk, amelyhez tartozó re-
ziduálisok varianciája 30,11-gyel egyenlı. (5.72. táblázat)
Nézzük, mekkora azoknak a reziduálisoknak a varianciája, amelyeket
a második almintán futtatott regresszióanalízis produkál.84
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT fojov
/METHOD=ENTER neme iskoszt
/SAVE RESID .

A paranccsal elmentett reziduálisok varianciáját egy DESCRIPTIVES uta-


sítással határozhatjuk meg. (5.73. táblázat)

83
∑ (Yˆi − Yi ) 2
σ (res) =
2 i =1

n
84 Ne feledjük, hogy az utoljára futtatott SELELCT CASES parancs hatására most már a
második almintában vagyunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

300 Túlélıkészlet az SPSS-hez

5.73. táblázat
Descriptive Statistics

N Variance
RES_1 Unstandardized
768 30,136
Residual
Valid N (listwise) 768

A kétféleképpen meghatározott reziduálisok varianciájára – jóllehet biz-


tosak vagyunk benne, hogy nincs közöttük szignifikáns különbség –
F-próbát kell számítanunk. Az F-statisztika a két összehasonlítandó va-
rianc ia hányadosa. A mi esetünkben az F értéke 1,0007. Öt százalékos
szignifikanciaszinten az F-statisztika küszöbértéke (767;767) szabadság-
fok-pár mellett 1,1 körül van.85 Az F-próba tehát azt mutatja, hogy a két
variancia nem különbözik szignifikánsan. A regressziós modell validi-
tásához nem férhet kétség.
A lineáris regresszió tehát magas mérési szintő változókból építkezı
modell, amelyet eredetileg predikciós céllal alkottak meg. A társadalom-
tudományok azonban igen kevéssé használják ezt az elırejelzı funkciót,
inkább a magyarázat erısségére és az egyes független változók hatás-
erısségére fordítják figyelmüket. Gyakran kénytelenek áthágni a mérési
szint korlátokat is, de a különféle skála-transzformációknak és a dummy-
zásnak a modellek értelmezése során majdnem mindig meg kell fizetni
az árát. A lineáris regressziós modell építése némileg hasonlít egy akna-
mezın való keresztülhaladáshoz, ahol az aknákat a multikollinearitás,
a heteroszkedaszticitás és az autokorreláció jelentik. Ha épségben átju-
tunk valamennyi aknán, még mindig célszerő a modell validitását min-
taszeleteléssel is ellenırizni.

85 Az F-eloszlás táblázatok korlátozott használhatóságáról már beszéltünk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

6. ÚTMODELLEK

Az útmodellek legkézenfekvıbb terepét a mobilitás-vizsgálatok jelen-


tik. Amikor arra vagyunk kíváncsiak, hogy valakinek az iskolai végzett-
ségét hogyan befolyásolja szüleinek, illetve nagyszüleinek iskolázottsága,
elemzésünkhöz érdemes útmodellt használni. Az útmodell nem más,
mint egymásra épülı regressziós modellek sorozata. A modell felépíté-
sének logikáját a 6.1. ábra szemlélteti.

6.1. ábra: Az útmodell felépítésének logikája


az iskolai mobilitás példáján keresztül

NAPOSZT

SZULOSZT GYEROSZT

NANYOSZT

A modellben azt vizsgáljuk, hogyan hat a gyermek iskolázottságára a nagy-


apa iskolai végzettsége, de ezt a hatást úgy fogjuk fel, ahogy a „valóság-
ban” mőködik. Ez azt jelenti, hogy figyelembe vesszük, hogy a nagypapa
annak idején egy hozzáillı lányt vett feleségül, vagyis az ı iskolázottsága
összefügg a nagymama iskolai végzettségével. A nagyszülık iskolázottsága
(NAPOSZT és NANYOSZT változónévvel) befolyásolta, hogy mennyire tanít-
tatták a gyereküket (ez a változó a modellben a kérdezett iskolai osztályai-
nak száma, és a SZULOSZT nevet kapta), s végül azt a hatást is beépítettük
a modellbe, amely a kérdezett és a gyereke iskolázottsága között fennáll.
Az útmodellben szereplı változókat nyilak kötik össze, jelezve a kap-
csolatok irányát, azaz kauzális modellt építünk. Ebben az egyszerő példá-
ban nincs gondunk azzal, hogy mit tekintsünk egzogén változónak, vagyis
olyannak, amelyet – a modellben – nem befolyásol más változó. A kérdés-
feltevésünkbıl következik, hogy a nagyapa iskolázottsága lesz a kiinduló

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

302 Túlélıkészlet az SPSS-hez

változónk. A belıle kifelé vezetı nyilak közül egy közvetlenül az unoka


(GYEROSZT) iskolázottságához vezet. Ezt a nyíllal megjelenített hatást
közvetlen hatásnak nevezzük. Az összes többi kivezetı nyíl más változókon
keresztül vezet el bennünket az unoka iskolázottságáig. Ezeket az utakat
közvetett utaknak nevezzük, hiszen azt mutatják, hogy a szülı iskolázott-
ságán keresztül hogyan érvényesül a nagyapai hatás, illetve hogy a nagy-
mama iskolázottsága mennyire befolyásolta a szülı iskolai végzettségét és
ezen keresztül miként hatott az unoka végzettségére. A modellben a nagy-
mama és a szülı végzettségét intermediális vagy közbülsı változónak nevez-
zük. A közbülsı változók olyanok, amelyeknek a viselkedését valamely
más változó befolyásolja ugyan, de ugyanakkor a közbülsı változó maga is
magyarázza más változó viselkedését. Az „igazi” függı változónk az uno-
ka iskolai végzettsége, ebbe a változóba mutatnak a magyarázatot repre-
zentáló nyilak, de belıle nem vezet út más változók felé.
Az útmodellekben valójában nem akarunk mást, mint a független
változónk (egzogén változó) és a függı változó közötti nulladrendő li-
neáris korrelációt két részre bontani. Az egyik rész az a hatás, amelyet
a független változó közvetlenül fejt ki a „végsı” függı változóra, a má-
sik rész pedig az a hatás, amelyet a független változó más, közbülsı vál-
tozókon keresztül gyakorol erre a változóra. Ahhoz, hogy megmutassuk,
hogy valóban egy Pearson-féle korreláció két additív részre bontásáról
van szó, elıször ki kell számítanunk, milyen erısek a különbözı utak.

6.1. Az utak erıssége

A 6.1. ábrát szemlélve láthatjuk, hogy abban valójában három regressziós


modell rejtızik. Az egyik regressziós modell az unoka iskolázottságát
becsli a szülı és a két nagyszülı iskolai végzettségének segítségével. Azaz:
GYEROSZT = β 1 * SZULOSZT + β 2 * NANYOSZT + β 3 * NAPOSZT + RESID1 ,
ahol a β -ák a parciális regressziós együtthatók, a reziduális (RESID1) pe-
dig a regressziós becslés hibája.
Az ábrán azonban látható egy másik regressziós modell is, amely
a szülı iskolázottságát becsli a nagyszülık végzettségével:
SZULOSZT = γ 1 * NANYOSZT + γ 2 * NAPOSZT + RESID 2 ,

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 303

ahol a γ-k a parciális regressziós együtthatók, és a reziduális (RESID2) itt


is a becslési hiba.
Végül az ábrán látható harmadik regressziós modell a nagyanya vég-
zettségét magyarázza a nagyapa végzettségével.1
NANYOSZT = δ * NAPOSZT + RESID 3 ,
ahol a δ egy parciális regressziós együttható, a reziduális (RESID3) pedig
a hibatag.
Vegyük észre, hogy az elsı egyenletben szereplı „szülı végzettsége”
helyébe behelyettesíthetjük a második egyenlet jobb oldalán álló kifeje-
zést. Ekkor a
GYEROSZT = β 1 * (γ 1 * NANYOSZT + γ 2 * NAPOSZT + RESID 2 ) + β 2 * NANYOSZT +
+ β 3 * NAPOSZT + RESID1
alakhoz jutunk, amelyet rendezve és a két reziduálist egyetlen hibataggá
összevonva a következı egyenletet kapjuk:
GYEROSZT = β 1 * γ 1 * NANYOSZT + β 1 * γ 2 * NAPOSZT + β 2 * NANYOSZT + β 3 * NAPOSZT +
+ RESID

Ha a nagyanya végzettsége helyére a harmadik regressziós egyenletet


helyettesítjük és a reziduálisokat megint csak egyetlen hibataggá vonjuk
össze, akkor egyenletünk a következı alakot ölti:
GYEROSZT = β 1 * γ 1 * δ * NAPOSZT + β 1 * γ 2 * NAPOSZT + β 2 * δ * NAPOSZT + β 3 * NAPOSZT +
+ RESID

1 A nyíl mutathatna két irányba, ha azt szimbolizálná, hogy a nagyapa és a nagy-


anya iskolázottsága között szimmetrikus viszonyt tételezünk fel, és nem gondol-
juk, hogy a nagyapa iskolázottsága „okozza” a nagyanya végzettségét. Ebben az
esetben a két nagyszülı iskolázottsága közötti korrelációt vennénk számításba.
A mi modellünkben – az útmodell lényegének könnyebb megértése érdekében –
egy erısen patriarchális berendezkedést jelenítettünk meg, azt sugallva, hogy a
házasságok piacán a férfiak a „vevık” és az ı végzettségük határozza meg, hogy
milyen iskolázottságú nıt vesznek feleségül. Ebben az esetben a nagyapa is-
kolázottságából egy „egyfejő” nyíl vezet a nagyanya iskolázottsága felé, és e két
változó kapcsolata esetében is ok-okozati modellben gondolkodunk. Késıbb lát-
ni fogjuk, hogy ez a módosítás nem okoz „számszaki” eltérést, a regressziós és
a korrelációs együttható értéke itt ugyanaz. A kétféle felfogás között azonban –
a mondottak alapján –, érdemes különbséget tenni.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

304 Túlélıkészlet az SPSS-hez

Nézzük az eredeti 6.1. ábránkat, most már az egyenletekben szereplı


regressziós együtthatók jelölésével. (6.2. ábra)

6.2. ábra: Az iskolai mobilitás regressziós együtthatókkal


kiegészített útmodellje
β3
NAPOSZT
γ2
β1
δ SZULOSZT GYEROSZT
γ1
NANYOSZT

β2

Láthatjuk, hogy a β 3 a nagyapa iskolázottságától az unoka iskolázottsá-


gáig vezetı közvetlen út erıssége. Van két darab kétszeresen összetett
közvetett utunk is, az egyik a nagyapától a szülın keresztül vezet az uno-
ka iskolázottságáig és ezen út erıssége – a végsı formára rendezett
egyenletbıl leolvashatóan – éppen (β1*γ2)-vel egyenlı. A másik kétsze-
resen összetett út a nagyapától indul és a nagyanyán át vezet az unoka
végzettségéhez. Ezen közvetett út erıssége: (β2*δ)-val egyenlı. Végül
a háromszorosan összetett, közvetett út a nagyapától a nagyanyán át
vezet a szülıhöz, és onnan az unoka végzettségéhez. Ezen közvetett út
erıssége (β1*γ1*δ)-val egyenlı.
Futtassuk le sorban, egymás után a három regressziós modellt és ol-
vassuk le a megfelelı regressziós együtthatókat.
Az elsı regressziós parancs a következı:2
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT gyeroszt
/METHOD=ENTER naposzt nanyoszt szuloszt .

2 A TBD.KÖNYV_ÚTMODELL.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 305

Lássuk elıször a modell magyarázóerejét mutató táblát.

6.1. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,452a ,204 ,202 2,6507
a. Predictors: (Constant), SZULOSZT a kérdezett által
elvégzett osztályok száma, NANYOSZT a kérdezett
anyja által elvégzett osztályok száma, NAPOSZT a
kérdezett apja által elvégzett osztályok száma

A 6.1. táblázatból láthatjuk, hogy az unoka iskolázottságának szóródásából


20 százalékot tud megmagyarázni valamennyi bevont független változónk.
A standardizált regressziós együtthatókat a 6.2. táblázatban látható
output-részlet tartalmazza.
6.2. táblázat
Coefficientsa

Standardi
zed
Coefficien
ts
Model Beta t Sig.
1 (Constant) 37,394 ,000
NAPOSZT a kérdezett
apja által elvégzett ,079 2,347 ,019
osztályok száma
NANYOSZT a kérdezett
anyja által elvégzett ,012 ,354 ,724
osztályok száma
SZULOSZT a kérdezett
által elvégzett osztályok ,410 13,576 ,000
száma
a. Dependent Variable: GYEROSZT 1. gyerek által elvégzett iskolai
osztályok száma

A nagyapai közvetlen hatás – bár szignifikáns, de – igen gyenge: a béta


értéke 0,079. A nagyanya végzettségének pedig nincs közvetlen hatása
az unoka végzettségére, tehát az ezt a hatást megjelenítı nyilat törölni
fogjuk az ábránkból. A szülıtıl a gyerekig vezetı út 0,41-es erısségő.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

306 Túlélıkészlet az SPSS-hez

Nézzük a második regressziós modellt, amely a szülı iskolázottságát


magyarázza a nagyszülık iskolázottságával:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT szuloszt
/METHOD=ENTER naposzt nanyoszt .

A standardizált regressziós együtthatók a 6.3. táblázatban láthatók.

6.3. táblázat
Coefficientsa

Standardi
zed
Coefficien
ts
Model Beta t Sig.
1 (Constant) 22,240 ,000
NAPOSZT a kérdezett
apja által elvégzett ,264 7,975 ,000
osztályok száma
NANYOSZT a kérdezett
anyja által elvégzett ,219 6,632 ,000
osztályok száma
a. Dependent Variable: SZULOSZT a kérdezett által elvégzett
osztályok száma

Mind a nagyanya, mind a nagyapa iskolázottsága szignifikánsan befolyá-


solta a szülı végzettségét, a nagyapai hatás valamivel erısebb (0,264),
mint a nagyanyai (0,219).
Végül a harmadik regressziós modellben a nagyanya iskolázottságát
tekintjük függı változónak és a nagyapáét függetlennek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 307

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT nanyoszt
/METHOD=ENTER naposzt .

A regressziós együtthatók mellé most a két változó kapcsolatának szo-


rosságát jelzı R-értéket is idemásoljuk az outputból, jelezve, hogy két-
változós lineáris regressziós modellben a regressziós béta és a két válto-
zó közötti Pearson-féle lineáris korrelációs együttható értéke megegye-
zik. (6.4. és 6.5. táblázat)

6.4. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,544a ,296 ,295 1,9290
a. Predictors: (Constant), NAPOSZT a kérdezett apja
által elvégzett osztályok száma

6.5. táblázat
Coefficientsa

Standardi
zed
Coefficien
ts
Model Beta t Sig.
1 (Constant) 20,823 ,000
NAPOSZT a kérdezett
apja által elvégzett ,544 21,149 ,000
osztályok száma
a. Dependent Variable: NANYOSZT a kérdezett anyja által
elvégzett osztályok száma

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

308 Túlélıkészlet az SPSS-hez

A 6.4. és 6.5. táblázatból látszik, hogy az utak erıssége szempontjából


mindegy, hogy a nagyapa és a nagyanya végzettsége közötti összefüg-
gést regressziós bétával vagy korrelációval jellemezzük. A modell „jelen-
tése” azonban más az egyik és a másik esetben. Fontos megjegyeznünk,
hogy a béta és a Pearson-féle korrelációs együttható közötti „szabad
választás” csak az utolsó, az egyetlen független változót tartalmazó reg-
ressziós modellben lehetséges.
Végezetül nézzük az útmodell ábráját (6.3. ábra) úgy, hogy most már
az utak erısségét is feltüntetjük.

6.3. ábra: Az iskolai mobilitás végleges útmodellje


.80
.08
NAPOSZT
.26 .41
.54 SZULOSZT GYEROSZT
.22
NANYOSZT

6.2. Közvetlen és közvetett hatások

A gyerek iskolázottságát legerısebben a szülı végzettsége határozza meg.


A nagyszülık közül csak a nagyapa iskolázottsága hat közvetlenül – és
igen gyengén – az unoka iskolai végzettségére. A nagyszülık hatása azon-
ban mégis jelentıs, hiszen az ı végzettségük befolyásolja a szülı iskolá-
zottságát, tehát a nagyszülık közvetetten meghatározzák az unoka vég-
zettségét. A 6.3. ábrán egy eddig még nem tárgyalt nyíl is megjelent, amely
a maga 0,8-es értékével azt reprezentálja, hogy mekkora a modellen kívül
levı, nem specifikált változók hatása az unoka végzettségére, vagyis a gye-
rek iskolai végzettségét reprezentáló változó szóródásából hány százalék
maradt megmagyarázatlanul abban a modellben, ahol a független változók
a szülı és a nagyszülık iskolai végzettsége voltak.
Ha a modellt megpróbáljuk a történeti idı síkján elhelyezni, akkor azt
kell mondanunk, hogy a nagyszülık nemzedéke nem sokkal az I. világhá-
ború után született, a szülık 1945 körül, a gyerekek pedig a 60-as évek kö-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 309

zepén-végén.3 A modell azt a jól ismert tendenciát igazolja, hogy a szo-


cializmus elsı évtizedeiben a társadalmi mobilitás igen nagymértékő volt,
ennek köszönhetıen a szülık iskolázottságát kevésbé határozta meg az,
hogy milyen családból származnak, mint a gyerekek esetében. A patriar-
chális családmodell halvány jele is leolvasható a modellbıl, amennyiben
a nagyapa hatása – ha a közvetett és a közvetlen hatást is figyelembe
vesszük – erısebb az unoka iskolázottságára, mint a nagyanyáé.
Modellünknek azonban nem az volt a szerepe, hogy segítségével
a magyarországi mobilitási trendekrıl tehessünk makroszintő kijelenté-
seket4, hanem az, hogy megismerjük az útmodell felépítését, és azt
a módot, ahogy a független és a függı változó közötti nulladrendő
összefüggést a közbejövı változók segítségével részekre lehet bontani.
Ez utóbbi a mi esetünkben nem jelent mást, mint a nagyapa és az
unoka iskolázottsága közötti Pearson-féle korrelációs együttható két
részre bontását: az egyik rész a nagyapa közvetlen, a másik pedig
a nagyapa közvetett hatása. Ez a közvetett hatás magába foglalja a két-
szeres, illetve a háromszoros utak erısségét is. A Pearson-féle korre-
lációs együttható az unoka és a nagyapa iskolai végzettsége között
0,242. Ez az összefüggés azonban más, a modellben közbülsı válto-
zókként szerepeltetett tényezıkön keresztül is érvényesül, és a köz-
vetett hatásokat az összetett utak erısségével írhatjuk le. A modellben
egy darab kétszeresen összetett út5 szerepel: a nagyapától a szülın
keresztül vezet az unokáig. A háromszoros út pedig a nagyapától indul
és a nagyanyán és a szülın keresztül jut el a végállomáshoz. A kétszeres
út erıssége, mint azt a regressziós egyenletek rendezésénél láttuk, az
utakat reprezentáló nyilakhoz tartozó regressziós együtthatók szorzata.
A kétszeres út erıssége tehát 0,264*0,410=0,108; a háromszoros út
erıssége pedig 0,544*0,219*0,410=0,049. A közvetett hatás tehát
3 Ahhoz, hogy az unokák nemzedékének lehetısége legyen akár a legmagasabb isko-
lai végzettség elérésére is, az eredeti mintából leválogattuk azokat a megkérdezette-
ket, akiknek a gyereke huszonöt éves vagy idısebb.
4 A modell egyébként is durva egyszerősítéseket tartalmaz, például nem vizsgálja,
hogy a szülı apát vagy anyát jelent-e, azt sem, hogy a gyerek milyen nemő,
ráadásul a modellben csak a legidısebb gyerek szerepel.
5 Mivel a nagyanya és az unoka közötti út nem szignifikáns, a lehetséges másik két-
szeres út a modellben nem létezik.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

310 Túlélıkészlet az SPSS-hez

(0,108+0,049)=0,157-es erısségő, amelyet egy 0,08-as közvetlen hatás


egészít ki. A közvetlen és a közvetett hatások összege 0,237. A Pearson-
féle lineáris korrelációs együttható értéke és a közvetlen, valamint a köz-
vetett hatások összege közötti eltérés annak köszönhetı, hogy a nagy-
apából a nagyanyán át vezetı út nem volt szignifikáns, így ezt nem
szerepeltettük a modellben és ezzel elvesztettük ennek az útnak az
erısséget, ami 0,544*0,012=0,006. Ha ezt a nem szignifikáns utat is
számításba vesszük, az összes út erıssége 0,242, ami éppen a független
és a függı változó közötti korrelációs együtthatóval egyezik meg. Az út-
modell tehát valóban egy lineáris korrelációs együttható közvetett és
közvetlen hatásokra való számszerő felbontását jelenti.

6.3. Gondolkodási sémák

Következı útmodellünk segítségével, amelyben gondolkodási sémákat


próbálunk rekonstruálni, egy, a ’90-es évek közepérıl származó elıíté-
letesség-vizsgálatból származó adatokat használunk. Arra vagyunk kí-
váncsiak, hogy az idegengyőlölet mennyire függ össze az antidemokra-
tikus politikai attitődökkel. Az összefüggést azonban egy általunk
konstruált – tehát önkényes – gondolkodási sémának megfelelıen sze-
retnénk egy útmodellben megragadni. Úgy gondoljuk, hogy az antide-
mokratikus politikai attitőd jogbizonytalanságot teremt az emberekben,
és ez a jogbizonytalanság kedvez a rasszista attitődöknek. Azt is feltéte-
lezzük továbbá, hogy az idegengyőlöletre hatással van a Magyarorszá-
gon élı, és az elıítéleteknek legjobban kitett két csoport, a zsidóság és
a cigányság.6 Modellünket a 6.4. ábra szemlélteti.

6 A modellben szereplı valamennyi változót fıkomponenssel aggregáltuk és mon-


dandónk szempontjából érdektelen lenne felsorolni azokat az itemeket, amelyek-
bıl az egyes aggregátumok létrejöttek. A beszélı nevek elégséges módon eligazíta-
nak bennünket.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 311

6.4. ábra: Az idegengyőlölet és az antidemokratikus


politikai attitődök útmodellje

ANTISZEM

ANTIDEM JOGBIZ XENOF

CIGELL

A modellben szereplı utak erısségét – a már ismert módon – több


regressziós futással fogjuk meghatározni. Az elsı regressziós modell-
ben az idegengyőlölet lesz a függı változó és a többi négy a független.7
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT xenof
/METHOD=ENTER antiszem jogbiz cigell antidem .

Az outputból bennünket csak az R2 és a béta együtthatók érdekelnek.


Láthatjuk a 6.6. táblázatból, hogy az idegengyőlölet „viselkedésébıl”
a modell 67 százalékot hagy megmagyarázatlanul. Többé-kevésbé ízlés
dolga, hogy a 33 százalékos megmagyarázott hányadot soknak vagy ke-
vésnek tekintjük-e. Ha egy gondolkodási séma elemei között keresünk
összefüggéseket, a 20 százalék feletti megmagyarázott hányad általában
már igen szép eredménynek számít.

7 A TBD.KÖNYV_XENO-ÚTMODELL.SAV adataival dolgozunk. A file-ban csak azok


a megkérdezettek szerepelnek, akik rendelkeznek mind az öt fıkomponens-szkórral.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

312 Túlélıkészlet az SPSS-hez

6.6. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,576a ,332 ,329 ,8188998
a. Predictors: (Constant), ANTIDEM antidemokratikus
gondolkodás PC (+:antidemokratikus), CIGELL
cigányellenesség PC (+:nagy), ANTISZEM
antiszemitizmus PC (+: antiszemita), JOGBIZ
jogbizonytalanság-érzet PC (+:nagy)

6.7. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 9,000E-16 ,024 ,000 1,000
ANTISZEM
antiszemitizmus PC (+: ,245 ,025 ,245 9,748 ,000
antiszemita)
JOGBIZ
jogbizonytalanság-érzet 9,216E-02 ,027 ,092 3,476 ,001
PC (+:nagy)
CIGELL
cigányellenesség PC ,408 ,025 ,408 16,364 ,000
(+:nagy)
ANTIDEM
antidemokratikus
8,114E-02 ,027 ,081 3,049 ,002
gondolkodás PC
(+:antidemokratikus)
a. Dependent Variable: XENOF idegengyûlölet PC (+:nagy)

Valamennyi független változónk hatása szignifikánsnak bizonyult,


azonban mind az antidemokratikus attitőd, mind a jogbizonytalanság
hatása meglehetısen gyenge. (6.7. táblázat) Az idegengyőlölet sokkal
erıteljesebben függ a cigányellenességtıl, mint az antiszemitizmustól.
Úgy is fogalmazhatunk, hogy a cigánygyőlölet talaján gyakrabban szök-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 313

ken szárba a xenofóbia, míg az antiszemiták között szép számmal talá-


lunk olyanokat, akik ellenérzéseiket csak a zsidóknak tartogatják és nem
terjesztik ki az „idegenségre”.8

6.3.1. Mi az ok, és mi az okozat?

Mielıtt a következı regressziós modellt lefuttatnánk, álljunk meg egy


pillanatra a cigányellenességtıl az antiszemitizmusig vezetı útnál. Em-
lékezzünk rá, hogy a modellben a változók egymásutánisága ok-okozati
viszonyt reprezentál, de mind a változók sorrendjét, mind az ıket
összekötı nyilak irányát mi magunk szabjuk meg. A mi modellünkben
azt a sémát jelenítjük meg, amely szerint a Magyarországon tapasztalha-
tó, szinte konszenzuális cigányellenesség az az alap, amelybıl az anti-
szemitizmus mértéke magyarázható. Semmi akadálya nincs egy olyan
modell felépítésének, ahol az antiszemitizmust tekintjük egy olyanfajta
elıítéletességnek, amelybıl a cigányellenesség is következik. Egyet nem
tehetünk, egy útmodell közbülsı változói között nem definiálhatunk
együttjárást, azaz korrelációt, hiszen meg kell felelnünk annak a krité-
riumnak, hogy a közvetlen és a közvetett utak erısségének összege
egyenlı legyen a kiinduló független és a függı változó közötti korrelá-
cióval.9

8 El ne felejtsük, hogy minden változónk egy fıkomponenssel megjelenített „skála”,


tehát az is igaz, hogy a nem antiszemiták között szép számmal vannak olyanok,
akik győlölik az „idegeneket”.
9 Akár az antiszemitizmust, akár a cigányellenességet tekintjük okozatnak, minden-
képpen egy háromváltozós regressziós modellben kell gondolkodnunk, hiszen az
antidemokratikus attitőd és a jogbizonytalanság hatását is számításba veszi a mo-
dell, s ilyen esetekben a regressziós béta és a korrelációs együttható egészen mást
jelentenek szemben azzal az esettel, amikor a mobilitáspéldánkban a nagyapa és
a nagyanya iskolázottsága közötti összefüggést jelenítettük meg. Ebben, mint min-
den kétváltozós modellben, a béta és a korrelációs együttható értéke megegyezett.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

314 Túlélıkészlet az SPSS-hez

6.3.2. A modell továbbépítése

Nézzük, miképpen alakul az a regressziós modell, amelyben az antisze-


mitizmus heterogenitását magyarázzuk. A második regressziós modell
parancssora a következı:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT antiszem
/METHOD=ENTER jogbiz cigell antidem .

Valamennyi magyarázó változó hatása szignifikáns, a jogbizonytalanság


mellett álló szignifikancia azonban oly közel van a kritikus 5 százalékos
szinthez, hogy érdemes tüzetesebben szemügyre vennünk. (6.8. táblázat)

6.8. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 4,598E-16 ,028 ,000 1,000
JOGBIZ
jogbizonytalanság-érzet 6,186E-02 ,031 ,062 2,004 ,045
PC (+:nagy)
CIGELL
cigányellenesség PC ,227 ,028 ,227 8,017 ,000
(+:nagy)
ANTIDEM
antidemokratikus
,129 ,031 ,129 4,172 ,000
gondolkodás PC
(+:antidemokratikus)
a. Dependent Variable: ANTISZEM antiszemitizmus PC (+: antiszemita)

Ha akár csak 95 százalékos megbízhatósági szinten becslést készítünk


a jogbizonytalanság alapsokaságbeli béta értékére, azt kell látnunk, hogy
a alapsokaságban a regressziós együttható értéke –0,00014 és 0,12386

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 315

közé esik10, azaz elıjelet vált. Ha sarkosan akarunk fogalmazni, még azt
sem tudhatjuk biztosan, hogy a jogbizonytalanság növeli vagy csökkenti
az antiszemitizmust, jóllehet a csökkentés mértéke oly kicsi, hogy illen-
dıbb lenne függetlenségrıl beszélni. Így tehát a jogbizonytalanság hatá-
sát nem létezınek fogjuk tekinteni.11
A harmadik regressziós modellben a cigányellenesség heterogenitá-
sát magyarázzuk:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT cigell
/METHOD=ENTER jogbiz antidem .

6.9. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 3,361E-16 ,029 ,000 1,000
JOGBIZ
jogbizonytalanság-érzet ,107 ,032 ,107 3,361 ,001
PC (+:nagy)
ANTIDEM
antidemokratikus
8,362E-02 ,032 ,084 2,632 ,009
gondolkodás PC
(+:antidemokratikus)
a. Dependent Variable: CIGELL cigányellenesség PC (+:nagy)

10 Az intervallum szélsı értékeit a kerekítés nélküli értékekbıl számítottuk.


11 Érdemes újra felidéznünk azt a – regresszióelemzésnél már tárgyalt – gondolatme-
netet, hogy a béta értékhez tartozó szignifikancia azt teszteli, hogy a mintabeli béta
érték szignifikánsan különbözik-e a nullától, a regressziós modellnél azonban azt is
figyelembe kell vennünk, hogy a béta érték egy mintából számított paraméter,
amelybıl a standard hiba felhasználásával kell egy olyan konfidencia-intervallumot
létrehoznunk, amely az adott béta alapsokaságbeli értékét becsli, ezért a t-értékhez
tartozó szignifikancia szemrevételezése mellett azt is ellenıriznünk kell, hogy
a béta érték alapsokaságbeli becsült értéke nem vált-e elıjelet. Ha igen, akkor az
összefüggést nagyon bizonytalannak kell tekintenünk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

316 Túlélıkészlet az SPSS-hez

Mind a jogbizonytalanság-érzet, mind az antidemokratikus attitődök


magyarázóereje szignifikáns, és a béta értékek köré konstruált két-két
standard hiba szélességő konfidencia-intervallumok egyike sem tartal-
mazza a nullát. (6.9. táblázat)
Az utolsó regressziós modellben az antidemokratikus attitődöknek
a jogbizonytalanság-érzetre való hatását teszteljük:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT jogbiz
/METHOD=ENTER antidem .

6.10. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -9,90E-16 ,027 ,000 1,000
ANTIDEM
antidemokratikus
,413 ,027 ,413 15,499 ,000
gondolkodás PC
(+:antidemokratikus)
a. Dependent Variable: JOGBIZ jogbizonytalanság-érzet PC (+:nagy)

Az antidemokratikus politikai attitődök hatása szignifikáns és meglehe-


tısen erıs is, hiszen 0,41-es regressziós bétával jellemezhetı. (6.10. táb-
lázat)
Nézzük most már az útmodell ábráját úgy, hogy az utak erısségét
jelzı regressziós bétákat is feltüntetjük. (6.5. ábra)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 317

6.5. ábra: Az idegengyőlölet és az antidemokratikus politikai attitődök


összefüggésének útmodellje

.13
ANTISZEM
.25
.23
.41 .09
ANTIDEM JOGBIZ XENOF
.11
.41
.08
CIGELL
.08

6.3.3. A modell interpretációja

Az útmodell olvasása nem egyszerő, hiszen valamennyi, az antidemok-


ratikus attitődökbıl induló és a xenofóbiában végzıdı úton végig kell
haladnunk annak érdekében, hogy megmutassuk, a két változó közötti
0,22-es korrelációs együttható hogyan válik szét közvetlen és közvetett
hatásokra. (6.5. ábra) Az antidemokratikus attitődök közvetlen hatása
alig egyharmadnyi részt jelent a két változó közötti nulladrendő korre-
lációból. Azt mondhatjuk tehát, hogy az antidemokratikus attitődök in-
kább úgy okoznak idegengyőlöletet, hogy közben a jogbizonytalansá-
got, a cigányellenességet és az antiszemitizmust is befolyásolják. Ha az
emberekben a politikai attitődök antidemokratikusak, akkor ez fokozza
az antiszemitizmusra és a cigányellenességre való hajlandóságot, és ez
idegengyőlöletet eredményez. Érdemes felfigyelnünk arra, hogy bár az
antidemokratikus politikai attitődök és a cigányellenesség közötti össze-
függés gyengébb (0,08), mint az antidemokratikus attitődök és az anti-
szemitizmus közötti (0,13), a cigányellenesség erısebben befolyásolja
az idegengyőlöletet, mint az antiszemitizmus, ennek köszönhetıen e
két közvetett út erıssége megegyezik 0,13*0,25 = 0,08*0,41 = 0,033.
Azt kell mondanunk, hogy az antidemokratikus politikai attitődök akár
antiszemitizmussal, akár cigányellenességgel párosulnak, az idegengyő-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

318 Túlélıkészlet az SPSS-hez

löletre egyforma erıvel hatnak. Ha az antidemokratikus attitődök jogbi-


zonytalansággal párosulnak, ez mindenképpen a xenofóbia erısödésé-
hez vezet, akár a cigányellenességen vezetı úton haladunk végig, akár
a jogbizonytalanságból közvetlenül az idegengyőlölet felé megyünk.
Még egy dolgot érdemes említenünk: a jogbizonytalanságból nem vezet
út az antiszemitizmus felé, ami azt jelenti, hogy e két változó független
egymástól.
Más modellekbıl tudjuk, hogy a jogbizonytalanság inkább az ala-
csony státusúakra jellemzı. Ha halványan is, ebbıl az a tendencia bont-
ható ki, hogy az antiszemitizmus kevésbé státusfüggı. Az útmodell lé-
nyeges tanulsága, hogy a politikai berendezkedéssel, a demokratikus in-
tézményekkel, illetve az erıs kező vezetıkkel kapcsolatos attitődök és
a törvényességben, jogbiztonságban való hit erısen befolyásolja a kü-
lönféle csoportokkal kapcsolatos elıítéleteket. Ezek az elıítéletek, lett
légyen szó akármilyen csoportról, egy tırıl fakadnak. Az elıítéletesség
csökkentése érdekében tett lépések közül a demokráciába vetett hit
visszaadása igen hatékonynak látszik.

6.4. Az útmodell korlátai

A regresszióelemzésnél megtanultunk rettegni a multikollinearitástól.


Az útmodellek esetében azonban szükségünk van arra, hogy a modell-
ben szereplı változók összefüggjenek egymással, és ezért legalább az
elsıként futtatott modellben12 kifejezetten szükségünk van a multikolli-
nearitásra. Természetesen arra ügyelnünk kell, hogy ez a sztochasztikus
multikollinearitás ne legyen túlságosan nagy.
Azt is el kell árulnunk, hogy amikor az útmodellekben szereplı reg-
ressziós bétákból meghatározzuk az utak erısségét, a becslési hibák
megnövekednek. Az adekvát eljárás az lenne, ha a bétákat szimultán
módon becsülnénk, erre azonban az SPSS program nem ad lehetıséget.
Ezért kell különösen ügyelnünk arra, hogy ne érjük be a béta értékek-
hez tartozó szignifikanciák vizsgálatával, hanem arra is figyeljünk, hogy

12 Arra a modellre gondolunk, amelyben valamennyi változó szerepel.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Útmodellek 319

a béta értékek köré konstruált konfidencia-intervallum tartalmazza-e a


nullát.
Az idegengyőlölet magyarázatára alkotott útmodellnél tapasztalhat-
tuk, hogy bizonyos elemi logikai követelményeket tiszteletben tartva tel-
jesen szabadon dönthetünk arról, hogy a közbülsı változókat milyen
sorrendben építjük be a modellbe, melyikük lesz a legközelebb a füg-
getlen, illetve a függı változóhoz. Éppen ezért a modell felépítését
rendszerint külsı érvrendszer segítségével kell megalapoznunk, és ennek
a gondolatnak a jegyében kell ügyelnünk arra, hogy a nem magától ér-
tetıdı ok-okozati viszonyokat, azaz a nyilak irányát is megindokoljuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

7. DISZKRIMINANCIA-ANALÍZIS

Gyakran szembesülünk azzal a problémával, hogy egy jól sikerült tipoló-


gia mögé magyarázóteret szeretnénk vetíteni. A tipológiák azonban ala-
csony mérési szintő változók, ezért „viselkedésük” magyarázata az eddig
megismert módszerekkel lehetetlen. A diszkriminancia-analízis, amellyel
ebben a fejezetben fogunk megismerkedni, arra szolgál, hogy alacsony
mérési szintő függı változót magas mérési szintő független változók
segítségével magyarázzon. Mindezidáig egy változó viselkedését megma-
gyarázni annyit jelentett számunkra, hogy felbontottuk a változó hetero-
genitását egy reziduális és egy megmagyarázott, a független változóknak
köszönhetı hányadra. Mivel a diszkriminancia-analízis arra vállalkozik,
hogy alacsony mérési szintő függı változóval dolgozzon, itt biztosan
egészen mást fog jelenteni a függı változó megmagyarázása. Ahelyett,
hogy bonyolult elméleti fejtegetésekbe kezdenénk a diszkriminancia-ana-
lízis mőködési elvérıl, elıször definiálunk egy empirikus modellt. Meg-
mutatjuk, hogy e modell felépítésére a diszkriminancia-analízis megfele-
lınek látszik, majd végignézzük az SPSS produkálta outputokat, és csak
ezután térünk vissza arra a problémára, hogy hogyan is történik az ala-
csony mérési szintő változók viselkedésének magyarázata.

7.1. A romák lehetséges beilleszkedése a többségi


társadalomba: ahogyan a többség látja
Egy 2000-ben, országos reprezentatív mintán végzett kutatásban azt ta-
pasztaltuk, hogy az emberek három típusba sorolhatók aszerint, hogy
hogyan látják lehetségesnek a roma társadalom integrálódását.1 Az elsı
típusba azok tartoztak, akik úgy gondolják, hogy a romáknak saját erı-
forrásaikra támaszkodva, önmaguknak kell megoldani beilleszkedésü-

1 A típusokat klaszterelemzés segítségével hoztuk létre.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 321

ket. A második típus az asszimilációs stratégiát látja üdvözítınek, azaz


úgy képzeli, hogy a romáknak minden külsı és belsı, a „romaságra uta-
ló” jellemvonásukat elveszítve be kell olvadniuk a társadalomba. Végül
a harmadik típus a romák elfogadásán alapuló, a társadalom aktív köz-
remőködését feltételezı integrációs utat véli járhatónak.
Tudni szeretnénk, hogy vajon a típusok mögött egy koherens gon-
dolkodás-struktúra húzódik-e meg. Úgy véljük, hogy a másság elfoga-
dását mérı toleranciamutatónk, a romákra vonatkozó negatív sztereoti-
pizálás és a romákkal szembeni diszkriminációs hajlandóság hármasa
által megjelenített magyarázótérben érdemes megkeresni azokat az együtt-
állásokat, amelyek az egyes típusokat jellemzik. Ez a kissé bonyolult
megfogalmazás a késıbbiekben fontos lesz számunkra, hiszen itt jelez-
zük elıször, hogy nem arra vagyunk kíváncsiak, hogy az egyes típusok-
ba tartozók toleranciája, negatív sztereotipizálása, illetve diszkriminációs
hajlandósága különbözik-e. Azt szeretnénk, hogy a három magyarázó
változó együttesen jelenítsen meg egy romákkal és mássággal szembeni
általános érzületet, és ez az általános érzület különbözzék az egyes típu-
sok között.
Nézzük meg, hogy hogyan váltja valóra ezeket a célokat az SPSS
diszkriminancia-analízise. A diszkriminancia-analízis parancsa a követ-
kezı2:
DISCRIMINANT
/GROUPS=tipol(1 3)
/VARIABLES=toler diszkr negszter
/ANALYSIS ALL
/PRIORS SIZE
/STATISTICS=MEAN STDDEV UNIVF RAW CORR TABLE
/CLASSIFY=NONMISSING POOLED .

Vegyük sorra az SPSS parancs részeit:


/GROUPS= tipol (1 3)
Ebben a sorban nevezzük meg azt a kategoriális változót, amelynek a vi-
selkedését magyarázni kívánjuk. A változó neve után zárójelben a válto-
zó minimális és maximális értékét tüntetjük fel.

2 A TBD-KÖNYV_DISZKRIMINANCIA-ROMA.SAV file adatait használjuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

322 Túlélıkészlet az SPSS-hez

/VARIABLES=toler diszkr negszter


Itt soroljuk fel a magas mérési szintő magyarázó változóinkat.
/ANALYSIS ALL
Ebben a sorban dönthetjük el, hogy a /VARIABLES mögött lévı összes
független változót be akarjuk-e építeni a modellbe. Ha igen, akkor
használjuk az ALL-t.3
/PRIORS SIZE
Ez a sor ebben a pillanatban teljességgel érthetetlen számunkra.
/STATISTICS=MEAN STDDEV UNIVF RAW CORR TABLE
Itt rendelkezünk arról, hogy miféle táblázatok jelenjenek meg az
output-okban. Ennek hatására átlagokat, szórásokat, ANOVA és korrelá-
ciós táblát fogunk kapni, s az adott helyen az is tisztázódik majd, hogy
miféléket.
/CLASSIFY=NONMISSING POOLED
Ez a sor is olyan, amelyet csak késıbb tudunk értelemmel megtölteni.
Nézzük, mi történik a parancs hatására4 és elsıként vegyük szem-
ügyre a GROUPS STATISTICS táblázat TOTAL részében szereplı átlago-
kat és szórásokat. (7.1. táblázat)
Mivel a magyarázó változók mindegyike egy-egy fıkomponens, az
átlagok rendre 0-val, a szórások pedig 1-gyel egyenlıek.5 A MEAN
oszlopból láthatjuk, hogy a belsı erıforrások fontosságát hangsúlyozók
csoportját átlagos tolerancia és erıs cigányellenesség6 jellemzi. Az asszi-
milálós stratégia hívei mindenfajta másságtól idegenkednek, de ez az ide-
genkedés nincs kiélezve a romákra: a negatív sztereotípiák és a diszkri-
mináció tekintetében éppen átlagos a csoport viselkedése.

3 A független változók listájából újabb és újabb /ANALYSIS sorban definiálhatjuk


azokat a kisebb függetlenváltozó-szetteket, amelyeket magyarázó változókként
használni kívánunk, és így egy fáradsággal több diszkriminancia-analízis output-
hoz juthatunk.
4 Az ANALYSIS CASE PROCESSING SUMMARY táblával nem foglalkozunk, hiszen az
csak a VALID és a MISSING eseteket számlálja össze. Az output részleteit a könnyebb
érthetıség kedvéért a tárgyalásunk logikájának megfelelıen, és nem az SPSS adta
sorrendben tárgyaljuk.
5 Az átlagok 0-tól, illetve a szórások 1-tıl való minimális eltérése annak köszönhetı,
hogy a diszkriminancia-analízis LISTWISE módszerben fut.
6 Elfogadják a cigányok elleni diszkriminációt és erıs negatív sztereotípiákat fogal-
maznak meg.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 323

7.1. táblázat
Group Statistics

TIPOL a romák Valid N (listwise)


kiemelkedésének Std. Unweight
lehetséges módja Mean Deviation ed Weighted
1,00 belsõ erõforrások TOLER tolerancia mutató
-6,3E-02 ,8965929 228 213,191
(PC)
DISZKR diszkriminációs
,1609866 1,0042932 228 213,191
hajlandóság (PC)
NEGSZTER negatív
,2357170 ,8590626 228 213,191
sztereotípiák (PC)
2,00 asszimiláció TOLER tolerancia mutató
-,1902202 ,9949792 212 223,795
(PC)
DISZKR diszkriminációs
6,52E-02 ,9089021 212 223,795
hajlandóság (PC)
NEGSZTER negatív
-1,0E-02 ,9438851 212 223,795
sztereotípiák (PC)
3,00 integráció TOLER tolerancia mutató
,2849161 ,9842377 248 243,888
(PC)
DISZKR diszkriminációs
-,2214527 1,0390376 248 243,888
hajlandóság (PC)
NEGSZTER negatív
-,2066663 1,0704718 248 243,888
sztereotípiák (PC)
Total TOLER tolerancia mutató
1,99E-02 ,9814603 688 680,874
(PC)
DISZKR diszkriminációs
-7,5E-03 ,9991287 688 680,874
hajlandóság (PC)
NEGSZTER negatív
-3,6E-03 ,9820546 688 680,874
sztereotípiák (PC)

Az integráció pártolóit általános toleranciával és romák iránti kifejezett


rokonszenvvel írhatjuk le.
A STD. DEVIATION oszlopban álló értékek arra figyelmeztetnek
bennünket, hogy a magyarázó változók egyes típusokon belüli hetero-
genitása nem csökkent túlságosan a mintabeli értékhez képest. Azt, hogy
a típusok között a magyarázó változók átlagai közötti különbség elég
nagy-e, a program egy ANOVA segítségével teszteli. 7
A TESTS OF EQUALITY OF GROUP MEANS tábla (7.2. táblázat) elsı
oszlopában szereplı WILKS’ LAMBDA-val még sohasem találkoztunk.
Ahhoz, hogy a lambdák jelentését megértsük, fel kell idéznünk néhány,

7 Az átlagok közötti szignifikáns különbség a variancia-analízis logikája szerint érten-


dı, tehát nem az átlagok páronkénti szignifikáns különbségeire gondolunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

324 Túlélıkészlet az SPSS-hez

a variancia-analízisben tárgyalt fogalmat. A lambda ugyanis nem más,


mint a cellákon belüli és a teljes heterogenitás hányadosa, ahol a hetero-
genitást átlagos négyzetes eltéréssel mérjük.8 A lambda értéke akkor 1,
ha az egyes típusok átlagai nem különböznek az adott változó mentén,
s akkor 0, ha az egyes típusokon belül teljes a homogenitás. Mivel mi
erıs összefüggésekre vágyunk, a lambda 0-hoz közel esı értékei tölte-
nek el bennünket örömmel. A táblázatban szereplı lambdák, sajnos in-
kább az 1-hez közelítenek, azonban a mellettük álló F-értékek elég
nagynak bizonyultak ahhoz, hogy a hozzájuk tartozó szignifikancia a szak-
mai hipotézis elfogadására indítson bennünket.

7.2. táblázat
Tests of Equality of Group Means

Wilks'
Lambda F df1 df2 Sig.
TOLER tolerancia mutató
,957 15,403 2 677 ,000
(PC)
DISZKR diszkriminációs
,973 9,445 2 677 ,000
hajlandóság (PC)
NEGSZTER negatív
,966 11,920 2 677 ,000
sztereotípiák (PC)

7.1.1. Sok kicsi sokra megy?

Az output következı táblázatában korrelációs együtthatók szerepelnek.


(7.3. táblázat)
Ezek a korrelációs együtthatók azonban nem egyszerően a táblázat-
ban szereplı három változó közötti páronkénti Pearson-féle lineáris
korrelációk. A táblázatbeli minden egyes korrelációs együttható több –
esetünkben három – lineáris korrelációs együttható átlaga. E három

∑ ∑ ( xij − xi ) 2
i j
8 A lambda képlete tehát a következı: Wilks' Lambda = , ahol xij a
∑ ∑ ( x ij − x ) 2
i j

i-edik csoport j-edik eleme, x i a i-edik csoport átlaga, x pedig a teljes mintaátlag.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 325

átlagolt korrelációs együttható pedig a függı változó három kategó-


riájára külön-külön kiszámolt páronkénti korrelációkat jelenti. Mi szük-
ségünk van nekünk az ilyen bonyolult módon kiszámított korrelációk-
ra? A válasz nem egyszerő. Olyan modellt szeretnénk felépíteni, amely
a romák beilleszkedésének lehetséges módjait megtestesítı típusok mö-
gé magyarázóteret vetít. Ez a magyarázótér akkor mőködhet jól, ha
a magyarázatra kiszemelt változók nem csak általában függenek össze
egymással9, hanem ezek az összefüggések a függı változó minden kate-
góriájában fennállnak. Akkor remélhetjük, hogy a romák felemelkedé-
sének módjára vonatkozó típusokat nem csak a nevük, hanem a mö-
göttük meghúzódó érzületek alapján is megkülönböztethetjük, ha mind-
három típusban külön-külön is van lineáris összefüggés a kiszemelt
magyarázó változók között.

7.3. táblázat
Pooled Within-Groups Matrices

DISZKR
TOLER diszkrimi NEGSZTE
tolerancia nációs R negatív
mutató hajlandós sztereotípi
(PC) ág (PC) ák (PC)
Correlation TOLER tolerancia mutató
1,000 -,502 -,290
(PC)
DISZKR diszkriminációs
-,502 1,000 ,535
hajlandóság (PC)
NEGSZTER negatív
-,290 ,535 1,000
sztereotípiák (PC)

A 7.1. ábrán két magyarázó változó olyan szerencsétlen együttállását


szemléltetjük, ahol a teljes mintára számított korreláció igen magas, míg

9 Ebben az alfejezetben mindig Pearson-féle lineáris korrelációt használunk az össze-


függés erısségének jelzésére.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

326 Túlélıkészlet az SPSS-hez

az egyes típusokon belül a két magyarázó változó abszolút korrelálat-


lan.10

7.1. ábra: A diszkriminálandó típusokon belüli és a teljes mintára


számított korrelációk
4
2. magyarázó változó

3,5
3. típus
3

2,5
2 típus
2

1,5

1
1. típus
0,5

0
0 1 2 3 4 5 6 7 8 9
1. magyarázó változó

Ilyen esetekben hiába reménykedünk abban, hogy a magyarázó válto-


zók képesek lesznek úgy összekombinálódni, hogy együttes jelentéssel
bírjanak, továbbá, hogy ezek az együttes jelentések – legyenek azok
bármik – különbözı értékeket vegyenek fel az egyes diszkriminálandó
típusokban. Visszakanyarodva a POOLED WITHIN-GROUPS MATRICES
táblázathoz (7.3. táblázat), azt láthatjuk, hogy a típusokon belüli korre-

10 A 7.1. ábrán szereplı egyenes tulajdonképpen egy regressziós egyenes, amelyet


a minta valamennyi elemére fektettünk. Az egyenes meredeksége jelzi, hogy a két
magyarázó változó erısen összefügg egymással. Gondoljunk arra, hogy kétválto-
zós esetben a regressziós béta és a lineáris korrelációs együttható egyenlı. A há-
rom elkülönülı pontfelhı viszont a függı változó egyes kategóriáin belül jeleníti
meg a két változó közötti kapcsolatot. E három részösszefüggés mindegyike egy
nulla meredekségő egyenessel lenne leírható, tehát a kategóriákon belül teljes a füg-
getlenség.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 327

lációk átlagos nagysága elfogadhatónak11 mondható, a diszkriminancia-


analízisünk tehát reményekkel kecsegtet. Egyetlen mondat erejéig tér-
jünk vissza a diszkriminancia-analízis parancshoz, és vegyük észre,
hogy most vált világossá, hogy miféle korrelációs mátrixot is kértünk
a /STATISTICS sorban a CORR utasítással.

7.1.2. A magyarázó változók együttes jelentése:


a diszkrimináló függvények

Az eljárás során a magyarázó változókból – valamelyest a fıkompo-


nens- vagy faktorelemzéshez hasonlóan – új változók, diszkrimináló
függvények jönnek létre. Az új változó létrehozása a következı képlet
alapján történik:
D j = d 0 j + d 1 j x1 + d 2 j x 2 + … + d kj x k ,
ahol j az adott diszkrimináló függvény sorszáma, az xi-k a mért válto-
zók, d0 egy alkalmasan megválasztott konstans, dij pedig az xi mért vál-
tozó j-edik diszkrimináló függvényhez tartozó együtthatója. Az ilyen tí-
pusú egyenletekben a mért változók együtthatói attól függenek, hogy
milyen célt szeretnénk megvalósítani az új változóval. Egy-egy eljárás
persze egyetlen célt tőz maga elé. A fıkomponens esetében az volt
a cél, hogy maximális információ-tartalmat ırizzünk meg, a faktorelem-
zésben pedig az, hogy a faktorok a lehetı legjobban leírják a mért vál-
tozókat. A diszkriminancia-analízis olyan új változókat akar létrehozni,
amelyek a legnagyobb különbségeket produkálják a függı változóban
definiált csoportok között. Ezeket az új, a mért változókból megalko-
tott változókat diszkrimináló függvényeknek nevezzük. Ezeknek a diszkri-
mináló függvényeknek éppen úgy meg kell próbálnunk jelentést adni,
ahogyan a faktorok esetében tettük. Az interpretálás mindig kétesélyes
mővelet, és nincsenek is egzakt szabályok.
A diszkrimináló függvények létrehozása a többváltozós regressziós
egyenletekre is emlékeztet, hiszen a képlet a független változók által ki-
feszített térben megrajzolható hipersíkot írja le. Azonban a célfügg-

11 Az összevont mérıszám nem feltétlenül biztosíték arra, hogy minden függıváltozó-


kategóriában van összefüggés a magyarázó változók között.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

328 Túlélıkészlet az SPSS-hez

vény, amelynek nevében ezek a dij együtthatók létrejönnek – a reg-


resszióanalízissel ellentétben – nem a függı változó valóságos értékeinek
legjobb közelítését jelentik, hanem az eljárás úgy akarja összekompo-
nálni a mért változókat, hogy a létrejött új változó átlagai a függı válto-
zó egyes kategóriáiban a lehetı legjobban különbözzenek. Az együtt-
hatók az output CANONICAL DISCRIMINANT FUNCTION COEFFICIENTS
táblázatából olvashatók le. (7.4. táblázat)

7.4. táblázat
Canonical Discriminant Function Coefficients

Function
1 2
TOLER tolerancia mutató
,712 ,845
(PC)
DISZKR diszkriminációs
-,137 ,188
hajlandóság (PC)
NEGSZTER negatív
-,447 ,855
sztereotípiák (PC)
(Constant) -,017 -,012
Unstandardized coefficients

A mi modellünkben két diszkrimináló függvény jött létre, és az egyes


válaszadókhoz rendelt függvényértékeket éppen úgy számítja ki a prog-
ram, mintha egy regresszióban a függı változó becsült értékeit kellene
létrehoznia. A fenti táblázatban található együtthatók úgy mőködnek,
mint a regressziós elemzés B értékei, azaz nagyságuk nemcsak attól
függ, hogy az adott mért változó milyen erısen mőködik közre az új
változó létrehozásban, hanem attól is, hogy mekkora a mért változó
szórása. Ha tehát a diszkrimináló függvényeket interpretálni szeret-
nénk, ezek az együtthatók könnyen jégre vihetnek bennünket12, gondol-

12 A diszkrimináló függvények értelmezéséhez soha nem lesz szükségünk a CANONICAL


DISCRIMINANT FUNCTION COEFFICIENTS táblázatra, hiszen ez nem segít bennün-
ket az interpretálásban. Ha a táblázatot az output-ban nem akarjuk látni, akkor
a /STATISTICS sorból hagyjuk ki a RAW utasítást.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 329

junk a regresszióanalízisben már oly bıven tárgyalt B és béta együttha-


tók kínálta elemzési lehetıségekre. Szerencsésebb tehát standardizált együtt-
hatókkal dolgozni.13 Ezeket a következı, STANDARDIZED CANONICAL
DISCRIMINANT FUNCTION COEFFICIENTS tábla mutatja. (7.5. táblázat)

7.5. táblázat
Standardized Canonical Discriminant Function Coefficients

Function
1 2
TOLER tolerancia mutató
,684 ,812
(PC)
DISZKR diszkriminációs
-,135 ,186
hajlandóság (PC)
NEGSZTER negatív
-,432 ,826
sztereotípiák (PC)

Az elsı diszkrimináló függvényt legerısebben a tolerancia léte határoz-


za meg. Ezután következik a negatív sztereotípiák hiánya, majd legvé-
gül a diszkrimináció elutasítása. A második diszkrimináló függvényt
legerısebben a negatív sztereotipizálás befolyásolja, majd a romákat
nem érintı általános tolerancia, a sort pedig a romákkal szemben meg-
nyilvánuló diszkriminációs hajlandóság zárja.
A diszkrimináló függvénynek az a feladata, hogy jól elkülönítse egy-
mástól a függı változó kategóriáit. Annak szemléltetésére, hogy a diszkri-
mináló függvény hogyan teljesíti ezt a feladatot, nézzük a 7.2. ábrát.

13 Itt valójában nem a szokásos, már jól ismert standardizálásról van szó, hiszen az
éber olvasónak feltőnhetett, hogy az eredeti változóink – fıkomponensek lévén –
eleve egységnyi szórásúak voltak. Miután a diszkriminancia-analízist nem mátrix-
algebrai megközelítésbıl tárgyaljuk, nincs módunk kifejteni, hogy itt valójában
vektorok normálásáról van szó.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

330 Túlélıkészlet az SPSS-hez

7.2. ábra: A diszkrimináló függvény és a függı változó csoportjai

x
1.csoport

2. csoport

x1

3. csoport

x3

A három független változó14 (x1; x2; x3) által létrehozott, a csoportokat


egymástól legjobban elkülönítı diszkrimináló függvényt a szürkével ár-
nyalt sík testesíti meg. Ez a sík jól elválasztja egymástól a hengerek se-
gítségével megjelenített csoportokat. Legyen a geometriai interpretáció
bármilyen tetszetıs, a diszkrimináló függvények jelentéséhez – a faktor-
analízishez hasonló módon – a STRUCTURE MATRIX (7.6. táblázat) visz
közelebb bennünket.

14 Az ábrán nem a romák felemelkedésének lehetséges útjait tárgyaló, hanem egy hi-
potetikus modell változói szerepelnek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 331

7.6. táblázat
Structure Matrix

Function
1 2
TOLER tolerancia mutató
,877* ,479
(PC)
DISZKR diszkriminációs
-,709* ,220
hajlandóság (PC)
NEGSZTER negatív
-,703* ,690
sztereotípiák (PC)
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function

A STURCTURE MATRIX elemei korrelációk, méghozzá, mint a tábla alat-


ti megjegyzésbıl látszik, a magyarázó változók és a diszkrimináló függ-
vények közötti, csoportonként átlagolt (POOLED WITHIN-GROUPS)
Pearson-féle lineáris korrelációk. A struktúra-mátrix hasonlóan mőkö-
dik, mint a fıkomponens-elemzésbıl már ismert COMPONENT
MATRIX, illetve a faktorelemzésnél szereplı FACTOR MATRIX. Ennek
megfelelıen az elsı diszkrimináló függvényt úgy értelmezhetjük, mint
egy olyan skálát, amelynek pozitív irányultságú része egy általános, a ro-
mákra is kiterjesztett toleranciát testesít meg, negatív irányultságú része
pedig egy általános intoleranciát. A második diszkrimináló függvény
egy olyan egyenest feszít ki, amelyen a nagy pozitív értékek cigányelle-
nességgel párosuló, a többi kisebbséggel szembeni elfogadó attitődöket
jelentenek. A függvény negatív értékei pedig a romák elfogadását, de
minden egyéb másság elutasítását reprezentálják. Sommásan fogalmaz-
va: az elsı függvény a tolerancia mértékét, a másik az irányát jelzi.
Nincs is semmi baj ezen függvények szélsıséges értékeivel, azokat
könnyen le tudjuk írni. A „középen” elhelyezkedık azonban nem szük-
ségképpen jelentenek mindhárom magyarázó változó mentén moderált
választ adókat, hiszen például ha az erıs negatív sztereotipizálás nem

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

332 Túlélıkészlet az SPSS-hez

párosul diszkrimináló hajlandósággal, viszont a tolerancia változóra „át-


lagos” választ kaptunk, máris az elsı tengely középsı részén lyukadunk
ki. Ha biztosak vagyunk abban, hogy modellünk a másság és a romák
elfogadására/elutasítására való hajlandóság mérésére épül – méghozzá
úgy, hogy megkülönböztetjük a romaellenesség két „fokozatát” –, ak-
kor csak azok miatt kell aggódnunk, akik hajlanak a diszkriminációra,
de nem sztereotipizálnak. İk ugyanis könnyen a skála közepére kerül-
hetnek, elfedve azt a tényt, hogy a másság általános elfogadása náluk
romaellenességgel társul. Azok aránya azonban, akik a sztereotipizálás
lépcsıfokát kihagyva „csak” a diszkrimináló hajlandóságban „jelesked-
nek”, mindössze 3 százalék.15 A magyarázó változók terét tehát mindig
úgy kell felépítenünk, hogy abban ne legyenek egymással „logikailag
össze nem egyeztethetı” változók16, mert ezek könnyen ugyanarra
a diszkrimináló függvényre kerülhetnek. Ilyenkor interpretálás helyett
csıdöt kell jelentenünk.
Ha egy tanulmányban mellékeljük a STRUCTURE MATRIX-ot, az ava-
tott olvasó mindig eldöntheti, hogy mennyire volt meggyızı az a mód,
ahogy a diszkrimináló függvényeknek jelentést adtunk. Az esetek egy
részében mi magunk is beláthatjuk, hogy a diszkrimináló függvényünk
egy értelmezhetetlen skálát feszít ki. Ilyenkor újra át kell gondolnunk,
hogy milyen mért változókból építsük fel a magyarázóterünket.

15 Arányuk a diszkriminációt és a negatív sztereotipizálást kifejezı fıkomponensek


kvintiliseibıl készített kereszttáblából olvasható le.
16 Ha egy diszkrimináló függvényünk történetesen az életkorból és a hetente jég-
krémre költött pénz változójából tevıdik össze, és a struktúra-mátrixban az egyik-
nek pozitív, a másiknak negatív elıjelő együtthatója van, ezekbıl sosem fogjuk
tudni eldönteni, hogy a függvény közepén a középkorú, átlagos mennyiségő jég-
krémet fogyasztók helyezkednek el, vagy azok az idısek, akik a jégkrém rabjaivá
lettek, vagy inkább azok az ifjak, akik a jégkrémre gondolni sem akarnak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 333

7.1.3. Az üdvözlendı diszkrimináció

Bármennyire is bízhatunk az SPSS-ben, és hihetünk abban, hogy mindent


elkövetett azért, hogy olyan diszkrimináló függvényeket hozzon létre, ame-
lyek értékei a lehetı legnagyobb mértékben eltérnek az egyes típusok között,
mégiscsak ellenıriznünk kell, hogy a cél megvalósult-e. Ennek eldöntésére
hivatott a WILKS’ LAMBDA és az EIGENVALUES. (7.7. és 7.8. táblázat)

7.7. táblázat
Wilks' Lambda

Wilks' Chi-squar
Test of Function(s) Lambda e df Sig.
1 through 2 ,932 47,572 6 ,000
2 ,982 12,231 2 ,002

A WILKS’ LAMBDA értékei17 és a megfelelı szignifikanciák az egyes


diszkriminancia-függvényekhez vannak hozzárendelve. Az elsı sorban
feltüntetett teszt arra az esetre vonatkozik, amikor az elsı és a második
diszkrimináló függvény által együttesen magyarázatlanul hagyott négyzet-
összeget a két diszkrimináló függvény teljes heterogenitását jelentı
négyzetösszeghez viszonyítjuk. Azt látjuk tehát, hogy az elsı és a máso-
dik függvény együtt szignifikáns különbségeket produkál a három típus
között. A második sorban az az eset szerepel, amikor az elsı diszkrimi-
náló függvényt kihagyjuk a modellbıl, és csak azt vizsgáljuk, hogy az
összes többi diszkrimináló függvény – esetünkben egyetlen egy ilyen
van – a teljes heterogenitás mekkora részét hagyja megmagyarázatlanul.
Láthatjuk, hogy bár a megmagyarázatlan hányad nagy, ez a függvény is
szignifikáns különbségeket ad a függı változó egyes kategóriái között.18
Az EIGENVALUES tábla is a diszkrimináló függvények és a csoport-
változó közötti viszonyt taglalja.
17 A WILKS’ LAMBDA, mint azt már tudjuk, a belsı és a teljes négyzetösszeg hánya-
dosa.
18 A diszkrimináló függvény létrehozásának módja annyiban is hasonlít a fıkompo-
nens-elemzésre, hogy a függvények „magyarázóerejük” szerinti sorrendben jönnek
létre.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

334 Túlélıkészlet az SPSS-hez

7.8. táblázat
Eigenvalues

% of Cumulativ Canonical
Function Eigenvalue Variance e% Correlation
1 ,054a 74,6 74,6 ,226
2 ,018a 25,4 100,0 ,134
a. First 2 canonical discriminant functions were used in the
analysis.

A 7.8. táblázat EIGENVALUE oszlopában a diszkrimináló függvények


által megmagyarázott és a megmagyarázatlanul hagyott heterogenitás
hányadosa szerepel. A % OF VARIANCE oszlopban a teljes megmagya-
rázott hányadot 100 százaléknak tekintve azt láthatjuk, hogy ezen a ma-
gyarázaton hogyan osztoznak az egyes diszkrimináló függvények. Némi
redundanciával ismét csak azt olvashatjuk le a táblából, hogy a megma-
gyarázott hányadot nagyobb részben az elsı diszkrimináló függvénynek
köszönhetjük. S ha még mindig vannak kételyeink a csoportváltozó és
a diszkrimináló függvények közötti összefüggések erısségét illetıen,
akkor a CANONICAL CORRELATION (kanonikus korreláció) oszlopot
kell szemügyre vennünk. A sokat ígérı és sejtelmes név ellenére itt
a diszkrimináló függvény és a csoportváltozó közötti asszociációt egy
a variancia-analízisbıl jól ismert ETA mérıszámmal méri a program.

7.1.4. Sose lehetünk elég óvatosak – átlagok és eloszlások


összehasonlítása

A diszkriminancia-analízis program rendkívül körültekintı. Nem elég-


szik meg azzal, hogy a típusok között szignifikánsan eltérı diszkrimi-
nálófüggvény-átlagokat talált, hanem egy további logika szerint is tesz-
teli, hogy a modell megfelelı-e. E logika megértéséhez nézzünk egy
egyszerő példát. Tegyük fel, hogy azt akarjuk megvizsgálni, hogy egy
adott mintában különbözik-e a férfiak és a nık életkora. A minta ada-
tait a 7.9. táblázat mutatja be.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 335

7.9. táblázat: A nık és férfiak életkor szerinti hipotetikus megoszlása

20 éves 30 éves 40 éves 50 éves


férfiak 120 0 0 120
nık 60 60 60 60

A férfiak és a nık életkorát az adatok mérési szintjének és a tábla mére-


tének köszönhetıen kétféleképpen is összevethetjük. Az egyik módszer
a férfiak és a nık átlagéletkorának összehasonlításával, azaz egyszem-
pontú ANOVA segítségével történhet. Nem kell a programot lefuttat-
nunk, hiszen jól látható, hogy mind a férfiak, mind a nık átlagosan 35
évesek. Segítségül hívhatjuk azonban a khí-négyzet statisztikát is, azt
vizsgálván, hogy a férfiak és a nık életkorának eloszlása különbözik-e.
Az eredményül kapott 160-as khí-négyzet érték azt jelzi, hogy a férfiak
és a nık életkora szignifikánsan különbözik.19 A példa tehát azt mutat-
ja, hogy attól, hogy két változó átlaga nem különbözik, még egyáltalán
nem biztos, hogy a két változó eloszlása statisztikai értelemben azo-
nos.20
A diszkriminancia-analízis is tesz még egy próbát, hogy egészen biz-
tos legyen abban, hogy a diszkrimináló függvényátlagainak cellánkénti
különbözıségén túl van-e még valami hozadéka az eljárásnak: ezt a ho-
zadékot eloszlások összehasonlításával ragadja meg. Az egyik eloszlás
a függı változó kategóriái mentén tapasztalt tényleges eloszlás. Ezekrıl
az eloszlásokról az elegánsabb matematikai-statisztikai kézikönyvek
mint a priori valószínőségekrıl beszélnek. Például a roma integráció
híveinek részesedése 35,9 százalék, tehát ehhez a kategóriához 0,359-es
a priori valószínőség tartozik. Nem okozunk nagy meglepetést, ha el-
áruljuk, hogy a másik eloszlás posteriori valószínőségek alapján jön létre.
Ezek a posteriori valószínőségek azt jelzik, hogy mekkora a valószínő-
sége annak, hogy valaki a diszkrimináló függvény hozzá tartozó értéke
19 A khí-négyzet statisztika küszöbértéke 3-as szabadságfoknál, 5 százalékos szignifi-
kancia-szinten 7,815.
20 A példa megértésétıl már csak egy logikai lépés, és beláthatjuk, hogy bár a függvé-
nyek átlagai szignifikánsan különböznek, még adódhatnak problémáink a modell
illeszkedésével.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

336 Túlélıkészlet az SPSS-hez

alapján egy adott csoportba kerül. A posteriori valószínőségek tehát fel-


tételes valószínőségek, hiszen a csoportba kerülés valószínősége attól
függ, hogy mekkora az adott elemhez tartozó diszkrimináló függvény
értéke.21
A diszkriminancia-analízis tehát úgy jár el, hogy elıször meghatároz-
za azokat a diszkrimináló függvényeket, amelyek átlagai a leginkább kü-
lönböznek a függı változó kategóriái között. A program által létreho-
zott diszkrimináló függvények száma vagy a bevont független változók
számával, vagy a függı változó kategóriaszáma mínusz eggyel egyenlı,
attól függıen, hogy ezek közül melyik érték a kisebb. A létrejött
diszkrimináló függvények közül azonban nem mindegyik produkál
szignifikáns különbségeket a függı változó kategóriái között, azaz a meg-
felelı WILKS’ LAMBDA értékéhez tartozhat magas szignifikancia is. Ilyen
esetekben célszerő a modellt megtisztítanunk a nem szignifikáns
diszkrimináló függvényektıl. Erre csak az SPSS syntax-ablakában van le-
hetıségünk. A kívánt függvényszámot a /FUNCTIONS ( ) parancsrész
után a zárójelbe kell beírni.
Miután létrejött a megfelelı számú diszkrimináló függvény, a prog-
ram úgy tesz, mintha elfelejtené, hogy ki melyik típusba tartozik, és
megpróbál mindenkit pusztán a hozzá tartozó diszkrimináló függvény-
értéke alapján besorolni valamelyik kategóriába.22 A modell illeszkedését
pedig úgy teszteli a program, hogy a valóságos csoportba tartozásokat
összeveti a diszkrimináló függvények alapján történt, becsült besorolá-
sokkal. Az összevetés a találat-mátrixban (CLASSIFICATION RESULTS)
található. (7.10. táblázat)

21 A feltételes valószínőség fogalmával a Bayes-tétel révén találkozhattunk. Ez


a feltételes, posteriori valószínőség a következı képlettel határozható meg:
P ( D G i ) ⋅ P (G i )
P (G i D ) = m , ahol P(Gi) az i-edik kategória a priori valószínősé-
∑ P ( D G i ) ⋅ P ( G i )
i =1
ge, P(D|Gi) annak valószínősége, hogy ha valaki az i-edik kategóriába tartozik, ak-
kor a diszkrimináló függvény értéke D, m pedig a kategóriák száma.
22 Természetesen mindenki abba a kategóriába kerül, amelyik kategóriához a legna-
gyobb posteriori valószínőség tartozik.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 337

7.10. táblázat
Classification Resultsa

Predicted Group Membership


1,00
TIPOL a romák belsõ 2,00
kiemelkedésének erõforrá- asszi- 3,00
lehetséges módja sok miláció integráció Total
Original Count 1,00 belsõ erõforrások 73 58 83 213
2,00 asszimiláció 45 91 88 224
3,00 integráció 53 60 132 244
% 1,00 belsõ erõforrások 34,1 27,0 38,9 100,0
2,00 asszimiláció 20,2 40,5 39,3 100,0
3,00 integráció 21,6 24,4 53,9 100,0
a. 43,3% of original grouped cases correctly classified.

A helyesen besorolt elemek aránya – mint arról a tábla alatti megjegyzés


tanúskodik – 43,3 százalék. Az elégedettségre semmi okunk, hiszen ha
a program semmit nem tudott volna a diszkrimináló függvényekrıl, és
csak az a priori valószínőségek alapján kellett volna a besorolást elvégez-
nie, a helyes találatok aránya 35,9 százalék lett volna.23 Most már csak
azt kell eldöntenünk, hogy a diszkrimináló függvénynek köszönhetı,
7,4 százalékos „találatnövekedés” jelentıs javulás-e. A kérdést egy khí-
négyzet statisztika segítségével dönthetjük el úgy, hogy az egyik sort
megfigyelt, a másikat elméleti gyakoriságnak tekintjük.24

23 Ha egy hazárdjáték keretében az lenne a feladatunk, hogy magas pénzjutalom re-


ményében egy magyar állampolgárról minden kiegészítı információ híján megpró-
báljuk kitalálni, hogy a romák integrációját pártolók csoportjába tartozik-e vagy
sem, mit tennénk? Ha hosszú távú, szolid nyereséget szeretnénk, akkor mindenki-
rıl azt mondanánk, hogy nem ebbe a csoportba tartozik, és ha elég sok embert kell
a játék keretében besorolnunk, bízhatunk abban, hogy az esetek 100–35,9=64,1
százalékában nem fogunk tévedni. Gondoljunk a hibacsökkentı, PRE-modellen
alapuló asszociációs mérıszámra, ahol megtanultuk, hogy egy nominális változó
„legjobb becslése” a módusz.
24 Ha erre a táblára számítjuk ki a khí-négyzetet, akkor a tábla összelemszámát 100-
nak tekintettük. Ne feledjük, hogy a khí-négyzet elemszámérzékeny, és nekünk va-
lójában 717 esetünk van, tehát a táblázatra számított khí-négyzet értékét 7,17-tel
meg kell szoroznunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

338 Túlélıkészlet az SPSS-hez

7.11. táblázat: A módusz illetve diszkrimináló függvény segítségével


történı becslések összehasonlítása
helytelen tippek
helyes tippek aránya
aránya
nem ismerjük a diszkrimináló
35,9 64,1
függvényt
ismerjük a diszkrimináló függvényt 43,3 56,7

A 7.11. táblára számított khí-négyzet értéke 15,9925, s mivel a táblázat


szabadságfoka 1, ez az érték azt jelenti, hogy a diszkrimináló függvény
ismeretében szignifikáns javulást értünk el a helyes találatok arányában.

7.1.5. Lássuk a medvét!

Miután eldöntöttük, hogy mindkét diszkrimináló függvény szignifikáns,


továbbá, hogy a diszkrimináló függvények jelentıs találatnövekedést
eredményeztek, és az interpretálás során jelentést is adtunk a függvé-
nyeknek, nézzük meg, hogy a romák kiemelkedésének lehetséges mód-
jait megjelenítı típusokhoz mekkora diszkriminanciafüggvény-átlagok
tartoznak. (7.12. táblázat)

7.12. táblázat
Functions at Group Centroids

TIPOL a romák kiemelkedésének Function


lehetséges módja 1 2
1,00 belsõ erõforrások -,189 ,166
2,00 asszimiláció -,156 -,170
3,00 integráció ,309 1,015E-02
Unstandardized canonical discriminant functions evaluated
at group means

25 Az ehhez a szabadságfokhoz tartozó khí-négyzet eloszlás kritikus értéke 5 százalé-


kos szignifikancia-szinten 3,84.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 339

Azok, akik úgy gondolják, hogy a romáknak önerıbıl kell megoldani


a problémáikat, egyfelıl általános intoleranciával jellemezhetık, amelyet
– a második diszkrimináló függvényen felvett érték szerint – igen erıs
cigányellenesség egészít ki. Ez a csoport kifejezetten és csak romahatás-
körbe utalja a problémák megoldását, s ha a címkéjükbıl nem derülne
ki egyértelmően, hogy álláspontjuk mennyire antiszolidáris, a diszkrimi-
náló függvények megmutatják, hogy kik is ık valójában. Az asszimilá-
ció hívei az általános toleranciát és a kifejezett roma-ellenességet is el-
utasítják, mintegy megerısítve a rájuk ragasztott címke érvényességét,
hogy ık a világot önmagukhoz hasonló emberekkel szeretnék megtöl-
teni. Az integrációs stratégia fontosságát hangsúlyozók bizonyultak a leg-
toleránsabbnak, és a második diszkrimináló függvényen felvett átlagér-
tékük jelzi, hogy toleranciájuk egyaránt irányul általában a másságra és
a romákra.
A tábla alatti megjegyzés, amely arra vonatkozik, hogy ezeket az át-
lagokat a standardizálatlan diszkriminációs együtthatókkal képzett függ-
vényekbıl számolta ki a program, arra indít bennünket, hogy még
egyszer összefoglaljuk, miféle együtthatók szerepelnek az outputban,
és mire alkalmasak. A standardizálatlan diszkriminációs együtthatók
(CANONICAL DISCRIMINANT FUNCTION COEFFICIENTS) segítségével
számítja ki a program a diszkrimináló függvény szkórjait. Ezekre az
együtthatókra úgy kell tekintenünk, mint egy regresszióelemzés során
a B együtthatókra. A mért változók összemérhetısége érdekében hozza
létre az eljárás a standardizált diszkriminációs együtthatókat (STAN-
DARDIZED CANONICAL DISCRIMINANT FUNCTION COEFFICIENTS),
amelyek a regresszióelemzés béta együtthatóira emlékeztetnek, és az
egyes változók hatáserısségének jelzésére használhatók. A struktúra-
mátrix együtthatóira pedig úgy gondolhatunk mint a fıkomponens-,
illetve faktorelemzés faktorsúlyaira.
A legfontosabb dolog, amit mindig észben kell tartanunk, hogy
a diszkrimináló függvény együtthatói parciális hatást fejeznek ki, tehát
az egyes változóknak a diszkrimináló függvényekre való hatását úgy
adják meg, hogy a többi független változó kontroll alatt van. Ezzel
szemben a struktúra-mátrix együtthatói egyszerő – bár csoportonként
átlagolt – korrelációk a változók és a függvények között. Ha „értelmes”

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

340 Túlélıkészlet az SPSS-hez

jelentéső címkéket szeretnénk rendelni az egyes diszkrimináló függ-


vényekhez, akkor – hasonlóan ahhoz, amikor a faktoroknak értelmet
adtunk – a struktúra-mátrix együtthatóival kell dolgoznunk, azokat kell
interpretálnunk. Ha azonban az egyes változók diszkriminációs függvé-
nyekhez való hozzájárulását szeretnénk megtudni, akkor a diszkrimi-
nációs függvények együtthatóit kell használnunk. Sajnos, azokban a sőrőn
elıforduló esetekben, amikor a diszkriminációs függvény együtthatói-
ból és a struktúra-mátrixból kikövetkeztethetı jelentések között ellent-
mondás feszül, az egész modellt újra kell gondolnunk.

7.2. Komplex modell

Gyakran elıfordul, hogy a diszkriminancia-analízissel magyarázható


függı változó viselkedését „kemény” és „puha” változókkal szeretnénk
elıre jelezni. Ha ezeket a változókat együtt építjük be a modellbe, sem-
mi sem garantálja, hogy a státus- és vélekedésváltozók nem keverednek
az egyes diszkrimináló függvényeken. Ilyenkor az interpretálás az „azok
a falusi öregasszonyok, akik intoleránsak és elégedetlenek, továbbá
rossz anyagi körülmények között élnek” jellegő címkékbıl áll, és ez
nem csak a fogalmazás nehézkességével jár, hanem a diszkrimináló
függvény igazi jelentése is homályban marad.26 Ilyen esetekben célszerő
a diszkriminancia-analízist három lépésben elvégezni. Az elsı lépés
a státusváltozók bevonása a modellbe. A második lépésben kerül sor
a vélekedés-változók diszkrimináló függvénnyé transzformálására. A har-
madik lépésben pedig a státust és a vélekedéseket megragadó diszkrimi-
náló függvényekbıl alkotjuk meg a magyarázó modellt. Nézzünk egy
konkrét példát!

26 Gondoljunk a különbözı életkorú jégkrémfogyasztók példájára.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 341

7.2.1. Antiszemitizmus és cigányellenesség

A modellben egy 2001-ben végzett empirikus vizsgálat adataival dolgo-


zunk. Arra a kérdésre keressük a választ, hogy mivel magyarázható,
hogy az emberek egy része „csak” antiszemita, másik részük „csak” ci-
gányellenes, és olyanok is vannak, akik antiszemiták is és cigányellene-
sek is egyben.27 A három típus megoszlása a 7.13. táblázatból látható.28

7.13. táblázat
TIPUS

Valid Cumulativ
Frequency Percent Percent e Percent
Valid 1,00 antiszemita 136 37,7 37,7 37,7
2,00 cigányellenes 128 35,5 35,5 73,1
3,00 elutasító 97 26,9 26,9 100,0
Total 360 100,0 100,0

Elsı modellünkben tehát azt vizsgáljuk, hogy az elıítéletek szervezıdé-


se mennyire magyarázható státusváltozókkal. A státusváltozók model-
lünkben az iskolai végzettség, a vagyonosság és a településtípus29 lesz-
nek.30 A diszkriminancia-analízis parancssora a következı:
DISCRIMINANT
/GROUPS=tipus(1 3)
/VARIABLES=teltip iskola vagyon
/ANALYSIS ALL
/FUNCTIONS (1)
/SAVE=SCORES
/PRIORS SIZE
/STATISTICS=TABLE
/CLASSIFY=NONMISSING POOLED .

27 Az ilyen típusú elıítéletektıl mentes csoportot kihagytuk az elemzésbıl, mivel mo-


dellünk csak az ellenszenvek szervezıdésének magyarázatára szolgál.
28 A TBD.KÖNYV_KOMPLETT-DISZKRIMINANCIA.SAV adataival dolgozunk.
29 A TELTIP változó egyes értékeinek jelentése a következı: 1’község’; 2’város’;
3’megyeszékhely’; 4’Budapest’.
30 A modellek ismertetése során nem térünk ki az egyes változók létrehozásának történe-
tére. Ugyancsak nem foglalkozunk a mérési szintekkel kapcsolatban megfogalmazható
fenntartásokkal. Bizonyos változókat ordinalitásuk ellenére is beépítünk a modellbe.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

342 Túlélıkészlet az SPSS-hez

A parancssorban két újdonság szerepel, az egyik a diszkrimináló függ-


vények számának meghatározására szolgáló /FUNCTION (1), a másik
pedig a diszkrimináló függvény szkórjainak elmentésére szolgáló
/SAVE=SCORES parancs. Elsıként azt vizsgáljuk meg, hogy a diszkrimi-
náló függvény szignifikáns különbségeket produkál-e a típusok között.

7.14. táblázat
Wilks' Lambda

Wilks' Chi-squar
Test of Function(s) Lambda e df Sig.
1 through 2 ,904 33,266 6 ,000
2 ,996 1,251 2 ,535

A 7.14. táblázatban láthatjuk, hogy az elsı függvény „használható”, és


abban is megerısítést nyertünk, hogy helyesen döntöttünk, hogy csak
egy diszkrimináló függvénnyel kívánunk dolgozni, hiszen a második
függvény nem szignifikáns. Nézzük meg, hogy mi a diszkrimináló függ-
vényünk jelentése. (7.15. táblázat)

7.15. táblázat
Structure Matrix

Function
1
TELTIP Településtípus ,818
ISKOLA Mi az Ön
legmagasabb iskolai ,562
végzettsége?
VAGYON vagyoni
,525
státusz (PC)
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.

A diszkrimináló függvény egy olyan egyenest feszít ki, amelynek pozitív


irányultságú részén a magas státusú fıvárosiak, negatív irányultságú ré-
szén pedig az alacsony státusú vidékiek helyezkednek el. A diszkri-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 343

mináló függvény elmentésével egy olyan új változót nyertünk, amely


a státus- és településhierarchiában való elhelyezkedést jelzi.31
Az egyes típusokban a függvény átlagai a 7.16. táblázatban olvashatók.

7.16. táblázat
Functions at Group Centroids

Function
TIPUS 1
1,00 antiszemita ,373
2,00 cigányellenes -,162
3,00 elutasító -,354
Unstandardized canonical discriminant
functions evaluated at group means

Az antiszemiták a legmagasabb státusúak közül kerülnek ki, a cigány-


ellenesek már alacsonyabb státusúak, míg az igazán depriváltak mindkét
csoport iránt ellenszenvvel viseltetnek. Végezetül vegyük szemügyre
a találat-márixot. (7.17. táblázat)

7.17. táblázat
Classification Resultsa

Predicted Group Membership


1,00 2,00
antiszemi cigányelle 3,00
TIPUS ta nes elutasító Total
Original Count 1,00 antiszemita 103 0 33 136
2,00 cigányellenes 58 0 43 101
3,00 elutasító 50 0 46 97
% 1,00 antiszemita 75,9 ,0 24,1 100,0
2,00 cigányellenes 57,2 ,0 42,8 100,0
3,00 elutasító 52,0 ,0 48,0 100,0
a. 44,8% of original grouped cases correctly classified.

31 Gondoljunk úgy erre a függvényre, mint egy fıkomponensre, tudván, hogy itt nem
a maximális információtartalom megırzése, hanem a típusok közötti maximális
diszkrimináció volt a cél.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

344 Túlélıkészlet az SPSS-hez

A helyesen besorolt esetek aránya nem túlságosan magas, mindössze


44,8 százalék. Ha a diszkrimináló függvény ismerete nélkül a módusszal
becsülnénk, a találatarány 37,7 százalék lenne. A két százalékos érték
közötti különbség azonban szignifikáns növekedést jelent32, tehát a mo-
dellel releváns összefüggést ragadtunk meg.
Most próbáljuk meg attitődváltozókkal magyarázni az elıítéletek
szervezıdését. Három változóra építjük a modellt: az egyik a mássággal
kapcsolatos általános toleranciát33 méri, a másik kettı pedig a szegé-
nyekkel kapcsolatban érzett szolidaritást ragadja meg úgy, hogy az egyik
változó azt fejezi ki, hogy a szegények hibáztathatók saját sorsukért,
a másik pedig azt, hogy mennyire felelıs a társadalom azért, hogy a sze-
gények szegényekké lettek vagy azok maradtak. A diszkriminancia-ana-
lízis parancsa a következı:
DISCRIMINANT
/GROUPS=tipus(1 3)
/VARIABLES=toler belso kulso
/ANALYSIS ALL
/SAVE=SCORES
/PRIORS SIZE
/STATISTICS=TABLE
/CLASSIFY=NONMISSING POOLED .

Elsıként azt kell megvizsgálnunk, hogy a létrejött diszkrimináló függ-


vények szignifikánsak-e. (7.18. táblázat)

7.18. táblázat
Wilks' Lambda

Wilks' Chi-squar
Test of Function(s) Lambda e df Sig.
1 through 2 ,514 223,635 6 ,000
2 ,954 15,665 2 ,000

32 A khí-négyzet statisztika értéke 6,04.


33 Az általános tolerancia a deviánsokkal, a bevándorlókkal és az itt élı (nem zsidó és
nem cigány) kisebbségekkel kapcsolatos attitődöket aggregálja, s mint a változó ne-
ve is mutatja, a nagy értékek toleranciát, a kicsik intoleranciát fejeznek ki.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 345

Mindkét diszkrimináló függvény szignifikáns, de a második függvény


diszkrimináló képessége jóval szegényesebb, mint az elsıé. Nézzük meg,
hogy sikerül-e interpretálnunk a létrejött függvényeket. (7.19. táblázat)

7.19. táblázat
Structure Matrix

Function
1 2
BELSO a szegények
-,731* ,236
maguk hibáztathatók (PC)
TOLER tolerancia (PC) ,660* -,454
KULSO a szegények
sorsáért a társadalom ,360 ,880*
hibáztatható (PC)
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function

Az elsı függvény pozitív irányultságú része általános toleranciával és


a szegények iránti szolidaritással jellemezhetı, a negatív irányultságú
rész – értelemszerően – ennek éppen az ellentéte. A második diszkrimi-
náló függvény pozitív értékei általános intoleranciát és egyfajta két-
lelkőséget testesítenek meg, amennyiben a szegénységet külsı és belsı
okokkal egyaránt magyarázzák. A státushelyzetet jelzı diszkrimináló
függvény segít majd eldönteni, hogy itt a szegénység rémképe által
fenyegetett depriváltak azon törekvésérıl van-e szó, hogy a szegényeket
érdemes és érdemtelen szegényekre bontsák. Ezzel ugyanis nyitva
hagyják a lehetıséget saját szegénységük társadalmi enyhítésére és csök-
kentik a szegények közötti versengést azzal, hogy másokat olyan ér-
demtelen szegényeknek bélyegeznek, akik önhibájukból szorultak a pe-
rifériára.
Nézzük a különbözı típusok jellemzését a diszkrimináló függvé-
nyekkel. (7.20. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

346 Túlélıkészlet az SPSS-hez

7.20. táblázat
Functions at Group Centroids

Function
TIPUS 1 2
1,00 antiszemita 1,192 9,064E-03
2,00 cigányellenes -,746 ,237
3,00 elutasító -,671 -,317
Unstandardized canonical discriminant
functions evaluated at group means

Az antiszemiták csoportja – hangozzék bármilyen furcsán – általános


toleranciával és a szegények iránti szolidaritással jellemezhetı. Úgy tő-
nik, hogy az antiszemitizmus jól megfér a deviánsok és az elesettek
iránti toleranciával, és ha visszaemlékezünk arra, hogy az antiszemiták
magas státussal jellemezhetık, úgy tőnik, hogy itt is valamiféle pozíció-
féltés áll a háttérben. A cigányellenesek és az elutasítók profilja hasonló:
intoleránsak és antiszolidárisak a szegényekkel. Ezen utóbbi két típus
a második diszkrimináló függvény mentén válik el egymástól. A cigány-
ellenesekre jellemzı az általános intolerancia és a szegénység kettıs –
egymásnak ellentmondó – magyarázata, míg az elutasítók csoportja
nem hajlik e kettıs oktulajdonításra.
A modell illeszkedésének utolsó próbája a találat-mátrix. (7.21. táb-
lázat)

7.21. táblázat
Classification Resultsa

Predicted Group Membership


1,00 2,00
antiszemi cigányelle 3,00
TIPUS ta nes elutasító Total
Original Count 1,00 antiszemita 96 19 13 127
2,00 cigányellenes 17 75 27 120
3,00 elutasító 12 51 30 93
% 1,00 antiszemita 75,2 14,7 10,1 100,0
2,00 cigányellenes 14,2 62,8 22,9 100,0
3,00 elutasító 13,1 54,8 32,1 100,0
a. 59,1% of original grouped cases correctly classified.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 347

A helyesen besoroltak aránya 59,1 százalék, ami szignifikánsan na-


gyobb, mint a móduszból következı 37,7 százalékos becslés.34

7.2.2. Státus és attitődök: együttes magyarázat

Nézzük most már, mire jutunk, ha a státust megjelenítı diszkrimináló


függvényt és a különbözı attitődöket megjelenítı függvényt együttesen
vonjuk be egy újabb diszkriminancia-elemzésbe. A parancssor a követ-
kezı:
DISCRIMINANT
/GROUPS=tipus(1 3)
/VARIABLES=statusdf tolerdf
/ANALYSIS ALL
/FUNCTIONS (1)
/PRIORS SIZE
/STATISTICS=TABLE
/CLASSIFY=NONMISSING POOLED .

Csak egyetlen szignifikáns diszkrimináló függvényt kaptunk. (7.22. táb-


lázat)

7.22. táblázat
Wilks' Lambda

Wilks' Chi-squar
Test of Function(s) Lambda e df Sig.
1 through 2 ,511 208,328 4 ,000
2 ,994 1,993 1 ,158

A diszkrimináló függvény interpretálása a következı lépés. (7.23. táblá-


zat)

34 A khí-négyzet értéke 29,89.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

348 Túlélıkészlet az SPSS-hez

7.23. táblázat
Structure Matrix

Function
1
TOLERDF toleráns
,979
szolidáris tengely
STATUSDF státus
,307
diszkriminancia függvény
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.

A diszkrimináló függvény pozitív értékei általános toleranciát, a szegé-


nyekkel kapcsolatos szolidaritást és relatíve magas státust fejeznek ki.
Az egyes típusok elhelyezkedése a státus és a tolerancia tengelye
mentén a 7.24. táblázatban látható.

7.24. táblázat
Functions at Group Centroids

Function
TIPUS 1
1,00 antiszemita 1,171
2,00 cigányellenes -,835
3,00 elutasító -,761
Unstandardized canonical discriminant
functions evaluated at group means

Az antiszemiták csoportját tehát a relatíve magas státusú, általános tole-


ranciát mutató megkérdezettek alkotják, és a diszkrimináló függvény át-
laga megerısíti azt az elképzelést, hogy a zsidókra kiélezett elıítéletek
mélyén valamiféle státusféltés állhat. A romákkal szemben ellenérzése-
ket táplálók csoportja függetlenül attól, hogy ez antiszemitizmussal pá-
rosul-e, relatíve alacsony státusú és általános intoleranciát mutat. Ebben
a modellben a két utóbbi csoport „szétválasztása” nem sikerült.
Vizsgáljuk meg a másik diszkrimináló függvény – amely az intole-
ráns, a szegénységet kettıs okrendszerrel magyarázókat hordozza a po-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 349

zitív pólusán – és a státus diszkrimináló függvény együttes magyarázó


modelljét.
DISCRIMINANT
/GROUPS=tipus(1 3)
/VARIABLES=statusdf intoldf
/ANALYSIS ALL
/FUNCTIONS (1)
/PRIORS SIZE
/STATISTICS=TABLE
/CLASSIFY=NONMISSING POOLED .

Elsıként a függvények szignifikanciáját vesszük szemügyre. (7.25. táblázat)

7.25. táblázat
Wilks' Lambda

Wilks' Chi-squar
Test of Function(s) Lambda e df Sig.
1 through 2 ,868 43,863 4 ,000
2 ,960 12,742 1 ,000

Ebben a modellben mindkét diszkrimináló függvény jelentıs különbsé-


geket produkál a típusok között. A kérdés most már csak az, hogy sike-
rül-e jelentést adnunk a függvényeknek.

7.26. táblázat
Structure Matrix

Function
1 2
STATUSDF státus
,912* -,409
diszkriminancia függvény
INTOLDF intoleráns
,386 ,922*
populizmus tengely
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

350 Túlélıkészlet az SPSS-hez

Az elsı függvény esetében a pozitív pólusa kiugróan magas státussal és


mérsékelt intoleranciával jellemezhetı, a második függvény pedig egy
alacsony státusú, rendkívül intoleráns pozitív pólust definiál. (7.26. táb-
lázat)
Nézzük az egyes típusok elhelyezkedését a diszkrimináló függvé-
nyek mentén. (7.27. táblázat)

7.27. táblázat
Functions at Group Centroids

Function
TIPUS 1 2
1,00 antiszemita ,344 -,118
2,00 cigányellenes -3,55E-02 ,311
3,00 elutasító -,435 -,153
Unstandardized canonical discriminant
functions evaluated at group means

Amikor az egyes csoportokat jellemezni kívánjuk, egyszerre kell figyel-


nünk a két diszkrimináló függvény átlagát. Ennek megfelelıen az anti-
szemitákról azt mondhatjuk, hogy igen magas státusú, mérsékelten in-
toleráns csoportnak nevezhetık. A cigányellenes típus egyértelmően
egy alacsony státusú, rendkívül intoleráns csoportot jelenít meg. Az egy-
szerre romaellenes és antiszemita elutasítók profilját viszont nehezebb
meghatározni, hiszen mindkét függvényen negatív értéket vettek fel.
Ha segítségül hívjuk a diszkriminancia-analízis output egy opcióját, meg-
tudhatjuk, milyen ennek a csoportnak az egydimenziós arculata. Az op-
ció a független változók átlagainak lekérését jelenti típusonkénti bon-
tásban.
A 7.28. táblázatból kitőnik, hogy az elutasítók csoportja alacsony
státusú és inkább toleráns. Eddigi elemzéseinkbıl már látszott, hogy
a státus szignifikánsan befolyásolja az elıítéletek szervezıdését, és az
attitődökbıl aggregált diszkrimináló függvények segítségével bizonyos
nem magától értetıdı jellemzıket is rávetíthettünk az egyes típusokra.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Diszkriminancia-analízis 351

7.28. táblázat
Group Statistics

Valid N (listwise)
Std. Unweight
TIPUS Mean Deviation ed Weighted
1,00 antiszemita STATUSDF státus
,3642016 1,0537738 132 127,145
diszkriminancia függvény
INTOLDF intoleráns
9,06E-03 1,0182045 132 127,145
populizmus tengely
2,00 cigányellenes STATUSDF státus
-,1589326 1,0499437 90 93,696
diszkriminancia függvény
INTOLDF intoleráns
,2526356 1,0763661 90 93,696
populizmus tengely
3,00 elutasító STATUSDF státus
-,3337349 ,8705387 97 92,960
diszkriminancia függvény
INTOLDF intoleráns
-,3172265 ,8006260 97 92,960
populizmus tengely
Total STATUSDF státus
1,25E-03 1,0449262 319 313,800
diszkriminancia függvény
INTOLDF intoleráns
-1,5E-02 ,9993528 319 313,800
populizmus tengely

Összegzésül leszögezhetjük, hogy nem könnyő feladat a státus- és az


attitődváltozók együttes beépítése a diszkriminancia-analízis modellbe.
Szerencsés esetben elérhetjük, hogy mind a státus-, mind a vélekedés-
változók szignifikáns és értelmezhetı diszkrimináló függvényeket al-
kotnak, de az elemzés végén nem kerülhetjük meg a státus- és az atti-
tőd-aggregátumok együttes szerepeltetését a modellben. Ilyen esetekben
gyakran vissza kell nyúlnunk az egyszerő kétdimenziós összefüggések-
hez, azaz a csoportátlagokhoz, annak érdekében, hogy a nem tiszta
profilú csoportok „viselkedését” megérthessük. A kemény és a puha vál-
tozók „elkülönítése” azonban mégis megkönnyíti a függvények inter-
pretálását és lehetıvé teszi, hogy az egyes típusoknak relatíve tiszta pro-
filt adjunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

8. TÖBBDIMENZIÓS SKÁLÁZÁS

A többdimenziós skálázás vagy MDS (Multidimensional Scaling) egy


adatredukciós eljárás, amelynek során a mért adatok mögött úgy kere-
sünk látens struktúrát, hogy az új, látens változók az eredetihez képest
kevesebb dimenzióban ragadják meg, írják le az „alanyok” elhelyez-
kedését. Az elhelyezkedés szó szerint értendı, hiszen valóban arról van
szó, hogy az eljárás a sok mért változóból egy-két-három dimenziós te-
ret megjelenítı tengelyeket „farag”, és ebben a redukált térben helyezi
el a vizsgált egyedeket vagy azok csoportjait. A dimenziócsökkentés
módja azonban más, mint a faktor- vagy a klaszterelemzésnél. A kulcs-
fogalom – akár a klaszterezésnél – itt is a távolság, s az eljárás azt tartja
szem elıtt, hogy ha két vizsgálati egység – mondjuk az i-edik és a j-edik
megkérdezett – közötti távolság nagyobb, mint egy másik egyed-pár –
mondjuk a k-adik és az l-edik megkérdezett – közötti távolság, akkor
a redukált, kevesebb dimenziós térben is igaz legyen, hogy a k-adik és
l-edik elem távolsága nem nagyobb, mint az i-edik és j-edik elemé.
Kissé egyszerőbben fogalmazva: ha két elem messze volt egymástól
a mért változók sokdimenziós terében, akkor az a cél, hogy maradjanak
messze egymástól az MDS létrehozta új kevés dimenziós térben is.
Tételezzük fel, hogy van néhány szociológiailag releváns tartalom-
mal, jelentéssel felruházott kategóriánk (ilyenek például egy megye vá-
rosai, vagy az ország megyéi, esetleg Európa országai, vagy bizonyos ki-
sebbségi csoportok). Ezeket a kategóriákat úgy szeretnénk elhelyezni
egy kevés dimenziós térben, hogy a kategóriák elhelyezkedése arról ad-
jon képet, milyen messze vannak ık valójában egymástól. Azt is mond-
hatnánk, hogy a kategóriákat egy térképen helyezzük el, de a térkép
koordinátáit nem a földrajzi hosszúsági és szélességi fokok adják, ha-
nem egy, az MDS által létrehozott koordináta-rendszer. Elıre is definiál-
hatjuk a kategóriák egymástól való „távolságát”, azaz egy távolság-
mátrixból is indítjuk a modellt, de arra is mód van, hogy megadjuk azo-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 353

kat a változókat, amelyek mentén a távolságot értelmezni kívánjuk, és


a program maga számolja ki az egyes kategóriák egymástól való távolsá-
gát az n-dimenziós1 térben. Arra vagyunk kíváncsiak milyen térképet
rajzol nekünk a program. Ahhoz, hogy belássuk, ez a térképrajzolás
nem is olyan egyszerő, elég arra gondolnunk, hogy hiába ismerjük két
település földrajzi távolságát, ebbıl még nem tudhatjuk, hogy melyik
van a másikhoz képest nyugatra vagy délre.

8.1. Kisebbségek egy rokonszenv-térképen

Nézzünk egy konkrét példát. Egy 2001-ben készült reprezentatív min-


tán alapuló vizsgálatban a megkérdezetteknek tizenegy kisebbségi cso-
portról kellett eldönteniük, hogy mennyire találják ıket rokonszenves-
nek, illetve ellenszenvesnek.2 Az ellenszenv-átlagokat szemlélteti a 8.1.
táblázat, amelyhez egy egyszerő DESCRIPTIVES paranccsal jutottunk.

8.1. táblázat
Descriptive Statistics

Std.
N Mean Deviation
KABITOSZ kábítószeres 995 7,982 1,578
ROMA roma 994 7,297 1,893
HOMOSZ homoszexuális 995 7,254 1,976
SZERB szerb 995 6,471 1,812
ROMAN román 992 6,455 1,895
ARAB arab 995 6,348 1,877
HAJLEKT hajléktalan 991 6,209 1,965
KINAI kínai 993 6,072 1,972
NEGER néger 993 5,949 2,013
ZSIDO zsidó 991 4,922 2,135
SVAB sváb 990 4,709 2,175
Valid N (listwise) 976

1 A változók száma éppen n.


2 A TBD.KÖNYV_MDS-TANULÓ.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

354 Túlélıkészlet az SPSS-hez

Láthatóan a kábítószereseket találták átlagosan a legellenszenvesebb-


nek, rögtön utánuk a romák következnek és így tovább, míg a rokon-
szenv-skála élén a svábok és a zsidók foglalnak helyet. Anélkül, hogy
bármit tudnánk az MDS parancsról, nézzük meg, mit produkál az SPSS,
ha arra kérjük, hogy helyezze el a kisebbségi csoportokat egyetlen di-
menzióban.

8.1. ábra

Derived Stimulus Configuration


Individual differences (weighted) Euclidean distance model
2 kábítószeres

homoszexuális
roma
1

szerb
román
arab
0
hajléktalan
kínai
néger
Dimension 1

-1
zsidó
sváb
-2
-,6 -,4 -,2 -,0 ,2 ,4 ,6

One Dimensional Plot

Miután egyetlen változóval, a rokonszenv-ellenszenv skálával dolgo-


zunk, az MDS is e dimenzió mentén rendezi el a kisebbségi csoportokat.
(8.1. ábra) Bár az ábra nehezen átlátható (az SPSS modern változataiban
sem korszerősítették az MDS output-ját), az jól látható, hogy a legellen-
szenvesebb csoport a kábítószereseké, ıket a romák majd a homo-
szexuálisok követik. A legrokonszenvesebbek pedig a sváb és a zsidó
kisebbség tagjai. Egyetlen dimenzióban mozogva – és az eredeti távol-
ságot is egyetlen változóval, a rokonszenv-ellenszenv skálával definiálva

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 355

– az MDS éppen annyi információt ad, amennyit egy egyszerő „mekko-


rák az egyes kisebbségi csoportok ellenszenv-átlagai?” kérdésre adott
válasz szolgáltathat. Ettıl aligha kaptunk kedvet az MDS megismerésé-
hez.
Mi történik akkor, ha azt feltételezzük, hogy az egyes csoportok
megítélése3 mögött valami rejtett mechanizmus munkál? Próbáljuk meg
arra kérni az MDS-t, hogy egy „igazi” térképen helyezze el a kisebbségi
csoportokat, azaz kétdimenziós megoldást hozzon létre. Ekkor az ábra
másként alakul. (8.2. ábra)

8.2. ábra

Derived Stimulus Configuration


Individual differences (weighted) Euclidean distance model

1,0 hajléktalan
,8
homoszexuális
,6

,4
sváb kábítószeres
,2
zsidó
-,0
Dimension 2

-,2 négerarab
román
szerb
-,4 kínai roma
-,6
-3 -2 -1 0 1 2 3

Dimension 1

Az elsı dimenzió (a vízszintes tengely) nem változott, továbbra is a ro-


konszenv-ellenszenv skálának megfelelıen helyezkednek el rajta a ki-
sebbségi csoportok. A második tengely interpretálásához azonban némi
bátorság szükségeltetik. A pozitív térfélen azok a kisebbségi csoportok
helyezkednek el, akik „ránézésre” magyarnak, „nem idegennek” látsza-

3 Szigorúan csak a „mennyire rokonszenves-ellenszenves az adott csoport” kérdésre


adott válaszokra gondoljunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

356 Túlélıkészlet az SPSS-hez

nak, a tengely negatív irányultságú részén pedig azok, akik „idegennek”,


nem magyarnak számítanak.4 Térképünkön az arab, szerb és román
etnikai csoport került a legközelebb egymáshoz, egyformán idegennek
és kevéssé rokonszenvesnek számítanak. A romák megítélése egyene-
sen tragikus, a velük szemben érzett nagyfokú ellenszenv egy más típu-
sú kirekesztéssel is társul, idegennek látja ıket a többségi társadalom.
Szegregált helyzetüket jól szemlélteti az a magányos négyzet az ábra
legrosszabb térfelén.

8.1.1. Többdimenziós skálázás az SPSS-ben

Talán ennyi elég is ahhoz, hogy legyen kedvünk kicsit jobban megis-
merni a többdimenziós skálázást. Nézzük, hogyan hozhatjuk mőködés-
be az MDS-t:
PROXIMITIES arab szerb roma neger roman kinai svab
zsido hajlekt homosz kabitosz
/PRINT NONE /MATRIX OUT('C:\WINDOWS\TEMP\spssalsc.tmp')
/MEASURE=EUCLID /STANDARDIZE=NONE /VIEW=VARIABLE .
SPLIT FILE OFF.
ALSCAL
/MATRIX= IN('C:\WINDOWS\TEMP\spssalsc.tmp')
/LEVEL=ORDINAL
/CONDITION=MATRIX
/MODEL=EUCLID
/CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30)
CUTOFF(0) DIMENS(2,2)
/PLOT=DEFAULT ALL
/PRINT=DATA HEADER .

A PROXIMITIES parancs hatására egy 11 sorból és 11 oszlopból álló tá-


volság-mátrix jön létre, mely mátrix szimmetrikus. A mátrix elemei az

4 Nem kell elfogadnunk ezt az értelmezést, próbálkozhatunk más jelentéssel felru-


házni a második dimenziót. Ha azonban nem találunk megfelelı magyarázatot
a második dimenzió létére, akkor erre a problémára ne alkalmazzuk az MDS mód-
szert.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 357

egyes etnikai csoportok euklideszi távolságát jelentik.5 Ebben a pa-


rancsban kérjük azt is, hogy ezt a távolság-mátrixot mentse el a prog-
ram egy temporális (ideiglenes) file-ba, amelyet az ALSCAL6 már induláskor
fel is használ. A modellben szereplı változók mérési szintje ordinális, ezt
a /LEVEL=ORDINAL sorban kell megvallanunk. Ezután a távolság-mát-
rix formájáról kell nyilatkoznunk. Abban az esetben, ha a PROXIMITIES pa-
ranccsal számíttatjuk ki a távolság-mátrix elemeit, mindig egy szimmet-
rikus mátrixból indulunk7. Ezt fogalmazzuk meg a CONDITION=MATRIX
utasítással. Modellünk euklideszi távolságokra épül, ezt jeleztük a kö-
vetkezı sorban. A /CRITERIA parancs mögött álló kifejezéseket egy ki-
vétellel késıbb fogjuk megérteni. A DIMENS után zárójelben határozzuk
meg, hogy hány dimenziósra akarjuk redukálni az eredeti teret. Arra is
mód van, hogy egyszerre több megoldással kísérletezzünk, a zárójelbe
ugyanis két különbözı számot is írhatunk: az elsı a minimális dimen-
ziószámot jelöli, a második pedig a maximálisat.8 A /PLOT alparancsban
lekértük az összes lehetséges ábrát, mindegyikkel meg is fogunk
ismerkedni. A /PRINT parancs automatikusan illeszkedik a parancssor-
hoz, alapértelmezésben a modell jellemzıit, valamint az eredeti és a re-
dukált távolság-mátrixot is kinyomtatja.

5 A mi modellünkben például a romák és a kábítószeresek közötti távolság nem


más, mint a romákra, illetve a kábítószeresekre adott ellenszenv-pontszámok kü-
lönbségeinek átlagos négyzetösszegébıl vont négyzetgyök.
6 A többdimenziós skálázás egyik módját ALSCAL-nak is nevezik. Az SPSS csak ilyen
többdimenziós skálázás használatára ad lehetıséget.
7 Abban a nem várt esetben, ha rendelkezünk egy távolságmátrix-file-lal, ez a mátrix
nem szükségképpen tartalmazza az 1. elem távolságát a 2. elemtıl a T12-helyen és
ugyanezt a távolságot a T21 helyen is, hanem dolgozhatunk alsó-háromszög-mátrix-
szal is. Ilyenkor a /CONDITION=RECTANGULAR parancsot használjuk. Az SPSS arra
is lehetıséget kínál, hogy olyan modelleket építsünk, amelyekben a Tij ≠ Tji esetek is
elıfordulhatnak. Közlekedési tapasztalatunkra támaszkodva képzeljük el, hogy A
pontból B pontba kívánunk menni, de az egyirányú utcák miatt ehhez gépkocsival
két kilométert kell megtennünk. Visszafelé azonban utunk lerövidül, és a B-bıl egy
kilométernyi út megtételével A-ba jutunk. Ebben az esetben TAB valóban nem
egyenlı TBA-val. Mi ezzel az elágazással nem foglalkozunk.
8 Ilyenkor nem csak a minimális és a maximális dimenziószámnak megfelelı modellt
építi fel a program, hanem a két érték közé esı valamennyi egész számnak megfe-
lelı dimenziójú modellt is.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

358 Túlélıkészlet az SPSS-hez

Az output elsı része a modell paramétereit ismerteti. (8.2. táblázat)

8.2. táblázat
Alscal Procedure Options

Data Options-

Number of Rows (Observations/Matrix). 11


Number of Columns (Variables) . . . 11
Number of Matrices . . . . . . 1
Measurement Level . . . . . . . Ordinal
Data Matrix Shape . . . . . . . Symmetric
Type . . . . . . . . . . . Dissimilarity
Approach to Ties . . . . . . . Leave Tied
Conditionality . . . . . . . . Matrix
Data Cutoff at . . . . . . . . ,000000

A 8.2. táblázatban láthatjuk, hogy tizenegy változónk van, azaz tizenegy


kisebbségi csoport szerepel a modellben. Egyetlen távolság-mátrixunk
van, amely szimmetrikus, a változók ordinálisak. A távolságon a modell
különbözıséget és nem hasonlóságot ért, ami igencsak megkönnyíti
a dolgunkat, amikor a „térképet” értelmezni akarjuk.

8.3. táblázat
Model Options-

Model . . . . . . . . . . . Euclid
Maximum Dimensionality . . . . . 2
Minimum Dimensionality . . . . . 2
Negative Weights . . . . . . . Not Permitted

A várva várt modell paramétereit szemlélve (8.3. táblázat) újra megtud-


hatjuk, hogy euklideszi távolságokkal operálunk, valamint azt is, hogy
kétdimenziós térben szeretnénk elhelyezni a változóinkat, azaz a ki-
sebbségi csoportokat. Továbbá nem engedtük meg a negatív súlyokat,
ami csöppet sem esett nehezünkre, hiszen elképzelni sem tudjuk, mit
keresnének az adatfile-ban negatív súlyok.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 359

8.4. táblázat
Output Options-

Job Option Header . . . . . . . Printed


Data Matrices . . . . . . . . Printed
Configurations and Transformations . Plotted
Output Dataset . . . . . . . . Not Created
Initial Stimulus Coordinates . . . Computed

Az output milyenségére nincs túl nagy befolyása a felhasználónak, az


SPSS ugyanis nem jeleskedett az MDS korszerősítésében. Az adatmátrixok
és a PLOT-ok megjelenítést magunknak kell kérnünk, új, a tengelyeket
számszerősítı adatszett kérésére azonban nincs lehetıség. (8.4. táblázat)

8.5. táblázat
Algorithmic Options-

Maximum Iterations . . . . . . 30
Convergence Criterion . . . . . ,00100
Minimum S-stress . . . . . . . ,00500
Missing Data Estimated by . . . . Ulbounds
Tiestore . . . . . . . . . . 55

A futás opcióinak beállításához szabad kezet kapunk az SPSS-tıl. (8.5.


táblázat) E lehetıséggel azonban csak akkor tudunk élni, ha megismer-
kedünk a S-STRESS fogalmával.

8.1.2. Meddig mehetünk el? A dimenziócsökkentés határai

Idézzük emlékezetünkbe, hogy az MDS egy távolság-mátrixból indít.


Azt is mondhatjuk, hogy a tizenegy kisebbségi csoport távolság-mátrixa
nem más, mint az MDS inputja. Mivel az opciókban kértük az adatmát-
rixok kinyomtatását, láthatjuk is rendre az egyes távolságokat. Az ada-
tok értelmezését megkönnyítendı, az outputban a pusztán sorszámmal
jelölt kisebbségi csoportokat nevesítettük. (8.6. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

360 Túlélıkészlet az SPSS-hez

8.6. táblázat
Raw (unscaled) Data for Subject 1

arab szerb roma néger román

1 ,000
2 50,080 ,000
3 69,469 66,317 ,000
4 57,637 62,626 77,485 ,000
5 58,267 52,849 64,288 58,404 ,000
6 59,025 61,693 76,394 50,398 55,182
7 88,854 90,371 115,139 80,864 90,122
8 82,595 85,580 106,967 75,631 83,982
9 69,051 71,162 76,994 69,109 68,811
10 72,767 71,924 68,840 78,886 75,047
11 85,112 80,175 66,015 96,561 81,835

kínai sváb zsidó hajlék- homo-


talan szexuális

6 ,000
7 79,492 ,000
8 76,590 53,749 ,000
9 72,938 88,854 81,523 ,000
10 79,366 111,580 105,806 76,138 ,000
11 93,606 128,783 123,077 85,358 64,351

kábítószeres

,000

A tizenegy dimenziót megtestesítı távolságokat két dimenzióra szeret-


nénk redukálni a bevezetıben definiált kritériumnak megfelelıen: ha az
eredeti távolság két elem, azaz két kisebbségi csoport között nagy, ak-
kor annak is igaznak kell lennie, hogy a kétdimenziós térben is relatíve

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 361

messze lesznek egymástól az elemek. Szabatosabban fogalmazva: ha a mért


változók által definiált távolságokat σij-vel, a redukált térbeli távol-
ságokat dij-vel jelöljük, akkor minden esetben érvényesülnie kell a kö-
vetkezı feltételnek: ha σij < σlk , akkor dij ≤ dlk .
A dimenziócsökkentésnek tehát úgy kell megtörténnie, hogy az elemek
távolságának sorrendje ne változzék. Az outputban szereplı S-STRESS
érték éppen azt mutatja, hogy a dimenziócsökkentéssel keletkezett dij-k
mennyire felelnek meg a fenti kritériumnak. Ha az S-STRESS értéke 0,
akkor minden elempárra igaz, hogy a dimenzióredukálás után mindenki
megırizte az eredeti távolságok szerinti ranghelyét. Mindnyájan sejtjük,
hogy bizonyos engedményeket kell tennünk, nem várhatjuk, hogy a mo-
notonitás9 kritériuma tökéletesen érvényesüljön. A modellt tehát illesz-
kedınek fogjuk tekinteni, ha az S-STRESS értéke kisebb 0,05-nél. Nem
kizárt ennél nagyobb S-STRESS értékek elfogadása sem, azonban 0,10-
nél nagyobb érték esetén gondoljuk újra a modellt. Természetesen az S-
STRESS értéke csökken, ha a dimenziószámot növeljük, de jól tudjuk,
hogy már a háromdimenziós térkép értelmezése sem lehet könnyő,
a négy- vagy még többdimenziós terekben való tájékozódás képessége
pedig igazán keveseknek adatik meg.
Az MDS nem feltétlenül talál rá egy lépésben a lehetı legkisebb S-
STRESS értéket adó tengelyekre. Éppen úgy, mint a faktorelemzés eseté-
ben, egy iteratív eljárás során alakítja ki az elérhetı optimumot. Az MDS
célfüggvénye éppen a STRESS-érték minimalizálása adott dimenzió-szám
mellett. Az illeszkedı modell dimenzióinak értelmezése azonban éppen
úgy kétesélyes folyamat, mint a faktorok, klaszterek vagy diszkrimináló
függvények interpretálása volt.
A modell illeszkedését mérı STRESS-érték, és az egyre csökkenı ha-
tékonyságú iterálások története látható a 8.7. táblázatban közölt output-
részletben.

9 Pontosabban szólva a σ-k és d-k sorrendtartása valójában a gyenge monotonitás


kívánalmának felel meg, hiszen a d-k esetében az egyenlıséget is megengedtük.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

362 Túlélıkészlet az SPSS-hez

8.7. táblázat
Iteration history for the 2 dimensional solution (in
squared distances)

Young's S-stress formula 1 is used.

Iteration S-stress Improvement

1 ,03040
2 ,02364 ,00677
3 ,02160 ,00204
4 ,02041 ,00119
5 ,01954 ,00087

Iterations stopped because


S-stress improvement is less than ,001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled


data (disparities)
in the partition (row, matrix, or entire data)
which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.

For matrix
Stress = ,03379 RSQ = ,99551

A modell illeszkedését mérı STRESS-érték (0,03379) elegendıen kicsi,


ezért bízhatunk abban, hogy a tizenegy kisebbségi csoport valósághően
megjeleníthetı egy kétdimenziós térképen. Ebben a reményben tovább
erısít bennünket a modell illeszkedését mérı másik mutató, az R2 (az
MDS szóhasználatában RSQ). Ez a mutató azt jelzi, hogy az eredeti ti-
zenegy dimenziós térben való elhelyezkedés és a kétdimenziós konfigu-
ráció – ami a távolságokra vonatkozó monotonitási kritériumot illeti –
igencsak megfelel egymásnak, hiszen az R2 értéke 0,99551.
A modell ilyetén illeszkedését szemlélteti az output egy ábrája. (8.3. ábra)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 363

8.3. ábra
Scatterplot of Linear Fit
Euclidean distance model
5

2
Distances

0
0 1 2 3 4 5

Disparities

A vízszintes tengelyen az eredeti térben való elhelyezkedés, a függıle-


ges tengelyen pedig a redukált, kétdimenziós térben „mért” távolságo-
kat tünteti fel a program. Az ábra jól közelíthetı egy egyenessel, tehát
a dimenziócsökkentés nem járt érdemi torzulással.
Az output legkényesebb darabja az új dimenziók koordinátáit leíró
táblázat. (8.8. táblázat)
A dimenziók értelmezését megkönnyítheti, ha a velük identikus
ábrát is szemügyre vesszük. (8.4. ábra) Ezt az ábrát már láttuk a fejezet
elején. Most a dimenziók koordinátáival összevetve újra megállapíthat-
juk, hogy az elsı dimenzió az ellenszenv-rokonszenv tengely mentén
szervezıdik, a legnagyobb pozitív koordináta a kábítószeresekhez tar-
tozik, az ábrán ıket láthatjuk a jobb szélsı pozíción. Ugyanezen a ten-
gelyen a legkisebb érték a svábokhoz tartozik, ık a legnépszerőbbek, s
az ábra a bal szélsı részén jelennek meg. A második dimenzió, amely
az ábra függıleges tengelyén nyer képi megfogalmazást, a nem magyar-
magyar skálát reprezentálja. A legnagyobb pozitív érték a hajléktala-
nokhoz tartozik, ıket láthatjuk az ábra legfelsı részén. A legnagyobb
negatív érték a kínaiaké és a romáké, ık az ábra legalsó pozícióin fog-
lalnak helyet.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

364 Túlélıkészlet az SPSS-hez

8.8. táblázat
Configuration derived in 2 dimensions

Stimulus Coordinates

Dimension

Stimulus Stimulus 1 2
Number Name

1 Q24_1 ,0626 -,2867


2 Q24_2 ,2791 -,3401
3 Q24_3 1,4031 -,4772
4 Q24_4 -,5160 -,2907
5 Q24_5 ,1676 -,2953
6 Q24_6 -,4288 -,4851
7 Q24_7 -2,4437 ,1886
8 Q24_8 -2,0781 ,1689
9 Q24_9 -,0330 ,9336
10 Q24_10 1,2867 ,6345
11 Q24_12 2,3004 ,2496

8.4. ábra
Derived Stimulus Configuration
Euclidean distance model

1,0 hajléktalan
,8
homoszexuális
,6

,4
svábzsidó kábítószeres
,2

-,0
Dimension 2

-,2 néger arab


román
szerb
-,4 kínai roma
-,6
-3 -2 -1 0 1 2 3

Dimension 1

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 365

Az output egy számunkra nem túl informatív darabja a redukált dimen-


ziókban mért távolság-mátrix. (8.9. táblázat)

8.9. táblázat
Optimally scaled data (disparities) for subject 1

1 2 3 4 5

1 ,000
2 ,191 ,000
3 1,333 1,157 ,000
4 ,496 ,797 1,971 ,000
5 ,496 ,191 1,157 ,612 ,000
6 ,612 ,723 1,803 ,191 ,496
7 2,537 2,774 3,904 2,073 2,656
8 2,195 2,422 3,541 1,497 2,293
9 1,224 1,333 1,971 1,316 1,183
10 1,487 1,402 1,183 2,026 1,487
11 2,301 2,073 1,157 2,868 2,195

6 7 8 9 10

6 ,000
7 2,073 ,000
8 1,803 ,366 ,000
9 1,487 2,537 2,183 ,000
10 2,049 3,757 3,397 1,497 ,000
11 2,826 4,744 4,379 2,422 1,157

11

11 ,000

Mivel a STRESS-érték, az RSQ, valamint a σ-k és d-k együttállását szem-


léltetı ábra egyaránt azt bizonyítja, hogy ezek a távolságok jól ırzik a sok-
dimenziós térbeli topográfiát, a kisebbségi csoportok elhelyezkedését
pedig kiválóan leírja a 8.4. ábra, aligha érdemes a 11×11-es mátrix ele-
meit behatóan vizsgálgatnunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

366 Túlélıkészlet az SPSS-hez

8.2. Etnikai csoportok az egymásról alkotott vélemények


terében
Most, hogy már rendelkezünk némi ismerettel az MDS mőködésérıl,
nézzünk egy újabb modellt. Szeretnénk az egymásra vonatkozó véleke-
dések terében elhelyezni négy etnikai csoportot, az Erdélyben élı ro-
mánokat és magyarokat, illetve a Dél-Szlovákiában élı szlovákokat és
magyarokat. Az eredeti vizsgálatban – sok egyéb mellett – arra voltunk
kíváncsiak, hogy az együtt élı két-két etnikai csoport mennyire jelle-
mezhetı egyfajta, a sztereotípiák segítségével kinyilvánított kompeten-
cia-, illetve morális fölénnyel10, él-e az adott csoportban erıs etno-
centrizmus, valamint, hogy mennyire érzékelnek etnikai feszültséget.
A többdimenziós skálázást egy olyan modell felépítésére szeretnénk
használni, amelyben ez a négy vélekedés-dimenzió adja a mért távolsá-
gok terét, és ebben a térben akarjuk elhelyezni a négy etnikai csopor-
tot.11 Ehhez az kell, hogy ne a már ismert távolság-mátrixból indítsuk
a programot, hanem egy sajátos adattömbbıl. Ezt az adattömböt négy-
zetes hasábként érdemes elképzelni, mely hasábnak négy szelete van:
minden etnikai csoportnak van egy „saját” távolság-mátrixa. Ehhez a pa-
rancssort is kicsit másképpen kell felírnunk:
SORT CASES BY ethnic .
SPLIT FILE BY ethnic .
PROXIMITIES moral kompeten konf etnopone /PRINT NONE
/MATRIX OUT
('C:\WINDOWS\TEMP\spssalsc.tmp')
/MEASURE=EUCLID /STANDARDIZE=NONE /VIEW=VARIABLE .

Ezzel a paranccsal érjük el, hogy a távolságokat a különbözı etnikai


csoportokra valóban külön-külön hozza létre a program. Az ALSCAL
parancs csak annyiban módosult, hogy kiiktatjuk a SPLIT parancsot, il-

10 Egy a 90-es évek második felébıl származó, kelet-közép-európai nemzeti auto- és


heterosztereotípiák természetét kutató, nemzetek közötti összehasonlító vizsgálat
kettıs struktúrára derített fényt. A vizsgálat eredményei alapján az egyik struktúra
a kompetencia köré csoportosul, míg a másik struktúra magja a moralitás (Poppe,
1998).
11 A TBD.KÖNYV_MDS-ETHNIC.SAV file adataival dolgozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 367

letve a MODEL=INDSCAL sorral jelezzük, hogy adattömbbel kell dolgoz-


nia a programnak.
SPLIT FILE OFF.
ALSCAL
/MATRIX= IN('C:\WINDOWS\TEMP\spssalsc.tmp')
/LEVEL=INTERVAL
/CONDITION=MATRIX
/MODEL=INDSCAL
/CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30)
CUTOFF(0) DIMENS(2,2)
/PLOT=DEFAULT ALL
/PRINT=HEADER .

Az így létrejött outputból elıször a STRESS-értéket kell megvizsgálnunk.


(8.10. táblázat)

8.10. táblázat
Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled


data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.

Matrix Stress RSQ Matrix Stress RSQ


1 ,112 ,898 2 ,072 ,951
3 ,157 ,797 4 ,153 ,957

Averaged (rms) over matrices


Stress = ,12850 RSQ = ,90075

A STRESS-érték olyan magas, hogy semmiképpen sem hihetjük, hogy


kétdimenzióban sikerül az etnikai csoportokat valósághően elhelyez-
nünk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

368 Túlélıkészlet az SPSS-hez

8.5. ábra

Scatterplot of Linear Fit


Individual differences (weighted) Euclidean distance model
3,0

2,5

2,0

1,5
Distances

1,0

,5
-,5 0,0 ,5 1,0 1,5 2,0 2,5

Disparities

Az eredeti négydimenziós térben mért távolságok valóban kevéssé fe-


lelnek meg a redukált térben való elhelyezkedésnek. A kétféle távolság
együttes pontfelhıje rosszul közelíthetı egy egyenessel. (8.5. ábra) Ép-
pen errıl árulkodott a magas STRESS-érték.
Csökkentsük igényeinket és próbálkozzunk meg a két országban élı
magyar kisebbség összehasonlításával. Válogassuk le az erdélyi és a fel-
vidéki magyarokat:
USE ALL.
COMPUTE filter_$=(ethnic = 1 | ethnic = 3).
VARIABLE LABEL filter_$ 'ethnic = 1 | ethnic = 3
(FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 369

Próbálkozzunk meg az MDS futtatásával.


SORT CASES BY ethnic.
SPLIT FILE BY ethnic .
PROXIMITIES moral kompeten konf etnopone /PRINT NONE
/MATRIX OUT
('C:\WINDOWS\TEMP\spssalsc.tmp')
/MEASURE=EUCLID /STANDARDIZE=NONE /VIEW=VARIABLE .

A távolság adattömb kiszámítását kérı parancs alakja nem változott, de


a CASE PROCESSING SUMMARY táblából láthatjuk, hogy valóban csak a két
határon túli magyar csoport került a modellbe. (8.11. táblázat)

8.11. táblázat
Case Processing Summarya

Cases
Valid Missing Total
ETHNIC nemzetiség N Percent N Percent N Percent
1 erdélyi magyar 585 100,0% 0 ,0% 585 100,0%
3 szlovákiai magyar 558 100,0% 0 ,0% 558 100,0%
a. Euclidean Distance used

A szorosan vett MDS-parancs éppen olyan, mint az elızı, a magas


STRESS-érték miatt feledésre ítélt modell esetében.
SPLIT FILE OFF.
ALSCAL
/MATRIX= IN('C:\WINDOWS\TEMP\spssalsc.tmp')
/LEVEL=INTERVAL
/CONDITION=MATRIX
/MODEL=INDSCAL
/CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30)
CUTOFF(0) DIMENS(2,2)
/PLOT=DEFAULT ALL
/PRINT=HEADER .

A STRESS-érték szerencsénkre elfogadható. (8.12. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

370 Túlélıkészlet az SPSS-hez

8.12. táblázat
Iteration history for the 2 dimensional solution (in
squared distances)

Young's S-stress formula 1 is used.

Iteration S-stress Improvement

0 ,03652
1 ,03617
2 ,03218 ,00399
3 ,03194 ,00024

Iterations stopped because


S-stress improvement is less than ,001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled


data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.

Matrix Stress RSQ MatrixStress RSQ


1 ,032 ,992 2 ,026 ,994

Averaged (rms) over matrices


Stress = ,02897 RSQ = ,99315

Az alacsony STRESS-érték azt jelenti, hogy a sokdimenziós és a redukált


térbeli távolságok megfelelnek egymásnak. Ezt az illeszkedést szemlél-
teti a 8.6. ábra.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 371

8.6. ábra

Scatterplot of Linear Fit


Individual differences (weighted) Euclidean distance model
3,0

2,5

2,0

1,5
Distances

1,0

,5
,5 1,0 1,5 2,0 2,5 3,0

Disparities

Nézzük, mit láthatunk az új, redukált dimenziókról. A tengelyek koor-


dinátáit és az ıket megjelenítı ábrát együttesen vizsgálva próbáljunk je-
lentést adni az egyes dimenzióknak. (8.13. táblázat és 8.7. ábra)

8.13. táblázat
Stimulus Coordinates

Dimension

Stimulus Stimulus 1 2
Number Name

1 MORAL ,7539 -1,1416


2 KOMPETEN 1,1260 1,5606
3 KONF -1,3854 -,5040
4 ETNOPONE -,4945 ,0851

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

372 Túlélıkészlet az SPSS-hez

8.7. ábra

Derived Stimulus Configuration


Individual differences (weighted) Euclidean distance model
2,0
kompetencia-fölény
1,5

1,0

,5
etnocentrizmus
0,0

konfliktuspotenciál
Dimension 2

-,5

-1,0 morális fölényérzet

-1,5
-1,5 -1,0 -,5 0,0 ,5 1,0 1,5

Dimension 1

Az elsı dimenzió (vízszintes tengely) a többnemzetiségő országok ki-


sebbségi csoportjának a sztereotipizálástól a konfliktuspotenciálig terje-
dı „ellenséges érzületeit” írja le. Ahogy a tengelyen balra – a negatív
irányultságú rész felé – haladunk, úgy találkozhatunk a másik etnikumra
aggatott negatív jelzıkben megnyilvánuló sztereotípiákkal, és a kultúr-
fölényt jelentı etnocentrizmuson át jutunk el a kifejezett veszélyezte-
tettség-érzethez, mely veszélyt természetesen a „másik” (román, illetve
szlovák) etnikum tagjai okozzák. A második dimenzió a negatív hetero-
sztereotípiák két típusát „járja be”, a morálisfölény-tudattól a kom-
petencia-fölény érzetéig haladva.
Ha elfogadjuk a dimenziók ilyetén értelmezését, el is érkeztünk a több-
dimenziós skálázás csúcspontjához, a „térkép” elemzéséhez.
A 8.8. ábrán 1-essel jelölt erdélyi magyarok erıs konfliktus-veszélyt
éreznek és kompetencia-fölényük biztos tudatában tekintenek a velük
együtt élı románokra. A szlovákiai magyarok éppen az átlós pozíció-
ban foglalnak helyet, ıket a morális fölény-tudat jellemzi, amit egy álta-
lános sztereotipizálásra való hajlandóság egészít ki.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Többdimenziós skálázás 373

8.8. ábra
Derived Subject Weights
Individual differences (weighted) Euclidean distance model
,8

1
,7

,6

,5

,4
Dimension 2

,3
2

,2
,6 ,7 ,8 ,9 1,0

Dimension 1

Talán a második példánkból látszik, hogy nagy szerencse vagy kiforrott


elızetes elképzelés szükségeltetik ahhoz, hogy az eredeti, a távolság-
mátrixot definiáló változók úgy alkossák meg az MDS által létrehozott
dimenziókat, hogy a tengelyeknek „jelentést” tudjunk adni.
Ráadásul az SPSS jelenlegi formájában nem képes a létrehozott új di-
menziók megırzésére, ezért mindazok a lehetıségek, amelyek az MDS
és más adatredukciós eljárások közötti összehasonlítások révén adód-
nának, kihasználatlanul kell maradjanak. Az MDS-t mint egy komplex
elemzés kiegészítıjét használhatjuk csak, képszerően is megjelenítve bi-
zonyos csoportok elhelyezkedését.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

9. LOGISZTIKUS REGRESSZIÓ

A binomiális vagy kétváltozós (bináris) logisztikus regressziót akkor


használjuk, ha függı változónk dichotóm, független változóink pedig
folytonos vagy kategoriális változók, esetleg vegyesen ilyet és olyat is
találhatunk közöttük.1 A könyv 5. fejezetében tárgyalt lineáris reg-
resszióanalízisnél elsı megközelítésben egy magas mérési szintő
függı változót magas mérési szintő magyarázó változó(k) segítségé-
vel magyaráztunk. A regresszióelemzés során tulajdonképpen a
Y = B0 + B1 X 1 + B2 X 2 + ... + B k X k egyenletben szereplı paramétereket
próbáltuk a legkisebb négyzetek módszerével becsülni. Mindig hangsú-
lyoztuk, hogy az általunk tárgyalt lineáris regresszióanalízis csak a válto-
zók közötti lineáris kapcsolatok erısségének és irányának vizsgálatára al-
kalmas. Foglalkoztunk azzal is, hogy hogyan építhetünk be a reg-
ressziós modellbe nominális, illetve ordinális változókat. Emlékezzünk
vissza, hogy amikor a foglalkozási kategóriákat megjelenítı öt dummy
változóval dolgoztunk és függı változónk a jövedelem volt, akkor a B0
együttható a modellbıl kihagyott kategória jövedelemátlagát, míg a töb-
bi regressziós együttható az ettıl való eltéréseket jelentette. Akkor rá-
döbbenhettünk, hogy a „dummyzás” valójában egy viszonyítási pont
kijelölését jelenti. Nézzük most meg, hogy mi történik, ha a lineáris reg-
resszióba beemelt változók közül nem a magyarázó változó kétértékő,
hanem a függı változó. Vagyis próbáljunk meg válaszolni arra a kér-
désre, hogy miért is van szükségünk a bináris logisztikus regresszióra.

1 A multinomiális logisztikus regresszió esetében függı változónknak több kategó-


riája van. Mi ezzel nem foglalkozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 375

9.1. A „sztahanovista” lineáris regresszió.


Miért van szükség logisztikus regresszióra?
Amikor a lineáris regressziós modelleknél a nominális változókat dum-
my változóként építettük be a modellbe, nagyvonalúan kijelentettük,
hogy a dummy változók tekinthetık intervallumszintő változóknak.
Egy intervallumszintő változónak pedig joga van arra, hogy egy lineáris
regressziós modell függı változója legyen. Az esetek egy részében
azonban az ilyen modellek szemmel látható anomáliákhoz vezetnek.
Vizsgáljuk meg a nem és a vallásosság kapcsolatát a lehetı legegysze-
rőbb módon, egy kereszttábla segítségével.2 (9.1. táblázat)

9.1. táblázat
NEME2 a kérdezett neme * HIVO01 hívõ-e Crosstabulation

HIVO01 hívõ-e
,00 nem 1,00 igen Total
NEME2 a kérdezett ,00 férfi Count 366 370 736
neme % within NEME2
49,7% 50,3% 100,0%
a kérdezett neme
1,00 nõ Count 333 648 981
% within NEME2
33,9% 66,1% 100,0%
a kérdezett neme
Total Count 699 1018 1717
% within NEME2
40,7% 59,3% 100,0%
a kérdezett neme

A táblázatból látszik, hogy 0,503 annak valószínősége, hogy a férfiak


között egy hívıre bukkanunk. A nık esetében ugyanez a valószínőség
0,661. Tehát a nık esetében 0,158-cal nagyobb a vallásosság valószínő-
sége. Lássuk be, hogy egy olyan lineáris regressziós modellben, ahol a
függı változó (HIVO01) bináris, a regressziós egyenes B0 paramétere,
azaz a konstans értéke éppen azt jelzi, hogy mekkora valószínőséggel
találunk a férfiak között hívıt. A B1 – azaz a nem hatását kifejezı –
regressziós együtthatót pedig úgy értelmezhetjük mint egy valószínő-

2 A TBD.KÖNYV_LOGREG-TANULÓ.SAV file adataival dolgozunk. A file-ban csak


negyvenévesnél idısebb megkérdezettek szerepelnek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

376 Túlélıkészlet az SPSS-hez

ségváltozást, amely akkor következhetne be, ha a férfiaktól a nık felé


mozdulnánk el.3 Nézzük meg, hogy valóban így van-e. (9.2. táblázat)

9.2. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) ,503 ,018 28,101 ,000
NEME2 a kérdezett neme ,158 ,024 ,159 6,669 ,000
a. Dependent Variable: HIVO01 hívõ-e

A konstans érték azt mutatja, hogy a független változó 0 értékéhez


a függıváltozónak mekkora átlagértéke tartozik. A mi esetünkben, lé-
vén a függı változó (0;1) értékő bináris változó, az átlag éppen annak
valószínőségét fejezi ki, hogy a független változó 0 értékéhez tartozók
mekkora valószínőséggel veszik fel a függı változó 1-es értékét, tehát
a konstans valóban azt jelzi, hogy a férfiak között a hívık valószínősége
0,503. A NEME2 változóhoz tartozó B érték pedig azt fejezi ki, hogy
a független változó 0 értékébıl az 1-be elmozdulva mennyivel változik
a függı változó átlagértéke, azaz annak valószínősége, hogy valaki hívı.
A bináris függı változók azonban jégre is vihetnek bennünket. Épít-
sünk fel most egy olyan egyszerő modellt, amelyben a vallásosságot
az életkorral kívánjuk magyarázni. (9.3. táblázat)
Mivel modellünk csak a negyven évesnél idısebbeket tartalmazza,
a konstans egy extrapolált értéket jelent.
Azzal még viszonylag könnyő lenne megbarátkoznunk, hogy a negy-
ven és kilencvenöt év közöttiek vallásosságára illesztett regressziós
egyenes a ma született gyerekek vallásosságát egy negatív valószínőség-

3 Ez ebben a formában természetesen csak akkor igaz, ha mind az eredeti NEME


(NEME2), mind a HIVO2 (HIVO01) változó értékeit 0-ra, illetve 1-re kódoltuk. Em-
lékezzünk vissza a lineáris regresszióelemzéssel foglalkozó fejezetben írottakra, és
vegyük észre, hogy ha nem (0;1) értékőre kódoljuk a változókat, akkor is egy viszo-
nyítási pontot, illetve az attól való elmozdulás mértékét jelzik a regressziós paramé-
terek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 377

9.3. táblázat
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -,127 ,058 -2,191 ,029
KOR 1,223E-02 ,001 ,293 12,687 ,000
a. Dependent Variable: HIVO01 hívõ-e

gel becsli.4 A független változó értelmezési tartományán belül azonban


egynél nagyobb becsült függıváltozó-értékekkel is találkozhatunk, ame-
lyek – valószínőségekrıl lévén szó – elfogadhatatlanok és interpretál-
hatatlanok. A független változó értelmezési tartományához tartozó be-
csült függıváltozó-értékek alapstatisztikáit szemlélteti a 9.4. táblázat.5

9.4. táblázat
Residuals Statisticsa

Std.
Minimum Maximum Mean Deviation N
Predicted Value ,3748 1,0353 ,5929 ,1440 1717
a. Dependent Variable: HIVO01 hívõ-e

Láthatjuk, hogy a becsült valószínőségek között egynél nagyobb érté-


kek is szerepelnek. Amikor a modell elırejelzi a vallásosság valószínő-
ségét, akkor a 9.1. ábra mentén halad.

4 Ezen a problémán egyébként is könnyő segíteni. Ha az életkorskálát negyven évvel


lefelé toljuk, a regressziós egyenes konstans értéke azt fogja mutatni, hogy a negy-
venévesek között mekkora a vallásosság valószínősége.
5 Ehhez úgy jutottunk, hogy a standardizálatlan becsült értékek (UNSTANDARDIZED
PREDICTED VALUES) elmentését kértük a programtól.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

378 Túlélıkészlet az SPSS-hez

9.1. ábra Becsült valószínőségek az életkor mentén


1,2

0,8
becsült valószínőség

0,6

0,4

0,2

0
40 45 50 55 60 65 70 75 80 85 90 95 100

életkor

A regresszió becslése szerint „már” a kilencvenkét évesek között is gya-


korlatilag mindenki vallásos, de az ennél idısebbek között 100 száza-
léknál magasabbra szökik a hívık aránya, ami nyilvánvaló képtelenség.
Úgy tőnik, hogy a kétértékő függı változókat a lineáris regresszió
nem tudja megnyugtató módon kezelni, szükségünk van tehát egy új
technikára, amelyet a logisztikus regresszióban remélünk megtalálni.

9.2. A legfontosabb fogalmak

A logisztikus regresszió – mint látni fogjuk – nem csak a kétértékő füg-


gı változók „kezelésére” alkalmas, hanem megoldja azt a nehezen ke-
zelhetı problémát, hogy a függı változó viselkedését úgy magyarázza,
hogy nem kívánja a független változók értelmes struktúrába szervezı-
dését, tehát a diszkriminancia-analízisnél szélesebb körben alkalmazha-
tó. További elınye, hogy nem kívánja meg a homoszkedaszticitás telje-
sülését, és nem törıdik a modell változóinak eloszlásával sem. Ennek
a sok elınyös tulajdonságnak azonban az árát is meg kell fizetni. A lo-
gisztikus regresszió megértéséhez elıször néhány – eddig még nem
használt – fogalmat kell tisztáznunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 379

9.2.1. A valószínőség és az esély

A valószínőség (p) annak esélye, hogy valami bekövetkezik. Ha egy mintá-


ban 370 hívı és 366 nem hívı – tehát összesen 736 – férfi van, akkor
annak valószínősége, hogy e férfiak között egy hívıre bukkanunk:
370
p( H FFI ) = = 0,503
736
És hasonlóképpen annak valószínősége, hogy egy ateistával találko-
zunk:
p( NH FFI ) = 1 − p( H FFI ) = 0,497 .
Az esély (E) egy olyan mérıszám, amelyet két komplementer valószínő-
ség hányadosaként definiálunk. Tehát a hívı férfi esélye:
0,503
E ( H FFI ) = = 1,012
0,497
Hasonlóképpen rendelhetünk esélyt a mintában szereplı nıkhöz. Ha
teljes létszámuk 982 fı, és közülük 649 hívı, 333 pedig ateista, akkor
annak esélye, hogy egy hívı nıt találunk:
0,661
E ( H Nİ ) = = 1,950
0,339

9.2.2. Az esélyhányados

Az esélyhányados két esély hányadosa, és ennyiben két változó közötti


kapcsolat egy összefoglaló mérıszáma. Az esélyhányados mindig egy
viszonyt fejez ki, valaminek egy más valamihez viszonyított esélyét.
Eképpen a nık esélyhányadosa a férfiakhoz képest azt jelenti, hogy
a nık esélye áll a számlálóban, míg a férfiak esélye a nevezıben, az esély-
hányados pedig annak a nehezen elképzelhetı eseménynek az „eredmé-
nyét” írja le, hogyha a férfiak valamilyen csoda folytán nıvé változná-
nak, mennyire nıne meg a vallásosság6 esélye a „nıvé lett férfiak” ese-
tében. A nık vallásosságra vonatkozó esélye a férfiakhoz képest, vagyis
a nık esélyhányadosa a férfiakhoz képest:

6 A hívı és a vallásos kifejezést itt és most szinonimaként használjuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

380 Túlélıkészlet az SPSS-hez

1,950
= 1,93
1,012
A férfiak esélyhányadosa a nıkhöz képest pedig:
1,012
= 0,52
1,950
Tehát ha az esélyhányadosok segítségével szeretnénk a nem és a vallá-
sosság kapcsolatát szemléltetni, akkor a most megismert új fogalmakat
felhasználva sommásan a következıket mondhatnánk: ha a férfiak nık-
ké változnának, a templombajárók aránya közel kétszeresére nıne. Ha
viszont a nıkbıl hirtelen férfiak lennének, a templomok elnéptelened-
nének.7

9.3. Út a logisztikus regresszióanalízis felé

Próbáljuk meg megbecsülni annak valószínőségét, hogy egy megkérde-


zett az egyik és nem a másik kategóriába esik, tehát modellezzük a kö-
vetkezıt:
P (Y = 1) = B0 + B1 X 1 + … + Bk X k
Jól tudjuk azonban, hogy bár a becsült értékeknek – valószínőségek lé-
vén – 0 és 1 közé kell esniük, ez mégsem lesz feltétlenül így, gondol-
junk az életkor és a vallásosság kapcsolatát szemléltetı modellre,
amelyben a becsült valószínőségek a független változó értelmezési tar-
tományán belül 1 fölé szaladtak. A probléma megoldása felé tett elsı
lépésünk az lesz, hogy a P(Y=1) valószínőség helyett az elsı kategóriá-
ba tartozás esélyével számolunk majd, tehát most már:
P (Y = 1)
= B0 + B1 X 1 + … + Bk X k
1 − P (Y = 1)
segítségével becslünk.8

7 Vegyük észre, hogy a két esélyhányados egymás reciproka, tehát az 1,93 és a 0,52-
es esélyhányados ugyanolyan erısségő, de „ellentétes irányú” kapcsolatot jelez
a nem és a vallásosság között.
8 Természetesen a „jó” megoldást szolgáló Bi értékek különböznek az elızı egyen-
letben szereplıktıl, csak az egyszerőség kedvéért nem vezetünk be újabb és újabb
jelöléseket.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 381

A korábban elmondottakból már tudjuk, hogy az esélyeknek nincsen


maximumuk, de a valószínőségekhez hasonlóan a minimumuk 0. Még
egy transzformációra lesz szükségünk, hogy egy olyan függı változót
állítsunk elı, amelynek megszüntetjük az alsó korlátját és így értékei mí-
nusz végtelentıl plusz végtelenig terjedhetnek. A függvény-transzformá-
ciókban jártas olvasó már sejtheti is a megoldást: vegyük az esély logarit-
musát, vagyis a logit-et. Tehát egyenletünk a következıképpen módosul:9
 P (Y = 1) 
ln  = B0 + B1 X 1 + … + B k X k
 1 − P (Y = 1) 
Bár a regressziós egyenletünk az esélyek logaritmusára vonatkozik, ben-
nünket nem azok a regressziós együtthatók fognak érdekelni, amelyek
az esély logaritmusát becslik, hanem azok, amelyek elsı lépésben a való-
ságos esélyt, aztán pedig az Y esemény bekövetkeztének valószínőségét
jelzik elıre. Essünk túl az ezzel járó kényelmetlenségeken, és nézzük
meg, milyen módon használhatjuk a logit meghatározására szolgáló
egyenlet regressziós együtthatóit az esély és a valószínőség becslésére:
 P (Y = 1) 
ha ln  = B0 + B1 X 1 + … + B k X k ,
 1 − P (Y = 1) 
P( Y = 1 )
akkor = e B0 + B1 X 1 +…+ Bk X k ,
1 − P( Y = 1 )
tehát elıállt az esély becslése a regressziós együtthatók segítségével. In-
nen kissé körülményesen ugyan, de sikerül eljutnunk a valószínőség
becsléséhez. Az egyszerőség kedvéért legyen P( Y = 1 ) = a . Lássuk be,
hogy a felírható a következıképpen:
a
a= 1 − a ,
a
1+
1− a
hiszen közös nevezıre hozva:
a
1− a = a = a .
1− a + a 1
1− a

9 A Bi értékekkel kapcsolatban lásd az elızı lábjegyzetben írottakat.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

382 Túlélıkészlet az SPSS-hez

Visszatérve a P( Y = 1 ) alakra:
P( Y = 1 )
1 − P( Y = 1 )
P( Y = 1 ) = .
P( Y = 1 )
1+
1 − P( Y = 1 )
A
P( Y = 1 )
1 − P( Y = 1 )
pedig nem más, mint az az esély, amelyet már sikerült a regressziós
együtthatókkal kifejeznünk. Tehát:
e B0 + B1 X1 +…+ Bk X k
P( Y = 1 ) =
1 + e B0 + B1 X1 +…+ Bk X k
Minden eddigi fáradozásunk azért történt, hogy úgy transzformáljuk a füg-
gı változót, hogy ezzel biztosítsuk, hogy „tetszılegesen” alacsony vagy
magas értéket is felvehessen. Ezért lett a modell függı változója az
esély logaritmusa, a logit, de azt is megmutattuk, hogy van út visszafelé
is, azaz a modell regressziós bétái segítségével az eredeti esélyt, illetve
a hagyományos értelemben vett valószínőséget is meg tudjuk becsülni.
Anélkül, hogy képesek lennénk a logisztikus regresszió futtatására,
nézzük meg, hogy az eljárás által kiszámított paraméterek hogyan köt-
hetık az eddig elmondottakhoz. Újra a vallásosság és a nem már ismert
kapcsolatát fogjuk modellezni. Mielıtt a logisztikus regresszió output-
részletét szemügyre vennénk, emlékezzünk vissza, hogy a nık esélyhá-
nyadosa a férfiakhoz képest 1,93 volt. Nézzük meg, hol lelhetı fel ez
az érték az outputban.10 (9.5. táblázat)

10 A 9-es SPSS-ben sem alakították át a logisztikus regresszió régi outputját, ezért ta-
lálkozunk ilyen kezdetleges formátumú táblázatokkal.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 383

9.5. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

NEME ,6548 ,0999 42,9567 1 ,0000 ,1328 1,9247


Constant -,6439 ,1621 15,7741 1 ,0001

Kedves ismerısként üdvözölhetjük a nemhez tartozó B értékeket11, ıket


kell szerepeltetnünk az Euler-féle szám (e) kitevıjében, ha a P( Y = 1 )
valószínőséget szeretnénk becsülni. Az igazán lelkesítı felismerés az
EXP(B) oszlopban található: az 1,9247-es érték a nık esélyhányadosa
a férfiakhoz képest.
Már ez a kis „elıleg” is nyilvánvalóvá teszi, hogy nem lesz könnyő
dolgunk, amikor a logisztikus regressziós modellt értelmezni kívánjuk.
Ráadásul mielıtt tovább ismerkednénk az output eddig még nem látott
részleteivel, újabb megfontolásokra is szükségünk van. A függı változó
értelmezési tartományának „kinyitásával” elvesztettük azt a lehetıséget,
hogy a regressziós együtthatókat a lineáris regresszióelemzésnél már jól
bevált legkisebb négyzetek módszerével becsüljük. A logisztikus reg-
resszió maximum likelihood becslést12 alkalmaz, vagyis egy függvény,
ebben az esetben a log-likelihood függvény értékét maximalizálja. A do-
log logikájának megértését egy kissé megkönnyíti, ha belátjuk, hogy
a maximum likelihood becslés, amikor a likelihood függvény vagy
a log-likelihood függvény értékének maximumát keresi, akkor arra
törekszik, hogy egy minél jobban illeszkedı modellt hozzon létre. A li-
neáris regresszió esetében az volt a cél, hogy a függı változó becsült

11 Egyikük, a B0 CONSTANT álnéven rejtızködik.


12 Általánosságban a maximum likelihood becslés arra alkalmas, hogy ha ismerjük
a sokaság eloszlását, de nem ismerjük az eloszlást jellemzı paramétert (vagy para-
métereket), akkor a paraméter(ek) értékét olyan érték(ek)kel becsüljük, amely(ek)
esetén az adott minta létrejötte a legnagyobb valószínőségő. A maximális valószí-
nőséget az adott minta valószínőségét megadó likelihood-függvény maximumával
vagy logaritmusának a maximumával keressük meg. A logisztikus regresszió a ma-
ximum likelihood becsléssel olyan B értékeket keres, amelyek garantálják a modell
lehetı legjobb illeszkedését.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

384 Túlélıkészlet az SPSS-hez

értékei minél közelebb legyenek a tényleges értékekhez. A maximum


likelihood becslésnek az a célja, hogy minél nagyobb valószínőséggel
eltalálja a becsülni kívánt értéket. A logisztikus regressziónak tehát egy
igen bonyolult feladatot kell megoldania: olyan regressziós B értékeket
kell megtalálnia, amelyek mellett a likelihood függvény értéke a lehetı
legnagyobb lesz. Ez nem sikerül egy lépésben, hanem a program addig
változtatgatja a B értékeket, amíg érdemi növekedést képes elérni a likeli-
hood függvényen. A lineáris regresszióban használt legkisebb négyzetek
módszerétıl eltérıen, amely képes közvetlenül meghatározni a para-
méterek értékeit, a logisztikus regresszióban tehát a paramétereket egy
iterációs folyamat során találja meg a program.

9.4. Egy egyszerő modell

Nézzük meg, hogy milyen SPSS parancssor segítségével építhetjük fel


azt a modellt, amelyben a nem és a vallásosság (hívı-e) kapcsolatát vizs-
gáljuk.
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER neme
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

A logisztikus regresszióval való ismerkedésünk óta, az elsı meg-


könnyebbülést jelentı pillanatot jelenti, ha a parancssorra nézünk, hi-
szen az rendkívül rövid és egyszerő. Az elsı sorban a magyarázni kí-
vánt változót nevezzük meg, a második sorban választunk módszert,
ami a lineáris regresszióhoz hasonlóan vagy valamennyi független vál-
tozót egyszerre építi be a modellbe (ENTER), vagy változószelektálással
él (FORWARD, BACKWARD)13. A változószelektálást alkalmazó módsze-
reknek köszönhetjük, hogy a /CRITERIA sorban automatikusan megje-
lenik a modellbe való belépés (PIN), és az abból való kikerülés (POUT)

13 A logisztikus regresszióban e két módszer „gazdagabb”, mint a lineáris regresszió


esetében. A logisztikus regresszió változó szelektálási módszerei a legyengült, már
bevont változókat kidobja, azaz tartalmazza a STEPWISE technika elınyeit is. Mi
csak az ENTER módszerrel foglalkozunk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 385

kritériuma.14 Itt adja meg a program a maximális iterációk számát, ame-


lyek során eljut a legjobb illeszkedéshez. A CUT(.5) kritérium jelentését
egyelıre homályban hagyjuk.
Az output elsı érdemi darabja (9.6. táblázat) arról tájékoztat minket,
hogy az SPSS a függı változó eredetileg 1 és 2 értékét 0-ra, illetve 1-re
kódolta.

9.6. táblázat
Dependent Variable Encoding:

Original Internal
Value Value
1,00 0
2,00 1

A következı output-részlet egy teljesen ismeretlen mennyiség kiszámo-


lását hozza tudomásunkra. (9.7. táblázat)

9.7. táblázat
Beginning Block Number 0. Initial Log Likelihood
Function

-2 Log Likelihood 2320,6549

A 9.7. táblázatból megtudhatjuk, hogy egy kiinduló állapotban vagyunk


(BEGINNING BLOCK NUMBER 0), azaz még egyetlen független változó
sem lépett be a modellbe. Ehhez a kezdeti (INITIAL) állapothoz a prog-
ram hozzárendeli a log-likelihood függvény értékét, pontosabban annak
mínusz kétszeresét. Erre a mínusz 2-vel való szorzásra azért van szük-
ség, mert így a transzformált függvény közelítıleg khí-négyzet eloszlású

14 Azt érdemes elırebocsátanunk, hogy egy független változó akkor lép be a modell-
be, ha hatékonyan javítja az illeszkedést, és akkor kerül kidobásra, ha távozása nem
jár érdemi illeszkedésromlással. Azt azonban, hogy miféle statisztikával teszteljük,
hogy a modell illeszkedésének javulása, illetve romlása szignifikáns-e egy adott
változó be-, illetve kilépése esetén, nem tárgyaljuk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

386 Túlélıkészlet az SPSS-hez

lesz, és így alkalmas arra, hogy a független változók belépésével történt


változásokról eldönthessük, szignifikánsak-e. Mivel az eredeti log-
likelihood függvény (LL) csak nem pozitív értéket vehet fel15, a log-
likelihood függvény mínusz kétszerese (–2LL) csupa nem negatív
értékbıl áll. Minél nagyobb a –2LL értéke, annál rosszabb hatékonysá-
gú a függı változó elırejelzése. A logisztikus regresszió indulásakor
még nincsenek magyarázó változóink, a program tehát a –2LL értéké-
vel tulajdonképpen azt a „hibát” tünteti fel, ami a csak a konstanst ma-
gába foglaló modellre vonatkozik. Kiindulásként a program olyan mo-
dellt alkotott, amely azzal a nullhipotézissel él, hogy valamennyi B reg-
ressziós együtthatónk 0-val egyenlı.

9.4.1. A likelihood függvényrıl

A kiinduló modellhez tartozó –2LL (D0) értéke a következıképpen


számítható ki:
D0 = −2{( nY =1 ) ln[P( Y = 1 )] + ( nY =0 ) ln[P( Y = 0 )]},
hiszen az esemény bekövetkezésének gyakoriságát (nY=1) a hozzátartozó
valószínőség logaritmusával kell szorozunk, és ehhez kell hozzáadnunk
az esemény be nem következésének gyakoriságát (nY=0) szorozva e be
nem következés valószínőségének logaritmusával. Próbáljuk megérteni
e szokatlan összeg kialakulásának történetét.
Tegyük fel, hogy van egy n elemő mintánk, ebbıl k a hívık, (n–k)
pedig az ateisták csoportjába tartozik. Ha erre az eloszlásra felírunk egy
likelihood függvényt, akkor segítségével azt tudhatjuk meg, hogy külön-
bözı paraméterek esetén mennyire valószínő, hogy egy mintavétel esetén
az adott n elemő mintát kapjuk. A vallásosság változó – lévén kétértékő –
binomiális eloszlást követ. A maximum likelihood becslésnek az a fel-
adata, hogy megkeresse ennek a binomiális eloszlásnak azon paraméte-
reit, amelyek mellett a példaként felírt minta a legnagyobb valószínő-
séggel áll elı. A binomiális eloszlásban két paraméterrel találkozhatunk,
a mintanagysággal (n) és az adott esemény bekövetkezésének valószínő-

15 Hiszen minden egynél kisebb szám (likelihood) logaritmusa negatív.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 387

ségével [P(Y=1)]. Emlékezetünkbe idézve elemi valószínőségszámítási


ismereteinket és meggondolva azt, hogy számunkra minden olyan min-
ta jó, amelyben k darab 1-es és (n–k) darab 0 van, annak valószínő-
sége16, hogy egy ilyen „szerkezető” mintához jussunk:
k n −k
n  k   ( n − k 
  ⋅   ⋅  
k   n   n 
Sokszor, és ebben az esetben is, egyszerőbb e függvény logaritmusának,
azaz a log-likelihood függvénynek keresni a maximumát. Mivel a logarit-
mikus transzformáció monoton transzformáció, biztosak lehetünk ab-
ban, hogy a logaritmus függvény maximuma éppen ott lesz, ahol az ere-
deti likelihood függvényé. Vegyük tehát az elıbbi kifejezés logaritmusát:
n k  (n − k 
ln  + k ⋅ ln  + ( n − k ) ⋅ ln 
k  n  n 
Vegyük észre, hogy a  k  nem más, mint a vallásosság valószínősége,
n
és jelöljük is az egyszerőség kedvéért P-vel, az  n − k  pedig a nem val-
 n 
lásosság valószínősége, amelyet ( 1 − P ) -vel jelölünk. Tehát a függvé-
nyünk ebben az alakban írható fel:
n
ln  + k ⋅ ln P + ( n − k ) ⋅ ln( 1 − P )
k
E függvény szélsıértéke ott van, ahol a P szerinti derivált nulla. A deri-
 n
vált függvény pedig, mivel az   konstans:
k 
1 1
k⋅ −( n − k )⋅
P (1 − P )
Ha az egyenletet nullával tesszük egyenlıvé és megoldjuk, akkor:
1 1
k⋅ =( n − k )⋅ , tehát
P 1− P
k
p=
n

16 Természetesen e valószínőség kiszámításakor nem vagyunk tekintettel az elemek


sorrendjére.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

388 Túlélıkészlet az SPSS-hez

Annak eldöntésére, hogy ez a szélsıérték minimum vagy maximum,


szükségünk van a második deriváltra, amely:
k n−k
− −
P 2
( 1 − P )2
alakú. Mivel ez a függvény a teljes értelmezési tartományban csak nega-
k
tív értéket vehet fel, tehát a biztosan maximumhely.
n
Gondolatmenetünk fenti elágazásával az volt a célunk, hogy meg-
mutassuk, hogyan mőködik a maximum likelihood becslés. Most már
talán világos számunkra, hogy a logisztikus regresszió indulóhelyzeté-
ben hogyan írhatjuk a log-likelihood függvényt, illetve annak mínusz
kétszeresét.
A mi konkrét modellünkben a –2LL = D0 értéke:
D0 = −2{( nY =1 ) ln [P (Y = 1) ] + ( nY = 0 ) ln [P (Y = 0) ]} =
= − 2{1018 * [− 0,52274 ] + 699 * [− 0,89868 ]} = 2320 ,6549

Számításunkat az SPSS is megerısíti. (9.8. táblázat)

9.8. táblázat
Beginning Block Number 0. Initial Log Likelihood
Function

-2 Log Likelihood 2320,6549

Ha ezt a sok áttételen keresztül „kinyert” mutatót valamilyen, már jól


ismert fogalomhoz szeretnénk kötni, akkor gondolhatunk erre a D0-ra
úgy, mint a lineáris regresszióban szereplı teljes varianciára, vagy az
ANOVA teljes négyzetösszegére. Az analógia azért is fontos, mert ké-
sıbb, amikor független változókat is bevonunk a modellbe, ehhez a D0-
hoz fogjuk viszonyítani az újabb modellek megfelelı D értékeit, és
majd ezen összehasonlítások alapján vonhatunk le következtetéseket
a modell illeszkedésérıl.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 389

9.4.2. Az output érdemi része

Továbbhaladva az outputban láthatjuk, hogy az ENTER módszerrel dol-


gozunk és azt is, hogy az elsı lépésben mely változó lépett be a modell-
be. Nagy meglepetés nem érhet bennünket, hiszen egyetlen független
változónk van. (9.9. táblázat)
9.9. táblázat
Beginning Block Number 1. Method: Enter
Variable(s) Entered on Step Number
1.. NEME 1. a kérdezett neme

Ahogy már említettük, a logisztikus regresszió egy iterációs folyamat so-


rán találja meg a modell paramétereit. Az SPSS itt hozza tudomásunkra,
hogy a legjobb paraméter-szett megtalálásához két iterációra volt szük-
sége. A program azért nem iterált tovább, mert a log-likelihood függvény
értéke már kevesebb, mint 0,01 százalékkal csökkent. (9.10. táblázat)
9.10. táblázat
Estimation terminated at iteration number 2 because
Log Likelihood decreased by less than ,01 percent.

A 9.11. táblázatban található –2LL érték már arra a modellre vonat-


kozik, amelyben az adott lépésben bevont – és fent megnevezett – füg-
getlen változó is szerepel. Ez tulajdonképpen az a rész, amely a függet-
len változó bevonása után is megmagyarázatlan marad. A lineáris reg-
resszióban valami ilyesmit neveztünk a reziduális varianciájának, az
ANOVA-ban pedig ez volt a belsı négyzetösszeg. A logisztikus reg-
resszióban ezt a megmagyarázatlanul maradt részt „DEVIATION CHI-
SQUARE”-nek szokták nevezni és DM-mel jelölik.

9.11. táblázat
-2 Log Likelihood 2277,285
Goodness of Fit 1716,973
Cox & Snell - R^2 ,025
Nagelkerke - R^2 ,034

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

390 Túlélıkészlet az SPSS-hez

A 0-dik lépésben a –2LL=D0 értéke 2320,6549 volt, annak hatására,


hogy a nemet bevontuk a modellbe ez a DM érték 2277,285-re csökkent.
A csökkenés mértékét (GM) a modell-khí-négyzet jelzi, szerencsénkre
a hozzá tartozó szignifikanciával együtt. (9.12. táblázat)

9.12. táblázat
Chi-Square df Significance

Model 43,370 1 ,0000


Block 43,370 1 ,0000
Step 43,370 1 ,0000

Azt, hogy a modellünk szignifikáns-e, egy khí-négyzet próbával tesz-


teljük (ez a lineáris regresszió F-tesztjével analóg).17 Itt valójában azt
a nullhipotézist teszteljük, hogy egyetlen – a modellben szereplı – füg-
getlen változó sincs kapcsolatban a függı változó log-esélyével. Más-
képpen fogalmazva, az a nullhipotézis vár verifikálásra vagy falszifiká-
lásra, hogy a populációban a konstanst kivéve minden regressziós
együttható nulla. A khí-négyzethez tartozó szignifikanciát a szabadság-
fok figyelembevételével határozza meg a program. A szabadságfok nem
más, mint a modellben lévı paraméterek száma mínusz egy.18 Láthat-
juk, hogy a khí-négyzet próba szignifikanciája 0,0000, tehát a model-
lünk szignifikáns.19

17 Természetesen, ha több független változónk van, akkor a modell szignifikáns volta


nem jelenti azt, hogy ehhez minden, a modellbe bevont független változó szignifi-
káns mértékben hozzájárult.
18 A szabadságfok a null-modell és az adott modell paraméterszámának különbsége,
mivel azonban a null-modell csak a konstanst tartalmazza, egy, már független vál-
tozó(ka)t is tartalmazó modell esetében a független változók számával kell szá-
molni.
19 Az SPSS a „GOODNESS OF FIT” Hosmer és Lemeshow illeszkedési mutatót is ki-
számolja, ami a „modell khí-négyzet” egy alternatívája, de már a újabb 10-es és
magasabb SPSS-ekben nem szerepeltetik jelentésének zavarossága miatt. Ez az il-
leszkedésmutató közvetlenül a –2LL érték alatt jelenik meg az outputban.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 391

9.4.3. A modell magyarázóereje

Amikor a lineáris regressziós modell magyarázóerejérıl elmélkedtünk,


segítségünkre volt az R2, pontosabban annak egy korrigált (adjusted)
alakja, amely megmutatta, hogy a független változók a függı változó
varianciájának hány százalékát képesek megmagyarázni. A logisztikus
regresszió esetében ilyen világos tartalmú és szabályosan viselkedı mu-
tatószámra ne is számítsunk. Ne számítsunk, mert a bináris függı vál-
tozó varianciája függ magának a változónak az eloszlásától20, tehát a lo-
gisztikus regresszió R2 mutatója szükségképpen attól is függ, hogy
egyenletes vagy ferde eloszlást mutat-e a függı változó.
Az SPSS két R2 mutatót határoz meg : az egyik a COX-SNELL-féle, a má-
sik a NAGELKERKE-féle R2. A COX-SNELL mutató a nulladik és az ak-
tuális modell likelihoodjait hasonlítja össze úgy, hogy a mutató értéke
garantáltan nulla és egy közé essen. Ezzel a mutatóval az a probléma,
hogy maximális értéke nem éri el az egyet, ezért a pontos értelmezése
lehetetlen. Ennek ellenére, ha valaki ezt a mutatót kívánja használni, ér-
demes egy rosszul diszkutálható21 asszociációs mérıszámmal analóg
módon kezelnie. A nagyobb R2-k jobb illeszkedést sejtetnek, a kisebbek
rosszabbat. A másik R2 mutató NAGELKERKE nevéhez kötıdik. Ez az
újabb mutató a lehetı legjobb illeszkedés esetében felveszi az 1 értéket,
s ezt azzal éri el, hogy a COX-SNELL-féle R2 értékét osztja a mutató
adott modellhez tartozó lehetséges maximumával.
Az SPSS által kínált két mutató helyett talán célszerőbb egy olyannal
dolgozni, amely nem része ugyan az outputnak, de kiszámítása nem túl
bonyolult, és interpretálása azért egyszerő, mert a már jól ismert meg-
magyarázott és összes heterogenitás viszonyára épül. Ha fenntartjuk
a GM és a D0 analógiáját a lineáris regresszió megmagyarázott és teljes
varianciájával, akkor adekvát mérıszám lehet a GM/D0 hányados,
amelyet R L2 -nek neveznek.

20 Ha egy bináris változó két kategóriája között 50–50 százalékos megoszlást tapasz-
talunk, akkor maximális heterogenitású a változó. Az ennél egyenlıtlenebb, azaz
ferde eloszlású változó szórása kisebb.
21 Egy asszociációs mérıszámot akkor nevezhetünk jól diszkutálhatónak, ha igaz rá,
hogy kétszer nagyobb értéke kétszer olyan erıs kapcsolatot jelez.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

392 Túlélıkészlet az SPSS-hez

A mi konkrét modellünkben ezen R L2 mutató értéke:


2320,655 − 2277 ,285
= 0 ,019
2320,655
A R L2 statisztika tehát azt fejezi ki, hogy a független változók bevonása
a modellbe milyen mértékben csökkenti a D0-t. A statisztika értéke 0 és
1 között mozog, ahol a 0 azt jelenti, hogy a modellbe bevont független
változók egyáltalán nem járulnak hozzá a függı változó értékének becs-
léséhez. Az R L2 -nek – amely általában alulbecsli az összefüggés erıssé-
gét – létezik egy korrigált formája is, a korrekció azonban nem az alul-
2
becslést korrigálja. Az újabb mutató, az R LA arra ügyel, hogy ha nagyon
sok független változót építünk be a modellbe és ezzel – az esetek nagy
részében – jól feltornázzuk az R2 értékét, legyen egy korrekciós ténye-
zı, amely fékezi a magyarázóerı minden eszközzel való növelésére irá-
nyuló törekvéseinket. A mutató képlete a következı:
G M − 2k
2
R LA = ,
D0
ahol k a modellben szereplı független változók száma. Láthatjuk, hogy
a magyarázat-növekménybıl adóznunk kell: minél több változó bevo-
násával értük el a növekményt annál inkább csökkentenünk kell a mu-
tató számlálóját. Ez a statisztika szintén nem része az SPSS outputnak.
2
Az R LA értéke a mi példánkban: 0,018.
Van még egy, a modell illeszkedését jelzı mutató, az OLS R2, amely-
nek ismertetésével talán sikerül újra átgondolnunk a logisztikus reg-
resszió mőködési logikáját. A mérıszám kiszámításának algoritmusa
a következı: a logisztikus regressziós futásban mentsük el a becsült ér-
tékeket. Ezek a függı változó adott kategóriájának becsült bekövetke-
zési valószínőségei a független változó(k) adott értéke(i) mellett.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 393

LOGISTIC REGRESSION VAR=hivo2


/METHOD=ENTER neme
/SAVE PRED
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

A SAVE parancs hatására egy új változót főzött hozzá az adatfile-hoz


a program. (9.13. táblázat)

9.13. táblázat
1 new variables have been created.
Name Contents

PRE_1 Predicted Value

Ez az új változó azokat a vallásosságra vonatkozó valószínőségeket tar-


talmazza, amelyeket a logisztikus regresszió becsült a nem ismeretében.
Nézzük meg, hogy milyen megfontolásokra van szükségünk a lineáris
regresszió futtatásához. Jól tudjuk, hogy a lineáris regresszió R2 sta-
tisztikája azt mutatja, hogy a függı változó szóródásának hány százalé-
kát tudjuk megmagyarázni a regresszió által becsült értékek segítsé-
gével. Gondoljuk meg, hogy két változó esetén az R2 statisztika szim-
metrikus, vagyis a függı és független változó felcserélése esetén az R2
statisztika értéke nem változik. Alkossunk egy olyan lineáris regressziós
modellt, amelyben a logisztikus regresszióból származó becsült értékek
(valószínőségek) változója legyen a függı változó és az eredeti mért
kétértékő változó (HIVO2) pedig a független. Az így kapott R2 statisz-
tikát használhatjuk a logisztikus regresszióban a modell magyarázóere-
jének mérésére.22 (9.14. táblázat)

22 A szemfüles olvasó talán arra is rájött már, hogy ebben az esetben nyugodtan
használhatunk ANOVA-t is, hiszen itt eta2 = R2.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

394 Túlélıkészlet az SPSS-hez

9.14. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,159a ,025 ,025 7,72E-02
a. Predictors: (Constant), HIVO2 hivõ-e

Ezzel a végére is értünk azon R2 alapú mutatószámok ismertetésének,


amelyeket kisebb-nagyobb kompromisszumkészséggel egy logisztikus
modell illeszkedésének megítélésére használhatunk. Azonban a függı
változó kategoriális változó lévén, a modell illeszkedését másféle szem-
pontból is vizsgálhatjuk.

9.4.3.1. Találatmátrix a logisztikus regresszióban

A találatmátrix-szal már a diszkriminancia-analízisnél is találkoztunk. A lo-


gisztikus regresszió esetében a modell által elvégzett besorolás és a tény-
leges hovatartozás összevetése azért fontos, mert ennek segítségével
érthetjük meg, hogy annak ellenére, hogy a becsült valószínőségek
pontosan megegyeznek az adott kategóriába tartozás (Y=1) csoporton-
kénti arányával, az egyes konkrét esetek besorolása mégis sok tévedési
lehetıséget rejt magában. Elıször nézzük meg a modell által becsült
valószínőségek eloszlását. (9.15. táblázat)

9.15. táblázat
PRE_1 Predicted Value

Valid Cumulativ
Frequency Percent Percent e Percent
Valid ,50272 736 42,9 42,9 42,9
,66053 981 57,1 57,1 100,0
Total 1717 100,0 100,0

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 395

A logisztikus regresszió a férfiak esetében 0,503-ra, a nık esetében


0,661-re becsli a vallásosság valószínőségét.23 Ezek a valószínőségek te-
hát abban az értelemben becslések, hogy egy konkrét megkérdezettünk
vagy vallásos, vagy nem, azaz a hívı változó kódértéke vagy nulla vagy
egy.24 A program ezeket az értékeket valószínőségként kezeli: azt
mondja, hogy ha valaki 0 értékkel bír a HIVO2 változón, akkor az 0
valószínőséggel vallásos, ha pedig 1-es kódértéke van, akkor 1 való-
színőséggel vallásos. A modell viszont minden férfihez egy adott, és
minden nıhöz egy másik adott valószínőséget rendel. Ezen valószínő-
ségek és a tényleges vallásosságot jelzı (0;1) értékek közötti különb-
ségek adják a modell reziduálisait. Ennek köszönhetjük azt is, hogy az
egyes megkérdezetthez hozzárendelt becsült valószínőség alapján törté-
nı besorolás eltér a „valóságos” helyzettıl. Nézzük meg mennyire!

9.16. táblázat
Classification Table for HIVO2
The Cut Value is ,50
Predicted
nem igen Percent Correct
n │ i
Observed ┼──────┼───────┼
nem n │ 0 │ 699 │ ,00%
┼──────┼───────┼
igen i │ 0 │ 1018 │ 100,00%
┼──────┼───────┼
Overall 59,29%

A találatmátrix (9.16. táblázat) azt mutatja, hogy a program a becsült


valószínőségek alapján senkit sem sorolt az ateisták közé. Mivel a fér-
fiak esetében is nagyobb volt a vallásosság valószínősége 0,5-nél, nemre

23 A mintánkban a férfiakon belül 50,3, a nıkön belül pedig 66,1 a vallásosak aránya.
e B0 + B1 X 1
Ezeket a valószínőségeket a már ismert P( Y = 1 ) = képlet alapján szá-
1 + e B0 + B1 X1
molja ki a program.
24 Emlékezzünk rá, hogy a logisztikus regresszió azzal kezdte ténykedését, hogy a
HIVO2 változó 1-es értékét 0-ra, a 2-est pedig 1-re kódolta át.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

396 Túlélıkészlet az SPSS-hez

való tekintet nélkül mindenki a vallásosak kategóriájába került. Itt ért-


hetjük meg a /CRITERIA parancssor CUT(.5) részét. Ez az érték adja
meg azt a határvonalat, amelynél nagyobb becsült valószínőségnél az
adott eset az (Y=1) dobozba sorolódik, míg az ezzel egyenlı, illetve en-
nél kisebb becsült valószínőséggel jellemzett esetek az (Y=0) kategó-
riába kerülnek. Ha ezt a választóvonalat az alapbeállításon hagyjuk
(0,5), akkor ezzel arra ösztönözzük az eljárást, hogy a módusszal be-
csüljön, amikor kategóriába sorol, ez pedig kétértékő változók esetén
a lehetı legjobb becslés. Ebben az értelemben tehát a találatmátrix nem
hordoz plusz információt, ha mindössze egy bináris független változó
van a modellben. A találatmátrix használhatóságát késıbb, egy bonyo-
lultabb modellben fogjuk bemutatni.

9.4.4. A független változó hatása

Akármelyik mutatót is választottuk a modell magyarázóerejének méré-


sére, mindegyikbıl úgy tőnt, hogy a modell – bár szignifikáns magyará-
zatot produkál – magyarázóereje gyenge. A nem és a vallásosság kapcso-
latát vizsgáló egyszerő modellünkben biztosak lehetünk abban, hogy
a kis magyarázóerı csak és kizárólag annak köszönhetı, hogy egyetlen
független változónk nem hat valami erısen a függı változóra. Aligha
okozunk meglepetést, ha eláruljuk, hogy a logisztikus regresszióban ne-
héz lesz eljutni odáig, hogy egy változó hatáserısségének mérésére
szolgáló statisztika jelentését megértsük. A logisztikus regresszió out-
putjában is találhatunk egy a lineáris regresszió t-tesztjével analóg
WALD-statisztikát. (9.17. táblázat)

9.17. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

NEME ,6548 ,0999 42,9567 1 ,0000 ,1328 1,9247


Constant -,6439 ,1621 15,7741 1 ,0001

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 397

A WALD-statisztika azon null-hipotézis tesztelésére alkalmas, hogy az


adott változóhoz tartozó B együttható egyenlı 0-val. A WALD-statisz-
tika álnéven a SPSS outputjában egy olyan WALD-négyzet érték szerepel,
amelynek képlete a következı:
B2
Wald 2 =
S .E .2B
A statisztika közelítıleg khí-négyzet eloszlást követ.25 A szignifikancia
alapján látható, hogy a nem szignifikánsan hat a vallásosságra.
Az SPSS output egy R értéket is kínál a független változó „fontos-
ságának” megítélésére. Ez a parciális R érték a változóhoz tartozó
WALD-értéket a szabadságfokkal korrigálva veszi számításba.26 Mivel a
korrigált WALD-értéket a megmagyarázandó D0 értékhez viszonyítja,
alkalmas a független változók relatív fontosságának bemutatására. A mi
modellünkben most csak egy független változó van, ezért a relatív haté-
konyság értelmetlen.
Az output-részlet utolsó oszlopában szereplı EXP(B) kifejezéssel
már találkoztunk. Ez az esélyhányados, amely azt fejezi ki, hogy a nem
változón egy egységnyi elmozdulás 1,92-szeresére növeli a vallásosság
esélyét. Tehát annak esélye, hogy a nık között egy hívıre bukkanunk
1,92-szer nagyobb, mint a férfiak között.

25 A matamatikai-statisztikai kézikönyvek szerint ennek a mutatónak az a legnagyobb


hátránya, hogy ha a B értéke nagy, akkor a standard hiba is megnı és feltornázza
a WALD-mutató értékét, s így nagyobb valószínőséggel fogadunk el hamis nullhi-
potézist.
Wald − 2df
26 A R képlete: R = ± . A négyzetgyök elıtt szereplı ± jel arra figyel-
D0
meztet, hogy az R-nek meg kell ıriznie a B érték elıjelét.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

398 Túlélıkészlet az SPSS-hez

9.5. A modell bıvítése

Modellünkbe a vallásosság magyarázatára a nem mellé építsük be az


életkort is. Az életkor folytonos változó, tehát azt is megtapasztalhat-
juk, hogy a logisztikus regresszió valóban alkalmas folytonos független
változók kezelésére is. A parancssor a következı:
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER neme kor
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

A megmagyarázni vágyott részt a –2LL=D0 érték jelzi27:


-2 Log Likelihood 2320,6549

A két magyarázó változó bevonásával a megmagyarázatlanul hagyott


rész (DM) értéke:
-2 Log Likelihood 2128,563

A modell magyarázóerejét egy R L2 mutatóval jellemzzük, amelyet ma-


gunknak kell kiszámolnunk. Mivel R L2 = G M / D0 , a modell magyarázó-
ereje 0,083. E szerény magyarázat azonban a modell illeszkedését tesz-
telı khí-négyzet statisztika szerint szignifikáns. (9.18. táblázat)

9.18. táblázat
Chi-Square df Significance

Model 192,091 2 ,0000


Block 192,091 2 ,0000
Step 192,091 2 ,0000

Nézzük meg, hogy a modell által becsült valószínőségek segítségével


hogyan sorolja be a program a kérdezettek a hívı/nem hívı kategó-
riákba. (9.19. táblázat)

27 Mivel a file csak olyan megkérdezetteket tartalmaz, akik minden a modellben sze-
replı változón valid értékkel bírnak, a D0 értéke az egyváltozós modellhez képest
nem változott.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 399

9.19. táblázat
Classification Table for HIVO2
The Cut Value is ,50
Predicted
nem igen Percent Correct
n │ i
Observed ┼──────┼──────┼
nem n │ 322 │ 377 │ 46,07%
┼──────┼──────┼
igen i │ 222 │ 796 │ 78,19%
┼──────┼──────┼
Overall 65,11%

Mivel a mintában a megkérdezettek 59,3 százaléka volt hívı, a logisztikus


regresszió besorolása jobb, mintha a módusszal becsülnénk. Kérdés, hogy
a 65,1 százalékos találatarány szignifikánsan jobb-e, mintha a független vál-
tozókat figyelembe sem véve, pusztán a leggyakoribb értékkel becsülnénk.
A kérdés megválaszolására a lambda asszociációs mérıszám kiválóan al-
kalmas. Meghatározására a logisztikus regresszióban a parancssort a /SAVE
PGROUP utasítással kell kiegészítenünk. Ennek köszönhetıen a program
minden elemhez hozzárendeli a becsült csoport-hovatartozást.28 Ha ezt a
változót egy kereszttáblában együtt szerepeltetjük a HIVO2 változóval,
akkor a találat-mátrixszal megegyezı kereszttáblához jutunk. (9.20. táblá-
zat) Erre a találat-mátrixra a lambda kiszámítását kell kérnünk. A megjele-
nı három lambda érték közül azt az értéket kell szemügyre vennünk,
amely a valóságos besorolásokat tekinti függı változónak.

9.20. táblázat
HIVO2 hivõ-e * PGR_1 Predicted Group Crosstabulation

Count
PGR_1 Predicted
Group
1,00 nem 2,00 igen Total
HIVO2 1,00 nem 322 377 699
hivõ-e 2,00 igen 222 796 1018
Total 544 1173 1717

28 A változó neve PGR_1 lesz.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

400 Túlélıkészlet az SPSS-hez

9.21. táblázat
Directional Measures

Asymp. Approx.
a b
Value Std. Error Approx. T Sig.
Nominal by Lambda Symmetric ,080 ,018 4,311 ,000
Nominal HIVO2 hivõ-e Dependent ,143 ,031 4,311 ,000
PGR_1 Predicted Group c c
,000 ,000 , ,
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Cannot be computed because the asymptotic standard error equals zero.

A lambda 0,143-as értéke mellett álló szignifikancia azt jelzi (9.21.


táblázat), hogy a logisztikus regresszió független változói érdemben nö-
velték a találatarányt.29
Most már csak annak eldöntése van hátra, hogy vajon a szignifikáns
magyarázathoz30 mindkét független változónk érdemben hozzájárult-e.
(9.22. táblázat)

29 A logisztikus regresszióval foglalkozó kézikönyvek hosszasan vívódnak azon, hogy


a találatmátrixra számított lambdának olyannak kellene lennie, amely negatív érté-
ket is képes felvenni, jelezve, hogy a becsült valószínőségek alapján történı beso-
rolás rosszabb lett, mintha egyszerően a módusz alapján becsültünk volna. Ezek
a kézikönyvek attól féltik az olvasót, hogy ha az általunk ajánlott módon számítja
ki a lambda-értéket, akkor nem lesz képes megkülönböztetni a találatarány romlást
a találatarány javulástól, mivel például a száz százalékosan helyes és a száz százalé-
kosan helytelen besorolás lambda értéke egyenlı. A lambda általunk ajánlott kiszá-
mítási módja csak akkor használandó, ha a találatmátrixban a helyes besorolások
aránya nıtt. Ha a találatarány romlott, akkor úgyis más modellt kell építenünk, és
nem a lambda kiszámításán kell fáradoznunk.
30 Sajnos, a gyakorlatban olyan modellekkel is találkozhatunk, amelyek a modell il-
leszkedését mérı khí-négyzet alapján szignifikánsnak mutatkoznak, a lambda
azonban azt jelzi, hogy nem értünk el érdemi javulást a találatmátrixban. Ilyen ese-
tekben azt a lelkiismereti csatát kell megvívnunk, amelyeken a kereszttábla-elem-
zésnél már áteshettünk: el kell döntenünk, hogy a két változó közötti kapcsolatot
szignifikánsnak mutató khí-négyzetnek hiszünk-e vagy a relatív hibacsökkést mérı
lambdának.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 401

9.22. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

NEME ,6321 ,1044 36,6367 1 ,0000 ,1222 1,8816


KOR ,0553 ,0048 132,0908 1 ,0000 ,2368 1,0569
Const. -3,8193 ,3269 136,4899 1 ,0000

Elsıként a WALD-statisztikához tartozó szignifikanciát vesszük szemügy-


re, és azt láthatjuk, hogy mindkét független változónk hatása szignifikáns.
A nemhez tartozó esélyhányados alig csökkent az egyváltozós modellben
kapott értékhez képest, tehát azt mondhatjuk, hogy ha a kor hatását kont-
roll alatt tartjuk, akkor egy nı vallásosságának esélye 1,88-szor nagyobb,
mint egy férfié. A kor parciális esélyhányadosa 1,06, ami azt jelzi, hogy az
öregedéssel csak igen szolidan nı a vallásosság esélye, de ez a növekedés
ahhoz mégis elegendı, hogy a kor hatását szignifikánsnak tekinthessük.
A parciális R érték arra is felhívja a figyelmet, hogy a kor hatása erısebb,
mint a nemé. Bár ismerjük az R érték kiszámítási képletét, mégis nehéz át-
látnunk, hogy hogyan képes ez a mutató a független változókat a magyará-
zóerejük mentén sorrendbe rakni. Nézzük meg, hogy ha a lineáris reg-
ressziónál már jól bevált standardizált regressziós együtthatókat a logisz-
tikus modellben is kiszámítjuk, akkor milyen következtetésekre juthatunk.

9.5. Összemérhetı hatások: a standardizált regressziós


együttható
A lineáris regressziós modellbıl már ismert, hogy ha a regressziós
B-kbıl a regressziós bétákhoz szeretnénk eljutni, akkor a
BYX ⋅ s X
β YX =
sY
transzformációt kell alkalmaznunk. Úgy tőnik tehát, hogy a logisztikus
regressziós együttható esetében sincs más dolgunk, mint a B értékeket a
fenti átalakításnak alávetni. Ez az átalakítás azonban nem hajtható
végre, hiszen a logisztikus regresszió függı változója a (–∞,+∞) inter-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

402 Túlélıkészlet az SPSS-hez

vallumban értelmezett logit(Y), s ezért a szórását csak közvetett módon


tudjuk meghatározni. A közvetett úthoz újra fel kell idéznünk az OLS
sŶ2
R2 jelentését, amely nem más31, mint R 2 = . Helyettesítsük a függı
sY2
változó (Y) helyére a logit(Y)-t, a becsült függı változó érték ( Ŷ ) helyé-
sl2ogit( Ŷ )
re pedig logit ( Ŷ ) -t. Így az sl2ogit( Y ) = képlet segítségével képe-
R2
sek vagyunk a függı változó, a logit(Y) varianciájának, illetve szórásá-
nak meghatározására. Ha ezt a standardizált regressziós együttható kép-
letébe behelyettesítjük, akkor a következıt kapjuk:
BYX ⋅ s X ⋅ R
β YX =
s logit( Ŷ )
A standardizált regressziós együttható kiszámításához azonban minden
konkrét független változó esetében több lépést kell végrehajtanunk.
Elıször határozzunk meg az OLS R2-et, amihez szükségünk van a lo-
gisztikus regresszió által becsült valószínőségekre:
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER neme kor
/SAVE PRED
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

A becsült valószínőségeket PRE_2 néven32 mentette el a program. Ezt a


változót függı változóként kell beépítenünk egy olyan lineáris reg-
ressziós modellbe, ahol a független változó a HIVO2.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT pre_2
/METHOD=ENTER hivo2 .

31 Az alább következı képletekben az R2 az OLS R2-et jelenti. Sajnálatos, hogy az SPSS


éppen egy „R” kifejezést használ a független változók erısorrendjének jelzésére,
fokozva ezzel egyébként sem kis zavarodottságunkat.
32 Emlékezzünk rá, hogy már létrehoztunk egy PRE_1 változót.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 403

A standardizált regressziós együttható kiszámításához szükséges OLS R


rendelkezésünkre áll. (9.23. táblázat)

9.23. táblázat
Model Summary

Std. Error
Adjusted of the
Model R R Square R Square Estimate
1 ,325a ,106 ,105 ,1519299
a. Predictors: (Constant), HIVO2 hivõ-e

A következı lépésben a logit( Ŷ ) meghatározása a


 Ŷ 
logit( Ŷ ) = ln 

 1 − Ŷ 
képlet és a COMPUTE parancs segítségével történik.33
compute logit=ln(pre_2/(1-pre_2)).

Most már nincs akadálya, hogy a logit( Ŷ ) szórását meghatározzuk.


A DESCRIPTIVES parancsban egyúttal a független változók szórását is le-
kérjük. (9.24. táblázat)

9.24. táblázat
Descriptive Statistics

Std.
N Minimum Maximum Mean Deviation
NEME a kérdezett neme 1717 1,000 2,000 1,571 ,495
KOR a kérdezett kora 1717 41,000 95,000 58,830 11,768
LOGIT 1717 -,918 2,592 ,430 ,740
Valid N (listwise) 1717

33 Idézzük emlékezetünkbe, hogy a logisztikus regresszióban a függı változó becsült


értékei a valószínőségek, amelyet korábban a logit definiálásakor P(Y=1)-gyel jelöl-
tünk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

404 Túlélıkészlet az SPSS-hez

A nem változó standardizált regressziós együtthatója tehát:


0,632 ⋅ 0,495 ⋅ 0,325
β Y ,NEM = = 0,137
0,740
Az életkor standardizált regressziós együtthatója pedig:
0,055 ⋅ 11,768 ⋅ 0,325
β Y ,KOR = = 0,284
0,740
A standardizált regressziós együtthatók és az SPSS outputjában szereplı
parciális R statisztikák azonos erısorrendet állítottak fel a független vál-
tozók között. A standardizált regressziós együtthatók kiszámítása extra
erıfeszítésekkel jár, de jelentésük sokkal közelebb áll a már ismert li-
neáris regresszióbeli standardizált együtthatókhoz, és így a logisztikus
regresszió bonyolult fogalomrendszerében végre ismét egy olyan mu-
tatóhoz juthatunk, amely fogódzót jelenthet elveszettségünkben.

9.6. Kategoriális független változó a logisztikus


regresszióban
A logisztikus regresszióban mód van arra, hogy a független változók
között kategoriális változók is szerepeljenek. Az ilyen modellek mőkö-
dését egy egyszerő példán fogjuk bemutatni: a vallásosságot egy ötkate-
góriás iskolai végzettség változóval kívánjuk magyarázni. A parancs-
sorunk egy kicsit módosul, hiszen a programmal közölnünk kell, hogy a
független változónk kategoriális.
Az SPSS, amikor megtudja, hogy kategoriális független változóval kell
dolgoznia, akkor minden beavatkozás nélkül dummy változókká ala-
kítja a kategoriális változót, de éppen úgy, mint a lineáris regresszió
esetében, közülük egyet kihagy a modellbıl. A mi tanácsunkat abban
kéri, hogy mi legyen az a viszonyítási pont, amelyhez képest az egyes
dummy változókhoz tartozó esélyhányadosokat meghatározza. Miután
minden erınkkel azon vagyunk, hogy minél többször járhassunk a li-
neáris regresszióban már felfedezett utakon, ezért a INDICATOR
CONTRAST elágazást választjuk. Ezzel azt érjük el, hogy az esélyhánya-
dosokat a modellbıl kihagyott dummy változó esélyéhez viszonyítja a prog-
ram. Ezzel éppen úgy értelmet adunk a modellbıl kimaradt dummy

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 405

változónak, mint ahogy a lineáris regresszióban tettük, amikor ez a ki-


hagyott változó jelentette a hipersíknak az Y tengellyel való metszés-
pontját. Nézzük a parancssort:
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER isk5
/CONTRAST (isk5)=Indicator(1)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

A /CONTRAST sorban az INDICATOR utáni zárójelben lévı 1-es érték


azt jelenti, hogy az elsı, a befejezetlen alapfokú végzettség létét vagy
nemlétét jelzı dummy változót hagytuk ki a modellbıl. Az output egy
új részlettel bıvült. (9.25. táblázat)
9.25. táblázat
Parameter
Value Freq Coding
(1) (2) (3) (4)
ISK5
befejezetlen alapfok 1,00 470 ,000 ,000 ,000 ,000
8 általános 2,00 420 1,000 ,000 ,000 ,000
szakma 3,00 351 ,000 1,000 ,000 ,000
érettségi 4,00 288 ,000 ,000 1,000 ,000
diploma 5,00 188 ,000 ,000 ,000 1,000

Ezt a táblázatot érdemes összevetnünk az output egy másik darabjával


(9.26. táblázat), elsısorban azért, hogy ha a dummy változók sorából
valahonnan középrıl támad kedvünk kihagyni egyet, akkor se veszítsük
el a fonalat.
9.26. táblázat
-------------- Variables in the Equation --------------
Variable B S.E. Wald df Sig R Exp(B)
ISK5 124,3743 4 ,0000 ,2239
ISK5(1) -,7300 ,1498 23,7543 1 ,0000 -,0968 ,4819
ISK5(2) -1,0688 ,1541 48,1028 1 ,0000 -,1409 ,3434
ISK5(3) -1,5824 ,1629 94,3154 1 ,0000 -,1994 ,2055
ISK5(4) -1,5678 ,1847 72,0932 1 ,0000 -,1738 ,2085
Constant 1,2459 ,1107 126,5824 1 ,0000

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

406 Túlélıkészlet az SPSS-hez

A 9.26. táblázatban az a dummy változó kapja az egyes sorszámot,


amelyiknek a CODING (1) oszlopban 1-es értéke van, a kettes sorszám
azt a változót illeti, amelyiknek a CODING (2) oszlopban van 1-es értéke
és így tovább.
Most még ne foglalkozzunk a független változók magyarázóerejét
tesztelı fenti táblázattal, hanem nézzük meg, hogy sikerült-e szignifi-
káns összefüggést találnunk az iskolázottság és a vallásosság között.
(9.27. táblázat)

9.27. táblázat
Chi-Square df Significance

Model 135,264 4 ,0000


Block 135,264 4 ,0000
Step 135,264 4 ,0000

A modell illeszkedését jelzı khí-négyzet mögötti szignifikancia meg-


nyugtatóan kicsi. A magyarázóerı jelzésére számoljuk ki az R L2 -mu-
tatót:
2320 ,6549 − 2185,391
R L2 = = 0,058
2320 ,6549
A magyarázóerı nem túl erıs, mindössze 5,8 százalék. Nézzük meg,
hogy az iskolázottság segítségével mennyivel jobban tudjuk megbe-
csülni, hogy valaki vallásos-e vagy sem, annál az esetnél, ha csak a HIVO2
változó megoszlása állna rendelkezésünkre, azaz a módusszal becsül-
nénk. A már ismert technikát alkalmazzuk: elmentjük a modell által jósolt
besorolásokat a /SAVE PGROUP parancs segítségével, és „keresztbe
rakjuk” a HIVO2 változóval. (9.28. táblázat) A kereszttáblára kiszámított
lambda-érték a hozzá tartozó szignifikanciával eligazít bennünket ab-
ban a kérdésben, hogy jelentısen javult-e a modell hatására a csoport-
hovatartozás becslése. (9.29. táblázat)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 407

9.28. táblázat
HIVO2 hivõ-e * PGR_3 Predicted Group Crosstabulation

Count
PGR_3 Predicted
Group
1,00 nem 2,00 igen Total
HIVO2 1,00 nem 277 422 699
hivõ-e 2,00 igen 199 819 1018
Total 476 1241 1717

9.29. táblázat
Directional Measures

Asymp. Approx.
a b
Value Std. Error Approx. T Sig.
Nominal by Lambda Symmetric ,066 ,018 3,589 ,000
Nominal HIVO2 hivõ-e Dependent ,112 ,029 3,589 ,000
PGR_3 Predicted Group c c
,000 ,000 , ,
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Cannot be computed because the asymptotic standard error equals zero.

Jól láthatjuk, hogy az iskolázottság szignifikánsan javított a találatará-


nyon. Most már csak az van hátra, hogy megvizsgáljuk, hogyan „dolgo-
zik” egy kategoriális független változó a logisztikus regresszióban.
(9.30. táblázat)
9.30. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

ISK5 124,3743 4 ,0000 ,2239


ISK5(1) -,7300 ,1498 23,7543 1 ,0000 -,0968 ,4819
ISK5(2)-1,0688 ,1541 48,1028 1 ,0000 -,1409 ,3434
ISK5(3)-1,5824 ,1629 94,3154 1 ,0000 -,1994 ,2055
ISK5(4)-1,5678 ,1847 72,0932 1 ,0000 -,1738 ,2085
Constant 1,2459 ,1107 126,5824 1 ,0000

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

408 Túlélıkészlet az SPSS-hez

A kategoriális változóként beépített iskolázottsághoz rendelt B értékek,


WALD-mutatók és esélyhányadosok egyáltalán nem különböznek attól,
ha a modellbe eleve azt a négy iskolázottságot jelzı dummy változót
építjük be, amelyek az elsı modellben szerepeltek. Nézzük a parancs-
sort, amelyben független változóként négy általunk készített dummy
változó szerepel.
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER alap szakma erett dipl
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

A 9.31. tábla az így definiált független változók hatását mutatja.

9.31. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

ALAP -,7300 ,1498 23,7543 1 ,0000 -,0968 ,4819


SZAKMA -1,0688 ,1541 48,1028 1 ,0000 -,1409 ,3434
ERETT -1,5824 ,1629 94,3154 1 ,0000 -,1994 ,2055
DIPL -1,5678 ,1847 72,0932 1 ,0000 -,1738 ,2085
Constant 1,2459 ,1107 126,5824 1 ,0000

Mindkét output-részletbıl (9.30. és 9.31. táblázat) leolvasható, hogy az


iskolai végzettség minden kategóriája szignifikáns magyarázatot pro-
dukál. Az esélyhányadosok, amelyek a kihagyott dummy változóhoz,
vagyis a befejezetlen alapfokú végzettségőekhez való viszonyítást jelzik,
minden iskolázottsági kategóriánál egynél kisebb értéket mutatnak. Ez
azt jelenti, hogy minden legalább alapfokú végzettséggel jellemezhetı
iskolázottsági kategóriában kisebb az esélye annak, hogy valaki vallásos,
mint a legiskolázatlanabb kategóriában. Ahogy az iskolai végzettségi fo-
kozatokon felfelé haladunk, úgy találkozunk egyre kisebb és kisebb
esélyhányadosokkal, tehát azt is mondhatnánk, hogy az iskolai vég-
zettség növekedésével csökken a vallásosság esélye. Adósak vagyunk
a 9.30 táblázat elsı sorának értelmezésével: az itt szereplı WALD-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 409

érték34 és a hozzá tartozó szignifikancia azt jelzi, hogy az iskolázottság


„globális hatása” szignifikáns.35
Az, hogy egy ordinális változót dummyzással vagy a maga naturális
szépségében építünk-e be független változóként a logisztikus reg-
resszióba, éppen úgy és éppen olyan szempontok szerinti mérlegelést
igényel, mint a lineáris regresszió esetében. Próbáljuk ki, milyen mo-
dellhez jutunk, ha az iskolázottságot, mint magas mérési szintő változót
használjuk. Ha a parancsot lefuttatjuk, azt tapasztalhatjuk, hogy a mo-
dell illeszkedését jelzı paraméterek semmit sem változtak. A 9.32. táb-
lázatban szereplı, az iskolai osztályok számával mért iskolázottság
WALD-értéke éppen úgy szignifikáns modellt36 jelez, mint amikor
dummyztuk az iskolai végzettséget.

9.32. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

ISK5 -,4229 ,0390 117,8010 1 ,0000 -,2234 ,6552


Constant 1,4976 ,1168 164,2802 1 ,0000

A parciális R érték viszont elıjelet váltott. Hogyan lehetséges ez? Pró-


báljuk megérteni, hogy mit jelent a mutató negatív értéke. Természe-
tesen azt, hogy az iskolai végzettség növekedésével csökken a vallásos-
ság esélye. Ezt jelentették a dummyzott iskolázottság egynél kisebb
esélyhányadosai is. Akkor viszont azt nem értjük, miért volt a dummy
változós modellben az iskolázottság „globális hatását” jelzı parciális R
elıjele pozitív. Azt már tudjuk, hogy a parciális R ırzi a neki megfelelı
B-érték elıjelét. Abban a modellben, amelyben eleve dummy-válto-

34 A kategoriális független változó „globális” WALD-értékének kiszámítási módját


csak komoly mátrixalgebrai ismeretek birtokában érthetnénk meg.
35 Ha az iskolázottságot kategoriális változóként definiáljuk, értelemszerően nem ren-
delıdhet B érték magához a kategoriális változóhoz, hiszen nem az eredeti formá-
jában lép be a modellbe.
36 Mivel egy független változónk van, a WALD-értékhez tartozó szignifikancia az
egész modell illeszkedését is mutatja.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

410 Túlélıkészlet az SPSS-hez

zókként vittük be az iskolai végzettséget, nem rendelhettünk B-t az


iskolázottság „globális hatásának” jelzésére. A parciális R globális érté-
ke azonban minden kategoriális változó esetében kiszámítható, de elı-
jelet soha nem rendel hozzá a program, pontosabban ilyen esetekben
a parciális-R mindig pozitív37. Ez viszont egyáltalán nem jelenti azt, hogy
a független változó értékein felfelé haladva egyre nagyobb és nagyobb
esélyhányadosokkal találkozhatunk.38 A kategoriális változó ugyanis le-
het nominális mérési szintő is, és ez esetben nincs semmi értelme
a kapcsolat irányáról és így a globális hatást jelzı parciális R elıjelérıl
beszélni. Ha dummyzott változónk ordinális volt, akkor a belıle kép-
zett dummy változók esélyhányadosainak mozgásából39 következtethe-
tünk a kapcsolat irányára.40

9.7. Mindent bele! Sokváltozós modell

Alkossunk egy olyan logisztikus regressziós modellt, amelyben olyan


független változók szerepelnek, amelyek segítségével újra áttekinthetjük
a folytonos, a bináris és a kategoriális független változók jellemzıit.
Magyarázzuk a vallásosságot a jelenlegi szocio-demográfiai státust ope-
racionalizáló nem, életkor, az elvégzett iskolai osztályokkal mért
iskolázottság és a településtípus kategoriális változójával. Egészítsük ki
a független változók sorát a gyermekkori szocializáció számunkra fon-
tos elemével, azzal a bináris változóval, amely megmutatja, hogy az ille-
tıt vallásosan nevelték-e a szülei. Végül illesszük be a modellbe a vallási

37 Természetesen értéke nulla is lehet, ha a független változó semmiféle hatással


nincs a függı változóra.
38 Jól láttuk az iskolázottság esetében az esélyhányadosok az iskolázottság növekedé-
sével egyre kisebbek lesznek.
39 Csökkenésébıl vagy növekedésébıl.
40 Ha az esélyhányadosok hol nınek, hol csökkennek, amikor az ordinalitás szerint
végighaladunk a dummy változókon, akkor is be kell érnünk azzal, hogy a parciális
R a változó relatív magyarázóerejét jelzi, de a hatás irányáról nem ad felvilágosítást.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 411

felekezet kategoriális változóját, hogy azt is megtudhassuk, vajon a kü-


lönbözı felekezetek esetében hogyan alakul a vallásosság. A parancs-
sorban rendelkezzünk úgy, hogy a településtípus dummyzása után a prog-
ram a falun élés kétértékő változóját hagyja ki a modellbıl, a feleke-
zetek esetében pedig a római katolikusokat, vagyis ezt a két csoportot
tekintse az adott változón referencia-kategóriának.41
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER neme kor iskoszt teltip gyvalsz gyfelek
/CONTRAST (teltip)=Indicator(1)
/CONTRAST (gyfelek)=Indicator(1)
/SAVE PGROUP
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

9.33. táblázat
Dependent Variable Encoding:

Original Internal
Value Value
,00 0
1,00 1

Az output elıször azt hozza tudomásunkra, hogy a bináris függı válto-


zónk eleve (0;1) értékő volt, ezért változtatás nélkül építi be a modellbe.
(9.33. táblázat) A kategoriális változók dummyzásánál kívánságainknak
megfelelıen a római katolikusokat és a községben élıket hagyja ki a prog-
ram a modellbıl. (9.34. táblázat)
A 9.35. táblázatból láthatjuk, hogy a modellben a HIVO2 változó
a függı változó, és a kiinduló állapotban csak a konstans szerepel a
modellben.

41 A TBD.KÖNYV_LOGREG-MINDENT BELE.SAV file adataival dolgozunk. Ebben a


file-ban már a 40 évesnél fiatalabbak is szerepelnek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

412 Túlélıkészlet az SPSS-hez

9.34. táblázat
Parameter
Value Freq Coding
(1) (2) (3) (4)
GYFELEK
római kat. 1 1898 ,000 ,000 ,000 ,000
görög kat. 2 117 1,000 ,000 ,000 ,000
református 3 622 ,000 1,000 ,000 ,000
evangélikus 4 86 ,000 ,000 1,000 ,000
semmilyen 5 114 ,000 ,000 ,000 1,000
TELTIP
község 1 1072 ,000 ,000 ,000
város 2 822 1,000 ,000 ,000
megyeszékhely 3 396 ,000 1,000 ,000
Budapest 4 547 ,000 ,000 1,000

9.35. táblázat
Dependent Variable.. HIVO2 hivı-e

Beginning Block Number 0. Initial Log Likelihood


Function

-2 Log Likelihood 3931,518

Az a célunk, hogy a –2LL(0)=D0=3931,518 értékét42 a független válto-


zók segítségével a lehetı legkisebbre csökkentsük. (9.36. táblázat)
A hat független változó együttes hatásának köszönhetıen a kezdeti
–2LL(0) értéke 3128,426-ra csökkent. (9.37. táblázat)

42 A kiinduló állapothoz tartozó –2LL(0) érték jelentısen megnövekedett a korábbi


modellekhez képest, amelyekben csak a negyven évesnél idısebbek szerepeltek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 413

9.36. táblázat
* Constant is included in the model.

Beginning Block Number 1. Method: Enter

Variable(s) Entered on Step Number


1.. NEME a kérdezett neme
KOR a kérdezett kora
ISKOSZT elvégzett iskolai osztályok száma
TELTIP Település tipusa:
GYVALSZ szülei vallásosan nevelték-e
GYFELEK születéskor milyen felekezetbe jegyezték be

9.37. táblázat
Estimation terminated at iteration number 4 because
Log Likelihood decreased by less than ,01 percent.

-2 Log Likelihood 3128,426


Goodness of Fit 2854,209
Cox & Snell - R^2 ,247
Nagelkerke - R^2 ,329

A csökkenés mértékének megítélésében az R L2 mutató orientál ben-


803,092
nünket, amelynek értéke R L2 = = 0,204 , vagyis azt mondhatjuk,
3931,518
hogy a modell magyarázóereje 20,4 százalékos. Ez a megfogalmazás
a logisztikus regresszió esetében szükségképpen mindig pontatlan,
hiszen jól tudjuk, hogy itt nem a HIVO2 függı változó heterogenitásá-
nak megmagyarázásáról van szó, hanem egy olyan maximum likelihood
becslés alkalmazásáról, amely – két technikai trükk, a logaritmizálás és
a mínusz 2-vel való szorzás közbeiktatásával – egy valószínőség maxi-
malizálására törekszik. Úgy is fogalmazhatunk, hogy az R L2 azt jelzi,
hogy a lehetı legrosszabb „illeszkedést” mennyire sikerült javítanunk
a bevont független változók segítségével.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

414 Túlélıkészlet az SPSS-hez

9.38. táblázat
Chi-Square df Significance

Model 803,092 11 ,0000


Block 803,092 11 ,0000
Step 803,092 11 ,0000

Bár a 20,4 százalékos R L2 érték megítélésében nem kell feltétlenül kon-


szenzusra jutnunk, de annyit megkockáztathatunk, hogy ez az érték
megnyugtatóan magas. (9.38. táblázat)

9.39. táblázat
Classification Table for HIVO2
The Cut Value is ,50
Predicted
nem igen Percent Correct
n │ i
Observed ┼──────┼──────┼
nem n │ 938 │ 512 │ 64,69%
┼──────┼──────┼
igen i │ 293 │ 1094 │ 78,88%
┼──────┼──────┼
Overall 71,62%

A találatmátrix (9.39. táblázat) értékeléséhez szükségünk van a logisz-


tikus regresszió által elvégzett besorolások és a HIVO2 változó meg-
oszlásának összevetésére.43

43 A HIVO2 változó alapmegoszlása valamelyest különbözik a találatmátrixban kapott


értékektıl. Az eltérésnek az az oka, hogy a találatmátrixban csak azok szerepelnek,
akik a modell valamennyi független változóján valid értékkel bírnak.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 415

9.40. táblázat
HIVO2 hivõ-e * PGR_1 Predicted Group Crosstabulation

PGR_1 Predicted
Group
,00 nem 1,00 igen Total
HIVO2 ,00 nem Count 938 512 1450
hivõ-e 51,1%
1,00 igen Count 293 1094 1387
48,9%
Total Count 1231 1606 2837

9.41. táblázat
Directional Measures

Asymp. Approx.
a b
Value Std. Error Approx. T Sig.
Nominal by Lambda Symmetric ,385 ,021 16,523 ,000
Nominal HIVO2 hivõ-e Dependent ,420 ,022 15,095 ,000
PGR_1 Predicted Group
,346 ,025 11,443 ,000
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.

A kereszttáblához (9.40. táblázat) tartozó lambda érték (9.41. táblázat)


szignifikáns javulást jelez, ami érthetı is, hiszen ha módusszal becsül-
nénk, a helyes besorolások aránya csak 51,1 százalék lenne, míg a mo-
dell 71,6 százalékos találatarányt produkál.
A 9.42. táblázatban elıször azt kell szemügyre vennünk, hogy min-
den független változónk megfelelıen kivette-e a részét a modell javítá-
sából. Láthatjuk, hogy a településtípus mellett álló szignifikanciák elég
nagyok ahhoz, hogy felülbíráljuk elızetes elképzelésünket, és olyan új
modellt alkossunk, amelyben ez a független változó már nem szerepel.
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER neme kor iskoszt gyvalsz gyfelek
/CONTRAST (gyfelek)=Indicator(1)
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

416 Túlélıkészlet az SPSS-hez

9.42. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

NEME ,5774 ,0891 42,0313 1 ,0000 ,1009 1,7815


KOR ,0163 ,0029 31,0247 1 ,0000 ,0859 1,0164
ISKOSZT -,0819 ,0164 24,8451 1 ,0000 -,0762 ,9213
TELTIP 5,3318 3 ,1491 ,0000
TELTIP(1)-,2021 ,1093 3,4191 1 ,0644 -,0190 ,8170
TELTIP(2)-,1720 ,1411 1,4851 1 ,2230 ,0000 ,8420
TELTIP(3),0298 ,1298 ,0528 1 ,8183 ,0000 1,0303
GYVALSZ 1,8185 ,1050 300,1544 1 ,0000 ,2754 6,1628
GYFELEK 16,9191 4 ,0020 ,0476
GYFELEK(1),4914 ,2245 4,7893 1 ,0286 ,0266 1,6346
GYFELEK(2),0372 ,1086 ,1177 1 ,7316 ,0000 1,0379
GYFELEK(3)-,6196 ,2574 5,7942 1 ,0161 -,0311 ,5381
GYFELEK(4)-,7615 ,3266 5,4366 1 ,0197 -,0296 ,4670
Constant-1,9972 ,2961 45,4990 1 ,0000

Mivel a településtípus elhagyásával a –2LL(0)=D0 érték nem válto-


zott44, az R L2 kiszámításához csak a GM értékre van szükségünk.

9.43. táblázat
Chi-Square df Significance

Model 797,760 8 ,0000


Block 797,760 8 ,0000
Step 797,760 8 ,0000

A modellbıl egy nem szignifikáns független változót hagytunk el, tehát


az illeszkedést mérı mutató is alig változott, értéke 20,3 százalék. (9.43.
táblázat)

44 Egy változó elhagyásával a D0 értéke csak akkor változhat meg, ha az elhagyott vál-
tozón missingek is szerepelnek.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 417

9.44. táblázat
Classification Table for HIVO2
The Cut Value is ,50
Predicted
nem igen Percent Correct
n │ i
Observed ┼──────┼──────┼
nem n │ 936 │ 514 │ 64,55%
┼──────┼──────┼
igen i │ 287 │ 1100 │ 79,31%
┼──────┼──────┼
Overall 71,77%

A találatarány sem változott, ami az elıbbi modellben meghatározott


lambda értéket ismerve garantáltan szignifikáns javulást jelent. (9.44.
táblázat)

9.45. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

NEME ,5713 ,0886 41,5914 1 ,0000 ,1004 1,7705


KOR ,0161 ,0029 31,7781 1 ,0000 ,0870 1,0163
ISKOSZT -,0832 ,0156 28,4428 1 ,0000 -,0820 ,9202
GYVALSZ 1,8232 ,1034 310,9058 1 ,0000 ,2803 6,1914
GYFELEK 17,0128 4 ,0019 ,0479
GYFELEK(1),4864 ,2240 4,7136 1 ,0299 ,0263 1,6264
GYFELEK(2),0336 ,1081 ,0966 1 ,7559 ,0000 1,0342
GYFELEK(3)-,6078 ,2572 5,5825 1 ,0181 -,0302 ,5446
GYFELEK(4)-,7864 ,3250 5,8552 1 ,0155 -,0313 ,4555
Constant-2,0462 ,2936 48,5677 1 ,0000

Kicsit zavarban vagyunk, amikor arra a kérdésre kell válaszolnunk,


hogy minden független változónak szignifikáns hatása van-e: a feleke-
zetek közül ugyanis a reformátusokat jelzı GYFELEK(2) változó mellett
magas szignifikancia áll. Mivel azonban a felekezeti hovatartozás „glo-
bális hatását” szignifikánsnak ítélte a modell, ennek a változónak is

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

418 Túlélıkészlet az SPSS-hez

helye van a modellben. (9.45. táblázat) Ahhoz, hogy a logisztikus reg-


resszió logikáját ebben a vonatkozásban is megértsük, gondoljunk egy
ANOVA modellre, amely arra a kérdésre ad választ, hogy a független
változó kategóriáiban definiált függı változó átlagok szignifikánsan
különböznek-e. Ha az ANOVA erre a kérdésre igennel válaszol – vagyis
az adott változóhoz tartozó F-statisztika szignifikáns – ebbıl még
egyáltalán nem következik, hogy ha a kategóriaátlagokat páronként ha-
sonlítjuk össze, ezek minden esetben szignifikánsan különböznek egy-
mástól.
Nézzük most már a modell legfontosabb hozadékát: az esély-
hányadosokat. A nem mellett álló 1,77-es esélyhányados azt jelzi, hogy
ha a kor, az iskolázottság, a gyerekkori vallásos nevelés, valamint a gye-
rekkori felekezeti hovatartozást kontroll alatt tartjuk, akkor a nık kö-
zött 1,72-szer akkora valószínőséggel találunk hívıt, mint a férfiak
között.45 A továbbiakban láthatjuk, hogy a többi független változó
kontroll alatt tartása mellett a kor elırehaladtával valamelyest nı, míg
az iskolázottság növekedésével valamelyest csökken a vallásosság esé-
lye. A modellben messze kiemelkedik a gyerekkori vallásos nevelés sze-
repe, hiszen azok között, akiket szüleik vallásosan neveltek több mint
hatszor nagyobb eséllyel bukkanunk hívıre, mint azok között, akik
ateista környezetben nıttek fel. Ez a nagy különbség úgy áll fenn, hogy
a többi független változó hatását kiszőrtük. A felekezeti hovatartozás
hatásának bemutatásához újra idézzük fel, hogy a dummy változók kö-
zül a római katolikusok kétértékő változóját hagytuk ki a modellbıl, te-
hát az esélyhányadosokban ık jelentik a viszonyítási pontot. A görög
katolikusok esetében 1,63-szoros az esélye annak, hogy valaki felnıtt
korában is vallásos, mint a római katolikusoknál. A reformátusok nem
szignifikáns hatása az esélyhányadosukban is tükrözıdik: közöttük ép-
pen akkora a hívık aránya, mint a római katolikusok között. Itt érde-
mes egy pillanatra megállnunk. Az, hogy egy dummyzott kategoriális
változó melyik „értékéhez” tartozik szignifikáns esélyhányados, a viszo-
nyítási pont kijelölésétıl is függ. Ha modellünkbıl az ateistákat hagytuk

45 Az értelmezés azért történt így, mert a nem változón a férfiakat 1-es, a nıket 2-es
kódérték jelöli.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 419

volna ki, akkor hozzájuk képest a reformátusok esélyhányadosa szigni-


fikánsan nagyobb lenne egynél.46 Végül az evangélikusok és a fele-
kezethez nem tartozók között akkor is kisebb az esélye annak, hogy va-
laki vallásos, mint a katolikusok között, ha az összes többi független
változó mentén azonos pozícióban vannak.

9.8. Ugyanaz másképpen

Nem kis fáradtságunkba került megérteni a logisztikus regresszió alap-


gondolatát, megismerni és értelmezni az outputját. Vajon megérte? Mit
nyertünk ezzel a sok munkával? Az igaz, hogy nyugodtak lehetünk afe-
lıl, hogy egyetlen mérési szint korlátot sem hágtunk át, semmilyen,
a függı változó eloszlására vonatkozó kritériumot sem sértettünk meg,
hiszen ilyenfajta követelményt az eljárás nem is támaszt. Kérdés, hogy
vajon a végsıként megalkotott, a vallásosságot magyarázó modellt más
technikával is megalkothattuk volna-e. Arra gyanakszunk, hogy a disz-
kriminancia-analízis alkalmas lehet a logisztikus regresszió kiváltására.
A diszkrimancia-analízis azonban nem fogad be alacsony mérési szintő
változókat, tehát a felekezeti hovatartozás nem szerepelhetne a mo-
dellben.47 Redukáljuk elvárásainkat, és csak megfelelı mérési szintő
független változókat használjunk. Nézzük meg, hogy egy bináris függı
változó magyarázatára szolgáló diszkriminancia-analízis miben külön-
bözik a logisztikus regresszióval felépített modelltıl. Kezdjük a logisz-
tikus modellel:
LOGISTIC REGRESSION VAR=hivo2
/METHOD=ENTER neme kor iskoszt gyvalsz
/SAVE PGROUP
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

46 Érdemes az (GYFELEK)=INDICATOR(5) utasítással újra futtatni a modellt és szem-


ügyre venni az esélyhányadosokat.
47 Az a lehetıség nyitva áll elıttünk, hogy a változót dummy változókként vegyük be
a modellbe, de jól tudjuk, ezzel a diszkrimináló függvény interpretálását szinte le-
hetetlenné tennénk.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

420 Túlélıkészlet az SPSS-hez

Mivel a megmagyarázott hányadok összevetésére úgysem lesz módunk,


csak a találatmátrixot vizsgáljuk meg. (9.46. táblázat)

9.46. táblázat
Classification Table for HIVO2
The Cut Value is ,50
Predicted
nem igen Percent Correct
n │ i
Observed ┼──────┼──────┼
nem n │ 930 │ 520 │ 64,14%
┼──────┼──────┼
igen i │ 280 │ 1107 │ 79,81%
┼──────┼──────┼
Overall 71,80%

A találatarány tehát 71,8 százalék, ami a lambdához tartozó szignifi-


kancia szerint jelentıs mértékő növekedést jelez.

9.47. táblázat
-------------- Variables in the Equation --------------

Variable B S.E. Wald df Sig R Exp(B)

NEME ,5503 ,0881 39,0378 1 ,0000 ,0971 1,7338


KOR ,0161 ,0028 32,4587 1 ,0000 ,0880 1,0162
ISKOSZT -,0868 ,0155 31,2453 1 ,0000 -,0862 ,9169
GYVALSZ 1,8773 ,1014 342,6941 1 ,0000 ,2944 6,5356
Constant-2,0222 ,2875 49,4736 1 ,0000

Már a diszkriminancia-analízissel való összevethetıségre gondolva csak


sommás következtetéseket vonunk le az esélyhányadosokból. A mo-
dellben mind a négy független változónak szignifikáns hatása van.
(9.47. táblázat) A vallásosság legerısebben a gyerekkori vallásos neve-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 421

léstıl függ.48 Mindvégig észben tartva, hogy parciális hatásokról van


szó, a nem hatása következik, azt jelezve, hogy a nık vallásosabbak
a férfiaknál. A kor esélyhányadosa szerint idısödve nı a vallásosság
esélye. Az iskolázottság növekedése pedig az ateizmus térnyerésével jár
együtt.
Mit látunk a diszkriminancia-analízissel felépített modellben?
DISCRIMINANT
/GROUPS=hivo2(0 1)
/VARIABLES=neme kor iskoszt gyvalsz
/ANALYSIS ALL
/SAVE=CLASS
/PRIORS SIZE
/STATISTICS=CORR TABLE
/CLASSIFY=NONMISSING POOLED .

Elıször a modell szignifikanciájáról kell információt szereznünk. (9.48.


táblázat)

9.48. táblázat
Wilks' Lambda

Wilks' Chi-squar
Test of Function(s) Lambda e df Sig.
1 ,748 822,114 4 ,000

Egyetlen diszkrimináló-függvény jött létre, amely a hívı-nem hívı kate-


góriák között szignifikáns különbségeket produkál. A dolog neheze
még hátra van, hiszen a diszkrimináló függvényt interpretálnunk kell.
(9.49. táblázat)

48 A független változók erısorrendjét nem az esélyhányadosuk, hanem a parciális


R-ek döntik el. Ha nem sajnáljuk a fáradságot, a standardizált regressziós együttha-
tók kiszámításával egy ismertebb jelentéső mutatóval „lıhetjük be”, melyik változó
hatása erısebb.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

422 Túlélıkészlet az SPSS-hez

9.49. táblázat
Structure Matrix

Function
1
GYVALSZ szülei
,888
vallásosan nevelték-e
KOR a kérdezett kora ,582
ISKOSZT elvégzett
-,423
iskolai osztályok száma
NEME a kérdezett neme ,255
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.

A függvény egy olyan skálát feszít ki, amelynek pozitív pólusán a vallá-
sosan nevelt, idıs, iskolázatlan nık helyezkednek el, a negatív végén
pedig az ateista környezetben nevelkedett, fiatal, iskolázott férfiak.
Emlékezzünk rá, hogy ilyen interpretáció esetén mennyire nem tudjuk
megmondani, hogy mit jelent a skála középsı része, kik foglalnak ott
helyet. Egyelıre tegyük túl magunkat ezen – az egyébként zárójelbe
nem tehetı – problémán, és nézzük meg, a függvény milyen csoport-
átlagokat produkál. (9.50. táblázat)

9.50. táblázat
Functions at Group Centroids

Function
HIVO2 hivõ-e 1
,00 nem -,567
1,00 igen ,593
Unstandardized canonical discriminant
functions evaluated at group means

Az ateisták függvényátlaga negatív, tehát ık inkább a fiatal, iskolázott,


ateista környezetben nevelkedett férfiakat jelentik, míg a hívık kate-

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Logisztikus regresszió 423

góriájába az idıs, iskolázatlan, vallásosan nevelt nık tartoznak, amelyet


a függvényátlag pozitív volta jelez. (9.51. táblázat)

9.51. táblázat
Classification Resultsa

Predicted Group
Membership
HIVO2 hivõ-e ,00 nem 1,00 igen Total
Original Count ,00 nem 891 559 1450
1,00 igen 255 1132 1387
Ungrouped cases 53 32 85
% ,00 nem 61,4 38,6 100,0
1,00 igen 18,4 81,6 100,0
Ungrouped cases 62,4 37,6 100,0
a. 71,3% of original grouped cases correctly classified.

A találatmátrix jelentıs javulást mutat a módusszal való becsléshez ké-


pest, sıt a találatarány nagyon közel van ahhoz, amit a logisztikus reg-
ressziós modellben kaptunk.
A kétféle eljárás összehasonlíthatóságának „kemény” próbája azon-
ban az lehet, ha a független változók által becsült besorolásokat hason-
lítjuk össze, vagyis megnézzük, hogy a logisztikus regresszió ugyan-
azokat sorolta-e a hívık kategóriájába, mint a diszkriminancia-analízis.
(9.52. táblázat)

9.52. táblázat
PGR_2 Predicted Group * DIS_1 Predicted Group for Analysis 1
Crosstabulation

Count
DIS_1 Predicted
Group for Analysis 1
,00 nem 1,00 igen Total
PGR_2 Predicted ,00 nem 1198 66 1264
Group 1,00 igen 1 1657 1658
Total 1199 1723 2922

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

424 Túlélıkészlet az SPSS-hez

Azt látjuk, hogy 67 eset kivételével, amely mindössze 2,3 százalékos té-
vedést jelent, a két módszer azonos besorolásokat eredményezett.
Ezek után azt mondhatjuk, hogy a logisztikus regresszió abban az
értelemben múlja felül a diszkriminancia-analízist mint módszert, hogy
nem kell megküzdenünk egy aggregált mutató, a diszkrimináló függ-
vény interpretálásával. A logisztikus regresszió a lineáris regresszióban
már megismert logika szerint a parciális hatásokat tükrözve megadja
a magyarázó változók erısorrendjét és teljesen érzéketlen arra, hogy a füg-
getlen változók képesek-e értelmes struktúrába szervezıdni vagy sem.
Azok számára, akik a matematikai elıfeltevéseket szeretnék komolyan
venni, mindenképpen azt ajánljuk, hogy a logisztikus regresszió mellett
döntsenek, vállalva ezzel azt, hogy csak sok áttételen keresztül lesznek
képesek a tényleges függı változó viselkedésére vonatkozó következte-
tések levonására. Jónéhányan közülünk nehezen barátkoznak meg a lo-
gisztikus regresszió logikájával és fogalomkészletével, mégis azt taná-
csoljuk, hogy csak akkor meneküljenek a diszkriminancia-analízisbe, ha
az ott létrejövı diszkrimináló függvények interpretálása megnyugtató
módon lehetséges.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

MELLÉKLET

A parancsikonok használata: Fıkomponens- és faktorelemzés

I.1.–2.1.: A fıkomponens- és a faktorelemzés indítása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

426 Túlélıkészlet az SPSS-hez

I.1.–2.2.: Fıkomponens- és faktorelemzés fımenü – elsı lépések

hiányzó adatok
a módszer és kezelése
a faktorszám
KMO és
meg-
Bartlett-
választása a fıkomponens,
teszt a kijelölt
illetve faktorszkórok
változók
mentése

rotálás

I.1.–2.3.: A DESCRIPTIVES ablak – statisztikák

KMO és
Bartlett-teszt visszalépés a
fımenübe

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 427

I.1.–2.4.: Az EXTRACTION ablak– módszerek, faktorszám

visszalépés
a fımenübe

a módszerek
megválasztása

az iterációk maximális
a fıkomponens-, számának megadása (csak
illetve a faktorszám faktorelemzésnél)
meghatározása

I.1.–2.5.: A ROTATION ablak– rotálás

visszalépés
a fımenübe
rotált
faktormátrix
megjelenítése
a rotálás módszerének
megválasztása (VARIMAX)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

428 Túlélıkészlet az SPSS-hez

I.1.–2.6.: Az SCORES ablak – mentés

visszalépés
a fımenübe

a mentés
a szkórok módszere
elmentése (REGRESSION)

I.1.–2.7.: Az OPTIONS ablak – hiányzó adatok kezelése, kis faktorsúlyok elrejtése

visszalépés a
fımenübe
a hiányzó adatok
kezelése
(LISTWISE VAGY
PAIRWISE)

csak azokat a faktorsúlyokat látjuk a


rotált faktormátrixban, amelyek
nagyobbak, mint az ablakban általunk
beállított érték.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 429

I.1.–2.8.: Fıkomponens- és faktorelemzés fımenü – a parancs futtatása

a parancs futtatása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

430 Túlélıkészlet az SPSS-hez

A parancsikonok használata: Klaszterelemzés

Hierarchikus klaszterezés

I.3.1.: A hierarchikus klaszterelemzés indítása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 431

I.3.2.: Hierarchikus klaszterelemzés fımenü – elsı lépések

a klaszterképzı módszerek
változók mentés
beépítése
ábrák
statisztikák

I.3.3.: A STATISTICS ablak – statisztikák

a klaszterképzés
története visszalépés
a fımenübe

egy adott a klaszterazonosítók


klaszterszám megjelenítése
többféle
klaszterszám

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

432 Túlélıkészlet az SPSS-hez

I.3.4.: A PLOTS ablak – ábrák

az elemek
klaszterekbe
tömörülését
szemléltetı ábra visszalépés
a fımenübe

minden „lépés”
szerepel

az ábra
elhelyezése
csak bizonyos klaszterszámra kérünk ábrát:
nem például Start: 3 Stop:7, by:2 beírása esetén a 3,
kérünk az 5 és a 7 klaszteres megoldás jelenik meg
ábrát

I.3.5.: A METHOD ablak – módszerek


a módszer
a megválasztása
klaszterképzı
változók
mérési szintje
visszalépés
a fımenübe

a
klaszterképzı a távolság
változók „mértékegysége”
standardizálá

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 433

I.3.6.: A SAVE ablak – a klaszterazonosítók elmentése

nem
mentünk

visszalépés a
fımenübe

egy adott klaszterszám adta


megoldást mentünk el több megoldást is elmentünk

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

434 Túlélıkészlet az SPSS-hez

K-Means klaszterezés

I.3.7.: A K-Means klaszterelemzés indítása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 435

I.3.8.: K-Means klaszterelemzés fımenü – elsı lépések

statisztikák
a középpontok a klaszterek és a
mentése és elıhívása száma mentés
hiányzó
adatok
az iteráció kezelése
a klaszterképzı szabályozása
változók
beépítése

I.3.9.: A CENTERS ablak – középpontok mentése és elıhívása

egy futás végsı


klaszterközéppontjainak elmentése egy
kezdı középpontok olvasása egy tetszıleges file-ba
megadott file-ból

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

436 Túlélıkészlet az SPSS-hez

I.3.10.: Az ITERATE ablak – az iterálások szabályozása

visszalépés a
fımenübe

annak beállítása, hogy mekkora középpont-


a maximális módosulást tekintünk „elmozdulásnak”
iterációk száma (javasolt érték: 0)

I.3.11.: A SAVE ablak – az eredmények elmentése

visszalépés a
fımenübe

a klaszterazonosítók az adott elem és a klaszterközéppont


elmentése közötti távolság mint változó elmentése, a
deviánsok kiszőrésére

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 437

I.3.12.: Az OPTIONS ablak – a hiányzó adatok kezelése, statisztikák

visszalépés
látni akarjuk az a fımenübe
iniciális
középpontokat

egy nem
hagyományos
ANOVA-táblázat

a hiányzó adatok
Nagy file-oknál ne kezelése
kérjünk minden elemre
információt!

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

438 Túlélıkészlet az SPSS-hez

A parancsikonok használata: Variancia-analízis

A SPSS 7.5-ös és magasabb verzióinál az ANOVA-t a GLM (GENERAL


LINEAR MODELS) váltotta fel. A könyvben szereplı output-ok elıállí-
tása csak a megfelelı parancsok syntax-ablakból való futtatásával lehet-
séges.

A parancsikonok használata: A lineáris regresszióanalízis

II.5.1.: A lineáris regresszióanalízis indítása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 439

II.5.2.: Lineáris regresszióanalízis fımenü – elsı lépések

módszerek: ENTER,
függı FORWARD,
változó BACKWARD,
STEPWISE

független változók

statisztikák hiányzó adatok kezelése,


a változószelektálás
ábrák mentés kritériuma

II.5.3.: A STATISTICS ablak – statisztikák

a regressziós
együtthatók
megjelenítése

konfidencia visszalépés
intervallum a fımenübe
a „B”-k köré

a Durbin-Watson mutató a „szélsıséges” ANOVA és MODEL


kérése (elsıdleges elemek SUMMARY tábla
autokorreláció) megjelenítése

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

440 Túlélıkészlet az SPSS-hez

II.5.4.: A PLOTS ablak – ábrák

visszalépés
a fımenübe

a reziduálisok
grafikus vizsgálata

II.5.5.: A SAVE ablak – mentés

a
regressziós vissza-
becslések lépés a
elmentése fımenübe

reziduálisok
elmentése

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 441

II.5.6.: A OPTIONS ablak – hiányzó adatok kezelése,


a változószelektálás kritériumai

visszalépés a
fımenübe

hiányzó adatok
kezelése (LISTWISE)

a változószelektálásnál (STEPWISE) az új változó


belépésének, és a már bentlévık kikerülésének
szabályozása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

442 Túlélıkészlet az SPSS-hez

A parancsikonok használata: Diszkriminancia-analízis

II.7.1.: A diszkriminancia-analízis indítása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 443

II.7.2.: Diszkriminancia-analízis fımenü – elsı lépések

a függı változó minimális


függı és maximális értékének
változó megadása

statisztikák független a modell paramétereinek mentés


változók beállítása

II.7.3.: A DEFINE RANGE ablak – a függı változó szélsıértékeinek megadása

visszalépés
a fımenübe

minimális érték maximális érték

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

444 Túlélıkészlet az SPSS-hez

II.7.4.: A STATISTICS ablak – statisztikák

a független
változók átlagai
és szórásai

a csoportokon belüli
korrelációk átlagát mutató
mátrix

visszalépés a
a független változók hatása a fımenübe
függı változóra (egyszempontú
ANOVA)

II.7.5.: A CLASSIFY ablak – a modell paramétereinek megadása

Vissza-
lépés a
fımenübe

a modell a within-
group korrelációkból
indul

találatmátrix ábrák

az a priori valószínőségek a hiányzó adatokat átlaggal


a csoportlétszám helyettesíti (NE HASZNÁLJUK!)
arányaival egyenlık

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 445

II.7.6.: A SAVE ablak – mentés

a becsült
csoporthovatar-
tozás mentése
visszalépés
a fımenübe

a diszkrimináló a posteriori
függvények értékeinek valószínőségek
mentése mentése

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

446 Túlélıkészlet az SPSS-hez

A parancsikonok használata: A többdimenziós skálázás

II.8.1.: A többdimenziós skálázás indítása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 447

II.8.2.: Többdimenziós skálázás fımenü – elsı lépések

távolságtömbbel
dolgozunk

a változók mérési
szintje, a modell
típusa
a távolságmátrix a távolság ábrák, az iterációs
meghatározása az megadásának módja paraméterek
adatokból meghatározása
a távolság
„mértékegységének”
megadása

II.8.3.: A MEASURE ablak – a távolság „mértékegységének” megadása

visszalépés a
fımenübe

a távolság
változók „mértékegysége”
mérési szintje

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

448 Túlélıkészlet az SPSS-hez

II.8.4.: A MODEL ablak – változók mérési szintje, a modell típusa

visszalépés a
fımenübe

a tengelyek számának
változók
a modell típusa meghatározása
mérési szintje

II.8.5.: A OPTIONS ablak – ábrák, az iterációs paraméterek meghatározása

visszalépés a
fımenübe

ábrák

az iterációs
paraméterek
meghatározása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 449

A parancsikonok használata: A logisztikus regresszió

II.9.1.: A logisztikus regresszió indítása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

450 Túlélıkészlet az SPSS-hez

II.9.2.: Logisztikus regresszió fımenü – elsı lépések

függı változó statisztikák


független változók és ábrák
mentés
kategoriális változók
kezelése

II.9.3.: A CATEGORICAL ablak – kategoriális változók kezelése

visszalépés a
fımenübe

kategoriális változó
beépítése a referencia csoport kiválasztása (csak az elsı és
utolsó kategória választása lehetséges)

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Melléklet 451

II.9.4.: A SAVE ablak – kategoriális változók kezelése

visszalépés a
fımenübe

reziduális mentése
becsült valószínőségek csoportazonosítók
mentése elmentése

II.9.5.: Az OPTIONS ablak – statisztikák és ábrák

deviánsok
listázása

Vissza-
lépés a
fımenübe

csak a változó
szelektálásnál használatos
kritériumok szabályozása

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

FELHASZNÁLT IRODALOM

Achen, Cristopher H. (1982): Interpreting and Using Regression. London,


Sage Publications
Aldenderfer, Mark S. – Blashfield, Roger K. (1984): Cluster Analysis..
London, Sage Publications
Blalock, Hubert M. (1960): Social Statistics. London, McGraw-Hill
Füstös László – Kovács Erzsébet (1989): A számítógépes adatelemzés sta-
tisztikai módszerei. Budapest, Tankönyvkiadó
Gorsuch, Richard L. (1974): Factor Analysis. W.B. Saunders Company,
Philadelphia – London – Toronto
Hunyadi László – Mundruczó György – Vita László (2001): Statisztika.
Budapest, Aula Kiadó
Kim, Jae-On – Mueller, Charles W. (1978): Factor Analysis. Statistical
Methods and Practical Issues. London, Sage Publications
Klecka, William R. (1980): Discriminant Analysis.. London, Sage Publi-
cations
Köves Pál – Párnyiczky Gábor (1973): Általános statisztika. Budapest,
Közgazdasági és Jogi Könyvkiadó
Kruskal, Joseph B. – Wish, Myron (1978): Multidimensional Scaling. Lon-
don, Sage Publications
Lazarsfeld, Paul – Rosenberg, Morris (szerk.) (1955): The Language of
Social Research. New York, Macmillan
Menard, Scott (1995): Applied Logistic Regression Analysis. London, Sage
Publications

www.interkonyv.hu © Székelyi Mária, Barna Ildikó


RODOSZ © Typotex Kiadó
2012-03-02 13:29:22

Felhasznált irodalom 453

Moksony Ferenc (1999): Gondolatok és adatok: a társadalomtudományi


elméletek empirikus ellenırzése. Budapest, Osiris Kiadó
Phalet, Karen – Poppe, Edwin (1997): Competence and mortality dimensions
of national and ethnic stereotypes: a study in six Eastern-European
countries. European Journal of Social Psychology, Vol. 27., 703–
723. oldal.
SPSS for Windows Professional Statistics (1993). Chicago, SPSS Inc.
Tacq, Jacques (1997): Multivariate Analysis Techniques in Social Science
Research. From Problem to Analysis. London, Sage Publications
Tucker, L.R.: Relations of factor score estimates to their use. Psychometrika
36. 427–436.

www.interkonyv.hu © Székelyi Mária, Barna Ildikó

You might also like