Professional Documents
Culture Documents
Oktatási Segédanyag Társ - Tud.kut - Módszerek
Oktatási Segédanyag Társ - Tud.kut - Módszerek
Ha látjuk, hogy egy fiatal nem, vagy nehezen adja át ülőhelyét a buszon egy idősebbnek,
könnyen megjegyezzük: “ilyenek ezek a mai fiatalok”. Egy adatból, egy megfigyelésből
következtettünk egy nagy társadalmi réteg viselkedésére. Megfogalmaztunk egy
törvényszerűséget, miszerint a fiatal kor tiszteletlenséggel jár együtt. Ebben az esetben
módszertani hibát vétettünk, túláltalánosítottunk.
Előfordulhat, hogy csak azt vesszük észre, amit bizonyítani akarunk, közben például az
udvarias fiatalok és az udvariatlan középkorú vagy idős emberek elkerülik a figyelmünket.
1
A TÁRSADALOMTUDOMÁNYI KUTATÁS TÍPUSAI
A társadalomtudományi kutatásnak alapvetően három típusa van. A kutatás egyes típusai
természetesen nem függetlenek egymástól. Van amikor egy komplex kutatás mind a három
típust magában foglalja. A kutatás típusai a következők:
FELDERÍTŐ KUTATÁSOK
Kutatásunk célja lehet egyszerűen csak feltáró jellegű kutatás, amikor még nem tudjuk
biztosan, hogyan, milyen módon lehetne mélyebben kutatatni egy bizonyos dolgot, vagy
egyáltalán érdemes-e időt és pénzt fordítani egy bizonyos kutatásra.
LEÍRÓ KUTATÁSOK
Van olyan kutatás is, amelynek célja pusztán a megfigyelt dolgok leírása, pontos bemutatása.
Csak arra a kérdésre próbálunk válaszolni, hogy az a bizonyos dolog milyen, de még nem
kérdezzük meg, miért ilyen.
A leíró kutatások a jelenség pontos leírására törekednek, annak a lehető legtöbb aspektusából.
Ennek az egyik legaprólékosabb példája a Magyarországon tízévente végzett népszámlálás, de
ilyen leíró kutatás lehet egy adott terület munkanélküli populációjának vizsgálata, vagy a
fiatalok politikai preferenciáinak feltérképezése is.
MAGYARÁZÓ KUTATÁSOK
2
csoportban nagyobb a továbbtanulók aránya, mint a másikban, - vetik fel a következő fontos
kérdést: melyek e különbségek okai? Ez a magyarázó jellegű kutatás, ok-okozati
összefüggések keresésére is lehetőséget biztosít és általános következtetések levonását teszi
lehetővé.
A magyarázó kutatások célja az adott jelenség megmagyarázása, vagyis az, hogy miért nagy a
munkanélküliség az adott területen, vagy miért éppen egyik vagy másik politikai irányzat a
kedvelt a fiatalok közében. A leíró és magyarázó kutatási célok gyakran egyazon kutatásban
megtalálhatóak.
3
A KUTATÁS TERVE
A kutatás menetének egyes lépéseit követhetjük nyomon az alábbi ábrán.
4
Figyelembe kell venni, hogy a probléma túl tág meghatározása esetén az információözönben
éppen a lényegi információk maradhatnak el, míg a túl szűk meghatározás kizárja az
általánosíthatóság lehetőségét.
Az elemzési egységek azok, akiket vagy amiket a vizsgálat során tanulmányozni akarunk. A
legtipikusabb elemzési egység az egyes ember, de elemezhetünk csoportokat (például
családokat), szervezeteket vagy akár interakciókat (például választásokat) is. Az elemzési
egységek megválasztása körültekintést igényel, mert később az elemzés során könnyen téves
eredményekre juthatunk.
Az időfaktor meghatározásakor azt kell eldönteni, hogy az adott jelenséget egy időpontban,
vagy egy hosszabb terminusban vizsgáljuk. Az egy adott időpont vizsgálata a keresztmetszeti
vizsgálat, ilyen például a szavazási hajlandóság vizsgálata egy adott időpontban. A hosszabb
időszakokat felölelő vizsgálatokat longitudinálisnak nevezik, ilyenek a trendvizsgálat (pl. a
munkanélküliség alakulása egy-két-három év során), a kohorszvizsgálat (pl. az ötvenes
években születettek életmódját tízévenként megvizsgáló kutatás) és a panelvizsgálat
(ugyanazon emberek megkérdezése több alkalommal a munkavállalásuk lehetőségeiről). A
longitudinális vizsgálatok jóval több információt eredményezhetnek a vizsgált jelenségről, de
ugyanakkor a költségek is magasabbak.
Mielőtt a kutatás elindul, fontos tisztázni, hogy volt-e már az adott témában korábbi kutatás.
A sokakat érdeklő, nagy jelentőségű társadalmi jelenségek többségét már számos kutató
vizsgálta, így nagyon valószínű, hogy találunk előzményt a saját kutatásunkhoz is. Ez nem azt
jelenti, hogy semmi újat nem lehet kitalálni, hiszen az előzmények sem fedik pontosan a
választott kutatási területet. Így például, ha egy adott populáció munkaerőpiaci helyzetét
vizsgáljuk, akkor előzménynek tekinthető egy általánosabb munkaerőpiaci helyzetkép is.
A HIPOTÉZIS MEGFOGALMAZÁSA
5
válasz a feltett kérdésre. Ilyen hipotézis lehet például az, hogy a fővárosban a gimnáziumot
végzett fiatalok könnyebben találnak munkát. Ez a hipotézis a mi előzetes elképzelésünk, a
kutatás ezt megerősítheti, vagy akár meg is cáfolhatja (ettől sem kell visszariadnunk). A
hipotézis megfogalmazásakor arra kell ügyelni, hogy a kutatás során megszerzett információk
elegendők legyenek a bizonyításához vagy elvetéséhez.
Miért van szükség Hipotézisek felállítására?
Segít átgondolni a kutatási problémakört
Rendszert épít be a kutatásba
Segít a mérhető tapasztalatok és a kérdések megfogalmazásában
Az eredmények átgondolt értelmezéséhez ad segítséget.
Milyen a jó hipotézis?
Nem tartalmaz magától értetődéseket (pl. a nők és a férfiak ajakrúzs használata
között jelentős eltérések lesznek: a nők nagyobb arányban használnak
ajakrúzst)
Nem túláltalánosított (pl. összefüggés várható az emberek kora és életmódja
között)
Nem túlságosan konkrét (pl. a jeles tanulók általában 5 perccel hamarabb
érkeznek az iskolába mint a rossz tanulók)
6
Ha azt feltételezzük, hogy a vallásosság összefügg a házastársi hűséggel, hogyan
ellenőrizhetjük ezt az összefüggést, ha nem tudjuk mit értünk vallásosság alatt és
milyen emberi viselkedéssel, hogyan mérhetjük a vallásosságot
Pl. Vallásosság indikátorai: templomba járás, imádkozás
Ha azt feltételezzük, hogy a nők könyörületesebbek a férfiaknál, hogyan mérjük,
milyen indikátorokkal a könyörületességet?
Az indikátorok felcserélhetősége
Egy fogalmat (pl. vallásosság) számos indikátorral, változóval mérhetünk. Ezek a
mutatók egymással felcserélhetők, a hipotézis tesztelésénél azonban ugyanúgy kell
viselkedniük.
A hipotézisben elvárt összefüggések felcserélhetősége: Ha összefüggés van a
vallásosság és a házastársi hűség között vajon egyenértékű–e az alábbi két kijelentés?
A vallásos emberek hűségesebbek A hűséges emberek vallásosabbak
A hipotézis birtokában és a fogalmak pontos tisztázása után ki kell választani, hogy milyen
módszerek alkalmasak a vizsgált jelenség lehető legpontosabb feltérképezéséhez. Számos
módszer közül választhatunk. A két leggyakoribb módszert (a kérdőíves adatfelvételt, vagyis
a survey-t, illetve az interjúkat) külön is részletezzük.
MINTAVÉTEL
A mintavételnél meg kell határoznunk azt a populációt, amire a vizsgálat kiterjed, illetve meg
kell választani azt a mintavételi technikát, amely megfelelő reprezentativitást biztosít a
populációra nézve.
7
elérhetők, akik szimpatikusabbak, akiket ismerünk, stb. Ebben az esetben a kapott
eredmények nem általánosíthatók.
ADATGYŰJTÉS
Az adatgyűjtés a kutatás egyik legfontosabb szakasza, mivel itt kerül sor a vizsgálathoz
szükséges információk begyűjtésére. Éppen ezért fokozottan ügyelni kell arra, hogy az
adatgyűjtés megfelelő legyen, a kapott információk mennyiségileg és minőségileg is
megfeleljenek a kutatás céljaira. Az empirikus adatfelvétel során alkalmazott adatgyűjtési
technikákat az egyes módszerek leírásánál vizsgáljuk meg.
ELEMZÉS ÉS ÉRTÉKELÉS
Az elemzés előtt két dolgot kell még elvégezni. Először az adatokat elemezhető formába kell
hozni kódolással, illetve ezután valamilyen számítógépes felhasználásra alkalmas formában
történő rögzítéssel. Ezekre azért van szükség, mert a kérdőívek elsődlegesen kvantitatív
adatokat szolgáltatnak, ugyanakkor az elemzéshez számítógépet kell igénybe vennünk.
Az elemzés ezután kezdődhet csak el. Ennek során a felvett adatokat átkódolhatjuk, más
formába hozhatjuk, leegyszerűsíthetjük és számos egyéb matematikai és statisztikai eljárással
eljuthatunk a vizsgált jelenség leírásához, vagy magyarázatához.
AZ EREDMÉNYEK KÖZLÉSE
Végül a kutatási procedúra végén el kell dönteni, hogy a kapott eredményeket hogyan
hasznosíthatjuk. Vannak olyan kutatási eredmények, melyek kifejezetten a megbízóra
tartoznak, és ő dönti el, hogy mennyit hoz nyilvánosságra. Ha azonban nem ilyen kutatásról
van szó, akkor mindenképpen el kell gondolkodni az eredmények publikálásán, vagy egy
szakkonferencián történő megvitatásán.
8
MÉRÉSELMÉLET
Mivel, hogyan tudjuk mérni az adott fogalmat?
INDIKÁTOROK
Ha azt a kérdést fogalmazzuk meg egy kérdőívben, hogy “Ön környezettudatos?” nem biztos,
hogy kellő alapossággal járunk el. Az operacionalizálás után biztos, hogy igen sok kérdés
kerül majd megfogalmazásra, amelyek biztosítják, hogy a válaszokat értelmezni tudjuk a
kutatás fő célkitűzéseinek megfelelően.
9
Minden vizsgált személy esetében megfigyelhetjük az egyes indikátorok meglétét, illetve
hiányát. Ezen túlmenve minden vizsgált személynél összeadhatjuk a nála megfigyelt
környezettudatosság-indikátorok számát. Megállapodunk mondjuk hét mutatóban, melyek
közül Andrásnál hármat, Jenőnél négyet, Arankánál hatot figyelnénk meg. Kiszámíthatnánk,
hogy a vizsgált nőknél például 4,1, míg a férfiaknál 2,2 volt a környezettudatosság
indikátorok átlaga.
Amint azt láttuk, a problémát akkor tudjuk mérhetővé tenni, ha kérdésekké alakítjuk. A
kérdéseket fogalmakra, az ahhoz kapcsolódó változókra, a változók közötti kapcsolatokra,
összefüggésekre vonatkozóan fogalmazzuk meg.
10
van közöttük. Feltételezzük, hogy valamely független változó változása maga után vonja a
függő változó változását, vagyis hatással van a függő változóra.
A statisztikai együttmozgás még nem jelent oksági kapcsolatot. Pl. A házastársak iskolai
végzettsége között szoros statisztikailag igazolható kapcsolat van, mégsem mondhatjuk, hogy
oksági kapcsolat.
A mérési hiba annak a mértéke, hogy a megfigyelt értékek mennyire reprezentálják, illetve
nem reprezentálják a valós értékeket. A kutatónak minden mért változónál számolni kell
bizonyos mértékű mérési hibával. A mérési hibának két típusát különböztetjük meg, ezek: a
véletlen hiba és a szisztematikus hiba.
Képzeljünk el egy céltáblát, amelyen a találatok a középpont körül szóródnak. Sem véletlen
hibát, sem szisztematikus hibát nem hordoz.
Amennyiben a lövések egy adott pont körül szóródnak, de ez a pont nem a céltábla közepe,
szisztematikus hibával állunk szemben. Ha az egész céltáblát kilyuggattuk, a véletlen hiba
mértéke magas.
Mérési hibát sokféle dolog eredményezhet, ilyenek például a pontatlan mérés, a pontatlan
adatbevitel, vagy a helytelen mérési skála megválasztása.
Ahhoz, hogy egy vizsgálódás, mérés tudományos igényű legyen, ki kell elégítenie néhány
feltételt. Nem minden indikátor reprezentálja egyenértékűen a kiválasztott változót. Az
indikátorok kiválasztása során az alábbi kritériumokat szem előtt kell tartani:
11
Precizitás,
Objektivitás
Megbízhatóság (reliabilitás)
Érvényesség (validitás),
12
hasznosabbak lehetnek esetleg azért, mert nem is tudnak pontos adatot mondani, vagy nem
akarnak pontosan válaszolni. A hamis adatok csökkenthetők, ha ebben az esetben nem
törekszünk a legpontosabb mérésre, és így a válaszmegtagadás valószínűsége is csökken.
Objektivitás
A mérés objektivitása azt jelenti, hogy a mérés eredménye nem függ mástól, csak a kérdéses
dologtól. Nem befolyásolja, hogy ki végzi a mérést vagy az eredmények kiértékelését.A
mérés objektivitását úgy lehet ellenőrizni, hogy különböző emberekkel elvégeztetjük az adott
változóra vonatkozó méréseket. Ha az eredmények közel azonosak, a mérés objektív volt.
Megbízhatóság
A felezéses módszer (split-half method) Adott fogalmat mérő kérdéseket két részre osztjuk,
mindkét kérdéscsoport egyformán kell hogy osztályozza a válaszadókat. Ha a két
kérdéscsoport eltérően mérné az embereket, az megint csak megbízhatósági problémákat jelez
a változó mérésénél.
13
A kutatási segéderők megbízhatósága Mérési megbízhatatlanságot hozhatnak létre a
kutatásban dolgozók - például a kérdezők, a kódolók - is. A kérdezők ellenőrzése történhet
utólagos telefonos ellenőrzéssel. Felhívják a válaszadót, hogy ott volt-e a kérdezőbiztos, vagy
pl. ön mit válaszolt egy adott kérdésre?
A megbízhatóság feltétele, hogy a véletlen hiba várható értéke nulla legyen. Csak
szisztematikus hibát tartalmazhat.
Érvényesség
Bonyolult, összetett jelenségeknél fordulhat elő, hogy valami mást, vagy mást is mérünk, mint
amit szeretnénk. Az érvényességről nem könnyű meggyőződni.
Érvényesség esetén mind a szisztematikus, mind a véletlen hiba várható értéke nulla.
Ha a mérés nem megbízható, akkor nem lehet érvényes sem. Az érvényesség tehát a
legszűkebb, de a legnehezebben igazolható feltétel.
14
MÉRÉSI SZINTEK
A felvehető „értékek” között csak minőségi különbség van (csak névleges különbség). Nem
tudjuk megmondani, melyik érték nagyobb vagy kisebb, mint a másik, csak annyit tudunk,
hogy nem egyenlő, nem egyforma, vagyis nem ugyanaz a kettő. Ilyen például a nem változó,
amelynek felvehető „értékei” a férfi és a nő. Diszkrét, kategórikus változó. A középértékek
közül csak a módusz, azaz a leggyakoribb érték határozható meg. Az értékek ábrázolása
oszlopdiagrammal, illetve kördiagrammal történhet. Összefüggésvizsgálatokat, elemzéseket
kereszttáblával, chi négyzet próbával és a nominális változók közötti kapcsolatokat mérő
mutatókkal végezhetjük1.
Ordinális (rendezéses) skála
Az ordinális skálán mért változók esetében már azt is meg tudjuk mondani, melyik érték
nagyobb vagy kisebb a másiknál, de azt nem tudjuk, hogy mekkora az értékek közötti
különbség.
Ilyen az, amikor megkérik a hallgatóságot, mondják meg, három koppantás közül melyik a
leghangosabb, melyik a leghalkabb. Ilyen mérési skálával találkozunk akkor is, amikor a
mezei futóversenyen a befutókat csak helyezési számok szerint értékelünk, de nem tudjuk
megmondani, az első mennyivel futott gyorsabban a másodiknál, mindössze annyit tudunk,
hogy gyorsabban volt. Azt sem állíthatjuk, hogy a harmadik ugyanannyival futott gyorsabban
a negyediknél, mint a negyedik az ötödiknél. Diszkrét, kategórikus változó. A középértékek
közül a módusz (leggyakoribb érték) és a medián, vagyis a sorbarendezett adatok közül a
középső érték is meghatározható. A értékek ábrázolása oszlopdiagrammal és kördiagrammal
végezhető.
1
Bővebben lásd Kulcsár László: A változók közötti kapcsolatok mérése. Tömegkommunikációs Kutatóközpont.
Tanfolyamok. Bp. 1976. 14. old-25. old.
15
Összefüggésvizsgálatokat, elemzéseket kereszttáblával, chi négyzet próbával, a rangsorok
közötti összefüggések vizsgálatával, rangsorkorrelációval (Spearman féle rangsorkorreláció)
végezhetünk.
Intervallum (különbség) skála
Ezen a mérési szinten már értelmezni tudjuk az értékek közötti különbségeket. Meg tudjuk
mondani, hogy két felvehető érték között mekkora a távolság, mennyi a különbség.
Mennyivel nagyobb egyik érték a másiknál. De arra nem tudunk választ adni, hogy hányszor
nagyobb az egyik érték, mint a másik. Ilyen mérési szintű változó a hőmérséklet Celsius
fokban mérve, illetve az IQ érték. Nincs abszolút nulla pontja, önkényesen határozták meg a
zérushelyet. Tehát ha tegnap 2 fok volt, ma pedig 6 fok van, akkor azt tudjuk, hogy, 4 fokkal
melegebb lett, de azt nem állíthatjuk, hogy 3-szor melegebb van, mint tegnap. Ugyanígy, ha
az egyik embernek 140 az IQ-ja, a máiknak 70, nem mondható, hogy kétszer olyan okos, csak
azt tudjuk, hogy 70 ponttal magasabb az intelligencia hányadosa. Általában folytonos változó
(illetve olyan diszkrét változó, amely feldolgozás szempontjából folytonosnak tekinthető). A
középértékek közül mind a helyzeti középértékek, a módusz és a medián, mind a számított
középértékek, így a számtani átlag is számítható és értelmezhető. Összefüggésvizsgálatok
során a Pearson féle korrelációs együttható számítása alkalmazható. Ábrázolásmódja a
pontdiagram, vonaldiagram, hisztogram, doboz-diagram (box-plot) lehet.
Arányskála
Mindennapi életünk során a leggyakrabban használt mérési szint. A hosszúság, a tömeg, súly,
a jövedelem, lakosságszám stb. mind arányskálán mérhető változók. Az arányskála jellemzője
az abszolút nulla pont, vagyis ha 0 Ft-ot kerestem, akkor nem kerestem semmit. Rendszerint
folytonos változó.
Ha az egyik településen 3000-en a másikon 9000-en laknak, akkor biztosan állíthatjuk, hogy
háromszor annyian laknak a népesebb településen. Ha pl. februárban százezer Ft volt a
bevételem, márciusban pedig ötszázezer, akkor ötször annyit kerestem. Az ábrázolásmódok és
összefüggésvizsgálatok megegyeznek az intervallum szintű változónál leírtakkal.
Átjárhatóság a mérési szintek között
16
kijelentéssorral azt érzékeltetjük, hogy a mérési skálák hierarchiájában egy magasabb rendű
mérési szintről könnyedén át lehet térni egy alacsonyabb rendű mérési szintre.
Alacsonyabb rendű mérési szintről azonban nem tudunk ilyen egyszerűen átlépni egy
magasabb rendű skálára. Ha csak annyit tudok, hogy tavaly minden szomszédom többet
keresett, mint én, nem fogom tudni számszerűsíteni a különbséget. (Vannak ugyan speciális
technikák egy alacsonyabb szintről magasabb szintre történő konvertálásra is, de ezek
meghaladják ennek a tananyagnak a kereteit2.)
2
Ilyen gyakran alkalmazott technika a dichotóm változó bevezetése, 1-0 típusúvá való alakítás. Pl. Ha többet
keres, 1-es értékű, ha nem, akkor 0 értékű a változó. Az 1-0 típusú változó ugyanis matematikailag és a
feldolgozások szempontjából arányváltozónak tekinthető.
17
AZ ADATGYŰJTÉS MÓDSZEREI
18
Közvetlen adatgyűjtési módszereknek nevezzük azokat a módszereket, amelyekkel a
vizsgálatba bevont személyek viselkedéséről közvetlenül, érzékszerveink útján szerzünk
tapasztalatokat. Ezek a megfigyelés és a kísérlet.
MEGFIGYELÉS
Kis elemszáma miatt soha nem reprezentatív, általánosításokra általában nem alkalmas. A
megfigyelés időigényes és munkaigényes, viszonylag drága módszer. Nagy felkészültséget
igényel.
KISÉRLET
A kísérlet típusai
Laboratóriumi kísérlet: a kísérletet egy elkülönített helyen végzik ezzel biztosítva, hogy más,
a kísérleti ingertől független hatás nem éri a kísérleti egyedeket. A laboratóriumi kísérlet
19
érvényessége korlátozott, nem biztos, hogy természetes körülmények között is igaz lenne a
laboratóriumi tapasztalat.
A KÉRDŐÍVES KUTATÁSOK
20
érthető, egyértelmű legyen. Alkalmazzunk semleges kifejezések, kerüljük az erős érzelmi
töltésű megfogalmazásokat. A kérdések sorrendje ne mutasson semmiféle tendenciát. Ha
kitűnik a kérdező (kutató) szándéka, a válaszadó önkéntelenül is igyekszik megfelelni a
várakozásnak, vagy esetleg éppen elutasítóvá válik.
Például:
“Mi a legfontosabb az életben? Az (1) egészség, a (2) nagy jövedelem vagy a (3) sikeres
politikai karrier?”
Van egy harmadik kategória is, a nyitott és zárt kombinációja, amikor a kérdést nyitottan
tesszük fel, de a lehetséges válasz-kategóriák zártak.
További fontos szabály, hogy mindenképpen el kell kerülni a tagadó kérdéseket is, mivel
sokan a témával kapcsolatos első reakciójuk alapján válaszolnak, nem mélyednek bele a
pontos kérdésbe, így éppen ellenkező válaszokat fogunk kapni.
21
sokan már nem emlékeznek a kérdés elején szereplő “tiltás” szóra, hanem az első
gondolatukkal összekötik a baleset okozását a társaság irányításával, és nemmel
válaszolhatnak.
Ugyanígy kerülni kell a sugalmazó kérdéseket is. Sok válaszadót orientálhat a következő
kérdés: “Ön egyetért vagy nem ért egyet azzal, hogy a Népstadion felújítására a szűkös állami
költség-vetésből több száz millió forintot költsünk?”.
Vannak ún. bemelegítő kérdések. Ezek a kutató számára nem igazán fontosak. Azt a célt
szolgálják, hogy elősegítsék a válaszadó ráhangolódását, pozitív attitűdjét a kérdezővel
szemben.
Amikor különböző kérdésekről faggatjuk az embereket, általában lehetőséget kell adni nekik
arra, hogy azt válaszolják: "nem tudom". De mihez kezdjünk ezekkel a válaszokkal az adatok
elemzésekor? Egészen eltérő eredményekhez juthatunk, ha bevesszük valós válaszként a nem
tudom választ is, mintha kihagyjuk ezeket az eseteket. Kérdés az, mi a célja az
adatelemzésnek és az értelmezésnek. Ha például nem feltétlenül fontos a "nagyon jó" és a "jó"
válaszkategóriát megkülönböztetnie, érdemes őket összevonnia, hiszen így olvashatóbbá
22
tesszük a táblázatot. Hogy a "nem tudom"-okat bevonjuk-e vagy kizárjuk, azt már nehezebb
így eldönteni. Sokszor az a helyes, ha mindkét formában megadjuk az adatokat - a "nem
tudom"-okkal együtt és azok nélkül is.
A KÉRDŐÍV SZERKEZETE
A kérdőív elején néhány mondatban írjuk le a vizsgálat célját, erősítsük meg, hogy a kérdezés
önkéntes és névtelen, a kérdőív végén pedig köszönjük meg a közreműködést.
A következőkben nézzünk meg egy példát a kérdőív szerkesztésére, amelyen a folyamat
számos fontos összetevőjét bemutathatjuk 3:
1. Ön egyetért azzal, hogy amint csak lehet, az országnak csatlakozni
kell az európai integrációhoz?
1 – igen ¨
2 - nem 280
0 - nem tudja X - nincs válasz
2. Ön szerint a csatlakozás rövid távon inkább előnyös lesz, vagy inkább
hátrányokat okoz Magyarországon?
1 – előnyös ¨
2 – hátrányos 281
0 - nem tudja X - nincs válasz
3
Forrás: Marketing Centrum Országos Piackutató Intézet, OMNIBUSZ survey, 1997
23
A két kérdést vastag vonal választja el egymástól. A gyakorlat szerint a dőlt betűs részeket
nem szabad felolvasni, csak a vastag betűvel szedetteket. A válaszkategóriáknál mindig kell
egy “nem tudja” és egy “nincs válasz” kategóriát alkalmazni. A kettő között lényeges
különbség van: a “nem tudja” esetén a kérdezett ismeret-hiány vagy egyéb ok miatt nem tud
választani, míg a “nincs válasz” azokat jelöli, akik tudnak választani, de valamilyen ok miatt
nem mondják meg a véleményüket (ez a politikai vagy jövedelmi kérdéseknél gyakori).
A kérdéseknél nem szabad elfelejteni a kódkockát, amelyeknek több funkciója is van. Nem
elég pusztán a válaszkategória számánál jelölni a kérdezett válaszát, az ugyanis később
változtathat, a válaszadó vagy a kérdezőbiztos összefirkálhatja, és így nem mindig
egyértelmű, hogy melyiket is választotta. A kódkockába már a végleges válasz kerül
kódolásra (ezt általában a kérdezés után a kérdezőbiztos otthon végzi el), és így az
adatrögzítőknek nem kell keresgélni, hogy melyik válasz is a valós.
Előfordul, hogy olyan kérdéseket kell alkalmaznunk, amelyek nem minden válaszadóra
vonatkoznak, de előre nem tudjuk megmondani, hogy kire igen és kire nem. Ekkor ún.
feltételes kérdéseket alkalmazunk, a szövegben pedig megfelelő instrukciókat adunk a
kérdezőbiztosnak. Lássunk erre is egy példát:
Itt a K30. kérdés nyilván nem vonatkozik azokra, akiknek nem volt dolguk az
önkormányzattal, ezért ugrást kell alkalmazni. A kérdezőbiztosnak szóló instrukció a
24
szövegtől jól elkülönített kell legyen (természetesen ezekre a munka kiadásakor, vagy a
próbakérdezés során is fel kell hívni a figyelmet).
A KÉRDŐÍVEK TÍPUSAI
Önkitöltős kérdőívek
Az önkitöltős kérdőíveket maga a kérdezett tölti ki. Ilyenkor a kérdőíveket postán küldik szét,
vagy egy kézbesítő hordja ki. Ennek kombinációja is előfordulhat, a postán kiküldött
kérdőíveket is összegyűjtethetjük kézbesítővel. Ez a kérdés nem mást takar, mint az önkitöltős
kérdőívek legnagyobb dilemmáját, az alacsony visszaérkezési arány minél magasabbra
emelését. Ez számos problémát rejt magában:
Először is azt, hogy akik nem küldenek vissza kérdőívet, azok tipikusan más emberek, mint
akik visszaküldenek, ez tehát rontja a reprezentativitást. Emellett meg kell oldani azt, hogy a
visszaküldés a lehető legegyszerűbb legyen, vagyis mellékelni kell valamilyen megcímzett és
felbélyegzett válaszborítékot. Ha ugyanis ezzel magának a kérdezettnek kell bajlódnia, akkor
minimálisra csökken a visszaküldési arány. Ez a visszaküldési arány 50-60 százalék esetén
megfelelő, ennél magasabb arány kifejezetten jó. Ne felejtsük el azonban a torzulást, hiába 80
százalékos a visszaküldési arány, ha a visszaküldők közül 90 százalék nő és csak 10 százalék
férfi. A visszaérkezési arány növelhető ún. buzdító levél küldésével, néhány hét elteltével egy
udvarias levélben felkérjük, hogy ha eddig nem tette volna, kérjük küldje vissza a számunkra
nagyon fontos véleményét tartalmazó kitöltött kérdőívet.
Van ennek a módszernek egy másik hátránya is. Az önkitöltés általában nem úgy megy
végbe, hogy a kérdezett szépen sorba veszi a kérdéseket, hanem először átfutja az egész
kérdőívet. Így a kérdések összeállításánál, sorrendjük meghatározásánál figyelembe kell
venni, hogy a kérdezett mindent lát, ellenben a kérdezőbiztossal felvett kérdőívekkel, ahol
csak azt hallja, amit felolvasnak neki.
Az önkitöltős kérdőíves technikának van azonban két előnye is. Az egyik a relatív olcsóság,
ugyanis nem kell kérdezőbiztosokat fizetni, ami a kutatási költségvetés legnagyobb részét
25
teszi ki. A másik az, hogy egyes intim, vagy zavarra okot adó témákban (ha megfelelően
sikerül biztosítani a névtelenséget) könnyebben nyilatkoznak az emberek, ha egyedül tölthetik
ki a kérdőívet, és nem egy másik személy előtt kell válaszolniuk.
Telefonos kérdőívek
A telefonos kérdezés emellett kötetlenebb és megvan az az előnye is, hogy az instruktor ott
van a kérdezőkkel egy helyen, így bármilyen probléma azonnal megoldható, ami szintén
rövidíti a terepmunka idejét. Végül pedig a személyesebb témákra könnyebben lehet választ
kapni, mivel egy “személytelen” hangnak kell felelni. Ez persze azt is magával hozza, hogy az
interjút a kérdezett könnyebben félbeszakíthatja a telefon letételével, mintha a lakásban ülő
kérdezőbiztost dobná ki. Ugyanakkor viszont a telefonos kérdezés során csak rövid
kérdőíveket használhatunk.
A telefonos módszer fejlettebb változata az ún. CATI (Computer Aided vagy Computer
Assisted Telephone Interview). Itt a kérdezést számítógép támogatja, mégpedig oly módon,
hogy egy számítógép terminálja előtt ülve dolgozik a kérdező, előtte a monitoron a kérdőív
fut, fején fejhallgatóval teszi fel a kérdéseket és a válaszokat azonnal begépeli a
számítógépbe. Itt nincs szükség kinyomtatott kérdőívekre, külön rögzítőkre és kódolásra,
emellett a számítógép nem engedi bevinni a logikátlan vagy tévesen begépelt válaszokat.
Ennek egy továbbfejlesztett változata, amikor nincs kérdező a vonal túlsó végén, hanem a
megfelelő gombok lenyomásával válaszolhat a kérdezett. Viszonylag rövid kérdőív esetén
hatékony, gyors módszer, a számítógép automatikusan rögzíti a válaszokat és a feldolgozási
algoritmus is előre leprogramozható, így mire az adatfelvétel végére érünk, a feldolgozással is
26
majdnem elkészültünk. Akár a nagy mintákon történő adatfelvételek esetén is a kutatás egésze
mindössze két-három napot (!) vesz igénybe4.
Személyes interjúk
Ugyanakkor a face-to-face interjúknak van két nagy hátránya is. Az egyik az ára, ugyanis a
kérdezőbiztosok fizetése igen jelentős, akár 60 százalékot is elérő arány a kutatás
költségvetésében, nem beszélve arról, hogy a járulékos feladatok miatt (pl. beoktatás) a
kutatás időtartama is hosszabb.
A másik hátrány egy jól képzett, gyakorlott kérdezőbiztosi csapattal leküzdhető. Ez ugyanis
nem más, mint a személyes elem, az emberi tényező a kérdezés során. A kérdezőbiztosoknak
(és ez a telefonos kérdezés során is így van) pontosan el kell magyarázni a munka természetét
és menetét, hiszen a szerzett adatok hitelessége, pontossága nagymértékben azon múlik, hogy
a kérdezőbiztos hogyan, milyen körülmények közt vette fel a kérdőívet.
Először is a kérdezőbiztosoknak részletes eligazítást kell tartani, ahol végig kell menni a
kérdőív minden egyes kérdésén, együtt megbeszélve a lehetséges buktatókat, nehézségeket.
Ez segít abban, hogy a kérdezői szituációban a kérdezőbiztos képes legyen folyamatosan,
meglepetések nélkül végigmenni a kérdőíven, lehetőleg könnyed hangnemben. Az eligazítást
csoportokban kell megtartani, mivel így könnyebben kiütközhetnek a kérdőív problémás
részei. Nagyon fontos a próbakérdezés lefolytatása, ahol minden kérdező legalább egy interjút
lefolytatva “élesben” is megismerkedhet a kérdőívvel, és kiderülhetnek további problémák.
4
A számítógépek felhasználásának van egy még újabb területe, a CAPI (Computer Aided Personal Interview),
ahol a kérdezőbiztosok hordozható számítógépekkel járnak a terepre.
27
A kérdezőbiztos megjelenése legyen hasonló a kérdezettéhez, ne keltse jelentősen eltérő
társadalmi helyzetben lévő személy benyomását, mert ez akadályozza a kérdezést.
Megjelenésével is keltsen bizalmat, fellépése nyílt és őszinte legyen.
A kérdőív kérdéseit szó szerint kell felolvasni, attól semmilyen körülmények közt sem szabad
eltérni, hiszen akár egy-egy szó eltérés is megváltoztathatja a szöveg értelmezését,
kontextusát. Éppen ezért sem rövidíteni nem lehet a szövegen, sem pedig magyarázni, hogy
mit is akart a kutató valójában. Ugyanez érvényes a kérdezett által adott válaszokra is, azokat,
különösen a nyitott kérdésekre adott válaszokat, szó szerint kell lejegyzetelni.
Előfordulhat, hogy minden igyekezet ellenére egy-egy kérdés rosszul lesz megfogalmazva, és
már nincs idő a változtatásra, vagy a kérdezés közben derül ki, hogy valamelyik kérdés “nem
működik”. Ilyenkor nem tanácsos menet közben új eljárásra utasítani a kérdezőbiztost, mert
az adatfeldolgozásnál könnyen összekeveredhetünk, jobb ha tudjuk, hogy a kérdés nem volt
jó, de a válaszok egyöntetűen a rossz kérdésre érkeztek.
28
Az önkitöltős kérdőív előnyei a kérdezőbiztossal történő adatfelvétellel szemben a
gazdaságosság, gyorsaság, nincs kérdezőbiztosi torzítás, valamint a névtelenség, mely a
kényes témák esetében segíti az őszintébb válaszokat.
AZ INTERJÚK
29
(survey), lehetővé teszi mind a vizsgált, mind a vizsgálatunk szempontjából marginális
jelentőségű témákban való elmélyülést.
További előnye a módszernek, hogy interperszonális volta miatt mód van az azonnali
reagálásokra, visszacsatolásokra. Természetszerű, hogy az interjúkészítés során nemcsak
verbális, hanem metanyelvi kommunikáció is zajlik. A gesztusok, a hangszín, a testtartás, a
tekintet egyaránt információforrásként működik az adatfelvétel során.
Mindezeket figyelembe véve érthető, hogy a kutatók a gyakorlati életben ritkán dolgoznak
kizárólag interjúkkal. Sokkal jellemzőbb, hogy a kutatási témával való ismerkedés során
tájékozódási céllal, vagy a kutatás során kiegészítő információk szerzésére használják az
interjút mint adatgyűjtési technikát.
30
van valamiféle iránytűre, ami a beszélgetés során vezet bennünket, hogy célt is érjünk, és az
interjúval ne csak “beszélgessünk egy jót”. Ez az iránytű az interjúterv.
Mivel legtöbbször az interjút készítő és a kérdezett közötti interakció során a kérdező tudja
előre, hogy mit szeretne megtudni, de a kérdések konkrét megfogalmazására nincs előzetes
terve (csakúgy, mint a kérdések sorrendjére), ezt az adatfelvételi módot strukturálatlannak
nevezzük.
Az interjú készítése során ne feledjük el, hogy az alany is – csakúgy mint a kutató – szerepet
játszik, meg akar felelni elvárásunknak, ezért könnyű kiszedni belőle azt, amit hallani
akarunk. Ezért is fontos, hogy a kérdező végig semleges maradjon, továbbá igyekezni kell
nem beleavatkozni, közbeszólni; sugalmazni pedig egyenesen tilos.
Alapvető fontosságú, hogy ami elhangzik, hangszalagra tudjunk rögzíteni, hiszen így lesz
módunk arra, hogy minden szükséges információt kinyerjünk az adatfelvételből.
Elképzelhető, hogy az alanyt zavarja a diktafon, esetleg megkéri a kérdezőt, hogy bizonyos
kérdések esetében szüneteltesse a felvételt. Ebben az esetben eleget kell tenni a kérésének,
mert ezzel növelhető az alany bizalma, őszinte válaszokat kaphatunk. Ha az alany egyáltalán
nem egyezik bele az elhangzottak rögzítésébe, kutatás módszertani szempontból célszerű egy
másik személyt keresni, mert a tapasztalatok alapján szinte lehetetlen utólag rekonstruálni egy
hosszú beszélgetést.
31
Az interjú során nem tanácsos jegyzetelni, ez ugyanis megtöri az interjú spontán beszélgetés
jellegét, jelentősen csökkentheti a válaszadás őszinteségét.
Nagyon fontos az interjú külső viselkedésjeleinek, nem verbális gesztusainak (pl. feszültségre
utaló jeleknek) megfigyelése és az interjú utáni feljegyzése, illetve a mellékkörülmények (pl.
bejön valaki) rögzítése.
MÉLYINTERJÚK
Vannak azonban olyan területek is, ahol a mélyinterjúk kifejezetten előnyös technikának
számítanak. Mivel a mélyinterjúkat legtöbbször négyszemközt folyatják le, így olyan intim
vagy zavarra okot adó témáknál, mint a szexuális viselkedés, a halállal kapcsolatos attitűdök
stb. (ahol nyilván nem lehet egyből a dolgok közepébe vágni) ez a bensőségesebb interjútípus
a célravezető.
CÉLZOTT INTERJÚK
A célzott interjúk készítése során – mint arra már utaltunk – egy adott probléma, jelenség áll
érdeklődésünk középpontjában, nem pedig a komplex személyiség. Az ilyen típusú interjúk
célja az adott témával kapcsolatos tények, vélemények gyűjtése, háttérinformációk
beszerzése. Az interjú körülményei hasonlítanak a mélyinterjúhoz (például itt is egyedi
kérdezés zajlik, bár az elkülönülésnek nincs olyan nagy jelentősége), de a célzott interjú, mint
a neve is mutatja, jobban strukturált. A célzott interjúk során feltett kérdések jellemzői:
32
a kérdések általában legyenek semlegesek, de a nagyobb témákat bevezető kérdések
mindenképpen;
a kérdések legyenek rövidek és világosak;
ne tegyünk fel eldöntendő kérdéseket;
egy kérdés ne tartalmazzon több állítást (többlövetű kérdések);
a kérdéseket általában végig kell járni, az adott témát le kell zárni, mielőtt továbbmennénk
(azt, hogy mit kell végigvinni, az interjúterv mondja meg);
amit nem akarunk végigvinni, arról nem szabad konkretizáló és mélyítő kérdéseket
feltenni;
mindig legyenek tények is, ne csak vélemények, (Mire alapozza a véleményét?).
CSOPORTOS INTERJÚ
A csoportos interjú sajátossága, hogy az empirikus adatok gyűjtése során egyidőben több
“interjúalanyunk” is van. A módszer a csoportos problémamegoldó technikákon alapul,
melynek lényege, hogy egy adott kérdésben, problémakörben a vélemények, tények gyűjtését
egy 8-10 fős csoportban végezzük, ahol a csoportvezető(k) a kutató(k). Ez a kezdeti
tájékozódás szakaszában, vagy a tényleges empirikus adatgyűjtés során egyaránt jól
használható módszer.
A módszer előnyeinél kiemelt helyen kell megemlíteni a hatékonyságát. Egy három órás
“csoportozás” során a célzottan vizsgált problémáról 8-10 ember véleményét, tapasztalatait
lehet strukturáltan összegyűjteni. Ezeken a csoportüléseken összegyűlnek a legjellemzőbbnek
vélt problémák, vélemények halmazai.
33
Nem közömbös az sem, hogy a személyes interjúkhoz képest sokkal olcsóbb adatfelvételi
módról van szó. Ez köszönhető annak is, hogy már a csoportmunka során strukturálódik az
empirikus anyagunk, nagymértékben megkönnyítve ezzel az információk feldolgozását.
A csoport kialakítása során figyelni kell arra, hogy az adott kérdésben jártas, vagy témánk
szempontjából releváns ismeretekkel rendelkező egyéneket hívjunk meg. A munkacsoport
összetételét tekintve törekednünk kell a minél nagyobb fokú heterogenitásra, hogy a vizsgált
problémával kapcsolatos valamennyi vélemény megjelenjen az adatgyűjtés során.
A TARTALOMELEMZÉS
A tartalomelemzés az empirikus kutatási technikák ún. beavatkozás-mentes típusába
sorolható. A beavatkozás-mentes vizsgálatok nagy előnye, hogy a kutatást végzők a vizsgált
probléma realizációjától kellő távolságra, a folyamatokba való beavatkozás lehetőségét
kizárva végezheti az adatgyűjtését. Így nem fordulhat elő, hogy adatfelvételi eljárásunk
befolyásolja a válaszadót.
34
tanulmányozására alkalmas. Az elemzési egységek, szavak, bekezdések, könyvek egyaránt
lehetnek. A tartalomelemzés során a megfigyelési egységeink gyakran esnek egybe elemzési
egységeinkkel
35
A semleges tartalom nem kap jelet. Minden kategóriának kiszámítják a részvételi arányát az
elemzett egységben, míg az előjelek segítségével az egyensúly, vagy egyensúlyhiány
együtthatója számítható ki.
Nem szabad megfeledkezni a módszer hiányosságairól sem. Mindenekelőtt tudni kell, hogy az
objektivitás a legsebezhetőbb pontja. Alkalmazása során erre külön figyelmet kell fordítani.
Ez azt jelenti, hogy a tartalomelemzés során nem kell sok kategóriát megállapítani, a
megállapítottakat pontosan kell definiálni, az elemzőket jól be kell gyakoroltatni és az
elemzés során ugyanazt a tartalmat több elemzőnek kell elemezni.
Nem utolsó sorban meg kell említeni, hogy a számítógép használatára is mind nagyobb
mértékben lehet számítani. Már viszonylag régen kifejlesztették a szöveges adatfeldolgozást
szolgáló programnyelveket. Megjelentek a szószámoló programok. Más tudományágak is
támogatták a számítógép-használatot a tartalomelemzésben. Például a nyelvészek számtalan
módszert kidolgoztak a nyelvi kifejezések szintaktikai elemzésére és szemantikai
interpretációjára.
36
STATISZTIKÁK ELEMZÉSE
Meglévő statisztikákat minden kutatáshoz használunk. Elég, ha például a népesség nem és kor
szerinti megoszlására gondolunk egy közvélemény-kutatás reprezentativitásának
megteremtésekor. A hivatalos statisztikákat érdemes tanulmányozni már a kutatási témával
való ismerkedés, illetve a kutatási terv készítésének szakaszában is.
Az érvényességi problémák mellett oda kell figyelni a megbízhatóság szintjére is. Fontos,
hogy a statisztikai adatunk forrása hitelt érdemlő legyen, pontosan tudni lehessen a főbb
jellemzőit (keletkezési idő, érvényességi kör, adatgyűjtési terület stb.). Soha ne dolgozzunk
olyan adatokkal amelynek nem ismerjük a forrását, és amelynek hitelességét nem tudjuk
ellenőrizni! Azt is fontos észben tartani, hogy gyakran a hivatalos statisztikák nem mindig
nélkülözik a spekulatív számításokat és gyakran pontatlanok.
37
TEREPKUTATÁS
A terepkutatás fogalma alatt a különböző társadalomkutatók különböző technikákat
értenek, annak megfelelően, hogy ki hogyan műveli.
Ezen kutatási technikák közös jellemzője, hogy a kutató a vizsgálatait ott végzi, ahol
az események zajlanak, kimegy a terepre, a szó szoros értelmében a teljes személyével részt
vesz a kutatásban.
W. F. Whyte amerikai szociológus klasszikus elemzése a városi galerikről úgy készült, hogy a
szerző beépült egy ilyen fiatalkorú csoportba, együtt élt velük, s miután hosszú időt eltöltött a
bandában, megírta híres könyvét, „Az utcasarki társadalom” címmel. (W. F. Whyte: The
Street Corner Society. The Social Structure of an Italian Slum. Chichago. 1955).
38
állításokhoz jussunk) valamint érvényességi problémáit (valóban azt mértük-e, amit mérni
akartunk). Óvatosan kell bánni az eredményeink általánosíthatóságával is. A kutatás
megbízhatóságát veszélyeztetheti, hogy a kutatók szubjektív észlelése a kelleténél
hangsúlyosabb szerepet kap.
39
ESETTANULMÁNYOK
Külön kell szólnunk az esettanulmányokról. Esettanulmányok (mely adatfelvételi módot
előszeretettel alkalmaznak szociális munkások) folytatása során már valamilyen lezajlott
történést, jelenséget tanulmányozunk, oknyomozóként megpróbálunk magyarázatot találni a
jelenség által felvetett kérdésekre.
40
AZ ADATFELDOLGOZÁS LÉPÉSEI
1.ábra
A program kiválóan alkalmas a nagy adatállományokból történő adatleválogatásra,
aggregálásra, több fájl egybefésülésére, szűrésre, vagyis az elemzést szolgáló adatkészlet
előállítására. Az így elkészült adatfájlban képezhetők mutatók, indikátorok, indexek, s az új
41
változókkal kiegészült adatfájl további többváltozós analízisek alapjául szolgálhatnak, vagy
exportálható más, pl. térinformatikai programok számára is olvasható formátumba.
2. ábra
42
1. táblázat
Az eredmény (output):
A kérdezett neme
Cumulative
Frequency Percent Valid Percent Percent
Valid férfi 635 41,9 41,9 41,9
nõ 881 58,1 58,1 99,9
3 1 ,1 ,1 100,0
Total 1517 100,0 100,0
Hibás adatok a KSH adatbázisában is előfordulhatnak. Sok esetben azonban ezek a hibák csak
a feldolgozás, elemzés közben derülnek ki, így például ha a vízvezetékhálózatba bekapcsolt
lakások száma meghaladja a lakások számát egy adott településen, csak akkor lesz
észrevehető, ha a két adatot összevetjük, önállóan egy adatsorból nem derül ki a hiba.
Folytonos változók esetében az ellenőrzést a leíró statisztikák, feltáró statisztikák futtatásával
végezzük. Így az érvényes tartományon kívül eső értékekre, vagy a gyanús adatokra is fény
derül. (Pl. Ha a megkérdezett 98 éves, érdemes leellenőrizni, hogy valós adatról van-e szó,
vagy elírás történt.)
43
változó) esetében a rendszer egy kis vonalkával jelzi (vesszővel). Vannak olyan esetek,
amikor fontos, hogy megkülönböztessük azokat az okokat, hogy egy adott kérdésre miért nem
kaptunk választ. Ilyen okok lehetnek a „nem tudja”, vagy a „nem hajlandó válaszolni”, azaz
válaszmegtagadás. Általában ezeket a válaszokat a 8-as és 9-es számok valamilyen alakjával
rögzítjük (pl. 8, 9, 88, 98, 99, 198,199 stb.).
Az így rögzített adatok azonban nem valódi válaszokat tartalmaznak, ezért ezeket külön
definiáljuk hiányzó adatként. Ezek a „felhasználó által definiált” hiányzó adatok (user
defined missing values).
Gondoljunk csak bele, mi történik, ha például az életkor változónál azokat az eseteket, ahol
nem tudják, vagy nem akarják megmondani az életkorukat 198-as és 199-es számokkal
rögzítjük. Ezután ha átlagéletkort számolunk, egészen torz eredményt kapunk. Ha azonban a
198 és 199 adatokat hiányzó adatnak definiáljuk, az átlagszámítás során nem veszi figyelembe
a rendszer.
A hiányzó adatok pótlására többféle lehetőség van, többet maga a program is felkínál. A
legáltalánosabb a változó átlagával való helyettesítés, ezt a statisztikai programok többsége a
feldolgozással egybekötve felkínálja. Külön opció illetve menüpont alatt többféle lehetőség is
van a hiányzó adatok pótlására, így a változó minimális vagy maximális értékével, a változó
mediánjával is helyettesíthető a hiány.
Kérdőívek esetében a legjobban hasonlító kérdőív (rekord) adatával pótolják a hiányzó
értéket, ezzel a módszerrel érhető el a legkisebb torzítás.
Az adatbázis összeállítása
Adatkészlet összeállítása alatt – a feldolgozásra kerülő adatok egy fájlba történő
összerendezését értjük. Három alapvető formája lehet: a változók szerinti leválogatás (Select
Variables), a szükséges esetek kiszűrése (Select Cases) és végül – amennyiben több
különböző eredetű adatbázist is használtunk - a leválogatott adatállományok egymás mellé/alá
rendezése (Merge).
Szűrés, leválogatás
Az adatelőkészítés e szakaszában még olyan adatok is szerepelnek az adatállományban,
amelyekre a statisztikai feldolgozás során nem lesz szükség. Pl. a TSTAR adatbázis
(Településsoros statisztikai adatabázis rendszer, KSH) a Magyarország minden településének
adatait tartalmazza. Ha csak egy bizonyos megye településeit szeretnénk elemezni, vagy
44
valamelyik kistérség településeit, akkor az alapadatbázisból a megye kódváltozója, vagy a
kistérség kódváltozója alapján végezhető szűrés, leválogatás. Természetesen lehetőség van
tetszőleges településekből álló alcsoport létrehozására is.
Alcsoport kiszűrése (kiválasztása) az SPSS programmal
3. ábra
Alcsoport szűrésére szükség lehet kkor is, ha egy kérdőív feldolgozása során egy feltételes
kérdés elemzését végezzük. Ilyen eset lehet például a „Van-e Önnek gyermeke?” kérdést
követő „Ha igen, ....” kezdetű, csak a gyermekesekre vonatkozó néhány kérdés. Ezen
kérdéscsoport feldolgozását úgy végezhetjük el, ha átmenetileg kihagyjuk a feldolgozásból a
gyermekteleneket, vagyos kiválasztjuk az „Igen”-nel válaszoltak alcsoportját. A
feldolgozások végeztével a szűrési feltétel megszüntetésével ismét a teljes sokaságon
folytathatjuk az elemzést.
45
Graphs-Histogram menüpontokkal érhető el az alábbi ábra.Egy 22 településből álló kistérség
népsűrűségének hisztogramja:
4. ábra
Adattranszformációk
Adattranszformációt hajtunk végre, amikor új változót hozunk létre más változók
segítségével, vagy matematikai műveleteket hajtunk végre egy-egy változón, melynek
erdményét új változóban mentjük el. Ilyen például az, amikor a terület és a lakosság
változókból kiszámoljuk a népsűrűséget.
46
Új változó létrehozása SPSS programmal
5. ábra
ADATFELDOLGOZÁS
A kutatás menetét tekintve az adatfelvételi szakasz és az adatok javítása után a vizsgálat
legérdekesebb szakasza következik: az adatok feldolgozása, következtetések levonása, majd a
vizsgálat eredményeinek bemutatása, hasznosítása. Mielőtt azonban az elemzésbe
belekezdenénk, az adatokat rendszerezni kell. Ezután kezdődhet a kutatói munka legjava, az
adatok elemzése, illetve a kapott eredmények megfogalmazása.
Első lépésben az alapstatisztikákat futtathatjuk le a számítógépen. Ezek kategórikus változók
esetében az ún. alapsor, ami a gyakorisági megoszlásokat tartalmazza, folytonos változók
esetében a leíró (Descriptive) jellegű információkat jelenti: legkisebb érték (min), legnagyobb
érték (max), terjedelem (range), medián (a rendezett adatsor középső eleme), átlag, szórás,
variancia, negyedelők (quartilis), interkvartilis terjedelem (kvartilisek közötti távolság - IQR),
95%-os konfidencia-intervallum határok, standard hiba, ferdeség (Skewness).
47
EGYVÁLTOZÓS ELEMZÉSEK
Az adatelemzések “alapfoka” az ún. egyváltozós elemzések végzése. Mint ahogy a neve is
mutatja az eljárás során egyszerre csupán egy változót, egy szempontot vizsgálunk, azt
nézzük meg, hogyan oszlanak meg az eseteink ennek mentén.
MEGOSZLÁSOK
Természetes, hogy legelőször az általunk vizsgált adatok, változók megoszlására vagyunk
kíváncsiak. Nominális és ordinális mérési szintű változók esetében egyváltozós elemzésként a
gyakorisági megoszlások jöhetnek szóba. Megállapítható, hogy a megkérdezettek között hány
férfi, hány nő volt, vagy az egyes vélemény kérdéseknél a válaszok hogyan oszlanak meg a
kategóriák között. A megoszlások kifejezhetők százalékban is.
Intervallum és arányváltozók esetében statisztikai mutatókkal, számadatokkal jellemezhetjük
az adatsort, mint a legkisebb érték, legnagyobb érték, terjedelem, átlag, szórás stb.
Ha egy kutatásban rögzítettük a kereseti viszonyokat, szeretnénk tudni, hogy végül is ki
mennyit keres, vagyis szeretnénk tudni a változó megoszlását. Ennek egyik módja, hogy
sorba rendezzük és felsoroljuk a válaszokat. Valamivel kényelmesebb, ha nem csupán
felsoroljuk az adatokat, hanem kigyűjtjük. Még kényelmesebb, áttekinthetőbb ha a
változónkat csoportosítjuk, kategorizálva adjuk meg. Ez esetben csoportosított adatokat
kapunk: 16 000 forint alatt van 35 válaszoló, 16 001 és 45 000 forint között 125 válaszoló stb.
Kevesebb adatot kell így áttekintenünk, jobban értelmezhetőek a válaszok. De vegyük észre
azt is, hogy ez a lépés már adatredukció, nem tudjuk már azt, hogy hány 36.000 forintos
jövedelem volt a mintánkban, áttértünk ordinális mérési skálára Természetesen a nyers
számok helyett megadhatjuk százalékokkal is az adatainkat.
A feltáró jellegű statisztikai elemzés (Explore) előnye az, hogy nemcsak az alapstatisztikákat
közli, hanem ábrázolva is megmutatja az adatsor eloszlását, elhelyezkedését a skála mentén.
Középértékek
Az egyváltozós elemzések előállítása annyit jelent, hogy a változónkat (amely lekódolva
végső soron egy hosszú számsor) egyetlen mérőszámmal akarjuk kifejezni, hiszen a változó
jellemzésére meglehetősen kényelmetlen mód az összes válasz felsorolása. A változó egyetlen
mérőszámmal való kifejezésére többféle eljárásmód létezik.
48
Összeg – a számsor értékeit összeadjuk;
Négyzetösszeg - a számsor értékeit négyzetre emeljük, majd összeadjuk ;
Módusz – a számsorban a leggyakrabban előforduló érték;
Medián (középső eset) – a növekvő sorba rendezett számsor középső értéke (az adatok
fele az érték alatt van, a fele felette).
Átlag (számtani közép) – a számsor értékeit összeadjuk, majd osztjuk az elemszámmal.
Módusz
Az adatsor leggyakoribb értéke, a leggyakrabban előforduló adat. Bármelyik mérési szinten
meghatározható, már a nominális mérési szinten is.
Példa: A válaszadókat megkértük, a felsoroltak közül válasszák ki a kedvenc
személygépkocsi márkájukat. A válaszok a következőképpen alakultak:
Medián: a növekvő vagy csökkenő sorba rendezett adatsor középső adata (értéke). Az
adatsort éppen felezi, 50-50 %-ban osztja meg. A definícióból is kitűnik, hogy feltétele az
adatsor sorbarendezhetősége. Mediánt ordinális, intervallum és arányskálán mért változón
határozhatunk meg.
49
Példa: Megkérdeztük a válaszadó iskolai végzettségét. A következő eredményt kaptuk:
3. táblázat A válaszadók iskolai végzettsége
Iskolai végzettség Említések száma
Kevesebb, mint 8 általános 78
8 általános 52
Szakmunkásképző 14
Szakközépiskola 79
Gimnázium 130
Technikum 5
Főiskola 9
Egyetem 7
Doktori iskola (PhD) 3
Összesen 377
A számtani átlag
A számtani átlag számított középérték, vagyis származtatott adat. A számtani átlag értéke az a
szám, amely körül az adatsorunk szóródik, amely egy számként helyettesítheti és jellemzi a
sokaságot. Jellemzője, hogy ha „n” adatunk van, és az adatokat összeadjuk, ugyanazt az
összeget kapjuk, mint hogyha az átlagot adjuk össze „n-szer”.
Intervallum és arány skálán mért változókon egyaránt számítható, de nominális és ordinális
mérési szinten nem!
50
Fontos! A számtani átlag érzékeny a kiugró adatokra, ezért extrém értékeket tartalmazó
adatsor esetén a számítását mellőzni kell. A statisztikai programok megadnak a számtani átlag
mellett egy ún. kezelt átlagot is, amit az adatsor felső és alsó 5-5% elhagyása után számítanak
ki. Ha az adatsor nem tartalmaz kiugró értékeket, a kétféle átlag közel azonos eredményt ad.
Ha azonban nagy az eltérés a kettő között, akkor a kezelt számtani átlagról mondható el, hogy
az alapsokaságot jellemző érték, és az adatok nagyrésze e körül szóródik. Például vegyük az
1, 2, 3, 4, 5 számokat. Az adatsor számtani átlaga 3. De mi a helyzet akkor, ha az adatsorunk
1, 2, 3, 4, 103? Az átlag 22,6. Mire jellemző ez a szám? Az alapadatokra biztosan nem!
A szóródás mérőszámai
A szóródási mutatókkal az értékek különbözőségét, változékonyságát jellemezzük.
Range (terjedelem) – a maximális és minimális érték közti különbség, az adatok
szóródásának legegyszerűbb mutatója. Önmagában azonban nem ad megbízható
tájékoztatást az adatsorról, gondoljunk csak a kiugró értékekre. (lásd az átlag példa)
Kvartilisek (negyedelők) - Egy adatsor három kvartilissel rendelkezik. Az alsó, középső
és felső kvartilissel. A kvartilisek negyedelik az adatsort, négy egyenlő elemszámú részre
osztják. Értelemszerűen a középső kvartilis egybeesik a mediánnal. Az alsó kvartilis érték
alatt illetve a felső kvartilis felett van az adatok 25-25 %-a, a két kvartilis az adatok 50%-
át fogja közre.
Interkvartilis távolság (IQR) – A kvartilisek közötti távolságot interkvartilis terjedelemnek
(IQR)-nek nevezzük. A kiugró adatok feltárására használjuk.
Interdecilis távolság – az alsó és a felső tíz százalék közötti távolság
Szórás - az átlag körüli szóródást, az átlagtól való átlagos négyztes eltérést méri.
Mértékegysége megegyezik az alapadatokéval. A variancia a szórás négyzete.
Szórásnégyzet (variancia) – az átlagtól való eltérések négyzet-összege és az elemszám
hányadosa;
Relatív szórás: a szórás és az átlag hányadosa;
Egyéb szóródási mutatók:
- átlagtól való eltérések abszolút értékének összege
- mediántól való eltérések abszolút értékének összege
- átlagtól való eltérések összegének átlaga
- átlagtól való eltérés négyzetösszege
51
Alakmutató számok:
Csúcsosság (kurtosis): Az eloszlás alakjára vonatkozó mutatószám. A normális
eloszlás csúcsossága nulla. Pozitív csúcsossági együttható esetén az eloszlás a
normálishoz képest csúcsosabb, negatív érték esetén pedig laposabb. A felvehető
értékeknek nincs alsó vagy felső határa.
Ferdeség (skewness) Az eloszlás csúcsának a középhelyzethez képest történő
eltolódását fejezi ki. Pozitív érték esetén jobbra ferde, negatív érték esetén balra ferde
eloszlásról beszélünk. A felvehető értékeknek nincs alsó vagy felső határa.
52
5. táblázat
A 22 településből álló kistérség népsűrűségének szár-levél diagramja
Gyakoriság Szár (stem) Levelek (leaf)
(db) (tízes helyiérték) (egyes helyiérték)
1 1 9
0 2
1 3 2
4 4 0017
1 5 1
6 6 136788
4 7 1589
0 8
1 9 6
4 Extremes (>=131)
A megjelenítés következő lépéseként az adatsorból boxplot készül. A boxplot egy olyan ábra,
mely a leíró statisztika legfontosabb öt értékén alapszik, nevezetesen a legkisebb és
legnagyobb értékeken, a negyedelőkön és a medián értéken. A box maga egy számegyenes
mentén megjelenő, a két negyedelő érték által határolt doboz, a medián értéknél egy
törésvonallal. A box az adatok 50%-át foglalja magába.
A kiugró adatok megjelenítésére kétféle jelölést is láthatunk a következő ábrán. Mielőtt
azonban magyarázatot adunk a kétféle megjelenítésre, tisztázzuk a belső és külső határolópont
fogalmát:
A belső határoló pontokat úgy kapjuk meg, hogy az alsó negyedelő (Q 1) értékből kivonjuk, a
felső negyedelő (Q3) értékhez pedig hozzáadjuk az interquartilis terjedelem (IQR)
másfélszeresét. A külső határoló pontokat ugyanezen módszerrel határozzuk meg, de az IQR
háromszorosával végezve a műveletet.
A belső határoló ponton kívül eső, de a külső határoló ponton belül elhelyezkedő értékek –
enyhén kiugró értékek – kör szimbólummal, míg a külső határolóponton kívüli értékek –
extrém kiugró értékek – csillag szimbólummal vannak jelölve. A szimbólumok mellett az eset
azonosítója (sorszáma) is megjelenik, így lehetőség van ezek visszakeresésére.
53
A népsűrűség ábrázolása boxploton
500
19
400
300
200
15
7
12
100
-100
N= 22
népsûrûség (fõ/km2)
6. ábra
INDEXSZERKESZTÉS
Miután elvégeztük az alapvető statisztikai mutatók kiszámítását, külön-külön átvilágítottuk az
egyes változókat, megpróbálhatjuk együttesen elemezni a változó csoportokat. Egy-egy
problémakör jellemzésére rendszerint több változó szolgál. Ezek a változók egy csoportba
tartoznak, segítségükkel a problémakör átfogóan is jellemezhetővé válik. Például egy térség
demográfiai helyzetének jellemzésére szolgál a természetes szaporodás, öregedési index,
eltartottsági ráta, korcsoportos megoszlások stb. Egyesével vizsgálva a mutatókat nem
vonhatunk le általános következtetést a térség demográfiai helyzetére vonatkozólag, csak a
részletekről nyilatkozhatunk. Ha azonban a demográfiai mutatók alapján egy ún. demográfiai
indexet készítünk, amellyel a kedvező ill. kedvezőtlen folyamatokat jellemezzük, a térség
egészére nézve a demográfiai szintjéről tudunk nyilatkozni.
Az indexszerkesztés adatredukciós eljárás, melynek során több, különböző mérési szintű
alapmutatót vonunk össze egyetlen változóba. Az indexváltozónk ordinális mérési szintű
változó, az eseteket rangsorolni tudjuk az adott szempont szerint. Az indexeket úgy képezzük,
hogy az egyes alapmutatók meghatározott értékeihez rendelt pontszámokat összeadjuk.
Példának álljon itt egy településcsoport demográfiai indexének elkészítése. A demográfiai
helyzet jellemzésére a következő mutatókat vesszük figyelembe: Természetes
szaporodás,vándorlási egyenleg, népsűrűség, öregedési index, korcsoportos megoszlások (pl.
60 év felettiek aránya, 14 év alattiak aránya)
54
A természetes szaporodás mutató értékterjedelme -10 és +4 közötti, kategorizáljuk az adatsort
az alábbiak szerint:
(-10;-4) → -1 pont
(-4; 0) → 0 pont
(0;+4) → +1 pont
55
mérjük. Ha egy változónk több másik változóval sem mutat összefüggést, ki kell hagyni az
indexszerkesztésből.
Miután kiválasztottuk mely kérdések kerülnek be az indexbe, meghatározzuk az egyes
válaszokhoz tartozó pontértékeket. Nagyon fontos, hogy az attitűdök megítélése és a
pontszámok értéke azonos irányú legyen minden egyes kérdés esetén. Ha például az egyik
kérdésben azt kérdezzük mennyire ért egyet azzal hogy a turisták csak szemetelnek és
hangoskodnak, a másik kérdésben pedig azt kérdezzük, hogy fogadna-e turistákat a házában,
nyilvánvaló hogy az egyik esetben a teljes mértékig egyet ért válasz a turisták ellen, a másik
mellettük szól, vagyis a válaszskálához rendelt pontértékeket fordított sorrendben kell
meghatározni.
56
Az index fordítottan tartalmazza az értékeket, vagyis 1 az értéke, ha nem főállásban, hanem
kiegészítő tevékenységként, 2 az értéke ha főállásban végzi a tevékenységet, 3, ha mindkettő
igaz a kérdezettre..
Az indexek képzését átkódolással oldottuk meg, vagyis az 1-es válaszból 2-est, a 2-es
válaszból 1-es értéket rendeltünk a kor2 változóhoz, a 3-as válasz esetén értelemszerűen 3-
ast.
A kornyint index értékét a négy részindex összege adja. Maximális értéke 12 lehet, ami a
környezetvédelemmel való legnagyobb mértékű érintettséget jelentené.
57
Az index megoszlása a következő:
457 értékelhető válasz volt és 12 hiányzó adat.
Az első oszlopban az elért pontszámok, a másodikban azok gyakoriságát (frequency)
láthatjuk. A harmadik oszlop a százalékos megoszlást adja (percent) arra az esetre, ha a teljes
sokaságot (469) tekintjük 100 %-nak. A „Valid percent” oszlopa a százalékos megoszlás úgy
fejezi ki, hogy a hiányzó adatokat nem tekinti a sokaság részének, vagyis a 100 %-ot azok
nélkül, a 457 eset jelenti.
6. táblázat
A Környezetvédelemmel való érintettség index megoszlása
A határok meghatározására nem lehet előre gyártott képletet adni. Minden elemzés újabb és
újabb döntési helyzet elé állítja a kutatót: a kategóriák számát és a ponthatárokat is minden
esetben saját szakmai megítélésünk és az elemzés mélységének igénye alapján határozzuk
58
meg. Általában a változó értékeinek kategóriákba való besorolását, ha a mérési szint lehetővé
teszi, az átlag és a szórás segítségével oldhatjuk meg. Az átlagtól kiindulva mindkét irányban
egy, vagy 0,5 szórásegységnél húzzuk meg a kategória határát, és így teszünk a továbbiakban
is. Ha az eloszlás nem közelít a normálishoz, igen ferde, akkor ezt a módszert nem
alkalmazhatjuk. Ilyen pl. a KORNYINT változó is, ahol az egyik kategóriába a válaszadók
háromnegyede tartozott. Ilyen esetekben arra kell törekedni, hogy minden kategóriába még
elemezhető esetszám kerüljön.
A KORNY változó tartalmazza a kialakított érintettségi kategóriákat. A KORNYINT
indexben 0 pontot elért válaszadók a nem érintett kategóriába, az 1-2-3 pontot elért
válaszadók a gyengén érintett kategóriába, míg a 4 vagy annál több pontot elért válaszadók az
erősen érintett kategóriába kerültek.
7. táblázat
A környezetvédelemmel való érintettség index kategóriái
59
ADATFELDOLGOZÁS – KÉT ÉS TÖBBVÁLTOZÓS ELEMZÉSEK
Az egyváltozós elemzések során a változó leírásán túlmenően juthatunk mélyebb
ismeretekhez is. Ennek legegyszerűbb módja, ha a változó alcsoportjait hasonlítjuk össze. Itt
már minimum két változónak kell szerepelnie elemzésünkben. Ilyen elemzés például amikor a
megkérdezettek testmagasságán belül külön vizsgáljuk a férfiak és a nők testmagasságát. A
két alcsoport összevetésének célja – csakúgy mint az egyváltozós elemzéseknél – a leírás. Az
bonyolultabb két, illetve többváltozós elemzések nem leíró jelleggel készülnek, hanem a
változók közötti összefüggés magyarázataként.
A többváltozós elemzések során mindig számolnunk kell függő és független változókkal.
Ilyen elemzéseknél a változók viszonyát például két- vagy többdimenziós kereszttáblák
segítségével tanulmányozhatjuk. Kétváltozós magyarázó kereszttábla elkészítésekor figyelni
kell arra, hogy mely változónk a függő és melyik a független. Az eseteket a független változó
attribútumai szerint csoportosítsuk. A független változó mindig “keményebb” ismérvekkel
rendelkezik és felcserélésük számos félreértésre ad alkalmat. Így például az iskolai végzettség
(független változó) határozza meg a munkahelyi fizetés mértékét (függő változó) és nem
fordítva.
A kétváltozós elemzés során tapasztaltak esetében (is) fontos tudnunk, hogy az általunk talált
összefüggés eredhet-e mintavételi hibából. Ennek mutatója lehet a khi-négyzet (Chi 2) próba.
A próba során kapott érték a mintában megfigyelhető eloszlás, illetve azon eloszlás közötti
eltérést mutatja, amelyet akkor várhatnánk, ha nem volna a két változó között semmi
kapcsolat.
A többváltozós elemzések vázlatos bemutatása sem nélkülözheti a Lazarsfeld-paradigma
ismertetését. A technika célja a változók közötti kapcsolatok részletes feltárása az elemzés
során, hogy megértsük két változó kapcsolatát azáltal, hogy további változókat vonunk be az
elemzésbe.
Az elemzés két fő lépésből áll.
Először kontrollváltozó segítségével a két változó mintáját almintákra osztjuk. Fontos
tudnunk, hogy a két változónk közötti “térben” hol helyezkedik el a kontrollváltozó: megelőzi
mindkét változót, vagy a két változó közbe esik. Érthetőbben: tételezzük fel, hogy A változó
hat B-re, C pedig a kontrollváltozó. Ha megelőző típusú a kontrolváltozó, akkor C hat A-ra is
és B-re is. Ha C közbeeső változó, akkor A hat C-re és C hat B-re, ezért találtuk úgy, hogy A
hat B-re az eredeti elemzésben.
60
Egy szociológiai vizsgálatban azt találták, hogy minél többet nézi valaki a televízió híradóját,
annál magasabb a politikai ismeretszintje. Ez nagyon logikus eredmény volt és sokan ebben a
híradó stábjának sikeres tevékenységét látták. Amikor azonban megvizsgálták az iskolai
végzettség hatását, rájöttek, hogy mivel az iskolai végzettség mind a politikai ismeretszinttel,
mind a tv híradó nézésének gyakoriságával pozitívan függött össze, az eredeti következtetés
érvényessége megkérdőjeleződött.
Második lépésként külön-külön mindegyik almintára meghatározzuk a két eredeti változó
kapcsolatát. E munkafázis során négyféle kimenet lehetséges:
Replikáció: a kontrollváltozó bevonásával talált kapcsolatok megegyeznek az eredetivel,
nem hat rájuk a kontrollváltozó.
Explanáció: a kontrollváltozó megelőzi mindkét változót, a talált kapcsolatok pedig
gyengébbek az eredetinél. A két változó között talált kapcsolat csak látszólagos, mert
valójában a kontrollváltozó hat mindkettőre.
Interpretáció: a független változó hat a közbeeső változóra (kontroll-változó), az pedig a
függő változóra. Az eredeti összefüggés tehát igaz, de árnyaltabb képet kapunk.
Specifikáció: ha a kontrollváltozó segítségével definiált kapcsolatok erősen eltérnek
egymástól, akkor csak arra jutottunk, hogy pontosabban meghatároztuk, milyen feltételek
közepette áll fenn az eredeti összefüggés.
61
regresszióanalízis. Alcsoportok kialakítására, a legjobban hasonlító esetek (pl. települések)
alcsoportba rendezésére alkalmas módszer lehet a klaszteranalízis. Kialakult alcsoportok főbb
jellemzőinek meghatározását pl. diszkriminancia analízissel végezhetjük el.
ÖSSZEFÜGGÉSVIZSGÁLATOK
Kereszttábla elemzés
Nominális vagy ordinális változók közötti összefüggések feltárására alkalmas módszer a
kereszttábla elemzés. Adataink kategorikus, vagy kategorizált metrikus változókban vannak
szerepeltetve. A kereszttábla elemzés tulajdonképpen nem más, mint két gyakorisági
megoszlás együttes vizsgálata.
A nullhipotézisünk az, hogy a két tulajdonság független egymástól. Ha az elemzés során a
nulhhipotézist elvetjük, azt jelenti, hogy a két változó nem független, vagyis van összefüggés
a két jellemző között. Nézzük példának az életkori kategória és az iskolai végzettség kategória
változók ketreszttábláját. Nullhipotézisünk az, hogy az iskolai végzettség független attól,
hogy valaki mennyi idős, melyik életkori csoportba tartozik.
Analyze – Descriptive – Crosstabs menüpontokkal érhető el az alábbi ablak.
7.ábra
A Statistics menüpont alatt állítsuk be a Chi négyzet (Chi sqare) próbát.
A kereszttáblával kapcsolatos statisztikák közül a leggyakrabban használt a Pearson-féle Khi-
négyzet statisztika, amely a két kategorikus (nominális vagy ordinális) változó közötti
összefüggés statisztikai szignifikanciáját méri. A mutatószám alapján megállapítható, hogy
esetünkben az iskolai végzettség és az életkori kategória között van-e statisztikailag is
kimutatható összefüggés.
62
8. ábra
A Cells menüpont alatt kérjük a várható értéket (expected), valamint a sorszázalékot.
9. ábra
8. táblázat
Eredmény
KORKAT * ISKKAT Crosstabulation
ISKKAT
alapfok középfok felsőfok Total
KORKAT fiatal Count 62 261 17 340
Expected Count 75,5 231,5 32,9 340,0
% within KORKAT 18,2% 76,8% 5,0% 100,0%
fiatalos Count 59 406 71 536
Expected Count 119,1 365,0 51,9 536,0
% within KORKAT 11,0% 75,7% 13,2% 100,0%
középkorú Count 65 174 33 272
Expected Count 60,4 185,2 26,4 272,0
% within KORKAT 23,9% 64,0% 12,1% 100,0%
idős Count 151 192 26 369
Expected Count 82,0 251,3 35,8 369,0
% within KORKAT 40,9% 52,0% 7,0% 100,0%
Total Count 337 1033 147 1517
Expected Count 337,0 1033,0 147,0 1517,0
% within KORKAT 22,2% 68,1% 9,7% 100,0%
Chi-Square Tests
Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 133,273a 6 ,000
Likelihood Ratio 130,772 6 ,000
Linear-by-Linear
43,078 1 ,000
Association
N of Valid Cases 1517
a. 0 cells (,0%) have expected count less than 5. The
minimum expected count is 26,36.
63
Az eredmények alapján levonjuk a következtetést: az életkor és az iskolai végzettség között
szignifikáns, statisztikaialag kimutatható összefüggés van. Már csak az a kérdés, hogy hogyan
függ össze a két jellemző?
A teljes sokaság megoszlását a Total sorban láthatjuk, vagyis a megkérdezettek 22,2 %
alapfokú, 68,1% középfokú, 9,1 % felsőfokú végzettséggel rendelkezik. Ahol ezektől a
peremeloszlásoktól erősen eltérő megoszlásokat találunk, ott valószínűsíthető a statisztikai
összefüggés. Például az idősek alcsoportját elemezve láthatjuk, hogy a teljes sokaság 22,1%-
ához képest az időseken belül ez a megoszlási arányszám 40,9 %, vagyis biztosan állíthatjuk,
hogy az idősekre az alcsony iskolai végzettség jellemző. A fiatalos alcsoportban erősen
szembetűnő, hogy míg az alcsony iskolai végzettségűek részaránya mindössze 11,0%,
középfokú végzettséggel a 68,1%-hoz képest 75,7%, felsőfokű végzettséggel pedig a 9,1%-
hoz képest több mint 13 % rendelkezik.
A Khi-négyzet érték alapján csak annyit tudunk megállapítani, hogy van-e szignifikáns
összefüggés a két változó között, a kapcsolat erősségéről azonban nem mond semmit. A
kapcsolat erősségére, amennyiben azt tapasztaltuk, hogy van összefüggés, a változók mérési
szintjétől függően többféle együttható alkalmazására is van mód.
Nominális szintű változók között a Phi, a contingencia együttható vagy a Cramer V
együttható, illetve a lambda vagy a Goodman és Kruskal féle Tau mutatók alkalmazhatók
Ordinális skálák esetében a két változó értékeienk sorrendje között keressük az összefüggést.
Itt alkalmazható mutatók a Kendall-féle tau, vagy a Gamma mutató.
A kereszttábla olvasása
Egy kétváltozós magyarázó táblázat elkészítése.
1. Az eseteket a független változó értékei szerint csoportosítjuk.
2. Ezután leírjuk a kapott alcsoportokat a függő változó értékei szerint.
3. Végül a táblázatot úgy olvassuk, hogy a független változó szerinti alcsoportokat a függő
változó egy adott értéke szempontjából összehasonlítjuk egymással.
Nézzük példának a nem és a környezetvédelemmel való érintetség elemzését, ezeket a
lépéseket követve. A nem a független változó; a környezetvédelemmel kapcsolatos érintetség
jelenti a függő változót. Ezért a következőképpen járunk el:
1. Az eseteket nőkre és férfiakra osztjuk.
2. A nem szerinti alcsoportokat a környezetvédelemmel kapcsolatos érintetség fokozati szerint
jellemezzük.
64
3. Összehasonlítjuk a nőket és a férfiakat abból a szempontból, hogy hány százalékuk tartozik
az erősen érintett kategóriába.
A táblázatszerkesztés első lépése az, hogy a teljes mintát alcsoportokra osztjuk, egyidejűleg
mindkét független változó különböző jellemzői szerint: érettségi nélküli férfiakra,
érettségizett férfiakra, érettségi nélküli nőkre és érettségizett nőkre. Aztán a különböző
alcsoportokat leírjuk a függő változó szerint, és összehasonlításokat teszünk.
A táblázatban oszlopszázalékok szerepelnek, tehát keresztben, a sorok mentén kell olvasnunk.
A táblázatból több következtetést is levonhatunk.
l. A férfiak és a nők körében is, kevésbé érintettek az érettségi nélküliek, mint az
érettségizettek. A nők közül az érettségi nélküliek 90 százaléka, az érettségizettek 60
százaléka nem érintett.
2. Mindkét iskolai végzettségű csoportban kevésbé érintettek a nők, mint a férfiak. A nők 90
százaléka, a férfiak 78 százaléka nem érintett az érettségi nélküliek csoportjában. A nők 60
százaléka, a férfiak 48 százaléka nem érintett az érettségizettek között..
3. Az iskolai végzettség, ahogy itt mértük, úgy tűnik, erősebben befolyásolja az attitűdöket,
mint a nem. Az iskolai végzettség hatását a férfiak és a nők körében is 30 százalékpontos
különbségként jellemezhetjük. A férfiak és a nők között pedig mindkét életkori csoportban 12
százalékpontos különbség van.
65
4. Az iskolai végzettség és a nem egymástól függetlenül hat az attitűdre. Az egyik független
változó egyik kategóriáján belül a másik független változó attribútuma továbbra is
befolyásolja az attitűdöt.
5. Ugyanígy, a két független változó hatása összegződik. Az érettségi nélküli nők a
legkevésbé érintettek, az érettségizett férfiak a leginkább érintettek.
Korreláció és Regresszió-számítás
Két folytonos változó közötti összefüggés - lineáris kapcsolat – szorosságát a korrelációs
együtthatóval mérjük. (A változók közötti összefüggést korrelációnak nevezzük.)
A korrelációs együttható (r) értéke -1 és +1 között helyezkedik el. Minél közelebb van
abszolút értékben az 1-hez, annál szorosabb a kapcsolat a változók között. Minél közelebb
van a 0-hoz, annál gyengébb a kapcsolat.
A korrelációs együttható négyzetét determinációs együtthatónak (r2) nevezzük. Arra ad
választ, hogy a függő változó varianciáját - változékonyságát - hány százalékban magyarázza
a független változó.
+1 a korrelációs együttható értéke, ha függvényszerű kapcsolat van a két változó között és az
egyik változó növekedése mellett a másik változó is növekszik. -1 esetén csökkenő
függvényszerű kapcsolat van.
A regresszió-számítás az összefüggésekben lévő tendenciát vizsgálja és a kapcsolat
természetét valamilyen függvénnyel írja le.
Szoros korreláció esetén a regressziós függvényt az összefüggés leírására használhatjuk és
olyan értékek becslését is elvégezhetjük a segítségével, amelyekre nem rendelkezünk mérési
adattal.
A lineáris függvény egyenlete a következő:
Y=b0+b1X
Ahol Y a függő változó becsült értéke, x a független változó
b0 a konstans tag, azt mutatja meg, hogy a becslő függvény hol metszi az y tengelyt.
b1X a becslő egyenes meredeksége, azt mutatja meg, hogy az x változó egy egységnyi
növekedése az y tengely mentén mekkora növekedést illetve csökkenést eredményez.
66
10. táblázat
Év Munkanélküliségi Inflációs ráta
ráta % (Y) % (X)
1980 7,5 21,2
1981 8,3 19,3
1982 8,9 16,3
1983 9,8 14,6
1984 10,2 10,8
1985 10,5 9,2
1986 11,4 5,9
1987 12,5 4,7
1988 12,0 5,0
1989 12,0 6,3
1990 11,0 6,5
67
1. Ábrázoljuk a két változó pontdiagramját.
Graph → Scatter → Simple Scatterplot Válasszuk ki a változókat a megfelelő
helyekre, majd OK
Define
OK
12
11
munkanélküliségi ráta (Y)
10
7
0 10 20 30
14. ábra
A pontdiagram alapján feltételezhető a lineáris kapcsolat a két változó között.
68
11. táblázat
Correlations
munkanélkül inflációs
iségi ráta (Y) ráta (X)
munkanélküliségi ráta (Y) Pearson Correlation 1 -.978**
Sig. (2-tailed) . .000
N 11 11
inflációs ráta (X) Pearson Correlation -.978** 1
Sig. (2-tailed) .000 .
N 11 11
**. Correlation is significant at the 0.01 level (2-tailed).
A korrelációs együttható értéke: -0,978, ami szoros negatív összefüggést jelent. Vagyis minél
magasabb az inflációs ráta annál alacsonyabb a munkanélküliségi ráta és fordítva. A
korrelációs együttható tesztelése következő:
A nullhipotézis az, hogy az r értéke =0-val.
Ha a szignifikancia szint kisebb, mint 0,05 (esetünkben 0,000), elvetjük a nullhipotézist és azt
mondjuk, hogy r értéke szignifikánsan (statisztikailag igazolható módon) eltér nullától, vagyis
annyi, amennyit látunk a cellába leírva.
A szignifikáns r értéket a program csillaggal is megjelöli. Egy csillaggal jelöli a 95%-os
megbízhatóságú korrelációs együtthatót, két csillaggal jelöli a 99%-os megbízhatóságú
korrelációs együttható értéket.
2. A következő lépés a regressziós egyenes paramétereinek a becslése.
Analyze → Regression → Linear
(A „Dependent” változó a függő változó, vagyis az Y, az „Independent” változó(k) a
független változó(k) vagyis az X(-ek).)
Ennek megfelelően válasszuk ki a változókat:
OK
15. ábra
69
Az eredmények a következők:
12. táblázat
Model Summary
13. táblázat
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 25.222 1 25.222 199.106 .000a
Residual 1.140 9 .127
Total 26.362 10
a. Predictors: (Constant), inflációs ráta (X)
b. Dependent Variable: munkanélküliségi ráta (Y)
Sig értéke 0,000 vagyis elvetjük a nullhipotézist, tehát r értéke nem nulla, hanem 0,978
(abszolút értékben, bár ez itt nem látszik).
Tesztelni kell az egyenes paramétereit a b0=0 és a b1=0 nullhipotézisekre.
14. táblázat
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 13.251 .230 57.494 .000
inflációs ráta (X) -.264 .019 -.978 -14.110 .000
a. Dependent Variable: munkanélküliségi ráta (Y)
70
A konstans értéke 13,251, a teszt szignifikancia értéke 0,000, vagyis elvetjük a nullhipotézst
és elfogadjuk a konstans értékre a 13,251-et. Jelentése: A becslő függvény 13,251-nél metszi
az y tengelyt vagyis az x=0 értékhez ez az érték tartozik.
Az x változó együtthatója -0,264, szintén szignifikánsan eltér 0-tól, tehát a becslő
függvényünk a következő:
Y=13,251-0,264 X
Jelentése: Ha az X változó 1 egységgel növekszik, az Y változó 0,264-dal csökken. (Az
inflációs ráta 10 egységnyi növelésével a munkanélküliségi rátában 2,6 egységnyi csökkenést
tudunk elérni.)
Fontos: Ha a regressziós együttható esetében megtartjuk a nullhipotézist az egyenes egyenlete
nem írható fel és nem alkalmazható becslésre (ebben az esetben ugyanis az egyenes
meredekség valójában nem ismert).
A kérdés így szólt: Ha a 90-es évekre az inflációt sikerül 6%-os szinten tartani,
becsüljük meg a munkanélküliség várható ráta értékét!
Behelyettesítjük az X változó helyére a 6-os értéket és kiszámoljuk a becsült
munkanélküliségi rátát (Y-t).
Y=13,251-0,264 * 6
Y=11,667
71
Többszörös lineáris regresszió
Példa. 10 elemű minta adatai alapján vizsgálták a napi TV nézésre fordított idő (Y), a családi
állapot, (X1), az életkor (X2), az iskolai végzettség (X3) és a település típusa (X4) közötti
összefüggést a felnőtt népesség körében.
15. táblázat
Mintabeli adatok
Y X1 X2 X3 X4
18 1 25 14 1
58 1 30 12 1
80 1 32 10 0
91 0 25 16 0
104 0 20 8 1
115 0 19 13 0
132 1 47 12 1
145 1 50 6 0
175 1 56 6 0
242 0 62 5 1
A feladat az, hogy kiválasszuk azokat a magyarázó változókat, amelyek releváns kapcsolatban
állnak az Y függő változóval (5%-os megbízhatósági szint mellett). Hétköznapi nyelven
fogalmazva keressük azokat a tényezőket, amelyekről statisztikailag igazolhatóan állítható,
hogy hatással van a napi TV nézés mennyiségére.
Ezt egy többváltozós regressziós egyenlet formájában fejezhetjük ki:
Y=b0+b1X1+b2X2+b3X3 +b4X4+e
ahol
Y = a napi TV nézésre fordított idő (perc/nap)
X1 = 0, ha egyedül él, 1 egyébként
X2 = életkor években
X3 = befejezett iskolai évek száma
X4 = 0 ha község, 1 ha város
b = regressziós együtthatók (súlyok)
e = maradéktag (reziduum)
Az egyenlet végén a maradéktag (e) az Y ingadozásának azon része, amely nem írható az
elemzett X változók számlájára. Ebből az egyenletből kiindulva kiszámíthatók a b értékek;
72
melyek megmondják, hogy mekkora az egyes független változók szerepe a napi TV nézésre
fordított idő meghatározásában. Kiszámítható a többszörös korrelációs együttható értéke is,
amely azt mondja meg, hogy a napi TV nézésre fordított időt milyen mértékben teszi előre
jelezhetővé a négy független változó együtt. A többszörös korrelációs együttható jele a nagy
R.
Az SPSS Statisztikai menüpontja alatt található a lineáris regresszió parancs, amelynél
beállíthatók a függő és független változók, valamint a többváltozós regressziós eljárás típusa.
Az egyik leggyakrabban alkalmazott eljárás az ún. Backward eliminációs eljárás, amelynek
lényege, hogy első lépésben minden független változót beépít a regressziós modellbe, majd a
nem szignifikáns (statisztikailag nullától nem különböző) paraméterekkel rendelkező változók
közül a legalacsonyabb t-próba értékkel rendelkező változót elhagyja a modellből és újabb
regressziós egyenletet számol.
Az SPSS statisztikai program lineáris regresszió parancsablaka
16. ábra
A folyamat addig ismétlődik, amíg csak nullától szignifikánsan különböző paraméter értékű
változók maradnak a regressziós modellben.
Első lépésben megkapjuk a változók leíró statisztikai értékeit, és a korrelációs együtthatókat.
16. táblázat
A változók átlaga és szórása
Átlag Szórás
Y 116.0 62.79
X1 0.6 0.52
X2 36.6 15.74
X3 10.2 3.79
73
X4 0.5 0.53
A korrelációs együtthatók az egyes változók közötti lineáris kapcsolatok szorosságát adják
meg.
17. táblázat
A változók közötti korreláció vizsgálata
Korreláció Y X1 X2 X3 X4
Y 1.000 -.302 .798 -.740 -.087
X1 -.302 1.000 .279 -.068 .000
X2 .798 .279 1.000 -.719 .013
X3 -.740 -.068 -.719 1.000 .000
X4 -.087 .000 .013 .000 1.000
Szignifikancia
Y . .199 .003 .007 .405
X1 .199 . .218 .426 .500
X2 .003 .218 . .010 .485
X3 .007 .426 .010 . .500
X4 .405 .500 .485 .500 .
A táblázatból kitűnik, hogy a függő változóval X2 és X3 korrelál szignifikánsan, azaz első
megítélésre a kor és az iskolai végzettség mutat összefüggést a TV-nézés napi időtartamával.
Azt is láthatjuk azonban, hogy a két változó nem független egymástól sem, a kor és az iskolai
végzettség között negatív kapcsolat mutatható ki (-0,719).
Vigyázni kell, nehogy elhamarkodottan vonjunk le következtetést, miszerint minél
iskolázatlanabb valaki, annál több időt szentel a TV nézésre. A következőkben kiderül, hogy
ez a szorosnak tűnő kapcsolat valójában a kor és az iskolázottság közötti összefüggésnek
tulajdonítható csupán.
18. táblázat
Az R2 alakulása a modell változása során lépésenként
Modell R R2
1a .981 .961
2b .976 .952
3c .966 .934
a Független változók: (Konstans), X4, X1, X3, X2
b Független változók: (Konstans), X1, X3, X2
c Független változók: (Konstans), X1, X2
74
elsősorban az illeszkedés jóságának megítélésére szolgál. (Ha értéke 1, függvényszerű a
kapcsolat a függő és független változók között. Ha értéke 0, nincs összefüggés közöttük.)
19. táblázat
A b paraméter értékének és szignifikanciájának alakulása a modell változása során
lépésenként
Modell b t próba Szignifi- Parciális
regressziós kancia. korreláció
együttható R
1 (Constant) 76.004 2.015 .100
X1 -65.736 -5.795 .002 -.933
X2 3.230 6.046 .002 .938
X3 -3.229 -1.514 .190 -.561
X4 -11.692 -1.117 .315 -.447
2 (Constant) 70.915 1.856 .113
X1 -65.650 -5.671 .001 -.918
X2 3.218 5.904 .001 .924
X3 -3.264 -1.501 .184 -.522
3 (Constant) 17.825 2,107 ,080
X1 -69.095 -6,590 ,001 -,937
X2 3.815 8,870 ,000 ,964
a Függő változó: Y
A parciális korrelációs együttható valamely kiválasztott magyarázó (független) változó és a
függő változó közötti kapcsolat szorosságát mutatja meg, ha a többi magyarázó változó
hatását kiszűrjük.
Eszerint nagyon erős negatív kapcsolat van az életkörülmények és a TV nézés időtartama
között, vagyis az egyedül élők statisztikailag igazolhatóan többet néznek, míg a kor
növekedésével a TV nézés időtartama is nő, pozitív irányú a kapcsolat X2 és Y között.
Az optimális függvényhez három lépésben jutottunk el. A harmadik lépésben olyan
modellt kaptunk, amelyben már csak nullától szignifikánsan különböző b paraméterekkel
rendelkező változók szerepelnek.
A regressziós függvény a következő:
Y’ = 17,8 - 69,1 X1 + 3,8 X2
Az eredmények azt mutatják, hogy az iskolai végzettség (X3) és a település típusa (X4) nem
befolyásolja a TV nézésre fordított idő nagyságát. Csak az X1 és az X2 változó paraméterei
különböznek szignifikánsan nullától. A függvény szerint a házasságban (élettársi viszonyban)
élők naponta átlagosan 70 perccel kevesebbet nézik a TV-t, azonos életkort feltételezve.
75
AZ EREDMÉNYEK BEMUTATÁSA
A fenti rövid áttekintés is nyilvánvalóvá teszi, hogy a statisztikai elemzés nem nélkülözheti a
számítógépes hátteret. Az elemzések elvégzését segítő szoftvernek elsősorban SPSS
programcsomagot ajánljuk.
Az adatok feldolgozása, elemzése során figyelni kell arra, hogy a sok érdekes
“felfedezés” mellett ne feledkezzünk meg kutatási hipotézisünk igazolásáról vagy cáfolásáról,
a következtetések levonásáról valamint az eredmények folyamatos rögzítéséről. Mindez
elengedhetetlen feltétele az eredmények rendszerezésének.
Az elemzés során – tapasztalatok alapján – törekedni kell arra, hogy csak azt tudjuk
meg ami érdekel minket. Ellenkező esetben akár évekig is elemezhetnénk egy kutatás
empirikus anyagait. Ez azt is jelenti természetesen, hogy az adatgyűjtés során sok olyan tényt,
mutatót, véleményt rögzítünk, amit a későbbiekben nem használunk fel.
Az eredmények megfogalmazása során új hipotézisek, felvetések is születnek. Ezek jó
kiinduló pontjai lehetnek egy másik kutatásnak.
A kutatási eredményeinket mindenképpen összegeznünk kell egy jó szerkesztett,
áttekinthető kutatási beszámolóban. A kutatási beszámolóban nyilvánvalóan nem kell
rögzíteni minden lépést, minden statisztikai próbát. Elkészítése során arra kell törekedni, hogy
mások is megértsék a kutatás legfőbb eredményeit.
76