You are on page 1of 133

Szegedi Tudomnyegyetem

Juhsz Gyula Pedagguskpz Kar

Csallner Andrs Erik

Bevezets az SPSS statisztikai programcsomag


hasznlatba

Jegyzet

SPORTINFORMATIKA SZAKIRNY TOVBBKPZS

Szeged, 2015
Tartalomjegyzk

1. Bevezets ....................................................................................................... 4
2. Az SPSS felhasznli fellete ........................................................................ 5
2.1. A program felptse s indtsa ............................................................. 5
2.2. Adat szerkeszt ....................................................................................... 6
2.3. Adatbeviteli lehetsgek ....................................................................... 10
2.3.1. Az elsdleges adatbevitel ................................................................. 10
2.3.2. A msodlagos adatbevitel ................................................................. 11
2.4. Eredmnyek .......................................................................................... 12
2.5. Menelemek.......................................................................................... 12
2.6. Feladatok ............................................................................................... 25
3. Ler statisztika ............................................................................................ 26
3.1. Alapfogalmak........................................................................................ 26
3.1.1. Helyzetmutatk ................................................................................ 27
3.1.2. Szrdsmutatk .............................................................................. 29
3.1.3. Alakmutatk ..................................................................................... 29
3.1.4. Egyb mutatszmok ....................................................................... 30
3.2. Plda a mutatszmok kiszmtsra .................................................... 31
3.3. Feladatok ............................................................................................... 45
4. Faktoranalzis ............................................................................................... 46
4.1. Alapfogalmak........................................................................................ 46
4.1.1. A faktoranalzis megvalsthatsgnak felttelei ........................... 47
4.1.2. A faktorok szmnak meghatrozsa ............................................... 48
4.1.3. Faktorok rotlsa .............................................................................. 50
4.2. Plda a faktoranalzisre ......................................................................... 50
4.3. Feladatok ............................................................................................... 64
5. Korrelci..................................................................................................... 65
5.1. Alapfogalmak........................................................................................ 65
5.2. Plda a korrelci kiszmtsra ........................................................... 68
5.3. Feladatok ............................................................................................... 78
6. Regresszi .................................................................................................... 79
6.1. Alapfogalmak........................................................................................ 79
6.1.1. Lineris regresszi............................................................................ 79
6.1.2. A legkisebb ngyzetek mdszere ..................................................... 80

2
6.1.3. Az illeszts s a becsls jsga ......................................................... 80
6.1.4. Hipotzisvizsglat ............................................................................ 81
6.1.5. Rezidulisok vizsglata .................................................................... 82
6.2. Plda regressziszmtsra.................................................................... 82
6.3. Feladatok ............................................................................................... 88
7. Kereszttbla elemzs .................................................................................... 89
7.1. Alapfogalmak........................................................................................ 89
7.1.1. A cellk tartalma .............................................................................. 89
7.1.2. Kereszttbla statisztikk, a khi-ngyzet prba ................................. 89
7.2. Plda kereszttblk hasznlatra ........................................................... 90
7.3. Feladatok ............................................................................................... 97
8. Klaszteranalzis ............................................................................................ 98
8.1. Alapfogalmak........................................................................................ 98
8.1.1. A klaszterelemzs technikja ........................................................... 98
8.1.2. A klaszterelemzs korltai................................................................ 99
8.1.3. Vizsglatok ....................................................................................... 99
8.1.4. Hierarchikus sszevon eljrsok .................................................. 100
8.1.5. Nem hierarchikus eljrsok ............................................................ 101
8.2. Plda klaszteranalzisre ....................................................................... 102
8.3. Feladatok ............................................................................................. 132
9. Irodalomjegyzk ......................................................................................... 133

3
1. Bevezets
Amikor az olvas kezbe veszi e tanknyv elektronikus vagy nyomtatott formjt,
tudni kell, hogy szerkesztsnl a kvetkez alapelveket tartottam szem eltt.
Mindenekeltt szerettem volna egy knnyen rtelmezhet, minden SPSS vagy
tblzat- s adatbzis kezelsi eltanulmnyokkal nem rendelkez olvas szmra
is teljes rtken hasznlhat knyvet kszteni az SPSS hasznlatrl. A
knyvben igyekeztem a mr jl bevlt, a tmval foglakoz szakirodalom legjobb
knyveinek szerkesztsi alapelveit kvetni, s mind a tmk sorrendisgben,
mind a pldkkal trtn bsges illusztrlsval szerettem volna segteni a
megrtst. Mindemellett cl volt, hogy ne vljon tl daglyoss, amely mr puszta
mreteivel elriasztja a tanulni vgy olvast.

Remljk, haszonnal forgatja ezt knyvet.

Egyben itt szeretnm kifejezni ksznetemet Devosa Ivnnak s Mardi


gnesnek, akik nlkl ez knyv nem kszlhetett volna el.

4
2. Az SPSS felhasznli fellete
A Statistical Package for the Social Sciences, vagyis a trsadalomtudomnyok
szmra kifejlesztett statisztikai programcsomag sszetett adatbzisok gyors s
hatkony feldolgozst teszi lehetv. A rendszer megismerse sorn egy laikus is
el tudja kszteni mindezt, m akr sajt parancssorozatot is tudunk a
feladatokhoz rendelni. A fejezet a legfontosabbnak vlt menpontokat mutatja be
a legrszletesebben, mivel a program kivl sg menvel (HELP) rendelkezik.

2.1. A program felptse s indtsa


A menrendszer nagyban hasonlt a Microsoft Office programcsomagnl
megszokottakhoz: vannak olyan mveletek, melyek itt is ugyangy
alkalmazhatak msols, kivgs, beilleszts, trls , illetve tallunk eltreket
is visszavons csak az utolsra terjed ki, a beilleszts (PASTE) pedig nem szr
be oszlopokat s sorokat, gy adatveszts lehetsge nagyobb figyelmetlen
hasznlat esetn.
Az indtskor megjelen prbeszdablak azokat az els lpseket trja elnk,
amik kzl vlaszthatunk:
Run the tutorial: olyan oktatprogram, amely rszletes lerst nyjt a
hasznlat sorn, gy fleg a kezdk szmra ajnlott
Type in data: adatok begpelst teszi lehetv
Run an existing query: lefuttat egy mr meglv lekrdezst, illetve
kereskifejezst
Create new query using Database Wizard: adatok ms adatbzisbl
trtn bemsolsra alkalmas
Open an existing dara source: egy mr ltez SPSS-adatllomnyt tlt be
az opci vlasztsa sorn meg kell ezt hatrozni
Open another type of file: ms tpus fjt tlt be (nem SPSS) szintn
meg kell hatrozni mg itt magt az adatbzis helyt.

5
1. bra

j dokumentum ksztst vagy a TYPE IN DATA lehetsg megjellse, vagy a


prbeszdablak elvetse, CANCEL, teszi lehetv. Ezt kveten egy Data Editor,
vagyis adatszerkeszt ablak jelenik meg, ahol a vltozkat s az ezekhez tartoz
adatokat rgzteni lehet.

2.2. Adat szerkeszt


Mint mr fentebb emltettk, az SPSS menrendszere s a kperny tartalmak
elrendezse hasonlt az MS Office programcsomagbl ismert programokhoz, gy
ez a munkaablak a Microsoft Office Excellel mutat formai azonossgokat. Ennek
a legszembetnbb jele a tblzatokra pl szerkeszt panel. A tbbi
elemzprogramhoz hasonlan itt is fontos, hogy melyik adat hol helyezkedik el.
Az SPSS-ben a fggleges oszlopok alkotjk a vltozkat, a vzszintes sorok
pedig az ezekhez tartoz adatokat tartalmazzk, melyeket rekordoknak, eseteknek

6
case neveznk. Az Excel alul tallhat munka1, munka2 elnevezs fleinek itt
a DATA VIEW [=adat nzet, vagyis maguk az adatok] (2.bra) s a VARIABLE
VIEW [=vltoz nzet, azaz az oszlopok nevei] (3.bra) feleltethet meg. A lapok
kztti vltst az egrrel a kvnt lap als flre trtn rkattints vagy a Ctrl+t
teszi lehetv. Az elbbi lap az alaprtelmezett, az utbbi lap pedig kizrlag a
vltozk szerkesztsre szolgl (j vltozk belltsa, paramterek mdostsa).

2. bra

7
3. bra

A Variable View ablakban a sorok tartalmazzk a vltozkat, az oszlopok pedig


ezek tulajdonsgait:
Name: a vltoz rvid nevt kell bevinni azrt clszer rvidebb nevet
megadni, hogy jobban tlthat legyen a tblzat. Amennyiben a
mezt resen hagyjuk, az automatikusan generlt elnevezs a
VAR00001, ahol a sorszm rtke n a sorokkal.
Type: a vltoz tpust s formjt kell meghatrozni, de a mveletet
soronknt el kell vgezni a rendszer ad vlasztsi lehetsgeket:
Numeric (numerikus): legegyszerbb formban jelenti meg a
szmokat, ez a leggyakrabban hasznlt forma pldul:
25704,20
Comma (vessz): jellsei: tizedesvessz (.) s ezres helyirtk
(,). Pldul: 25,704.20
Dot (pont): jellsei: tizedesvessz (,) s ezres helyirtk (.).
Pldul: 25.704,20

8
Scientific notation (tudomnyos alak): a szmok normlalakban
vannak: 1-10 kztti szm + a megfelel hatvny
szorzatai. Pldul: 587 = 5,87E2 = 5,87*100.
Date (dtum): v/hnap/nap sorrendjnek belltsa.
Dollar (dollr): pnzben mrt rtk jellsre alkalmas.
Custom currency (specilis pnzformtum): azok kzl a
pnzformtumok kzl lehet vlasztani, melyeket ezeltt
az OPTIONS menben belltottunk.
String (szveges vltoz): szveges adatok trolsa nylt krds
egyni vlasz estn. Pldul: Mirt?
Width (szlessg): A Data View ablak rekordjai mennyi karaktert
tartalmaznak cellnknt.
Decimals (tizedes jegyek szma): mennyi karakter tallhat a
tizedesvessz utn.
Label (cmke): a vltoz jelentst, vagy magt a vltozt lehet
magyarzni itt a ksbbi output tblk (VIEWER s a CHART
EDITOR) is ezt jelenti meg, valamint a Data View is,
amennyiben a vltoz nevre irnytjuk az egeret.
Values (rtk): a vltoz rtkeinek definilsa itt lehetsges pl.
hmrskleti rtkek. Ez a VALUE LABELS ablakban lehetsges
az Add gombra kattintva, majd a folyamat befejeztvel az
OK gombot kell vlasztani, s bezrni az ablakot.
Missing (hinyz rtk): olyan rtket rendelnk hozz, amely az adat
hinyt, a nem kielgt vlaszt mutatja pldul: magyarorszgi
tlaghmrskletek esetn 50C-vagy ennl nagyobb adat. Ha ez
a hozzrendels nem trtnik meg, szmos hibt eredmnyezhet.
A hinyz rtket ltalban 9-esekbl ll olyan szmmal
jelljk, ami rtk nem fordul el az adott vltozban.
A MISSING VALUE ablakban van minderre lehetsg, ahol
hrom vltozat kzl vlaszthatunk (4. bra):
No missing values: ha nem adunk meg hinyz rtket, azt a
program egy .-tal jelli.
Discrete missing values: egyedi kdot adhatunk meg a hinyz
rtkekre (maximum 3 darabot).

9
Range plus one optional discrete missing value: szmtartomny
vagy egy tartomnyt s egy klnll rtket.

4. bra

Columns (oszlopok): A Data View oszlopszlessgnek a mrtke, amely


nem kisebb, mint maga a kitlt szveg hossza.
Align: A Data View cellatartalmainak igaztsa: jobbra, balra, kzpre
Measure (mrsi skla): a sklatpust kell megadni:
Scale: metrikus intervallum- vagy arnyskla.
Ordinal: sorrendi skla.
Nominal: nvleges, nominlis skla.

2.3. Adatbeviteli lehetsgek


Az adatok bevitele utn regisztrlni kell azokat erre kt md ltezik: elsdleges
(kdolsi tmutat s a definiland vltozk ismeretvel trtn begpels) s
msodlagos (ltez adatbzisok importlsa).

2.3.1. Az elsdleges adatbevitel


A vltozk definilsa (INSERT VARIABLE) utn a rekordok begpelse
(INSERT CASES) trtnik, ez a sorok s oszlopok eltti jobb egrkattintssal s
az ikonokkal lehetsges. Ha a definilst a Variable View ablakban tesszk, akkor
egyedl a vltozk paramtereit kell belltani mg Data View esetben az j
vltoz a legutols oszlopba kerl, s a paramterek meghatrozsa egyedl dupla
kattintssal lehetsges.
A vltozkat clszer elbb Variable View nzetben definilni, s csak ezutn
tlpni Data View nzetbe.

10
A paramterek meghatrozsa egyesvel, vagyis cellnknt trtnik: name s
label: begpels; type, values, missing: cella jobb oldaln lv gombra kattintva a
megjelen panelt tltjk ki, a tbbi esetn a legrdl sv lehetsgeit hasznljuk.
A szveges adatokat szveges vltozkban troljuk (string), a szm jelleg
adatokat pedig numerikusban. Ha numerikus adatoknl nem szeretnnk
tizedesjegyeket megjelenteni, akkor a decimals rtkt 0-ra kell megadni.
Ezt kveten Data View nzetre vltunk, ahol a mr meghatrozott vltozkat
tltjk ki az adatokkal.
Ha a View menpontnl a Value Labels opcinl pipt ltunk, akkor nem a
vltozk nevei, hanem a megfelel vltoz label mezjnek rtke ltszik. Utbbi
pedig sokkal egyrtelmbb lesz nem csak a tblzatban, de a kimeneti
tblzatokban s grafikonokon is.

2.3.2. A msodlagos adatbevitel


Msodlagos adatbevitel esetn a kutat Excel fjlban megkapja az adatokat
tartalmaz tblzatot. Ez esetben a FILE / OPEN DATABASE / NEW QUERY
menpontot vlasztjuk, majd ezen bell is az Excel fjl lehetsgt, mert .xls
kiterjeszts a forrsknt szerepl llomny.
A Tovbb gomb hasznlatval egy j ablak kerl elnk ahol a Browse
gomb megnyomsval az importlni kvnt (jelen esetben .xls) fjl elrsi tjt
kell megadni.
A forrsbl a megfelel adatokat tartalamz munkalapot thzzuk a jobb oldali
ablakba mindezt gy tehetjk meg, hogy az egrrel rkattintunk a mozgatni
kvnt nvre, majd thzzuk arra a helyre, ahova szeretnnk.
Az SPSS program felismeri a tartalmat, gy a vltozkat s az eseteket is helyesen
rtkeli. A Tovbb gomb ktszeri megnyomsval megkapjuk a vgeredmnyt.
A kztes llapotban az jrakdolsra, illetve a vltozk meghatrozsra van
lehetsg.
Az gy kapott adatbzis tartalmilag megegyezik az elsdleges adatbevitel sorn
kapott eredmnnyel, csupn a vltozk nhny paramterben van klnbsg.
Ami a .xls fjlban oszlopcm, az itt a nv (name) lesz.
Ltezik egy gyorsabb mdszer is (OPEN FILE / DATA - .xls kiterjeszts fjt
kivlasztsa) minderre, m annak az a htrnya, hogy talakts eltt nem
vltoztathatunk a vltozkon. Itt a program automatikusan beolvassa s a forrs
fjl els sora alapjn definilja az SPSS vltozit.

11
2.4. Eredmnyek
Ismertebb neve Output ablak (kimeneti, illetve statisztikai), amely a program
lefuttatsa utn kapott eredmnyt szemllteti tblzatok s diagramok formjban.
Az elksztett statisztikk a program bal oldaln fa szerkezetben vannak, s piros
nyl jelzi, hogy melyik van kirszletezve a jobb ablakban. Az gy kapott
eredmnyeket lehet szerkeszteni, formzni dupla kattints ltal. Ezt kveten a
jobb oldali egrgomb megnyomsa sorn felknlt lehetsgekbl kivlasztjuk a
szmunkra legmegfelelbbet.

2.5. Menelemek
File men
A fjlkezel mveleteket talljuk benne:
New: j adat- (Data) vagy output fjl (Output) ltrehozsa.
Open: mr ltez adatfjl vagy output llomny megnyitsa.
Open Database: j vagy mr ltez SQL szervezs adatfjl megnyitsa.
Read Text Data: szvegformtum llomny megnyitsa.
Save: az adott fjl mentse a kijellt helyre.
Save As: kijelljk, hogy hova, milyen nven s fjltpusban legyen az
adott fjl mentve a Save els hasznlat sorn automatikusan
ideirnytja a felhasznlt.
Save All Data: sszes nyitott llomny mentse.
Mark File Read Only: az adott fjl megjellse oly mdon, hogy ezt
kveten csak olvasni lehessen, vagyis semmilyen javts nem
lesz engedlyezett rajta a ksbbiek folyamn.
Rename Dataset: adatbzis el- vagy tnevezse a fjlnv mellett az
adatbzis is rendelkezhet sajt nvvel, amely akkor hasznos, ha
tbb azonos nev fjl ltezik.
Display Data File Information: A .sav kiterjeszts fjlokrl ad
informcit egy kln ablakban. A WORKING FILE-ra kattintva
a betlttt fjlrl kapunk informcikat (variable: vltoz,
position: pozcija, label: cmke, measurement level: mrsi szint,
column width: oszlopszlessg, alignment: igazts mdja), mg

12
az EXTERNAL FILE sorn egy kls adatbzisrl tudjuk meg
ezeket az adatokat.
Cache Data: a Cash Now futtatsa alatt az adatokon nem lehet
vltoztatni, m az adatok ttekintse gyorsabb vlik a folyamat
utn.
Print: nyomtatsi belltsok megadsa, amely az adott ablakra
vonatkozik.
Print View: a vrhat eredmny megtekintsre szolgl n. nyomtatsi
kp.
Switch Server: szervergpre val csatlakozs.
Stop Processor: az SPSS szmolsi egysgeinek lelltsa, amely hibsan
kiadott nagy szmolsi- s idigny feladatoknl hasznos.
Recently Used Data: legutbb hasznlt .sav kiterjeszts fjlok elrse.
Recently Used Files: legutbb hasznlt nem .sav kiterjeszts fjlok
elrse.
Exit: program bezrsa.

Edit men
Adatszerkesztssel kapcsolatos programok, illetve utastsok tartoznak ide:
Undo: utoljra kiadott utasts visszavonsa.
Redo: az Undo sorn visszavontakat teszi rvnyess.
Cut: a kijellt rszlet kivgsa.
Copy: a kijellt rszlet msolsa a Cut s a Copy sorn
hasznltakat ms alkalmazsba is be lehet illeszteni, mert azt a
program a Windows vgasztalra helyezi.
Paste: A Cut s a Copy sorn kijelltek adott helyre msolsa.
Paste Variables: elzleg kivlasztottak bemsolsa.
Clear: trls sorok s oszlopok trlsnl nem lesznek res cellk.
Insert Variable: j vltoz, oszlop beillesztse a kijellt helytl balra
ikonja oszlopok kztti kk k.
Insert Cases: j eset, sor beillesztse a kijellt hely fl ikonja sorok
kzti piros k.
Find: vltozk keressre lehet alkalmazni, esetekre nem ikonja tvcs.
Go to Case: megadott esethez viszi a kurzort ikonja sor fltt ll piros
nyl.

13
Options: SPSS aktv ablakra vonatkoz belltsok.
Legfontosabb a GENERAL fl: vagy a vltoz nevt (Display Name), vagy azok
jelentst (Display Labels) ltjuk ksbb bevont vltozk esetn a jelents
szerepel a felsorolsban, a nevk zrjelben utnuk. Ha a vltozk nevt jelljk
be, akkor ez az adat ll rendelkezsre a ksbbi statisztikai elemzsek sorn.
Viewer: output ablakok belltsa (betmret s stlus, szm).
Output Labels: az output ablakban megjelen tblzatokban s
grafikonokban a vltoz neve, jelentse vagy mindkt adat
megjelentsnek a belltsa.
Charts: az output ablak grafikonbelltsai.
Interactive: llomny nyomtatsi s mentsi belltsai.
Pivot Tables: az output ablak tblzatainak formai belltsai.
Currency: pnznemek formai belltsai tizedesek tagolsa, / . ;
toldalkokat tartalmaz.
Data: adatok belltsai: j numerikus adatok formtuma (DISPLAY
FORMAT FOR NEW NUMERIC VARIABLES), vagy
vletlenszm-genertor (RANDOM NUMBER GENERATOR).

View men
Az aktv ablak megjelentsre vonatkoz belltsait hajtjuk vgre:
Status Bar: llapotsor belltsa, processzor ellenrzse ez az llapotsor
aktv llapota sorn lehetsges.
Toolbars: eszkztr megjelentse, illetve az itt megjelen parancsok,
ikonok belltsa.
Fonts: az ppen hasznlt bet tpusrt, stlusrt, mretrt felels.
Grid Lines: ha aktv, akkor az ablak rcsozsa lthat, ha inaktv, akkor
nem.
Value Labels (rtkcmkk): amennyiben aktv, akkor a Variable View
sorn meghatrozott vltozjelentst hasznlja a Data View ablak
ha inaktv, akkor a vltoz rtkt.
Variables / Data: a kt ablak kztt vlt.

Data men
Az adatkezelsi lehetsgek:

14
Define variables properties: vltozk tulajdonsgainak meghatrozsa/
megvltoztatsa. Annyiban tr el a Variable View-tl, hogy itt az
rtkekhez tartoz esetek kilistzhatak.
Copy data properties: adattulajdonsgok msolsa vagy egy kls
forrsbl ide, vagy pedig innen egy clfjlba.
Define Dates: a dtumformtumban lv vltozk meghatrozsa v,
hnap, nap s msodperc pontossg idpontok esetn.
Define Multiple Response Sets: tbbvlaszos vltoz definilsa,
amelyeket az ANALYZE / TABLES menpontban a CUSTOM
TABLES vagy a MULTIPLE RESPONSE SETS opci alatt lehet
felhasznlni tblzat rszeiknt. A msik lehetsg (ANALYSE
MULTIPLE RESPONSE DEFINE SETS) csak akkor lesz aktv,
ha a vltoz meghatrozsa mr megtrtnt. A menpontok
mkdse hasonl: azokat a vltozkat, amelyeket elemezni
szeretnnk a Variables in set ablakba helyezzk, majd
megadjuk, hogy egy rtket dichotomies (igen-nem vlaszok
esetn) vagy tbb rtket categories (tbb kategria esetn,
felsorolskor) szmolunk ssze ha ezt az opcit vlasztjuk,
akkor minimum- s maximumrtk megadsa ktelez. Ezt
kveten nevet kell adni az j vltoznak, majd hasznlni ez az
Add gomb megnyomsa utn lehetsges. Gyakran tkdols
szksges ahhoz, hogy ezek csak a szmunkra megfelel
rtkeket tartalmazzk.
Identify Duplicate Cases: tbbszr elfordul esetek azonostsa akr
egy vltozval, akr az sszessel. A program meghatrozza az
ismtld (Duplicate) s az egyedlll adatokat (Unique/
Primary). Az j vltoz Primary Last nven szerepel hasonl
elemekbl ll kategriban az utols elem az elsdleges szerep.
Sort Cases: az esetek sorba rendezse az ltalunk megadott szempontok
szerint.
Transpose: az adatbzis sorainak s oszlopainak felcserlse, amely sorn
az eddigi funkcijuk is megvltozik.
Restructure: a Transpose menpont kiegsztse nemcsak a teljes
adatbzist lehet felcserlni, hanem nhny ltalunk kijelltet is.

15
Merge files: az esetek s a vltozk sszefzst teszi lehetv egy vagy
tbb llomny esetn.
Aggregate: adatok tmrtsre szolgl az ltalunk megadott sszevons
ltal. Megklnbztetnk csoportost (break variable) s
sszevonni kvnt vltozt (summaries of variables). Az j
vltozt vagy az eredeti adatbzisba helyezzk vissza, vagy pedig
msik fjlban helyezzk el.
Orthogonal Design: a merleges kivitelezst az sszekapcsolt elemzsek
sorn hasznljk, amelyet e knyv nem taglal.
Copy Dataset: az egsz adatbzis msolsa, amely sorn
megbizonyosodik a program hasznlja arrl, hogy az elvgezni
kvnt vltoztatsok sorn az eredeti llomnyt nem rja fell.
Split File: a program csoportokra bontja az llomnyt, hogy ezeken hajtsa
vgre a statisztikai elemzst aktivlsa sorn a Split File On
felirat jelenik meg, ikonja egy kettvgott adatbzis.
Select Cases: kizr az SPSS bizonyos elemeket az elemzsbl az ltalunk
megadott feltteleknek megfelelen az eljrs sorn feleslegess
vlt elemek fekete vonallal lesznek thzva, valamint a Filter
On felirat lthat.
Weight Cases: javtsi lehetsg egyes elemek slyozsa sorn
tlprezentltakat kisebb, az alulprezentltakat nagyobb rtkkel
korriglja a program.
Data / Merge Files Fjlok egyestse
A rgi llomnyhoz val hozzrendels lpsei:
1. lps: a DATA men MERGE FILES menpontjt kell hasznlni:
Add Cases: a vltozk megegyeznek az eredeti adatbzissal, gy
csak az j eseteket illesztjk a rgiekhez.
Add Variables: az esetek megegyeznek az eredetivel, gy csak az
j vltozkat illesztjk a rgiekhez.

16
5. bra

2. lps: a hozzcsatolni kvnt fjl megadsa kls adatfjlt hasznlva


(an external SPSS data file).
3. lps: azok az adatok, amelyet a program prostani tudott a
VARIABLES IN NEW ACTIVE DATASET ablakban
jelennek meg OK gombra kattintva a kibvtett adatbzis
jelenik meg.
Data / Select Cases Esetek kivlasztsa
Ezt a menpontot akkor hasznljuk, amikor az adatelemzsben nincs
minden adatra szksg, mert csak az eseteket vizsgljuk.
1. lps: DATA men SELECT CASES menpont megnyitsa
szrfeltteleket is meg kell adni az albbi opcik segtsgvel:
All Cases: nincs szrs, minden eset rszt vesz az elemzsben.
If condition is satisfied: elemeket vlasztunk ki relcis jelek,
fggvnyek, logikai feladatok sorn.

17
Random sample of cases: vletlenszeren vlasztja ki az eseteket
vagy szzalkos arny (approximately) vagy konkrt
szmmennyisg (exactly) megadsval.
Based on time or case range: sorrendisg vagy szrsi id szerint
vlaszt.
Use filter variable: megadunk egy vltozt, amit a rendszer
szrvltozknt hasznl.
Output: a szrs eredmnynek sorst adjuk meg.
Filter out unselected cases: a nem vlasztott adatok az
ablakban maradnak, m figyelmen kvliek
Filter On felirat.
Copy selected cases to a new dataset: j adatbzisba
kerlnek a kivlasztott adatok.
Delete unselected cases: trljk az adatbzisbl a nem
kivlasztott adatokat hasznlata nem ajnlott.
2. lps: IF szrfelttel alkalmazsa sorn szktjk le az adatbzist,
ezt kveten a CONTINUE gombra kattintva lpnk tovbb.
3. lps: a Filter out unselected cases bellts vlasztsa sorn a tbbi
adat nem kerl trlsre, csupn figyelmen kvl hagyja a program
az elemzs sorn ezeknek az elemeknek a jellse thzssal
trtnik, valamint egy j vltoz keletkezik, a filter_$, amely
rtkei a 0-t (nincsenek benne az vizsglatban, vagyis az thzott
elemek) s az 1-et (benne vannak) vehetik fel. (A szrs
visszalltsa nlklzhetetlen a folyamat lefutsa utn erre az
All cases opci vlasztsval van lehetsg.)

Transform men
Ez a men is adatkezelsi lehetsg fleg akkor, ha rgi vltozkbl lltunk el
jat, vagy eseteket jrakdolunk.
Compute j vltoz szmtsa
Ez a menpont j adatbzis ellltst teszi lehetv a rgi
felhasznlsval a kett kztt vagy fggvnyszer vagy logikai
viszony van.

18
6. bra

1. lps: A TRANSFORM / COMPUTE vlasztsval kapott ablakban a


NUMERIC EXPRESSION panelbe azt a kpletet kell bevinni,
amely segtsgvel az j adatbzist szeretnnk ltrehozni. A
TARGET VARIABLE szvegdobozba pedig ennek a nevt rjuk
be.
2. lps: A TYPE AND LABEL opci hasznlatval a vltoz tgabb
rtelemben vett jelentst adjuk meg a Label sorban, amely a
Continue lenyomsval rgzl.
3. lps: a szrfelttelek megadsa az alapablakban lehetsges, ha az
If gombra kattintunk.
4. lps: A Continue majd az Ok egymst kvet lenyomsval a
vgeredmny megjelenik.
Recode tkdols
A mr ltez vltozk tkdolst, mdostst vgezzk el ebben a
menben az albbi lehetsgek szerint:

19
Into Same Variables (ugyanazokba a kdokba): ha az tkdols
utn nincsen szksg az eredeti vltozra, akkor ez
fellrja a rgit.
Into Different Variables (ms vltozkba): megtartja a fellrand
adatot j vltoz nevt s paramtert meg kell adni
ez a mdszer eredmnyesebb lehet a ksbbi vizsglatok
sorn, hiszen nem trtnik adatveszts.
1. lps: TRANSFORM / RECODE / INTO DIFFERENT VARIABLES
alkalmazsa.

7. bra

2. lps: Pl. vrosokat jelkpez kdok alapjn trtnik a szelekci ez


azonban szveges vltozt eredmnyez. Ezt a STRING
VARIABLE OUTPUT VARIABLE panel jelzi. Ez utbbi
nevt (Name) s cmkjt (Label) megadjuk a vltoztats
mentse a Change gomb lenyomsval trtnik.
Szrfeltteleket az If-fel adunk meg. A megfeleltetseket (rgi

20
vltoz j vltoz) az Old and New Values gomb
megnyomsval rgztjk.
3.lps: A Convert numeric strings to numbers opci bejellse
elengedhetetlen, hiszen szveget alaktottunk adatt. Az Add-
del rgztjk a szelektlst. A program lehetsget ad mg a
rendszer vagy a felhasznl hibjbl add hiny jellsre
(System- or user-missing) s a nem szveges vltozk esetn
intervallumot adhatunk meg.
Az eredmnyt a Continue s az Ok egymst kvet lenyomsval
kapjuk meg. Az j vltozhoz rtket kell mg rendelni a Variable View
lapon.
Az rtk azonnali (Calculate Values Immediately) vagy hasznlat eltti
kiszmtsnak (Calculate Values Before Use) a belltsra is van
lehetsg: EDIT / OPTIONS / DATA / TRANSFORMATION AND
MERGE OPTIONS.
Count az elfordulsok megszmllsa
Olyan j vltozt hozunk ltre, amely tartalmazza a rgi vltozk egyttes
elfordulsait.
1.lps: TRANSFORM / COUNT alkalmazsa.
2.lps: a panel kitltse oly mdon, hogy a Target Variable
tartalmazza az j vltoz nevt, a Target Label a jelentst, a
Numeric Variables pedig a csoportosts alapjul szolgl rgi
vltozkat tartalmazza. A Define Values-ra kattintva lpnk
tovbb.
3.lps: Values to Count opcira van szksg a feladat befejezshez: itt
az elzetesen bevont vltozk rtkeit kell megadni:
A, Value ablakba az rtkeket bevisszk az Add segtsgvel
B, Range (terjedelem) lehetsgbe begpeljk, hogy mettl
meddig foglaljuk bele a rgi rtkeket. Pl. 10 through 28,
azaz 10-tl 28-ig.
C, Range / Lowest through value, amely sorn a fels korltot
adjuk meg.
A szrfeltteleket az If-fel lehet megadni.
Az j vltoz j oszlopknt(!) jelenik meg.
Rank Cases esetek rangsorolsa

21
Az eseteket rangsorolja az megadott vltozk rtkei alapjn ezt a
VARIABLES ablakba visszk be, kivve, ha csoportokon bell akarjuk
a sorrendisget kiszmoltatni (ez esetben a BY ablakot kell kitlteni).
Be lehet lltani, hogy az 1. helyezshez a legnagyobb (Largest Value)
vagy a legkisebb rtk (Smallest Value) kapcsoldjon: ASSIGN RANK 1
TO. A RANK TYPES segtsgvel specilis rangsorolsi eljrsokat
hatrozhatunk meg, mg a TIES annak megadsra ad lehetsget, hogy
az azonos rtk vltozk milyen rangot kapjanak.

Automatic Record: Automatikus tkdols


Azokat a vltozrtkeket kdolja t, amelyek nem alkalmasak a
feldolgozsra, vagyis amelyeket statisztikai elemzshez nem lehet
felhasznlni. Az tkdoland vltozkat tnevezzk a NEW NAME
segtsgvel meghatrozhatjuk azt is, hogy a folyamatot a rendszer a
legnagyobb (RECORDE STARTING FROM HIGHEST VALUE) vagy a
legkisebb elemmel kezdje.

Date / Time
Az idvel s a dtummal kapcsolatos vltoztatsokat s belltsokat
hajthatunk itt vgre.

Create Time Series: idsorok ltrehozsa


Jelen esetben az idsor olyan rtkeket tartalmaz, amelyek idben egyms
utn kvetkeznek. Az ilyen jelleg vltozkbl a CREATE TIME
SERIES menponttal ms jelleg idsort lehet ltrehozni. Az adatok
olyan klnbz idkben lezajlott megfigyelseket tartalmaznak, amelyek
kztt az eltelt id, vagyis az intervallum egyenl. A feldolgozand
adatok kivlasztst kveten annak a fggvnynek a tpust kell
meghatrozni (FUNCTION panel), amellyel az talaktst hajtjuk
vgre lehet szezonlis ingadozs, simts, mozgtlagols, stb. A
folyamatot a Change felirat gombra kattintva zrjuk.

Replace Missing Values: Hinyz rtkek ptlsa


Akkor hasznljuk ezt az alkalmazst, ha nem hasznltunk hinyzrtk-
kdot, s ha minden esetnl szksges rvnyes ismrvrtk. A vltozk

22
megadsa utn a METHOD segtsgvel vlasztjuk ki azokat a
lehetsges rtkeket, amelyekkel a hinyz adatokat kvnjuk
helyettesteni teljes tlag, szomszdos pontok tlaga, szomszdos
pontok medinja, lineris interpolci, az adott pontra vonatkoz lineris
trend.

Random Number Generators: Vletlenszm-genertor


Kt fajtt tartalmaz a program: SPSS 12 COMPATIBLE-t s
MERSENNE TWISTER-t. Mg az elbbi elavult, de a program 12-es
verzijval kompatibilis, addig az utbbi a modernebb s megbzhatbb.
Fix indulrtket (Fixed Value) az ACTIVE GENERATOR
INITIALIZATION menpontban adhatunk meg.

Visual Bander: Vltozk kategorizlsa


Numerikus vltoz elemzsnl szksg van az eredeti (folytonos)
kategrikba sorolt vltozatra is. Ide sorolhat a jvedelem elemzse.
Ehhez grafikai brt hoz ltre a program, amelyben a felhasznl adja
meg a kategrik als s fels rtkeit.
Az osztpontokat a MAKE CUTPOINTS panelben hatrozzuk meg:
A, Equal Width Intervals: azonos szlessg intervallumok
ltrehozsa megadjuk az els osztpontot, az osztpontok
szmt s szlessgt.
B, Equal Percentiles: ugyanannyi esetet tartalmaz intervallum,
amelyben a szlessg nem mindig azonos: hrom kategria
ltrehozshoz kt osztpont szksges (ezt a NUMBER OF
CUTPOINTS pontban lltjuk be).
C, Cutpoints at Mean and Selected Standard Deviations:
meghatrozzuk, hogy az tlagon kvl mely szrsrtkeknl
legyenek osztpontok.
A kiindul brhoz az Apply gomb megnyomsval jutunk vissza
ekkor mr a kt osztpont rtkei megjelentettek, ezeket a hisztogram
kk vonallal jelli. A MAKE LABELS paranccsal a program
hozzrendeli az rtkekhez (Value) a cmkt (Label).

23
Analyze men
A statisztikai szmtsokhoz szksges eszkzk tbbsge itt tallhat, a
fontosabb menpontok trgyalsra a ksbbi fejezetekben konkrt pldkon
keresztl kerl sor.

8. bra

Graphs men (brzols)


Az itt tallhat grafikonok, brk s diagramok a statisztikai elemzs eredmnyeit
s adatait teszik szemlletesebb, knnyen s gyorsan ttekinthetv.
Interactive: az emltett lehetsgek finombelltsai.

Ultilities men
Variables: vltozk paramtereit egyesvel megmutatja egy output
ablakban.
OMS Output Managent System Control Panel (kimeneteli
menedzsmentrendszer): a kivlasztott kategrikat klnfle
kimeneti-formtumba rja pl. sav, xml, html, text.

24
OMS Identifiers: OMS parancsok rsa
Data File Comments: adatfjl elltsa megjegyzsekkel
Define Sets: a vltozkat rszhalmazra szkti az ide felvett vltozk
megjellsvel s nvvel trtn elltsval
Use Sets: az elemzs leszktse a vltozk egy adott rszhalmazra
Menu Editor: mensor szerkesztse, testre szabsa

Window men (ablakkezels)


A felhasznlt ablakok mreteinek belltsa.
Minimize All Window: sszes ablakot lekicsinyti, s a tblra helyezi
Split: kperny felosztsa oly mdon, hogy a kisablakokat egymstl
fggetlenl lehessen mozgatni, ezltal megtekinteni.
Lehetsg van mg az ablakok kztti vltsra.

Help men (segtsg)


Rszletes segtsg kaphat ezen keresztl a program hasznlatrl angol nyelven.

2.6. Feladatok
1. Ismertesse az SPSS adatbeviteli lehetsgeit!
2. Ismertesse az SPSS menrendszernek felptst!

25
3. Ler statisztika

3.1. Alapfogalmak
Ler statisztika (Descriptive Statistics): olyan eljrs, amelyben kijelentseink
pontosak, a populci megegyezik a mintval.
Alkalmas:
szmszer informcik gyjtsre, adatgyjtsre;
az informcik rgztsre s jellemzsre;
grafikus brzolsra;
csoportostsra, osztlyozsra;
egyszerbb szmtani mveletekre;
az eredmnyek megjelentsre.
Mrt adatok: A jelensgeket, tulajdonsgokat valamilyen mrsklhoz
hasonlts alapjn szmrtkkel jellemezzk.
Gyakorisg (abszolt gyakorisg): sszeszmoljuk, hogy az egyes csoportokba
hny adatot soroltunk.
Gyakorisgi eloszls: a csoportok s a hozzjuk tartoz gyakorisgok
sszessge. A statisztikai adatsokasgban elfordul lehetsges rtkeket a
gyakorisgukkal egytt gyakorisgi eloszlsnak nevezzk.
Gyakorisgi tblzat: A statisztikai adatsokasgban elfordul lehetsges
rtkeket a gyakorisgukkal egytt egy tblzatba rendezzk.
Egy statisztikai vizsglat sorn egy ksrletet mindig tbbszr vgeznek el. Az
egyes esemnyek bekvetkezsi szmt az esemny gyakorisgnak nevezzk.
Relatv gyakorisg: gy kapjuk meg, hogy az abszolt gyakorisgot elosztjuk a
ksrletek szmval.
Kumulatv gyakorisg: A relatv gyakorisgok fokozatos sszegzsvel kapjuk
meg.
Egyvltozs elemzsek: Azt vizsgljuk, hogy hogyan oszlanak meg az esetek
egyetlen vltoz szerint, lers cljbl. Vltoz alatt itt a vizsglt jelensg
valamely kivlasztott szmszer tulajdonsgt rtjk.
A statisztikai sokasg mrete ltalban nagy, ezrt fontos, hogy nhny szmmal
jl tudjuk jellemezni az sszegyjttt adatokat. Ezeket a szmokat statisztikai
mutatknak nevezzk.

26
Az egyvltozs elemzseknl leggyakrabban alkalmazott mutatkat ngy
csoportba sorolhatjuk:

Helyzetmutatk Szrdsi mutatk Alakmutatk Egyb mutatk


Kzprtkek: Terjedelem Cscsossg sszeg
tlag Szrs Ferdesg Minimum
Mdusz Variancia (szrsngyzet) Maximum
Medin Elemek szma
Kvantilisek
1. tblzat

3.1.1. Helyzetmutatk
Kzprtkek: a minta eloszlsnak alapvet tendencijt mutatjk.
tlag (Mean): szmtani kzprtk. Az tlag a vrhat rtk torztatlan becslse.
Fajti:
Szmtani tlag: A szmtani tlag az a szm, amellyel az tlagoland
rtkeket helyettestve azok sszege nem vltozik. Kiszmtshoz
sszeadjuk az sszes adatot, s elosztjuk annyival, ahny adat van.
Mrtani tlag: A mrtani tlag az a szm, amellyel az tlagoland
rtkeket helyettestve azok szorzata nem vltozik. Kiszmtshoz az
tlagoland rtkek szorzatbl az rtkek szmnak megfelel (n-dik)
gykt vonunk. Hasznlata akkor clszer, ha az tlagoland rtkek
szorzata rtelmezhet.
Harmonikus tlag: A harmonikus tlag az a szm, amellyel az
tlagoland rtkeket helyettestve azok reciprokjainak sszege nem
vltozik. Egy felhasznlsi mdja lehet, amikor szmtani tlagot kellene
szmolnunk, de a tnyleges gyakorisgok nem ismertek, csak az
rtksszegek vagy azok arnyai.
Ngyzetes tlag: A ngyzetes tlag az a szm, amellyel az tlagoland
rtkeket helyettestve azok ngyzetsszege nem vltozik. gy szmtjuk
ki, hogy az tlagoland rtkek ngyzeteit sszeadjuk, elosztjuk az
elemek szmval, majd az eredmnybl ngyzetgykt vonunk. Akkor
hasznljuk, amikor az tlagoland rtkek kztt pozitv s negatv
szmok egyarnt vannak, de az eljelnek nincs jelentsge.

27
Mdusz (Mode): A leggyakoribb rtket jelenti a minta elemei kztt. Lehet tbb
mdusz is (pldul bimodlis, trimodlis). A mdusz alkalmas a vrhat rtk
becslsre.
Medin (Median): Az a kzbls rtk a sorba rendezett rtkek kzl,
amelyikhez kpest a sorba rendezett rtkek egyik fele nagyobb, a msik fele
kisebb. A sorba rendezett rtkek kzl a kzps, illetve ha kt kzps van,
akkor ezek tlaga. A medinra kzelt rtket kapunk interpolcival (a kzps
adatot tartalmaz intervallum als hatrhoz annyit kell hozzadni, amennyi az
intervallumhosszbl arnyosan jutna arra az adatra, amennyi az intervallum als
hatra s a kzps adat kztt van). Szlssges rtkek esetn hasznlhat.
Szimmetrikus eloszls esetn a szmtani tlag, a medin s a mdusz rtke
megegyezik.
Kvantilisek: Specilis helyzetmutatk, a medin ltalnostsai. Osztpontok
segtsgvel a nvekv sorrendbe lltott adataink egyenl gyakorisg
osztlyokra bonthatk.
Tpusai:
A medin 2 egyenl rszre osztja a nagysg szerint sorba rendezett
sokasgot 1 osztpont segtsgvel.
A tercilis 3 egyenl rszre osztja a nagysg szerint sorba rendezett
sokasgot 2 osztpont segtsgvel.
A kvartilis (quartilis) 4 egyenl rszre osztja a nagysg szerint sorba
rendezett sokasgot 3 osztpont segtsgvel.
A kvintilis (quintilis): 5 egyenl rszre osztja a nagysg szerint sorba
rendezett sokasgot 4 osztpont segtsgvel.
A decilis: 10 egyenl rszre osztja a nagysg szerint sorba rendezett
sokasgot 9 osztpont segtsgvel.
A percentilis: 100 egyenl rszre osztja a nagysg szerint sorba
rendezett sokasgot 99 osztpont segtsgvel.
Ha a keresett kvantilis sorszma trtszm, akkor rtkt interpolcival kapjuk,
ami annyit jelent, hogy a keresett adatot tartalmaz intervallum als hatrhoz
annyit kell hozzadni, amennyi az intervallumhosszbl arnyosan jutna arra az
adatra, amennyi az intervallum als hatra s a keresett adat kztt van.

28
3.1.2. Szrdsmutatk
Szrdsmutatk: azt mutatjk meg, hogy az adatok az tlagtl kevsb vagy
jobban trnek el, azaz hogy az tlag krl mennyire szrdnak az adatok. Ily
mdon az tlag jsgrl is informcival szolglnak.
Terjedelem (Range): a legnagyobb s legkisebb rtk klnbsge. Annak az
intervallumnak a teljes hossza, amelyen bell a tnyleges ismrvrtkek
mozognak.
Korriglt terjedelem: A terjedelem egy-egy adatra nagyon rzkeny, teht
nagyon nagy lehet ez az rtk, ha van egy kiugr adat a tbbi kztt (nagyon nagy
vagy nagyon kicsi), valjban pedig az adatok egy szm krnykn
tmrlhetnek. Ez kikszblhet gy, hogy a legnagyobb s legkisebb adatot
(pldul a legjobban s legrosszabbul teljest tanult) kihagyjk az rtkelsbl.
Amennyiben az als s fels 1-1%-ot hagyjuk el, a kapott eredmnyt als illetve
fels centilisnek, mg az als s fels 10-10% elhagysa esetn als illetve fels
decilisnek nevezzk. Teht als decilis esetben a rangsorba rendezett adatok
egytizede kisebb s kilenctizede nagyobb. Fels decilis esetn pedig fordtva. A
minta nagysga hatrozza meg, hogy melyiknek van rtelme.
tlagos eltrs: Azt mutatja meg, hogy az egyes ismrvrtkek tlagosan
mennyivel trnek el a szmtani tlagtl. Htrnya, hogy az eltrsek irnya, azaz
eljele befolysolja az rtkt.
Szrs (Standard Deviation): Azt mutatja meg, hogy az adatok mennyire
szrdnak az tlag krl, mennyire heterogn a minta. Valjban az egyes rtkek
tlagtl val eltrsnek ngyzetes tlaga. A szrs mindig nemnegatv szm
(pozitv vagy nulla).
Variancia (Variance): A szrs ngyzete, szoks szrsngyzetnek is nevezni. A
ngyzetfggvny miatt hangslyosabban emeli ki az eltrseket.

3.1.3. Alakmutatk
Ferdesg (Skewness): Az eloszls alakjt vertiklisan ler mutatszm. Az
eloszlsnak az a tulajdonsga, hogy milyen irnyban tr el a szimmetrikus
eloszlstl. A szimmetrikus eloszls ferdesge 0. Ha a gyakorisgi eloszlsnak az
oszlopos brzolsa alapjn (hisztogram) az eloszls jobbra, azaz pozitv rtkek
irnyba elnyltabb, jobbra ferdnek (skewed to right), ha balra, azaz a negatv
rtkek irnyba torztott, akkor balra ferdnek nevezzk (skewed to left).

29
9. bra: balra ferde 10. bra: szimmetrikus 11. bra: jobbra ferde

Cscsossg (Kurtosis): Az eloszls alakjt vertiklisan ler mutatszm. Relatv


fogalom, azt jelzi, hogy az eloszls az azonos kzprtk s szrs normlis
eloszlshoz viszonytva az eloszls cscsos (jobban tmrl) vagy lapos (kevsb
tmrl). A pozitv rtkek viszonylag cscsos, mg a negatv rtkek viszonylag
lapos elosztst jeleznek.

3.1.4. Egyb mutatszmok


sszeg (Sum): A mintban lv elemek sszege.
Minimum (Minimum): A mintban lv elemek kzl a legkisebb elem.
Maximum (Maximum): A mintban lv elemek kzl a legnagyobb elem.
Esetszm (Number of Cases): A megfigyelt esetek szma, a minta nagysga.

Vltozk
Intervallum Ordinlis Nominlis
Mutatk
tlag, Medin
Kzprtkek Mdusz
(Mdusz, Medin) (Mdusz)
Szrdsi Szrds, Gyakorisg,
Terjedelem
mutatk Variancia relatv gyakorisg
Ferdesg,
Alakmutatk - -
Cscsossg
Minimum, Minimum,
Egyb mutatk -
Maximum Maximum
2. tblzat

30
3.2. Plda a mutatszmok kiszmtsra
A Floridai Egyetemen 1989 sze s 1991 tavasza kztt a master kpzsben
rszt vett hallgatk (forintra tszmtott) kezd fizetst szeretnnk megvizsglni.
A frfi s ni hallgatk az egyetem 8 klnbz fiskolai karn (1. agriculture
mezgazdasgi, 2. architecture pts mrnki, 3. building/construction
ptszeti/plettervezsi, 4. business administration zleti tanulmnyok, 5.
forestry erdszeti, 6. education pedaggiai, 7. engineering mrnki, 8. fine
arts kpzmvszeti) vgezhettek.
Els vizsglatunk sorn kvncsiak vagyunk arra, hogy mekkora a kezd fizetsek
szmtani,
mrtani, valamint
harmonikus tlaga.
Az elemzs elvgzshez elszr is nyissuk meg az SPSS pldi kztt tallhat
University of Florida graduate saleries.sav nev fjlt.

12. bra

31
13. bra

A File / Save As parancs segtsgvel mentsnk el a fjlt Floridai egyetemistk


fizetse.sav nven.

14. bra: Floridai egyetemistk fizetse.sav

32
Az tlagok szmtshoz vlasszuk az Analyze / Reports / Case Summaries
parancsot. Vigyk t a nyl segtsgvel a Starting Salary (kezd fizets) vltozt
a Variables al, majd kattintsunk az OK gombra.

15. bra

16. bra

Ezutn vlasszuk ki a bal oldali listbl az tlagot, geometriai tlagot s


harmonikus tlagot s a Continue gombra kattintva megkapjuk az eredmnyeket.

33
17. bra

Case Summaries

Starting Salary
Geometric Harmonic
Mean Mean Mean
26064,20 25090,54 24005,04
3. tblzat

A tblzatbl leolvashat, hogy a kezd fizetsek szmtani tlaga 26062,20 Ft, a


geometriai tlaga 25090,54, a harmonikus tlaga 24005,04 Ft. Jl lthat, hogy a
hrom tlag nem egyforma.
A vizsglatunk sorn szeretnnk megtudni, hogy:
Kinek a legnagyobb a kezd fizetse?
Kinek a legkisebb a kezd fizetse?
Mekkora az az sszeg, amit legtbben kapnak?
Mekkora az az sszeg, aminl ugyanannyian kapnak tbbet, mint ahnyan
kevesebbet?
Mekkora a szrs, azaz mennyire tr el az egyes diplomsok kezd
fizetse az tlagos kezd fizetstl?
Mekkora az az sszeg, amit sszesen kapnak kezd fizetsknt?
A vizsglat elvgzshez vlasszuk ki az Analyze/Descriptive
Statistics/Descriptives parancsot. Teht a ler statisztikk ler menpontjt.

34
18. bra

Az elugr Descriptives ablakban vlasszuk ki, majd a nyl segtsgvel vigyk t


a Starting Salary (salary), azaz kezd fizets ttelt a jobboldalra, a Variable(s)
felirat al. Majd kattintsunk az Options gombra. Ha vletlenl rossz ttelt
vlasztottunk ki, akkor a nyl segtsgvel vissza tudjuk vinni a baloldalra, majd a
megfelel elemet mozgassuk t.

19. bra

Ekkor egy jabb ablak ugrik el, a Descriptives: Options. Pipljuk ki az egr
segtsgvel a kiszmoland rtkeket: az tlagot (mean), az sszegzst (sum), a
legkisebb elemet (minimum), a legnagyobb elemet (maximum) s a szrst (Std.
deviation), majd kattintsunk a Continue gombra. Display Order alatt llthatjuk be
azt, hogy a vltozk milyen sorrendben szerepeljenek, amennyiben tbb
vltoznk van. (Variable list: az adatbzis sorrendjben, Alphabetic:
bcsorrendben, Ascending means: az tlagok szerint nvekv sorrendben,
Descending means: az tlagok szerint cskken sorrendben.) Vgl kattintsunk a
Continue gombra a folytatshoz, majd az Ok gombra.

35
20. bra

Az Output ablakban megjelenik egy tblzat (4. tblzat), ahol lthatjuk a


vizsglatunk krdseinek vlaszait:
Az tlagos kezd fizets: 26064,20 Ft.
A szrs: 6967,982 Ft.
A legkisebb kezd fizets: 7200 Ft.
A legnagyobb fizets: 65500 Ft.
sszes kezd fizets: 28670625 Ft.
Valid utn lthat rtk az rvnyes esetek szmt jelzi, vagyis azt, hogy hnyan
adtk meg a kezd fizetsk sszegt.
Descriptive Statistics

Std.
N Minimum Maximum Sum Mean Deviation
Starting Salary 1100 7200 65500 28670625 26064,20 6967,982
Valid N (listwise) 1100
4. tblzat

Amennyiben a tblzatokat szeretnnk tmsolni szvegszerkesztbe, akkor


kattintsunk a kvnt tblzatra, majd ez egr jobb gombjra, s vlasszuk a Copy
(msols) parancsot, vgl a szvegszerkesztben a Szerkeszts/Beilleszts
menpontot. gy a tblzat knnyen formzhat, az angol szavakat is trhatjuk a
magyar megfelelikre.

36
Szmoljuk ki a ferdesg s cscsossg mutatit, s brzoljuk hisztogram
segtsgvel!
Az Analyze / Descriptive Statistics / Frequencies menpontjban kattintsunk a
Statistics gombra, s az elugr panelben a Discribution rtk alatt tallhat
Skewness s Kurtosis rtkeket pipljuk ki, s nyomjuk meg a Continue gombot.

21. bra

Ezutn vlasszuk a Chart gombot, majd jelljk meg a Histograms s a With


normal curve pontokat az alakzatok kirajzolshoz.

22. bra

37
23. bra

Az brbl kitnik, hogy a kezd fizets alakzata szimmetrikus. Ezt jelzi az


albbi tblzat is.
Statistics

Starting Salary
N Valid 1100
Missing 0
Skewness ,488
Std. Error of Skewness ,074
Kurtosis 1,778
Std. Error of Kurtosis ,147
5. tblzat

38
A kvetkez vizsglat sorn az tlag, a mdusz, a medin klnbsgre lthatunk
pldt, s brzoljuk ket.
A vizsglatunk sorn az albbi krdsekre keressk a vlaszt:
Melyik fiskolai kart vlasztottk tlagosan?
Melyik fiskolai karra jrtak a legtbben?
Melyik az a fiskolai kar, amelyiket kzepesen sokan vlasztanak?
Emlkeztetl, hogy milyen karok vannak a pldban szerepl Floridai fiskoln:
agriculture mezgazdasgi, architecture ptmvszeti,
building/construction ptszeti/plettervezsi, business administration zleti
tanulmnyok, forestry erdszeti, education pedaggiai, engineering mrnki,
fine arts kpzmvszeti.

Az Analyze/Descriptive Statistics/Frequencies parancsot vlasszuk a vizsglat


elvgzshez.

24. bra

Vigyk t a Variable(s) al a vizsglni kvnt fiskolai kar (~College) vltozt,


majd nyomjuk meg a Charts gombot.

39
25. bra

A krdiagramos brzolshoz vlasszuk a Chart Type alatti Pie charts-ot (26.


bra).

26. bra

40
College

27. bra

A Pie chart (tortadiagram) jl szemllteti a 8 kar hallgatinak a megoszlst


(27.bra).Mivel pldnkban pros szm adat van, gy a kt kzps rtket kell
tlagolni. Ehhez a Pie Charts helyett a Histograms-ot kell vlasztanunk (28. bra).

28. bra

41
Histogram

500

400
Frequency

300

200

100

Mean =3,6
Std. Dev. =2,388
N =1 100
0
0 2 4 6 8 10
College

29. bra

A hisztogram (29. bra) segtsgvel brzolt adatokrl a legegyszerbb leolvasni


a medin rtkt, hiszen csak meg kell keresni az oszlopok kzl a kzpst, s
az lesz a medin.
A diagramokkal egytt a gyakorisgokat tartalmaz tblzat is megjelenik az
Output ablakban.

42
College

Cumulative
Frequency Percent Valid Percent Percent
Valid Agriculture 415 37,7 37,7 37,7
Architecture 10 ,9 ,9 38,6
Building/Construction 55 5,0 5,0 43,6
Business Administration 322 29,3 29,3 72,9
Forestry 2 ,2 ,2 73,1
Education 13 1,2 1,2 74,3
Engineering 281 25,5 25,5 99,8
Fine Arts 2 ,2 ,2 100,0
Total 1100 100,0 100,0
6. tblzat

A fenti tblzat (6.tblzat) a fiskolai karok klnbz gyakorisgi megoszlsait


mutatja. Az abszolt gyakorisg (frequency) azt jelenti, hogy az adott kar
hnyszor szerepel a rangsorban. A legtbb hallgat (415 f) a mezgazdasgi
fiskolai karra jrt, majd ezt kveti az zleti tanulmnyok kar (322 f) s a
mrnki kar (281 f). A vizsglatban rszt vett tbbi kar hallgati mr jval
kevesebben vannak. A Percent az adatok szzalkos megoszlst jelenti.
A relatv gyakorisg (Percent) az sszelemszmhoz viszonytott gyakorisg (%-
ban), azaz gy kapjuk meg, hogy az abszolt gyakorisgot elosztjuk az
elemszmmal s megszorozzuk szzzal. Jelen esetben azt jelenti, hogy hny %-t
teszik ki az egyes fiskolai karok hallgati az sszes kar hallgatinak. Ez a szm
pldul a mezgazdasgi fiskolai kar esetn 37,7 %.
A kumulatv relatv gyakorisg (Cumulative Percent) az adott sor s az azt
megelz sor az els sor kivtelvel relatv gyakorisgnak sszege
szzalkban kifejezve.
A Total, vagyis az sszelemszm pedig a gyakorisgok sszessge, azaz 1100 f,
ill. a relatv adatsoroknl nyilvn 100% (kumulatv esetben nincs rtelme).
Mivel a tblzatban a fiskolai karra vonatkozan minden rtk szerepel, gy nem
lthatunk klnbsget az abszolt s a relatv gyakorisg kztt.
A kt gyakorisg klnbsgnek vizsglathoz trljk ki a college oszlopbl az
els 15 rtket.

43
30. bra

Ezutn ismt vgezzk el a gyakorisgi vizsglatot (Analyze / Descriptive


Statistics / Frequencies). Mg a mezgazdasgi fiskolai kar esetben az abszolt
gyakorisg (Percent) 37,2%, addig a relatv gyakorisg (Valid Percent) 37,7%. A
Valid rtk jelzi, hogy hnyan vlaszoltk meg a melyik kar hallgatja krdst. A
Missing rtk, pedig azt jelzi, hogy van-e hinyz rtk, azaz ltezik-e olyan
szemly, aki nem vlaszolt a krdsre (30.bra). (Az elzleg kitrlt 15 rtk itt
jelenik meg.)
A kvetkez tblzatbl (7. tblzat) kitnik, hogy a relatv gyakorisg figyelmen
kvl hagyja a hinyz adatokat. Hinyz rtkek esetn teht a relatv gyakorisg
helyett az abszolt gyakorisgot hasznljuk.

44
College

Valid Cumulative
Frequency Percent Percent Percent
Valid Agriculture 409 37,2 37,7 37,7
Architecture 10 ,9 ,9 38,6
Building/Construction 54 4,9 5,0 43,6
Business Administration 320 29,1 29,5 73,1
Forestry 2 ,2 ,2 73,3
Education 13 1,2 1,2 74,5
Engineering 275 25,0 25,3 99,8
Fine Arts 2 ,2 ,2 100,0
Total 1085 98,6 100,0
Missing System 15 1,4
Total 1100 100,0
7. tblzat

3.3. Feladatok
1. Sorolja fel a statisztikai helyzetmutatkat!
2. Sorolja fel a statisztikai szrdsmutatkat!
3. Nyissa meg a Cars.sav llomnyt s szmtsa ki a helyzet- s
szrdsmutatkat a horse (ler, teljestmny) s a mpg (miles per gallon,
fogyaszts) vltozkra!

45
4. Faktoranalzis

4.1. Alapfogalmak
Faktoranalzis: adattmrtsre s az adatstruktra feltrsra szolgl. A kiindul
vltozk szmt gynevezett faktorvltozkba vonja ssze, amelyek kzvetlenl
nem figyelhetk meg.
A faktoranalzis struktra-feltr mdszer, ami azt jelenti, hogy nincsenek elre
meghatrozott fgg s fggetlen vltozk, hanem a vltozk kztti
sszefggsek feltrsra treksznk.
A faktoranalzis tbb, egymssal korrell vltoz sszefggst vizsglja.
Gyakran elfordul, hogy azok a vltozk, amelyeket mrni tudunk, nem a
vizsglni kvnt jelensget legjobban jellemz vltozk. A mdszer clja a
kzvetlenl nem megfigyelhet httrvltozknak, n. faktoroknak a
meghatrozsa a vltozk kzti korrelcik alapjn.
A faktoranalzis alkalmazsnak akkor van ltjogosultsga, ha az eredeti
megfigyelsi vltozk, vagy azok bizonyos csoportjai kztt ers sszefggs
tapasztalhat. Ezen fell az eredmnyek akkor lesznek gyakorlati szempontbl jl
rtelmezhetk, ha a megfigyelsi vltozk jl elklnthet csoportokba
sorolhatk abbl a szempontbl, hogy az rtkeket csoportonknt kzs
httrvltozk hatrozzk meg.
A faktoranalzis alkalmazsa eltt meg kell vizsglni, hogy az albbi szksges
felttelek fennllnak-e:
A faktoranalzisnek metrikus vltozkat kell feltteleznie, ugyanakkor a
dummy vltozk (azaz 0 vagy 1 kimenettel rendelkez vltozk)
hasznlata is megengedett.
A vltozk eloszlsval kapcsolatosan a normalitstl,
homoszkedaszticitstl s a linearitstl val eltrs abbl a szempontbl
fontos, hogy ezen felttelek megsrtse cskkenti a vltozk kztti
korrelcis egytthatk rtkt.
A vltozk kztti kapcsolat meglte, st a vltozk kztti
multikollinearits (ha nem tudjuk sztvlasztani a fggetlen vltozk
hatsait) kvnatos felttel, ugyanis a vltozk kztti kapcsolat nlkl
nem lehetne hasonl vltozkat tallni s azokat egyetlen faktorba

46
tmrteni. Elvrhat, hogy minl tbb legyen a korrellt vltoz az
adatbzisban s ezeknek a korrelciknak az rtke legyen 0,3-nl
magasabb.
Fontos a minta homogenitsa, mert a faktoranalzis azt felttelezi, hogy a
kzs variancia az egsz minta esetben fennll.
Minl nagyobb a mintanagysg, annl megbzhatbb faktorokat
eredmnyez az elemzs.
Meg kell keresni az eredeti vltozk azon csoportjait, amelyek egymssal
szorosabb korrelciban vannak, mint msokkal; ezeket a vltozkat tekintjk
egy faktorhoz tartoznak. Ha sikerlt ilyen csoportokat tallnunk, a kvetkez
feladat a faktorok rtelmezse, elnevezse. Legvgl a nagyszm eredeti
vltozt nhny faktorban sszesthetjk, s ezekkel, mint j vltozkkal
dolgozhatunk tovbb.
Az SPSS programban a faktoranalzis parancsot az ANALYZE/DATA
REDUCTION/FACTOR menpont alatt tallhatjuk.
Az SPSS-ben tbb mdszer is rendelkezsnkre ll annak kidertsre, hogy
adataink alkalmasak-e faktoranalzisre. Ezen mdszerek kzl nhny a
faktoranalzis rsze, teht az elemzs lefuttatsa utn derl ki, hogy az
adatok/vltozk megfelelk-e valjban a faktoranalzisre.

4.1.1. A faktoranalzis megvalsthatsgnak felttelei


Korrelcis mtrix: az egyes vltozk kztti korrelcikat tkrzi, amelyek
meglte alapvet felttele a faktoranalzisnek, ugyanis nlkle nem lehetne a
vltozkat faktorokba sszevonni. Az ers korrelcik arra utalhatnak, hogy a
vltozk alkalmasak a faktoranalzisre, hiszen az elemzsnek nem lenne sok
alapja, ha a korrelcis mtrixban lv rtkek kzel nullk lennnek.
Ugyanakkor a tlsgosan magas korrelcik sem jk, ugyanis ez azt okozhatja,
hogy a faktoranalzisnek nem lesz megoldsa, ugyanis minden vltoz egy
faktorba kerl. A Descriptives menpontban llthatjuk be a korrelcis
mtrixot a korrelcis koefficiensek (Coefficients) s a szignifikanciaszint
(Significance levels) bejellsvel.
Anti-image mtrix: az elemzs abbl indul ki, hogy a vltozk szrsngyzete
felbonthat magyarzott szrsngyzetre (image) s nem magyarzott
szrsngyzetre (anti-image). A faktoranalzis sorn ezt a felbontst az anti-image
kovariancia/korrelcis mtrixok mutatjk. Az anti-image kovarianciamtrix tln

47
kvli elemei a variancia azon rszt mutatjk, amely fggetlen a tbbi vltoztl,
ezrt ezeknek az rtkeknek lehetsg szerint alacsonynak kellene lennik, mg az
tlban lv elemek 1-hez kzeltenek. Az anti-image korrelcis mtrixban
elsdlegesen az tlban lv elemek fontosak, ugyanis ezek tartalmazzk az egyes
vltozkra vonatkoz MSA-rtkeket. Az MSA-rtke 0 s 1 kztt vltozhat, s
azt mutatja meg, hogy az adott vltoz mennyire ll szoros kapcsolatban az sszes
tbbi vltozval. Amennyiben egy vltoz MSA rtke 0,5 alatti, akkor ezt a
vltozt valsznleg ki kell zrni az elemzsbl, mg ha 1 az rtke, akkor a
vltozt a tbbi vltoz hiba nlkl becsli. Az anti-image mtrix parancs szintn a
Descriptives menponton bell tallhat.
A Bartlett-teszt azt vizsglja, hogy a vltozk az alapsokasgban
korrellatlanok-e vagyis hogy a korrelcis mtrixnak a ftln kvli elemei csak
vletlenl trnek-e el a nulltl. A faktoranalzis felttele, hogy korrelljanak
egymssal a vltozk, lehetleg minl ersebben.
A Kaiser-Meyer-Olkin- (KMO) kritrium az egyik legfontosabb mrszm
annak megtlsben, hogy a vltozk mennyire alkalmasak a faktoranalzisre. A
KMO-rtk az MSA rtkek tlaga. Mg az MSA rtk az egyes vltozkra
vonatkozik, a KMO az sszes vltozra egyidejleg. A KMO mutatszm
jelentst a kvetkezkppen tlhetjk meg:
KMO 0,9 kivl
KMO 0,8 nagyon j
KMO 0,7 megfelel
KMO 0,6 kzepes
KMO 0,5 gyenge
KMO < 0,5 elfogadhatatlan.

4.1.2. A faktorok szmnak meghatrozsa


A faktorok szmnak meghatrozsra szmos mdszer ll rendelkezsre. Ilyen
pl. az a priori kritrium, a Kaiser kritrium, a varianciahnyad-mdszer, a Scree-
teszt (Knykszably).
A priori kritrium: a kutat a faktoranalzis megkezdse eltt dnt a faktorok
szmrl, ami maximum annyi lehet, amennyi kiindul vltoz volt. Az SPSS-
ben a faktorok szmt a Factor Analysis menpontban az Extraction parancs
segtsgvel rhetjk el, ahol a Number of factors-t kell bejellni s megadni a
faktorok szmt.

48
Kaiser kritrium: a sajtrtket hasznlja, csak azokat a faktorokat vegyk
figyelembe, amelyek sajtrtke legalbb 1. A sajtrtk a faktorok ltal az sszes
vltoz variancijbl magyarzott variancia. Ha egy faktor sajtrtke 1 al
cskken, akkor mr kevesebb informcit hordoz, mint egy vltoz, azaz azt a
faktort mr nem rdemes hasznlni. A sajtrtk az Extraction menpontban az
Eigenvalues over bejellsvel jelenik meg.
Varianciahnyad-mdszer: A faktorok szmt meghatrozhatjuk a variancia
sszestett (kumullt) szzalka alapjn is, azaz annyi faktort hozunk ltre, hogy
elrjnk egy minimlis sszestett varianciaszintet, amelyre szmos
hvelykujjszably ltezik. A termszettudomnyokban az elfogadott
varianciahnyad minimlisan 95 szzalk, mg a trsadalomtudomnyi
kutatsokban mr 60 szzalk is elfogadhat. A varianciahnyad-mdszer a
gyakorlati szignifikancin alapul, azaz ha magas varianciahnyadot tudunk
magyarzni, az azt jelenti, hogy az informci jelents rszt meg tudtuk tartani
az elemzs sorn. A faktorok ltal magyarzott variancit az SPSS alapesetben
megadja.
A tblzatot hrom hrmas egysgre lehet osztani, az els a kezdeti rtket (Initial
Eigenvalues), a msodik a faktoranalzis utni rtkeket (Extraction Sums of
Squared Loadings), a harmadik pedig a rotci utni rtkeket (Rotation Sums of
Squared Loadings) tartalmazza. A Total oszlop a sajtrtket mutatja, a % of
Variance az adott faktor ltal magyarzott varianciahnyadot a teljes variancin
bell, mg a Cumulative % oszlop az adott faktoring - sszestett
varianciahnyadot mutatja.
Az Initial Eigenvalues oszlopok a faktorok informcitartalmt mutatjk be
standardizlt formban, azaz itt annyi sort (komponenst) lthatunk, mint amennyi
kiindul vltoznk volt, s a sajtrtkek sszege megegyezik a komponensek
szmval. A tblzat kezdeti s a faktoranalzis utni oszlopai majdnem
teljesen megegyeznek egymssal, ugyanakkor az utbbi mr csak az ltalunk krt,
1-nl nagyobb sajtrtk faktorokat tartalmazza. Az elemzs a faktorokat a
magyarzott variancia nagysgnak sorrendjben mutatja.
Scree-teszt (Knykszably): szintn segtsget nyjt a faktordimenzik
szmnak meghatrozsban. A Scree plot bra valjban nem ms, mint a
sajtrtkek brzolsa a faktorok sorrendjben, ahol az y tengelyen mrjk a
sajtrtkeket, az x tengelyen pedig a faktorok szmt. Habr egyedi variancia
minden faktorban van, ugyanakkor ennek szintje az els faktornl nagyon

49
alacsony, s a kzs variancia dominl, mg az utols faktornl ez fordtott. A
knykszably azt mondja ki, hogy a faktorok szmt annyiban rdemes
maximalizlni, ahol a grbe meredeksge hirtelen megvltozik s egyenesbe kezd
tfordulni. A knykszably alapjn teht olyan faktorok is fontosak lehetnek,
amelyek sajtrtke 1 alatt van.

4.1.3. Faktorok rotlsa


A faktorkivlaszts (extrakci) sorn az elemzs elsdleges clja, hogy
maximalizlja a fkomponensek variancijt, amely eredmnyeknt megkapjuk a
rotlatlan faktorsly-mtrixot. A faktorsly az eredeti vltoz s az adott faktor
kztti korrelcit mutatja, amelynek rtke a korrelcis egytthatkhoz
hasonlan -1 s 1 kztt vltozhat. A faktorkivlaszts sorn azonban
elfordulhat, hogy olyan vltozk fognak korrellni egy adott faktorral,
amelyeknek semmi kzk egymshoz, ezltal lehetetlenn tve az rtelmezst.
Ezen a problmn segt a forgats, vagy ms nven rotci. A faktor-rotci azt
jelenti, hogy a faktorok tengelyeit elforgatjuk gy, hogy egyszerbb s
rtelmezhetbb faktormegoldshoz vezessen. A rotlsi eljrst a faktoranalzis
panelen bell a Rotation parancs alatt jellhetjk meg. Itt kell kivlasztani a
mdszert s a Display keretben a Rotated solution-t.
A rotci (forgats) sorn nem vltoznak sem a kommunalits, sem pedig az
sszes magyarzott variancia, csak a faktorok sajtrtkei/magyarzott variancii
mdosulnak. A rotlson bell kt tpust klnbztetnk meg: a derkszg
(ortogonlis) (Varimax, Equimax, Quartimax) s a hegyesszg (nem
ortogonlis) (Direct Oblimin, Promax) forgatsi mdszereket. A derkszg
esetben a tengelyek merlegesen llnak egymsra, ezltal a faktorok nem
korrellnak egymssal, mg a hegyesszg esetben ezek tetszleges szget
zrnak be egymssal, vagyis a faktorok korrellni fognak egymssal.

4.2. Plda a faktoranalzisre


Nyissuk meg az SPSS pldallomnyai kzl a GSS93 subset.sav (31. bra ltal
jelzett) adatllomnyt.

50
31. bra

Megnyits utn vltsunk Variable View nzetre s az albbi vltozk (id,


bigband, bluegrass, country, blues, musicals, classical, folk, jazz, opera, rap,
heavymetal) kivtelvel trljk a tbbit, s mentsk el zeneszeretet.sav nven
(32.bra).

32. bra

51
Az adatbzisban a klnbz zenefajtkat megtlst lthatjuk (33.bra) egy 5
fokozat skln (1=nagyon szeretem, 2=szeretem, 3=kzmbs, 4=nem szeretem,
5=nagyon nem szeretem). A 0, 8, 9 rtkek a hinyz rtkeket jellik, ami azt
jelenti, hogy nem vlaszoltak a krdsre, vagy nem volt megfelel a vlasz.

33. bra

A faktoranalzishez vlasszuk ki az Analyze / Data Reduction / Factor


menpontot (34.bra).

34. bra

Vegyk t a nyl segtsgvel a tizenegy zenetpust a Variables mez al (35.


bra), majd a Descriptives gombra kattintsunk (35. bra).

52
35. bra

Vizsgljuk meg, hogy az ltalunk kivlasztott vltozk alkalmasak-e a


faktoranalzisre. Ehhez a KMO (Kaiser-Meyer-Olkin) rtkt kell
megvizsglnunk. A Bartlett teszthez s a KMO megllaptshoz a Factor
Analysis: Descriptives ablaknl a KMO and Bartletts test of sphericity mezt
pipljuk ki, majd kattintsunk a Continue gombra, hogy megtudhassuk a KMO
nagysgt (36. bra).

36. bra

53
KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling


,748
Adequacy.

Bartlett's Test of Approx. Chi-Square


3048,818
Sphericity
df 55
Sig. ,000
8. tblzat

A KMO rtkt mutatja a 8. tblzat. Jelen esetben: 0,748 a KMO, ami alapjn a
vltozk megfelelnek tekinthetk (KMO>6), teht alkalmasak a faktoranalzisre.
Miutn eldntttk, hogy a vltozink alkalmasak a faktoranalzisre, vizsgljuk
meg, hogy hny faktort kell kpeznnk.
A Descriptives gombnl pipljuk ki az Anti-image mezt (37. bra), majd a
Continue gombot, s vgl az OK-t, ami utn megjelenik az Anti-image matrix
(Anti-images Matrices), melyet a 9. tblzatban lthatunk.

37. bra

54
9. tblzat

55
Communalities

Initial Extraction
Bigband Music 1,000 ,550
Bluegrass Music 1,000 ,708
Country Western Music 1,000 ,691
Blues or R & B Music 1,000 ,771
Broadway Musicals 1,000 ,629
Classical Music 1,000 ,725
Folk Music 1,000 ,581
Jazz Music 1,000 ,769
Opera 1,000 ,635
Rap Music 1,000 ,650
Heavy Metal Music 1,000 ,678
Extraction Method: Principal Component Analysis.
10. tblzat

A hossz kommunalitsi (Communalities) tbla (10. tblzat) a bemen s kijv


kommunalits rtkeket mutatja a faktorokra, ami kezdetben ez az rtk 1.
A tblzat aljn a kivlasztott mdszert lthatjuk, mely jelen esetben a
fkomponens mdszer (Principal Component Analysis). Ennek a mdszernek az a
lnyege, hogy azokat a faktorokat vlasztjuk ki, melyek a legtbb variancit
magyarzzk meg.

56
Total Variance Explained

Extraction Sums of Squared


Component Initial Eigenvalues Loadings
% of Cumulativ % of Cumulative
Total Variance e% Total Variance %
1 3,276 29,779 29,779 3,276 29,779 29,779
2 1,661 15,098 44,876 1,661 15,098 44,876
3 1,392 12,651 57,527 1,392 12,651 57,527
4 1,058 9,620 67,147 1,058 9,620 67,147
5 ,728 6,619 73,766
6 ,658 5,978 79,744
7 ,566 5,150 84,893
8 ,496 4,510 89,404
9 ,421 3,823 93,227
10 ,397 3,608 96,835
11 ,348 3,165 100,000
Extraction Method: Principal Component Analysis.
11. tblzat

A tblzat (11. tblzat) els oszlopa tartalmazza a kiindul vltozknak a


szmt, a msodik foszlop mutatja a sajtrtkeket s a variancikat ennek a
mdszernek az alkalmazsa utn, a harmadik oszlopban a kivlasztott faktorokra
jelenti meg ugyanezeket.

Lthatjuk, hogy 4 faktort klntett el az Anti-image eljrs. Ezt a Total Variance


Explained (11. tblzat jobb oldala) s a Component Matrix (12 t.blzat) is
mutatja. A ngy faktor egytt a teljes variancia 67,147%-t magyarzza (ezt az
utols oszlopnak az utols sorban lthatjuk), ami elri a minimumknt
megfogalmazott 60%-ot.Component Matrix(a)

57
Component
1 2 3 4
Bigband Music ,713 -,124 -,079 -,141
Bluegrass Music ,426 -,430 ,584 ,017
Country Western Music ,144 -,557 ,600 ,022
Blues or R & B Music ,531 ,362 ,333 -,497
Broadway Musicals ,743 -,033 -,266 ,073
Classical Music ,741 ,073 -,334 ,243
Folk Music ,625 -,341 ,091 ,257
Jazz Music ,526 ,491 ,131 -,485
Opera ,712 ,061 -,228 ,267
Rap Music ,087 ,592 ,388 ,376
Heavy Metal Music -,018 ,549 ,404 ,462
12 t.blzat

A komponens mtrixbl leolvashatjuk, hogy melyik vltoz melyik faktort


jellemzi leginkbb. A tblzatban szerepl rtkek a faktorslyok.

Amennyiben nem megfelel a ngyes faktorszm, akkor a dntsben a Scree plot


a segtsgnkre lehet.Scree plot bra az Extraction menpontban a Scree plot
bejellsvel krhet (38.bra).

38. bra

58
39. bra

Az 39. bra azt mutatja, hogy a 11 faktor meredeksge az elstl az utols fel
haladva cskken. Az brn knykpontokat (elbow-kritrium) kell keresni, olyan
helyet, ahol trs van a grbn, mert azokon a helyeken romlik el a magyarzott
variancinak a nvekedse.
Az brn az 5 faktorszmnl tallunk knykpontot. Az 5 faktorszmnl lv
trs teht megersti azt, hogy 4 faktoros megoldst kell vlasztanunk.

59
40. bra

Vizsgljuk meg a Maximum likelihood eljrssal, hogy mi trtnne, ha 5 faktort


hasznlnnk. Methodnl vlasszuk a Maximum likelihood-ot, majd lltsuk a
faktorok szmt (Number of factors) 5-re (40. bra).

Goodness-of-fit Test

Chi-Square df Sig.
16,466 10 ,087
13. tblzat

A Maximum likelihood eljrs az 5 faktorra 0,087-es alacsony (<=0,1)


szignifikanciaszintet adott eredmnyl (13. tblzat). Ez a 4 faktorral szemben
mg gy is magasabb szignifikanciaszintet mutat. Teht ez a mdszer nem hozott
megfelel eredmnyt.

60
Rotated Component Matrix(a)

Component
1 2 3 4 5
Broadway Musicals ,816 ,139 ,063 -,065 ,006
Opera ,770 ,070 -,026 ,116 ,174
Classical Music ,746 ,115 -,187 ,038 ,384
Bigband Music ,678 ,282 ,261 -,162 -,054
Blues or R & B Music ,129 ,863 ,110 ,084 ,081
Jazz Music ,220 ,843 -,097 ,082 -,011
Country Western Music 2,99E-005 -,079 ,885 -,029 -,016
Bluegrass Music ,073 ,179 ,697 ,006 ,466
Rap Music ,136 ,095 ,091 ,823 -,333
Heavy Metal Music -,154 ,083 -,119 ,796 ,261
Folk Music ,425 ,026 ,261 -,036 ,691
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Rotation converged in 8 iterations.
14. tblzat

Amennyiben az 5 faktoros megoldst vlasztjuk, akkor a Folk zene egyedl kln


faktorba kerlne (14. tblzat).

61
Maradjunk a 4 faktoros megoldsnl s rotcis eljrssal alaktsuk t a
mtrixunkat. Vlasszuk a Varimax Methodot s a Continue gombot (41. bra),
majd az Options gombnl a Sorted by size mezt pipljuk ki a rendezs rdekben
(42. bra).

41. bra

42. bra

62
Rotated Component Matrix(a)

Component
1 2 3 4
Classical Music ,841 ,097 -,072 ,046
Opera ,785 ,090 ,006 ,103
Broadway Musicals ,764 ,190 ,033 -,091
Folk Music ,604 -,040 ,463 -,012
Bigband Music ,597 ,340 ,206 -,189
Blues or R & B Music ,133 ,850 ,143 ,105
Jazz Music ,204 ,843 -,086 ,099
Country Western Music -,074 -,045 ,825 -,058
Bluegrass Music ,164 ,137 ,813 ,018
Heavy Metal Music -,044 ,018 -,012 ,822
Rap Music ,020 ,142 -,027 ,793
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Rotation converged in 5 iterations.
15. tblzat

63
A 4 faktorra a Varimax rotlst alkalmazva a faktorok sokkal knnyebben
rtelmezhetek (15. tblzat). Az oszlopokban az abszolt rtkben 0,5-nl
nagyobb szmokat kell keresni (jelen esetben tglalappal jelltk ezeket az
rtkeket). A kapott faktorokat a rtelemszer nevezzk el.
Az els faktorba tartozik: a Classical Music, Opera, Broadway Musicals, Folk
Music s a Bigband Music.
A msodik faktort a Blues or R&B Music s a Jazz Music kpzi.
A harmadik faktor a Country Western Music s a Bluegrass Music.
Az utols, negyedik faktor pedig a Heavy Metal Music s a Rap Music.

4.3. Feladatok
1. Ismertesse a faktoranalzis lnyegt!
2. Ismertesse a faktoranalzis alkalmazhatsgnak feltteleit!
3. Ismertesse a faktoranalzis menett!

64
5. Korrelci

5.1. Alapfogalmak
A korrelci:
A kt vltoz kztti egyenes arny, fordtott arny vagy hinyz
kapcsolat (pozitv, negatv vagy nem ltez korrelci) lehet. Becslse az
rtkek brzolsa alapjn lehetsges.
A korrelcis koefficiens legalacsonyabb rtke (abszolt rtelemben): 0
(nincs lineris korrelci), a legmagasabb +1,0 vagy -1,0 (tkletes
pozitv, ill. negatv lineris korrelci)
A korrelcis koefficiens rtke fggetlen a mrtkegysgektl.
A kiugr rtkek ersen befolysolhatjk a korrelcis egytthat rtkt.
A kiugr rtk lehet egy szablytalan, torzult eloszls eredmnye, vagy
lehet mrsi hiba. A szrdsi brn megjelen, kiugr rtkek esetn
vizsglatra van szksg. Clszer ezeket kikszblni. Ebben az esetben
hasznlhat a Spearman fle rang-korrelci.
Gyakran elkvetik azt a hibt, hogy a kt vltoz kztti korrelcibl
ok-okozati sszefggsre kvetkeztetnek. Ha x s y kztt ers korrelci
van, akkor ennek oka lehet:
o az y vltozsai okozzk az x vltozsait
o a x vltozsai okozzk az y vltozsait
o egy harmadik faktor mind az x-et, mind az y-t egy irnyba (vagy
negatv korrelci esetn ellenkez irnyba) befolysolja.
A kapcsolat szorossgt, a fggsg fokt mrnnk kell (16. tblzat). Ennek
mrsre a korrelcis egytthat a szoksos mrszm, amelynek sok
tulajdonsga hasonl a szrshoz. A korrelcis egytthat egy statisztikai
mutat, azaz egy minta korrelltsga lersra szolgl, mikzben a populci
vltozi kztti kapcsolat erssgt a korrelcis egytthat mint paramter
hatrozza meg.

65
16. tblzat

Az sszetartoz rtkprok halmaznak mindegyik tagjt egyenknt


tlagolhatjuk, s az egyes rtkeknek a sajt tlaguktl val eltrst
vizsglhatjuk. Az x, vagy az y szrsnak szmtsakor ezen klnbsgek
ngyzeteit tlagoltuk (majd ngyzetgykt vontunk belle), a korrelcis
egytthat szmtsakor az sszetartoz klnbsgeket sszeszorozzuk, s a
szorzatok sszegt (ezt ms nven kovariancinak is nevezik) elosztjuk a
ngyzetes klnbsgek szorzatval. A korrelcis egytthat kt fontos
tulajdonsga:
1. A korrelcis egytthat rtke fggetlen vltozk esetben 0.
2. Lineris fggvnykapcsolatban lv (nem sztochasztikus) vltozk
esetben a korrelcis egytthat abszolt rtke 1.
Minl szorosabb az sszefggs kt vltoz kztt, annl jobban kzelti a
korrelcis egytthat abszolt rtke az 1-et; minl lazbb sszefggs van kt
vltoz kztt, annl kzelebb ll a korrelcis egytthat rtke a 0-hoz (16.
tblzat).
Fontos, hogy a korrelcis egytthat az egyszer, kzel lineris sztochasztikus
kapcsolat esetben hasznlhat statisztika.
Ha kt vltoz korrelcijnak vizsglata sorn az egytthat rtke 0, akkor mg
nem biztos, hogy ezek fggetlenek is! Ezrt ilyenkor csak annyit mondhatunk: a
kt vltoz korrellatlan.
A kt valsznsgi vltoz korrelcijt egy elmleti korrelcis egytthat rja
le. Ennek rtkt a gyakorlatban becslssel kzeltjk meg. A becslshez a
szoksos mdszer szerint a populcibl mintt vesznk, majd a minta
korrelcis egytthatjt kiszmoljuk, s meghatrozzuk a becsls hibjt. A

66
becsls hibjnak ismeretben megmondhatjuk, hogy mekkora annak a
valsznsge, hogy a mintbl szmolt korrelcis egytthat nem 0.
A korrelcis egytthat eljele megmutatja, hogy az sszefggst jellemz
egyenes emelked, vagy sllyed. Grbre illeszked vagy annak mentn
elhelyezked pontok brja jelzi, hogy a korrelci nem alkalmas az sszefggs
jellemzsre, azaz nemlineris a korrelci (43. bra).

43. bra

Gondolnunk kell arra is, hogy ha a korrelcis egytthat szignifikns, az mg


nem jelenti azt, hogy a vltozk kztt kapcsolat ers, vagy azt, hogy a kapcsolat
jelents lenne.
A korrelci mgtt lehet ok-okozati viszony, de az is lehet, hogy a kt korrellt
vltoz nincs egymssal ok-okozati kapcsolatban, hanem mind a kett egy
harmadik, kzs oktl fgg. A korrelci magyarzata lehet a vletlen is, pldul,
mind a kt vltoz az idvel korrellt, s a kzs tnyezvel korrellt vltozk
kztt gyakran van korrelci is. A tanulsg, hogy az ok-okozati sszefggst
logikai, vagy ksrleti ton kell bizonytani.
Tbb vltoz esetben hasonl kapcsolat llapthat meg az n. parcilis
korrelcis egytthat segtsgvel. Ez azt mutatja meg, hogy mekkora lenne az x

67
s y kztti lineris korrelci, ha egy vagy tbb msik vltozt lland szinten
tartannk.

5.2. Plda a korrelci kiszmtsra


Nzznk egy pldt a korrelciszmtsra. Vsrolni szeretnnk egy stt, de
nem tudjuk, hogy a hrom fajta st kzl melyiket vlasszuk. Kvncsiak
vagyunk arra, hogy van-e sszefggs a stk fajtja s az lettartama kztt,
valamint a st lettartama s a stskor hasznlt hmrsklet kztt.
A vizsglathoz nyissuk meg (File/Open/Data) az Oven tests.sav nev fjlt (44.
bra).

44. bra

Trljk ki Variable View nzetben az utols, szmunkra nem lnyeges sort (45.
bra), majd vltsunk Data View nzetbe (46. bra).

68
45. bra

46. bra

Vgezzk el az sszefggsvizsglatot a st fajtit s az alkatrszek lettartamt


figyelembe vve. Ehhez vlasszuk az Analyze / Correlate / Bivariate parancsot
(47. bra).

69
47. bra

A megjelen Bivariate Correlation panelben (48. bra) mozgassuk t a Variables


al az alkatrszek lettartamt (Life of components in minutes) s stket(Oven).
A korrelcis kofficiensnl vlasszuk a Pearson korrelcit, a ktoldali Two-
tailed prbt, majd pipljuk ki a Flag significant correlations-t, azaz jelezze
csillaggal, ha szignifikns a korrelci.

48. bra

A megjelen korrelcis tblzat (17. tblzat) viszonylag ers (-0,654) negatv


korrelcit s szignifikancit (csillagok jelzik) mutat a stk s az alkatrszei
lettartama kztt. A negatv eljel azt jelzi, hogy ez az sszefggs ellenttes.
Minl kisebb a st fajtjnak a szma, annl nagyobb a st alkatrszeinek
lettartama. A Correlation is significant at 0.01 level azt jelenti, hogy a korrelci
elfogadhat legalbb 1%-os szignifikanciaszint mellett.

70
Correlations

Life of
Components in
minutes Oven
Life of Components Pearson Correlation
1 -,654(**)
in minutes
Sig. (2-tailed) ,006
N 16 16
Oven Pearson Correlation -,654(**) 1
Sig. (2-tailed) ,006
N 16 16
** Correlation is significant at the 0.01 level (2-tailed).
17. tblzat

Az adatokat jelentsk meg pontfelh diagram segtsgvel is, hogy


szemlletesebb tegyk a korrelcit. Vlasszuk a Graphs/Legacy
Dialogs/Scatter/Dot parancst (49. bra).

49. bra

71
50. bra

A Simple Scatter menpontot vlasszuk, majd nyomjuk meg a Define gombot


(50. bra).
A Simple Scatterplot ablakban (51. bra) az X s Y (Axis) vltozk al vigyk t
a nyilak segtsgvel a stket (Oven) s az alkatrszek lettartamt (Life of
Components in minutes), majd az OK gombra kattintva megjelenik ezek alapjn a
pontfelh diagram.

51. bra

72
52. bra

A megjelen bra a szrsdiagram (52. bra) szemllteti a korrelci


elvgzsekor kapott eredmnyt. A szrsdiagram kt, vagy tbb vltoz egyttes
elemzshez, a kzttk lv sszefggsek feltrshoz nyjthat segtsget. A
pontfelh alakjbl s elhelyezkedsbl kvetkeztethetnk az adott vltozk
kztti sszefggsre.
Most vizsgljuk meg, hogy a st hfoka s az alkatrszek lettartama kztt van-
e sszefggs. Az elbbiek sorn bemutatott menetet kvessk:
Analyze/Correlate/Bivariate. Ebben az esetben a Life of Components in minutes
s a Temperature in degree Fahrenheit vltozkat vlasszuk ki (53. bra).

73
53. bra

A korrelcis tblzat (18. tblzat) azt mutatja, hogy a kt rtk kztt


szignifikns kapcsolat van. Ez a kapcsolat is negatv korrelcit mutat, teht
minl magasabb a st hmrsklete, annl kisebb az alkatrszek lettartama.

Correlations

Life of Temperature in
Components in degree
minutes Fahrenheit
Life of Components Pearson Correlation 1 -,782(**)
in minutes Sig. (2-tailed) ,000
N 16 16
Temperature in Pearson Correlation -,782(**) 1
degree Fahrenheit Sig. (2-tailed) ,000
N 16 16
** Correlation is significant at the 0.01 level (2-tailed).
18. tblzat

Nzzk meg ezeknek a vltozknak is a szrsdiagramjt az elzhz hasonlan.


Graphs / Legacy Dialogs / Scatter / Dot utn vlasszuk a Simple Scatter ikont (54.
bra).

74
54. bra

75
55. bra

A szrsdiagram mutatja, hogy alacsonyabb hmrskleten az alkatrszeinek az


lettartama magasabb (55. bra).
A kvetkezekben parcilis korrelci segtsgvel vizsgljuk meg a hrom
vltoz kztti sszefggst. Ehhez vlasszuk az Analyze/Correlate/Partial
parancsot (56. bra).

56. bra

76
57. bra

Vlasszuk ki a Life of Components in minutes s a Temperature in degree


Fahrenheit vltozkat, majd kattintsunk az Options gombra (57. bra).

58. bra

Az Options ablakban jelljk be kvetkezket: Means and standard deviations s


Zero-order correlations (58. bra).
A parcilis korrelci segtsgvel megvizsglhatjuk, hogy valban szignifikns-e
a vltozk kztti sszefggs. Ennek segtsgvel megtudhatjuk, hogy a kt
vltoz kztti kapcsolat valdi sszefggs-e vagy egy harmadik vltoz
hatsnak tulajdonthat, ami mindkettvel sszefggst mutat. A parcilis
korrelci tblzatt is az elzleg mr emltett feltteleknek megfelelen
elemezzk (19. tblzat).

77
19. tblzat

5.3. Feladatok
1. Ismertesse a korrelci s a korrellatlansg fogalmt! Trjen ki a korrelcis
egytthat jelentsre!
2. Milyen flrevezet tnyezkre kell figyelni a szmtott korrelci
rtelmezsnl?

78
6. Regresszi

6.1. Alapfogalmak
A regresszi vizsglat clja kt vagy tbb vltoz fggvnykapcsolatnak
meghatrozsa, az sszetartoz adatokbl ll, tapasztalati adatsor analitikus
kzeltse elre megadott tpus matematikai sszefggssel gy, hogy a
szmtott s a mrt rtkek eltrse minimlis legyen. Az eltrsek mrtkt
tbbflekppen lehet megadni. Leggyakrabban a ngyzetes hibk sszegt
szoktk vlasztani. A vizsglt jelensg termszete szabja meg a kzeltsre
alkalmas fggvny tpust. Eszerint megklnbztetnk
lineris s
nemlineris
regresszit. A kapcsolt vltozk szma szerint ugyancsak eltrnek a modellek.
Ilyen rtelemben beszlnk kt-, hrom- stb. vltozs regresszirl.

6.1.1. Lineris regresszi


Az egyvltozs lineris regresszi kt egy x fggetlen s egy y fgg
folytonos vltoz sszefggsnek jellemzse regresszis egyenessel.
A determincis egytthat (a korrelcis egytthat ngyzete), r2 azt mutatja
meg, hogy az x-tl val fggs mennyiben magyarzza meg az y variabilitst.
Ha r2
kzelt a 0-hoz, akkor az x nem magyarzza az y-t, ha
kzelt 1-hez, akkor nagyon szoros az sszefggs.
Ha a kt vltoz kztt van szignifikns sszefggs, de az r2 kicsi, az azt jelenti,
hogy ms tnyezk is szerepet jtszanak az y meghatrozsban.
A legegyszerbb regresszis kapcsolat kt vltoz kztt a grafikusan egy
egyenes vonallal jellemezhet lineris fggvnykapcsolat. Els krdsnk az,
hogy a kt vltoz kztt van-e egy egyenessel lerhat sszefggs? Ha igen,
akkor megkeressk a legjobb ilyen egyenest. Az ennl bonyolultabb, nemlineris
fggvnykapcsolatok, vagy a kettnl tbb vltoz fggvnykapcsolatnak
vizsglata a statisztika halad tmi kz tartoznak.
A regresszis kapcsolatban mind a kt vltoz fgghet a vletlentl is, de az is
elfordulhat, hogy csak az egyik esetben lnyeges a vletlentl fgg
komponens. A tovbbiakban mi a kt esetet nem klnbztetjk meg.

79
A regressziban a kt vltoz szerepe nem felcserlhet. A lineris regresszi
y=ax+b kpletben az egyik vltoz az x, a msik az y helyre kerl, s az x
vltoz segtsgvel jsoljuk meg az y rtkt. Itt elssorban logikailag fontos,
hogy a kt vltoz szerepe nem felcserlhet (emlkezznk arra, hogy a
korrelci esetben a kt vltoz kzl egyik sem volt kitntetett, azaz
felcserlhetk voltak).
Gyakran az x vltoz esetben nem ttelezzk fel, hogy a vletlen vltozs az x-t
is kzvetlenl rinti, hanem az x-t ltalunk vlaszthat rgztett s ismert
rtkknt kezeljk, s a vletlentl val fggs az y rtkben jelenik meg. Az y
teht fgg az x-tl, de ezen kvl fgghet a vletlen okozta ingadozstl is.
Hogyan hatrozzuk meg, hogy a pontok kz hzhat rengeteg egyenes kzl
melyik az, amelyik az adatok sszefggst legjobban jellemzi? A grafikus
brzols pontdiagramja sejteti a lineris sszefggst. Vonalzval, szemre
azonban ltalban lehetetlen megtallni az egyenes s a pontok legjobb
illeszkedst.

6.1.2. A legkisebb ngyzetek mdszere


A legjobb illeszkedst kiszmolhatjuk a legkisebb ngyzetek mdszervel. Nem
hibzunk jelentsen, ha azt mondjuk, hogy a pontok s az egyenes tvolsgt
minimalizlja a legkisebb ngyzetek mdszere. A valsgban a legkisebb
ngyzetek mdszere azt az egyenest keresi meg, amelyre igaz az, hogy ha a
pontoknak az egyenestl mrt tvolsgait ngyzetre emeljk, majd a kapott
szmokat sszegezzk, akkor ez az sszeg minimlis lesz (nincs olyan msik
egyenes, ami esetben kisebb ilyen sszeget kapnnk). Ez legtbbszr nem
azonos a tvolsgok sszegvel, sem annak ngyzetvel (mert ltalban nem
mindegy, hogy elbb emelnk-e ngyzetre s utna sszegznk, vagy pedig
fordtva, elbb sszegznk s utna emelnk ngyzetre), de igen hasonl
tulajdonsg statisztika.

6.1.3. Az illeszts s a becsls jsga


Az angolszsz szakirodalom a regresszi esetben hasznlja mg a determincis
koefficiens fogalmt is, amely az y rtkek esetben a lineris fggvnynek
tulajdonthat vltozsokat (szrdst) viszonytja az sszes szrdshoz. Ha
minden szrdst a lineris komponens magyarz, s nincs vletlennek
tulajdonthat komponens, akkor ez a hnyados 1. Ez a koefficiens knnyen

80
bizonythatan azonos a korrelcis egytthat ngyzetvel. A pontok
szrdsnak minl nagyobb rszt tudjuk megmagyarzni a lineris
regresszival, annl nagyobb ez az rtk, annl kzelebb ll 1-hez ez a hnyados,
s akkor annl nagyobb a korrelcis egytthat abszolt rtke is. A
regresszinak ez a tulajdonsga jl mutatja a korrelci s a lineris regresszi
fogalmainak rokonsgt.
A korrelcihoz hasonlan a kt vltoz kapcsolata a regresszi esetben is
tbbfle lehet. Ha a kt vltoz kztt nincs kapcsolat, akkor a regresszis
egytthat rtke 0. Ha van kapcsolat, akkor a regresszis egytthat rtke 0-tl
eltr.
A regresszis egyenes kpletben mind a konstans tag, mind pedig az x vltoz
egytthatja a vletlentl is fgg mennyisg. Ismtelt mintavtel esetben (a
ksrlet ismtlsekor) vrhat, hogy egyik rtk sem lesz pontosan ugyanaz, mint
korbban volt, hanem szrdst fognak mutatni. Kivtel, hogy a regresszi
esetben a fggetlen vltoz (x) esetben megengedhet, hogy az ne legyen
valsznsgi vltoz, rtkt a vizsgl hatrozza meg, lehetsget adva ezzel a
jslsra.
Fontos krds, hogy a regresszis egytthat rtke eltr-e a 0-tl, mskppen
fogalmazva van-e statisztikai rtelemben vett sszefggs a kt vltoz kztt, s
milyen valsznsggel helyes az ebben a krdsben hozott dntsnk.
Ha a regresszis egyenest az egyik vltoz rtknek ismeretben a msik
becslsre kvnjuk hasznlni, akkor tudnunk kell, hogy a becsls jsga fgg a
vltozk kapcsolatnak erssgtl, azaz a korrelci szorossgtl. Minl
szorosabb a kapcsolat a kt vltoz kztt, annl jobb az x alapjn az y rtknek
a becslse.

6.1.4. Hipotzisvizsglat
A hipotzisvizsglathoz feltesszk, hogy a minta fggetlen, vletlenszer
mintavtellel vett elemekbl ll, tovbb minden x rtkre az y rtk normlis
eloszls valsznsgi vltoz.
A lineris fggs egyenletben mind a konstans tag, mind pedig a meredeksg
esetben a standard hibval kpzett hnyadosa a t-eloszlst kveti, n2
szabadsgfokkal. Ennek alapjn lehet vlemnyt kialaktani arrl, hogy a
szmtott rtkeknek a nulltl val eltrst vajon a vletlen okozta-e? A

81
szignifikns (0-tl eltr) regresszis egytthat (meredeksg) azt jelzi, hogy a
kt vltoz kapcsolatt az adott valsznsg mellett nem a vletlen hozta ltre.

6.1.5. Rezidulisok vizsglata


Az egyes pontok s a regresszis egyenes kztti fggleges tvolsgokat
rezidulisoknak is nevezik, s ezek kpviselik az eljrsban elklntett
vletlentl fgg komponenst. Ezek rszletes vizsglata fontos kiegsztse a
vltozk kapcsolatnak regresszival trtn vizsglatnak. Az SPSS tartalmaz
eljrsokat a regresszi kiszmtsa utn a rezidulis rtkek tblzatokba
foglalsra, azok grafikus vizsglatra. A rezidulisok brzolsa jl mutathatja,
ha a szrds fgg a fggetlen vltoz rtktl, ha az sszefggs eltr a
lineristl, ha az x tengely mentn egyms mellett lv adatok nem fggetlenek
egymstl.
Minl kisebb az brn a vertiklis szrds, annl szorosabb a korrelci, s annl
jobb az y rtk becslse.
A grbe krli szrds adataibl az SPSS segtsgvel meghatrozhatjuk a
regresszis egyenes egytthatinak standard hibjt. A standard hiba segtsgvel
konfidencia intervallumok kpezhetk, s az is vizsglhat, hogy fggetlen
mintkbl szmtott kt regresszis egyenes paramterei kztt van-e klnbsg.

6.2. Plda regressziszmtsra


A regresszianalzis kt vltoz kztti sszefggs lerst a korrelcis
egytthathoz kpest sokkal pontosabban hatrozza meg. Ennek szemlltetshez
nyissuk meg az elz fejezetben megismert Oven.sav llomnyt, majd vlasszuk
az Analyze / Regression / Linear parancsot (59. bra).

82
59. bra

A megjelen ablakban (60. bra) a Dependent (fgg vltoz) al mozgassuk t a


nyl segtsgvel a Life of Components in minutes vltozt, mg az
Independent(s) (fggetlen vltoz(k)) al a Temperature in degree Fahrenheit
vltozt, majd kattintsunk a Statistics gombra. A dependent a fgg, mg az
independent a fggetlen vltozt jelenti.

60. bra

Az illeszkedsvizsglathoz pipljuk ki az Estimate s Model fit eltti ngyzeteket,


majd folytassuk a Continue, majd a Plots gombbal (61. bra).

83
61. bra

A homoszkedaszticits (a hibatnyez variancija lland) mely a


faktoranalzisnl is fontos felttelnek vizsglathoz a standardizlt becslt
rtkre (ZPRED) s a standardizlt reziduumokra (ZPRESID) lesz szksgnk.
Ezrt a Plots ablakban ezeket vlasszuk ki (62. bra).

62. bra

84
A tblzatban (20. tblzat) az r rtke a korrelcis egytthat rtkt (0,748)
mutatja, mg az R Square a determincis egytthat rtkt (0,560), ez a teljes
szrs szzalkos magyarzatt (56 %) jelenti. Az Std. Error of the Estimate a
becsls standard hibjt jelenti (25,937). Minl kisebb ennek az rtke, annl
eredmnyesebb a vizsglat.

Model Summary(b)

Adjusted R Std. Error of


Model R R Square Square the Estimate
1 ,748(a) ,560 ,532 25,931
a Predictors: (Constant), Temperature in degree Fahrenheit
b Dependent Variable: Life of Components in minutes
20. tblzat

Az ANOVA tblzat a regresszis egyenes ltal magyarzott (13667,556) s nem


magyarzott (10758,444) szrsngyzetet mutatja. Megtudhatjuk az F prba
szignifikancijt is, amelynek rtke kisebb, mint 0,05, teht van kapcsolat (21.
tblzat).

ANOVA(b)

Sum of
Model Squares df Mean Square F Sig.
1 Regression 13667,556 1 13667,556 20,326 ,000(a)
Residual 10758,444 16 672,403
Total 24426,000 17
a Predictors: (Constant), Temperature in degree Fahrenheit
b Dependent Variable: Life of Components in minutes
21. tblzat

85
A t-prba szignifikancia szintje szintn kisebb, mint 0,05, gy a hmrskletnek
van befolysol ereje a st lettartamra. A Standardized Cofficients a
regresszis egyenes meredeksget, mg az Unstandardized Cofficients adataibl a
regresszis egyenes kplett lehet megtudni ( 22. tblzat).

Coefficients(a)

Unstandardized Standardized
Model Coefficients Coefficients t Sig.
Std. Std.
B Error Beta B Error
1 (Constant) 263,000 19,328 13,607 ,000
Temperature in
-55,111 12,224 -,748 -4,508 ,000
degree Fahrenheit
a Dependent Variable: Life of Components in minutes
22. tblzat

A rezidulisokat az albbi tblzat mutatja (23. tblzat).

Residuals Statistics(a)

Minimum Maximum Mean Std. Deviation N


Predicted Value 152,78 207,89 180,33 28,354 18
Residual -29,889 46,111 ,000 25,157 18
Std. Predicted Value -,972 ,972 ,000 1,000 18
Std. Residual -1,153 1,778 ,000 ,970 18
a Dependent Variable: Life of Components in minutes
23. tblzat

86
A hisztogram segtsgvel azt a felttelt vizsglhatjuk, hogy a rezidumok
normlisan oszlanak-e el (63. bra).

Histogram

Dependent Variable: Life of Components in minutes

4
Frequency

Mean =-1,04E-15
Std. Dev. =0,97
0 N =18
-2 -1 0 1 2

Regression Standardized Residual

63. bra

87
A 64. bra a plda regresszis egyenest mutatja meg, vagyis, hogy mennyire
illeszkedik az egyenes a ponthalmazra.

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Life of Components in minutes

1,0

0,8
Expected Cum Prob

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0

Observed Cum Prob

64. bra

6.3. Feladatok
1. Mi a regresszi lnyege s clja, milyen tpusai ismertek?
2. Definilja a korrelcis s a determincis egytthatk kztti kapcsolatot!
3. Mi az a legkisebb ngyzetek mdszere?
4. Mit rtnk rezidulis alatt?

88
7. Kereszttbla elemzs

7.1. Alapfogalmak
A kereszttbla vltozk kztti kapcsolat jellemzsre alkalmas adattbla. A
mtrixban tbbnyire kt nominlis vagy ordinlis vltoz rtkeinek egyttes
eloszlsa brzolhat, azaz a vltozkhoz tartoz rtkek kereszt-kombinciit
jelenti meg.
A kereszttblk elnyei, hogy knnyen kiszmthatk, az eredmnyei
szemlletesek, a legalacsonyabb mrsi szint vltozk esetben is hasznlhatk.
A kereszttblkat kt vltoz sszefggsnek vizsglathoz hasznljuk. Ez a
tblzat olyan cellkbl ll, amelyek a kt vltoz (oszlop- s sorvltoz)
rtkeinek minden kombincija esetn kapott rtkeket tartalmazza. Ezen cellk
rtkei szolgltatnak informcit a kt vltoz kztti sszefggsrl.

7.1.1. A cellk tartalma


A cellk elsdlegesen a kt vltoz ltal meghatrozott esetek szmait, a
gyakorisgot tartalmazzk (Count: ez a kulcssz a tblzat bal fels sarkban
lthat). A msodik rtk a sor szzalk, amely a sor rtkeinek a cellba es
hnyadt mutatja (Row Percentages). A harmadik elem az oszlop szzalk, amely
az egsz oszlop rtkeinek a cellba es hnyadt mutatja (Column Percentages).
Az utols elem a tblzat szzalk, amely a tblzat rtkeinek a cellba es
hnyadt mutatja (Table Percentage).
A tblzat alatt s tle jobbra lthat rtkek a hatrrtkek (marginals), amelyek
az oszlop s sor vltozk szzalk s szmrtkeit kln-kln tartalmazzk.

7.1.2. Kereszttbla statisztikk, a khi-ngyzet prba


A kereszttblban szerepl szzalk- s szmrtkek nem elegendek a kt
vltoz kztti kapcsolat jellemzsre. Egy lehetsges mdszer erre a khi-ngyzet
prba.
Kt vltoz akkor fggetlen, ha az egyes cellba es esetek szmt a
peremeloszlsok egyrtelmen megadjk
Egy, a statisztikban gyakran hasznlt hipotzisvizsglati mdszer a Pearson-khi-
ngyzet prba. Ez a vizsglat nagyon robusztus, azaz a szmts krlmnyei s

89
az adatok eloszlsa nem nagyon befolysolja a hipotzisvizsglat
megbzhatsgt.
A khi-ngyzet prbval a nullhipotzist (H0) ellenrizhetjk, amely egy
sszefggs-vizsglati esetben a kvetkez: A vizsglt vltozk kztt nincsen
sszefggs. Amennyiben a khi-ngyzet rtkhez tartoz szignifikanciaszint 0.05-
nl alacsonyabb, akkor elvetjk a nullhipotzist, ellenkez esetben megtartjuk. (A
szignifikanciartk a khi-ngyzet eloszls elmleti rtknek az adatainkbl
kiszmtott khi-ngyzet rtkkel val sszehasonltsbl szrmazik.

7.2. Plda kereszttblk hasznlatra


Nyissuk meg a smoking.sav llomnyt az SPSS-ben (65. bra). Az adatbzisban
munkakri megoszlsokat (staff) lthatunk s azt tudjuk meg, hogy ki milyen
fokon dohnyzik (smoke). A count egy elzetes szmolst tartalmaz azonos
rtkek esetn (pldul 10 olyan titkrn van, aki nem dohnyzik) (66. bra).

65. bra

90
66. bra

A Crosstabs (Kereszttblk) az Analyze/Descriptive Statistics menpont alatt


rhet el.
Vigynk egy vagy tbb vltozt a Row(s) (sorok) ill. Column(s) (oszlopok)
dobozba. Jelen esetben a sor tartalmazza a Staff Group vltozt, mg az oszlop
Smoking vltozt (67. bra). A sorvltozk kategrii adjk meg a tbla sorait,
az oszlopvltoz kategrii pedig a tbla oszlopait. Minden egyes sor- s
oszlopvltoz prhoz generldik egy kereszttbla. A Suppress Tables opci
kivlasztsa utn csak a statisztikkat fogja megjelenteni a program, a tblkat
nem.

91
67. bra

A Statistics gomb lenyomsval a sor- s oszlopvltozkra jellemz ktvltozs


statisztikkat krhetnk (68. bra).
Vlasszuk a Qhi-squere (khi-ngyzet) vizsglatot, majd nominlis vltozk kzl
a Contingency cofficient, Phi and Cramrs V, Lambda, Uncertaninty cofficient
vizsglatokat.
A khi-ngyzet statisztikt arra hasznljuk, hogy azt a hipotzist, miszerint a sor s
oszlopvltozk fggetlenek, ellenrizhessk. Nem jl hasznlhat, ha brmelyik
cellban a peremeloszlsok alapjn vrhat rtk (expected value) kisebb 1-nl,
vagy a cellk tbb mint 20%-ban ez az rtk kisebb, mint 5. A Pearson khi-
ngyzet a legelterjedtebb forma, a likelihood-ratio khi-ngyzet a maximum
likelihood elmleten alapszik.
A phi egytthat a khi-ngyzetnek a mintanagysggal korriglt rtke. A
kontingencia egytthat a mintanagysgot hasznlja a szmtsnl.
A lambda szzalkos formban azt mutatja meg, hogy fgg vltozt a fggetlen
vltoz milyen mrtkben kpes elre jelezni. A Cramer V a legmegbzhatbb
mutat, aminek a szmtshoz szksg van a mintanagysgra s a kevesebb
lehetsget felknl ismert kategrik szmra.

92
68. bra

A Cells gomb lenyomsa utn a cellk tartalmt hatrozhatjuk meg. A Format


gomb lenyomsa utn megjelen prbeszdablakban a tblzat formtumt
adhatjuk meg. Pipljuk az Observed, Expected ngyzeteket, majd a Row,
Column, Total mezket, hogy megjelenthessk a sorokat, oszlopokat s ezek
sszestst (69. bra).

69. bra

93
A kereszttbla megmutatja, hogy a minta sszesen 486 ft tartalmaz, s nincs
hinyz rtk (24. tblzat).

Case Processing Summary

Cases
Valid Missing Total
N Percent N Percent N Percent
Staff Group * Smoking 486 100,0% 0 ,0% 486 100,0%
24. tblzat

Az albbi tblzat (25. tblzat) a Staff Group s a Smoking vltozk rszletes


megoszlst mutatja.

25. tblzat

94
A Pearson-fle Khi-ngyzet prba alapjn megllapthat, hogy a kt vltoz
szignifikns (26. tblzat). A Khi-ngyzet rtke (2) 117,025, mg a
szabadsgfok (df) 25.

26. tblzat

Az albbi tblzatban (27. tblzat) lthat, hogy a Lambda, a Goodman and


Kruskal tau, Uncertainty Coffiecients szignifikancia szintje kisebb, mint 0,05. A
Value rtkeik a becsls hibavalsznsgnek cskkenst jelzik, ha
felszorozzuk ket szzzal. A kt vltoz (Staff Group s Smoking) Value rtkei
nem egyenlk, teht a kt vltoz nem azonos mrtkben van hatssal a msikra.

27. tblzat

95
A Phi, Cramer V, s a kontingencia egytthat azaz a szimmetrikus mutatk
mind szignifiknsak (Sig.<0,05). A kapcsolat erssge a Phi alapjn 0,491,
Cramer V szerint 0,219, mg a kontingencia egytthat szerint 0,441 (28.
tblzat).

28. tblzat

A kereszttbla eredmnyeit a Bar Chart jl brzolja (70. bra).

96
70. bra

7.3. Feladatok
1. Mi az a kereszttbla, milyen adatokbl ll?
2. Milyen elemzsek vgezhetk el kereszttblk segtsgvel?
3. Mire hasznljuk a kereszttbla statisztikit?

97
8. Klaszteranalzis

8.1. Alapfogalmak
Elssorban folytonos vltozk esetben alkalmazott statisztikai eljrs. Az eljrs
a megadott vltozk segtsgvel csoportokat alakt ki. A csoportkpzs
tvolsgok mrsn alapul. Azokat tekintjk egy csoportban lvknek, akik
elklnlten kzel vannak egymshoz. Az elemzs nehzsge leginkbb abban
ll, hogy a kialakult csoportoknak tudunk-e olyan nevet adni, ami jl lerja az
adott csoportot a tbb csoporthoz kpest. Teht hasonl dolgok csoportostst
jelenti, gyakorlatilag az osztlyozs szinonimjaknt rtelmezhetjk.
A klaszteranalzis alapvet clja, hogy a megfigyelsi egysgeket viszonylag
homogn csoportokba rendezze, az elemzsbe bevont vltozk alapjn.
A folyamat akkor sikeres, ha az egysgek hasonltanak csoporttrsaikhoz,
azonban eltrnek a ms csoportba tartoz elemektl.

8.1.1. A klaszterelemzs technikja


Arra treksznk, hogy a leginkbb sszetartoz elemek kerljenek egy csoportba,
a lehet legtbb tulajdonsg szerint.
Hierarchikus mdszer: az adatok elemzse sorn hozzuk ltre az osztlyokat. Az
sszevon eljrs sorn minden elem kln osztlyba kerl a legkzelebbiek
sszevonsval, mg a feloszt eljrs fellrl lefel, az egszet osztja kln
osztlyokba.
Az sszevon eljrsok fajti:
A legkzelebbi szomszd mdszere: a klnll elemeket egymstl val
tvolsg szerint csoportostjuk. Minl kisebb a tvolsg, annl jobb. Minden
elem egymstl val tvolsgt kell szmolni. A kt legkzelebbit kell
sszevonni. Addig kell folytatni, amg van klnll. Ennek nyomonkvetse
s brzolsa dendrogrammal trtnik.
A legtvolabbi szomszd mdszere.
Centroid: az objektumok tlaga kztti tvolsgot jelenti.
Csoporttlag: az ssze lehetsges elemtvolsg tlaga.
Ngyzetsszeg mdszer.

98
Az rtkek kztt korrelci szksges, mert azok a korrelcis egytthatk
szerepelhetnek benne, amelyek szignifiknsak, ezrt szignifikancia vizsglatot
ignyel.

8.1.2. A klaszterelemzs korltai


Nem vonhatk le kvetkeztetsek a mintbl az alapsokasgra, csak feltr
technikaknt hasznlhat.
Nincs egyetlen legjobb megolds.
Minden esetben ltrehoz klasztereket.
A megoldsok a vltozktl fggnek.
A kialakult csoportok fggnek az egyedek adatbzisbeli sorrendjtl.

8.1.3. Vizsglatok
Vizsgljuk meg, hogy szksg van-e a sklk standardizlsra. Ez akkor fordulhat
el, ha nem egyforma sklkat hasznlunk. A vltozkon vgezznk
korrelcielemzst, hogy kidertsk, elvgezhet-e az analzis. Ellenrizzk a
minta reprezentativitst. Meg kell vizsglni, hogy vannak-e kiugr rtkek, s
amennyiben feltrtuk azokat, akkor szntessk meg. Vizsglnunk kell a vltoz
sklkat is. Ezeket a tovbbiakban rszletesebben kifejtjk.
Fontos eldntennk, hogy milyen hasonlsgi- vagy tvolsgmrtket vlasszunk.
Binris vltoz esetben mindkt tpus fajtibl vlaszthatunk. Metrikus vltoz
esetben tvolsgmrtkeket alkalmazunk.
Vlasszuk ki, hogy milyen a klasztermdszert szeretnnk hasznlni: hierarchikus
eljrst, nem hierarchikus eljrst, vagy a kett kombincijt.
Gondoljuk t, hogy milyen szempontok alapjn trtnik az elemzs, hny
csoportot kpezznk, a csoportok szmnak vltoztatsa hogyan hat az
eredmnyekre.
llaptsuk meg, hogy miben klnbznek egymstl a klaszterek, rtelmesen
interpretlhatk-e az eredmnyek, szksg van-e j vltozk bevonsra, s
milyen nevet adjunk majd a kialakult klasztereknek.
Az elemzs rvnyessgnek elemzse gy trtnik, hogy klnbz eljrsokat,
vagy tvolsgmrtkeket alkalmazunk s sszehasonltjuk az eredmnyeket. Az
adatokat vletlenszeren kt rszre osztjuk. A kt almintn kln-kln elvgzett
elemzsek eredmnyeit sszehasonltjuk. Az elemzst tbbszr lefuttatjuk az
adatok sorrendjnek megvltoztatsval.

99
Mint mr emltettk, a felttelek vizsglata sorn fontos a kiugr rtkek
feltrsa, mivel a klaszteranalzis rendkvl rzkeny az olyan egyedekre,
amelyek jelentsen klnbznek a tbbitl. Feltrsuk trtnhet egyszer grafikus
brzolssal: pontdiagram, boxplot bra vagy egyszer lncmdszer segtsgvel.
Ezek az elemek vagy tnylegesen abnormlis megfigyelsek, amelyek nem
jellemzk az alapsokasgra, vagy a mintban szerepl egyedek alulreprezentljk
az alapsokasgban lv csoport nagysgt. Az els esetben teht rdemes azokat
kitrlni az adatbzisbl.
Klaszterelemzs sorn fontos, hogy egyforma szint metrikus sklkat
hasznljunk. Ha a klaszteranalzis sorn klnbz szint metrikus sklkat
alkalmazunk, teljesen torz sszevonsi smt kaphatunk eredmnyl. A
klnbz sklk azonos szintre hozshoz a standardizlst hasznljuk, amely
sorn az tlagot kivonjuk az egyes rtkekbl s a klnbsget elosztjuk a
szrssal. gy azonos szint sklkat kapunk, lehetv vlik a klnbz szint
skln mrt vltozk sszehasonltsa. A standardizlt skla szrsa 1, az tlaga
0, a pozitv rtkek tlag felettiek, a negatvak tlag alattiak
Szksges a korrelcielemzs, mert a klaszterelemzs minden vltozt azonos
sllyal kezel. Ha teht kt vltoz, vagy egy vltozcsoport tagjai egymssal
szoros korrelcis kapcsolatban vannak, akkor nagyobb szerepet kaphatnak az
eredmnyekben. Ilyen esetben clszer a vltozk valamilyen mdon trtn
reduklsa.
Binris s metrikus vltozk esetn mind a tvolsgmrtkeknl, mind a
hasonlsgi mrtkeknl hasznlatos az euklideszi tvolsg.

8.1.4. Hierarchikus sszevon eljrsok


Egyszer lncmdszer (Single linkage): Azokat a megfigyelsi egysgeket
vonja ssze els lpsben, amelyek kztt legkisebb a tvolsg (legjobban
hasonltanak egymshoz). Kt klaszter kztti tvolsgot mindig a kt
legkzelebbi pont tvolsga hatrozza meg.
Teljes lncmdszer (Complete linkage): Kt klaszter kztti tvolsgot a kt
legtvolabbi pont hatrozza meg.
tlagos lncmdszer: Kt klaszter tvolsgt az sszes megfigyelsi egysg
pronknti tvolsgnak tlaga definilja. (ltalban elnysebb, mint az
elzek).
Hierarchikus sszevon eljrsok.

100
Ward-fle eljrs: Minden klaszterre kiszmoljk az sszes vltoz tlagt,
majd minden megfigyelsi egysgre meghatrozzk a ngyzetes euklideszi
tvolsgot. Minden lpsnl azt a kt klasztert vonjk ssze, amelyeknl a
klaszteren belli szrsngyzet nvekedse a legkisebb.
Centroidmdszer: Kt klaszter kztti tvolsgnak az sszes vltoz tlaga
kztti tvolsga. Ezeket minden lps utn jra szmoljk.

8.1.5. Nem hierarchikus eljrsok


Szekvencilis kszbrtk mdszer: Kivlasztjuk a klaszter-kzppontot, s
minden egysg, ami a kzpponttl egy elre meghatrozott kszbrtken
bellre esik egy klaszterbe kerl. Ezutn j kzppontot vlasztunk s
csoportostjuk a fennmarad egysgeket (egy egysget csak egy klaszter-
kzpponttal lehet csoportostani).
Prhuzamos kszbrtk mdszer: A klaszter-kzppontokat itt egyidejleg
vlasztjuk ki, a kszbrtken belli egysgeket pedig a legkzelebb es
kzpponthoz rendeljk.
Optimlis feloszts mdszere: A megfigyelsi egysgeket a folyamat sorn
jra hozzrendeljk ms klaszterekhez is, hogy egy ltalnos kritriumot
optimalizlhassunk (pl.: adott szm klaszterre a klaszteren belli tvolsgok
tlagt).

Nagyobb esetszmnl (pldul 1500) a hierarchikus klaszterezs mr


krlmnyesebb, ezrt clszer pldul a K-kzp (K-Means) mdszert
vlasztani.
Elre meg kell hatrozni a ltrehozand klaszterek szmt. Indulskor ismertnek
ttelezzk fel a klaszterkzepeket, amelyeket mi is megadhatunk, de rdemes a
programra bzni ezek kijellst.

101
71. bra

8.2. Plda klaszteranalzisre


Nyissuk meg a verd1985.sav llomnyt (72. bra). A kvetkez feladatban
klnbz letkori (age) kategrikba tartoz s klnbz csaldi llapot
(marital) egyedek adathalmazait szeretnnk csoportba rendezni matematikai
(math) s nyelvi tesztjeiknek (language) megfelelen. Az adatbzisban egyb
vltozk is szerepelnek: pet (hny hzillatot tart), news (milyen jsgot olvas),
music (milyen zent szeret), live (milyen tpus teleplsen lakik), amelyeket
most figyelmen kvl hagyhatunk (73. bra).

102
72. bra

73. bra

103
Mint lthatjuk, a math s language tesztpontszma eltr sklj (a matematika
hrmas, mg a nyelv ngyes skls), ezrt standardizlsra van szksgnk.
Vlasszuk az Analyze/Classify/Hierarchical Cluster parancsot (74. bra).

74. bra

A Variable(s) al mozgassuk t a vizsglni kvnt Math test score s Languge test


score vltozkat, majd kattintsunk a Method gombra (75. bra).

75. bra

104
A megjelen ablakban vlasszuk a Wards methodot s Z score-nl a by variables
mezket (76. bra).

76. bra

29. tblzat

105
30. tblzat

A korrelcis vizsglathoz vlasszuk ki a mr tanult Analyze/Correlate/Bivariate


parancsot (77.bra).

77. bra

106
78. bra

.Correlations

Math test Language test


score score
Math test score Pearson Correlation 1 ,615(*)
Sig. (2-tailed) ,015
N 15 15
Language test score Pearson Correlation ,615(*) 1
Sig. (2-tailed) ,015
N 15 15
* Correlation is significant at the 0.05 level (2-tailed).
31. tblzat

A korrelcis analzisbl ltszik, hogy kzepesen ers a korrelci a kt vltoz


kztt (31. tblzat). gy tbb rtk fog egybeesni. Ennek ellenre most
vizsgljuk meg, hogy ha ez a felttel nem teljesl, akkor mi trtnik.
Vizsgljuk meg a tovbbiakban pontfelhdiagram segtsgvel, hogy van-e kiugr
rtk az adatbzisban. Ehhez vlasszuk a Graps/Legacy Dialogs/Scatter/Dot
menpontot (79. bra).

107
79. bra

Az elugr panelben vlasszuk ki a Simple Clustert az esetleges kiugr rtkek


szemlltetshez, majd nyomjuk meg a Define gombot (80. bra).

80. bra

Ezutn vigyk t a vizsgland vltozkat (Math test score and language test
score) az Y Axis s X Axis al. Amennyiben van egyedi azonostval rendelkez
vltoznk, akkor a mg jobb szemlltets rdekben a Label Cases by (a pontok
mell rja az azonostkat) vagy a Set Markers by (a pontokat sznekkel ltja el,
majd az egyes szneket az azonostval prostja) helyekre tehetjk (81. bra).

108
81. bra

109
82. bra

A pontfelhdiagram (82. bra) azt mutatja, hogy van kiugr rtk. Mivel
viszonylag magas volt a korrelci s alacsonyak a sklk, gy lthat, hogy tbb
rtk is egybe esett.
Hogy szemlletesebb tegyk a pontfelhdiagramot, hozzunk ltre egyedi
azonostt (id) az egyes egyedeknek. Ennek rdekben vltsunk Variable View
nzetre, majd rjuk be a nv oszlopba az id vltozt, a tizedesvessz utni rtket
(decimals) cskkentsk 0-ra (83.bra).

110
83. bra

Ezutn vltsunk vissza Data View nzetre, s gpeljk be az id vltozhoz a


sorok azonostit (84. bra).

84. bra

Ismt menjnk a Graphs/Legacy Dialogs/Scatter/Dot menponthoz, majd


vlasszuk a Simple Scatter-t s kattintsunk a Define gombra. A ltrehozott
azonostnkat vigyk a Set Markers by meznvhez (85. bra).

111
85. bra

86. bra

112
A szrsdiagramdiagram (86. bra) jl szemllteti, hogy nem mind a 15 elem esik
ms kategriba, mivel egyes eredmnyek egybe esnek (ez a magasabb korrelci
miatt lehetsges).
A kiugr rtk megjelentsnek legalkalmasabb formja a dendrogram. Ehhez
vlasszuk az Analyze/Classify/Hierarchical Cluster paranancsnl (87. bra) a
Plots gombra (88. bra) kattintva a dendrogramot s kattintsunk a Continue
gombra.

87. bra

88. bra

113
89. bra

A Statistics gombra kattintva a proxy mtrixot s az Agglomeration schedule


brt szeretnnk-e megjelenteni (89. bra), majd ismt a Continue gombra
kattintsunk.

90. bra

A Method gomra kattintva vlasszuk Nearest neighbor (Legkzelebbi szomszd)


mdszert (90. bra).

114
A klaszterek szmnak vgs meghatrozsban hrom szempontot vehetnk
figyelembe. A hierarchikus klaszterelemzs sorn kapott sszevonsi tblzat
(Agglomeration Schedule) (32. tblzat) Coefficients (koefficiens) oszlopban
tallhat rtk ugrsszer nvekedse, msrszt a dendrogram, harmadrszt a
lehetsges klaszterek szakmai rtelmezhetsge.

32. tblzat

115
A dendrogrammal egytt kirajzoldik (33. tblzat) a jgcsap diagram (Icicle)
klnbz tjolssal (Vertical/Horizontal), attl fggen, hogy mit vlasztottuk a
Plots menpontnl.

33. tblzat

A dendrogram segt eldnteni, hogy hny klasztert rdemes kialaktani. A


dendrogrambl (33. tblzat) jl ltszik, hogy a 11-es a kiugr rtk. El kell
dntennk, hogy ez a kiugr rtk abnormlis megfigyels, vagy alulreprezentlja
az alapsokasgban lv csoport nagysgt.

116
91. bra

Mivel tudjuk, hogy melyik az az egyed (11-es szm), akit ki akarunk zrni, gy
nincs ms dolgunk, mint kiszrni. Ezrt vlasszuk a Data/Select Cases parancst
(92. bra), majd If condition is satisfied alatt tallhat If gombra kattintsunk (93.
bra).

117
92. bra

93. bra

118
A szelektlshoz egy tagadst kell alkalmaznunk, hiszen azt az egyedet nem
szeretnnk, ha a vizsglatainkban rszt venne. Teht a kvetkez kpletet
alkalmazhatjuk: not (id=11). A jelen esetben a zrjel el is hagyhat (94. bra).

94. bra

Az SPSS thzssal jelzi, hogy melyik egyed nem fog szerepelni a vizsglatban
(95. bra).

95. bra

Ezt kveten a Ward-eljrssal haladunk tovbb. Ez az eljrs akkor elnys, ha a


feltteleink teljeslnek, valamint a csoportok kzel azonos szrsak s minden
csoport kzel hasonl elemszmmal rendelkezik. Vlasszuk az
Analyze/Classify/Hierarchical Cluster parancsot (96. bra).
Majd az elugr panelben vlasszuk a Method gombot.

119
96. bra

120
A Cluster Method lenyl menjbl vlasszuk a Wards methodot s a
Transform Values lenyl menjbl a None-t (97. bra).

97. bra

A 34. tblzat egyrszt megmutatja az egyes elemek, klaszterek sszevonsi


sorrendjt (Cluster Combine oszlopok), msrszt segt meghatrozni, a megfelel
klaszterszmot. A legnagyobb szakadk megkeresse gy trtnik, hogy
meghatrozzuk az egymst kvet koefficiensek klnbsgt, s a szakadk eltti
klasztermegoldst tekintjk a j klasztermegoldsnak.

121
34. tblzat

Egy nagy ugrst (5,542-rl 21,429-re) lthatunk az utols kt klaszter


sszevonsa miatt. Ezt az ugrst megjelenthetjk gy, hogy a 4. tblzatra
ktszer rkattintunk, majd kijelljk egr segtsgvel az utols kofficienseket
(coefficients) (35. tblzat) s a Formating Toolbarnl a Line diagramot
vlasztjuk ki (98. bra).

122
35. tblzat

98. bra

123
99. bra

124
100. bra

A dendrogram (100. bra) azt mutatja meg, hogy hny sszevons utn hny
klaszter maradt. A dendrogram alapjn kt klasztert clszer ltrehozni. Mentsk
el a ktklaszteres javaslatot. Ehhez vissza kell trnnk az
Analyze/Classify/Hierarchical Cluster parancsohoz, s ott vlasszuk a Save
gombot. A megjelen ablakban a Single Solution (egyetlen megolds) Number of
clusters rtkhez rjunk kettt (101. bra). Amennyiben tbb klasztert sejtnk,
akkor a Range of solutions menpontot vlasszuk, ahol a Minimum number of
clusters (minimlis klaszterszm) rtkhez rjuk az ltalunk vlt legkisebb
klaszterszmot, mg a Maximum number of clusters (maximlis klaszterszm)
rtkhez a legnagyobb klaszterszmot.
A legnagyobb tvolsg a horizontlis tengelyt tekintve 3 s 25 kztt fedezhet
fel.

125
101. bra

Az Output ablakban megjelen albbi bra mutatja, hogy az egyes egyedek


melyik klaszterbe esnek (36. tblzat).

Cluster Membership

Case 2 Clusters
1 1
2 1
3 2
4 1
5 2
6 1
7 2
8 2
9 2
10 2
12 1
13 2
14 2
15 1
36. tblzat

126
Az elemzst a klasztercentroidok (tlagok) alapjn vgezhetjk. Ehhez az tlag,
elemszm s szrs rtkeire lesz szksgnk. Az Analyze/Compare
Means/Means parancsnl (102. bra) a Dependent list-hez a Math and Language
test score vltozkat, az Independent list-hez vlasszuk a kt Ward Methodot
(103. bra), majd az Options gombra kattintva keressk ki az tlag (mean),
elemszm (number of cases), szrs (standard deviation) vizsglatot (104. bra).

102. bra

127
103. bra

104. bra

128
A hrom klaszteres megolds nem hozott megfelel eredmnyt, mert a 3
klaszternl a szrs nagyon csekly (37. tblzat)

Math test score Language test score * Ward Method

Math test Language


Ward Method score test score
1 Mean 2,8333 3,3333
N 6 6
Std. Deviation ,40825 ,51640
2 Mean 1,0000 1,6000
N 5 5
Std. Deviation ,00000 ,54772
3 Mean 2,0000 2,0000
N 3 3
Std. Deviation ,00000 ,00000
Total Mean 2,0000 2,4286
N 14 14
Std. Deviation ,87706 ,93761

37. tblzat

129
A kt klaszteres megolds jobb eredmnyeket hozott (38. tblzat).

Math test score Language test score * Ward Method

Math test Language


Ward Method score test score
1 Mean 2,8333 3,3333
N 6 6
Std. Deviation ,40825 ,51640
2 Mean 1,3750 1,7500
N 8 8
Std. Deviation ,51755 ,46291
Total Mean 2,0000 2,4286
N 14 14
Std. Deviation ,87706 ,93761

38. tblzat

A szrsdiagram segtsgvel rzkeltethetjk a kt klasztert. Ehhez a


Graphs/Legacy Dialogs/Scatter/Dot menpontjban mozgassuk t a 2 klaszteres
(Clu2_1) Ward Methodot (105. bra).

130
105. bra

Az brn kk s zld alakzattal jelltk a kialakult kt klasztert (106. bra). A kt


klasztert elnevezhetjk (pldul 1. klaszter: gyes nyelv s matek tesztet rk, 2.
klaszter: gyengbb nyelv s matek tesztet rk.)

131
106. bra

8.3. Feladatok
1. Mi az klaszteranalzis lnyege?
2. Milyen klaszterelemzsi vizsglati mdszereket ismer?
3. Mi a hierarchikus s egyb eljrsok kzti klnbsg?

132
9. Irodalomjegyzk
[1] Falus Ivn, Oll Jnos: Az empirikus kutatsok gyakorlata. Adatfeldolgozs s
statisztikai elemzs, ISBN 978-963-19-6011-2, Nemzeti Tanknyvkiad,
Budapest, 2008.
[2] Sajtos Lszl, Mitev Ariel: SPSS kutatsi s adatelemzsi kziknyv, ISBN
978-963-9659-08-7, Alinea Kiad, Budapest, 2007.
[3] SPSS Base 15.0 Users Guide, ISBN 978-0-13-613731-3, SPSS Inc. Chicago
IL, 2006.
[4] Kassai Zsuzsanna: Faktoranalzis SPSS alkalmazsval. Szent Istvn
Egyetem, Gazdlkods s Szervezstudomnyi Doktori Iskola, Gdll,
2009. mrcius 15.
http://www2.szie.hu/tti/godolloi/kdi/aktual/tobbvalt_kassai_zsuzsanna.doc
[5] Mrsi segdlet s tmutat az SPSS program hasznlathoz. BME
Tvkzlsi s Telematikai Tanszk, 2000. janur.
http://alpha.tmit.bme.hu/pub/meresek/3x/05/spss.rtf
[6] http://xenia.sote.hu/hu/biosci/docs/biometr/course/explore/statfv.html
[7] http://kompetenciameres.hu/OKM_szojegyzek.pdf

133