You are on page 1of 35

Többváltozós adatelemzés

1. előadás
A tantárgy előadója
• Ágoston Kolos Csaba
• Egyetemi adjunktus
• Operációkutatás Tanszék
• Operációkutatás, Aktuárius szakirány
tárgyai, Pénzügyi adatok elemzése
A tantárgy célja
• Elsajátítani a többváltozós adatelemzés
legismertebb módszereit
• Megismerni és készség szinten használni
az SPSS programcsomagot
Számonkérés
• Minimumteszt: géptermi vizsga 30 perc
időtartamban. A félévben tanultakhoz
kapcsolódóan 7 kérdés. A kérdésekre
papíron kell válaszolni. Aki a 7 kérdésből
5-re helyes választ adott mehet vizsgázni.
A minimumteszt eredménye nem számít
be a vizsga eredményébe. Az
Operációkutatás Tanszék honlapján
található korábbi minimumteszt (más
tárgyból).
Számonkérés
• Szóbeli vizsga: 15-20 perc időtartamban.
A hallgatónak egy általa választott
adatbázison többváltozós módszerekkel
egy elemzést kell elvégeznie. Ennek az
eredményeit prezentálja a szóbeli
vizsgán. A vizsgához szempontokat az
Operációkutatás Tanszék honlapján talál.
Tananyag
• Kovács Erzsébet: Pénzügyi adatok
statisztikai elemzése
• Honlapon elérhető előadás-vázlatok és
egyéb órai anyagok
Mérési szintek
• Nominális: a változó értékei fel vannak sorolva,
semmilyen viszony nincs köztük. Pl.:nem,
Magyarország megyéi.
• Ordinális: a változó értékei rangsort jelentenek,
de nem tudunk távolságot értelmezni. Pl.: iskolai
végzettség, érdemjegyek. Nem mondhatjuk,
hogy a ‘8 általános’ és ‘szakmunkás’ között
ugyanakkora a különbség, mint a ‘főiskola’ és
‘egyetem’ között.
Mérési szintek - 2
• Intervallum skála: a változó értékei között tudok
távolságot mérni, de nem tudok arányt
értelmezni (nincs természetes 0 pont). Pl.:
hőmérséklet.
• Arány skála: a változó értéke esetén tudok
arányt értelmezni. Pl. jövedelem, életkor.
Értelmes azt mondani, hogy Antal annyival keres
többet Bélánál, amennyivel Béla Csillánál.
Értelmes az is, hogy Antal kétszer annyit keres,
mint Béla.
Mérési szintek - 3
• Az intervallum skála (de nem arány skála) ritkán
fordul elő. Ezt a programcsomagok (az SPSS is)
egy kategóriának kezeli.
• Az intervallum- vagy arány skálán mért
változókkal több féle elemzést lehet elvégezni.
• A nominális és ordinális mérési szinten mért
változók jellemzően kategória változók, a skálán
mért változók jellemzően folytonos változók.
Mutatószámok
• Nominális változók esetén valószínűség
eloszlást tudunk csak készíteni. Ilyen
változók esetén csak módusz létezik.
Adatbázis
• Az előadásokon használt adatbázis egy a
magyar iskolákban elvégzett kutatásból
származik. A kutatás részletei és az
adatbázis letölthető az Internetről:
http://www.oki.hu/oldal.php?
tipus=cikk&kod=adatbazisok-valaszol
Nominális változók
Részletes fenntartókód 1999

Cumulative
Frequency Percent Valid Percent Percent
Valid nagyközség
62 7,5 7,6 7,6
önkormányzat
község önkormányzat 333 40,4 40,6 48,1
város önkormányzat 148 18,0 18,0 66,1
megyei jogú város
136 16,5 16,6 82,7
önkormányzat
megye 37 4,5 4,5 87,2
alapítvány 10 1,2 1,2 88,4
egyház 30 3,6 3,7 92,1
központi fenntartó 5 ,6 ,6 92,7
bpi kerület 46 5,6 5,6 98,3
egyéb 6 ,7 ,7 99,0
kórház 1 ,1 ,1 99,1
főiskola egyetem 7 ,8 ,9 100,0
Total 821 99,6 100,0
Missing System 3 ,4
Total 824 100,0
Mutatószámok - 2
• Ordinális változók esetén a módusz
mellett értelmezni lehet a mediánt is,
továbbá kvartiliseket, deciliseket,
percentiliseket is.
Ordinális változók
Országos oktatáspolitika hatása az oktatás tartalmára

Cumulative
Frequency Percent Valid Percent Percent
Valid nincs hatása 24 2,9 2,9 2,9
csekély 36 4,4 4,4 7,3
közepes 107 13,0 13,0 20,4
elég nagy 242 29,4 29,5 49,9
jelentős 383 46,5 46,7 96,6
nincs válasz 28 3,4 3,4 100,0
Total 820 99,5 100,0
Missing System 4 ,5
Total 824 100,0

Helyi politika, iskolafenntartó hatása az oktatás tartalmára

Cumulative Statistics
Frequency Percent Valid Percent Percent
Valid nem tudja Országos Helyi politika,
2 ,2 ,2 ,2
oktatáspoliti iskolafenntart
nincs hatása 141 17,1 17,2 17,4 ka hatása ó hatása az
csekély 173 21,0 21,1 38,5 az oktatás oktatás
közepes 180 21,8 22,0 60,5 tartalmára tartalmára
elég nagy 161 19,5 19,6 80,1 N Valid 820 820
jelentős 130 15,8 15,9 96,0 Missing 4 4
nincs válasz 33 4,0 4,0 100,0 Median 5,0000 3,0000
Total 820 99,5 100,0 Percentiles 25 4,0000 2,0000
Missing System 4 ,5 50 5,0000 3,0000
Total 824 100,0 75 5,0000 4,0000
Mutatószámok
• Legalább intervallum skálán mért változók
esetén már távolságot tudunk értelmezni,
a változó jellemzésére alkalmas
mutatószámok száma megnövekszik:
átlag, variancia, szórás, ferdeség,
csúcsosság, stb ….
Születés éve
Helyben lakók aránya az 1-4
évfolyamon
Működési kiadás összesen
2001-ben
Mutatószámok
Születési éve Mean Helyben lakók aránya Működési kiadás
a 1-4.évfolyamon
95% Confidence mindösszesen
Interval for Mean 2001-ben (eFt)
Descriptives Descriptives Descriptives
5% Trimmed Mean
Statistic Std. Error Statistic Std. Error Statistic Std. Error
Születési éve MeanHelyben lakók aránya Mean Működési53,3753
kiadás ,25532
Mean 87,2719 1,18615 109590,3 12011,59
95%a Confidence
1-4.évfolyamon Lower Bound mindösszesen
95% Confidence 52,8741
Lower Bound
95% Confidence 84,9422 Lower Bound 85999,85
Interval for Mean Interval 2001-ben
Upper Bound for Mean (eFt)Upper Bound
Interval for Mean
53,8765 Upper Bound
89,6015 133180,7
5% Trimmed Mean 5% Trimmed Mean 53,2837 5% Trimmed Mean 88,5298 87451,61
Median Median 53,0000 Median 96,0000 79175,00
Variance Variance 52,282 Variance 820,257 9E+010
Std. Deviation Std. Deviation 7,23064 Std. Deviation 28,64013 292747,8
Minimum Minimum 37,00 Minimum 2,00 5,00
Maximum Maximum 74,00 Maximum 428,00 6100000
Range Range 37,00 Range 426,00 6099995
Interquartile Range Interquartile Range 10,00 Interquartile Range 17,00 92315,50
Skewness Skewness ,201 ,086
Skewness 3,377 ,101 17,141 ,100
Kurtosis Kurtosis -,596 ,172
Kurtosis 42,871 ,202 326,323 ,200
Az átlag érzékeny a szélső
értékekre
A működési költségeket tartalmazó változóból vett 3 különböző 10%-os minta
Az átlag érzékeny a szélső
értékekre
A működési költségeket tartalmazó változóból vett 3 különböző 10%-os minta

Descriptives Descriptives Descriptives

Statistic Std. Error Statistic Std. Error Statistic Std. Error


Működési kiadás Mean Működési kiadás Mean Működési
183535,4kiadás97327,85
Mean 97771,22 8638,135 93336,79 10844,28
mindösszesen mindösszesen
95% Confidence Lower Bound mindösszesen
95% Confidence-11083,7 Lower 95%
Bound Confidence80480,12Lower Bound 71613,09
2001-ben (eFt) 2001-ben (eFt)
Interval for Mean Interval 2001-ben
for Mean (eFt) Interval for Mean Upper Bound
Upper Bound Upper Bound
378154,4 115062,3 115060,5

5% Trimmed Mean 5% Trimmed84346,69


Mean 5% Trimmed Mean 93491,74 85129,62
Median Median 74637,00 Median 92115,00 70654,00
Variance Variance 6E+011 Variance 4E+009 7E+009
Std. Deviation Std. Deviation766360,2 Std. Deviation 66350,77 81872,50
Minimum Minimum 1910,00 Minimum 4955,00 220,00
Maximum Maximum 6100000 Maximum 276494,0 393000,0
Range Range 6098090 Range 271539,00 392780,00
Interquartile Range Interquartile 93402,50
Range Interquartile Range
81805,00 93862,00
Skewness Skewness 7,790 Skewness
,304 ,851 ,311 1,636 ,316
Kurtosis Kurtosis 61,104 Kurtosis
,599 ,425 ,613 2,955 ,623
Az eloszlás ferdesége
• Több mutatószám létezik, mi az ún. ‘skewness’
mutatót használjuk:
E [ X  E ( X )]3 
E [ X  E ( X )] 
2 3/ 2

• Ha mintából becsüljük:

n ( xi  x ) 3
(n  1)(n  2) s 3

• Ahol s a korrigált tapasztalati szórás


Az eloszlás ferdesége

• Pozitív és negatív ferdeségről beszélünk.


• Szimmetrikus eloszlások esetén a
ferdeség értéke 0.
Eloszlás csúcsossága
• Több mutatószám létezik, mi a kurtózist
használjuk:

E [ X  E ( X )]
4

E [ X  E ( X )] 
2 2

• Ha mintából becsüljük:
4

n(n  1) ( xi  x )  3  ( xi  x ) 2
 ( x  x ) (n  1)
i
2

(n  1)(n  2)(n  3) s 4
Az eloszlás csúcsossága
• A kurtózis mutató értéke csak pozítív
lehet, normális eloszlás esetén 3 az
értéke.
• A SPSS az ún. kurtózis meghaladás
értékét mutatja (de kurtózisnak hívja), ami
a kurtózisból levonja a 3 értéket, így lehet
negatív is.
Az eloszlás csúcsossága
• A normális eloszlásnál csúcsosabb
eloszlás két dolgot mutathat:
– Az átlag környékén több érték található, mint
normális eloszlás esetén vagy
– Az eloszlás szélein több megfigyelés
található, mint normális eloszlás esetén
3 elszlás csúcsossága
• Sztenderd normális
• (a,b) intervallumon egyenletes
• Két szembefordított exponenciális
3 eloszlás csúcsossága
3 eloszlás csúcsossága
Statistics

Sztend
Expone erd_ Egyenlet
ncialis norm es
N 10000 10000 10000
0 0 0
Mean -,0167 -,0154 -,0217
Std. Deviation ,99665 ,98611 1,00013
Skewness -,068 -,012 ,019
Std. Error of Skewness ,024 ,024 ,024
Kurtosis 2,945 -,005 -1,194
Std. Error of Kurtosis ,049 ,049 ,049
Minimum -5,54 -4,01 -1,73
Maximum 5,54 3,46 1,73
Sztenderdizálás
• Normalizálás alatt az értjük, hogy a
változókat valamilyen módon
összemérhetővé tesszük. Ennek egyik
módja a sztenderdizálás: a változó
értékéből levonjuk az átlagot és osztjuk a
szórással. Így a sztenderdizált változó 0
átlagú és 1 szórású lesz.
Sztenderdizálás -2-
• Sztenderdizálással el tudjuk tüntetni a
mértékegységek hatását. A sztenderdizált
változó érzéketlen a lineáris
transzformációra.
• Nem alkalmas a sztenderdizálás a kilógó
értékek kezelésére.
Változók transzformálása
• Amennyiben valamelyik változó eloszlása
jelentősen eltér a normális eloszlástól, és/vagy
nagy egyedi kiugró értékek vannak meg lehet
próbálni valamilyen transzformációval közelebb
hozni a normális eloszláshoz
• Legáltalánosabb transzformálás a logaritmálás.
Akkor célszerű alkalmazni, amikor a változóra
inkább valamilyen arányszerű változás a
jellemző
Működési költség illetve annak
logaritmáltja
Működési költség illetve annak
logaritmáltja
Statistics

Működési Log Működési


kiadás kiadás
mindösszes mindösszese
en 2001-ben n 2001-ben
(eFt) (eFt)
N Valid 594 594
Missing 230 230
Mean 109590,2845 11,0557
Median 79175,0000 11,2794
Mode 28000,00 10,24
Std. Deviation 292747,846 1,16878
Skewness 17,141 -2,029
Std. Error of Skewness ,100 ,100
Kurtosis 326,323 11,189
Std. Error of Kurtosis ,200 ,200
Minimum 5,00 1,61
Maximum 6100000,00 15,62
Percentiles 25 37688,2500 10,5371
50 79175,0000 11,2794
75 130003,7500 11,7753
Működési költség illetve annak
logaritmáltja
Statistics
Működési kiadás mindösszesen 2001-ben
Log Működési
(eFt) kiadás mindösszesen
N Valid 594 594
Missing 230 230
Mean 109590,3 11,6 11,1
Median 79175,0 11,3 11,3
Mode 28000,0 10,2 10,2
Std. Deviation 292747,8 12,6 1,2
Skewness 17,1 2,8 -2,0
Std. Error of Skewness 0,1 -2,3 0,1
Kurtosis 326,3 5,8 11,2
Std. Error of Kurtosis 0,2 -1,6 0,2
Minimum 5,0 1,6 1,6
Maximum 6100000,0 15,6 15,6
Percentiles 25 37688,3 10,5 10,5
50 79175,0 11,3 11,3
75 130003,8 11,8 11,8

You might also like