You are on page 1of 41

Többváltozós adatelemzés

4. előadás
Klaszterelemzés
• Nem irányított szegmentálás
• Nincs ‘eredményváltozó’
• A változók egyenrangúak
• Osztályozó nélküli osztályozás
• Nem irányított tanulás
Mi a cél?
• Nem jól definiált (saját meglátás)
• „Clustering is the classification of objects into
different groups, or more precisely, the
partitioning of a data set into subsets (clusters),
so that the data in each subset (ideally) share
some common trait - often proximity according to
some defined distance measure.”
• Heterogén sokaság homogén részsokaságokra
történő felbontása (saját definíció)
Előnyök

• Nem szükséges az eloszlást ismerni


• Gyakorlatilag bármilyen adatállományon
lehet klaszterelemzést végezni
Hátrányok
• Erős szubjektivitás
• Nincsenek támpontok az ‘illeszkedés’
jóságának méréséhez
• Sok választási lehetőség, orientáció nélkül
• Tapasztalat
Elvárások a klaszterezéssel
szemben

• Folytonosság: kis változásokra az


adatokban kis változások történjenek a
klaszterekben)
• Nincs jól definiálva, hogy mit jelent a kis
változás
Elvárások a klaszterezéssel
szemben -2-
• Stabilitás: egy-egy adat jelentősége
csekély (egy új pont elvétele vagy
hozzáadása elenyésző hatású)
• Időbeli (keresztmetszeti) stabilitás:
különböző időpontokban (helyeken)
elvégzett klaszterezés azonos eredményt
adjon
Elvárások a klaszterezéssel
szemben -3-
• Invariancia: a klaszterelemzés invariáns
legyen a változók monoton
transzformációjára
• Skálafüggetlenség (pl.: sztenderdizálás)
• Adatok sorrendjétől való függetlenség
Elvárások a klaszterezéssel
szemben -4-
• Validitás:
• Külső validitás: ismert csoportokba tartozó
egyedekből veszünk mintát
• Belső validitás: eredeti és származtatott
távolságok
• Megismételhetőség
• Különböző eljárások összevetése
Elvárások a klaszterezéssel
szemben -5-

• Robosztusság: kilógó pontok hatásának


csökkentése
Klaszterelmzés két fő iránya
• Nemhierarchikus klaszterelmzés
– K-középpontú algoritmus (K-means cluster)
– Partícionáló klaszterelemzés
• Hierarchikus klaszterelmzés
• Természetesen ezen két fő irányon kívül
léteznek még más eljárások is.
– Egyik legismertebb az ún. Kohonen-map ami
neurális hálón alapszik
K középpontú algoritmus
• Algoritmus leírása
• Klaszterközepek kijelölése
• Adatpontok hozzárendelése a
középpontokohoz
• Klaszterközepek újraszámolás
• Ha a klaszterközepek változtak, akkor
újabb iteráció
Iteration Historya

Change in Cluster
Centers Number of Cases in each Cluster
Iteration 1 2 Cluster 1 9,000
1 4,963 5,129 2 9,000
2 ,338 ,341 Valid 18,000
3 ,490 ,454 Missing 4,000
4 ,000 ,000
a. Convergence achieved due to no or small change in
cluster centers. The maximum absolute coordinate
change for any center is ,000. The current iteration is 4.
The minimum distance between initial centers is 4,123.

Initial Cluster Centers Final Cluster Centers


Cluster Cluster
1 2 1 2
VAR00001 1,00 2,00 VAR00001 5,67 6,33
VAR00002 6,00 10,00
VAR00002 2,89 8,44
Input from FILE Subcommand
Kezdőpontok hatása
• A kleszterelmzést megismételjük úgy,
hogy induláskor másik kezdőpontot
választunk
Kezdőpontok választása
• Az előbbi példán is láttuk, milyen nagy a
kezdőpontok választásának jelentősége
• Az SPSS programcsomag egy viszonylag
bonyolult algoritmussal választ
kezdőpontot, amivel eléri, hogy az esetek
nagy részében nem függ az adatok
sorrendjétől a választás, de bizonyos
esetekben más eredményt kapunk az
adatok sorrendjétől függően
K középpontú algoritmus
• Az algoritmus meglehetősen gyors
• Lokális optimum problémája
• Az eljárás függhet a kezdőpontok
megválasztásától
• Kis elemszámú klaszterek
• Klaszterek számára nincs iránymutatás
(hüvelykujj szabály: könyökpont keresése)
• Változók jelentősége (ANOVA tábla)
Változók mértékegysége
• A nagyobb szórású változók nagyobb
hatással vannak a klaszterezésre
• Ha a változók mértékegysége különbözik,
akkor a változókat sztenderdizáljuk
• A sztenderdizálás hatására az eredmény
érzéketlen a lineáris transzformációra
K középpontú klaszterelemzés
Final Cluster Centers

Cluster
1 2 3 4
Zscore: pedagógusokra Number of Cases in each Cluster
jutó személyi kiadás
22,29278 -,22636 ,39739 -,04147 Cluster 1 1,000
járulékokkal 2001-ben
(eFt) 2 1,000
Zscore: nem 3 33,000
pedagógusokra jutó 4 405,000
személyi kiadás 22,87362 -,09067 ,26553 -,05386 Valid 440,000
járulékokkal 2001-ben
(eFt) Missing 384,000
Zscore: Közmű és
energiakiadások 22,70259 -,11251 ,08275 -,06292
2001-ben (eFt)
Zscore: Felújítási és
beruházási kiadás 7,82214 14,56953 1,43848 -,19479
2001-ben (eFt)
Extrém értékek nélkül
Final Cluster Centers

Cluster
1 2 3 4
Zscore: pedagógusokra
jutó személyi kiadás
-,59133 ,71940 -,49197 1,19681 Number of Cases in each Cluster
járulékokkal 2001-ben
(eFt) Cluster 1 1,000
Zscore: nem 2 17,000
pedagógusokra jutó
3 280,000
személyi kiadás -,09067 ,23439 -,10970 ,09704
járulékokkal 2001-ben 4 141,000
(eFt) Valid 439,000
Zscore: Közmű és Missing 385,000
energiakiadások -,11251 ,01215 -,08075 -,00247
2001-ben (eFt)
Zscore: Felújítási és
beruházási kiadás 14,56953 2,02478 -,23188 -,00649
2001-ben (eFt)
ANOVA
ANOVA

Cluster Error
Mean Square df Mean Square df F Sig.
Zscore: pedagógusokra
jutó személyi kiadás
91,580 3 ,428 435 214,196 ,000
járulékokkal 2001-ben
(eFt)
Zscore: nem
pedagógusokra jutó
személyi kiadás 1,749 3 ,018 435 95,024 ,000
járulékokkal 2001-ben
(eFt)
Zscore: Közmű és
energiakiadások ,217 3 ,010 435 22,002 ,000
2001-ben (eFt)
Zscore: Felújítási és
beruházási kiadás 98,794 3 ,096 435 1033,571 ,000
2001-ben (eFt)
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize
the differences among cases in different clusters. The observed significance levels are not corrected for this and
thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Hány klaszter legyen?
Final Cluster Centers

Cluster
Number of Cases in each Cluster 1 2 3
Zscore: pedagógusokra jutó személyi kiadás
Cluster 1 2001-ben (eFt)
147,000 1,21611 -,59133 -,46577
járulékokkal
2 pedagógusokra
Zscore: nem 1,000
jutó személyi
,12658 -,09067 -,10879
kiadás járulékokkal
3 2001-ben (eFt)
291,000
Zscore: Közmű és energiakiadások 2001-ben
Valid 439,000 ,00399 -,11251 -,08020
(eFt)
Missing 385,000
Zscore: Felújítási és beruházási kiadás
,21291 14,56953 -,21553
2001-ben (eFt)

Final Cluster Centers

Number of Cases in each Cluster Cluster


1 2 3 4 5
Clusterpedagógusokra
Zscore: 1 jutó23,000
személyi
2 2,83174 ,72666 -,59133 -,70032 ,61465
kiadás járulékokkal 2001-ben16,000
(eFt)
Zscore: nem3pedagógusokra1,000 jutó személyi
,29147 ,22885 -,09067 -,12726 ,01906
kiadás járulékokkal
4 2001-ben (eFt)
212,000
Zscore: Közmű 5 és energiakiadások
187,000 ,06224 ,00784 -,11251 -,09076 -,02709
2001-ben (eFt)
Valid 439,000
Zscore: Felújítási és beruházási kiadás
Missing 385,000 ,39863 2,09388 14,56953 -,25646 -,10546
2001-ben (eFt)
Könyökpont keresése
• Egy heurisztikus megközelítés:
• Tekintsük a klasztereket csoportképző
változónak.
• Számoljuk minden klaszterszám esetén a
külső szórásnégyzet és a teljes
szórásnégyzet arányát.
• Válasszuk azt a klaszterszámot, ahol törés
mutatkozik a görbében
Könyökpont keresése
Százalékos megoszlás
• Ha az abszolút értékek alapján végezzük
el a klaszterelemzést (még ha
sztenderdizálva vannak is a változók)
olyan klaszterek keletkeznek, hogy vannak
nagy költségvetésű intézmények és
vannak kicsik
• Százalékos megoszlás esetén nem
alkalmazok sztenderdizálást
Százalékos megoszlás
Final Cluster Centers

Cluster
1 2 3 4 5
ped_arany ,60 11,14 2,50 ,61 7,56
nemped_arany ,18 1,41 ,84 ,13 1,23
kozmu_arany ,05 ,79 ,41 ,08 ,48
beruh_arany 6,84 ,07 ,18 ,06 ,06

Number of Cases in each Cluster


Cluster 1 1,000
2 2,000
3 8,000
4 412,000
5 1,000
Valid 424,000
Missing 400,000
Százalékos megoszlás
-szűrés után-
Final Cluster Centers

Cluster
1 2 3 4 5
ped_arany ,54 ,18 ,07 ,71 ,03
nemped_arany ,17 ,10 ,79 ,10 ,05
kozmu_arany ,10 ,06 ,05 ,07 ,96
beruh_arany ,06 ,11 ,05 ,05 ,36

Number of Cases in each Cluster


Cluster 1 187,000
2 18,000
3 1,000
4 200,000
5 1,000
Valid 407,000
Missing 417,000
Százalékos megoszlás
-szűrés után-
Final Cluster Centers

Cluster
1 2 3 4 5 6
ped_arany ,49 ,55 ,15 ,03 ,07 ,72
nemped_arany ,17 ,16 ,08 ,05 ,79 ,10
kozmu_arany ,11 ,09 ,06 ,96 ,05 ,07
beruh_arany ,27 ,04 ,07 ,36 ,05 ,05

Number of Cases in each Cluster


Cluster 1 26,000
2 178,000
3 15,000
4 1,000
5 1,000
6 186,000
Valid 407,000
Missing 417,000

You might also like