Tobbv Ea4 Klaszterezes

Többváltozós adatelemzés
4. előadás
Klaszterelemzés
• Nem irányított szegmentálás
• Nincs ‘eredményváltozó’
• A változók egyenrangúak
• Osztályozó nélküli osztályozás
• Nem irányított tanulás
Mi a cél?
• Nem jól definiált (saját meglátás)
• „Clustering is the classification of objects into
different groups, or more precisely, the
partitioning of a data set into subsets (clusters),
so that the data in each subset (ideally) share
some common trait - often proximity according to
some defined distance measure.”
• Heterogén sokaság homogén részsokaságokra
történő felbontása (saját definíció)
Előnyök
• Nem szükséges az eloszlást ismerni

• Gyakorlatilag bármilyen adatállományon
lehet klaszterelemzést végezni
Hátrányok
• Erős szubjektivitás
• Nincsenek támpontok az ‘illeszkedés’
jóságának méréséhez
• Sok választási lehetőség, orientáció nélkül
• Tapasztalat
Elvárások a klaszterezéssel
szemben
• Folytonosság: kis változásokra az

adatokban kis változások történjenek a
klaszterekben)
• Nincs jól definiálva, hogy mit jelent a kis
változás
szemben -2-
• Stabilitás: egy-egy adat jelentősége
csekély (egy új pont elvétele vagy
hozzáadása elenyésző hatású)
• Időbeli (keresztmetszeti) stabilitás:
különböző időpontokban (helyeken)
elvégzett klaszterezés azonos eredményt
adjon
szemben -3-
• Invariancia: a klaszterelemzés invariáns
legyen a változók monoton
transzformációjára
• Skálafüggetlenség (pl.: sztenderdizálás)
• Adatok sorrendjétől való függetlenség
szemben -4-
• Validitás:
• Külső validitás: ismert csoportokba tartozó
egyedekből veszünk mintát
• Belső validitás: eredeti és származtatott
távolságok
• Megismételhetőség
• Különböző eljárások összevetése
szemben -5-
• Robosztusság: kilógó pontok hatásának

csökkentése
Klaszterelmzés két fő iránya
• Nemhierarchikus klaszterelmzés
– K-középpontú algoritmus (K-means cluster)
– Partícionáló klaszterelemzés
• Hierarchikus klaszterelmzés
• Természetesen ezen két fő irányon kívül
léteznek még más eljárások is.
– Egyik legismertebb az ún. Kohonen-map ami
neurális hálón alapszik
K középpontú algoritmus
• Algoritmus leírása
• Klaszterközepek kijelölése
• Adatpontok hozzárendelése a
középpontokohoz
• Klaszterközepek újraszámolás
• Ha a klaszterközepek változtak, akkor
újabb iteráció
Iteration Historya
Change in Cluster
Centers Number of Cases in each Cluster
Iteration 1 2 Cluster 1 9,000
1 4,963 5,129 2 9,000
2 ,338 ,341 Valid 18,000
3 ,490 ,454 Missing 4,000
4 ,000 ,000
a. Convergence achieved due to no or small change in
cluster centers. The maximum absolute coordinate
change for any center is ,000. The current iteration is 4.
The minimum distance between initial centers is 4,123.
Initial Cluster Centers Final Cluster Centers

Cluster Cluster
1 2 1 2
VAR00001 1,00 2,00 VAR00001 5,67 6,33
VAR00002 6,00 10,00
VAR00002 2,89 8,44
Input from FILE Subcommand
Kezdőpontok hatása
• A kleszterelmzést megismételjük úgy,
hogy induláskor másik kezdőpontot
választunk
Kezdőpontok választása
• Az előbbi példán is láttuk, milyen nagy a
kezdőpontok választásának jelentősége
• Az SPSS programcsomag egy viszonylag
bonyolult algoritmussal választ
kezdőpontot, amivel eléri, hogy az esetek
nagy részében nem függ az adatok
sorrendjétől a választás, de bizonyos
esetekben más eredményt kapunk az
adatok sorrendjétől függően
K középpontú algoritmus
• Az algoritmus meglehetősen gyors
• Lokális optimum problémája
• Az eljárás függhet a kezdőpontok
megválasztásától
• Kis elemszámú klaszterek
• Klaszterek számára nincs iránymutatás
(hüvelykujj szabály: könyökpont keresése)
• Változók jelentősége (ANOVA tábla)
Változók mértékegysége
• A nagyobb szórású változók nagyobb
hatással vannak a klaszterezésre
• Ha a változók mértékegysége különbözik,
akkor a változókat sztenderdizáljuk
• A sztenderdizálás hatására az eredmény
érzéketlen a lineáris transzformációra
K középpontú klaszterelemzés
Final Cluster Centers
Cluster
1 2 3 4
Zscore: pedagógusokra Number of Cases in each Cluster
jutó személyi kiadás
22,29278 -,22636 ,39739 -,04147 Cluster 1 1,000
járulékokkal 2001-ben
(eFt) 2 1,000
Zscore: nem 3 33,000
pedagógusokra jutó 4 405,000
személyi kiadás 22,87362 -,09067 ,26553 -,05386 Valid 440,000
(eFt) Missing 384,000
Zscore: Közmű és
energiakiadások 22,70259 -,11251 ,08275 -,06292
2001-ben (eFt)
Zscore: Felújítási és
beruházási kiadás 7,82214 14,56953 1,43848 -,19479
2001-ben (eFt)
Extrém értékek nélkül
Cluster
1 2 3 4
Zscore: pedagógusokra
-,59133 ,71940 -,49197 1,19681 Number of Cases in each Cluster
(eFt) Cluster 1 1,000
Zscore: nem 2 17,000
pedagógusokra jutó
3 280,000
személyi kiadás -,09067 ,23439 -,10970 ,09704
járulékokkal 2001-ben 4 141,000
(eFt) Valid 439,000
Zscore: Közmű és Missing 385,000
energiakiadások -,11251 ,01215 -,08075 -,00247
2001-ben (eFt)
beruházási kiadás 14,56953 2,02478 -,23188 -,00649
2001-ben (eFt)
ANOVA
ANOVA
Cluster Error
Mean Square df Mean Square df F Sig.
Zscore: pedagógusokra
91,580 3 ,428 435 214,196 ,000
(eFt)
Zscore: nem
pedagógusokra jutó
személyi kiadás 1,749 3 ,018 435 95,024 ,000
(eFt)
Zscore: Közmű és
energiakiadások ,217 3 ,010 435 22,002 ,000
2001-ben (eFt)
beruházási kiadás 98,794 3 ,096 435 1033,571 ,000
2001-ben (eFt)
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize
the differences among cases in different clusters. The observed significance levels are not corrected for this and
thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Hány klaszter legyen?
Cluster
Number of Cases in each Cluster 1 2 3
Zscore: pedagógusokra jutó személyi kiadás
Cluster 1 2001-ben (eFt)
147,000 1,21611 -,59133 -,46577
járulékokkal
2 pedagógusokra
Zscore: nem 1,000
jutó személyi
,12658 -,09067 -,10879
kiadás járulékokkal
3 2001-ben (eFt)
291,000
Zscore: Közmű és energiakiadások 2001-ben
Valid 439,000 ,00399 -,11251 -,08020
(eFt)
Missing 385,000
Zscore: Felújítási és beruházási kiadás
,21291 14,56953 -,21553
2001-ben (eFt)
Number of Cases in each Cluster Cluster

1 2 3 4 5
Clusterpedagógusokra
Zscore: 1 jutó23,000
személyi
2 2,83174 ,72666 -,59133 -,70032 ,61465
kiadás járulékokkal 2001-ben16,000
(eFt)
Zscore: nem3pedagógusokra1,000 jutó személyi
,29147 ,22885 -,09067 -,12726 ,01906
kiadás járulékokkal
4 2001-ben (eFt)
212,000
Zscore: Közmű 5 és energiakiadások
187,000 ,06224 ,00784 -,11251 -,09076 -,02709
2001-ben (eFt)
Valid 439,000
Zscore: Felújítási és beruházási kiadás
Missing 385,000 ,39863 2,09388 14,56953 -,25646 -,10546
2001-ben (eFt)
Könyökpont keresése
• Egy heurisztikus megközelítés:
• Tekintsük a klasztereket csoportképző
változónak.
• Számoljuk minden klaszterszám esetén a
külső szórásnégyzet és a teljes
szórásnégyzet arányát.
• Válasszuk azt a klaszterszámot, ahol törés
mutatkozik a görbében
Könyökpont keresése
Százalékos megoszlás
• Ha az abszolút értékek alapján végezzük
el a klaszterelemzést (még ha
sztenderdizálva vannak is a változók)
olyan klaszterek keletkeznek, hogy vannak
nagy költségvetésű intézmények és
vannak kicsik
• Százalékos megoszlás esetén nem
alkalmazok sztenderdizálást
Cluster
1 2 3 4 5
ped_arany ,60 11,14 2,50 ,61 7,56
nemped_arany ,18 1,41 ,84 ,13 1,23
kozmu_arany ,05 ,79 ,41 ,08 ,48
beruh_arany 6,84 ,07 ,18 ,06 ,06
Number of Cases in each Cluster

Cluster 1 1,000
2 2,000
3 8,000
4 412,000
5 1,000
Valid 424,000
Missing 400,000
-szűrés után-
Cluster
1 2 3 4 5
ped_arany ,54 ,18 ,07 ,71 ,03
nemped_arany ,17 ,10 ,79 ,10 ,05
kozmu_arany ,10 ,06 ,05 ,07 ,96
beruh_arany ,06 ,11 ,05 ,05 ,36

Cluster 1 187,000
2 18,000
3 1,000
4 200,000
5 1,000
Valid 407,000
Missing 417,000
-szűrés után-
Cluster
1 2 3 4 5 6
ped_arany ,49 ,55 ,15 ,03 ,07 ,72
nemped_arany ,17 ,16 ,08 ,05 ,79 ,10
kozmu_arany ,11 ,09 ,06 ,96 ,05 ,07
beruh_arany ,27 ,04 ,07 ,36 ,05 ,05

Cluster 1 26,000
2 178,000
3 15,000
4 1,000
5 1,000
6 186,000
Valid 407,000
Missing 417,000

Tobbv Ea4 Klaszterezes

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tobbv Ea4 Klaszterezes

Uploaded by

Copyright:

Available Formats

Többváltozós adatelemzés

• Nem szükséges az eloszlást ismerni

• Folytonosság: kis változásokra az

• Robosztusság: kilógó pontok hatásának

Initial Cluster Centers Final Cluster Centers

Final Cluster Centers

Number of Cases in each Cluster Cluster

Number of Cases in each Cluster

Number of Cases in each Cluster

Number of Cases in each Cluster

You might also like