You are on page 1of 58

Többváltozós adatelemzés

5. előadás
Hierarchikus klaszterezés
• Klaszterek számát nem kell előre megadni
• A pontok elhelyezkedését térképezi fel
• Nem feltétlenül képződnek klaszterek
• Agglomeratív és felosztó eljárások
• Adatok és/vagy változók klaszterezése
Hierarchikus klaszterezés -2-
• Algoritmus leírása (agglomeratív
eljárások):
• Kezdetben minden pont önálló klaszter
• Minden lépésben a két legközelebbi
klaszter összevonása történik
• N-1 lépésben összevonásra kerül az
összes pont (változó)
• Az összevonásokat ún. dendrogramon
ábrázoljuk
Hierarchikus klaszterezés -3-
• Két lényeges kérdés:
• Mit értünk két pont távolságán
(hasonlóságán)
• Mit értünk két klaszter távolságán (un.
agglomerációs elvek)
Távolság (hasonlósági) mértékek
• Távolság definíciója: d(x,y) kétváltozós
függvény távolság, ha
– nemnegatív: d(x,y)>=0
– d(x,y)=0, akkor és csak akkor, ha x=y
– szimmetrikus d(x,y)=d(y,x)
– háromszög egyenlőtlenség d(x,z)>=d(x,y)
+d(y,z)
Távolság (hasonlósági) mértékek
• Nevezetes távolságok:
– Euklídeszi: d(x,y)=
sqrt[(x1-y1)2+(x2-y2)2+…+(xn-yn)2]
– Négyzetes euklídeszi (nem távolság!):
(x1-y1)2+(x2-y2)2+…+(xn-yn)2
– City block (Manhattan):
|x1-y1|+|x2-y2|+…+|xn-yn|
– Csebisev: max(|x1-y1|,|x2-y2|,…,|xn-yn|)
Agglomerációs elvek
• Mit értünk két klaszter távolságán
Agglomerációs elvek
• Legközelebbi szomszéd (egyszerű lánc)
• Legtávolabbi szomszéd (teljes lánc)
• Átlagos lánc (csoportok között, csoporton
belül)
• Centroid
• Medián
• Ward
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Agglomeration Schedule

Stage Cluster First


Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 15 16 1,000 0 0 2
2 13 15 1,414 0 1 3
3 11 13 1,414 0 2 9
4 8 10 1,414 0 0 5
5 5 8 1,414 0 4 6
6 5 7 1,414 5 0 8
7 4 9 2,000 0 0 13
8 3 5 2,000 0 6 12
9 11 18 2,236 3 0 11
10 14 17 2,236 0 0 11
11 11 14 2,236 9 10 16
12 3 12 2,236 8 0 17
13 4 6 2,236 7 0 14
14 1 4 2,236 0 13 15
15 1 2 2,236 14 0 16
16 1 11 2,828 15 11 17
17 1 3 2,828 16 12 0
Legközelebbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Legtávolabbi szomszéd
Agglomeration Schedule

Stage Cluster First


Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 15 16 1,000 0 0 7
2 11 13 1,414 0 0 7
3 8 10 1,414 0 0 5
4 4 9 2,000 0 0 12
5 7 8 2,000 0 3 10
6 14 18 2,236 0 0 14
7 11 15 2,236 2 1 14
8 2 6 2,236 0 0 13
9 12 17 2,828 0 0 15
10 3 7 3,162 0 5 11
11 3 5 3,162 10 0 15
12 1 4 4,123 0 4 13
13 1 2 4,243 12 8 16
14 11 14 5,000 7 6 16
15 3 12 7,280 11 9 17
16 1 11 9,055 13 14 17
17 1 3 10,817 16 15 0
Legtávolabbi szomszéd
Ward elv
Hány klaszter keletkezik
• A dendrogramot az 5 és 10 távolságszint
között szoktuk elvágni
• Akkor jó, ha összevonódások az 5
távolságszint alatt, vagy a 10 felett vannak
• Az eljárás meglehetősen heurisztikus
Melyiket válasszuk
• ‘Ahogy tetszik gondolni’
• Tértégító, térszűkítő, térkonzerváló hatás
• ‘Szokásjog’
• Feladat egyedi jellege (pl. monoton
transzformációra legyen érzéketlen)
Esetek szűrése
• Ha túl sok eset van nem mutat semmit a
dendrogram, ilyenkor célszerű szűkíteni a
megfigyelések körét
• Sztendredizálás szűrés előtt, vagy szűrés
után?
Hierarchikus klaszterezés
Egyházi intézmények
Agglomeration Schedule

Stage Cluster First


Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 74 78 ,033 0 0 5
2 75 79 ,068 0 0 4
3 67 70 ,137 0 0 5
4 72 75 ,239 0 2 6
5 67 74 ,379 3 1 7
6 72 77 ,531 4 0 9
7 67 73 ,834 5 0 9
8 69 71 1,500 0 0 10
9 67 72 3,100 7 6 11
10 66 69 6,607 0 8 11
11 66 67 10,943 10 9 0
Fenntartóra aggregálva
kiadások szerkezete
Fenntartóra aggregálva
kiadások megoszlása
Megyére aggregálva
kiadások szerkezete
Megyére aggregálva
kiadások megoszlása

You might also like