Professional Documents
Culture Documents
5. előadás
Hierarchikus klaszterezés
• Klaszterek számát nem kell előre megadni
• A pontok elhelyezkedését térképezi fel
• Nem feltétlenül képződnek klaszterek
• Agglomeratív és felosztó eljárások
• Adatok és/vagy változók klaszterezése
Hierarchikus klaszterezés -2-
• Algoritmus leírása (agglomeratív
eljárások):
• Kezdetben minden pont önálló klaszter
• Minden lépésben a két legközelebbi
klaszter összevonása történik
• N-1 lépésben összevonásra kerül az
összes pont (változó)
• Az összevonásokat ún. dendrogramon
ábrázoljuk
Hierarchikus klaszterezés -3-
• Két lényeges kérdés:
• Mit értünk két pont távolságán
(hasonlóságán)
• Mit értünk két klaszter távolságán (un.
agglomerációs elvek)
Távolság (hasonlósági) mértékek
• Távolság definíciója: d(x,y) kétváltozós
függvény távolság, ha
– nemnegatív: d(x,y)>=0
– d(x,y)=0, akkor és csak akkor, ha x=y
– szimmetrikus d(x,y)=d(y,x)
– háromszög egyenlőtlenség d(x,z)>=d(x,y)
+d(y,z)
Távolság (hasonlósági) mértékek
• Nevezetes távolságok:
– Euklídeszi: d(x,y)=
sqrt[(x1-y1)2+(x2-y2)2+…+(xn-yn)2]
– Négyzetes euklídeszi (nem távolság!):
(x1-y1)2+(x2-y2)2+…+(xn-yn)2
– City block (Manhattan):
|x1-y1|+|x2-y2|+…+|xn-yn|
– Csebisev: max(|x1-y1|,|x2-y2|,…,|xn-yn|)
Agglomerációs elvek
• Mit értünk két klaszter távolságán
Agglomerációs elvek
• Legközelebbi szomszéd (egyszerű lánc)
• Legtávolabbi szomszéd (teljes lánc)
• Átlagos lánc (csoportok között, csoporton
belül)
• Centroid
• Medián
• Ward
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Legközelebbi szomszéd
Agglomeration Schedule