Professional Documents
Culture Documents
Nenad@matf BG Ac Rs
Nenad@matf BG Ac Rs
Ненад Митић
Математички факултет
nenad@matf.bg.ac.rs
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
Сличност кластера
Сличност кластера
K
E= ∑ ∑ || xi − ck ||2
k=1 xi ∈Ck
mi nj
∇Eij = || ci − cj ||2
mi + nj
Метода αA αB β γ
Поjединачна веза 1/2 1/2 0 -1/2
Комплетна веза 1/2 1/2 0 1/2
na nb
Просек групе (UPGMA) na +nb na +nb 0 0
Тежински просек гр. (WPGMA) 1/2 1/2 0 0
na nb −na ×nb
Центроид (UPGMC) na +nb na +nb (na +nb )2
0
Медиjана (WPGMC) 1/2 1/2 -1/4 0
na +nq nb +nq −nq
Ward-ова метода na +nb +nq na +nb +nq na +nb +nq 0
DBSCAN
За задату вредност ε и броj t
DBSCAN
DBSCAN
DBSCAN
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
DBSCAN
DBSCAN
Недостатак DBSCAN алгоритма
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
Питања (наставак):
Ако постоjе спољашње информациjе о ознакама класе, како са
њима упоредити резултате кластеровања
У општем случаjу нема спољашњег критериjума коjи jе на
располагању за проверу. Делимично, могућа jе провера преко
спољашњег критериjума ако
постоjе синтетички генерисани подаци за тестирање
постоjе ознаке класа
Како од два различита резултата кластеровања одредити коjи
jе бољи
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
Тенденциjа кластеровања
Хопкинсова статистика
Хопкинсова статистика
Кохезиjа и раздваjање
Као мера за одређивање кохезиjе кластера може се користити
Збир квадрата међусобног растоjања тачака у кластеру или збир квадрата
растоjања тачака од центроида тог кластера
Боље прилагођена алгоритмима коjи су засновани на одређивању
растоjања (као k-средина)
Мање одговараjу алгоритмима са мрежама и густином
Апсолутне вредности растоjања не пружаjу квалитетну информациjу о
квалитету самог кластера
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
Кохезиjа и раздваjање
∑ dist(Xi , Xj )
(Xi ,Xj )∈P
У кластеру =
|P |
∑ dist(Xi , Xj )
(Xi ,Xj )∈Q
Ван кластера =
|Q |
У кластеру
Растоjање унутар/ван кластера =
Ван кластера
што jе вредност растоjања мања кластеровање jе боље и обратно
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
Сенка коефициjент
Нека важе следеће ознаке:
AvgDistiin нека означава просечно растоjање Xi до тачака
унутар кластера коме припада Xi ;
AvgDistiout нека означава просечно растоjање Xi до тачака
кластера коме не припада Xi ;
Нека jе MinDistiout = min{AvgDistiout }
Тада се коефициjент сенке Si у односу на i-ти обjекат
дефинише као
MinDistiout − AvgDistiin
Si =
max{MinDistiout , AvgDistiin }
Ако jе вредност коефициjента сенке блиска 1 кластери су добро
раздвоjени. Негативне вредности означаваjу мешавину података
у кластерима и лоше кластеровање
Добра особина коефициjента сенке jе што апсолутна вредност
носи информациjу о квалитету кластеровања
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
SOM
SOM
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
repeat
Инциjализациjа
случаjан избор центроида у интервалу посматраних
вредности
случаjан избор тачака за центроиде
Избор обjекта
ако jе броj обjеката jако велики, не користе се сви
Одређивање наjближег центроида
метрике растоjања (еуклидско/косинусно растоjање)
Ажурирање центроида
Терминирање
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
SOM
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
Ажурирање центроида
SOM
Алгоритми хиjерархиjског кластеровања Алгоритми засновани на мрежама и густини Провера коректности класт
Предности
Суседни кластери су више у релациjи од несуседних
Погодно за визуелизациjу
SOM одређуjе структуру
Недостаци
Потребан одабир параметара, функциjе за рачунање
суседства и избор центроида
SOM кластер не одговара природном кластеру (може да
садржи више природних кластера али и jедан природни
кластер може да се разбиjе на више SOM кластера)
Недостаjе специфична функциjа обjекта коjом може да се
изрази поступак
Нема гаранциjе за конвергенциjу, мада у пракси често
конвергира