Professional Documents
Culture Documents
Klasterizacija
Klasterizacija
Klaster analiza
Identifikovanje grupa (klastera) objekata tako
da su objekti unutar grupe međusobno slični i
istovremeno različiti u odnosu na objekte iz
drugih grupa Rastojanje između
klastera je veliko
Klasifikacija
Nadgledano učenje, za svaki objekat poznata je
klasa kojoj pripada
“Jednostavne” podjele (segmentacija)
Particionisanje na osnovu početnog slova u imenu
SQL upit sa GROUP BY
Šta je klaster?
2 klastera 4 klastera
Tehnike klasterizacije
Tehnike particionisanja
Podjela datog skupa objekata na disjunktne
klastere tako da svaki objekat pripada samo
jednom klasteru
Hijerarhijske tehnike
Podjela datog skupa objekata na ugnježdene
klastere koji su hijerarhijski uređeni u obliku stabla
Tehnike particionisanja
p1 p2 p3 p4
Well-separated clusters
Center-based clusters
Contiguous clusters
Density-based clusters
Property or Conceptual
Described by an Objective Function
Tipovi klastera: well-separated
K-means
Agglomerative hierarchical clustering
Density-based clustering
K-means
Tehnika particionisanja
Svaki klaster predstavljen je centroidom
Objekat se pridružuje najbližem centroidu
Broj klastera je ulazni podatak
K-means (2)
2.5
2
Original Points
1.5
y
1
0.5
3 3
2.5 2.5
2 2
1.5 1.5
y
y
1 1
0.5 0.5
0 0
2.5
1.5
y
0.5
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
Procjena generisanih klastera
2.5
1.5
y
0.5
2.5 2.5
2 2
1.5 1.5
y
y
1 1
0.5 0.5
0 0
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
Biranje centroida
Ako u skupu objekata postoji K klastera,
vjerovatnoća da iz svakog klastera izaberemo
po jedan centroid je mala
Ako svaki klaster sadrži po n objekata
2
y
-2
-4
-6
0 5 10 15 20
x
Starting with two initial centroids in one cluster of each pair of clusters
Primjer sa 10 klastera (2)
Iteration 1 Iteration 2
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
Iteration 3 Iteration 4
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
Starting with two initial centroids in one cluster of each pair of clusters
Primjer sa 10 klastera (3)
Iteration 4
1
2
3
8
2
y
-2
-4
-6
0 5 10 15 20
x
Starting with some pairs of clusters having three initial centroids, while other
have only one.
Primjer sa 10 klastera (4)
Iteration 1 Iteration 2
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
Iteration
x 3 Iteration
x 4
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
Starting with some pairs of clusters having three initial centroids, while other
have only one.
Prazni klasteri
Preprocesiranje
Normalizacija
Eliminacija izuzetaka
Postprocesiranje
Brisanje malih klastera koji moguće predstavljaju
izuzetke
Podjela klastera sa velikom SSE
Spajanje bliskih klastera
Bisecting K-means
Kada su klasteri
Različitih veličina
Različitih gustina
Ne-sfernog oblika
0.05 1
3 1
0
1 3 2 5 4 6
Svojstva hijerarhijskih tehnika
...
p1 p2 p3 p4 p9 p10 p11 p12
Agglomerative algoritmi: Petlja
C1 C2 C3 C4 C5
Spajanjem najbližih klastera C1
formiraju se veći C2
C3
C3
C4
C4
C5
Proximity Matrica
C1
C2 C5
...
p1 p2 p3 p4 p9 p10 p11 p12
Agglomerative algoritmi: Petlja (2)
C2 C5
...
p1 p2 p3 p4 p9 p10 p11 p12
Agglomerative algoritmi: spajanje
klastera
C2 U C5
C1 C3 C4
C1 ?
C3 C2 U C5 ? ? ?
C4 C3 ?
?
C4 ?
C1 Proximity Matrix
C2 U C5
...
p1 p2 p3 p4 p9 p10 p11 p12
Sličnost između dva klastera
p1 p2 p3 p4 p5 ...
p1
Similarity?
p2
p3
p4
p5
.
.
MIN .
Proximity Matrix
MAX
Prosječno rastojanje svih parova
objekata iz dva klastera
Rastojanje između centroida
Sličnost između dva klastera (2)
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
.
MIN .
Proximity Matrix
MAX
Prosječno rastojanje svih parova
objekata iz dva klastera
Rastojanje između centroida
Sličnost između dva klastera (3)
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
.
MIN .
Proximity Matrix
MAX
Prosječno rastojanje svih parova
objekata iz dva klastera
Rastojanje između centroida
Sličnost između dva klastera (4)
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
.
MIN .
Proximity Matrix
MAX
Prosječno rastojanje svih parova
objekata iz dva klastera
Rastojanje između centroida
Sličnost između dva klastera (5)
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
.
MIN .
Proximity Matrix
MAX
Prosječno rastojanje svih parova
objekata iz dva klastera
Rastojanje između centroida
Primjer skupa podataka
Agglomerative sa MIN
5
1
3
5 0.2
2 1 0.15
2 3 6 0.1
0.05
4
4 0
3 6 2 5 4 1
Klasteri Dendrogram
Agglomerative sa MIN (2)
Agglomerative sa MAX
4 1
2 5 0.4
0.35
5
2 0.3
0.25
3 6
0.2
3 0.15
1 0.1
4 0.05
0
3 6 4 1 2 5
Klasteri Dendrogram
Agglomerative sa MAX (2)
Agglomerative sa Prosječnim
rastojanjem p j ∈Cluster j
p i ∈Cluster i
¿
∑ ¿¿ ¿¿
5 4 ¿ ∣Cluster i ∣∗ ∣Cluster j ∣
1
2
0.25
5
2 0.2
3 6 0.15
1 0.1
4 0.05
3 0
3 6 4 1 2 5
Klasteri Dendrogram
Agglomerative sa Prosječnim
rastojanjem (2)
DBSCAN
Density-based algoritam
Gustina je broj objekata unutar kruga
poluprečnika Eps
Objekti se klasifikuju na
Core point: ako u Eps okolini sadrži više od
MinPts objekata
Border point: u Eps okolini nekog objekta koji je
core point
Noise: ostali objekti
Core, Border i Noise point
MinPts = 7
Core, Border i Noise point (2)