Professional Documents
Culture Documents
ZAVRŠNI RAD
Mentor : Studentkinja :
prof. Dr Boris Delibašić Suzana Korićanac, 20/04
0
SADRŽAJ
1. UVOD......................................................................................................................2
2. ENTROPIJA, KLASTEROVANJE I FORMULACIJA PROBLEMA.........................3
2.1. Entropija i klasterovanje...................................................................................3
2.2. Formulacija problema.......................................................................................3
2.3. Entropija i koeficijenti sličnosti..........................................................................8
2.4. Očekivana entropija i princip minimalne dužine opisa (MDL princip, eng.
Minimum Description Length).................................................................................9
2.5. Evaluacija rezultata klasterovanja..................................................................10
3. KULKET ALGORITAM..........................................................................................12
3.1. Inicijalizacija...................................................................................................12
3.2. Korak inkrementacije......................................................................................13
3.3. Primer rada algoritma.....................................................................................14
3.3.1. Formulacija problema..............................................................................15
3.3.2. Inicijalizacija.............................................................................................15
3.3.3. Inkrementalni korak.................................................................................18
3.3.4. Određivanje najgore smeštenih zapisa i njihovo ponovno procesuiranje
...........................................................................................................................24
3.4. Karakteristike, prednosti i nedostaci algoritma..............................................30
4. KOMPONENTE....................................................................................................32
4.1. Komponente algoritma Kulket........................................................................32
4.1.1. Definisanje broja klastera........................................................................33
4.1.2. Inicijalizacija centroida.............................................................................33
4.1.3. Merenje udaljenosti.................................................................................34
4.1.4. Kriterijum za zaustavljenje.......................................................................35
4.1.5. Razdvajanje klastera...............................................................................35
5. ZAKLJUČAK.........................................................................................................37
LITERATURA.......................................................................................................................39
1. UVOD......................................................................................................................2
2. ENTROPIJA, KLASTEROVANJE I FORMULACIJA PROBLEMA.........................3
2.1. Entropija i klasterovanje...................................................................................3
1
2.2. Formulacija problema.......................................................................................4
2.3. Entropija i koeficijenti sličnosti..........................................................................8
2.4. Očekivana entropija i princip minimalne dužine opisa (MDL princip, eng.
Minimum Description Length).................................................................................9
2.5. Evaluacija rezultata klasterovanja..................................................................10
3. KULKET ALGORITAM..........................................................................................12
3.1. Inicijalizacija...................................................................................................12
3.2. Korak inkrementacije......................................................................................13
3.3. Primer rada algoritma.....................................................................................14
3.3.1. Formulacija problema..............................................................................15
3.3.2. Inicijalizacija.............................................................................................15
3.3.3. Inkrementalni korak.................................................................................18
3.3.4. Određivanje najgore smeštenih zapisa i njihovo ponovno procesuiranje
...........................................................................................................................24
3.4. Karakteristike, prednosti i nedostaci algoritma..............................................30
4. KOMPONENTE....................................................................................................32
4.1. Komponente algoritma Kulket........................................................................32
4.1.1. Definisanje broja klastera........................................................................33
4.1.2. Definisanje uzorka...................................................................................34
4.1.3. Inicijalizacija centroida.............................................................................34
4.1.4. Selekcija klastera.....................................................................................36
4.1.5. Izračunavanje stepena pripadnosti tačke klasteru kome je dodeljena ....37
4.1.6. Definisanje broja tačaka za koje se ponovo vrši selekcija klastera ........38
4.1.7. Kriterijum za zaustavljanje algoritma.......................................................38
5. ZAKLJUČAK.........................................................................................................40
LITERATURA............................................................................................................42
2
1. UVOD
3
2. ENTROPIJA, KLASTEROVANJE I FORMULACIJA PROBLEMA
E X p x log p x (1)
xS X
E xˆ � L � p x1 ,L , xn log p x1 ,L , xn
x1�S X1 x n �S X n
(2)
Entropija se nekad tumači kao mera količine nereda u nekom sistemu. Tako će
soba sa čarapama razbacanim po podu imati veću entropiju od sobe u kojoj su
čarape sparene, valjano složene i odložene u odgovarajući deo ormara. [1]
4
Klasterovanje predstavlja grupisanje objekata na osnovu njihove “sličnosti”, gde se
sličnost objekata odnosi na sličnost njihovih vrednosti atributa. Veza entropije i
klasterovanja ogleda se u tome da entropija služi kao mera sličnosti, odnosno kao
kriterijum za grupisanje zapisa pošto je njena vrednost manja ukoliko su objekti
(njihove kombinacije vrednosti atributa) sličniji i obrnuto..
Dat je skup podataka D koji čine objekti pˆ1 ,L , pˆ N gde je svaki objekat
multidimenzionalni vektor sa d kategoričkih atributa, odnosno pˆ j p j ,L , p j , i dat
1 d
5
Ovaj problem je NP-kompletan 1, a pored toga težak za aproksimaciju. Zapravo
problem je NP-kompletan za svaku funkciju udaljenosti d(x,y) definisanu nad
parom x,y koja pokušava da mapira parove objekata u realne brojeve (iz tog
razloga se koristi funkcija entropije) pa je potrebno pribeći heuristici 2 kako bi se
pronašlo rešenje.
Funkcija cilja je data jednakošću (3) i predstavlja potpunu entropiju sistema. Teži se
tome da se minimizira očekivana entropija, data jednakošću (3), gde su E(P(C1)),
…, E(P(Ck)) entropije svakog klastera, P(Ci)) se odnosi na broj objekata dodeljenih
n). Matematički zapisano u notaciji velikog O, ovo znači m(n) = O(nk) gde je k neka
konstanta koja može zavisiti od problema. Na primer, algoritam za sortiranje kviksort za n
2 Heuristika je tehnika za rešavanje problema koja ignoriše dokazivost tačnosti rešenja, ali
pritom obično nudi dobra rešenja ili rešava jednostavniji problem koji sadrži ili je povezan
sa rešenjem složenijeg problema. Heuristički metod se koristi za brzo dolaženje do rešenja
za koje se veruje da je najbliže najboljem mogućem odnosno optimalnom rešenju. U
heurističke metode spadaju intuitivni sudovi, naučne pretpostavke ili prosto zdrav razum
[4]
6
klasteru Ci, P Ci �D , pri čemu važi P Ci �P C j � za svako i,j=1,…k, i≠j.
(
Simbol C C1 ,L , Ck predstavlja klasterovanje.
( �P Ck �
E C ��
k � D
E P Ck �
�
(3)
� �
E xˆ � L � p x ,L , xn log p x1 ,L , xn E X 1 + E X 2 + L + E X n
1
(4)
x 1�S X 1
x n �S X n
Dat je skup od tri zapisa u Tabeli 1, koje je potrebno smestiti u dva klastera [1]
d 2, k 2
7
Colour Weight
v1 red heavy
v2 blue light
v3 red medium
Tabela 1. Zapisi v1 , v2 , v3
(
Klasterovanje 1 : C1
C1 : v2
C0: v1 , v3
1
� 1 1 1�
E C0 �log + log � 0
1
� 1 1 1�
2
� 2 1 1 1 1 1 1�
E C1 � log + log + log + log � 1
2
� 2 2 2 2 2 2 2�
(
2 1
E C1 * 0 + *1 0, 66
3 3
8
(
Klasterovanje 2 : C2
C1 : v3
C0 : v1 , v2
1
� 1 1 1�
E C1 �log + log � 0
1
� 1 1 1�
�1 1 1 1 1 1 1 1�
E C0 � log + log + log + log � 2
�2 2 2 2 2 2 2 2�
(
1 2
E C2 * 0 + * 2 1,33
3 3
(
Klasterovanje 3 : C3
C1 : v1
C0 : v2 , v3
1
� 1 1 1�
E C1 �log + log � 0
1
� 1 1 1�
1
� 1 1 1 1 1 1 1�
E C0 � log + log + log + log � 2
�2 2 2 2 2 2 2 2�
(
1 2
E C3 * 0 + * 2 1,33
3 3
9
Sa Slike 1 vide se sve moguće grupacije, sa entropijom svakog klastera i
očekivanom entropijom sistema. Minimalna očekivana entropija je ona u grupaciji 1,
koje je očigledno i pravi način za klasterovanje zapisa (korišćenjem dva klastera).
U slučajevima kada se utvrdi postojanje korelacije između dva ili više atributa nekog
skupa podataka, moguće je izmeniti objekte kreiranjem atributa koji reflektuju ove
korelacije i potom primeniti jednakost (4) za računanje zajedničke entropije. Na
primer, ako se skup podataka sastoji od zapisa čiji su atributi A, B, C, D, E, F i
poznato je da su (A,B),( A,C) i (E,F) u korelaciji, skup podataka je moguće
transformisati u takav skup koji ima zapise sa atributima AB, AC, EF, a potom
izračunati entropiju polazeći od pretpostavke da su ovi novi atributi nezavisni.
Neophodno je primetiti da se za grupisane atribute zapravo računaju njihove
zajedničke verovatnoće. [1]
(a + d )
SM (5)
(a + b + c + d )
10
a
SM (6)
(a + b + c +)
i samo ako E { p, q} E { u , v}
Teorema 1. Date su dve matrice sličnosti dobijene nad istim skupom podataka,
jedna korisćenjem SM koeficijenta, a druga korišćenjem entropije. Ako bi u prvoj
matrici redosled ulaza bio opadajući, a u drugoj rastući, relativni raspored parova
tačaka bio bi isti u oba slučaja.
Kao posledica Teoreme 1 moguće je koristiti entropiju kao meru sličnosti u bilo kom
algoritmu koji koristi SM koeficijent i pritom dobiti identične rezultate[1]. Osim toga,
Kulket koristi činjenicu da entropija, za razliku od SM koefiijenta i Jaccard
koeficijenta, može biti mera sličnosti za bilo koji skup vektora, ne samo dvočlani.
2.4. Očekivana entropija i princip minimalne dužine opisa (MDL princip, eng.
Minimum Description Length)
MDL princip preporučuje odabir modela koji će minimizirati broj bitova potrebnih za
kodiranje tog modela. Ovaj princip je široko korišćen za poređenje klasifikatora ali
nije korišćen kod problema koje se tiču klasterovanja. [1]
11
Optimalno kodiranje skupa klastera može se realizovati dodelom koda svakom
atributu podataka prema verovatnoći pojavljivanja atributa u klasteru, korišćenjem
Hofmanovog koda. Ovo kodiranje bi imalo veličinu datu jenddnakošću (7)
� P (A
i i Vi j ) log P( Ai Vi j ) (7)
za svaki klaster Ck. Znači da veličina koda može biti minimizirana minimiziranjem
očekivane vrednosti date funkcije, a to je upravo funkcija koju je i odabrana da se
minimizuje kao funkcija cilja : očekivana entropija klasterovanja. Dakle, tehnika
očekivane entropije teži da pronađe klasterovanje koje prati MDL princip. Ovo ima
bitne implikacije : činjenica da je kodiranje klastera minimalno ukazuje da je
moguće očekivati veoma sažete reprezentacije klastera koji se oforme u bilo kom
koraku algoritma. Ovo zauzvrat čini mogućim inkrementalno procesuiranje daljih
zapisa bez potrebe da se čuvaju svi prethodno procesuirani zapisi u memoriji.
Čuvaju se samo sažete reprezentacije klastera u koje su isti smešteni.[1]
Čest problem na koji nailazi onaj ko praktično koristi algoritme klasterovanja jeste
teškoća u evaluaciji rešenja koje daje algoritam. Različiti algoritmi klasterovanja (a
nekada i mnoge aplikacije koje primenjuju isti algoritam kada koriste male varijacije
inicijalnih uslova i parametara) rezultuju različitim rešenjima, pri čemu svako od
dobijenih rešenja izgleda prihvatljivo. To je pak posledica činjenice da ne postoji
ujednačen kriterijum za definisanje klastera i čak više od toga, krajnji klasteri koje
da algoritam zapravo su oni koji odgovaraju kriterijumu kojim je algoritam vođen. [1]
Kako znati koje je rešenje dobro rešenje ? Autori su se dvoumili oko dobrih načina
za utvrđivanje validnosti klastera koje daje algoritam. Dve široko primenjene
metode su sledeće : [1]
12
nisu korišćenje za generisanje tih klastera. Jedan način da se to uradi jeste da se
izračuna entropija rešenja korišćenjem varijable koja nije korišćena u klasterovanju
E Ck �P C Vi log P C Vi (8)
i
Ck
P A =V
��� / Ck P Ai = Vij �(9)
2 2
CU = � i ij
k D i� j �
Ove tehnike nisu korišćene u validaciji rezultata dobijenih u primeru rada algoritma
izloženomg u ovom radu.
13
14
3. KULKET ALGORITAM
- korak inicijalizacije
- inkrementalni korak.
3.1. Inicijalizacija
min i 1,K , j 1 E ( ps i , ps j ) .
15
3.2. Korak inkrementacije
(
1. Dat je inicijalni skup klastera C C1 ,L , Ck
3. Za i 1,K , k
(i (
4. Smesti p u Ci i računaj E C gde C i predstavlja
(i
5.
Neka je j arg min i E C
7. Smesti p u C j
8. Dok svi objekti ne budu smešteni u neki klaster
16
Koliko neki objekat odgovara klasteru u kome se originalno nalazi utvrđuje se na
osnovu broju pojavljivanja vrednosti njegovih atributa u tom klasteru. Odnosno, na
osnovu vrednosti qi j za svaki zapis i u grupi i svaki atribut j , gde je qi j broj koji
pi �pi j (10)
procesuiran zapis smešta se u klaster koji minimizuje očekivanu entropiju, kao što
je rađeno u inkrementalnom koraku. Parametar m definiše korisnik.
17
Color Size Act Age
p1 YELLOW SMALL STRETCH ADULT
p2 YELLOW SMALL STRETCH CHILD
p3 YELLOW SMALL DIP ADULT
p4 YELLOW SMALL DIP CHILD
p5 YELLOW LARGE STRETCH ADULT
p6 YELLOW LARGE STRETCH CHILD
p7 YELLOW LARGE DIP ADULT
p8 YELLOW LARGE DIP CHILD
p9 PURPLE SMALL STRETCH ADULT
p10 PURPLE SMALL STRETCH CHILD
p11 PURPLE SMALL DIP ADULT
p12 PURPLE SMALL DIP CHILD
p13 PURPLE LARGE STRETCH ADULT
p14 PURPLE LARGE STRETCH CHILD
p15 PURPLE LARGE DIP ADULT
p16 PURPLE LARGE DIP CHILD
Tabela 3. Podaci psihološkog eksperimenta
Dat je skup podataka, tabelarno prikazan koji čine zapisi p1 ,L , p16 gde je svaki
zapis multidimenzionalni vektor sa 4 kategorička atributa, odnosno pi pi ,L , pi ,
1 4
i 1,K ,16 . Zapise je neophodno smestiti u tri klastera tako da se entropija cele
grupacije minimizira.
3.3.2. Inicijalizacija
18
Color Size Act Age
ps2 YELLOW SMALL STRETCH CHILD
ps3 YELLOW SMALL DIP ADULT
ps9 PURPLE SMALL STRETCH ADULT
ps11 PURPLE SMALL DIP ADULT
ps13 PURPLE LARGE STRETCH ADULT
ps16 PURPLE LARGE DIP CHILD
Tabela 4. Uzorak
Za svaka dva zapisa uz pomoć formule (2) računa se entropija kako bi se pronašli
najrazličitiji zapisi. Što je veća entropija to se zapisi više razlikuju.
�2 2 2 2 1 1 1 1 1 1 1 1�
E ps 2 , ps 3 � * log + * log + * log + * log + * log + * log �
�2 2 2 2 2 2 2 2 2 2 2 2�
� 1 1 1 1 �
0 + 0 + * 1 + * 1 + * 1 + * 1 � 2
�
� 2 2 2 2 �
19
(ps9,ps16)
(ps11,ps2)
U klaster C1 smešta se zapis ps2, a u klaster C 2 zapis ps11. Ovi zapisi se potom
markiraju.
20
E (psi, ps2) E (psi, ps11) min
Tabela 7. Entropije ps3 2 1 1 zapisa i određivanje
zapisa koji će ps9 2 1 1 inicijalizovati treći
klaster ps13 3 2 2
ps16 3 2 2
Kandidati za smeštanje u klaster
C3 su ps13 i ps16. Odabran je zapis ps13 koji biva smešten u treći klaster i markiran.
Ovim je završen korak inicijalizacije kojim su dobijena tri klastera data u Tabeli 8.
C1 ps2
C2 ps11
C3 ps13
Tabela 8. Inicijalizovani klasteri
Prvo se smeštaju preostali zapisi iz uzorka, odnosno p s3 , ps9, ps16, a potom ostali
zapisi iz skupa.
(
2 1 1
E C1 * 2 + *0 + *0 0.25
16 16 16
(
1 2 1
E C 2 *0 + *1 + *0 0.125
16 16 16
(
1 1 2
E C 3 *0 + *0 + *3 0.375
16 16 16
21
( ( (
E C1
E C2
E C3 Klaster
C1 ps2
C2 ps11, ps3
C3 ps13
Tabela 10. Klasteri nakon ubacivanja zapisa ps3
(
2 2 1
E C1 * E ps 2 , ps 9 + * E ps11 , ps 3 + * E ps13
16 16 16
2 � �1 1 1 1 1 1 1 1�� 2 � �1 1 1 � 1
1�
*� � *log + *log + *log + *log � �+ *� � *log + *log �
�+ 16 *0
16 � �2 2 2 2 2 2 2 2�� 16 � �2 2 2 2�
�
0.375
( ( (
E C1
E C2 E C3 Klaster
C1 ps2
C2 ps11, ps3
C3 ps13, ps9
Tabela 12. Klasteri nakon ubacivanja zapisa ps9
( ( (
E C1
E C2 E C3 Klaster
C1 ps2 , ps16
C2 ps11, ps3
C3 ps13, ps9
Tabela 14. Klasteri nakon ubacivanja zapisa ps16
22
Nakon ubačenih zapisa iz uzorka prelazi se na ubacivanje preostalih zapisa iz
skupa na isti način. Postupak se pnavlja dok svi zapisi ne budu smešteni u klastere.
( ( (
E C1
E C2 E C3 Klaster
C1 ps2, ps16
C2 ps11, ps3, p1
C3 ps13, ps9
Tabela 16. Klasteri nakon ubacivanja zapisa p1
( ( (
E C1
E C2 E C3 Klaster
C1 ps2, ps16, p4
C2 ps11, ps3, p1
C3 ps13, ps9
Tabela 18. Klasteri nakon ubacivanja zapisa p4
( ( (
E C1
E C2 E C3 Klaster
C1 ps2, ps16, p4
C2 ps11, ps3, p1
C3 ps13, ps9, p5
Tabela 20. Klasteri nakon ubacivanja zapisa p5
23
( ( (
E C1
E C2
E C3 Klaster
( ( (
E C1
E C2
E C3 Klaster
( ( (
E C1
E C2
E C3 Klaster
24
Tabela 26. Klasteri nakon ubacivanja zapisa p8
( ( (
E C1
E C2
E C3 Klaster
25
C1 ps2, ps16, p4, p6 ,p8 , p10
C2 ps11, ps3, p1 , p7
C3 ps13, ps9, p5
Tabela 28. Klasteri nakon ubacivanja zapisa p10
( ( (
E C1
E C2
E C3 Klaster
( ( (
E C1
E C2
E C3 Klaster
( ( (
E C1
E C2
E C3 Klaster
26
C2 ps11, ps3, p1, p7, p15
C3 ps13, ps9, p5
Tabela 34. Klasteri nakon ubacivanja zapisa p15
Očekivana entropija sistema nakon smeštanja svih zapisa u klastere je
2,676807589.
27
Tabela 36. Klaster 2 : broj pojavljivanja vrednosti atributa, broj zapisa
U Tabeli 38 dat je pregled svih objekata takav da se pored vrednosti atributa nalazi
broj pojavljivanja te vrednosti u klasteru kome zapis pripada. Taj broj deli se sa
brojem zapisa u tom klasteru kako bi se dobila verovatnoća pojavljivanja te
vrednosti atributa u tom klasteru.
28
Tabela 38. Broj pojavljivanja vrednosti atributa zapisa u klasteru kome zapis
pripada
29
p11 0,4 0,6 0,8 1 0,192
p12 0,5 0,5 0,5 1 0,125
p13 0,6667 0,6667 1 1 0,444444444
p14 0,5 0,5 0,5 1 0,125
p15 0,4 0,4 0,8 1 0,128
p16 0,5 0,5 0,5 1 0,125
Tabela 40. Verovatnoća za zapis dobija se korišćenjem formule (10)
30
( ( (
E C1
E C2
E C3 Klaster
( ( (
E C1
E C2
E C3 Klaster
( ( (
E C1
E C2
E C3 Klaster
31
3.4. Karakteristike, prednosti i nedostaci algoritma
32
koeficijenta i SM koeficijenta, može da posluži kao mera sličnosti za bilo koji skup
vektora, a ne samo dvočlani. [1]
33
4. KOMPONENTE
34
1. Definisanje broja klastera
2. Inicijalizacija centroida
3. Merenje udaljenosti
4. Izračunavanje predstavnika
5. Kriterijum za zaustavljanje algoritma
6. Razdvajanje klastera
1. Definisanje broja klastera
2. Inicijalizacija centroida
3. Merenje udaljenosti
4. Izračunavanje predstavnika
5. Kriterijum za zaustavljanje algoritma
6. Razdvajanje klastera
35
Kulket algoritam predviđa eksplicitan, korisnički definisan, broj klastera. Korisnička
odluka se prvenstveno zasniva na znanju, pretpostavkama i praktičnom iskustvu.
Dakle, komponenta koju Kulket koristi za rešavanje problema definisanja broja
klastera po [5] je RANGE.
36
4.1.2. Definisanje uzorka
37
Kulket algoritam definiše slučajni odabir s zapisa iz skupa od N zapisa gde je s = N,
a potom predviđa korišćenje funkcije entropije za nalaženje dve najrazličitije tačke,
a to su one za koje je vrednost entropije najveća. Te tačke smeštaju se u dva
različita klastera Ii markiraju. Za svaki sledeći klaster, traži se odgovarajući zapis po
kriterijumu maksimuma minimalnih entropija klastera za svaki od preostalih zapisa.
Odnosno upoređuju se sličnosti preostalih zapisa sa zapisima iz klastera po
kriterijumu entropije. Za svaki zapis se utvrdi kojem klasteru više odgovara, a potom
se uzme zapis čija je vrednost najviša od svih odgovarajućih iI smešta se u sledeći
kalaster. Dakle, sledeći klaster puni se zapisom koji najmanje odgovara prethodnim
klasterima od svih odgovarajućih klastera. Isti postupak ponavlja se sve dok se
svaki klaster ne inicijalizuje.
Komponenta je triplet koji čine koncept, sadržaj i kontekst. Koncept je opis onoga
što komponenta radi, opisuje interfejs i značenje, predstavljajući preduslove i izlaze.
Sadržaj opisuje kako se komponenta realizuje, i to je sakriveno od običnog
korisnika. Kontekst objašnjava aplikacioni domen komponente, što pomaže u
pronalaženju adekvatne komponente za specifični problem. Ovakav opis
38
komponente pomaže u razumevanju kada i kako komponenta može da se primeni.
[7]
Component Name : ENTROPY
1. Concept:
Description: Meri različitost objekata korišćenjem entropije
Input: Uzorak i broj klastera
Output: Svi klasteri inicijalizovani početnim zapisom, izmerena međusobna
sličnost objekata iz uzorka, sličnost nemarkiranih objekata uzorka i klastera
koje su inicijalizovali markirani objekti, nemarkirani objekti
2. Context:
Application: Određuje najrazličitije tačke skupa. Meri sličnost tačaka, kao i
tačaka i klastera. Pretpostavlja kategoričke podatke.
3. Content:
Koristi entropiju za računanje sličnosti.
39
Komponenta je triplet koji čine koncept, sadržaj I kontekst. Koncept je opis onoga
što komponenta radi, opisuje interfejs I značenje, predstavljajući preduslove I
izlaze. Sadržaj opisuje kako se komponenta realizuje, što je sakriveno od običnog
korisnika. Kontekst objašnjava aplikacioni domen komponente, što pomaže u
pronalaženju adekvatne komponente za specifični problem. Ovaka opi komponente
pomaže u razumevanju kada I kako komponenta može da se primeni.[5]
40
Component Name : EXPECTED ENTROPY
1. Concept:
Description: Meri sličnost objekata Određuje optimalni klaster za objekat
korišćenjem očekivane entropije sistema
Input: Objekat Ii klasteri
Output: Objekat dodeljen klasteru sa najsličnijim objektima, izmerenea
sličnost objekta I klasteraentropije sistema za k mogućih klasterovanja
2. Context:
Application: Meri sličnost klastera I objektaOdređuje optimalni klaster za
objekat. Pretpostavlja kategoričke podatke.
3. Content:
Koristi očekivanu entropiju za računanje sličnostiodređivanje optimalnog
klastera za objekat.
41
Description: Određuje meru pripadnosti objekta klasteru kome je dodeljen
korišćenjem verovatnoće pojavljivanja kombinacije vrednosti atributa objekta
u klasteru
Input: Objekat i klaster
Output: Verovatnoća kao mera pripadnosti objekta klasteru, izmerene
verovatnoće pojavljivanja kombinacije vrednosti atributa objekta u klasteru
2. Context:
Application: Određuje koliko objekat odgovara klasteru u kome se nalazi
3. Content:
Koristi verovatnoću da numerički izrazi koliko objekat zaista odgovara
klasteru kome je dodeljen.
Broj tačaka za koje se ponovo vrši selekcija klastera je u algoritmu Kulket jedini
parametar, označen sa m. Posle prvobitnog smeštanja svih zapisa u klastere i
izračunatih verovatnoća za svaki zapis ponovo se klasteruje m ili ako je m zadato
m
procentualno * N zapisa sa najmanjim verovatnoćama, gde je N ukupan broj
100
zapisa. Bitno je primetiti da od vrednosti m zavisi rezultat klasterovanja, mada treba
imati u vidu da je rešenje koje nudi Kulket stabilno za različite vrednosti parametra.
42
označava broj iznova procesuiranih zapisa i korisnički je definisan. Za m=0
klasterovanje se okončava po smeštanju svih zapisa u klastere. Za druge vrednosti
m proces mašinskog učenja se okončava nakon što se posle prvobitnog smeštanja
svih zapisa u klastere ponovo klasteruje m zapisa ili ako je m zadato procentualno
m
* N zapisa, gde je N ukupan broj zapisa.
100
43
Algoritma za klasterovanje mora imati neki kriterijum za zaustavljanje procesa mašinskog
učenja. Kulket algoritam biva okončan u zavisnosti od parametra m, koji označava broj
iznova procesuiranih zapisa I korisnički je definisan. Za m=0 klasterovanje se okončava po
smeštanju svih zapisa u klastere. Za druge vrednosti m proces mašinskog učenja se
okončava nakon što se posle prvobitnog smeštanja svih zapisa u klastere ponovo klasteruje
m
m zapisa ili ako je m zadato procentualno * N zapisa, gde je N ukupan broj zapisa.
100
44
5. ZAKLJUČAK
45
Neke od mogućnosti primene algoritma su aplikacije povezane sa kalasterovanjem
dokumenata (web dokumenata) i bioinformatika.[1] Naravno, algoritam je primenljiv
na svaki problem koji zahteva grupisanje kategoričkih zapisa prema sličnosti, pa je
primenljiv u statistici, psihologiji (što pokazuje i skup podataka korišćen za primer
rada algoritma u ovom radu) i drugim disciplinama.
46
LITERATURA
[5] Boris Delibašić, Kathrin Kirchner, Johannes Ruhland, Miloš Jovanović, Milan
Vukićević Reusable Components for Partitioning Clustering Algorithms.
http://en.wikipedia.org/wiki/Heuristic
[5] Boris Delibašić, Kathrin Kirchner, Johannes Ruhland, Miloš Jovanović, Milan
Vukićević Reusable Components for Partitioning Clustering Algorithms
[6] Pazzani, M. (1991.) The influence of prior knowledge on concept acquisition :
Experimental and computational results. Journal of Experimental Psychology :
Learning, Memory & Cognition, 17, 3, 416-432 , Naziv skupa podatakaBalloon
databases, Pristupljeno preko Interneta, mesec i godina pristupa.
http://archive.ics.uci.edu/ml/datasets/Balloons, jun 2009. godine.
[7] Tracz W (1990). Where does reuse start?. ACM SIGSOFT Software Engineering
Notes 15:42-46.
47