Professional Documents
Culture Documents
Klaster Analiza
Klaster Analiza
EKONOMSKI FAKULTET
PRISTUPNI RAD
KLASTER ANALIZA
Mentor: Doktoranti:
Prof. dr Miodrag Lovri Ili Milena 2008/13
Reovi Selvija 2008/25
Kragujevac, 19.06.2009.god.
SADRAJ
UVOD 2
ZAKLJUAK 37
LITERATURA 37
UVOD
2
ponaanja. Strateka reenja bazirana na identifikaciji grupa unutar populacije, kao to je
segmentacija i ciljni marketing ne bi bila mogua bez objektivne metodologije. Ova ista
potreba se sree u drugim podrujima, od fizikih do drutvenih nauka. U svim sluajevima,
istraivai trae prirodnu strukturu izmedju obzervacija zasnovana na viestrukim profilima.
Najee koriena tehnika za ovu namenu je klaster analiza. Ona nastoji da maximizira
internu homogenost I eksternu heterogenost klastera. U ovom radu emo pokuati da
objasnimo svrhu i nain funkcionisanja klaster analize.
3
Klaster analiza moe izvriti redukciju podataka objektivno putem redukcije informacija
iz cele populacije ili uzorka do informacija o specifinim, manjim podgrupama. Klaster analiza
je takoe korisna kada istraiva poeli da razvija hipoteze uzimajui u obzir prirodu
podataka ili da ispita prethodno ustanovljene hipoteze. Na primer, istraiva moe verovati da
stavovi prema konzumaciji dijetalnih nasuprot obinim piima mogu biti korieni da izdvoje
korisnike soft pia u logine segmente ili grupe. Klaster analiza moe da klasifikuje korisnike
bezalkoholnih pia po njihovim stavovima o dijetalnim nasuprot obinim bezalkoholnim
piima , i rezultujui klasteri,ako postoje, mogu biti profilirani za demografske slinosti i
razlike.
Ipak, uz pogodnosti klaster analize idu i neke opomene. Klaster analiza moe biti
okarakterisana kao opisna, ateoretina i noninferentna. Klaster analiza nema statistiku
osnovu kojih se mogu izvui statistika zakljuivanja iz uzorka do populacije i koriena je
prvenstveno kao tehnika istraivanja. Reenja nisu jedinstvena , kao to lanstvo u klasteru
za bilo koji broj reenja zavisi od mnogih elemenata u proceduri, i mnoga razliita reenja
mogu biti dobijena varijetetima jednog ili razliitih elemenata. tavie, klaster analiza e uvek
kreirati klastere bez obzira na istinsko postojanje bilo kakve sturkture u podacima. Konano,
klaster reenje u potpunosti zavisi od varijabli koje su koriene kao osnova za meru
slinosti. Dodavanja ili brisanja relevantnih varijabli moe imati znaajan uticaj na rezultujue
reenje. Dakle, istraiva mora voditi rauna u proceni uticaja svake odluke ukljuene u
izvoenje klaster analize.
U klaster analizi grupna pripadnost objekata nije poznata, kao ni konani broj
grupa.Cilj klaster analize jest utvrivanje homogenih grupa ili klastera. Naelno jedinice koje
ine klastere mogu biti neki objekti (varijable) ili ispitanici.
U gornjem sluaju klaster analizom pokuali bismo utvrditi kako se grupiu objekti
obzirom na neke njihove izmerene karakteristike. Pretpostavimo da objekte ine politike
stranke, od 1. do N-te. Relevantne karakteristike pojedinih stranaka reprezentiraju neke
numerike varijable, od 1 do k. Potrebna nam je barem jedna varijabla s nekim izmerenim
karakteristikama objekata. Pretpostavimo da za svaku stranku imamo 3 varijable koje
reprezentiraju njene relevantne karakteristike:
4
P3 = poloaj na dimenziji unitarna - regionalna
Npr. vrijednost X11 moe biti prosena procena skupa od 100 ispitanika koja odreuje poloaj
prve stranke na dimenziji levica-desnica.
U tom sluaju klaster analizom pokuali bismo utvrditi grupe stranaka koje su prema ovim
karakteristikama meusobno najslinije, odnosno najmanje razliite. Kao i kod faktorske
analize potrebno je psiholoki interpretirati dobijene klastere.
Identinu situaciju imamo kada jedinice analize predstavljaju pojedini ispitanici za koje
imamo neke izmjerene karakteristike. U tom sluaju ulaznu matricu podataka ine ispitanici i
njihovi podaci u varijablama:
U ovom gornjem sluaju zanima nas kako se grupiu ispitanici prema nekim njihovim
karakteristikama (V1 do Vk)
Prvi oblici klaster analize javljaju se poetkom prolog veka, ali se znaajnija literatura
iz ovog podruja razvija od ezdesetih godina. Brzi razvoj raunara i temeljni znaaj
klasifikacije kao znanstvene procedure doprineli su popularnosti ove metode.
5
Psiholozi je ponekad nazivaju "siromanom faktorskom analizom". U okviru klaster
analize postoji veliki broj razliitih algoritama koji u naelu odgovaraju na iste probleme.
Neke od vanih odluka koje treba donijeti pri provoenju klaster analiza su:
Npr. ukoliko izostavimo neku vanu osobinu politikih stranaka rezultat grupiranja vrlo
vjerojatno nee biti optimalan.
6
ne bi bilo mogue videti razlike u stavovima. Iz tog razloga istraiva mora biti svestan teine
varijabli zasnovane na relativnoj disperziji.
7
Primarni cilj klaster analize je podela objekata u dve ili vise grupa na osnovu slinosti
odredjenih obeleja (klaster varijabla). Pri formiranju homogenih grupa, istraiva moe
postii bilo koji od sledea tri cilja:
1. Taksonomija opisa. Najpoznatiji tradicionalini nain korienja klaster analize je u
istraivake svrhe i za formiranje jednog taksonoma (taksonomija je oblast sistematike
koja se bavi prouavanjem principa, metoda i pravila klasifikacije, drugim reima,
taksonomija je nauka o taksonomskim jedinicama) empirijski zasnovana klasifikacija
objekata. Kao to je ranije opisano, klaster analiza se koristi u irokom spektru
aplikacija za njegovu ocenu sposobnosti. Ali klaster analiza moe takodje generisati
hipoteye koje se odnose na strukturu objekata. Ipak, iako je posmatran prvenstveno
kao istraivaka tehnika, klaster analiza moe se koristiti za potvrdu neega ve
ustanovljenog. Ako je predloena struktura moe biti definisana za skuo objekata,
klaster analiza moe biti primenjena a predloena tipologija ( teorijski zasnovana
klasifikacija) moe se porediti na osnovu onoga to je izvedeno klaster analizom.
2. Pojednostavljenje podataka. U toku izvodjenja procesa taksonomije, klaster analiza
takodje postie pojednostavljen nain posmatranja. Sa definisanom strukturom
zapaanja mogu biti grupisana u cilju daljih analiza. Dok faktorska analiza pokuava
da prui dimenzije ili strukturu promenljivih, klaster analiza obavlja isto to sa
posmatranjem. Stoga, umesto da gledaju sva zapaanja kao jedinstvena, one mogu
biti posmatrana kao lanovi klastera i profilisani po svojim optim karakteristikama.
3. Identifikacija odnosa. Sa definisanim klasterima i osnovnom strukturom podataka u
njima, istraiva objanjava odnos izmedju posmatranja koje nije bilo mogue sa
individualnim posmatranjem. S toga, klaster analiza prikazuje odnos ili slinosti i
razlike koje prehodne analize nisu objavile.
8
Primarni cilj klaster analize je definisanje strukture podataka stavljanjem najslinijih
opaanja u grupu. Da bismo obavili ovaj zadatak, moramo postaviti tri kljuna pitanja.Prvo,
kako merimo slinost? Mi preporuujemo metod simultanog poreenja opaanja 2 klastering
varijable (V1 i V2). Nekoliko metoda je mogue, ukljuujui korelaciju izmeu objekata, meru
udruivanja korienu u drugim multivarijantnim tehnikama ili moda merenje njihove blizine
u dvodimenzionalnom prostoru takvo da rastojanje izmeu opaanja oznaava slinost.
Drugo, kako formiramo klastere? Bez obzira kako je slinost merena, procedura mora
grupisati ona opaanja koja su najslinija u okviru klastera. Ova procedura treba da odredi
lanstvo u grupi svakog opaanja.Tree, koliko grupa mi formiramo? Bilo koji broj pravila
moe biti korien , ali kljuni zadatak je oceniti prosenu slinost klastera kao to je
proseno poveanje, klasteri postaju manje slini. Istraivai se sreu sa dilemom: nekolicina
klastera protiv manje slinosti jednostavne strukture u tenji ka zatvorenosti, se reflektuje u
nekoliko moguih klastera. Ipak, kako se broj klastera smanjuje , homogenost izmeu
klastera se obavezno smanjuje.dakle, mora postojati ravnotea izmeu definisanja
najosnovnijih struktura ( nekolicina klastera) koji jo uvek dostiu neophodan nivo slinosti
izmeu klastera.Kada jednom dobijemo procedure za reavanje svakog problema, moemo
izvriti klaster analizu.
9
(odvojeni) od drugih grupa tako da kada je odbaena, moemo uvesti pristrasnost u proceni
strukture. Istraiva mora shvatiti da je klaster analiza dobra u reprezentativnosti uzorka.
Dakle, sve napore treba preduzeti kako bi se osiguralo da je uzorak reprezentativan i da su
rezultati od opteg interesa za celu populaciju.
Ovo je kao i kod veine multivarijacionih metoda jedna od najvanijih odluka. Osnovni
problem jeste izbor onih varijabli (mera, osobina) koje najbolje reprezentiraju koncept
slinosti koji istraujemo na nekom skupu objekata. Poeljno je da se odabir vri na osnovu
neke elaborirane teorije ili modela. (Istraivau koji nema jasnu hipotezu svako grupiranje
objekata ima smisla, te ga moe zadovoljiti). U bilo kojoj aplikaciji, ciljevi klaster analize ne
mogu biti odvojeni od selekcije varijabila koje su koriene pri objanjenju klaserizovanih
objekata. Bez obzira da li je cilj istraivaki ili utvrdjen, istraiva je prinudjen da ostvari
rezultate na osnovu podataka o varijabilama. Izvedeni klaster reflektuje svojstvenu strukturu
podataka definisanu putem varijabila. Izbor varijabila koji e biti ukljueni u klaster mora biti
u skadu sa teoretskim i konceptualnim objanjenjem, jednako dobro kao i u praktinom
razmatranju. Svejedno, klaster analiza mora imati obrazloenje za izabrane varijabile. Bilo da
su razlozi zasnovani na eksplicitnoj teoriji, predhodnimistraivanjima ili pogadjanju, istraiva
mora shvatiti vanost ukljuivanja jedino onih promenljivih koje (1) karakteriu klasterizovani
objekat i (2) i posebno se odnose na ciljeve klaster analize. Tehnika klaster analize ne
razlikuje relevantne od irelavantnih varijabila. Iz toga proizilazi najvie dosledna, ali i razliita,
grupa objekata svih varijabila. Ukljuivanje jedne irelevantnie varijabile poveava
verovatnou uticaja outliera, to znaajno utie na rezultate. Ne smemo ukljuiti
nediskriminacione varijable ve oprezno birati one sa ciljem istraivanja kao kriterijum za
selekciju.
U praktinom smislu, na klaster analizu moe biti bitno uticati ukljuivanje samo jedne
ili dve neprikladne ili nedefinisane varijable. Istraiva je podstaknut na ostvarenje rezultata i
eliminisanje neprikladnih varijabli. Ova procedura omoguava one tehnike da se maksimalno
definiu klasteri bazirani jedino na onim varijablama koje ispoljavaju razlike izmedju objekata.
Takodje ,mora se obratiti panja na multikolinearnost varijabli. Multikolinearnost je proizala
iz drugih multivarijacionih tehnika zbog potekoa uvidjanja pravog uticaja multikolinearne
varijable. U klaster analizama efekat je drugaiji jer su promenljive tee ponderisane.
Prikaimo to na primeru. Pretpostavimo da su ispitanici klasterovani (grupisani) prema 10
varijabli, odnosei se prema izjavama u vezi servisa. Kada se ispituje multikolinearnost,
vidimo da postoje dva seta promenljivih, prvi koji se sastoji od osam izjava i drugi od
preostala dva. Ako su nae namere stvarno grupisanje ispitanika prema dimenzijama
proizvoda (u ovom sluaju predstavljena dvema grupama varijabli), tada e korienje 10
originalnih varijabli pogreno. Budui da je svaka varijabla jednako ponderisana u klaster
analizama, prva dimenzija e imati etiri puta vee anse (tj. prvih osam stavki u odnosu na
druge dve) da utiu na meru slinosti u odnosu na drugu.
Multikolinearnost deluje kao teinski process koji nije oit za posmatraa ali koje svejedno
utiu na analizu. Iz tog razloga, istraiva je ohrabren da ispita varijable koje se koriste u
klaster analizi u cilju znaajnije multikolinearnosti i ako je nadje, ili e smanjiti varijable na
jednak broj u svakom skupu ili e koristiti jednu od mera udaljenosti, kao npr.
Mahalanobisovu meru koja je moe zameniti.
10
3.3. Odluka o transformaciji varijabli
Korisno je pre odreivanja udaljenosti izmeu objekata izraziti sve varijable u nekom
standardiziranom obliku. SPSS nudi nekoliko mogunosti :
Mera slinosti unutar objekata koje verovatno prva dolaza u obzir je koeficijent
korelacije izmedju objekata zasnovana na par promenljivih. Zapravo, umesto korelacije dva
11
seta promenljivih mi konvertujemo objekte i varijable tako da kolone predstavljaju
predstavljaju objekte a redovi varijable. Koeficijent korelacije izmedju dve kolone brojeva je
korelacija (slinost) izmedju profila dva objekta. Visoka korelacija pokazuje slinost a slaba
korelacija oznaava nedostatak iste. Mere korelacije koje predstavljaju slinosti uzoraka
putem dijagrama slinosti prikazan kroz karakteristike (X varijable). To je ilustrovano
primerom od 7 posmatranja. U tabeli 9.3 koja sadri korelacije izmedju ovih 7 posmatranja
moemovideti dve razliite grupe.Prvo, u sluajevima 1, 5 i 7 svi imaju sline obrasce i
odgovarajue visoke pozitivne interkorelacije. Isto tako, sluajevi 2, 4 i 6 imaju visoke
pozitivne korelacije izmedju sebe ali I niske ili negativne korelacije sa drugim posmatranjima.
Sluaj 3 ima nisku ili negativnu korelaciju sa svim drugim sluajevima, I pri tom sam po sebi
formira grupu. Mere korelacije se medjutim redje koriste zato to je nglasak u veini
sluajeva klaster analize na veliini objekta a ne na vrednosti dijagrama.
Postoji vei broj razliitih mera udaljenosti ili slinosti izmeu objekata. Upotreba
razliitih mjera razlikovanja objekata ima za posledicu da se pojedinim karakteristikama
podataka pridaje razliit znaaj (npr. pridavanje veeg znaaja veim razlikama; uzimanje u
obzir najvee ili najmanje pojedine razlike izmeu dva objekta). Izbor mere odredjen je
12
vanou nekih karakteristika podataka u specifinoj situaciji u kojoj vrimo klasterizaciju
objekata.
Osnovna razlika postoji izmeu mera slinosti i mera udaljenosti. Termin slinost esto
se koristi kao sinonim za povezanost ili korelaciju.
Distance (X,Y) = (X i Yi ) 2
Primer:
V1 V2 V3 Distance
X 6 2 3
Y 4 2 5
X-Y
(X-Y)2
Distance (X,Y) = (X i Yi ) 2
Primer:
V1 V2 V3 Distance
X 6 2 3
Y 4 2 5
X-Y
(X-Y)2
Nekoliko opcija koje nisu bazirane na Euklidovoj udaljenosti su takodje dostupne. Jedna
najee koriena alternativa je ona koja ukljuuje zamenu kvadratne razlike u sumi sa
apsolutnim razlikama varijabli. Ovaj proces se naziva apsolutnim, ili blok- grad-blok, funkcija
udaljenosti. Grad-blok pristup izraunava udaljenost koja moe biti prikladna pod odredjenim
okolnostima, ali uzrokuje nekoliko problema. Jedna od pretpostavki je da varijable nisu
korelirane jedna sa drugom; ako su korelirane klasteri nisu validni. Razlika izmeu 2 objekta
izraena kao suma apsolutnih razlika vrijednosti za sve varijable.
13
k
Distance (X,Y) =
i
X i Yi
Primer:
V1 V2 V3 Distance
X 6 2 3
Y 4 2 5
X-Y
14
3.5. Izbor metode za povezivanje objekata u klastere
15
Postupak prostog povezivanja je zasnovan na minimalnoj udaljenosti. Ona pronalazi
dva odvojena objekta putem najkrae udaljenosti i smeta ih u prvi klaster. Zatim pronalazi
sledeu najkrau udaljenost, pa ili se treina objekta pridruuje i sa prva dva formira klaster ili
su formirana nova dva klastera. Proces se nastavlja sve dok svi objekti ne nadju u jednom
klasteru. Ovaj proces se naziva jo i pristup najblieg suseda. Rastojanje izmedju bilo koja
dva klastera je najkraa udaljenost izmedju bilo koje take u jednom u odnosu na bilo koju
taku u drugom klasteru. Dva klastera su spojena najkraom ili najjaom vezom medju njima.
Problemi se javljaju, medjutim, kada su klasteri loe obeleeni. U takvim sluajevima, prosta
povezanost se moe formirati u duge, zmijolike lance i na kraju su svi pojedinci smeteni u
okviru jednog. Oni koji se nalaze na krajevima tih lanaca, mogu biti veoma razliiti izmedju
sebe.
5) WARD'S METHOD
Za svaki klaster izraunaju se aritmetike sredine za svaku varijablu. Zatim se za svaki
objekt rauna kvadratna euklidska udaljenost do aritmetike sredine klastera. Sumiraju se
ove udaljenosti za sve lanove klastera. Spajaju se oni klasteri za koje je ukupna
(zajednika) suma ovih odstupanja najmanja. U ovoj metodi razdaljina izmedju dva klastera
je ustvari suma kvadrata izmedju svih promenljivih koji su sumirani u dva klastera. U svakoj
fazi procesa klasterovanja, unutar-grupna suma kvadrata je minimizirana nad svim podelama
(potpun set razudjenih ili razdvojenih klastera) koja se izvodi kombinacijom dva klastera iz
predhodne faze. Ovaj postupak zahteva kombinaciju klastera sa malim brojem posmatranja.
Takodje je bazirana na praenje razvoja klastera sa skoro istim brojem posmatranja .
16
Odreuje udaljenost izmeu klastera kao udaljenost izmeu aritmetikih sredina oba
klastera (njihovih centroida). Jedan nedostatak centroidne metode jeste u tome to se
poetna udaljenost dva klastera moe smanjiti izmeu dva sukcesivna koraka analize.
Klasteri spojeni u kasnijim fazama su vie razliiti nego oni spojeni u ranijim koracima. U
centroidnoj metodi udaljenost izmedju dva klastera je udaljenost (tipino kvadratna Euklidova
ili prosta Euklidova metoda) izmedju njihovih centroida. Centroidni klaster znai srednju
vrednost posmatranih varijabli u klaster promenljivima. Po ovoj metodi, svaki put kada je su
pojedinci grupisani, centroid je preraunat. Postoji promena u klaster klaster centroidu svaki
put kada se jedinka ili grupa jedinki doda postojeem klasteru. Ove metode su najpopularnije
kod biologa, ali mogu napraviti nered I esto zbunjujue rezultate. Konfuzija nastaje zbog
inverzije ili obrnutosti koja se javlja kada izmerena udaljenost izmedju jednog para centroida
je manja u odnosu na neko ranije merenje. Prednost ove metode je das u manji uticaji na
outliere u odnosu na neke druge metode.
17
Glavni problem sa kojim su suoeni svi nehijerarhijski postupci klasterovanja je kako
odrediti prag klastera. Na primer, sa pragom sekvencijalnih mogunosti, poetni I krajnji
rezultati klastera zavise od redosleda zapaanja podataka kao i to da vrdav (neadekvatan)
redosled podataka utie na konaan rezultat. Odredjivanje poetnog klastera moe reiti
ovaj problem. Ali ak odabir takvog klastera nasumino moe dovesti do razliitih rezultata za
svaki skup sluajnih promenljivih. Dakle, istraiva mora biti svestan uticaja odabranog
klastera na konane rezultate.
Kako odabrati pravu metodu klasterizacije? Nema prave metode sve zavisi od
teorijskih postavki, opravdanja i/ili praktinih potreba.
Poto hijerarhijska metoda na kraju sve klastere spoji u jedan (ili u obrnutom sluaju
poetni jedinstveni klaster rasturi na entitete) kako znati kada prekinuti klasterizaciju tj.
koliko klastera zadrati? Pria je opet slina kao i kod faktorske analize zavisi od teorijskih
postavki, praktinih potreba i slinih stvari, a jedina statistiki pametna stvar je predloiti da
se klasterizacija prekine onda kada pone spajanje veoma udaljenih klastera (princip
kolena ili Scree-test) (ili u obrnutom sluaju kada krene da rastura klaster na klastere koji
nisu mnogo udaljeni). Naravno to ta je daleko je opet relativna stvar i zavisi od naeg
subjektivnog suda, praktinih potreba. Ipak zgodno je pogledati Aglomeracioni raspored.
18
19
Na slici je tzv. aglomeracioni raspored (poetak i kraj sredinu samo odsekli jer bi
slika onda bila prevelika) koji pokazuje kako ta je sa im spajano (korak po korak). U koloni
STAGE je redni broj koraka koji se opisuje. U koloni CLUSTER COMBINED su dati redni
brojevi (imena) klastera koji se spajaju u datom koraku. U koloni COEFFICIENTS je su data
udaljenosti klastera koji se spajaju. U koloni STAGE CLUSTER FIRST APPEARS su podaci o
tome u kom je koraku prvi odnosno drugi klaster nastao (za pojedinane ispitanike ovde je
vrednost 0) i konano u koloni NEXT STAGE su podaci o koraku u kom se ovde
novoformirani klaster prvi put pojavljuje. Novoformirani klaster nasleuje broj (ime) od onog
od sastavnih klastera koji ima manji broj. Dakle, npr. u prvom koraku se spajaju klasteri 3 i 56
(koji su pojedinani ispitanici to se vidi iz kolona STAGE CLUSTER FIRST APPEARS gde
imaju vrednosti 0, a sem toga to je i prvi korak, pa jo nema vielanih klastera) i formira se
novi klaster koji se zove 3, a koji se ponovo pojavljuje u koraku broj 6. Njihova udaljenost u
trenutku spajanja je 0,02 (tj. 2,0000E-02).
Jo se moe primetiti da su kako koraci odmiu klasteri koji se spajaju sve udaljeniji i
udaljeniji, a poto ovde nema oiglednog kolena (sluaja da je u nekom koraku udaljenost
spojenih klastera mnogo vea nego u prethodnom), ostaje i pitanje koliko klastera zadrati
(ostaje da se o tome odluka donosi na osnovu teorijskih postavki i znanja o problemu koji se
ispituje).
20
3.5.4. Dendrogram: ematski prikaz
Na ovoj slici je tzv. Dendrogram (tanije njegov deo) koji pokazuje grafiki isto to i
aglomeracioni raspored. Linije pokazuju ta se sa im spaja, na vertikalnoj osi su entiteti, a
na horizontalnoj je udaljenost. Znai, npr. ispitanici 3 i 56 su spojeni u isti klaster u jednom od
koraka i njihova udaljenost (reskalirano ne mora da se poklapa sa brojkama iz
aglomeracionog rasporeda), onda je taj klaster spojen sa klasterom koji su inili entiteti 24 i
29 itd.
21
Postoji odredjeni broj specifinih procedura koje su predloene ali se ni jedna nije
pokazala kao najbolja u svim situacijama. Takodje, istraivai moraju dati vrste procene, sa
konceptom teorijskih odnosa koji moe predloiti prirodan broj klastera. Moe se pokrenuti
proces u kojem odredjeni kriterijumi, na osnovu praktinih ispitivanja, pokazuju da rezultati
moraju biti pregledni i razumljivi za komunikaciju kada se poseduje prirodan broj klastera, tj.
od 3-6, i tada najbolje reenje za ovaj broj klastera je izbor najbolje alternative posle njihove
procene. U konanoj analizi je verovatno najbolje da se uzme jedan broj klaster reenja (npr.
2,3,4) i tada doneti odluku, sa alternativnim reenjima, koristei apriori kriterijume i praktinu
ocenu, zdrav razum ili teorijske ocene. Klaster reenja e biti poboljana kada se nadju
reenja za konceptualne aspekte problema.
Osnovni problem jeste gde povui crtu, tako da ostane optimalni broj klastera. Treba
rei da ovaj problem nema zadovoljavajue reenje. Itertivne metode zahtevaju od korisnika
da unapred odredi broj klastera. U statistikom smislu nulta-hipoteza o nepostojanju strukture
unutar nekog skupa objekata nije sasvim jasna, pa ni smislena.
U socijalnim znanostima dominiraju dva pristupa odreivanju broja klastera: heuristiki
pristup, i formalni testovi. Prvi pristup je najei, a odnosi se na subjektivno postavljanje
granice na dendrogramu dobivenom hijerahijskom klasterizacijom. Osnovni kriterijum jeste
smislenost ili interpretabilnost dobijenog reenja.
Drugi nain, podjednako subjektivan (slian scree plot testu kod faktorske analize)
jest analiza koeficijenata (koeficijenti fuzije) koji pokazuju slinosti meu klasterima pri
sukcesivnom spajanju klastera. Naglo opadanje (ili poveanje vrednosti kod mera
udaljenosti) ukazuje na manju povezanost meu klasterima koji se spajaju. Nagli skok
ukazuje na spajanje dva relativno razliita klastera.
Istraivai mogu dati bilo koju formu kritetijuma ili validnosti. Da to uini, istraiva bira one
varijable koje nisu koriene ali su klasteru poznate. Varijable koriene za procenu
validnosti moraju imati jaku teorijsku i praktinu podrku i moraju postati merilo za selekciju
klaster reenja.
22
3.7.2. Profilisanje klaster reenja
Faza profilisanja u sebi sadri opis karakteristika svakog pojedinanog klastera radi
objanjenja kako se oni mogu razlikovati po relativnim dimenzijama. Procedura poinje
nakon identifikovanja klastera. Istraivai koriste podatke, koji nisu ranije bili ukljueni u
proceduru klasterovanja, za profilisanje karakteristika pojedinanog klastera. Ovi podaci se
esto odnose na demografske karakteristike, psiholoke profile, ponaanje potroaa itd.
Iako moda nisu teoretski zasnovani oni bi trebali imati bar praktinu vrednost. Koristei
diskriminacionu analizu, istraivai porede prosene rezultate profila za sve klastere.
Ukratko, analiza profila fokusira se na opis onoga to ne odredjuje direktno klastere, ali posle
identifikacije, ini jednu od njegovih karakteristika. Osim toga, naglasak je na karakteristike
koje se znaajno razlikuju preko klastera i onih koji mogu predvideti svoje lanstvo u
odredjenom klasteru.
Ukratko emo spomenuti neke mogue strategije procene validnosti dobijenih
rezultata.
a) Replikacija
Verojatno najbolji nain provere dobijenog klasterskog reenja jeste replikacija
rezultata na drugom sluajno odabranom uzorku.
23
izvodio na sveim podacima, to bi tada bio jedan logian opis. A ukoliko su podaci
standardizovani ili ukoliko se klaster analiza izvodi koristei faktorsku analizu, istraivai se
vraaju na svee podatke za poetne varijable i izraunavaju prosek koristei te podatke.
Nastavljajui sa naim primerom bezalkoholnih osveavajuih pia u ovoj fazi ispitaemo
proseni rezultat profila uz izvetaj za svaku grupu i davanja opisne veze za svaki klaster
posebno. Mnogo se puta diskriminaciona analiza primenjuje za generisanje ocene profila, ali
se nesme zaboraviti da statistiki znaajne razlike nisu optimalno reenje, jer se to oekuje s
obzirom na cilj klaster analize. Ispitivanje profila omoguava jedan bogat opis svakog
klastera pojedinano. Na primer, imamo dva klastera sa povoljnim stavom o dijetalnim
napicima i trei klaster sa nepovoljim stavom. ta vie, dva klastera sa povoljnim stavom
mogu imati povoljne stavove prema obema vrstama napitaka i to prema dijet i obinom
bezalkoholnom piu. Iz ovog analitikog procesa moemo oceniti stav svakog klastera i
razvijati znaajne interpretacije radi olakanog obeleavanja svakog pojedinano. Na primer,
jedan klaster moe biti oznaen kao zdravstveno-kalorijska svesnost dok drugi moe biti
oznaen kao dobijanje eernog napada.
Profilisanje i interpretacija klastera postigla je mnogo vie nego to je opisano. Prvo,
oni pruaju sredstva za procenu slinosti dobijenog klastera od teorije do prakse. Kod
upotrebe u utvrdjenom modelu, klaster analiza profila prua direktna sredstva za procenu
slinosti. Drugo, klaster profili pruaju jedan nain za ocenjivanje praktinog znaenja.
Istraivai mogu zahtevati da postoje velike razlike u setu klaster varijabli pa klaster reenja
mogu biti proirena sve dok se razlika poveava. U procenjivanju njihovih slinosti ili njihovog
praktinog znaenja, istraivai uporedjuju dobijene klastere sa unapred odredjenjim
klasterima.
24
5. Moe li klaster analiza biti neprecizna?
Kada se kod klaster analize nadje jedno prihvatljivo reenje, istraiva treba ispitati
osnovnu strukturu predstavljenu u definisanom klasteru. Od posebnog su znaaja razliite
veliine klastera. Istraivai moraju ispitati promenu veliine klastera iz konceptualnog
gledita uporedjujui stvarne vrednosti sa oekivanim. Najproblematiniji su jednolani
klasteri koji nisu otkriveni u nekoj od predhodnih analiza. Kada se jednolani klaster (ili kada
je klaster mnogo male veliine) pojavi, istraivai moraju odluiti da li je vaea strukturalna
komponenta u uzorku ili je odbaena kao nereprezentativna. Kada je neko posmatranje
odbaeno, pre svega kada je hijerarhijski postupak upotrebljen, istraiva bi se trebao vratiti
na klaster analizu i otpoeti je ponovo.
Kod ovog postupka mora se unapried definisati konani broj klastera, na osnovu
ega program nove objekte svrstava u najblii klaster. Algoritam za ovaj oblik klaster analize
predstavlja metoda nearest centroid sorting (sortiranje na osnovu najblieg centroida).
Prema ovom algoritmu objekt se povezuje s onim klasterom prema ijem centru (centroidu)
ima najmanju udaljenost.
Ako su centri klastera poznati, (tj. prosene vrednosti na svakoj od k varijabli) objekt se
pridruuje klasteru od kojeg je najmanje udaljen. Ukoliko centri klastera nisu poznati oni se
iterativno procenjuju iz podataka.
varijabla V1 V2 V3 V4
centar 12.5 11.0 12.0 10.7
Postupak u kome se unapred definie broj klastera, pa onda kompjuter krene od nekih
sluajno rasporeenih taaka (poetni centri) ili se definiu koordinate poetnih centara
klastera, pa onda program rauna i premeta ispitanike iz klastera u klaster, raunajui
centroide klastera u svakom koraku iznova i pravi razne kombinacije sve dok se ne nae
takvo reenje u kome je varijabilitet unutar klastera (udaljenost ispitanika od centroida) to je
mogue manji, a varijabilnost izmeu klastera (tj. meusobna udaljenost centroida klastera)
to je mogue vei (pria o varijabilnosti unutar i izmeu grupa je kao kod analize varijanse).
25
Donja tabela (kakvu kompjuter izabacuje u ovom postupku) prikazuje koordinate
centroida (dakle aritmetike sredine ispitanika iz svakog od klastera na odgovarajuoj
varijabli) tri klastera (verovatno reskalirane brojke) na nizu varijabli (FAMILY, LEISURE
TIME...). U poslednjem redu je dat broj entiteta u svakom od klastera.
26
Pojavljuje se sledei ekran:
27
U Meniju Metod treba treba definisati koji metod sprovoenja klaster analize (Cluster
Method) elimo (tj. ta je kriterijum udaljenosti dva klastera vidi gore objanjenje metoda).
Nakon toga treba definisati nivo merenja na kom su merene nae varijable. U igri su
Intervalni, Apsolutni (Counts nastaju prebrojavanjem prirodne jedinice merenja, sve
ostalo kao za racio skalu (realna nula, jednake jedinice) ili binarni nivo merenja, a nakon to
to odaberemo treba odabrati i meru udaljenosti (vidi gore za mere udaljenosti) koju elimo da
se koristi.
Poto je uslov za smislenu primenu klaster analize to da sve varijable budu na istoj
skali (idealno ista AS i SD), ako to nije sluaj treba ih transponovati sve na istu skalu i to se
moe naloiti SPSS da se uradi (opcija Standardizuj Standardize ima razliitih skala na
koje je mogue transponovati vrednosti). Takoe je mogue transformisati vrednosti tako da
im se promeni znak (obrtanje skale) opcija Promeni znak (Change sign), da se pretvore u
apsolutne vrednostni (Absolute Values) ili da se reskaliraju na raspon od 0 do 1 (Rescale to
0-1 range).
28
koliko najvie klastera da snima reenja) snimi u matricu sa podacima nove varijable koje za
svakog ispitanika definiu njegovu klastersku pripadnost u datom klasterskom reenju).
8. Primer broj 1
Primer podataka
1 znai da je ispitanik vezan za promenljivu i 0 znai da ispitanik nije vezan za
promenljivu. Podaci su generisani pomou DE/WC lexikona i prebacuju se u Excel tabele to
je od velike vanosti, radi sagledavanja zajednikog cilja.
Ispitanici su prikazani u levoj koloni a promenljive su navedene u prvom redu na vrhu tabele.
Promenljive predstavljaju sledee:
29
Klaster analiza funkcionie po principu uredjivanja podataka (ispitanika) unutar
razliitih grupa. Matematiki funkcionie putem smanjenja dimenzionalnosti ili opsega
podataka. To se vri putem slinosti I merenja neslinosti u cilju odredjivanja broja klastera
koji bi objasnili te podatke. Budui da se radi o binarnim podacima ( podaci izraeni 0 I 1),
binarna slinost je mera koja se koristi za grupisanje. Prikazan je izbor slinih koeficijenta u
etiri parcele I primenjeno je grupisanje algoritama. Iako su ovi dendogrami output klaster
programa u SPSS, Hamilton-Locke ima pristup drugim programima koji su grafiki mnogo
bolji ili ukusniji.
30
31
9. Primer broj 2
Zadatak:
Na osnovu podataka iz matrice podataka, a na osnovu promenljivih DomainBodovi i
GostBodovi formirati hijerarhisku strukturu objekata korienjem metoda jednostrukog
povezivanja, a kao razdaljinu izmeu objekata koristiti Euklidsko rastojanje
Matrica podataka
32
5 3
1 1 1
Parma 5 2 6 7 2 8 2 4 2 0 7 0 2 5 2 15 24
1 1
Siena 5 2 6 7 2 7 1 4 2 7 8 1 2 5 5 10 23
1
Atalanta 5 0 7 8 7 8 0 5 3 5 7 0 2 5 2 11 22
Variable View:
33
Reenje:
34
Agglomeration Schedule
35
15 5 18 13,000 14 0 16
16 4 5 13,000 0 15 19
17 1 2 16,000 0 0 18
18 1 3 20,000 17 0 19
19 1 4 37,000 18 16 0
36
ZAKLJUAK
LITERATURA
1.
2. www.ffzg.hr
3. www.hm.co.rs
4. www.hamilton-locke.com
5. www.cubaselogic.googlepages.com
6. www.norusis.com
7. www.statisticshell.com
37