You are on page 1of 37

UNIVERZITET U KRAGUJEVCU

EKONOMSKI FAKULTET

PRISTUPNI RAD
KLASTER ANALIZA

Mentor:
Prof. dr Miodrag Lovri

Doktoranti:
Ili Milena
2008/13
Reovi Selvija 2008/25

Kragujevac, 19.06.2009.god.

SADRAJ
UVOD

1. KLASTER ANALIZA: pojam i funkcionisanje


1.1.
1.2.
1.3.
1.4.

Neke uvodne napomene o klaster analizi


Standardizacija podataka
Standardizacija varijabli
Standardizovano posmatranje

2. Ciljevi klaster analize

2
6
6
7
7
8

3. Kako klaster analiza radi

8
3.1. Izbor uzorka na kojem se vri klasterizacija
9
3.2. Izbor varijabli koje e reprezentovati obeleja objekata (entiteta)10
3.3. Odluka o transformaciji varijabli
11
3.4. Izbor mere udaljenosti / slinosti:
11
3.4.1. Mere slinosti
11
3.4.2. Mere korelacije
11
3.4.3. Mere udaljenosti
12
3.4.4. Mere udruivanja
12
3.5. Izbor metode za povezivanje objekata u klastere
15
3.5.1. Hijerarhisjki postupak klasterovanja
15
3.5.2. Nehijerarhijski postupak klasterovanja
17
3.5.3. Aglomeracioni postupak: tabelarni prikaz
19
3.5.4. Dendrogram: ematski prikaz
21

4.
5.
6.
7.
8.
9.

3.6. Odreivanje zadovoljavajueg broja klastera


3.7. Procena validnosti i profilisanje klastera
3.7.1. Procena validnosti klaster reenja
3.7.2. Profilisanje klaster reenja
3.8. Interpretacija klastera

21
22
22
23
23

Koraci pri provoenju klaster analize


Moe li klaster analiza biti neprecizna?
Brza klaster analiza (Quick Cluster)
Klaster analiza u SPSS-u
Primer broj 1
Primer broj 2

24
25
25
26
29
32

ZAKLJUAK
LITERATURA

37
37

UVOD
Akademici i istraivai trita se esto sreu sa situacijama koje su najbolje reene
definisanjem grupa homogenih objekata bilo da su individue, firme, proizvodi ili ak njihova
2

ponaanja. Strateka reenja bazirana na identifikaciji grupa unutar populacije, kao to je


segmentacija i ciljni marketing ne bi bila mogua bez objektivne metodologije. Ova ista
potreba se sree u drugim podrujima, od fizikih do drutvenih nauka. U svim sluajevima,
istraivai trae prirodnu strukturu izmedju obzervacija zasnovana na viestrukim profilima.
Najee koriena tehnika za ovu namenu je klaster analiza. Ona nastoji da maximizira
internu homogenost I eksternu heterogenost klastera. U ovom radu emo pokuati da
objasnimo svrhu i nain funkcionisanja klaster analize.

1. KLASTER ANALIZA: pojam i funkcionisanje


Klaster analiza je naziv za grupu multivarijacionih tehnika ija je primarna svrha
grupisanje objekata bazirana na karakteristikama koje poseduju. Termin klaster dolazi od
engl. rei cluster (skupina "istovrsnih stvari", grozd, skupiti u hrpu). Klaster analiza klasifikuje
objekte (ispitanike, proizvode ili druge objekte) tako da je svaki objekat veoma slian drugima
u klasteru uz potovanje nekog unapred odreenog kriterijuma selekcije. Nastale skupine
objekata bi trebalo da pokau visoki interni homogenitet (slinost), unutar klastera, i visoku
eksternu (izmeu klastera) razliitost.
U klaster analizi, koncept sluajne promenljive je ponovo centralna tema , ali na
potpuno drugaiji nain od drugih multivarijacionih tehnika. Klaster promenljiva je set varijabli
koje predstavljaju karakteristike korienje za poreenje objekata u klaster analizi. Zbog toga
to klaster sluajna varijabla ukljuuje samo varijable korienje za poreenje objekata , to
odreuje karakter objekata. Klaster analiza je jedina multivarijaciona tehnika koja ne
procenjuje varijable empirijski, ali umesto toga koristi sluajne promenljive kao to je
navedeno od strane istraivaa. Fokus klaster analize je na poreenju objekata zasnovanih
na sluajnoj promenljivoj , a ne na proceni same sluajne promenljive. Ova definicija sluajne
varijable od strane istraivaa je kritian korak u klaster analizi.
Klaster analiza se naziva i Q analiza, tipologija gradnje, klasifikacijska analiza i
numerika taksonomija. Ova raznovrsnost u nazivima je zbog korienja klaster metode u
razliitim disciplinama kao to su psihologija, biologija, sociologija, ekonomija. Uprkos
razliitim nazivima u zavisnosti od discipline, svi metodi imaju zajedniku dimenziju:
klasifikacija u skladu sa prirodnim vezama. Ova zajednika dimenzija predstavlja sr svih
klastering pristupa Klaster analiza je uporediva sa faktor analizom u cilju procenjivanja
structure. Klaster analiza se razlikuje od faktor analize po tome to klaster analiza grupie
objekte, dok je factor analiza primarno brine o grupisanju varijabli. Klaster analiza je koristan
alata za analizu podataka u mnogim razliitim situacijama. Na primer, istraiva koji je
prikupio podatke putem upitnika moe biti suoen sa velikim brojem opservacija koje su
besmislene ukoliko nisu klasifikovane unutar grupa kojima je mogue upravljati.
Iako se i diskriminacijska analiza i klaster analiza odnose na problem klasifikacije
objekata ili ispitanika u kategorije, diskriminacijska analiza zahteva poznavanje grupne
pripadnosti za jedinice koje koristimo za utvrivanje klasifikacijskih pravila. Npr. ukoliko
nastojimo razlikovati ispitanike koji spadaju u 3 dijagnostike kategorije, moramo poznavati
dijagnozu (grupnu pripadnost) za svakog ispitanika. Na osnovu karakteristika tih ispitanika sa
poznatom grupnom pripadnou, diskriminaciona analiza omoguuje definisanje pravila za
klasifikaciju ispitanika za koje ne znamo grupnu pripadnost.

Klaster analiza moe izvriti redukciju podataka objektivno putem redukcije informacija
iz cele populacije ili uzorka do informacija o specifinim, manjim podgrupama. Klaster analiza
je takoe korisna kada istraiva poeli da razvija hipoteze uzimajui u obzir prirodu
podataka ili da ispita prethodno ustanovljene hipoteze. Na primer, istraiva moe verovati da
stavovi prema konzumaciji dijetalnih nasuprot obinim piima mogu biti korieni da izdvoje
korisnike soft pia u logine segmente ili grupe. Klaster analiza moe da klasifikuje korisnike
bezalkoholnih pia po njihovim stavovima o dijetalnim nasuprot obinim bezalkoholnim
piima , i rezultujui klasteri,ako postoje, mogu biti profilirani za demografske slinosti i
razlike.
Ipak, uz pogodnosti klaster analize idu i neke opomene. Klaster analiza moe biti
okarakterisana kao opisna, ateoretina i noninferentna. Klaster analiza nema statistiku
osnovu kojih se mogu izvui statistika zakljuivanja iz uzorka do populacije i koriena je
prvenstveno kao tehnika istraivanja. Reenja nisu jedinstvena , kao to lanstvo u klasteru
za bilo koji broj reenja zavisi od mnogih elemenata u proceduri, i mnoga razliita reenja
mogu biti dobijena varijetetima jednog ili razliitih elemenata. tavie, klaster analiza e uvek
kreirati klastere bez obzira na istinsko postojanje bilo kakve sturkture u podacima. Konano,
klaster reenje u potpunosti zavisi od varijabli koje su koriene kao osnova za meru
slinosti. Dodavanja ili brisanja relevantnih varijabli moe imati znaajan uticaj na rezultujue
reenje. Dakle, istraiva mora voditi rauna u proceni uticaja svake odluke ukljuene u
izvoenje klaster analize.
U klaster analizi grupna pripadnost objekata nije poznata, kao ni konani broj
grupa.Cilj klaster analize jest utvrivanje homogenih grupa ili klastera. Naelno jedinice koje
ine klastere mogu biti neki objekti (varijable) ili ispitanici.
U prvoj situaciji pokuavamo utvrditi grupisanje nekih objekata, entiteta (ispitanika,
gradova,kola, ivotinja i sl.) prema nekim varijablama, kao npr.
Primer 1: grupiranje objekata prema izmjerenim karakteristikama
Objekti
Objekt 1
Objekt 2
Objekt 3
...
Objekt N

izmerene karakteristike objekata (varijable)


VAR 1
VAR 2
VAR 3

VAR k

X11
X21
X31

X12
X22
X32

X13
X23
X33

X1k
X2k
X3k

XN1

XN2

XN3

XNk

U gornjem sluaju klaster analizom pokuali bismo utvrditi kako se grupiu objekti
obzirom na neke njihove izmerene karakteristike. Pretpostavimo da objekte ine politike
stranke, od 1. do N-te. Relevantne karakteristike pojedinih stranaka reprezentiraju neke
numerike varijable, od 1 do k. Potrebna nam je barem jedna varijabla s nekim izmerenim
karakteristikama objekata. Pretpostavimo da za svaku stranku imamo 3 varijable koje
reprezentiraju njene relevantne karakteristike:
P1= poloaj na dimenziji levica - desnica;
P2 = broj lanova;

P3 = poloaj na dimenziji unitarna - regionalna


Npr. vrijednost X11 moe biti prosena procena skupa od 100 ispitanika koja odreuje poloaj
prve stranke na dimenziji levica-desnica.
U tom sluaju klaster analizom pokuali bismo utvrditi grupe stranaka koje su prema ovim
karakteristikama meusobno najslinije, odnosno najmanje razliite. Kao i kod faktorske
analize potrebno je psiholoki interpretirati dobijene klastere.
Identinu situaciju imamo kada jedinice analize predstavljaju pojedini ispitanici za koje
imamo neke izmjerene karakteristike. U tom sluaju ulaznu matricu podataka ine ispitanici i
njihovi podaci u varijablama:

Primer 2: Grupiranje ispitanika prema izmjerenim karakteristikama


Ispitanici
Ispitanik 1
Ispitanik 2
Ispitanik 3
...
Ispitanik N

Izmerene karakteristike ispitanika (varijable)


VAR 1
VAR 2
VAR 3

VAR k

X11
X21
X31

X12
X22
X 32

X13
X23
X33

X1k
X2k
X3k

XN1

XN2

XN3

XNk

U ovom gornjem sluaju zanima nas kako se grupiu ispitanici prema nekim njihovim
karakteristikama (V1 do Vk)
Drugu moguu situaciju s obzirom na sadraj ulazne matrice moe predstavljati
sluaj kada su nam u kolonama varijable (varijable u tom sluaju predstavljaju objekte ili
entitete) ije grupiranje nastojimo ispitati, dok su nam u redovima ispitanici koji su procenjivali
svaki od objekata prema nekoj karakteristici i koji nam slue kao izvor informacije o slinosti
ili razliitosti varijabli.

1.1. Neke uvodne napomene o klaster analizi


Prvi oblici klaster analize javljaju se poetkom prolog veka, ali se znaajnija literatura
iz ovog podruja razvija od ezdesetih godina. Brzi razvoj raunara i temeljni znaaj
klasifikacije kao znanstvene procedure doprineli su popularnosti ove metode.
5

Psiholozi je ponekad nazivaju "siromanom faktorskom analizom". U okviru klaster


analize postoji veliki broj razliitih algoritama koji u naelu odgovaraju na iste probleme.
Neke vane napomene vezane uz koritenje klaster analize:
1. Veina metoda klaster analize predstavlja relativno jednostavne statistike postupke, te
nemaju znaajniju potporu u standardnom statistikom rezonovanju (npr. odreivanju
znaajnosti).
2. Pojedine metode razvijene su i korisne u okviru pojedinih znanstvenih disciplina , dok u
drugima nisu od veeg znaaja.
3. Razliite metode klasterizacije, mogu a esto i dovode, do razliitih razliitih konanih
reenja.
Rezultat klaster analize uvijek predstavlja klasifikacija objekata u neke grupe, to
ovisno o koritenoj tehnici moe dovesti do razliitih reenja. Jedan od vanih kriterijuma
moe biti i "psiholoka" smislenost dobijene solucije.
Uz klaster analizu takoe se razvila specifina terminologija. Jedinice koje se povezuju
u klastere obino se nazivaju objekti, entiteti, sluajevi (cases), operational taxonomic units
(OTU). Grupisanje se vri na osnovu nekih varijabli, atributa, karakteristika ili obeleja.
Neke od vanih odluka koje treba donijeti pri provoenju klaster analiza su:
1) Izbor uzorka koji emo podvrgnuti klaster analizi
2) Odrediti skup relevantnih varijabli koje e reprezentirati obeleja objekata (entiteta)
3) Odrediti transformaciju originalnih podataka
4) Odrediti metodu za odreivanje udaljenosti / slinosti izmeu objekata (entiteta)
5) Odrediti metodu koju za povezivanje objekata u klastere
6) Ocena validnosti dobijenih rezultata
Uz veinu ovih odluka nadovezuje se izbor prikladnog statistikog algoritma, odnosno
tehnike.
Npr. ukoliko izostavimo neku vanu osobinu politikih stranaka rezultat grupiranja vrlo
vjerojatno nee biti optimalan.

1.1. Standardizacija podataka


Uz izabrane mere slinosti istraiva mora postaviti jo jedno pitanje: da li baza
podataka mora biti standardizovana pre razmatranja slinosti? Pri odgovaranju na ovo
pitanje istraiva mora razmotriti sledee. Prvo, veina mera udaljenosti su prilino osetljive
na razliita merila ili veliinu izmedju promenljivih. U principu, varijable sa veom disperzijom
imaju vei uticaj na konanu vrednost. Razmotrimo sada drugi primer. Pretpostavimo da
elimo da udruiti individue u tri varijable proizvod, period i prihod. Sada pretpostavimo da
merimo stavove sedmostepene skale, volim ne volim, sa periodom izraenim u godinama i
dobitkom u dolarima. Ako posmatramo trodimenzionalni grafiki prikaz, udaljenost izmedju
taaka (i njihovih slinosti) moe biti bazirana na razlikama u dohotku. Mogue su razlike u
stavovima u rasponu od 1 7, dok prihod moe imati raspon hiljadu puta vei. Dakle, grafiki

ne bi bilo mogue videti razlike u stavovima. Iz tog razloga istraiva mora biti svestan teine
varijabli zasnovane na relativnoj disperziji.

1.2. Standardizacija varijabli


Najei oblik standardizacije je konvertovanje svake varijable ka standardu uz
umanjivanje proseka pomou standardne devijacije za svaku varijablu. Ovo je izbor u svim
raunarskim programima i mnogo puta je ak direktno ukljuena u procedurama klaster
analiza. Ovo je opta forma normalizovane funkcije udaljenosti, koju koristi Euklidova mera
udaljenosti za transformaciju sirovih podataka. Ovaj proces pretvara svaki sirov podatak u
standardizovanu vrednost sa vrednou 0 i standardnom devijacijom 1. Ova transformacija
eliminie pristrasnost koje su uvedene od strane merila i njihovih razlika za nekoliko atributa
ili promenljivih korienih u analizi. Prvo, mnogo je lake porediti dve varijable kao da su na
istoj skali merenja (prosek 0 i standardna devijacija). Pozitivne vrednosti su iznad a negativne
su ispod proseka; razmak medju njima predstavlja broj standardne devijacije originalnih
vrednosti iz proseka. Drugo, nema razlike u standardizovanju vrednosti onda kada se
menjaju merila. Na primer, kada posmatramo vreme u minutima I kada je ono u sekundama
standardizovano, vrednosti su iste. Dakle, korienje standardizovanih promenljivih eliminie
razliitosti ne samo kroz promenljive ve i za nju samu. Medjutim, istraiva ne bi trebalo
uvek primenjivati standardizaciju bez uzimanja u obzir njegovih posledica. Nema razloga za
apsolutno prihvatanje klaster reenja koristei standardizovanih vs. nestandardizovanih
promenljivih. Ako postoji neki prirodan odnos koji se odraava kroz skaliranje varijabli, tada
standardizacija nije ni potrebna. Odluka o standardizaciji ima empirijskog i konceptualnog
znaaja, pa zato uvek treba biti oprezan pri njenom razmatranju.

1.3. Standardizovano posmatranje


Do sada smo diskutovali samo o standardizovanju promenljih.
ta je sa
standardizacijom ispitanika ili sluajeva? Zato bi mi to uopte radili? Uzmimo neki primer:
pretpostavimo da imamo niz komentara na 10-bodovnoj skali ispitanika o vanosti odluke pri
njihovom izboru kupovine potrebnih proizvoda. Moemo primeniti klaster analizu, a pri tome
dobiti klastere u kojima postoji mogunost da dobijemo skupinu ljudi koja je izjavila neto od
velike vanosti, one sa malo vanosti ili neki klaster koji se nalazi izmedju ova dva. Ono to
vidimo je posledica naina klasterovanja. To je sistematski nain dobijanja odgovora na
postavljena pitanja sa da ili ne ( kao najei dobijeni odgovori). Ako elimo da
identifikujemo grupe prema njihovom stilu odgovora, tada standardizacija nije potrebna.
Medjutim ono to je u veini sluajeva najpoeljnije je odnos jedne varijable sa drugom.

2.

Ciljevi klaster analize

Primarni cilj klaster analize je podela objekata u dve ili vise grupa na osnovu slinosti
odredjenih obeleja (klaster varijabla). Pri formiranju homogenih grupa, istraiva moe
postii bilo koji od sledea tri cilja:
1. Taksonomija opisa. Najpoznatiji tradicionalini nain korienja klaster analize je u
istraivake svrhe i za formiranje jednog taksonoma (taksonomija je oblast sistematike
koja se bavi prouavanjem principa, metoda i pravila klasifikacije, drugim reima,
taksonomija je nauka o taksonomskim jedinicama) empirijski zasnovana klasifikacija
objekata. Kao to je ranije opisano, klaster analiza se koristi u irokom spektru
aplikacija za njegovu ocenu sposobnosti. Ali klaster analiza moe takodje generisati
hipoteye koje se odnose na strukturu objekata. Ipak, iako je posmatran prvenstveno
kao istraivaka tehnika, klaster analiza moe se koristiti za potvrdu neega ve
ustanovljenog. Ako je predloena struktura moe biti definisana za skuo objekata,
klaster analiza moe biti primenjena a predloena tipologija ( teorijski zasnovana
klasifikacija) moe se porediti na osnovu onoga to je izvedeno klaster analizom.
2. Pojednostavljenje podataka. U toku izvodjenja procesa taksonomije, klaster analiza
takodje postie pojednostavljen nain posmatranja. Sa definisanom strukturom
zapaanja mogu biti grupisana u cilju daljih analiza. Dok faktorska analiza pokuava
da prui dimenzije ili strukturu promenljivih, klaster analiza obavlja isto to sa
posmatranjem. Stoga, umesto da gledaju sva zapaanja kao jedinstvena, one mogu
biti posmatrana kao lanovi klastera i profilisani po svojim optim karakteristikama.
3. Identifikacija odnosa. Sa definisanim klasterima i osnovnom strukturom podataka u
njima, istraiva objanjava odnos izmedju posmatranja koje nije bilo mogue sa
individualnim posmatranjem. S toga, klaster analiza prikazuje odnos ili slinosti i
razlike koje prehodne analize nisu objavile.

3. KAKO KLASTER ANALIZA RADI?


Priroda klaster analize moe se prikazati pomou prostog primera. Pretpostavimo da
istraivai trita ele da odrede trine segmente u maloj zajednici bazirane na obrascima
lojalnosti prema brendovima i radnjama. Mali uzorak od sedam ispitanika je izabran za pilot
test o tome kako klaster analiza primenjena. Dve mere lojalnosti V1(lojalnost radnjama) i
V2( lojalnost brendovima) su merene za svakog ispitanika na skali od 0-1.Vrednosti za svih 7
ispitanika su prikazane na slici, uz dijagram rasejanja sa prikazom svake observacije svake
od 2 varijable.

Primarni cilj klaster analize je definisanje strukture podataka stavljanjem najslinijih


opaanja u grupu. Da bismo obavili ovaj zadatak, moramo postaviti tri kljuna pitanja.Prvo,
kako merimo slinost? Mi preporuujemo metod simultanog poreenja opaanja 2 klastering
varijable (V1 i V2). Nekoliko metoda je mogue, ukljuujui korelaciju izmeu objekata, meru
udruivanja korienu u drugim multivarijantnim tehnikama ili moda merenje njihove blizine
u dvodimenzionalnom prostoru takvo da rastojanje izmeu opaanja oznaava slinost.
Drugo, kako formiramo klastere? Bez obzira kako je slinost merena, procedura mora
grupisati ona opaanja koja su najslinija u okviru klastera. Ova procedura treba da odredi
lanstvo u grupi svakog opaanja.Tree, koliko grupa mi formiramo? Bilo koji broj pravila
moe biti korien , ali kljuni zadatak je oceniti prosenu slinost klastera kao to je
proseno poveanje, klasteri postaju manje slini. Istraivai se sreu sa dilemom: nekolicina
klastera protiv manje slinosti jednostavne strukture u tenji ka zatvorenosti, se reflektuje u
nekoliko moguih klastera. Ipak, kako se broj klastera smanjuje , homogenost izmeu
klastera se obavezno smanjuje.dakle, mora postojati ravnotea izmeu definisanja
najosnovnijih struktura ( nekolicina klastera) koji jo uvek dostiu neophodan nivo slinosti
izmeu klastera.Kada jednom dobijemo procedure za reavanje svakog problema, moemo
izvriti klaster analizu.

3.1. Izbor uzorka na kojem se vri klasterizacija

Izbor uzorka objekata, ispitanika, odnosno jedinica kao i u drugim statistikim


analizama u znatnoj meri determe nain grupisanja objekata. Istraiva retko ima uvid u
populaciju koju koristi u klaster analizama. Obino se dobije uzorak i klasteri su izvedeni u
nadi da predstavljaju strukturu populacije. Istraiva mora biti siguran da je dobijeni uzorak
stvarno reprezentativan. Kao to je ranije spomenuto, outlieri mogu jedino biti poduzorkovani

(odvojeni) od drugih grupa tako da kada je odbaena, moemo uvesti pristrasnost u proceni
strukture. Istraiva mora shvatiti da je klaster analiza dobra u reprezentativnosti uzorka.
Dakle, sve napore treba preduzeti kako bi se osiguralo da je uzorak reprezentativan i da su
rezultati od opteg interesa za celu populaciju.

3.2. Izbor varijabli koje e reprezentovati obeleja objekata (entiteta)


Ovo je kao i kod veine multivarijacionih metoda jedna od najvanijih odluka. Osnovni
problem jeste izbor onih varijabli (mera, osobina) koje najbolje reprezentiraju koncept
slinosti koji istraujemo na nekom skupu objekata. Poeljno je da se odabir vri na osnovu
neke elaborirane teorije ili modela. (Istraivau koji nema jasnu hipotezu svako grupiranje
objekata ima smisla, te ga moe zadovoljiti). U bilo kojoj aplikaciji, ciljevi klaster analize ne
mogu biti odvojeni od selekcije varijabila koje su koriene pri objanjenju klaserizovanih
objekata. Bez obzira da li je cilj istraivaki ili utvrdjen, istraiva je prinudjen da ostvari
rezultate na osnovu podataka o varijabilama. Izvedeni klaster reflektuje svojstvenu strukturu
podataka definisanu putem varijabila. Izbor varijabila koji e biti ukljueni u klaster mora biti
u skadu sa teoretskim i konceptualnim objanjenjem, jednako dobro kao i u praktinom
razmatranju. Svejedno, klaster analiza mora imati obrazloenje za izabrane varijabile. Bilo da
su razlozi zasnovani na eksplicitnoj teoriji, predhodnimistraivanjima ili pogadjanju, istraiva
mora shvatiti vanost ukljuivanja jedino onih promenljivih koje (1) karakteriu klasterizovani
objekat i (2) i posebno se odnose na ciljeve klaster analize. Tehnika klaster analize ne
razlikuje relevantne od irelavantnih varijabila. Iz toga proizilazi najvie dosledna, ali i razliita,
grupa objekata svih varijabila. Ukljuivanje jedne irelevantnie varijabile poveava
verovatnou uticaja outliera, to znaajno utie na rezultate. Ne smemo ukljuiti
nediskriminacione varijable ve oprezno birati one sa ciljem istraivanja kao kriterijum za
selekciju.
U praktinom smislu, na klaster analizu moe biti bitno uticati ukljuivanje samo jedne
ili dve neprikladne ili nedefinisane varijable. Istraiva je podstaknut na ostvarenje rezultata i
eliminisanje neprikladnih varijabli. Ova procedura omoguava one tehnike da se maksimalno
definiu klasteri bazirani jedino na onim varijablama koje ispoljavaju razlike izmedju objekata.
Takodje ,mora se obratiti panja na multikolinearnost varijabli. Multikolinearnost je proizala
iz drugih multivarijacionih tehnika zbog potekoa uvidjanja pravog uticaja multikolinearne
varijable. U klaster analizama efekat je drugaiji jer su promenljive tee ponderisane.
Prikaimo to na primeru. Pretpostavimo da su ispitanici klasterovani (grupisani) prema 10
varijabli, odnosei se prema izjavama u vezi servisa. Kada se ispituje multikolinearnost,
vidimo da postoje dva seta promenljivih, prvi koji se sastoji od osam izjava i drugi od
preostala dva. Ako su nae namere stvarno grupisanje ispitanika prema dimenzijama
proizvoda (u ovom sluaju predstavljena dvema grupama varijabli), tada e korienje 10
originalnih varijabli pogreno. Budui da je svaka varijabla jednako ponderisana u klaster
analizama, prva dimenzija e imati etiri puta vee anse (tj. prvih osam stavki u odnosu na
druge dve) da utiu na meru slinosti u odnosu na drugu.
Multikolinearnost deluje kao teinski process koji nije oit za posmatraa ali koje svejedno
utiu na analizu. Iz tog razloga, istraiva je ohrabren da ispita varijable koje se koriste u
klaster analizi u cilju znaajnije multikolinearnosti i ako je nadje, ili e smanjiti varijable na
jednak broj u svakom skupu ili e koristiti jednu od mera udaljenosti, kao npr.
Mahalanobisovu meru koja je moe zameniti.

10

3.3. Odluka o transformaciji varijabli


Jedna od vanih odluka jeste da li je potrebno prije klasterizacije izvriti neku
transformaciju varijabli ili zadrati originalne vrednosti. Visoko korelirani objekti ne moraju
nuno imati podjednak rezultat na varijablama. Ukoliko su koritene varijable izmerene na
razliitim mernim lestvicama (npr. testovi s razliitim brojem zadataka) potrebno je prethodno
izvriti neki oblik standardizacije rezultata. Podatak o varijablitetu i prosenom rezultatu moe
ponekad pruati korisnu informaciju za formiranje klastera, osobito u sluaju kad su pojedina
obeleja objekata izraena na jednakim originalnim skalama.
Korisno je pre odreivanja udaljenosti izmeu objekata izraziti sve varijable u nekom
standardiziranom obliku. SPSS nudi nekoliko mogunosti :
Verzija SPSS-a 6.0 /WIN nudi nekoliko vrsta transformacija
1. Transformacija rezultata u z-vrijednosti
2. Transformacija rezultata na raspon od -1 do +1
3. Transformacija rezultata na raspon od 0 do 1
4. Transformacija rezultat na skalu sa M =1
5. Transformacija rezultata na skalu sa = 1

3.4. Izbor mere udaljenosti / slinosti:


3.4.1. Mere slinosti
Koncept slinosti je fundamentalan u klaster analizi. Slinost unutar objekta je mera
slinosti ili slinost izmedju klasterovanih objekata. U naoj raspravi o faktorskoj analizi,
napravili smo matricu korelacija izmedju promenljivih koje se zatim koriste za grupu
promenljivih u faktorima. Uporedivi proces se deava u klaster analizi. Karakteristike su
kombinovane unutar kalkulisanih mera slinosti za sve parove objekata, kao to smo koristili
korelacije izmedju varijabli u faktorskoj analizi. Na taj nain bilo koji objekat moe biti
poredjen sa drugim kroz mere slinosti. Procedura klaster analize dalje nastavlja u grupu
slinih objekata unutar klastera. Slinost unutar objekata se moe meriti na razliite naine,
ali tri metode dominiraju u okviru klaster analize: korelacione mere,mere udaljensti i mere
udruivanja. Svaka od ovih metoda predstavlja odredjenu perspektivu slinosti, u zavisnosti
od ciljeva i tipova podataka. Korelacione i mere udaljenosti zahtevaju metrine podatke dok
mere udruivanja su za nemetrine podatke.

3.4.2. Mere korelacije


Mera slinosti unutar objekata koje verovatno prva dolaza u obzir je koeficijent
korelacije izmedju objekata zasnovana na par promenljivih. Zapravo, umesto korelacije dva

11

seta promenljivih mi konvertujemo objekte i varijable tako da kolone predstavljaju


predstavljaju objekte a redovi varijable. Koeficijent korelacije izmedju dve kolone brojeva je
korelacija (slinost) izmedju profila dva objekta. Visoka korelacija pokazuje slinost a slaba
korelacija oznaava nedostatak iste. Mere korelacije koje predstavljaju slinosti uzoraka
putem dijagrama slinosti prikazan kroz karakteristike (X varijable). To je ilustrovano
primerom od 7 posmatranja. U tabeli 9.3 koja sadri korelacije izmedju ovih 7 posmatranja
moemovideti dve razliite grupe.Prvo, u sluajevima 1, 5 i 7 svi imaju sline obrasce i
odgovarajue visoke pozitivne interkorelacije. Isto tako, sluajevi 2, 4 i 6 imaju visoke
pozitivne korelacije izmedju sebe ali I niske ili negativne korelacije sa drugim posmatranjima.
Sluaj 3 ima nisku ili negativnu korelaciju sa svim drugim sluajevima, I pri tom sam po sebi
formira grupu. Mere korelacije se medjutim redje koriste zato to je nglasak u veini
sluajeva klaster analize na veliini objekta a ne na vrednosti dijagrama.

3.4.3. Mere udaljenosti


Iako korelacione mere imaju mnoge kritike i koriste se u drugim multivariacionim
tehnikama, nisu najee korena mera slinosti u klaster analizi. Mera udaljenosti koje
reprezentuju slinost kao blizinu posmatranja izmedju varijabli su najee mere slinoati
koje se koriste. Mere udaljenosti su zapravo mere nejednakosti sa veim vrednostima koje
pokazuju manje slinosti. Jednostavna ilustracija je prikazana na naem hipotetikom
primeru u kome su klasteri definisani na osnovu jednog posmatranja sa drugim gde svaki
rezultira sa dve promenjive koje su grafiki prikazane.
Razlika izmedju korelacionih i mera udaljenosti jeste ta to mere udaljenosti se
fokusiraju na veliinu vrednosti i oslikava sline sluajeve koji su bliski ali mogu imati veoma
razliite dijagrame promenljivih. Izbor korelacionim mera u odnosu na tradicionalne mere
rastojanja zahteva prilino razliite interpretacije rezultata od strane istraivaa. Klasteri
bazirani na merama korelacije ne moraju imati sline vrednosti ali umesto toga imaju sline
dijagrame. Klasteri koji se zasnivaju na merama udaljenosti imaju sline vrednosti kroz set
promenljivih ali dijagrami mogu biti razliiti.

3.4.4. Mere udruivanja


Mere udruivanja se koriste za uporedjivanje objekata ije su karakteristike merljive
jedino u nonmetrinim uslovima (nominalana ili ordinalna mrenja). Kao na primer, ispitanici
mogu odgovoriti sad a ili ne na odgovarajui broj pitanja. Mere udruivanja moraju proceniti
stepen podudaranja izmedju svakog para ispitanika. Najjednostavniji oblik mere udruivanja
moe biti procentualno sikazan odgovor sa da ili ne ispitanika kroz itav set pitanja. Mere
udruivanja imaju ogranienu podrku raunarskih programa i istraiva je mnogo puta
prinudjen da prvo izrauna mere slinosti a zatim ih ukljui u proces klasterizovanja.
Postoji vei broj razliitih mera udaljenosti ili slinosti izmeu objekata. Upotreba
razliitih mjera razlikovanja objekata ima za posledicu da se pojedinim karakteristikama
podataka pridaje razliit znaaj (npr. pridavanje veeg znaaja veim razlikama; uzimanje u
obzir najvee ili najmanje pojedine razlike izmeu dva objekta). Izbor mere odredjen je

12

vanou nekih karakteristika podataka u specifinoj situaciji u kojoj vrimo klasterizaciju


objekata.
Osnovna razlika postoji izmeu mera slinosti i mera udaljenosti. Termin slinost esto
se koristi kao sinonim za povezanost ili korelaciju.
1) SEUCLID - SQUARED EUCLIDEAN DISTANCE - Kvadratna euklidska udaljenost.
Udaljenost 2 objekta odreuje se kao suma kvadratnih razlika vrednosti za svaku varijablu.
Euklidska udaljenost izmedju dve take je linija hipotenuze pravouglog trougla. Euklidova
udaljenost se koristi da izrauna specifine mere kao to je jednostavna Euklidova udaljenost
i kvadratna, ili apsolutna, Euklidova udaljenost, to je zbir sume kvadrata. Kvadratna
Euklidova udaljenost ima prednost jer ne uzima onaj kvadratni koren koji ubrzava process
proraunavanja, pa je preporuena mera za Wards metode klasteringa.

Distance (X,Y) =

(X

Yi ) 2

Primer:
X
Y
X-Y
(X-Y)2

V1
6
4

V2
2
2

V3
3
5

Distance

2) EUCLID - EUCLIDAN DISTANCE. Standardna euklidska udaljenost koja se rauna kao


kvadratni koren iz sume kvadratnih razlika vrednosti za sve varijable.
Distance (X,Y) =

(X

Yi ) 2

Primer:
X
Y
X-Y
(X-Y)2

V1
6
4

V2
2
2

V3
3
5

Distance

3) BLOCK - CITY-BLOCK ili MANHATTAN DISTANCE.


Nekoliko opcija koje nisu bazirane na Euklidovoj udaljenosti su takodje dostupne. Jedna
najee koriena alternativa je ona koja ukljuuje zamenu kvadratne razlike u sumi sa
apsolutnim razlikama varijabli. Ovaj proces se naziva apsolutnim, ili blok- grad-blok, funkcija
udaljenosti. Grad-blok pristup izraunava udaljenost koja moe biti prikladna pod odredjenim
okolnostima, ali uzrokuje nekoliko problema. Jedna od pretpostavki je da varijable nisu
korelirane jedna sa drugom; ako su korelirane klasteri nisu validni. Razlika izmeu 2 objekta
izraena kao suma apsolutnih razlika vrijednosti za sve varijable.

13

Distance (X,Y) =

X i Yi

Primer:
X
Y
X-Y

V1
6
4

V2
2
2

V3
3
5

Distance

4) CHEBYCHEV - Udaljenost izmeu dva objekta izraena kao maksimalna apsolutna


razlika izmeu dve vrednosti u bilo kojoj od varijabli.
Distance (X,Y) =
Primer:
X
Y
X-Y

MAX X i Yi

V1
6
4

V2
2
2

V3
3
5

Distance

Uticaj nestandardizovanih vrednosnih podataka. Problem sa kojima se suoavaju


sve mere udaljenosti koje koriste nestandardizovane podatke ukljuuje nedoslednost izmedju
klaster reenja onda kada je skala varijabli promenjena. Na primer,pretpostavimo tri objekta
A,B i C merene na dve varijable, verovatnoa kupovine brenda X (procentualno) i vreme
potroeno na reklame za brend X (u minutima ili sekundama). Na osnovu ovih informacija
mere udaljenosti mogu biti izraunate. U naem primeru, raunamo tri mere udaljenosti za
svaki par objekata: prostu Euklidovu udaljenost, apsolutna ili kvadratna Euklidova udaljenost i
grad-blok udaljenost. Prvo, raunamo vrednosnu udaljenost baziranu na kupovnoj
verovatnoi i gledanja vremena u minutima.
Najee koriena mera Euklidove udaljenosti koja direktno inkorporira
standardizovanim procedurama je Mahalanobisova udaljenost (D2). Mahalanobis ne samo
da pristupa procesu standardizacije skaliranih podataka u odnosu na standardnu devijaciju
ve integrisan unutar grupe varijanse-kovarijanse koja regulue interkorelacije izmedju
varijabli. Visoko inretkorelirane varijable u klaster analizama mogu implicitno preopteretiti
jedan set varijabliu procesima klasterovanja. Iako je u mnogim situacijama Mahalanobisova
udaljnost prikladna za upotrebu, neukljuuju je svi program kao meru slinosti. U takvim
sluajevima, istraiva obino bira kvadratnu Euklidovu udaljenost. U pokuaju da izabere
odgovarajuu meru udaljenosti, istraiva mora imati u vidu sledee: raziite mere
udaljenosti iliizmene u skalama varijabli mogu dovesti do razliitih klaster reenja. Naime,
preporuljivo je za upotrebu nekoliko mera i treba uporediti rezultate sa teorijom. Takodje ,
kada su varijable interkorelirane (pozitivne ili negativne) Mahalanobisova mera udaljenosti je
najpogodnija zato to izjednaava vrednost svih varijabli. Ukoliko istraiva eli nejednake
vrednosti varijabli, dostupne su mu druge procedure.

14

3.5. Izbor metode za povezivanje objekata u klastere


Postoji vei broj metoda za kombiniranje objekata u klastere.
U naelu razlikujemo hijerarhijske i nehijerahijske metode klasterizacije. Ovde emo se
uglavnom baviti hijerarhijskim pristupima, koji se dalje mogu podeliti na tzv. "aglomerativne"
(agglomerative) - "gomilajue" , i "divisive" odnosno delee. Ovi prvi polaze od pojedinih
objekata koje povezuju u sve vee klastere, dok drugi polaze od svih objekata udruenih u
jedan klaster, pa ih zatim dele do pojedinih objekata.

3.5.1. Hijerarhisjki postupak klasterovanja


Hijerarhijski postupci podrazumevaju izgradnju jedne hijerarhijske strukture nalik
drvetu. U osnovi postoje dve vrste hijerarhijskog grupisanja podataka aglomerativni i
podele. U aglomerativnim postupcima, svaki objekat ili jedinica posmatranja poinje kao
sopstveni klaster. U narednim koracima, dva najblia klastera (ili individue) se kombinuju u
novi klaster, i tako smanjujui broj klastera za jedan u svakom narednom koraku. U nekim
sluajevima, treina jedinica posmatranja se prikljuuje u prva dva klastera. U drugom
sluaju, dve grupe individualnih jedinica koje su formirane u nekom ranijem koraku se mogu
udruiti u novi klaster. Na kraju, svi pojedinci su grupisani u jedan veliki klaster (grupu); iz tog
razloga, aglomerativne procedure se ponekad nazivaju i metodama izgradnje. Vana
karakteristika hijerarhijskih procedura je da se raniji rezultati uvek svrstavaju medju kasnije
rezultate.
Kod "aglomerativnih" metoda svaki objekt tretira se na prvom koraku kao zaseban
klaster. Zatim se udruuju dva najblia objekta u prvi klaster. U treem koraku ili se tom
klasteru dodaje neki pojedini objekt ili se dva pojedina objekta povezuju u drugi klaster. Pri
svakom sledeem koraku ili se pojedini objekti kombiniraju u nove klastere ili se ve postojei
klasteri meusobno povezuju.
Jednom formirani klaster se, kod hijerahijskih metoda klasteriziranja, vie ne moe
deliti, ve se samo moe povezivati s drugim klasterima. Mogu se podeliti u 3 grupe: metode
povezivanja (linkage), metoda greke sume kvadrata ili metoda varijanse, i centroidne
metode. Sve metode se zasnivaju na matricama udaljenosti ili slinosti meu objektima (k x
k). Metode se razlikuju prema nainu na koji se procenjuje udaljenost izmeu klastra u
sukcesivnim koracima.
Na formiranje klastera mogu uticati i postupci odreivanja udaljenosti / slinosti meu
objektima. Dominantno se u istraivanjima koristi spomenuta hijerarhijska "aglomerativna"
metoda.
Neke karakteristike ove metode su:
1) polazi se od matrice slinosti meu objektima k x k
2) Sukcesivno formiranje klastera moe se prikazati grafiki dijagramom u obliku
stabla, koji se naziva dendrogram (gr. dendros - stablo).
3) Metoda zahteva k-1 koraka u formiranju klastera, budui da se na prvom koraku svi
pojedinani objekti tretiraju kao zasebni klasteri. Konano se dobiva jedan klaster koji sadri
sve objekte.
4) Relativno je lako razumljiva irem krugu potencijalnih korisnika.

1) SINGLE LINKAGE ("NEAREST NEIGHBOUR"): Prosto povezivanje (metoda najblieg


suseda)

15

Postupak prostog povezivanja je zasnovan na minimalnoj udaljenosti. Ona pronalazi


dva odvojena objekta putem najkrae udaljenosti i smeta ih u prvi klaster. Zatim pronalazi
sledeu najkrau udaljenost, pa ili se treina objekta pridruuje i sa prva dva formira klaster ili
su formirana nova dva klastera. Proces se nastavlja sve dok svi objekti ne nadju u jednom
klasteru. Ovaj proces se naziva jo i pristup najblieg suseda. Rastojanje izmedju bilo koja
dva klastera je najkraa udaljenost izmedju bilo koje take u jednom u odnosu na bilo koju
taku u drugom klasteru. Dva klastera su spojena najkraom ili najjaom vezom medju njima.
Problemi se javljaju, medjutim, kada su klasteri loe obeleeni. U takvim sluajevima, prosta
povezanost se moe formirati u duge, zmijolike lance i na kraju su svi pojedinci smeteni u
okviru jednog. Oni koji se nalaze na krajevima tih lanaca, mogu biti veoma razliiti izmedju
sebe.
2) COMPLETE LINKAGE ("FURTHEST NEIGHBOUR"): Potpuno povezivanje (metoda
najdaljeg susjeda)
Postupak potpunog povezivanja je slina prostoj procedure osim da se klaster zasniva
na kriterijumu maksimalne udaljenosti. Iz tog razloga, to je ponekad i nazvano kao pristup
najudaljenijeg suseda ili metod prenika. Maksimalna udaljenost izmedju pojedinaca u
svakom klasteru predstavlja najmanju onu sferu koja moe da objedini sve entitete u oba
klastera. Ova metoda je nazvana kompletnom zato to su svi entiteti (objekti) u okviru
klastera povezani ili maksimalnom udaljenou ili minimalnom slinou. Moemo rei da
slinost unutar grupe je jednaka preniku grupe. Ova tehnika eliminie tzv. zmijoliki problem
koji je identifikovan pojedinanom metodom povezanosti.
3) UPGMA - AVERAGE LINKAGE BETWEEN GROUPS (unweighted pair-group method
using arithmetic averages): Proseno veza izmeu grupa .Ovo je standarna opcija u SPSS-u.
Definise udaljenost izmeu dva klastera kao prosek udaljenosti izmeu svih parova
koji se mogu definirati izmeu dva objekta. Npr. ako klaster A ine objekti 1 i 2, a klaster B
objekti 3,4 i 5, udaljenost izmeu klastera A i B moemo odrediti kao prosek udaljenosti
izmeu sledeih parova objekata: (1,3), (1,4), (1,5), (2,3), (2,4), (2,5). Tih unakrsnih
udaljenosti ima kA x kB.
Ova metoda kao to se vidi uzima u obzir informacije o svim parovima objekata
izmeu dva klastera, zbog ega se preferira u odnosu na dvije prethodne metode.
4) AVERAGE LINKAGE WITHIN GROUPS: Prosjena veza unutar grupa.
Ova metoda kombinuje klastere tako da prosena udaljenost izmeu lanova novog
klastera bude to manja. Tako se udaljenost izmeu dva klastera define kao prosena
udaljenost izmeu svih objekata koji bi sainjavali novi klaster od ta dva postojea.
5) WARD'S METHOD
Za svaki klaster izraunaju se aritmetike sredine za svaku varijablu. Zatim se za svaki
objekt rauna kvadratna euklidska udaljenost do aritmetike sredine klastera. Sumiraju se
ove udaljenosti za sve lanove klastera. Spajaju se oni klasteri za koje je ukupna
(zajednika) suma ovih odstupanja najmanja. U ovoj metodi razdaljina izmedju dva klastera
je ustvari suma kvadrata izmedju svih promenljivih koji su sumirani u dva klastera. U svakoj
fazi procesa klasterovanja, unutar-grupna suma kvadrata je minimizirana nad svim podelama
(potpun set razudjenih ili razdvojenih klastera) koja se izvodi kombinacijom dva klastera iz
predhodne faze. Ovaj postupak zahteva kombinaciju klastera sa malim brojem posmatranja.
Takodje je bazirana na praenje razvoja klastera sa skoro istim brojem posmatranja .
6) CENTROID CLASTERING METHOD

16

Odreuje udaljenost izmeu klastera kao udaljenost izmeu aritmetikih sredina oba
klastera (njihovih centroida). Jedan nedostatak centroidne metode jeste u tome to se
poetna udaljenost dva klastera moe smanjiti izmeu dva sukcesivna koraka analize.
Klasteri spojeni u kasnijim fazama su vie razliiti nego oni spojeni u ranijim koracima. U
centroidnoj metodi udaljenost izmedju dva klastera je udaljenost (tipino kvadratna Euklidova
ili prosta Euklidova metoda) izmedju njihovih centroida. Centroidni klaster znai srednju
vrednost posmatranih varijabli u klaster promenljivima. Po ovoj metodi, svaki put kada je su
pojedinci grupisani, centroid je preraunat. Postoji promena u klaster klaster centroidu svaki
put kada se jedinka ili grupa jedinki doda postojeem klasteru. Ove metode su najpopularnije
kod biologa, ali mogu napraviti nered I esto zbunjujue rezultate. Konfuzija nastaje zbog
inverzije ili obrnutosti koja se javlja kada izmerena udaljenost izmedju jednog para centroida
je manja u odnosu na neko ranije merenje. Prednost ove metode je das u manji uticaji na
outliere u odnosu na neke druge metode.

3.5.2. Nehijerarhijski postupak klasterovanja


Nasuprot hijerarhijskoj metodi, nehijerarhijske procedure ne podrazumevaju stablo kao
grafiki prikaz podataka. Umesto toga, namenjuju entitete jednom broju klastera kako bi se
formirala jedna specifina. Dakle, dobijenih est klastera nije samo prosta kombinacija dva
od postojeih sedam solucija, ali je baziran na pronalaenju najboljih est reenja.
Najjednostavnije, to funkcionie na sledei nain. Prvi korak je odabrati seme kao poetni
klaster centar, i svi objekti (individue) unutar njega su kao neka norma ukljueni u
rezultirajuem (konanom) klasteru. Zatim se bira drugi klaster i grupisanje se nastavlja dok
se sve individue ne dodele odgovarajuim. Objekti se tada mogu rasporediti ako su blii
drugom klasteru od onog prvobitnog. Razlikujemo sedam pristupa pri izboru klastera i
dodeljivanju objekata njima. Nehijerarhijske procedure klasterovanja se esto pominju kao Kgrupisanje i oni obino koriste jedan od sledea tri pristupa dodeljivanje pojedinih zapaanja
u jedan od klastera.
Paralelna metoda Nasuprot predhodnoj, ova metoda vri selekciju nekoliko klaster semena
istovremeno i dodeljuje objekte na osnovu praga udaljenosti od najblieg semena. Kako se
proces razvija, prag udaljenosti moe biti prilagodjen tako da se ukljue manje ili vie
objekata u klastere. Takodje, varijante ove metode mogu biti i ne klasterovanje objekata ako
im je prag udaljenosti izvan bilo kog klaster semena.
Optimizacija Trei metod, koji je naveden kao process optimizacije, je poput druga dva
nehijerhijska postupka osim to to dozvoljava ponovno dodeljivanje posmatranja. Ako, u
postupku dodele posmatranja, objekat postaje blii drugom klasteru kome nije prvobitno
dodeljen, tada ih optimizirajui postupak prebacuje slinijem klasteru.
Nehijerarhijske procedure su dostupni velikom broju raunarskih programa, ukljuujui
i sve glavne statistike pakete. Metoda sekvencijalnog praga je primer nehijerarhijskog
grupisanja velokog broja podataka. Nakon to istraiva utvrdi maksimalan broj klastera,
proces poinje odabirom praga klastera koji se koristi kao inicijalni prosek u klasterima. Prvi
prag je prvo posmatranje podataka bez nedostajuih vrednosti. Drugi prag je sledei set
podataka koji je odvojen od prvog specifinim minimumom udaljenosti. Podrazumevana
opcija je nula kao minimalna udaljenost. Nakon to su svi pragovi selektirani, program
dodeljuje svako posmatranje onom klasteru kome je najblii.

17

Glavni problem sa kojim su suoeni svi nehijerarhijski postupci klasterovanja je kako


odrediti prag klastera. Na primer, sa pragom sekvencijalnih mogunosti, poetni I krajnji
rezultati klastera zavise od redosleda zapaanja podataka kao i to da vrdav (neadekvatan)
redosled podataka utie na konaan rezultat. Odredjivanje poetnog klastera moe reiti
ovaj problem. Ali ak odabir takvog klastera nasumino moe dovesti do razliitih rezultata za
svaki skup sluajnih promenljivih. Dakle, istraiva mora biti svestan uticaja odabranog
klastera na konane rezultate.
Kako odabrati pravu metodu klasterizacije? Nema prave metode sve zavisi od
teorijskih postavki, opravdanja i/ili praktinih potreba.
Poto hijerarhijska metoda na kraju sve klastere spoji u jedan (ili u obrnutom sluaju
poetni jedinstveni klaster rasturi na entitete) kako znati kada prekinuti klasterizaciju tj.
koliko klastera zadrati? Pria je opet slina kao i kod faktorske analize zavisi od teorijskih
postavki, praktinih potreba i slinih stvari, a jedina statistiki pametna stvar je predloiti da
se klasterizacija prekine onda kada pone spajanje veoma udaljenih klastera (princip
kolena ili Scree-test) (ili u obrnutom sluaju kada krene da rastura klaster na klastere koji
nisu mnogo udaljeni). Naravno to ta je daleko je opet relativna stvar i zavisi od naeg
subjektivnog suda, praktinih potreba. Ipak zgodno je pogledati Aglomeracioni raspored.
Na ta jo treba obratiti panju? Mogue je da se na kraju klasterizacije u
poslednjim koracima veliki klaster u kome se nalaze svi ispitanici spaja sa vrlo udaljenim
pojedinanim ispitanicima (ovo je posebno esto kada je onaj to je unosio podatke pravio
mnogo greaka ili su te greke bile velike). Ako za suprotno ne postoji teorijsko opravdanje, u
razmatranju broja klastera koji treba zadrati ne treba uraunavati te pojedinane ispitanike
ve ih jednostavno zanemariti.

3.5.3. Aglomeracioni postupak: tabelarni prikaz

18

19

Na slici je tzv. aglomeracioni raspored (poetak i kraj sredinu samo odsekli jer bi
slika onda bila prevelika) koji pokazuje kako ta je sa im spajano (korak po korak). U koloni
STAGE je redni broj koraka koji se opisuje. U koloni CLUSTER COMBINED su dati redni
brojevi (imena) klastera koji se spajaju u datom koraku. U koloni COEFFICIENTS je su data
udaljenosti klastera koji se spajaju. U koloni STAGE CLUSTER FIRST APPEARS su podaci o
tome u kom je koraku prvi odnosno drugi klaster nastao (za pojedinane ispitanike ovde je
vrednost 0) i konano u koloni NEXT STAGE su podaci o koraku u kom se ovde
novoformirani klaster prvi put pojavljuje. Novoformirani klaster nasleuje broj (ime) od onog
od sastavnih klastera koji ima manji broj. Dakle, npr. u prvom koraku se spajaju klasteri 3 i 56
(koji su pojedinani ispitanici to se vidi iz kolona STAGE CLUSTER FIRST APPEARS gde
imaju vrednosti 0, a sem toga to je i prvi korak, pa jo nema vielanih klastera) i formira se
novi klaster koji se zove 3, a koji se ponovo pojavljuje u koraku broj 6. Njihova udaljenost u
trenutku spajanja je 0,02 (tj. 2,0000E-02).
Jo se moe primetiti da su kako koraci odmiu klasteri koji se spajaju sve udaljeniji i
udaljeniji, a poto ovde nema oiglednog kolena (sluaja da je u nekom koraku udaljenost
spojenih klastera mnogo vea nego u prethodnom), ostaje i pitanje koliko klastera zadrati
(ostaje da se o tome odluka donosi na osnovu teorijskih postavki i znanja o problemu koji se
ispituje).

20

3.5.4. Dendrogram: ematski prikaz

Na ovoj slici je tzv. Dendrogram (tanije njegov deo) koji pokazuje grafiki isto to i
aglomeracioni raspored. Linije pokazuju ta se sa im spaja, na vertikalnoj osi su entiteti, a
na horizontalnoj je udaljenost. Znai, npr. ispitanici 3 i 56 su spojeni u isti klaster u jednom od
koraka i njihova udaljenost (reskalirano ne mora da se poklapa sa brojkama iz
aglomeracionog rasporeda), onda je taj klaster spojen sa klasterom koji su inili entiteti 24 i
29 itd.

3.6. Odreivanje zadovoljavajueg broja klastera


Problem koji zbunjuje istraivae klaster analize je odredjivanje konanog broja
obrazovanih klastera (poznato kao stoping pravila). Naalost, ne postoji objektivna
standardna procedura i ne postoji interni statistiki kriterijum za izvodjenje, kao test
znaajnosti drugih multivariacionim metoda, i istraivai su razvili nekoliko kriterijuma radi
pribliavanja problema. Najznaajnija mana je ta to istraivai moraju da ukljue ad hock
metode koje su inae relativno komplekse metode. Jedna vrsta stoping pravila je relativno
prosto istraivanje mera slinosti ili rastojanja izmedju klastera u svakom uzastopnom
koraku, sa definisanim klaster reenjima kada je mera slinosti jedna odredjena vrednost.
Jedan prosti primer za to je primer na poetku poglavlja koji se osvre na veliki rast
prosenog rastojanja unutar klastera. Kada usledi jedan jai skok tada istraivai klaster
reenja pribegavaju logici koja je kombinacija znatnog pada u slinostima. Ova stoping praila
pokazuju jednu prilino tanu odluku u empirijskim studijama. Druga generalna vrsta stoping
pravila odnose se na jednu formu statistikih pravila ili adaptiranim statistikim testom kao
odnos verovatnoa.

21

Postoji odredjeni broj specifinih procedura koje su predloene ali se ni jedna nije
pokazala kao najbolja u svim situacijama. Takodje, istraivai moraju dati vrste procene, sa
konceptom teorijskih odnosa koji moe predloiti prirodan broj klastera. Moe se pokrenuti
proces u kojem odredjeni kriterijumi, na osnovu praktinih ispitivanja, pokazuju da rezultati
moraju biti pregledni i razumljivi za komunikaciju kada se poseduje prirodan broj klastera, tj.
od 3-6, i tada najbolje reenje za ovaj broj klastera je izbor najbolje alternative posle njihove
procene. U konanoj analizi je verovatno najbolje da se uzme jedan broj klaster reenja (npr.
2,3,4) i tada doneti odluku, sa alternativnim reenjima, koristei apriori kriterijume i praktinu
ocenu, zdrav razum ili teorijske ocene. Klaster reenja e biti poboljana kada se nadju
reenja za konceptualne aspekte problema.
Osnovni problem jeste gde povui crtu, tako da ostane optimalni broj klastera. Treba
rei da ovaj problem nema zadovoljavajue reenje. Itertivne metode zahtevaju od korisnika
da unapred odredi broj klastera. U statistikom smislu nulta-hipoteza o nepostojanju strukture
unutar nekog skupa objekata nije sasvim jasna, pa ni smislena.
U socijalnim znanostima dominiraju dva pristupa odreivanju broja klastera: heuristiki
pristup, i formalni testovi. Prvi pristup je najei, a odnosi se na subjektivno postavljanje
granice na dendrogramu dobivenom hijerahijskom klasterizacijom. Osnovni kriterijum jeste
smislenost ili interpretabilnost dobijenog reenja.
Drugi nain, podjednako subjektivan (slian scree plot testu kod faktorske analize)
jest analiza koeficijenata (koeficijenti fuzije) koji pokazuju slinosti meu klasterima pri
sukcesivnom spajanju klastera. Naglo opadanje (ili poveanje vrednosti kod mera
udaljenosti) ukazuje na manju povezanost meu klasterima koji se spajaju. Nagli skok
ukazuje na spajanje dva relativno razliita klastera.

4.7. Procena validnosti i profilisanje klastera


Posmatrajui subjektivni karakter klaster analize o izboru jednog optimalnog klaster
reenja, istaivai bi morali obratiti panju na validnost i praktino znaenje krajneg klaster
reenja. Iako ne postoji pojedninana metoda koja osigurava validnost i praktini znaaj,
predlae se nekoliko predloga za jednu osnovnu procenu istraivaa.

3.7.1. Procena validnosti klaster reenja


Procena validnosti ukljuuje tenju istraivaa da osiguraju da klaster reenja
reprezentuju celokupnu populaciju. Veina direktnih pokuaja je da klaster analiza odvoji
uzorke, poredei klaster reenja i procenjujui slinost podataka. Ovaj pokuaj esto nije
praktian zbog vremenskih i trokovnih ogranienja za vie klaster analiza. U ovom sluaju,
jedna zajednika akcija je na podeli uzorka u 2 grupe. Svaki klaster e se odvojeno analizirati
a zatim se rezultati porede. Ostale akcije ukljuuju:
1. Promenjenu formu odvojenog uzorkovanja gde se klaster centri iz jednog reenja
definiu klasterima iz drugog posmatranja i tada se rezultati porede,
2. Direktna forma protiv-validnosti.
Istraivai mogu dati bilo koju formu kritetijuma ili validnosti. Da to uini, istraiva bira one
varijable koje nisu koriene ali su klasteru poznate. Varijable koriene za procenu
validnosti moraju imati jaku teorijsku i praktinu podrku i moraju postati merilo za selekciju
klaster reenja.

22

3.7.2. Profilisanje klaster reenja


Faza profilisanja u sebi sadri opis karakteristika svakog pojedinanog klastera radi
objanjenja kako se oni mogu razlikovati po relativnim dimenzijama. Procedura poinje
nakon identifikovanja klastera. Istraivai koriste podatke, koji nisu ranije bili ukljueni u
proceduru klasterovanja, za profilisanje karakteristika pojedinanog klastera. Ovi podaci se
esto odnose na demografske karakteristike, psiholoke profile, ponaanje potroaa itd.
Iako moda nisu teoretski zasnovani oni bi trebali imati bar praktinu vrednost. Koristei
diskriminacionu analizu, istraivai porede prosene rezultate profila za sve klastere.
Ukratko, analiza profila fokusira se na opis onoga to ne odredjuje direktno klastere, ali posle
identifikacije, ini jednu od njegovih karakteristika. Osim toga, naglasak je na karakteristike
koje se znaajno razlikuju preko klastera i onih koji mogu predvideti svoje lanstvo u
odredjenom klasteru.
Ukratko emo spomenuti neke mogue strategije procene validnosti dobijenih
rezultata.
a) Replikacija
Verojatno najbolji nain provere dobijenog klasterskog reenja jeste replikacija
rezultata na drugom sluajno odabranom uzorku.
b) Testiranje razlika izmeu klastera na varijablama koritenim za njihovo formiranje
Ovaj pristup podrazumeva korienje multivarijacione analize varijanse, ili vie
jednostavnih analiza varijanse ili diskriminacione analize yavisno do broja varijabli i klastera).
Ozbiljan statistiki problem u ovom sluaju predstavlja injenica da objekti nisu svrstani u
klastere po sluaju, ve su klasifikovani tako da se maksimalizira udaljenost izmeu klastera
po koritenim varijablama. Ovo u statistikom smislu postpak ini neadekvatnim.
c) Testiranje razlika izmeu klastera na nekim relevantnim eksternim varijablama
Postupak je identian kao i prethodni ali se testiranje razlika meu klasterima vri na
nekim relevantnim varijablama koje nisu koriene u postupku klasterizacije.
d) Monte Carlo metode
Odnose se na sloene postupke poredjenja dobijenog reenja sa reenjem koje
predstavlja simulaciju na sluajno odabranim brojevima. Pri tom i sluajno odabrani brojevi
moraju imati neke opte karakteristike kao i originalni (zadana M i matrica kovarijansi), pa se
na njima provodi isti postupak klasterizacije.

3.8. Interpretacija klastera


Faza interpretacije ukljuuje ispitivanje svakog klastera u odnosu na imenovanje
klastera varijata ili opisa prirode klastera. Radi pojanjenja ovog procesa, uzeemo primer
poredjenja dijetalnog napitka sa obinim osveavajuim napicima. Poi cemo od injenice da
e se formirati skala stavova koja e sadrati podatke o potronji bezalkoholnih napitaka kao
to je dijetalni bezalkoholni napitak sa pojaivaem ukusa, bezalkoholni napitak punog
ukusa i dijetalni napici su zdraviji itd. Prilikom otpoinjanja samog procesa interpretacije
jedna mera koja se najee koristi je klaster centroid. Kada bi se proces klasterovanja

23

izvodio na sveim podacima, to bi tada bio jedan logian opis. A ukoliko su podaci
standardizovani ili ukoliko se klaster analiza izvodi koristei faktorsku analizu, istraivai se
vraaju na svee podatke za poetne varijable i izraunavaju prosek koristei te podatke.
Nastavljajui sa naim primerom bezalkoholnih osveavajuih pia u ovoj fazi ispitaemo
proseni rezultat profila uz izvetaj za svaku grupu i davanja opisne veze za svaki klaster
posebno. Mnogo se puta diskriminaciona analiza primenjuje za generisanje ocene profila, ali
se nesme zaboraviti da statistiki znaajne razlike nisu optimalno reenje, jer se to oekuje s
obzirom na cilj klaster analize. Ispitivanje profila omoguava jedan bogat opis svakog
klastera pojedinano. Na primer, imamo dva klastera sa povoljnim stavom o dijetalnim
napicima i trei klaster sa nepovoljim stavom. ta vie, dva klastera sa povoljnim stavom
mogu imati povoljne stavove prema obema vrstama napitaka i to prema dijet i obinom
bezalkoholnom piu. Iz ovog analitikog procesa moemo oceniti stav svakog klastera i
razvijati znaajne interpretacije radi olakanog obeleavanja svakog pojedinano. Na primer,
jedan klaster moe biti oznaen kao zdravstveno-kalorijska svesnost dok drugi moe biti
oznaen kao dobijanje eernog napada.
Profilisanje i interpretacija klastera postigla je mnogo vie nego to je opisano. Prvo,
oni pruaju sredstva za procenu slinosti dobijenog klastera od teorije do prakse. Kod
upotrebe u utvrdjenom modelu, klaster analiza profila prua direktna sredstva za procenu
slinosti. Drugo, klaster profili pruaju jedan nain za ocenjivanje praktinog znaenja.
Istraivai mogu zahtevati da postoje velike razlike u setu klaster varijabli pa klaster reenja
mogu biti proirena sve dok se razlika poveava. U procenjivanju njihovih slinosti ili njihovog
praktinog znaenja, istraivai uporedjuju dobijene klastere sa unapred odredjenjim
klasterima.

4. Koraci pri provoenju klaster analize


1) Potrebno je definisati koje vrednosti su u redovima, a koje u kolonama polazne matrice s
rezultatima. U redovima se trebaju nalaziti objekti (ispitanici) koje nameravamo grupirati, a u
kolonama trebaju se nalaziti varijable koje reprezentiraju obeleja objekata.
SPSS za Windowse omoguuje jednostavni transpon matrice (pretvaranje redova u
kolone) ukoliko su podaci upisani na suprotan nain.
2) Odrediti deskriptivnu statistiku varijabli, i odluiti o eventualnoj transformaciji podataka.
3) Odreujemo meru udaljenosti / slinosti izmeu objekata
4) Zatim se izrauna matrica udaljenosti izmeu svih objekata (k x k)
5) Odredimo metodu za povezivanje objekata u klastere
6) Na tzv. "Agglomeration schedule" tablici analiziramo sukcesivne korake u kreiranju
klastera, i koeficijente udaljenosti izmeu klastera
7) Rezultat proveden kategorizacije objekata u klastere najjednostavnije moemo analizirati
iz grafikih prikaza: dendrograma ili icicle-plota
8) Odluiti o broju klastera koji e se interpretirati.
9) Analizirati pripadnost pojedinog objekta klasteru, i interpretirati dobijene klastere

24

5. Moe li klaster analiza biti neprecizna?


Kada se kod klaster analize nadje jedno prihvatljivo reenje, istraiva treba ispitati
osnovnu strukturu predstavljenu u definisanom klasteru. Od posebnog su znaaja razliite
veliine klastera. Istraivai moraju ispitati promenu veliine klastera iz konceptualnog
gledita uporedjujui stvarne vrednosti sa oekivanim. Najproblematiniji su jednolani
klasteri koji nisu otkriveni u nekoj od predhodnih analiza. Kada se jednolani klaster (ili kada
je klaster mnogo male veliine) pojavi, istraivai moraju odluiti da li je vaea strukturalna
komponenta u uzorku ili je odbaena kao nereprezentativna. Kada je neko posmatranje
odbaeno, pre svega kada je hijerarhijski postupak upotrebljen, istraiva bi se trebao vratiti
na klaster analizu i otpoeti je ponovo.

6. Brza klaster analiza (Quick Cluster)


U okviru SPSS-a postoji poseban algoritam za klasifikaciju objekata u klastere , tzv. Kmeans klaster analiza (ili Quick cluster), pogodan za rad s velikim brojem objekata (npr. 200 i
vie). Za razliku od hijerarhijske klaster analize, koja rezultira sukcesivnim spajanjem
objekata u sve vee klastere, kod k-means metode postoji samo jedno reenje za unapred
zadati broj klastera.
Kod ovog postupka mora se unapried definisati konani broj klastera, na osnovu
ega program nove objekte svrstava u najblii klaster. Algoritam za ovaj oblik klaster analize
predstavlja metoda nearest centroid sorting (sortiranje na osnovu najblieg centroida).
Prema ovom algoritmu objekt se povezuje s onim klasterom prema ijem centru (centroidu)
ima najmanju udaljenost.
Ako su centri klastera poznati, (tj. prosene vrednosti na svakoj od k varijabli) objekt se
pridruuje klasteru od kojeg je najmanje udaljen. Ukoliko centri klastera nisu poznati oni se
iterativno procenjuju iz podataka.
Npr. za klaster uspenih na poslu centri mogu biti
varijabla
centar

V1
12.5

V2
11.0

V3
12.0

V4
10.7

Postupak u kome se unapred definie broj klastera, pa onda kompjuter krene od nekih
sluajno rasporeenih taaka (poetni centri) ili se definiu koordinate poetnih centara
klastera, pa onda program rauna i premeta ispitanike iz klastera u klaster, raunajui
centroide klastera u svakom koraku iznova i pravi razne kombinacije sve dok se ne nae
takvo reenje u kome je varijabilitet unutar klastera (udaljenost ispitanika od centroida) to je
mogue manji, a varijabilnost izmeu klastera (tj. meusobna udaljenost centroida klastera)
to je mogue vei (pria o varijabilnosti unutar i izmeu grupa je kao kod analize varijanse).

25

Donja tabela (kakvu kompjuter izabacuje u ovom postupku) prikazuje koordinate


centroida (dakle aritmetike sredine ispitanika iz svakog od klastera na odgovarajuoj
varijabli) tri klastera (verovatno reskalirane brojke) na nizu varijabli (FAMILY, LEISURE
TIME...). U poslednjem redu je dat broj entiteta u svakom od klastera.

7. Klaster analiza u SPSS-u


Kako se sve ovo radi u SPSS-u.
Da bi pokrenuli postupak hijerarhijske klaster analize treba
Analiziraj/Klasifikuj/Hijerarhijski klaster (Analyze/Classify/Hierarchical Cluster):

26

otii

na

Pojavljuje se sledei ekran:

U prozor Varijable treba ubaciti varijable na osnovu kojih elimo da radimo


klasifikaciju, a takoe treba rei i da li elimo da nam klasifikuje sluajeve (Cases) ili Varijable
(ako ovo odaberemo on nam onda praktino transponuje matricu i grupie varijable onako
kako bi grupisao ispitanike korisno kao nain za redukciju podataka).
Klikom na opciju Statistika moemo da traimo da nam SPSS u autputu (znai ne u matrici
sa podacima) izbaci podatke o tome koji ispitanik je u kom klasteru i to za razliit broj
klasterskih reenja (klastersko reenje znai koliko klastera usvajamo da postoji). U meniju
Plots moemo da traimo da nam izbaci dendrogram ili Ajsikl (Icicle krajnje nerazumljiv i
teko itljiv crte/tabelu sa istim podacima kao i dendrogram). Kako su i Ajsikl i Dendrogram
u SPSS-u teko itljivi, ako ne postoji dobar razloga za to da se koriste, a kako sadre iste
podatke kao i aglomeracioni raspored predlaem da se koristi samo aglomeracioni raspored.

27

U Meniju Metod treba treba definisati koji metod sprovoenja klaster analize (Cluster
Method) elimo (tj. ta je kriterijum udaljenosti dva klastera vidi gore objanjenje metoda).
Nakon toga treba definisati nivo merenja na kom su merene nae varijable. U igri su
Intervalni, Apsolutni (Counts nastaju prebrojavanjem prirodne jedinice merenja, sve
ostalo kao za racio skalu (realna nula, jednake jedinice) ili binarni nivo merenja, a nakon to
to odaberemo treba odabrati i meru udaljenosti (vidi gore za mere udaljenosti) koju elimo da
se koristi.
Poto je uslov za smislenu primenu klaster analize to da sve varijable budu na istoj
skali (idealno ista AS i SD), ako to nije sluaj treba ih transponovati sve na istu skalu i to se
moe naloiti SPSS da se uradi (opcija Standardizuj Standardize ima razliitih skala na
koje je mogue transponovati vrednosti). Takoe je mogue transformisati vrednosti tako da
im se promeni znak (obrtanje skale) opcija Promeni znak (Change sign), da se pretvore u
apsolutne vrednostni (Absolute Values) ili da se reskaliraju na raspon od 0 do 1 (Rescale to
0-1 range).

I konano u meniju Snimi (Save) moemo naloiti kompjuteru da nam za odreeno


klatersko reenje (Jedno reenje Single Solution) ili za odreeni raspon klasterskih reenja
(Range of Solutions) (gde treba definisati koja reenja hoemo tj. od koliko najmanje do
28

koliko najvie klastera da snima reenja) snimi u matricu sa podacima nove varijable koje za
svakog ispitanika definiu njegovu klastersku pripadnost u datom klasterskom reenju).

8. Primer broj 1
Primer podataka
1 znai da je ispitanik vezan za promenljivu i 0 znai da ispitanik nije vezan za
promenljivu. Podaci su generisani pomou DE/WC lexikona i prebacuju se u Excel tabele to
je od velike vanosti, radi sagledavanja zajednikog cilja.
Ispitanici su prikazani u levoj koloni a promenljive su navedene u prvom redu na vrhu tabele.
Promenljive predstavljaju sledee:
Povrina ili podruje: region ispitanika
BU: vrsta poslovnih jedinica
P: nezadovoljstvo ispitanika proizvodima
S: nezadovoljstvo ispitanika uslugama

Area Area Area


1
2
3
BU1 BU2 BU3 P1 P2 P3 P4 P5 P6 P7 P8 S1 S2 S3 S4 S5 S6 S7 S8

Respondent 1
Respondent 2
Respondent 3
Respondent 4
Respondent 5
Respondent 6
Respondent 7
Respondent 8
Respondent 9
Respondent 10
Respondent 11
Respondent 12
Respondent 13
Respondent 14
Respondent 15
Respondent 16
Respondent 17

1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1

1
1
0
0
1
0
0
0
1
1
1
0
1
1
0
0
0

0
0
1
1
0
0
0
0
0
0
0
0
0
0
1
1
0

0
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0
1

0
0
1
0
0
1
0
0
0
0
0
1
1
1
0
0
0

1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
1

1
0
0
1
1
1
1
1
1
1
1
0
0
0
1
0
1

1
1
1
0
0
0
1
1
1
1
1
1
1
1
1
1
0

0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
1

0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
1

0
0
0
0
0
0
1
1
1
1
0
1
0
1
1
0
0

1
1
1
0
0
0
1
1
1
1
1
0
0
0
0
0
1

0
0
0
0
0
0
1
1
1
0
1
0
0
0
0
0
1

0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1

0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1

0
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0

0
0
0
0
0
0
1
0
1
1
1
0
0
0
0
0
0

1
1
1
1
0
1
1
1
1
1
1
0
0
0
0
0
0

1
0
1
0
0
0
1
1
1
1
1
0
0
0
0
0
0

Primer klaster analize


1.
Moemo li grupisati ispitanike prema njihovim odgovorima a onda ispitati grupacije ne
bi li nali neke slinosti
2.
Kada su ispitanici grupisani, da li su grupisani racionalno (prema podruju/region, tipu
posla, nezadovoljstvo u vezi proizvoda I/ili uslugama).

29

Klaster analiza funkcionie po principu uredjivanja podataka (ispitanika) unutar


razliitih grupa. Matematiki funkcionie putem smanjenja dimenzionalnosti ili opsega
podataka. To se vri putem slinosti I merenja neslinosti u cilju odredjivanja broja klastera
koji bi objasnili te podatke. Budui da se radi o binarnim podacima ( podaci izraeni 0 I 1),
binarna slinost je mera koja se koristi za grupisanje. Prikazan je izbor slinih koeficijenta u
etiri parcele I primenjeno je grupisanje algoritama. Iako su ovi dendogrami output klaster
programa u SPSS, Hamilton-Locke ima pristup drugim programima koji su grafiki mnogo
bolji ili ukusniji.
Sledei dendogrami prikazuju specijalno aranirane grupacije na osnovu slinosti
podataka. Ispitivanjem taxonomskih grupa, konani izvetaj nam moe objasniti zato su
podaci klastera dati po razliitim grupama (prema podruju/region, tipu posla, nezadovoljstvo
u vezi proizvoda I/ili uslugama).
Razliiti klaster dijagrami objanjavaju razliite grupacije (prema podruju/region, tipu
posla, nezadovoljstvo u vezi proizvoda I/ili uslugama).

30

31

9. Primer broj 2

Hijerarhiska klaster analiza


Zadatak:
Na osnovu podataka iz matrice podataka, a na osnovu promenljivih DomainBodovi i
GostBodovi formirati hijerarhisku strukturu objekata korienjem metoda jednostrukog
povezivanja, a kao razdaljinu izmeu objekata koristiti Euklidsko rastojanje

Matrica podataka

Ekipa
Juventus
Milan
Udinese
Cagliari
Inter
Lecce
Palermo
Sampdoria
Roma
Chievo
Livorno
Fiorentina
Reggina
Messina
Lazio
Brescia
Bologna

O
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1
5
1

Ukupno
D N I
1
2 2 1
1
0 4 1
8

4
1
2

5
3

2
4

8
8

B
3
8
3
4
2
8
2
2
2
1
2
1
2
1
2
1
2
0
2
0
1
9
1
9
1
9
1
8
1
7
1
7
1

Domain
O D N I
7

8
7

2
2

B
1
9
1
5

Gost
O D N I
8

11
1
7

11
1
3
1
4
1
0
1
0
1
2
1
3
1
2
1
3
1
2

1
2

5
3

32

B
1
9
1
9
1
7

Gol razlika
Dato Primljeno
28

27

22

13

24

25

5
1
0

32

24

30

26

13

11

11

11

11
1
0

25

22

14

18

17

19

14

17

14

17

18

24

19

20

7
8

7
8

3
1

1
2

3
5

8
1
0
5

13
13

20
18

5
1
5
1
5
1
5

Parma
Siena
Atalanta
O Odigrano

3
1
2
1
2

D Dobijeno

1
0

15

24

10

23

11

22

N Nereeno

I Izgubljeno

Nakon unosa podataka u SPSS Data View izgleda ovako

Variable View:

33

B Bodovi

Reenje:
Naredbom iz menija: AnalyzeClassifyHierarhical Cluster pokreemo
hijerarhisku klaster analizu. U polje Variable(s) ubacujemo promenljive na osnovu kojih se
vri analiza. U polje Label Cases by ubacujemo varijablu tipa String preko koje identifikujemo
objekte (u naem sluaju ekipe). U opcijama Plots izaberemo opciju Dendogram kako bi na
izlazu dobili i dendogram povezivanja objekata. U opcije metoda (Method) biramo metod za
analizu (u naem sluaju to je jednostruko povezivanje Nearest neighbor) i kao interval za
meru izabiramo Euklidsko kvadratno odstojanje. Pritiskom na dugme OK dobijamo rezultate
analize.
Dendogram je grafiki izvetaj reenja problema. Objekti su poreani po levoj
vertikalnoj osi. Horizontalna osa pokazuje razdaljinu izmeu objekata kada se povezuju.
Deljenje dendograma kako bi dobili odreen broj grupa je subjektivna procena. Generalno
traimo velike skokove izmeu povezivanja na horizontalnoj osi. Vidimo da je najvei skok
kada se povezuje objekat broj 20 (Atalanta) sa objektima 1 i 3 (Juventus i Udineze), pa
presecanjem dendograma na ovom mestu moemo dobiti dve grupe. Ponavljanjem ovog
postupka moemo dobiti proizvoljan broj grupa

34

Agglomeration Schedule
Stage Cluster First
Appears

Cluster Combined
Stage
1
2

Cluster 1
11
17

Cluster 2
13
19

Coefficients
,000
1,000

Cluster 1
0
0

Cluster 2
0
0

Next Stage
3
13

11

14

1,000

10

12

1,000

10

11

1,000

10

1,000

1,000

1,000

10

2,000

11

10

15

5,000

11

11

5,000

10

12

12

16

8,000

11

13

13

17

10,000

12

14

14

20

13,000

13

15

35

15

18

13,000

14

16

16

13,000

15

19

17

16,000

18

18

20,000

17

19

19

37,000

18

16

U prikazanoj tabeli vidimo izvetaj reenja problema. Vidimo da se u prvoj fazi


povezuju objekti 11 i 13 zato to je njihovo rastojanje najmanje. Grupa kreirana njihovim
spajanjem se pojavljuje opet u fazi 3 to nam govori zadnja kolona tabele. U fazi 3 klaser
kreiran u fazi 1 se sjedinjuje sa novim objektom. Ako je broj objekata posmatranja veliki lake
je pratiti kolonu koeficijenata i traiti velike skokove izmeu susedna dva koeficijenta nego
posmatrati dendogram. Na osnovu ovih podataka moemo odreivati broj grupa.

36

ZAKLJUAK
Klaster analiza daje istraivaima jednu empirijsku i objektivnu metodu za izvodjenje
jednog od najbitnijih zadataka kao to je klasifikacija ljudi. Da li za svrhu uproavanja,
istraivanja ili potvrde, klaster analiza je jedan vrlo moan analitiki aparat koji ima vrlo iroku
paletu upotrebe. Ali ova tehnika povlai odgovornost istraivaa pa oni moraju sa
odredjenom dozom opreza nju koristiti. Medjutim, ukoliko je podesno korste, ona tada ima
potencija da otkrije podarke koji do tada nisu otkriveni pomou drugih metoda. Tako, ova jaka
tehnika adresa na koju se javljaju istraivai, zahteva velika istraivanja na svim poljima,
mora biti potpomognuta velikim znanjem jer lako moe doi do loe upotrebe.

LITERATURA
1.
2. www.ffzg.hr
3. www.hm.co.rs
4. www.hamilton-locke.com
5. www.cubaselogic.googlepages.com
6. www.norusis.com
7. www.statisticshell.com

37

You might also like