You are on page 1of 61

Referat-lecţie SPSS-TCM

Hierarchical Cluster Analysis


K-Means Cluster Analysis

Coordonator:
Conf.univ.dr. Corneliu Muntean

1
Cuprins

Obiective..............................................................................................................................3
Capitolul.1. Introducere în analiza grupurilor......................................................................4
Capitolul.2. Analiza Cluster.................................................................................................6
2.1.Hierarchical Cluster...................................................................................................6
2.2. K-Means Cluster.......................................................................................................7
2.3. Diferenţe dintre analiza ierarhică şi cea K-means....................................................8
2.4. Scopul analizei Cluster..............................................................................................9
2.5. Standardizarea...........................................................................................................9
2.6. Noţiuni de statistică asociate cu Analiza Cluster......................................................9
Capitolul.3. Aplicaţiile analizei grupurilor........................................................................11
3.1. Segmentarea pieţei..................................................................................................11
3.2. Analiza structurii de piaţă.......................................................................................11
3.3. Identificarea potenţialelor teste de piaţă.................................................................12
Capitolul.4. Etape ale analizei clusterelor..........................................................................13
4.1. Formularea problemei ............................................................................................13
4.2. Selectarea distanţei .................................................................................................14
4.3. Alegerea unei proceduri..........................................................................................18
4.4. Alegerea numărului de clustere...............................................................................23
4.5. Identificarea şi numirea grupurilor.........................................................................23
4.6. Testarea soluţiei......................................................................................................23
Capitolul 5. Aplicaţii.........................................................................................................25
5.1. Exemplul 1. Gruparea cazurilor - Hierarchical Cluster Analysis...........................32
5.1.1. Interpretarea Outputului...................................................................................35
5.2. Exemplul 2. Gruparea variabilelor – Hierarchical Cluster Analysis......................42
5.2.1. Interpretarea outputului....................................................................................44
5.3. Exemplul 3. Gruparea cazurilor folosind procedura K-Means .............................51
5.3.1. Interpretarea Output-ului ................................................................................57
5.3.2.Reprezentare grafică.........................................................................................60

2
Obiective

Până la finalul acestei ore ne propunem ca:


• 90 % dintre colegi să fi înţeles descrierea conceptului de baza “Cluster
Analysis” ;
• 70 % să ştie cum se accesează aceste proceduri ;
• 60 % să ştie când să folosească Hierarchical Cluster Analysis şi când să
folosească K-Means Cluster Analysis;
• 50 % dintre colegi să deruleze procedurile necesare obţinerii unui Output corect
pentru metodele ierarhice şi nonierarhice;
• 30 % dintre colegi să ştie să analizeze rezultatele Output-ului generat de analiza
pe grupuri;
• 10 % dintre colegi să poată interpreta rezultatele generate de analiza pe grupuri.

3
Capitolul.1. Introducere în analiza grupurilor

Analiza grupurilor este o procedură multivariată de identificare a grupurilor de date. Ea


constă într-o colecţie de tehnici prin care un set de obiecte este divizat în grupuri relativ
omogene. Acesta este şi obiectivul principal al analizei: de a clasifica obiectele în grupuri
omogene, în funcţie de un set dat de variabile. Obiectele grupurilor pot fi cazuri sau
variabile. Analiza grupurilor este complementară analizei factoriale. Dacă în cazul
analizei factoriale, se urmărea gruparea variabilelor într-un număr redus de factori
determinanţi ( variabile finale ), în situaţia analizei grupurilor, cazurile sunt obiectul
principal de studiu. Metodele ierarhice ale analizei grupurilor pot realiza şi gruparea
variabilelor, dar urmând un model ad-hoc.
Analiza grupurilor este un instrument util în multe domenii, precum : biologia ( gruparea
speciilor ) sau lingvistica ( gruparea dialectelor ). Oamenii de marketing sunt foarte
interesaţi de analiza grupurilor, utilizând-o în numeroase aplicaţii . În primul rând, analiza
grupurilor ajută la identificarea segmentelor de piaţă ale consumatorilor, în funcţie de
anumite variabile. În al doilea rând, se poate ajunge la înţelegerea comportamentului
consumatorilor prin gruparea acestora în funcţie de variabile comportamentale. În plus, se
pot, cu ajutorul acestei analize, identifica oportunităţi pentru produse ce urmează a fi
lansate pe piaţă. Grupând mărci şi produse, se pot determina segmente competitive de
piaţă. Analiza grupurilor are un cuvânt important de spus şi în ceea ce priveşte alegerea
testelor de piaţă. Dispunerea oraşelor în grupuri omogene face posibilă selectarea oraşelor
comparabile pentru a testa diverse strategii de piaţă.
Problema principală a acestei analize este de a atribui fiecare caz unui singur grup. Figura
de mai jos arată o situaţie ideală, în care grupurile sunt separate în mod evident :

4
În realitate, rezultatele nu pot fi reprezentate astfel. Figura următoare arată grupuri ale
căror limite nu sunt bine delimitate, situaţie mult mai apropiată de realitate :

SPSS oferă două modalităţi de grupare a obiectelor : Hierarchical Cluster Analysis şi


K-Means Cluster Analysis. Prima metodă - cea ierarhică - poate realiza gruparea atât a
cazurilor, cât şi a variabilelor, pe când metoda K-Means grupează doar cazurile unei baze
de date.

5
Capitolul.2. Analiza Cluster

Analiza cluster este o procedură multivariată pentru a determina grupurile de date.


Obiectele din aceste grupuri pot fi cazuri sau variabile. O analiză cluster a cazurilor se
aseamănă cu analiza discriminantă într-un anumit punct – cercetătorul caută să clasifice
un set de obiecte în grupuri sau categorii, dar, în analiza cluster, nici numărul si nici
membrii grupurilor nu sunt cunoscuţi. În analiza cluster se începe fără nici o cunoştinţă
legată de structura grupului şi cel mai adesea nu se ştie câte clustere sunt. Clustering este
o tehnică bună folosită în analiza exploratorie, când se crede că eşantionul nu este
omogen.

SPSS furnizează două metode pentru a grupa obiectele în categorii:


- Hierarchical Cluster Analysis
- K-Means Cluster Analysis
Hierarchical Cluster Analysis lucrează ori cu cazuri, ori cu variabile, pe când K-
Means Cluster Analysis, doar cu cazuri.

2.1.Hierarchical Cluster

Folosind metoda ierarhizării, gruparea începe prin găsirea celor mai apropiate
perechi de obiecte (cazuri sau variabile), în funcţie de tipul unităţii de măsură folosit şi le
combină pentru a forma un cluster. Algoritmul continuă pas cu pas, unind perechi de
obiecte, perechi de clustere, sau un obiect cu un cluster, până când toate datele sunt într-
un cluster. Metoda se numeşte ierarhizare deoarece odată ce două obiecte sunt unite într-
un cluster, ele rămân împreună până la ultimul pas. Un cluster format într-un stadiu
ulterior al analizei, conţine clustere dintr-un stadiu anterior, care coţine clustere dintr-un
stadiu şi mai anterior.

6
2.2. K-Means Cluster
Această procedură începe prin folosirea valorilor primelor k cazuri din baza de
date, ca estimări temporare a k medii ale grupurilor, unde k este numărul de clustere
specificat de utilizator. Centrele iniţiale ale grupurilor sunt formate prin compararea şi
atribuirea fiecărui caz următor, pe rând, unui cluster cu cel mai apropiat centru şi apoi
facându-se media celor două se obţine centrul clusterului. Apoi un proces iterativ este
folosit pentru a găsi centrele finale ale clusterelor. La fiecare pas cazurile sunt grupate în
grupul cu cel mai apropiat centru şi centrele clusterelor sunt recalculate. Acest proces
continuă pînă ce nu mai au loc schimbări în centrele grupurilor sau pînă când este atins
numărul maxim de iteraţii. Se poate specifica centrul clusterelor şi SPSS va aloca cazurile
în centrele specificate. Acest lucru permite gruparea de noi cazuri pe baza rezultatelor

7
anterioare. Această procedură de analiză este folositoare cînd există un număr mare de
cazuri.

2.3. Diferenţe dintre analiza ierarhică şi cea K-means


Metoda grupării folosind factorul K manevrează probleme majore (peste 200 de
cazuri) într-un mod mai uşor. Gruparea ierarhică înregistrează o matrice a distanţelor
pentru fiecare pereche de cazuri(sau variabile) încât problemele extinse devin dificile.
Mai important, când mărimea exemplului este mare, fiecare grafic de tip icicle sau
dendogramă devine greu de citit şi de interpretat pentru că se întinde pe multe pagini.
Pentru seturi mici de înregistrări, graficele icicle şi dendrograma furnizează o imagine
excelentă a modului în care fiecare caz sau variabilă este unită cu alta, şi matricea
distanţei poate fii deasemenea informativă.
Prin furnizarea distanţei dintre fiecare caz şi centrul grupului său, Cluster k-means
caracterizează doar dacă un caz este apropiat de un altul în grupul său. Marimea
factorului statistic F în analiza Anova într-o singură direcţie după elementul K este utilă
pentru a indentifica variabilele care sunt conform tiparului grupului şi de asemenea acela
care diferă puţin de-a lungul grupului. În metoda grupării după factorul K ,introducând
centrele grupurilor , poţi clasifica noi cazuri.
Procedura analizei grupării după factorul K cere ca să specifici numărul de
grupuri, astfel încât va trebui să încerci diferite analize (de exemplu, pentru folosirea a 3,
4 şi 5 grupuri). Concomitent, trebuie să se analizeze un subset de cazuri prin procedura
grupării ierarhice pentru a determina un număr rezonabil de grupuri.
Desigur, la gruparea ierarhică, mai trebuie să se specifice numărul de grupuri
(prin studierea graficelor afişate); pentru că nu există nici un test „magic” care să-ţi spună
numărul grupurilor.
Metoda grupării ierarhice oferă multe opţiuni cu privire la standardizarea datelor,
introducerea datelor şi de legare a grupurilor. La analiza grupării după factorul K, se
standardizează datele înainte de a cere o analiză a gruparilor. Sistemul distanţei
Euclidiene este folosit automat.

8
Gruparea ierarhică exclude toate cazurile cu valori lipsă utilizate în analiza.
Analiza K are o opţiune care repartizează cazurile pe baza distanţelor introduse din toate
variabilele cu valori nenule.

2.4. Scopul analizei Cluster


Analiza grupărilor este o unealtă importantă în multe domenii academice precum
biologia (gruparea speciilor de animale) şi lingvistica (gruparea dialectelor). Există chiar
şi o organizaţie profesională „Societatea clasificării” şi un jurnal academic „Jurnalul
Clasificării” care studiază tehnicile de analiză a grupurilor.

2.5. Standardizarea
Variabilele cu valori mari contribuie, într-o măsură mai mare, la calcularea
distanţelor decât variabilele cu valori mici. De exemplu, valoarea mortalităţii infantile
poate fi de 168 de copii, în timp ce creşterea populaţiei unei ţări poate fi de 0.1 %. O
modalitate de a evita această problemă este de a transforma toate variabilele, astfel încât
să fie pe o scală comparabilă. Dacă se transformă fiecare variabilă în scor z, fiecare nouă
variabilă va avea media egală cu 0, iar deviaţia standard egală cu 1.
O altă manieră, de a rezolva problema scalelor diferite, este de a ordona fiecare variabilă
pe o scală de la 0 la 1, unde cea mai mică valoare devine 0, iar valoarea cea mai mare, 1.
Hierarchical Cluster Analysis oferă mai multe metode de standardizare. În cazul metodei
K-Means, datele trebuie standardizate înainte de începerea algoritmului.

2.6. Noţiuni de statistică asociate cu Analiza Cluster


Majoritatea metodelor de grupare sunt euristice şi sunt bazate pe algoritmi, astfel
analiza clasificării contrastează puternic cu analiza variaţiei, regresiei, diferenţială, şi
factorul analiză, care aceştia se bazează pe raţionamente statistice.

9
Deşi multe dintre metodele clasificării deţin proprietăţi importante din statistică,
simplitatea fundamentală a acestor metode trebuie recunoscută, astfel ca urmatoarele
concepte sunt asociate cu analiza clasificării.
Agglomeration schedule - oferă informaţii cu privire la obiecte sau cazuri(fapte),
fiind combinate la fiecare fază a procesului de grupare ierarhică.
Cluster centroid reprezintă suma valorilor variabilelor pentru toate cazurile sau
pentru toate obiectele ce se află într-o mulţime distinctă.
Cluster centers – reprezintă punctele iniţiale de pornire în analiza grupării
nonierarhică.Grupurile sunt alcatuite în jurul acestor centre.
Cluster membership (apartenenţa la grup) indică grupul căreia obiectul (cazul)
îi aparţine.
Dendrograma - reprezintă un instrument grafic ce arată rezultatele clasificării.
Liniile verticale reprezintă grupuri ce sunt unite între ele; poziţia liniilor de pe scală
indică distanţa unde grupurile erau unite. Dendograma se citeşte de la stanga la dreapta
Distanţele dintre centrele grupurilor indică cât de mult perechile de grupuri
individuale sunt separate, astfel ca mulţimile care sunt în mare măsură separate sunt
distincte şi deci cele mai de dorit.
Diagrama de tip icicle („ţurţure de gheaţă”) reprezintă un instrument grafic ce
indică rezultatele grupării şi este denumită aşa pentru că adună şirul de ţurţuri ce atârnă
pe streaşina casei. Coloanele corespund cu obiectele ce sunt grupate, iar şirurile
corespund cu numărul de grupe. Diagrama de tip icicle se citeşte de jos în sus.
Similitudine / coeficientul matricei distanţei - reprezintă o matrice
triunghiulară inferioară conţinând distanţele „pairwise” dintre obiecte şi cazuri.
Paşii implicaţi în transmiterea analizei clasificării.
Primul pas este de a formula problema clasificării, definind mai întâi variabilele pe care
se bazează această metodă, apoi o măsură cât mai apropiată a distanţei trebuie selectată.
Măsurarea distanţei determină cât de similare sau nu pot fi obiectele grupate
(clasificate). Diverse proceduri de grupare au fost dezvoltate iar cercetătorul ar trebui să
selecteze una care să se potrivească problemei. Astfel pentru alegerea numărului de grupe
e nevoie de discernământ din partea cercetătorului.

10
Grupele derivate ar trebui să fie interpretate în funcţie de variabilele care se
grupau odata şi le conturau în termeni de variabile suplimentare tipice. Cercetătorul
trebuie să evalueze validitatea procesului de clasificare.

Capitolul.3. Aplicaţiile analizei grupurilor

3.1. Segmentarea pieţei

Principala aplicaţie de marketing a analizei grupurilor o constituie segmentarea pieţei.


Cercetătorii au căutat mult timp grupuri care să răspundă similar la stimuli de marketing
( atributele produselor, poziţionarea produselor, preţul, campaniile promoţionale ).
Abordarea acestei probleme începe cu realizarea unui set de variabile - relevante pentru
produse - ( preferinţe pentru mărci, beneficii căutate, răspunsuri la întrebări legate de
stilul de viaţă ) şi extragerea unui eşantion reprezentativ de consumatori. Dacă numărul
variabilelor este ridicat, se poate apela la analiza factorială în vederea reducerii lor.
Grupurile obţinute în urma analizei sunt comparate în baza variabilelor de grupare, dar şi
a altor variabile care descriu consumatorii, oferind oamenilor de marketing modele de a
ajunge la pieţele ţintă.
Alternativa segmentării bazate pe analiza grupurilor este o clasificare a consumatorilor pe
baza unui set redus de variabile. Grupurile astfel obţinute sunt comparate în baza unui
număr mare de variabile. Deşi nu este o manieră elegantă de lucru, alegerea unor grupuri
întâmplătoare de consumatori se dovedeşte la fel de folositoare ca şi cea bazată pe analiza
grupurilor.

3.2. Analiza structurii de piaţă

Obiectivul analizei structurii de piaţă este de a identifica produsele ce concurează între


ele. Mulţi cercetători afirmă că doar acele mărci sau produse despre care consumatorii

11
afirmă că sunt concurente, concurează într-adevăr. Cum consumatorii îşi afirmă puterea
de decizie, cumpărând un produs sau un altul, se pare că mărcile sunt cu atât mai
competitive cu cât se produc schimburi de consumatori între ele. Analiza grupurilor este
utilă în măsura în care , grupând consumatorii, poate determina gradul de competitivitate
dintre anumite mărci sau produse.

3.3. Identificarea potenţialelor teste de piaţă

Managerii care aplică teste de piaţă caută pieţe relativ omogene astfel încât, prin
compararea cu rezultatele altor programe de marketing, să se obţină informaţii utile.

12
Capitolul.4. Etape ale analizei clusterelor
Paşii implicaţi în conducerea analizei clusterelor sunt următorii: primul
pas este formularea problemei grupării prin definirea variabilelor pe baza cărora se vor
forma clustere. Apoi, trebuie selectată o măsură adecvată a distanţei. Unitatea de măsură
a distanţei determină cît de asemănător sau diferit este obiectul grupat. Câteva proceduri
de grupare au fost dezvoltate, şi cercetătorul trebuie să selecteze una din acestea, care este
cea mai adecvată pentru rezolvarea problemei. Stabilirea unui număr de clustere este
atribuţia cercetătorului. În final, cercetătorul trebuie să verifice validitate procesului de
grupare.
1. Formularea problemei
2. Selectarea distanţei
3. Alegerea unei proceduri
4. Alegerea numărului de clustere
5. Identificarea şi numirea grupurilor
6. Testarea soluţiei

4.1. Formularea problemei

Poate cea mai importantă parte a formulării problemei de grupare este selectarea
variabilelor pe baza cărora se vor obţine grupurile. Includerea chiar şi a uneia sau a două
variabile irelevante poate afecta soluţia obţinută. Setul de variabile selectate trebuie să
descrie similarităţile dintre obiecte care sunt relevante pentru problema cercetării de
marketing. Variabilele trebuie selectate pe baza unei cercetări anterioare, unei teorii sau
prin considerarea unei ipoteze ce va fi testată. În cercetarea exploratorie, analistul trebuie
să-şi folosească judecata şi intuiţia.

13
4.2. Selectarea distanţei

Deoarece obiectivul analizei cluster este gruparea obiectelor similare împreună,


unele unităţi de măsurare sunt necesare observării diferenţelor, sau asemănărilor dintre
obiecte. Cea mai utilizată abordare este măsurarea asemănărilor pe baza distanţei dintre
perechi de obiecte. Obiectele cu distanţe mai mici între ele se aseamănă mai mult, decât
cele care au distanţe mai mari între ele. Există câteva căi diferite de a calcula distanţele
dintre două obiecte.
Cea mai folosită unitate de măsură a similarităţii este distanţa euclidiană sau
pătratul ei. Distanţa euclidiană este rădăcină pătrată din suma pătratelor diferenţelor
dintre fiecare variabile de acelaşi tip.

∑( x if −x jf )
p 2
D(i,j)=
f =1

E o alegere naturală deoarece dacă graficul celor N obiecte are p dimensiuni, distanta
Euclidiana dinte orice pereche de obiecte lungimea liniei ce le uneste.
O parte din cercetatori nu obişnuiesc să folosească distanţa Euclidiană deoarece depinde
de unitatea de masură. Pentru a îndeparta efectul modului în care sunt măsurate
variabilele, unii cercetători folosesc standardizarea datelor pe baza formulei:

z if
= (x − m )/ s
if f f unde m f si s f sunt media si deviaţia standard pentru

variabila f din matricea de înregistrari.

∑( z if −z jf )
p 2
Distanţa Euclidiana transformată, D (i, j ) = devine o
f =1

măsură a deosebirilor. Această transformare are ca efect transformarea în date utilizabile,


fiindcă toate variabilele vor avea deviaţia standard de 1.
Cercetatori nu recomandă standardizarea decât doar dacă diferenţele de unitate ale
variabilelor nu sunt comparabile, fiindcă alăturarea tuturor variabilelor pe aceeaşi scală
elimină informaţii.
În multe cazuri, un cercetator nu vrea ca variabilele să fie egale ca importanţă chiar dacă
sunt măsurate pe aceeaşi scală. De exemplu, un agent imobiliar crede că venitul e mai

14
important (sa zicem de 10 ori)în determinarea manierei de achiziţie a casei decât vârsta.

O cale pentru a obţine aceasta este să impunem importanţa , w f la variabile şi să

folosim urmatoarele măsurători:

D (i, j ) = ∑w
f =1
p

f
( xif −x jf ) 2
sau D (i, j ) = ∑w ( z if −z jf )
p

f =1
f
2
.

De asemenea, sunt disponibile şi alte unităţi de măsură. Cityblock sau distanţa


Manhattan, între două obiecte este suma modulului diferenţelor dintre variabilele de
acelaşi tip.
distance(x,y) = i |xi - yi|

Distanţa Chebychev între două obiecte este modulul diferenţei maxime pentru
orice variabilă.
distance(x,y) = Maximum|xi - yi|
Distanţa Minkowski este definită prin relaţia :
p

∑ x if −x jf
q
D (i, j ) = q
f =1

unde q este un număr mai mare sau egal cu 1. Se observă că, atât distanţa Euclidiană, cât
şi City Block , sunt variante ale acestei distanţe ( q = 1 pentru City Block, iar q = 2 pentru
distanţa Euclidiană ).
Dacă variabilele sunt măsurate cu scale diferite, soluţia grupării va fi influenţată
de unităţile de măsură. În acest caz, înainte de a realiza gruparea datele trebuie
standardizate. Astfel, standardizarea îndepărtează influenţa unităţilor de măsură.

Corelaţia este una dintre măsurile de similaritate dintre două obiecte.


Să considerăm răspunsurile date de trei respondenţi - pe o scală de la 1 la 5 - pentru trei
caracteristici ale unui produs : marca, preţul şi ambalajul.

15
Datele categoriale
Genul sau ultima marcă achiziţionată sunt exemple de date categoriale. Atunci când
aceste date sunt codificate cu valori numerice, distanţa euclidiană nu mai are
aplicabilitate. Întrucât majoritatea programelor folosesc – ca opţiune standard – distanţa
euclidiană, este necesară alegerea cu atenţie a metodei de calcul.
Cea mai folosită măsură a similarităţii o reprezintă proporţia variabilelor când două
obiecte aparţin aceleiaşi categorii. Coeficientul de asemănare va fi definit prin:

asemanari
S ( i, j ) =
numar var iabile

În mod identic, coeficientul de diferenţiere se va calcula după formula :

numar var iabile − asemanari


D( i, j ) = = 1 − S (i, j )
numar var iabile
Anumite situaţii determină modificări ale măsurii de bază. Adesea, variabilele analizate
nu sunt egale ca importanţă. Acest aspect conduce la ponderarea variabilelor, ca şi în
cazul distanţei euclidiene.

D (i, j ) = Σw f * ( x if − x jf ) 2

Datele ordinale

Variabilele ordinale discrete sunt foarte asemănătoare cu variabilele nominale. Singura


diferenţă este că se pot ordona categoriile într-o ordine logică ( de exemplu, răspunsurile

16
date pe scale de genul : 1 - acord total, 2 - acord parţial, 3 - posibil acord , 4 - dezacord
parţial, 5 - dezacord total ).
În majoritatea situaţiilor, aceste date pot fi tratate ca date de tip interval. Problema care
apare este că nu se precizează respondenţilor că 1 înseamna 1.00, 2 - 0.75 şi aşa mai
departe. Cercetătorii care nu doresc să trateze aceste date ca şi date de interval, pot apela
la coeficienţii de asemănare.

Datele scalare
Majoritatea metodelor statistice lucrează cu date de tip interval. De aceea, aceste date vor
fi tratate ca fiind de interval.

Datele mixte
Cele mai multe baze de date conţin diverse categorii de date. Un chestionar poate cere
vârsta respondentului, venitul acestuia, ultima marcă achiziţionată, cotarea produsului şi
ierarhizarea importanţei caracteristicilor.
Conform afirmaţiei lui Gower, similaritatea dintre două obiecte este media similarităţilor
pentru fiecare dintre variabile, luată separat.
Pentru ca această afirmaţie să aibă sens, fiecare variabilă trebuie să fie măsurată pe
aceeaşi scală. Cea mai la îndemână scală este cea de la 0 la 1. Similaritatea dintre
variabilele nominale poate fi 1 sau 0, în funcţie de asemănările dintre categorii.
Pentru variabilele ordinale, valoarea scală se calculează după formula :
xif −1
Z if = M f este numărul de categorii pentru variabila f.
M if −1

(x − x jf )
Transformeare S ( i, j ) =1 −
if
unde Rf este diferenţa dintre valorile maxime şi
Rf

cele minime ale variabilelei f , plasează variabilele tip interval pe o scară comparabilă de
la 0 la 1.

17
4.3. Alegerea unei proceduri

Proceduri de grupare

Ierarhice Non ierarhice

Aglomerative Divizionare

Pragul secvenţial Pragul paralel Repartiţia optimă

Metode de înlănţuire Metode ale varianţei Metode centroidale

Metoda Ward

Înlănţuire simplă Înlănţuire completă Înlănţuire medie

Alegerea unui algoritm de grupare

18
Procedurile de grupare pot fi ierarhice sau non-ierarhice. Gruparea ierarhică este
caracterizată de dezvoltarea unei ierarhii de tip arbore. Metodele ierarhice pot fi de
aglomerare sau de dispersie. Gruparea prin aglomerare începe cu fiecare obiect într-un
grup separat. Grupurile sunt formate prin gruparea obiectelor în grupuri din ce în ce mai
mari. Gruparea prin dispersie începe cu toate obiectele grupate într-un singur cluster.
Clusterele sunt divizate până când fiecare obiect este într-un cluster separat.
Metodele aglomerării sunt cel mai adesea folosite în cercetările de marketing. Ele
constau în principal în metode de legare. Aceste metode includ legături simple, legături
complete şi legături medii.
Metoda legăturii simple este bazată pe regula minimului distanţei către cel mai
apropiat vecin. Primele două obiecte grupate sunt cele care au cea mai mică distanţă
dintre ele. Cea mai mică distanţă care urmează este identificată şi ori primul obiect este
grupat cu primele două sau un nou cluster de două obiecte este format.
În fiecare stadiu, distanţa dintre cele două clustere este distanţa dintre puctele lor cele mai
apropiate. Două clustere sunt unite în orice stadiu printr-o legătură, simplă, scurtă între
ele. Acest proces este continuat până când toate obiectele sunt grupate într-un singur
cluster.

Metoda legăturii complete este asemănătoare cu cea anterioară, exceptând faptul că este
bazată pe maximul distanţei sau abordarea vecinului cel mai îndepărtat. În cadrul acestei
metode, distanţa dintre două clustere este calculată ca fiind disnaţa dintre punctele lor
cele mai îndepărtate.

19
Metoda legăturii medii funcţionează în mod similar. În cadrul acestei metode distanţa
dintre două clustere este definită ca fiind media distanţelor dintre toate perechile de
obiecte, unde un membru al perechii este din fiecare cluster. Această metodă foloseşte
informaţia obţinută din toate perechile de distanţe, nu doar din cele minime sau maxime.
Din acest motiv, de obicei este preferată celorlalte două metode.

Metoda varianţei încearcă să genereze clustere penru a minimiza varianţa


intergrupuri. O metodă de varianţă des folosită este procedura Ward. Pentru fiecare
cluster, sunt calculate mediile variabilelor. Apoi, pentru fiecare obiect este calculată
distanţa euclidiană pătrată pînă la centrul clusterului. Aceste distanţe sunt însumate
pentru toate obiectele. În fiecare stadiu, cele două clustere cu cea mai mică creştere a
distanţei sunt combinate.

20
În metoda centrelor, distanţa dintre două clustere este distanţa dintre centrele lor(mediile
pentru toate variabilele). De fiecare dată când sunt grupate obiectele este calculat un nou
centru.

Dintre toate metodele ierarhice, metoda legăturii medii şi procedura Ward au demonstrat
că sunt mai bune decât celelalte proceduri.

Al doilea tip de proceduri de grupare, metodele non-ierarhice, clasifică obiectele în k


grupuri astfel încât fiecare grup să conţină cel puţin un caz, iar fiecare caz să aparţină
unui grup unic. Numărul grupurilor nu poate fi mai mare decât cel al cazurilor.
În cercetarea de piaţă, cea mai folosită metodă de partitiţionare este abordarea K-means.
Acest algoritm începe cu o distribuţie aleatoare a cazurilor în k grupuri. Centroizii
grupurilor sunt calculaţi şi folosiţi în analiză. Fiecare caz este atribuit grupului cu cel mai
apropiat centroid. De fiecare dată când un caz este adăugat unui grup, se recalculează
centroizii. Acest proces continuă până când toate cazurile sunt grupate. K-means
Clustering cuprinde : pragul secvenţial, pragul paralel şi repartiţia optimă.
În metoda pragului secvenţial, este selectat un centru de grup şi toate cazurile dintr-un
prag valoric predefinit sunt grupate împreună. Un nou centru de grup este selectat şi
procedeul se repetă pentru punctele negrupate.
În metoda pragului paralel, centrele grupurilor sunt selectate toate odată, iar cazurile sunt
grupate cu cel mai apropiat centru.
Metoda repartiţiei optime se diferenţiază prin aceea că obiectele / cazurile pot fi
redistribuite într-o manieră care să asigure optimizarea criteriului considerat în analiză.

21
Două mari dezavantaje ale procedurilor non–ierarhice este că numărul clusterelor trebuie
prespecificat şi că selecţia centrelor clusterelor este arbitrară. Mai mult, rezultatele
grupării pot depinde de modul în care centrele sunt selectate. Multe programe non-
ierarhice selectează primele K (k = numărul de clustere) cazuri fără valorile lipsă ca
centre iniţiale ale clusterelor. Totuşi, gruparea non-ierarhică este mai rapidă decât
metodele ierarhice şi poate fi folosită când numărul obiectelor este mare. A fost sugerat
ca metodele ierarhice şi neiarhice să fie folosite în tandem. Prima dată, o soluţie iniţială
de grupare este obţinută folosind o procedură ierarhică cum ar fi metoda legăturii medii
sau Ward. Numărul de clustere şi centrele clusterelor obţinute astfel sunt folosite ca
input-uri pentru metoda partiţionării optimizate.
Alegerea metodei de grupare şi alegerea unităţii de măsură sunt interdependente.
De exemplu, distanţa euclidiană pătraă ar trebui folosită cu procedura Ward şi metoda
centrelor. Câteva proceduri neierahice pot de asemena folosi distanţele pătrate euclidiene.
Alegerea metodei de grupare, dat fiind numărul mare de procedee, devine o decizie foarte
importantă şi care cere multă atenţie. Mai multe criterii trebuie considerate :
* într-o multitudine de studii, K-means, metoda Ward şi metoda înlănţuirii medii au dat
rezultate mai bune, comparativ cu alte modalităţi de analiză.
* studiile arată că alegerea algoritmului are un impact mai mare asupra rezultatelor decât
are alegerea unei anumite măsuri a similarităţii.
* metodele non-ierarhice urmăresc identificarea celei mai bune clasificări a cazurilor;
metodele ierarhice caută să descopere un model al grupării cazurilor.

Metodele de suprapunere
Metodele non-ierahice nu permit suprapunerea. Metodele ierarhice permit suprapunerea
doar atunci când grupurile de pe un nivel inferior al dendogramei sunt complet incluse
într-un grup aflat pe un nivel superior al graficului.

22
4.4. Alegerea numărului de clustere

O chestiune majoră în analiza clustere este alegerea numărului de clustere. Deşi


nu există reguli sunt disponibile câteva elemente de ghidare.
• Consideraţii teoretice conceptuale sau practice pot sugera un număr de
clustere. De exemplu, dacă scopul grupării este identificarea segmentelor de piaţă,
conducerea firmei poate cere un anume număr de grupuri.
• În gruparea ierarhică, distanţele la care clusterele sunt combinate poate fi
folosit ca şi criteriu. Această informaţie poate fi obţinută din tabelul de aglomerare sau
din dendogramă.
• În gruparea non-ierarhică, proporţia dintre varianţa totală intra-grup şi
varianţa totală inter-grup poate fi marcată pe o hartă. Punctul în care apare o cotitură sau
o îndoitură ascuţită indică numărul potrivit de grupuri. Crescând numărul de grupuri mai
mult de acest punct, de obicei, nu se merită. Mărimea relativă a grupurilor ar trebui să fie
în concordanţă cu scopul.

4.5. Identificarea şi numirea grupurilor

Cheia acestei etape o constituie centroizii grupurilor. Mai exact, media tuturor
cazurilor dintr-un grup - pentru datele de interval, sau cea mai frecventă categorie -
pentru variabilele nominale. Adesea, o simplă privire asupra centroizilor poate oferi
cercetătorilor suficiente informaţii pentru a face posibilă numirea grupurilor.

4.6. Testarea soluţiei

Ultimul pas în analiza clusterelor este testarea soluţiei. Acesta este pasul pe care
majoritatea îl sar deoarece nu există o metodă standard de a-l realiza. Totuşi, următoarele
proceduri aduc verificări adecvate calităţii rezultatelor grupării.
• Efectuarea analizei clusterelor pe aceleaşi date folosind unităţi de măsură
diferite. Compararea rezultatelor pentru a determina stabilitatea soluţiilor.

23
• Folosirea de metode diferite de gruparea şi compararea rezultatelor.
• Divizarea în mod aleatoriu a datelor în jumătăţi. Efectuarea grupării
separat pe fiecare jumătate. Compararea centrelor clusterelor de-a lungul
celor două jumătăţi.
• Ştergerea aleatoarie a variabilelor. Efectuarea grupării bazate pe un set de
variabile redus. Compararea rezultatelor cu cele obţinute prin gruparea
bazată pe întregul set de variabile.
În gruparea non-ierarhică soluţia poate depinde de ordinea cazurilor în seturi de date.
Efectuarea de mai multe ori a grupării folosind o ordine diferită a acazurilor până când
soluţia se stabilizează
Noţiunile caracteristice şi paşii implicaţi în analiza pe grupuri pot fi sistematizate cu
ajutorul acronimului CLUSTERING.
C metoda centrului de greutate
L metoda legăturii
U fundamentarea problemei: selectarea variabilelor de grupare
S măsurile distanţei sau asemănarea
T tipul metodei de grupare: ierarhică şi nonierarhică
E metoda erorii sumei pătratelor sau metoda varianţei
R validitatea şi fiabilitatea analizei pe grupuri
I interpretarea şi realizarea unui profil al grupului
N numărul de grupuri
G instrumente grafice: dendrogramă şi graficul ţurţure

24
Capitolul 5. Aplicaţii
HIERARCHICAL CLUSTER ANALYSIS
Pentru exemplificarea acestui algoritm vom presupune că managerul unei firme de
consultanţă doreşte să afle cum sunt grupate laptopurile de pe piaţă, acesta dorind să
achiziţioneze 7 laptopuri pentru agenţii săi, aceste laptopuri fiindu-i necesare în
prelucarea datelor, analizarea cazurilor, planificarea trainingurilor, prezentarea acestora.
Managerul s-a oprit asupra a 19 laptopuri cuprinzând mărci foarte cunoscute ca:
HP, DELL, ACER, TOSHIBA, SONY, NEC, PANASONIC, FUJITSU- SIEMENS, dar
şi unele mai puţin cunoscute ca: Amilo, Prestigio Nobile, Gygabyte, Amilo, Travel Mate.
Despre laptopurile respective managerul are informaţii referitoare la preţ,
capacitate hard disk(GB), capacitate memorie instalată(MB), diagonală ecran (inch),
autonomie(numărul de ore a duratei bateriei), greutate(kg), capacitate memorie
video(MB), deţinere bluetooth, frecvenţa procesorului(Gzh).
Pentru a proceda la gruparea acestor laptopuri, managerul a întocmit o bază de
date în SPSS 9.0, cu 10 variabile definite după cum urmează:
 Tiplap – variabilă nominală, definită string, de 20 de caractere, aliniere la stânga,
ea defineşte tipul laptopului.
 Preţ – variabilă de proporţie, definită numeric, de 4 caractere, aliniere la centru,
ea reprezintă preţul final de cumpărare a laptopului.
 Capacitate hard disk – variabilă de proporţie, definită numeric, de 4 carcatere,
aliniere centru, reprezentând capacitatea hard diskului măsurată în gigabytes (GB).
 Capacitate memorie instalată – variabilă de proporţie, de 4 caractere, aliniere la
centru, reprezintă capacitatea memorie RAM, măsurată în megabytes (MB).
 Diagonală – variabilă de proporţie, definită numeric, de 3 caractere şi o zecimală,
aliniere la centru, reprezintă diagonala display măsurată în inch (1 inch = 2, 54 cm)
 Autonomie – variabilă de proporţie, de 2 caractere şi o zecimală, aliniere la
centru, reprezintă rezistenţa bateriei în număr de ore.

25
 Greutate – variabilă de proporţie, definită numeric, de 2 caractere şi o zecimală,
aliniere la centru, ea reprezintă greutatea laptopului exprimată în kilograme.
 Memorie video – variabilă de proporţie, definită numeric, de 3 caractere, aliniere
la centru, reprezintă memoria plăcii video exprimată în Mgabytes(MB).
 Bluetooth – variabilă de proporţie, definită numerică, de 1 caracter, aliniere la
centru, reprezită deşinerea sau nu de bluetooth ( 1- DA, 2 – NU).
 Garanţia – variabilă de proporţie, definită numeric, de 1 caracter, aliniere la
centru, ea reprezintă garanţia ofertită de firmă în ani.
 Frecvenţă procesor – variabilă de proporţie, definită numeric, de 4 caractere,
aliniere la centru, ea reprezintă frecvenţa procesorului laptopului măsurată în gigahertz
(Ghz).
Baza de date astfel obţinută va fi utilizată pentru a aplica analiza grupurilor.
Deoarece baza de date are 10 variabile se va utiliza prima metodă de analiză, şi anume
Hierarchical Cluster Analysis.
Această procedură identifică grupurile relativ omogene de cazuri (sau variabile)
după anumite caracteristici selectate, folosind un algoritm care începe cu fiecare caz (sau
variabilă) într-un grup separat, combinând grupurile până rămâne unul singur. Se pot
analiza variabilele netransformate sau se poate alege dintr-o varietate de transformări
standardizate. Distanţa sau măsurile similare sunt generate de procedura Proximities (de
proximitate). Pentru a ajuta la alegerea celei mai bune soluţii, statisticile sunt prezente în
fiecare etapă.
Pentru aceasta din meniul Analyze se selectează opţiunea Clasify apoi
Hierarchical Cluster Analysis, la fel ca în figura ce urmează.

26
Figura 1. Alegerea procedurii din meniul Analyze.
După selectarea procedurii va apărea o fereastră care permite selectarea
variabilelor de grupare şi posibilitatea personalizării. Fereastra apare în figura 2.

Figura 2. Fereastra Hierarchical Cluster Analysis.

27
Câmpul Variable(s) permite selectarea variabilelor pentru sau după care se face
gruparea. Variabilele sunt trimise în acest câmp prin intermediul săgeţii.
Câmpul Label Cases by permite selectarea variabilei ce indică numele fiecărui
caz în parte. Variabila este trimisă în acest câmp prin intermediul săgeţii.
Câmpul Cluster permite alegerea modalităţii de grupare: pentru variabile sau
pentru cazuri. Dacă se alege gruparea variabilelor, câmpul Label Cases by va deveni
indisponibil.
Câmpul Display permite optarea pentru afişarea sau nu a statisticilor sau a
graficelor.
În continuare sunt descrise opţiunile celor patru butoane din partea de jos a ferestrei.

Figura 3. Ferestra statistics.


Ferestra statistics permite definirea următoarelor opţiuni:
Aglomeration schedule. Lista de aglomerare, prin bifare arată cazurile sau
grupurile combinate la fiecare stagiu(etapă), distanţele dintre cazuri sau grupuri
combinate şi ultimul nivel al grupului când un caz (sau variabilă) a fost adăugat grupului.
Proximity matrix. Matricea de proximitate ne arată distanţele sau similarităţile
dintre itemi.
Cluster membership. Apartenenţa grupului arată grupul la care, fiecare caz, este
repartizat în unul sau mai multe stagii în timpul combinării clusterelor. Opţiunile
disponibile sunt single solution şi range of solutions.

28
Figura 3. Ferestra Plots.
Ferestra Plots permite definirea următoarelor opţiuni:
Dendograms. Prin bifarea căsuţei se afişează o dendogramă. Dendogramele pot
fi folosite pentru a fixa coeziunea grupurilor formate şi aduce informaţii despre numărul
potrivit de grupuri de menţinut.
Icile. Se afişează un grafic icicle, incluzînd toate grupurile sau o gamă specificată
de grupuri. Icicle plots afişează informaţii despre cum sunt combinate cazurile în grupuri
la fiecare repetare a analizei.
Orientation permite alegerea unui grafic vertical sau orizontal.

Figura 4. Ferestra Method.

29
Ferestra Method permite selectarea:
Cluster method – Opţiunile disponibile sunt between-groups linkage, within-
groups linkage, nearest neighbor, furthest neigbor, centroid clustering, median clustering
şi metoda Ward.
Measure. Îţi permite să specifici distanţa sau măsura similară pentru a putea fi
folosită în grupare. Poţi selecta tipul datelor şi distanţa potrivită sau o măsură similară.
 Interval data. Opţiunile disponibile sunt Euclidean distance, cosine,
Pearson correlation, Chebzchev, block, Minkowski şi customizat.
* SEUCLID – Squared Euclidean distance- Distanţa dintre două cazuri, x şi y, este suma
pătratelor diferenţelor dintre valorile acelor cazuri. SEUCLID este măsura folosită în
metodele centroidale şi Ward. SEUCLID este bifată din standard .
* EUCLID – Euclidean distance- Distanţa dintre două cazuri, x şi y, este rădăcina pătrată
a sumei pătratelor diferenţelor dintre valorile acelor cazuri.
* COSINE – un model al măsurii similarităţii pentru datele continue. Măsoară cosinusul
unghiului dintre doi vectori ai valorilor. Cosinusul ia valori cuprinse în intervalul ( - 1, 1),
valoarea 0 indicând vectori ortogonali.
* CHEBYCHEV – Chebychev distance metric – Distanţa dintre două cazuri este
diferenţa maximă – în valoare absolută – dintre valorile cazurilor.
* BLOCK – City-block sau Manhattan distance – Distanţa dintre două cazuri este suma
diferenţelor – în mărime absolută – dintre valorile cazurilor.
* MINKOWSKI – Distance in an absolute Minkowski power metric – Distanţa dintre
două cazuri este rădăcina de ordinul p a sumei diferenţelor – în mărime absolută – dintre
valorile cazurilor.
 Count data. Opţiunile disponibile sunt chi-square measure şi phi-
square measure.
 Binary data. Opţiunile disponibile sunt Euclidian distance, squared
Euclidean distance, size difference, pattern difference, variance, dispersion, shape, simple
matching, phi 4-point correlation, lambda, Anderberg`s D, dice, Hamann, Jaccard,

30
Kulczynski 1, Kulczynski 2, Lance and Williams, Ochiai, Rogers and Tanimoto, Russel
and Rao, Sokal and Sneath 1, Sokal and Sneath 2, Sokal and Sneath 3, Sokal and Sneath
4, Sokal and Sneath 5, Yule`s Y, Yule`s Q.
Transform values. Permite standardizarea valorilor datelor ori pentru cazuri ori
pentru valori, înainte de a calcula apropierile (nu este disponibilă pentru datele binare).
Metodele de standardizare disponibile sunt Z scores, range -1 to 1, range 0 to 1,
maximum magnitude of, mean of, şi standard deviation of.
Transform meassures. Permite transformarea valorilor generate de măsura
distanţei. Ele sunt aplicate după ce măsura distanţei a fost calculată. Opţiunile disponibile
sunt absolute values, change sign şi rescale to 0-1 range.

Figura 5. Meniul Save.


Ferestra Save permite:
Cluster Membership. Apartenenţa grupurilor poate fi salvată, prin bifarea
opţiunii, pentru o singură soluţie sau o gamă de soluţii. Variabilele salvate pot fi folosite
în analizele ulterioare pentru a explora alte diferenţe dintre grupuri.

31
5.1. Exemplul 1. Gruparea cazurilor - Hierarchical Cluster Analysis

Pentru a desfăşura analiza din meniul Analyze...


Classify...
Hierarchical Cluster...
În fereastra Variables se selectează variabilele preţ, capacitate hard disk,
capacitate memorie, diagonală, autonomie, greutate, memorie video, bluetooth, garanţie,
frecvenţă procesor.

În fereastra Label cases by selectăm variabila tiplap.


În câmpul Cluster bifăm cases.
În câmpul Display bifăm ambele opţiuni.
În ferestra Statistics bifăm Agglomeration Schedule, Proximity Matrix, iar în
câmpul Cluster membership bifăm Range of solutions de la 2 la 4.

32
În ferestra Plots bifăm Dendogram, la câmpul Icicle bifăm All clusters, iar la
Orientation bifăm Vertical.

În ferestra Method alegem la Cluster method Between-groups linkage, în câmpul


Measure bifăm Interval şi alegem Squared Euclidean distance; în câmpul Transform
values alegem Z scores şi bifăm By variables. În câmpul Transform measures nu bifăm
nici o opţiune.

33
În ferestra Save lăsăm bifată opţiunea None.

34
5.1.1. Interpretarea Outputului
Outputul obţinut în urma procesării conţin următoarele elemente:
Tabelul 1. Case Processing Summary

Acest tabel prezintă procentajul de variabile valide, 100% în cazul nostru. De


asemenea se arată care este numărul total de variabile utilizate în analiză, 20, atât
procentual cât şi absolut.

Proximity Matrix

În tabelul 2 sunt prezentate distanţele dintre fiecare caz în parte. Pe linia


oblică acestea au valoarea 0 deoarece distanţa dintre aceeaşi variabilă nu este calculată.
Proximity matrix este o matrice simetrică, astfel că toate elementele prezente deasupra
diagonalei principale sunt trecute şi sub această diagonală. Datele tabelului sunt pătratele
distanţelor Euclidiene pentru toate perechile de cazuri.
Se poate observa că valoarea cea mai mică este pentru perechea ( D1-E1) altfel spus,
acest caz este cel mai asemănătoare din punctul de vedere al caracteristicilor pe care le
întrunesc. Astfel putem observa că Laptorile GigaByte W551N şi Amilo L1310G au cele
mai multe caracteristici în comun.

35
Tabelul 2. Proximity Matrix

Proximity Matrix
Squared Euclidean Distance
Case 1:A1 2:A2 3:A3 4:A4 5:B1 6:B2 7:B3 8:B4 9:C1 10:C2 11:C3 12:C4 13:D1 14:D2 15:D3 16:D4 17:E1 18:E2 19:E3
1:A1 11,718 9,895 8,024 15,038 13,397 12,629 31,394 17,728 26,013 10,219 13,154 14,717 9,031 18,165 23,356 10,982 15,403 5,254
2:A2 11,718 16,366 17,386 10,385 20,663 8,687 46,262 12,499 16,354 18,312 13,787 18,311 6,376 10,763 35,327 14,069 16,409 5,477
3:A3 9,895 16,366 7,345 12,474 12,034 6,842 46,000 11,807 33,797 4,768 4,720 6,572 13,084 21,244 27,911 4,215 7,935 9,807
4:A4 8,024 17,386 7,345 12,250 16,500 15,845 40,431 16,997 34,942 8,421 10,099 8,810 10,249 21,906 24,439 11,468 13,967 6,875
5:B1 15,038 10,385 12,474 12,250 25,903 9,776 56,387 9,156 31,711 13,527 5,505 9,213 14,551 17,507 37,065 7,810 8,416 8,861
6:B2 13,397 20,663 12,034 16,500 25,903 18,247 51,811 27,269 39,967 19,481 18,047 15,742 21,649 39,452 19,723 12,828 23,310 18,869
7:B3 12,629 8,687 6,842 15,845 9,776 18,247 50,211 3,797 34,779 8,045 4,444 9,139 9,984 19,483 43,821 4,332 3,153 8,327
8:B4 31,394 46,262 46,000 40,431 56,387 51,811 50,211 58,955 68,146 53,206 47,337 42,919 42,040 54,424 52,702 46,555 58,602 44,784
9:C1 17,728 12,499 11,807 16,997 9,156 27,269 3,797 58,955 33,794 6,182 4,202 10,291 11,574 16,024 51,874 7,815 3,259 7,992
10:C2 26,013 16,354 33,797 34,942 31,711 39,967 34,779 68,146 33,794 30,487 34,856 43,810 24,565 8,918 43,756 39,115 42,946 17,977
11:C3 10,219 18,312 4,768 8,421 13,527 19,481 8,045 53,206 6,182 30,487 5,044 9,620 12,381 16,751 38,984 7,890 5,456 6,432
12:C4 13,154 13,787 4,720 10,099 5,505 18,047 4,444 47,337 4,202 34,856 5,044 3,409 14,477 19,918 38,219 2,902 2,847 9,016
13:D1 14,717 18,311 6,572 8,810 9,213 15,742 9,139 42,919 10,291 43,810 9,620 3,409 14,945 26,732 27,099 2,643 8,321 13,708
14:D2 9,031 6,376 13,084 10,249 14,551 21,649 9,984 42,040 11,574 24,565 12,381 14,477 14,945 9,831 28,326 12,319 16,301 3,662
15:D3 18,165 10,763 21,244 21,906 17,507 39,452 19,483 54,424 16,024 8,918 16,751 19,918 26,732 9,831 40,006 22,904 25,226 8,275
16:D4 23,356 35,327 27,911 24,439 37,065 19,723 43,821 52,702 51,874 43,756 38,984 38,219 27,099 28,326 40,006 26,966 52,016 32,500
17:E1 10,982 14,069 4,215 11,468 7,810 12,828 4,332 46,555 7,815 39,115 7,890 2,902 2,643 12,319 22,904 26,966 5,887 11,008
18:E2 15,403 16,409 7,935 13,967 8,416 23,310 3,153 58,602 3,259 42,946 5,456 2,847 8,321 16,301 25,226 52,016 5,887 10,273
19:E3 5,254 5,477 9,807 6,875 8,861 18,869 8,327 44,784 7,992 17,977 6,432 9,016 13,708 3,662 8,275 32,500 11,008 10,273
This is a dissimilarity matrix

36
Tabelul 3. Agglomeration Schedule

Din acest tabel se poate observa cum s-au grupat cazurile în fiecare fază de grupare.
În a doua coloană, Cluster Combined, sunt prezentate cazurile grupate. În cea de-a treia
coloană, Coefficients, sunt coeficienţii distanţelor dintre elementele grupate. În a patra
coloană, Stage cluster First Appears, ne este arătat numărul fazei în care au mai apărut
fiecare din cele două elemente. Ultima coloană, Next Stage, ne spune în ce fază va mai
apărea elementul din primul grup şi în ce fază se va modifica el.
Spre exemplu, în prima fază se grupează cazul 13 cu 17, distanţa dintre ele este cea
mai mică 2,643, nu au mai apărut până în acel moment în nici o fază, iar prima fază în care
va mai apărea cazul 13 este faza 8 şi atunci vor apărea modificări.

37
Tabelul 4. Cluster Membership
Cluster Membership

În tabelul Cluster Membership , în funcţie de numărul grupurilor formate, sunt afişate


cazurile ce intră în componenţa lor. În situaţia de faţă, se observă că cazul 8 ( Aspire 98 15
WKHi), indiferent de numărul grupurilor ce se formează, aparţine aceluiaşi grup 2.
Cazurile 10 şi 15, atunci când se formează 4 grupuri, alcătuiesc singure grupul 3.
Pentru o vizualizare mai clară a modului de grupare a cazurilor :

38
1234567
9 10 11 12
13 14 15 16
8
17 18 19

Situaţia formării a 2 grupuri

1234567
9 10 11 12
13 14 15 17
18 19 8 16

Situaţia formării a 3 grupuri

1234567
9 11 12 13 10
14 17 18 19 8 15 16

Situaţia formării a 4 grupuri

Tabelul 5. Vertical Icicle

Prezintă graficul tabeluilui Aglomeration schedule. Vertical Icicle este un grafic ce


afişează paşii în formarea grupurilor. Coloanele corespund cazurilor, iar rândurile
corespund numărului de grupuri. Acest tip de grafic se citeşte de jos în sus.

39
40
Să luăm un exemplu pentru a ilustra reprezentarea grafică. Urmărind rândurile vom
observa că 17 (Amilo L 1310G), 18 (Travel Mate 4061), 7 (MSI Megabook L720), 19
(ThinkPad R50e), sunt toate grupate după faptul că între ele există cele mai mici diferenţe
(de aproximativ 1, conform acestei scale). Este evident că 8 (Aspire 981WKHi),
16(Accer Ferrari 1005WTM) şi 10 (Sony VAIO VGN-TX1HP) diferă faţă de celelalte
mărci.
Pe linia verticală se observă că 13 şi 17 formează un grup, 12,18,9 şi 7 alt grup,14 şi 9 un
altul.
În final vom avea 4 grupuri formate astfel:
Grupul 1: 13, 17, 12, 18, 9, 7, 3, 11, 5
Grupul 2: 14, 19, 2, 1, 4
Grupul 3: 6
Grupul 4: 10, 15, 16, 8

41
5.2. Exemplul 2. Gruparea variabilelor – Hierarchical Cluster Analysis
Analiza grupurilor şi analiza factorială identifică, ambele, grupuri relativ omogene de
variabile, dar analiza factorială are un model teoretic, pe când analiza grupurilor urmează
un model ad-hoc.

Pentru a desfăşura analiza din meniul Analyze...


Classify...
Hierarchical Cluster...
În fereastra Variables se selectează variabilele preţ, capacitate hard disk,
capacitate memorie, diagonală, autonomie, greutate, bluetooth, garanţie, frecvenţă
procesor, memorie video.

În fereastra Label cases by selectăm variabila tilap.


În câmpul Cluster bifăm Variables.
În câmpul Display bifăm ambele opţiuni.
În ferestra Statistics bifăm Agglomeration Schedule, Proximity Matrix, iar în
câmpul Cluster membership bifăm Range of solutions de la 2 la 4.

În ferestra Plots bifăm Dendogram, la câmpul Icicle bifăm All clusters, iar la
Orientation bifăm Vertical.

42
În ferestra Method alegem la Cluster method Between-groups linkage, în câmpul
Measure bifăm Interval şi alegem Pearson Correlation ( reflecta gradul unei relatii lineare
dintre 2 variabile). Pentru gruparea variabilelor vom folosi corelaţia Pearson, pentru
măsurarea intensitaţii relaţiilor dintre variabile, şi se va folosi valoarea absolută pentru
fiecare variabilă (în Tranfsorm Measures) . Pentru ca grupurile sa reflecte numai
corelaţii pozitive, vom menţine semnul acestora.
Click ‘Continue’ pentru a ajunge la casuta principala a gruparii ierarhice, si apoi
dam Ok pentru a ne aparea urmatorul output .

43
5.2.1. Interpretarea outputului

Tabel.1

Acest tabel prezinta 19 cazuri valide din totalul bazei de date în proporţie de 100%.

44
Tabel. 2

45
Această figură prezintă proximităţile ce există între variabile. Se observă că
valorile matricei sunt simetrice în funcţie de diagonala (valorile de deasupra diagonalei
sunt egale cu cele dedesubtul diagonalei). În acest caz am folosit corelaţia Pearson . De
exemplu cea mai puternica corelatie este cea dintre diagonala diplay-ului şi greutatea
laptopului fără taxe (0,693), astfel că pe măsură ce scade greutatea laptop-ului, scade şi
mărimea diagonalei display-ului..
Coeficientul corelaţiei este folosit pentru a măsura similitudinea, iar matricea este
citită ca un input file(rezultatele sunt identice cu cele obţinute prin comanda FLIP)

Agglomeration Schedule

Paşii implicaţi în procedura grupării sunt la fel, atât pentru gruparea variabilelor
cât şi pentru gruparea cazurilor. Astfel rezultatele analizei grupării sunt expuse în acest
tabel. La început fiecare variabilă formează singură un grup, apoi la fiecare etapa doua
variabile se vor uni, o variabila se va uni cu un grup sau chiar doua grupuri se vor uni ,
formand unul singur.
De exemplu, in prima etapa (randul1), observam ca variabilele 4si 6 se unesc,
conform coloanei „Cluster Combined”. Valoarea coeficientului corelatiei Pearson dintre

46
cele doua variabile este de 0,693, prezentată în coloana „Coefficients”, şi reprezintă cea
mai puternică corelaţie în comparaţie cu toate perechile de variabile din acest tabel.
Urmatoarea coloana „ Stage Cluster First Appears” indică etapa la care un grup
este format pentru prima oară.(în cazul nostru nici variabila 4 şi nici 6 nu au mai format
un alt grup până acum).
Coloana „Next Stage” indică etapa la care o altă variabilă sau un alt grup este unit
cu aceasta. Astfel observăm că pe linia 9, variabila 4 apare din nou, dar de data asta se
uneşte şi cu variabila 1.
Valoarea coeficientul corelaţiei Pearson este de 0. 688, fiind mai mică decât
prima. În coloana „ Stage Cluster First Appears” indică faptul că variabila 2 formează
pentru prima dată un grup pe linia 2.
Conform coloanei „Next Stage” ne prezintă valoarea 4 , ceea ce inseamna că pe
linia 4 , variabila 2 se mai uneste şi cu variabila 3..
În cazul în care valoarea coeficienţilor este mare, atunci între variabilele ce
formează un grup există cea mai puternică relaţie de corelaţie, pe când coeficienţii mici
indică faptul că există diferenţe între variabilele ce formează un grup.

În tabelul Cluster Membership , în funcţie de numărul grupurilor formate, sunt afişate


cazurile ce intră în componenţa lor. În situaţia de faţă, se observă că în cazul 1 (preţ), 7

47
(memorie video) şi 8 (bluetooth) indiferent de numărul grupurilor ce se formează,
aparţine aceluiaşi grup 1. Cazul 5 (autonomie), atunci când se formează grupul 4 el
formează singur acest grup.

Pentru o vizualizare mai clară a modului de grupare a cazurilor.

123
5 78 4 6
9 10

Situaţia formării a 2 grupuri

15 7 8 2 3
9 10 4 6

Situaţia formării a 3 grupuri

17 8 3
4 6 5
9 10

Situaţia formării a 4 grupuri

48
Explicarea figurii Vertical Icicle din Output

Coloanele reprezinta cele 10 variabilele ce sunt „grupate”. Pentru a oferi o mai


bună vizualizare a acestui tabel, vom include numele celor 10 variabile, folosind căsuţa „l
cases”.
Prima coloană reprezintă variabila greutate, cea de-a doua diagonala. Rândurile
reprezintă etapele din analiza Cluster (grupării) şi sunt citite de la baza la vârf. Rândul 9

49
reprezintă prima etapă , în timp ce rândul 1 reprezintă ultima etapă, unde toate variabilele
formează un singur grup.
De amintit faptul că etapa 0(care nu este prezentată în tabel) înfăţişează fiecare
variabilă ca formând propriul grup. Din moment ce sunt 9 variabile, există 9 variabile în
etapa 0. Etapa 1 (rândul 9) combină cele mai apropiate 2 variabile într-un singur grup.

Explicarea dendrogramei

O altă cale de a reprezenta vizual etapele din soluţia grupării ierarhice , este
dendrograma, care identifică grupurile ce sunt unite , precum şi valorile coeficienţilor
fiecărei etape.
Această dendrogramă oferă o imagine clară asupra modului cum s-a format
Agglomeration Schedule prezentat anterior, numai că trebuie menţionat faptul că SPSS
nu reprezintă grafic distanţele actuale, ci le rearanjează atribuindu-le coeficienţi de la 0 la
25. Liniile ce sunt unite variabilelor indică un grup.

50
Să luăm un exemplu pentru a ilustra reprezentarea grafică. Urmărind rândurile vom
observa că: variabilele 4(diagonală) şi 6(greutate) formează un grup după faptul că între
ele există cea mai puternică relaţie de corelaţie (de aproximativ 1, conform acestei scale).
Variabilele 2 (capacitate hard disk) şi 10 (frecvenţă procesor) formează cel de-al doilea
grup.

5.3. Exemplul 3. Gruparea cazurilor folosind procedura K-Means

Deoarece variabilele pe care le folosim sunt măsurate în scale diferite, trebuie să


folosim procedura Descriptives din meniul Statistics pentru a standardiza variabilele cu
ajutorul proceduri Z (astfel valoarile pentru fiecare variabilă sunt”re-scalate” pentru a
avea media 0 si deviaţia standard de 1).
Din meniu alegem:
Analyze
Descriptive statistics
Descriptives

51
Selectăm variabilele care vor fi standardizate (preţ, gramaj, cantitate alcool ,gradul de
transparenţă, cantitate parfum, număr aplicaţii ) şi bifarea opţiunii Save standardized
values as variables va adăuga, în baza de date de lucru, valorile standardizate ale
variabilelor
( scorurile z ).

52
Astfel se va forma o nouă bază de date adăugându-i-se alte şase variabile
standardizate de tipul „znume variabilă”.

Gruparea cazurilor în funcţie de Cluster Analyze K-means


Din meniu alegem:
Analyze
Classify
K-Means Cluster

53
Din meniul principal alegem pentru grupare, cele şase variabile standardizate (Z
score: preţ, Z score: gramaj Z score: cantitate alcool, Z score: categorie parfum, etc), în
căsuţa „Label Cases by” alegem variabila „marcă produs”.
La „Number of Cluster”, este specificat numărul de grupuri = 4; iar la
„Method„ bifăm „Iterate and classify” pentru a repeta şi clasifica cazurile.

54
Din submeniul Iterate alegem „10” , acesta fiind numărul maxim de repetări ale
algoritmului.
Maximum iterations -limitează numărul de repetari în algoritmul K-Means.
Repetarea se opreşte după acest număr de repetari chiar dacă criteriul de convergenţă nu
este satisfacut. Acest numar poate fi intre 1 si 999.
Convergence criterion - se determină atunci când încetează repetarea. Reprezintă
o proporţie a distanţei minime între centrii clusterelor iniţiale, deci trebuie să fie cuprins
între 0 şi 1.
Use running means- permite să se solicite reactualizarea centrelor clusterilor
după ce a fost repartizat fiecare caz. Dacă nu se selectează această opţiune, noi centre
sunt calculate dupa ce au fost repartizate toate cazurile.

55
Din submeniul Save selectăm , „Cluster membership” - crează o variabilă nouă
indicând numarul final de clustere pentru fiecare caz. (aceasta ia valori de la 1 până la nr
de grupuri nou create).
„Distance from cluster center” – bifarea opţiunii determină crearea unei noi
variabile indicând distanţa euclidiana dintre fiecare caz si centrul sau de clasificare.

Din Options – „Statistics” cuprinde următoarele: Initial cluster centers, tabelul


ANOVA şi informaţii despre cluster pentru fiecare caz, selectăm „ANOVA table „ cât şi
„Cluster information for each case”; iar de la „Missing Values” bifăm „Exclude cases
listwise” pentru a exclude doar cazurile cu vlori lipsă pentru variabilile de grupare .

56
5.3.1. Interpretarea Output-ului

Acest tabel arată numărul de repetări din algoritm şi distanţele dintre centre la
fiecare etapă.

Cluster membership prezintă informaţii referitoare la distanţa fiecărui caz faţă de


centrul grupului său. Se observă că cel mai îndepartat caz faţă de centrul său (cluster 10)
este Florentine – distanţa e de 1,586, iar cel mai apropiat este Oriflame (distanţa faţă de
centrul său fiind de 0).

57
Final Cluster Center indică media variabilor stadardizate pentru fiecare grup.
Media fiecărui grup defineşte centrul său. De exemplu , se observă că pentru grupul 1
(Nivea, Dove, Amway ), media preţului are o deviaţie standard 0,55 unităţi peste media
antiperspirantelor în timp ce pentru grupul 4(Secret, Avon, Florentine) media are o
deviaţie standard de -0,11 sub medie.
În cazul gramajului, media grupului 2(Oriflame) indică o deviaţie standard de
aproximativ 1,16 (ca şi media grupului 1) , fiind peste media celorlate
antiperspirante(din grupul 3 şi 4) , pe când media grupului 4(Secret, Avon, Florentine)
are o deviatie standard de aproximativ – 0,77, aceasta aflându-se sub media celorlate
medii (înafară de grupul 3, care are aceeaşi deviaţie)

Tabelul de mai sus arată distanţele dintre centrele celor patru grupuri. Se observă
că cea mai mare distanţă e între grupul 3 (Rexona, Lady Speed Stik şi Fa) şi 1 (Nivea,
Dove, Amway), de 4,233, iar cea mai mică distanţă este între grupul 3 (Rexona, Lady
Speed Stik şi Fa) si 4(Secret şi Avon), de 2,374.

58
ANOVA (analiza varianţei). Pentru fiecare variabilă în particular, SPSS
realizează o analiză a varianţei de tip One –Way ANOVA folosind clusterele finale ca
grupuri. În coloana Cluster sunt afişate mediile patratice dintre grupuri iar în coloana
Error mediile pătratice din grupuri.
Raportul celor două medii pătratice este reprezentat de Anova F statistics. Ultima
coloană, Sig trebuie ignorată deoarece raportul F nu este folosit pentru a măsura
semnificaţia. Grupurile sunt formate pentru a caracteriza diferenţele.
Se observă că media variabilei Z_număr aplicări diferă cel mai mult de-a lungul
celor 4 grupuri (F=33,817) pe când media Z_gramaj nu diferă deloc de-a lungul celor 4
grupuri (F= 0).

Aparent aceste cazuri nu par a fi distribuite în mod egal în grupuri. Sunt puţine
cazuri în grupul 2 (este un singur caz, Oriflame), pe când în grupurile 1, 3 şi 4 sunt cele
mai multe cazuri, câte 3 . Dacă presupunem că fiecare grup reprezintă tipul mărcii de

59
antiperspirant, am putea spune că sunt mai multe antiperspirante ale acestui tip
reprezentate de grupurile 1, 3 şi 4 decât faţă de cel găsit în grupul 2. Nu a fost eliminat
nici un caz conform „ Missing cases”.

5.3.2.Reprezentare grafică

Pentru reprezentare grafică, meniul Graphs selectăm graficul Scatter – Simple şi


selectăm Define.

Pentru axa Y selectăm ca variabilă „Distance of cases from its classification


cluster center” şi pentru X selectăm „ Cluster number of cases” iar la „Set markers by”
alegem Marcă produs pentru legendă.
Din Titles alegem numele graficului: Graph

60
În primul rând graficul nu înlocuieşte analiza propiu-zisă. El ajută la înţelegea
analizei, oferind o imagine a modului în care s-a realizat gruparea.
Graficul de mai sus prezintă cele 10 cazuri ale bazei de date, grupate în funcţie de
distanţa fiecărui caz faţă de centrul grupului şi în funcţie de numărul de grupuri format.
Se observă că Un grup este format din produsele marca AMWAY, Dove şi Nivea, un alt
grup din Lady Spead Steak, Rexona şi FA, următorul din Secret , AVON şi Florentine,
iar un singur produs, marca Oriflame aparţine unui alt grup.

61

You might also like