You are on page 1of 24

Complementos de Estatstica para Engenharia

Mestrado em Engenharia da Qualidade e Ambiente

Docente
Sandra Aleixo

Instituto Superior de Engenharia de Lisboa

iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 1 / 24


Complementos de Estatstica para Engenharia

Anlise de clusters

iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 2 / 24


Anlise de clusters

um mtodo que permite dividir um conjunto de n


indivduos ou objectos em grupos ou clusters, em funo
da informao existente relativamente a p variveis, de
modo a que indivduos ou objectos pertencentes a um
mesmo grupo sejam to semelhantes quanto possvel, e
sejam sempre mais semelhantes aos elementos do
mesmo grupo do que a elementos dos outros grupos.

A dificuldade inicial a de no existir um modo nico de


definir os grupos. Mtodos diferentes podem conduzir a
agrupamentos muito distintos tanto em nmero como em contedo.

Em todos os mtodos de anlise de clusters, pretende-se


que os grupos contenham indivduos semelhantes, mas
que esses grupos se distingam de modo significativo entre iselogo
si.
Sandra Aleixo e Clia Fernandes Anlise de Clusters 3 / 24
Anlise de clusters

A anlise de clusters compreende genericamente cinco etapas:


1 Seleco dos indivduos a serem agrupados;
2 Escolha das variveis para as quais se vai recolher informao
necessria para proceder ao agrupamento dos indivduos;
3 Definio de uma medida de semelhana ou de uma medida de
distncia entre cada dois indivduos;
4 Escolha de um critrio de agregao ou desagregao dos
indivduos (definio de algoritmo de partio/classificao);
5 Validao dos resultados obtidos.

Deve ter-se muito cuidado: inicialmente, na seleco de variveis, mas


tambm no final na classificao que resulta da anlise. O investigador
deve analisar se os resultados fazem sentido no contexto do problema
em estudo.
iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 4 / 24


Seleco de variveis

Nesta etapa colocam-se duas questes, relativamente:


1 escolha as variveis que melhor vo caracterizar cada
indivduo, permitindo a sua classificao num dado grupo;
(problema a ser resolvido pelo investigador a partir de conhecimento
prvio sobre o assunto).
2 ao tipo de variveis usadas, sobretudo se estas esto definidas
em unidades de medida distintas.

Quando as unidades de medida das variveis so distintas e/ou quando


as varincias das variveis so muito diferentes, o processo mais
utilizado para anular a influncia que este facto pode ter nos resultados
da anlise de clusters, consiste na estandardizao das variveis. Se a
estardadizao no for aplicada antes de usar uma anlise de clusters,
qualquer medida de semelhana/distncia vai refectir o peso das
variveis que apresentam maiores valores e maior disperso.
Ao estandardizar os dados, as variveis passam a estar numa escala iselogo

comum, na qual nenhuma varivel domina as outras.


Sandra Aleixo e Clia Fernandes Anlise de Clusters 5 / 24
Seleco de variveis

Este processo de estandardizao poder no ser aconselhvel em


algumas situaes, nomeadamente quando existam variveis que
sejam mais importantes que as outras, e para as quais essa
importncia se deva manter e no anular-se.

A soluo mais correcta deve ser determinada em cada caso, com


base na experincia e conhecimento do assunto em estudo por parte
do analista.

Sempre que possvel, os dados usados para efectuar uma anlise de


clusters devem ser relativos a variveis na mesma unidade de medida.

iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 6 / 24


Escolha do nmero de clusters a formar

Um questo fundamental na anlise de clusters a escolha do nmero


de clusters a formar.
Esta questo ainda um problema em aberto. H vrios mtodos para
determinar o nmero ptimo de clusters mas nenhum completamente
satisfatrio.
Apresentam-se de seguida alguns mtodos grficos para resolver este
problema:
Diagramas de perfil;
Grfico dos coeficientes de fuso em funo do nmero de
clusters;
Grfico da soma dos quadrados dos desvios dentro dos clusters
em funo do nmero de clusters;
Grfico da percentagem de varincia explicada em funo do
nmero de clusters.
iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 7 / 24


Diagrama de perfil
uma tcnica grfica til para dar ideia do nmero de clusters a
formar, quando se tem um nmero moderado de variveis.
Caso as variveis no tenham todas a mesma unidade de medida, os
dados so normalmente estandardizados antes de construir o grfico.
Um diagrama de perfil lista as variveis ao longo do eixo horizontal e a
escala de valores (eventualmente estandardizados) ao longo do eixo
vertical.
Cada ponto do grfico representa o valor da varivel correspondente.
A visualizao grfica de todos os casos (indivduos) no mesmo
diagrama constitui um procedimento preliminar da anlise de clusters.
Linhas idnticas correspondem a indivduos que esto no mesmo
cluster.
Este mtodo permite assim ter-se uma ideia do nmero de clusters
bem como do tipo e contedo de cada um deles.
Embora a efectividade desta tcnica no seja afectada pelo nmero de
variveis, ela falha quando o nmero de observaes muito grande iselogo
pois a imagem fica confundida.

Sandra Aleixo e Clia Fernandes Anlise de Clusters 8 / 24


Outras tcnicas grficas para determinar o nmero de
clusters que usam critrio do cotovelo
Uma tcnica alternativa para determinar o nmero de clusters a formar, obtida
pela observao da representao grfica do nmero de clusters com o
coeficiente de fuso - valor da distncia ou da semelhana para o qual vrios indivduos se juntam
para formar um grupo.
Se a formao de mais um grupo no introduz alteraes significativas no
coeficiente de fuso, resultando num ngulo mais acentuado no grfico (critrio
do cotovelo - elbow criterion), ento considera-se esse o nmero de clusters k
a formar.
Quando a representao grfica mostra apenas pequenos saltos ento este
mtodo no permite identificar o melhor nmero de clusters a formar.
Uma outra tcnica idntica baseia-se na observao da representao grfica
da soma dos quadrados dos desvios dentro dos clusters como uma funo do
nmero de clusters. Deve escolher-se o nmero de clusters de modo a que se
se acrescentar outro cluster no diminui muito essa soma dos quadrados dos
desvios dentro dos grupos.
Mais concretamente, se se representar graficamente a soma dos quadrados dos
desvios dentro dos clusters em funo do nmero de clusters, os primeiros
clusters diminuem significativamente a soma dos quadrados dos desvios dentro
dos clusters, mas em em determinado momento a diminuio dessa soma deixa
de ser to significativa, resultando num ngulo do grfico (critrio do cotovelo - iselogo
elbow criterion). O nmero de grupos escolhido neste ponto.

Sandra Aleixo e Clia Fernandes Anlise de Clusters 9 / 24


Outras tcnicas grficas para determinar o nmero de
clusters que usam critrio do cotovelo

Tendo em considerao que todos os mtodos de anlise de clusters


pretendem minimizar a varincia dentro dos grupos e maximizar a
varincia entre os grupos, alternativamente, pode observar-se o grfico
da percentagem de varincia explicada como uma funo do nmero
de clusters. Deve escolher-se o nmero de clusters de modo a que, se
se acrescentar outro cluster, essa percentagem de explicao dos
dados no melhora muito.

Mais precisamente, se se representar graficamente a percentagem de


varincia explicada pelos clusters em funo do nmero de clusters, os
primeiros clusters acrescentaro muita informao (explicam muita
varincia), mas em algum momento o ganho marginal ir ser menor,
resultando num ngulo do grfico (critrio do cotovelo - elbow
criterion). O nmero de grupos tambm escolhido neste ponto.
iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 10 / 24


Medidas de distncia
Os mtodos de anlise de clusters requerem a definio de uma
medida de semelhana ou uma medida de distncia entre dois
indivduos ou objectos.
Indivduos semelhantes devem pertencer ao mesmo cluster, e indivduos
dissemelhantes a clusters diferentes.
A distncia mais usual a Euclideana que, para p variveis, a raiz
quadrada da soma dos quadrados das p diferenas entre as
coordenadas de cada varivel para as n observaes.
Seja Xnp a matriz de dados. Ento a distncia Euclideana entre os
indivduos i e j dada por
g
f
f p
dij  e pxik  xjk q2
k 1

As distncias entre todos os pares de pontos so sumarizadas numa


matriz simtrica n  n, que obviamente tem diagonal nula.
Quando as variveis so correlacionadas, essa correlao deve ser iselogo
tida em conta, e a distncia de Mahalanobis f-lo.

Sandra Aleixo e Clia Fernandes Anlise de Clusters 11 / 24


Medidas de distncia

A distncia de Mahalanobis ou distncia generalizada entre os


indivduos i e j dada por
 1 
dij  ri
X  Xrj  1 X
ri  Xrj
onde Xri e Xrj so os vectores de valores das p variveis para os
indivduos i e j, respectivamente, e a matriz de covarincia.

Medidas de distncia diferentes originam matrizes de distncias


distintas, e portanto conduzem a diferentes anlises de clusters.

iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 12 / 24


Mtodos de Anlise de clusters
H vrios mtodos de anlise de clusters, devendo escolher-se o mais
apropriado para usar em cada caso.
Entre os mtodos mais usuais esto:
Mtodos hierrquicos (aglomerativos ou divisivos) - mtodos que
partem de uma matriz de semelhanas ou dissemelhanas
(distncias) entre os indivduos, e que conduzem a uma
hierarquia de parties P1 , P2 , . . . , Pn do conjunto de n indivduos
em 1, 2, . . . , n grupos. Cada grupo da partio Pi 1 est includo num
grupo da partio Pi . A entrada (ou sada) de um indivduo num
cluster numa dada etapa definitiva.
Mtodos de particionamento interactivos - mtodos que se
aplicam aos dados originais, que permitem por isso a anlise de
clusters a bases de dados de maior dimenso. O nmero de
clusters k fixo a priori pelo analista. H tranferncia de
indivduos entre clusters nas vrias etapas. Estes mtodos s
diferem entre si relativamente ao critrio usado no processo de iselogo
transferncia de um indviduo de um cluster para outro.

Sandra Aleixo e Clia Fernandes Anlise de Clusters 13 / 24


Mtodos hierrquicos

Esta tcnica baseia-se na construo de uma matriz de semelhanas


(ou dissemelhanas) em que cada entrada da matriz corresponde ao
grau de semelhana (ou diferena) entre dois indivduos com base nas
variveis escolhidas.
Os mtodos hierrquicos podem ser aglomerativos ou divisivos.
Nos mtodos aglomerativos parte-se de n grupos, cada um contendo
apenas um indivduo, que v sendo agrupados sucessivamente at se
chegar a apenas um grupo que incluir todos os n indivduos.
Nos mtodos divisivos parte-se de um grupo que inclui todos os n
indivduos e por um processo de divises sucessivas, obtm-se n
grupos, cada um contendo apenas um indivduo.
Os mtodos hierrquicos mais utilizados so os aglomerativos, pois os
divisivos, bem como os mtodos de optimizao so muito pesados em
termos computacionais.
iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 14 / 24


Mtodo hierrquico aglomerativo

As etapas do mtodo aglomerativo so:


1 Comea por considerar que cada indivduo forma um cluster de dimenso
um, e compara as distncias entre estes clusters.
2 Os dois indivduos que esto mais prximos um do outro so juntos para
formar um novo cluster.
3 Comparam-se novamente as distncias entre os clusters e juntam-se os
clusters mais prximos.
4 Este procedimento repetido, e se for continuado indefinidamente
agrupar todos os pontos num s cluster.
Neste mtodo hierrquico, se um indivduo atribudo a um grupo, o processo
no pode ser revertido, ou seja, fica definitivamente nesse grupo.
H vrias formas de calcular a distncia entre dois clusters que contenham mais
do que um elemento - diferentes critrios de agregao.
Uma das abordagens mais simples considerar que a distncia entre dois
clusters a distncia dos vizinhos mais prximos - mtodo da do vizinho mais
prximo (single linkage method).
iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 15 / 24


Dendograma

As sucessivas etapas de um agrupamento hierrquico podem


observar-se num grfico designado por dendograma.
O eixo vertical pode mostrar:
a distncia dij entre dois pontos i e j na altura em que estes
so juntos no mesmo cluster ; d
ou a similaridade sij  100 1  dmax ij
onde dmax a
separao mxima entre quaisquer dois pontos.
Os dois diagramas parecem iguais mas as suas escalas verticais so
diferentes.
A etapa na qual se pra o agrupamento, na qual se determina o
nmero de clusters na classificao final, fica ao cuidado do analsta.

iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 16 / 24


Critrios de agregao

Escolhida uma medida de distncia, necessrio escolher o critrio de


agregao (desagregao) dos indivduos.
Os vrios critrios de agregao (desagregao) distinguem-se pelo
modo como estimam as distncias entre grupos j formados e os
outros grupos ou indivduos por agrupar.
O processo de agrupamento de indivduos j agrupados depende da
distncia entre os clusters. Assim, distncias distintas levam a solues
diferentes.
No h o melhor critrio. Na prtica, usam-se vrios critrios, e se os
resultados forem semelhantes conclui-se que estes resultados so
estveis e fiveis.
Entre os critrios de agregao mais usados esto:
Critrio do vizinho mais prximo ou single linkage;
Critrio do vizinho mais afastado ou complete linkage;
Critrio da mdia dos grupos;
Critrio de Ward. iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 17 / 24


Critrio do vizinho mais prximo ou single linkage

Segundo este critrio, dois grupos so reagrupados num s grupo


atendendo distncia entre os seus indivduos mais prximos.
Dados dois grupos: um constitudo pelos indivduos i e j e o outro
apenas constitudo pelo indivduo k , a distncia entre os dois grupos
a menor das distncias entre os indivduos dos dois grupos:

dpi,j qk  mintdik , djk u

Cada grupo formado pelo conjunto de indivduos, em que qualquer


um deles mais semelhante a pelo menos um outro indivduo do
mesmo grupo do que a qualquer indivduo de outro grupo.
Desvantagem: Neste mtodo cada indivduo tem mais tendncia para
se agrupar a um grupo j existente do que a formar um ncleo de outro
grupo.
Vantagens: Este mtodo insensvel a transformaes montonas da
matriz das distncias e no afectado pela existncia de relaes nos
iselogo
dados iniciais.

Sandra Aleixo e Clia Fernandes Anlise de Clusters 18 / 24


Critrio do vizinho mais afastado ou complete linkage

A distncia entre dois grupos agora a distncia entre os seus


indivduos mais afastados.
Dados dois grupos: um constitudo pelos indivduos i e j e o outro
apenas constitudo pelo indivduo k , a distncia entre os dois grupos
a maior das distncias entre os indivduos dos dois grupos:

dpi,j qk  max tdik , djk u

Cada grupo formado pelo conjunto de indivduos, em que cada um


deles mais semelhante a todos os restantes indivduos do mesmo
grupo do que a qualquer indivduo dos restantes grupos.
Vantagens: Este mtodo forma clusters compactos bem definidos,
formados por indivduos muito idnticos entre si.
Desvantagem: Os clusters obtidos nem sempre apresentam um
elevado grau de concordncia com a estrutura inicial dos dados.
iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 19 / 24


Critrio da mdia dos grupos

A distncia entre dois grupos neste caso a mdia das distncias


entre todos os pares de indivduos de um e outro grupo.
Dados dois grupos: um constitudo pelos indivduos i e j e o outro
apenas constitudo pelo indivduo k , a distncia entre os dois grupos
a mdia entre a distncia entre o indivduo i e o indivduo k e a
distncia entre o indivduo j e o indivduo k :

dpi,j qk  dik 2 djk

Um grupo formado pelo conjunto de indivduos, em que cada um


deles tem mais semelhanas, em mdia, com todos os indivduos do
mesmo grupo do que com todos os indivduos de qualquer outro grupo.
Vantagem: Enquanto que, nos dois mtodos anteriores, a incluso de
um indivduo num grupo dependia apenas de um valor de semelhana,
este mtodo evita valores extremos (o menor ou maior) e considera
toda a informao dos grupos. iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 20 / 24


Critrio de Ward
Baseia-se na perda de informao resultante do agrupamento de
indivduos, a qual medida atravs da soma dos quadrados dos
desvios das observaes de cada indivduo relativamente s mdias
dos grupos em que so classificados.
O mtodo compreende as seguintes etapas:
1 Calculam-se as mdias das variveis para cada cluster ;
2 Determina-se o quadrado da distncia Euclideana entre essas
mdias e os valores observados das variveis para cada
indivduo;
3 Somam-se os quadrados das distncias para todos os indivduos;
4 Pretende-se finalmente minimizar a varincia dentro dos grupos,
ou seja, a funo objectivo a minimizar a soma dos quadrados
dos erros (ESS - Error Sum of Squares) ou soma dos quadrados
dentro dos grupos (WSS - Within Sum of Squares):
nj  2

k
WSS  Xij  Xj
j 1 i 1 iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 21 / 24


Critrio de Ward
Procedimento:
1 No incio do processo de agrupamento, cada indivduo forma um
cluster e WSS  0;
2 Em seguida agrupam-se os dois indivduos que causam um
menor aumento no valor no WSS, passando a existir n  1
clusters;
3 Os n  1 clusters so avaliados e formam-se n  2 clusters
minimizando o aumento no valor de WSS;
4 O processo continua sistematicamente at todos os indivduos
formarem apenas um cluster.
Desvantagens:
Este mtodo tende a formar clusters de tamanho semelhante;
Tal como o mtodo do vizinho mais afastado eo mtodo da mdia,
este mtodo tende a encontrar clusters esfricos quando a
representao grfica dos dados evidencia clusters com formas
distintas. Deste modo, em vez de extrair a estrutura existente nos
dados, este mtodo parece impor-lhes uma estrutura que estes iselogo
no tm.
Sandra Aleixo e Clia Fernandes Anlise de Clusters 22 / 24
k -means - Mtodo de particionamento interactivo
Este mtodo partitivo, que se aplica diretamente aos dados originais, compreende as
seguintes etapas:
1 Particionar os indivduos em k clusters (k um nmero fixo previamente).
Um particionamento inicial interessante pode ser obtido do seguinte modo:
Determinar a matriz das distncias entre cada par dos n indivduos.
Calcular o centride de todos os indviduos (centride global inicial);
(vector de ordem p, onde cada coordenada corresponde mdia de uma varivel para os valores
de todos os indviduos).
Determinar as sementes dos k clusters como sendo os k casos
correspondentes aos indivduos que esto o mais afastados possvel do
centride global inicial;

Atribuir cada um dos restantes n k indivduos ao cluster cuja semente
esteja mais prxima dele. Obtm-se assim uma partio inicial dos n
indivduos em k clusters iniciais.
2 Calcular os centrides dos clusters;
(para cada cluster, o respectivo centride um vector de ordem p, onde cada coordenada corresponde
mdia de uma varivel para os valores de todos os indviduos nesse cluster ).

3 Determinar as distncias entre cada indivduo e os centrides dos vrios iselogo


clusters;

Sandra Aleixo e Clia Fernandes Anlise de Clusters 23 / 24


k -means - Mtodo de particionamento interactivo

4 Transferir cada indivduo para o cluster cujo centride estiver a uma menor
distncia. Ao efectuar este procedimento, a variabilidade dentro dos clusters
reduzida;
5 Aps as transferncias terem sido efectuadas, calcular os novos centrides dos
clusters renovados (com mais ou com menos indivduos que na etapa anterior);
6 Continuar a reclassificar os indivduos, repetindo os dois passos anteriores, at
no ser necessrio transferir mais nenhum indviduo de um cluster para outro,
ou seja, at que a varincia dentro dos clusters no possa ser mais reduzida.
Nessa altura, todos os indivduos esto num cluster cujo centride o mais
prximo deles. Obtm-se ento os clusters finais.

Desvantagens do mtodo:
O valor de k tem que ser escolhido a priori. Muitos mtodos tm sido sugeridos para
escolher k mas nenhum realmente satisfatrio.

O agrupamento final reflecte a a escolha inicial de clusters ou das sementes. O


particionamento inicial pode ser outro, basta escolher k sementes diferentes. Os
mtodos partitivos no procuram todos os possveis particionamentos dos
dados, portanto possvel que alguma outra partio inicial possa conduzir a
melhores resultados. iselogo

Sandra Aleixo e Clia Fernandes Anlise de Clusters 24 / 24

You might also like