1

ANALISIS DE CONGLOMERADOS
Jorge Galbiati R.
Consiste en buscar grupos (conglomerados) en un conjunto de observaciones de forma tal que
aquellas que pertenecen a un mismo grupo se parecen, mientras que aquellas que pertenecen a
grupos distintos son dis´ımiles, seg´ un alg´ un criterio de distancia o de similitud.
Los algoritmos de formaci´on de conglomerados se agrupan en dos categor´ıas:
Algoritmos de partici´on: M´etodo de dividir el conjunto de observaciones en k conglomerados,
en que k lo define inicialmente el usuario.
Algoritmos jer´ arquicos: M´etodo que entrega una jerarqu´ıa de divisiones del conjunto de ele-
mentos en conglomerados.
Un m´etodo jer´ arquico aglomerativo parte con una situaci´ on en que cada observaci´ on forma un
conglomerado y en sucesivos pasos se van uniendo, hasta que finalmente todas est´an en un ´ unico
conglomerado.
Un m´etodo jer´ arquico divisivo sigue el sentido inverso: Parte de un gran conglomerado y en pasos
sucesivos se va dividiendo hasta que cada observaci´on queda en un conglomerado distinto.
DISTANCIAS ENTRE ELEMENTOS: DISIMILARIDADES
Se dispone de una matriz de datos X
n×p
= (x
ic
) en que i representa una observaci´on y c una
variable.
Una matriz de disimilaridades o distancias D
n×n
es una matriz tal que su elemento i, j es una
disimilaridad d(ij) tal que para todoi, j, k:
1. d(i, j) ≥ 0
2. d(i, i) = 0
3. d(i, j) = d(j, i)
4. d(i, j) ≤ d(i, k) + d(k, j)
D es sim´etrica y su diagonal est´ a formada por ceros.
La disimilaridad d(i, j) representa una medida de la diferencia entre dos observaciones x
i
y x
j
y
constituyen la base para la formaci´ on de conglomerados.
2
A continuaci´ on se muestra una colecci´ on de las principales medidas de disimilaridad, seg´ un el tipo
de escala de medida de las variables.
Algunas medidas de disimilaridad Hay varias medidas de disimilaridad o distancia, apropiadas
para diferentes tipos de escala en que se miden los datos: escala num´erica lineal, num´erica no lineal,
ordinales, nominales y nominales binarios.
Escalas num´ericas
1. Distancia Euclidea:
d(i, j) =

¸
p
c=1
(x
ic
−x
jc
)
2
2. Distancia Manhatan o City Block
d(i, j) =
¸
p
c=1
|x
ic
−x
jc
|
3. Distancia de Minkowski
Es una generalizaci´on de las anteriores:
d(i, j) = (
¸
p
c=1
|x
ic
−x
jc
|
q
)
1
q
en que q es cualquier n´ umero real mayor o igual que1.
4. Distancia de correlaci´on
El coeficiente de correlaci´on es una medida de proximidad o similitud entre dos series de datos.
Por lo tanto, a partir de ´el se puede definir una medida de disimilaridad:
d(i, j) = (1 −corr(i, j))/2
Esta medida tiene un rango de valores entre 0 y 1.
5. Estandarizaci´ on de variables:
La unidad de medida de las variables afecta el resultado. Si las variables tienen ´ ordenes de magnitud
muy distintas, es conveniente estandarizarlas previamente:
z
ic
=
xic−mc
sc
3
en que m
c
y s
c
son medidas muestrales de centro y dispersi´ on respectivamente, ambas medidas en
la misma escala de x
ic
.
Por ejemplo, las m´ as conocidas, media y desviaci´on standard muestrales.
m
c
=
1
n
¸
n
i=1
x
ic
y s
c
=

1
n
¸
n
i=1
(x
ic
−m
c
)
2
Medidas con escala n´ umericas no lineales
6. Son medidas efectuadas en escalas no lineales, por ejemplo exponencial, cuadratica, etc .(Ej: un
crecimiento bacteriano con funci´ on de crecimiento Ac
Bt
, o un ´ındice porcentual), se tratan como
ordinales o bien se les aplica una transformaci´on para linealizarlos, y se aplica cualquier medida
para escalas lineales.
Escalas ordinales
Se conoce el orden pero no la magnitud de las observaciones.
7. Se obtiene una medida de disimilaridad mediante el siguiente procedimiento:
a. Reemplazar x
ic
por su rango r
ic
∈ {1, ....., M
c
} dentro de la columna.
b. Transformar a la escala entre 0 y 1, haciendo: z
ic
=
ric−1
Mc−1
c. Calcular las disimilariaddes como en el caso de las escalas de num´ericas.
Escalas nominales
Por ejemplo, resultados de una encuesta, en que cada encuestado responde a una serie de preguntas
(variables) en escalas {a, b, c, ...}. La medida de disimilaridad entre dos encuestados es la proporci´on
de respuestas en que difieren.
9. Caso general.
d(i, j) =
N
o
de variables con valores diferentes
p
Variables en escala nominal binaria
Son variables con dos valores, se pueden codificar con 0 y 1. La siguiente es la tabla de
contingencia para las observaciones ”i” y ”j”.
i \ j 1 0
1 a b
0 c d
4
10. Si las variables son sim´etricas (ambos valores igualmente importantes), se define una medida
de disimilaridad como
d(i, j) =
b+c
a+b+c+d
11. Si las variables son asim´etricas (una de ellas, codificada 1, es m´ as importante que la otra,
codificada 0). Por ej., la presencia o ausencia de un cierto atributo.Se define una medida que s´ olo
considera el universo de aquellos en que el atributo est´ a presente, llamado coeficiente de Jaccard:
d(i, j) =
b+c
a+b+c
Se excluye d, el n´ umero de comparaciones en que ambas variables valen 0.
Variables mixtas
12. Para observaciones constituidas por combinaciones de variables con escalas diferentes hay
medidas de distancia que combinan medidas de los tipos anteriores, seg´ un el tipo de variable,
ponderadas de manera conveniente.
DISTANCIAS ENTRE CONGLOMERADOS
Las distancias entre los conglomerados son funciones de las distancias entre observaciones, y hay
varias formas de definirlas: Sean A y B dos conglomerados.
Vecino m´as cercano
d(A, B) = m´ın
i∈A
j∈B
d(i, j)
Vecino m´as lejano
d(A, B) = m´ax
i∈A
j∈B
d(i, j)
Promedio de grupo
d(A, B) =
1
nAnB
¸
i∈A
j∈B
d(i, j)
5
Centroide
d(A, B) = d(x
A
, x
B
)
en que x
A
y x
B
son los respectivos centroides de los conglomerados A y B.
El siguiente gr´ afico ilustra las distancias entre conglomerados: Vecino m´as cercano, vecino m´as
lejano, promedio del grupo y centroide, respectivamente.
Figura 1: Distancias entre conglomerados: Vecino m´ as cercano, m´ as lejano, promedio, centro
gravedad.
Medoide
Es la distancia entre los medoides de los grupos.
El vecino m´ as cercano tiende a formar conglomerados m´ as alargados.
El vecino m´ as lejano forma conglomerados m´ as esfericos.
El promedio de grupo y el centroide son m´as robustos que los dem´as.
El medoide es la m´as robusta de las distancias entre conglomerados.
METODOS DE PARTICION.
Se mostrar´an dos m´etodos de an´alisis de conglomerados no jer´erquicos, o de partici´on, el de las
k-medias y el de ´ as k-medoides, de los cuales el m´etodode las k-medias es el m´ as conocido, y otros
dos derivados de los anteriores.
1. M´etodo K-medias. Es un m´etodo iterativo que consiste en los siguiente procedimiento. El
usuario debe proporcionar el n´ umro k de conglomerados que desea tener. Tambi´en se debe definir
una medida de distancia:
6
a. Particionar el conjunto de observaciones en k grupos iniciales arbitrarios.
b. Recorrer todas las observaciones, asign´andolas al conglomerado cuyo centroide est´e a menor
distancia. Cada vez que se reasigna una observaci´on a un conglomerado distinto del que la conten´ıa
s deben recalcular los centroides del conglomerado que pierde la observaci´on y del que la recibe.
Si el conglomerado A (que consiste en n
A
observaciones) pierde la observaci´ on x
i
y si el conglom-
erado B (con n
B
observaciones) recibe a x
i
, los centroides respectivos x
A
y x
B
se modifican de la
siguiente forma:
x

A
=
1
nA−1
(n
A
x
A
−x
i
)
x

B
=
1
nB+1
(n
B
x
B
+ x
i
)
c. Repetir el paso b hasta que no haya m´ as reasignaciones.
EJEMPLO:
Se tienen 4 observaciones cuya matriz de datos est´a dada a continuaci´ on:





0 3 9 12
4 1 6 10
10 7 3 4
10 10 3 1





Se usar´a el m´etodo de las k-medidas para formar dos conglomerados. Tambi´en se utilizar´ an las
distancias euclidea.
En forma de vectores, las cuatro observaciones (filas) son:
x
1
=





0
3
9
12





x
2
=





4
1
6
10





x
3
=





10
7
3
4





x
4
=





10
10
3
1





Definimos arbitrariamente dos conglomerados iniciales . Sean
A = {x
1
} y B = {x
2
, x
3
, x
4
}
Sus centroides respectivos son:
7
x
A
=





0
3
9
12





y x
B
=





8
6
4
5





Algoritmo Iterativo:
Se deben calcular las distancias de cada observaci´ on a los centroides de cada conglomerado. Si
una observaci´ on est´ a a menor distancia del conglomerado vecino, se cambia de conglomerado, se
recalculan los centroides y se pasa a la siguiente iteraci´on.
Iteraci´ on 1
Cuadro de distancias euclideas (al cuadrado) de las observaciones a los centroides, partiendo por
x
1
centroide x
A
x
B
observaci´ on x
1
0 147
x
2
33 70
Cambia x
2
del conglomerado B a A y termina la iteraci´ on 1. No es necesario seguir probando con
x
3
ni x
4
.
Iteraci´ on 2
Nuevos centroides, recalculados. Ahora A =
¸
x
1,
x
2
¸
y B = {x
3
, x
4
}
x
A
=





2
2
7,5
11





x
B
=





10
8,5
3
2,5





Cuadro de distancias al cuadrado, partiendo de x
3
:
centroide x
A
x
B
observaci´ on x
3
158.25 4.5
x
4
248.25 4.5
x
1
8.25 256.5
x
2
8.25 157.5
Las cuatro observaciones quedaron bien clasificadas, luego ya no hay m´ as cambios, por lo tanto los
dos conglomerdos resultantes son:
A = {x
1
, x
2
} y B = {x
3
, x
4
}
8
2. M´etodo K-Medoides.
Es como el k-medias, pero usa los medoides en lugar de los centroides.
El medoide es el punto tal que sus coordenadas son las medianas de las variables respectivas.
3. Conglomerados para conjuntos grandes.
La matriz de distancias es de orden n
2
, por lo que en un conjunto muy grande de observaciones,
estos m´etodos resultan impracticables.
En tal caso se puede hace una simplificaci´on, que lleva a resultados no ´optimos, como los entregados
por los m´etodos anteriores, pero que buscan acercarse al ´ optimo.
El m´as com´ un consiste en extraer una muestra aleatoria de casos, con tama˜ no m´as adecuado al
procedimiernto que se desea utilizar.
A esta muestra se le aplica un m´etodo de conglomerados, como el k-medias o el k-medoide. Una vez
finalizado, cada observaci´ on que no est´ a en la muestra, es asignada al conglomerado cuya media
(o medoide) es m´as cercano. Una medida de bondad de conglomeraci´ on es obtenida mediante el
promedio de las distancias entre cada observaci´on y el medoide de su conglomerado.
Es conveniente repetir el procedimiento anterior, partiendo de diversas mientras. Luego de ´esto
se selecciona la que ya tenga la mejor medida de conglomeraci´on. Se recomienta usar 5 muestras
distintas.
4. An´ alisis Fuzzy (difuso)
Es una variante de los m´etodos k-medias y k-medoides. En lugar de asignar un objeto a un grupo
en forma deterministica, entrega probabilidades de pertenencia de cada observaci´ on a los distintos
conglomerados, en base a sus distancias a los centros de estas. Por ejemplo, pueden ser propor-
cionales a las distancias. Se reasigna una observaci´ on por sorteo, de acuerdo a las probabilidades
definidas.
METODOS JERARQUICOS.
Son m´etodos que parten de tantos conglomerados como casos hay, y en cada etapa siguiente van
juntando conglomerados, hasta llegar a uno solo (m´etodo aglomerativo). O bien, partiendo de uno,
van subdividiendo conglomerados hastya llegar a un caso por conglomerado (m´etodo divisivo).
5. Aglomerativo
Inicialmente cada observaci´on es un conglomerado.
9
Luego en cada paso se unen los conglomerados que est´an a menor distancia y se calcula la distancia
del nuevo conglomerado con todos los dem´ as, form´ andose una nueva matriz de distancias.
El algoritmo termina cuando queda un conglomerado con todas las observaciones.
EJEMPLO
Se tiene una muestra de siete entrevistados que responden a una encuesta de diez preguntas, cada
una con respuestas entre las alternativas a, b, c, d y e
.La matriz de datos de las respuesta es la siguiente:
encuestado
pregunta 1 2 3 4 5 6 7 8 9 10
1 a b b c a b b a a d
2 a c b c d e e a b c
3 c b b c d a b c a d
4 a b e c a d b a a c
5 c c b b d a b c d d
6 a c e c d c e a e d
7 b b c a a a b c a b
Se usar´a como distancia entre casos el n´ umero (o la fracci´ on, dividiendo el n´ umero por 10) de
respuestas diferentes, y la distancia entre conglomerados, la del vecino m´as pr´ oximo.
Iteraci´ on 1
La matriz de distancias entre los encuestados es la siguiente, siendo cada caso un conglomerado:
D
1
=
(1) (2) (3) (4) (5) (6) (7)
(1) 0 6 4 3 7 6 6
(2) 6 0 7 6 7 4 10
(3) 4 7 0 6 3 7 5
(4) 3 6 6 0 9 6 6
(5) 7 7 3 9 0 7 7
(6) 6 4 7 6 7 0 10
(7) 6 10 5 6 7 10 0
Inicialmente se unen 1 con 4 y 3 con 5 a la distancia 3.
Iteraci´ on 2.
La nueva matriz de distancias entre conglomerados queda:
10
D
2
=
(1, 4) (2) (3, 5) (6) (7)
(1, 4) 0 6 4 6 6
(2) 6 0 7 4 10
(3, 5) 4 7 0 7 5
(6) 6 4 7 0 10
(7) 6 10 5 10 0
Se unen (1, 4) con (3, 5) y (2) con (6) a la distancia 4.
Iteraci´ on 3.
La matriz de las distancias entre conglomerados queda:
D
3
=
(1, 3, 4, 5) (2, 6) (7)
(1, 3, 4, 5) 0 6 5
(2, 6) 6 0 10
(7) 5 10 0
Se unen (1, 3, 4, 5) con (7) a la distancia 5. Obs´ervese que las distancias de uni´ on van aumentando
con cada paso. Es decir, cada vez se unen observaciones m´ as dis´ımiles.
Ultima matriz de distancias entre conglomerados:
D
4
=
(1, 3, 4, 5, 7) (2, 6)
(1, 3, 4, 5, 7) 0 6
(2, 6) 6 0
Se unen todos en un s´ olo conglomerdo, a la distancia 6.
El gr´ afico siguiente es un dendograma. Ilustra la forma c´omo se fueron uniendo los conglomerados
hasta formar uno solo. La escala horizontal corresponde a la distncia en que produjeron las uniones,
en cada caso.
De este gr´afico se desprende que si deseamos tener dos conglomerados, ser´ıan (1,3,4,5,7) y (2,6). Si
deseamos tener tres, ser´ıan (7), (1,3,4,5) y (2,6). Si queremos 5, ´estos ser´ıan (1,4), (3,5), (2), (6) y
(7).
11
Figura 2: Dendograma.
6. M´etodo Divisivo.
Comienza con un grupo que contiene todas las observaciones, y en sucesivos pasos lo va dividiendo
hasta quedar cada observaci`on en un conglomerado diferente.
Sin embargo mientras en el paso inicial el m´etodo aglomerativo tiene

n
2

=
n(n−1)
2
posibilidades
de unir los primeros dos conglomerados, el m´etodo divisivo parte con 2
n−1
− 1 posibilidades del
divisi´ on del conglomerado inicial.
Este n´ umero es much´ısimo mayor. En efecto, si hay n=10 observaciones,
n(n−1)
2
= 45 mientras
2
n−1
−1 = 511.
Eso hace poco atractivo este m´etodo. Para avitar considerar todas las posibles divisiones, se
dise˜ n´ o el siguiente algoritmo:
a) Encontrar el objeto m´ as discimil, el que tiene mayor distancia promedio con todos los dem´as.
Este da origen a un grupo ”disidente”.
b) Por cada observaci´ on fuera del grupo disidente D, calcular:
V
i
= promedio
j / ∈D
d(i, j) −promedio
j∈D
d(i, j)
Para encontrar la observaci´ on h para la cual esta diferencia es mayor.
12
c) Si V
h
> 0, h est´a en promedio m´ as cerca del grupo disidente que a su complemento, por lo que
se debe agregar al primero.
d) Repetir b y c, hasta que todos los V
h
sean negativos.
De este modo, el conjunto queda partido en dos conglomerados.
e) Seleccionar el conglomerado de mayor di´ametro (el di´ ametro es la distancia mayor entre dos
objetos de ´el). Dividirlo como en los pasos a,b,c,d.
f) Repetir e hasta que todos los conglomerados contienen solo un objeto.
7. An´ alisis monot´etico.
Se utiliza cuando todas las variables son binarias ,(0 o 1). Es un m´etodo divisivo.
a) Se elige la variable con mayor asociaci´ on con las dem´ as, de la siguiente forma: considere las
variables f y g, y sea la siguiente tabla de contingencia para estas variables, dentro del conglomerado
que se va a dividir:
f \ g 1 0
1 a b
0 c d
La asociaci´on entre f y g se define como
A
fg
= |ad −bc|
La asociaci´on total entre f y las dem´as variables se define como:
A
f
=
¸
g=f
A
fg
La variable t que satisface
A
t
= m´ax
1≤f≤p
A
f
es seleccionada.
b) Usando est´a variable, se divide el conglomerado en dos, uno en que ´esta toma el valor 0, y
otro en que toma el valor 1.
c) Se repite a y b, en los dos conglomerados resultantes.
13
d) Se detiene el proceso cuando todos los conglomerados tienen un s´olo objeto o bien tienen
objetos id´enticos.
8. Conglomerados jer´ arquicos basados en modelos
Asume que todos los datos son generados por una mezla de distribuciones probabilisticas subya-
centes. Si hay G poblaciones diferentes y la densidad de una observaci´ on x de la k-esima poblaci´on
es f
k
(x; θ) para alg´ un vector de par´ ametros θ desconocido.
Dados los datos: X =








x
,
1
x
,
2
.
.
x
,
n








sea j =








j
1
j
2
.
.
j
n








el vector de r´ otulos tales que si x
i
proviene de la k-esima poblaci´on, entonces j
i
= k.
El m´etodo de m´axima verosimilitud busca θ y j tales que se maximice la verosimilitud
L(X; θ; j) = Π
n
i=1
f
ji
(x
i
; θ)
Existen diferentes casos para f
k
(x
i
; θ). Se suele asumir que es normal multivariante N(µ
k
, Σ
k
).
Si adem´as se asume que Σ
k
= σ
2
k
I, los conglomerados resultan de forma hiperesf´erica.
Si Σ
k
tiene cualquier forma, sus valores propios especifican la orientaci´ on que tiene el n-esimo
conglomerado y el mayor valor propio es una medida de su tama˜ no o varianza, µ
k
da su posici´ on.
9. Algoritmo Gen´etico
Este algoritmo de conglomeraci´on no puede clasificarse como jer´ arquico. Tiene su origen de la
inform´atica, y son aplicables al an´ alisis de conglomerados. El siguiente m´etodo se basa en estos
algoritmos.
Suponga que se desea particionar un conjunto {x
1
, x
2
, ..., x
n
} de observaciones en 3 grupos.
Se debe disponer de una medida de Bondad de Conglomeraci´ on que permite discriminar cual
esquema de distribuci´on de observaciones en un grupo de conglomerados es mejor .
Por ejemplo: puede ser el coeficiente silueta definido anteriormente o un cuociente entre cuadros
medios entre conglomerados y cuadrados medidas dentro de los conglomerados
Un vector de r´ otulos es un vector de coordenadas enteras, que indican el conglomerado al que
pertenece cada respectivo elemnto muestral. Por ejemplo,
14
c

= [1 1 2 2 2 3 1 1 3 3 2]
que indica que x
1
, x
2
, x
7
, y x
8
, est´an en un conglomerado,x
3
, x
4
, x
5
y x
11
est´an en otro, yx
6
, x
9
,y
x
10
est´an en un tercero.
El m´etodo parte de un conjunto de ”cromosomas”, que son vectores de r´ otulos,{c
1
, c
2
, ...c
k
}
Estos cromosomas son arbitrarios, as´ı como el n´ umero de ellos. Por ejemplo: pueden ser 18 cro-
mosomas, seis cuyos elementos son todos 1, seis cuyos elementos son 2, y seis cuyos elementos son
3, de la forma





























1
1
.
.
.
1










,










1
1
.
.
.
1










, ...,










2
2
.
.
.
2










, ...,










3
3
.
.
.
3





























Cada uno de los n´ umeros del cromosoma es un ”gen”. Este conjunto forma la ”primera generaci´on”.
Para formar la segunda generaci´on se forman pares, relacionados al azar. Estos son los ”Padres”
con un determinado n´ umero de ”hijos”, cuyos cromosomas se forman eligiendo cada gen, uno entre
los dos de ambos padres, que ocupan la misma posici´ on, seleccionado al azar, Por ejemplo, la
siguiente ilustraci´ on muestra un caso posible, en que dos parejas de padres tienen tres hijos de
cada uno.
Padres (Generaci´on k)










1
1
1
1
1
1




















3
3
3
3
3
3




















1
2
2
3
1
1




















3
1
1
2
2
3










Hijos (generaci´on k+1)










1
1
1
3
1
3




















1
1
3
1
1
1




















3
1
3
3
1
3




















1
1
2
3
1
3




















3
2
1
2
1
3




















1
1
2
3
2
1










Supongamos en nuestro ejemplo que cada pareja tiene 3 hijos. Entonces la segunda generaci´on
habr´ıan 27 individuos.
15
Sea M
k
(c) el valor de la medida individuo de conglomeraci´ on aplicada al definido por el cromosoma
c, en la k-´esima generaci´on.
Se ordenan todos los individuos de la ´ ultima generaci´on de acuerdo a sus medidas de conglom-
eraci´on.
Se selecciona un grupo de las mejores, que forma la ”elite”, y sus genes se copian en la siguiente
generaci´on. (se ”clonan”). Por ejemplo, la elite pueden estar formadas por los tres primeros.
Despu´es se seleccionan los mejores en igual n´ umero que al inicio, (se incluyen los de la elite), y
se repite todo el proceso. Es decir, se forman parejas al azar, tienen hijos cuyos genes resultan de
la combinaci´ on, al azar, de los correspondientes genes de sus padres. Se ordenan de acuerdo a la
medida de bondad de conglomeraci´ on, se obtiene una elite que se clona en la siguiente generaci´ on,
por ejemplo con los 18 mejores se seleccionan 9 parejas, etc.
En el ejemplo, cada generaci´ on tiene 3 que pertenecen a la elite de la generaci´ on anterior, m´ as 3
hijos por cada una de las 9 parejas de la generaci´ on anterior, son 30 individuos en cada generaci´ on.
Se repite el proceso por un n´ umero alto de generaciones mejor´andose progresivamente la medida
de bondad de conglomeraci´ on, optimiz´ andose el proceso.
Falta un elemento para completar el proceso. Hasta el momento el procedimiento apunta a buscar
un ´ optimo. Sin embargo, puede ser que estemos tratando de mejorar en el entorno de un ´optimo
local. Se debe tratar de explorar, paralelamente, otras zonas del espacio de posibles esquemas de
conglomeraci´on, en busca de ´ optimos locales que superen al ´ optimo local actual. Esto se hace de
la siguiente forma:
En cada generaci´on se introduce una peque˜ na fracci´on de ”mutantes”, ´estos son individuos que
cambian espont´aneamente un gen. Esta fracci´on es peque˜ na por ejemplo, un 10 % de individuos.
En nuestro ejemplo ser´ıan 3. En cada generaci´on se seleccionan al azar estos individuos mutantes,
y se les selecciona al azar un gen, al que se les asigna un valor, tambi´en al azar.
Estos mutantes permiten que la exploraci´ on se extienda a otras zonas, donde podr´ıan haber ´ optimos
locales que superen el ya encontrado.
Resumen del algoritmo gen´etico aplicado al an´ alisis de conglomerados:
Siguiendo con los valores dados en el ejemplo, que pueden variar, en la practica. Adem´ as, la forma
presentada aqu´ı es una de varias posibles variantes del algoritmo.
Generaci´on k-esima: Recibe de la generaci´on anterior: La elite de la generaci´ on anterior for-
mada por los 3 mejores, m´as 27 hijos (incluidos 3 mutantes) = 30 individuos.
16
Los 3 mejores (elite) pasan id´enticos a la siguente generaci´on.
Adem´as, entre los 18 mejores (incluyendo los de la elite) se forman 9 parejas al azar.
Cada pareja enjendra 3 hijos. De estos 27 hijos, 3 son mutantes.
Entrega a la generaci´ on siguiente:
Los 3 de la elite m´ as los 27 hijos ( incluidos 3 mutantes)
MEDIDAS DE BONDAD DE CONGLOMERACION.
Se debe disponer de una medida de Bondad de Conglomeraci´ on que permite discriminar cual es-
quema de distribuci´on de observaciones en un grupo de conglomerados es mejor .
La Figura 3 siguiente muestra un conjunto de 12 observaciones bidimensionales, con tres esquemas
de conglomerados, donde, a simple vista, el de tres conglomerados es el que mejor separa las
observaciones en grupos.
Si se dividen en dos conglomerados, el primero contiene observaciones muy distantes entre s´ı. Si se
separa en cuatro, aparecen dos conglomerados muy pr´ oximos.
1. Coeficiente Silueta
Se define, para una observaci´on i, el valor:
a(i) = promedio de las disimilitudes de i con todos los dem´ as objetos del conglomerado A al cual
pertenece i.
Sea C otro conglomerado, C = A. Sea d(i, C) = promedio de distancias deia todos los elementos
deC.
Sea b(i) = m´ın
C=A
d(i, C)
El conglomerado B que alcanza el m´ınimo, es decir, tal que d(i, B) = b(i) se denomina vecindad
del objeto i. B es el segundo mejor conglomerado para i.
La silueta del objeto i se define como:
s(i) =
b(i)−a(i)
m´ax{a(i),b(i)}
observar que −1 ≤ s(i) ≤ 1
Interpretaci´ on:
17
s(i) ≈ 1, el objeto i est´a bien clasificado
s(i) ≈ 0, el objeto i est´a entre dos conglomerados
s(i) ≈ −1, el objeto i est´a mal clasificado.
El coeficiente silueta es el promedio a trav´es de todas las observaciones. Mientras m´ as grande,
mejor es la distribuci´on de conglomerados.
La Figura 3 muestra que el mayor valor, de 0,69, corresponde al esquema de conglomerados que a
simple vista parece mejor, con tres conglomerados.
2. Cuadrado medio dentro de los conglomerados
Es el promedio de la suma de cuadrados de las distancias de cada observaci´on hasta el centroide
del conglomerado a que pertenecen.
CMD =
1
d
¸
j

¸
i

x
ij
−x
j

2

en que x
ij
es la observaci´ on i − ´ esima del conglomerado j , x
j
es el vector promedio del con-
glomerados j, y d =
¸
n
j
− G es el divisor (”grados de libertad”), donde n
j
es el numero de
observaciones en el conglomerado j. Mientras m´ as peque˜ no, mejor.
Cada elemento
¸
i

x
ij
−x
j

2
es una medida de bondad dentro del respectivo conglomerado.
Si uno de ellos es muy grande, indica que el correspondiente conglomerado tiene elementos muy
disc´ımiles.
Figura 3: Tres esquemas de conglomerados para un mismo conjunto de puntos. El del centro es el
mejor.
18
3. Coeficiente F
Es el un cuociente entre los cuadrados medidas dentro de los conglomerados (CMD) y los cuadros
medios entre (CME) conglomerados, donde
CME =
1
G−1
¸
j

x
j
−x

2
en que x
j
es el vector promedio del conglomerados j − ´ esimo, x es el vector promedio global, G
el n´ umero de conglomerados, y indica norma vectorial.
4. Coeficiente aglomerativo
Es una medida global de conglomeraci´ on, asociada a los m´etodos jer´ arquicos. Se aplica a todo el
procedimiento, no a un determinado n´ umero de conglomerados.
Por cada elemento i, sea d(i) su distancia al primer conglomerado con que se une, dividida por la
distancia de los ´ ultimos conglomerados en unirse. El coeficiente aglomerativo es
CA = 1 −
P
i=1nd(i)
n
5. Otros indicadores.
Se pueden definir varios otros indicadores, como por ejemplo, el cuociente o la diferencia entre la
distancia m´axima o distancia promedio dentro de los conglomerados (que se espera sea peque˜ na),
y la distancia m´ınima o la distancia promedio entre conglomerados (que se espera sea grande). se
pueden obtener otros indicadores como variantes de estos.
Sea x
j
una observaci´ on. Se define d(j) como el cuociente entre la distancia en que x
j
se une por
primera vez a otro conglomerado y la distancia en que se produce la ´ ultima fusi´ on de todos en un
s´olo gran conglomerado. El coeficiente aglomerativo es el promedio de (1 −d(j)) a trav´es de todas
las observaciones.
Obs´ervese que si este coeficiente es grande, significa que los d(j) tienden a ser peque˜ nos, es decir,
que la mayor´ıa las fusiones se produjeron a distancias relativamente peque˜ nas.
GRAFICOS ASOCIADOS AL ANALISIS DE CONGLOMERADOS
1. Silueta
La silueta de un conglomerado es una representaci´on gr´ afica de los coeficientes silueta s(i) para
todas las observaciones i = 1, 2, ..., n, rangueados en orden descendente dentro de su conglomerado.
La proporci´on de superficie contenida en las barras, respecto del ´ area del ancho 1, corresponde al
coeficiente silueta. Mientras m´ as largas las barras, mejor. Ver Figura 4.
19
Figura 4: Gr´ afico de silueta.
2. Dendograma.
Es un gr´ afico que muestra c´ omo se fueron uniendo los conglomerados hasta formar uno solo. La
escala vertical corresponde a la distancia en que produjeron las uniones, en cada caso. Ver Figura
5.
Figura 5: Dendograma.
20
3. Bandera (Banner)
Tambi´en es s´olo para m´etodos jer´ arquicos. Los objetos se listan de arriba hacia abajo a la izquierda.
Al lado de cada uno hay una linea horizontal. Las lineas se unen mediante trazos verticales,
colocados a la distancia de uni´ on.
La informaci´ on que entrega este gr´ afico es la misma que el dendograma. N´otese que el coeficiente
aglomerativo corresponde al la proporci´ on de superficie del lado derecho del gr´afico de bandera.
Ver Figura 7. La situaci´ on ilustrada en el gr´ afico corresponde al mismo caso del dendograma de la
Figura 6.
Figura 6: Gr´ afico de bandera.
4. Biplot
Es un plano formado con dos coordenadas, en que cada un representa una componente principal
de los datos. El caso m´ as usual es el que se compone de las componentes 1 y 2, y representa el
plano en que las proyecciones de las observaciones aparecen m´as dispersas. Es posible visualizar
los conglomerados en este plano. Ver Figura 7.
21
Figura 7: Gr´ aficos Biplot.

2

A continuaci´n se muestra una colecci´n de las principales medidas de disimilaridad, seg´ n el tipo o o u de escala de medida de las variables. Algunas medidas de disimilaridad Hay varias medidas de disimilaridad o distancia, apropiadas para diferentes tipos de escala en que se miden los datos: escala num´rica lineal, num´rica no lineal, e e ordinales, nominales y nominales binarios. Escalas num´ricas e 1. Distancia Euclidea:

d(i, j) =

p c=1 (xic

− xjc )2

2. Distancia Manhatan o City Block d(i, j) = 3. Distancia de Minkowski Es una generalizaci´n de las anteriores: o d(i, j) = (
p c=1 p c=1

|xic − xjc |

|xic − xjc | ) q

q

1

en que q es cualquier n´mero real mayor o igual que1. u 4. Distancia de correlaci´n o El coeficiente de correlaci´n es una medida de proximidad o similitud entre dos series de datos. o Por lo tanto, a partir de ´l se puede definir una medida de disimilaridad: e d(i, j) = (1 − corr(i, j))/2 Esta medida tiene un rango de valores entre 0 y 1. 5. Estandarizaci´n de variables: o La unidad de medida de las variables afecta el resultado. Si las variables tienen ordenes de magnitud ´ muy distintas, es conveniente estandarizarlas previamente: zic =
xic −mc sc

haciendo: zic = ric −1 Mc −1 c... 9. media y desviaci´n standard muestrales. por ejemplo exponencial. . d(i. Por ejemplo. etc . 7... en que cada encuestado responde a una serie de preguntas (variables) en escalas {a. b. y se aplica cualquier medida o para escalas lineales. Son medidas efectuadas en escalas no lineales. b.. cuadratica.. La medida de disimilaridad entre dos encuestados es la proporci´n o de respuestas en que difieren. . Transformar a la escala entre 0 y 1.(Ej: un ındice porcentual). Caso general. Se obtiene una medida de disimilaridad mediante el siguiente procedimiento: a. las m´s conocidas. j) = Variables en escala nominal binaria Son variables con dos valores. a o mc = 1 n n i=1 xic y sc = 1 n n i=1 (xic − mc )2 Medidas con escala n´ mericas no lineales u 6. c. Reemplazar xic por su rango ric ∈ {1..3 o en que mc y sc son medidas muestrales de centro y dispersi´n respectivamente. e Escalas nominales Por ejemplo. La siguiente es la tabla de contingencia para las observaciones ”i” y ”j”. resultados de una encuesta. se tratan como crecimiento bacteriano con funci´n de crecimiento AcBt .}. i\j 1 0 1 a c 0 b d No de variables con valores diferentes p . o un ´ o ordinales o bien se les aplica una transformaci´n para linealizarlos. Calcular las disimilariaddes como en el caso de las escalas de num´ricas. Escalas ordinales Se conoce el orden pero no la magnitud de las observaciones. se pueden codificar con 0 y 1. Mc } dentro de la columna. ambas medidas en la misma escala de xic .

B) = m´x i∈A d(i.Se define una medida que s´lo o considera el universo de aquellos en que el atributo est´ presente. llamado coeficiente de Jaccard: a d(i. Si las variables son asim´tricas (una de ellas. j) ın j∈B Vecino m´s lejano a d(A. se define una medida e de disimilaridad como d(i. seg´ n el tipo de variable. B) = 1 nA nB i∈A j∈B d(i. el n´ mero de comparaciones en que ambas variables valen 0. u ponderadas de manera conveniente.4 10. Si las variables son sim´tricas (ambos valores igualmente importantes). e a codificada 0). j) . Vecino m´s cercano a d(A. j) a j∈B Promedio de grupo d(A. j) = b+c a+b+c+d 11. codificada 1. Para observaciones constituidas por combinaciones de variables con escalas diferentes hay medidas de distancia que combinan medidas de los tipos anteriores. la presencia o ausencia de un cierto atributo. B) = m´ i∈A d(i. y hay varias formas de definirlas: Sean A y B dos conglomerados.. Por ej. es m´s importante que la otra. u Variables mixtas 12. DISTANCIAS ENTRE CONGLOMERADOS Las distancias entre los conglomerados son funciones de las distancias entre observaciones. j) = b+c a+b+c Se excluye d.

o de partici´n. m´s lejano. Medoide Es la distancia entre los medoides de los grupos. y otros ´ e a dos derivados de los anteriores. Se mostrar´n dos m´todos de an´lisis de conglomerados no jer´rquicos. de los cuales el m´todode las k-medias es el m´s conocido. Figura 1: Distancias entre conglomerados: Vecino m´s cercano. a a El vecino m´s lejano forma conglomerados m´s esfericos. M´todo K-medias. respectivamente.5 Centroide d(A. a a El promedio de grupo y el centroide son m´s robustos que los dem´s. promedio. B) = d(xA . Tambi´n se debe definir u e una medida de distancia: . vecino m´s a a a lejano. El siguiente gr´fico ilustra las distancias entre conglomerados: Vecino m´s cercano. el de las a e a e o k-medias y el de as k-medoides. El vecino m´s cercano tiende a formar conglomerados m´s alargados. 1. El e e usuario debe proporcionar el n´mro k de conglomerados que desea tener. centro a a gravedad. Es un m´todo iterativo que consiste en los siguiente procedimiento. xB ) en que xA y xB son los respectivos centroides de los conglomerados A y B. promedio del grupo y centroide. a a El medoide es la m´s robusta de las distancias entre conglomerados. a METODOS DE PARTICION.

x3 . b. las cuatro observaciones (filas) son: ⎡ ⎢ ⎢ x1 = ⎢ ⎣ 0 3 9 12 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x2 = ⎢ ⎣ 4 1 6 10 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x3 = ⎢ ⎣ 10 7 3 4 ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ x4 = ⎢ ⎣ 10 10 3 1 ⎤ ⎥ ⎥ ⎥ ⎦ Definimos arbitrariamente dos conglomerados iniciales . asign´ndolas al conglomerado cuyo centroide est´ a menor a e distancia. los centroides respectivos xA y xB se modifican de la siguiente forma: xA = xB = 1 nA −1 (nA xA 1 nB +1 (nB xB − xi ) + xi ) c. Sean A = {x1 } y B = {x2 . a EJEMPLO: Se tienen 4 observaciones cuya matriz de datos est´ dada a continuaci´n: a o ⎡ ⎢ ⎢ ⎢ ⎣ ⎤ 9 12 6 10 ⎥ ⎥ ⎥ 3 4 ⎦ 3 1 0 3 4 1 10 7 10 10 Se usar´ el m´todo de las k-medidas para formar dos conglomerados. x4 } Sus centroides respectivos son: . Repetir el paso b hasta que no haya m´s reasignaciones. Particionar el conjunto de observaciones en k grupos iniciales arbitrarios.6 a. Tambi´n se utilizar´n las a e e a distancias euclidea. En forma de vectores. Recorrer todas las observaciones. Cada vez que se reasigna una observaci´n a un conglomerado distinto del que la conten´ o ıa s deben recalcular los centroides del conglomerado que pierde la observaci´n y del que la recibe. o Si el conglomerado A (que consiste en nA observaciones) pierde la observaci´n xi y si el conglomo erado B (con nB observaciones) recibe a xi .

Si o una observaci´n est´ a menor distancia del conglomerado vecino.5 x3 x4 x1 x2 Las cuatro observaciones quedaron bien clasificadas. x4 } . partiendo por x1 centroide observaci´n o xA 0 33 xB 147 70 x1 x2 Cambia x2 del conglomerado B a A y termina la iteraci´n 1. recalculados. Ahora A = x1. o Iteraci´n 1 o Cuadro de distancias euclideas (al cuadrado) de las observaciones a los centroides.5 ⎤ ⎥ ⎥ ⎥ ⎦ Cuadro de distancias al cuadrado. x4 } ⎡ ⎢ ⎢ xB = ⎢ ⎣ 10 8.5 4. se o a recalculan los centroides y se pasa a la siguiente iteraci´n. Iteraci´n 2 o Nuevos centroides.5 256. por lo tanto los a dos conglomerdos resultantes son: A = {x1 .25 248.5 3 2.5 157. x2 } y B = {x3 . x2 ⎡ ⎢ ⎢ xA = ⎢ ⎣ 2 2 7.25 xB 4. No es necesario seguir probando con o x3 ni x4 . luego ya no hay m´s cambios. partiendo de x3 : centroide observaci´n o xA 158.25 8.25 8. se cambia de conglomerado.5 11 ⎤ ⎥ ⎥ ⎥ ⎦ y B = {x3 .7 ⎡ ⎢ ⎢ xA = ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎦ y ⎡ ⎢ ⎢ xB = ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎦ 0 3 9 12 8 6 4 5 Algoritmo Iterativo: Se deben calcular las distancias de cada observaci´n a los centroides de cada conglomerado.

METODOS JERARQUICOS. 3. o . en base a sus distancias a los centros de estas. Aglomerativo Inicialmente cada observaci´n es un conglomerado. En lugar de asignar un objeto a un grupo e en forma deterministica. La matriz de distancias es de orden n2 . pero usa los medoides en lugar de los centroides. Por ejemplo. e ´ El m´s com´ n consiste en extraer una muestra aleatoria de casos. e van subdividiendo conglomerados hastya llegar a un caso por conglomerado (m´todo divisivo). e En tal caso se puede hace una simplificaci´n. con tama˜ o m´s adecuado al a u n a procedimiernto que se desea utilizar. Una medida de bondad de conglomeraci´n es obtenida mediante el a o promedio de las distancias entre cada observaci´n y el medoide de su conglomerado. partiendo de uno. que lleva a resultados no ´ptimos. de acuerdo a las probabilidades o definidas. e Es como el k-medias. Una vez e finalizado. y en cada etapa siguiente van e juntando conglomerados. estos m´todos resultan impracticables. Son m´todos que parten de tantos conglomerados como casos hay. A esta muestra se le aplica un m´todo de conglomerados. pero que buscan acercarse al optimo. es asignada al conglomerado cuya media o a (o medoide) es m´s cercano. Luego de ´sto e se selecciona la que ya tenga la mejor medida de conglomeraci´n. hasta llegar a uno solo (m´todo aglomerativo). o Es conveniente repetir el procedimiento anterior. entrega probabilidades de pertenencia de cada observaci´n a los distintos o conglomerados. cada observaci´n que no est´ en la muestra. Se reasigna una observaci´n por sorteo. El medoide es el punto tal que sus coordenadas son las medianas de las variables respectivas. como el k-medias o el k-medoide. O bien. por lo que en un conjunto muy grande de observaciones. Conglomerados para conjuntos grandes. M´todo K-Medoides. 4. partiendo de diversas mientras. An´lisis Fuzzy (difuso) a Es una variante de los m´todos k-medias y k-medoides. e 5.8 2. pueden ser proporcionales a las distancias. Se recomienta usar 5 muestras o distintas. como los entregados o o por los m´todos anteriores.

La matriz de datos de las respuesta es la siguiente: pregunta 1 2 3 encuestado 4 5 6 7 1 a a c a c a b 2 b c b b c c b 3 b b b e b e c 4 c c c c b c a 5 a d d a d d a 6 b e a d a c a 7 b e b b b e b 8 a a c a c a c 9 a b a a d e a 10 d c d c d d b Se usar´ como distancia entre casos el n´ mero (o la fracci´n. siendo cada caso un conglomerado: (1) 0 6 4 3 7 6 6 (2) 6 0 7 6 7 4 10 (3) 4 7 0 6 3 7 5 (4) 3 6 6 0 9 6 6 (5) 7 7 3 9 0 7 7 (6) 6 4 7 6 7 0 10 (7) 6 10 5 6 7 10 0 (1) (2) (3) D1 = (4) (5) (6) (7) Inicialmente se unen 1 con 4 y 3 con 5 a la distancia 3. y la distancia entre conglomerados.9 Luego en cada paso se unen los conglomerados que est´n a menor distancia y se calcula la distancia a del nuevo conglomerado con todos los dem´s. d y e . la del vecino m´s pr´ximo. Iteraci´n 2. b. EJEMPLO Se tiene una muestra de siete entrevistados que responden a una encuesta de diez preguntas. a a El algoritmo termina cuando queda un conglomerado con todas las observaciones. form´ndose una nueva matriz de distancias. o La nueva matriz de distancias entre conglomerados queda: . c. dividiendo el n´mero por 10) de a u o u respuestas diferentes. a o Iteraci´n 1 o La matriz de distancias entre los encuestados es la siguiente. cada una con respuestas entre las alternativas a.

a la distancia 6. 5) D3 = (2. 4. 5) con (7) a la distancia 5. 4.4).6). Ultima matriz de distancias entre conglomerados: (1. Si queremos 5. en cada caso. (3. 5) y (2) con (6) a la distancia 4. 4) (2) D2 = (3.4. 7) 0 6 (2. (2). La escala horizontal corresponde a la distncia en que produjeron las uniones. 5.10 (1. ser´ (7).5). 3. (1. De este gr´fico se desprende que si deseamos tener dos conglomerados. 3. cada vez se unen observaciones m´s dis´ a ımiles. Iteraci´n 3.4. ´stos ser´ (1.3. o El gr´fico siguiente es un dendograma. 4) con (3. o La matriz de las distancias entre conglomerados queda: (1.5.6). 4. 6) (7) Se unen (1. 6) 6 0 D4 = (1. 3. Obs´rvese que las distancias de uni´n van aumentando e o con cada paso. 6) 6 0 10 (7) 5 10 0 (1. 5) 4 7 0 7 5 (6) 6 4 7 0 10 (7) 6 10 5 10 0 Se unen (1.3.5) y (2. ser´ (1. 5) (6) (7) (1. 4. Ilustra la forma c´mo se fueron uniendo los conglomerados a o hasta formar uno solo. 4. 5) 0 6 5 (2. 4) 0 6 4 6 6 (2) 6 0 7 4 10 (3. 6) Se unen todos en un s´lo conglomerdo. Si a ıan deseamos tener tres. (6) y ıan e ıan (7). 7) (2. 5. . 3.7) y (2. 3. Es decir.

2n−1 − 1 = 511. Para avitar considerar todas las posibles divisiones. o . y en sucesivos pasos lo va dividiendo hasta quedar cada observaci`n en un conglomerado diferente. j) / Para encontrar la observaci´n h para la cual esta diferencia es mayor. e Comienza con un grupo que contiene todas las observaciones. calcular: o Vi = promedioj ∈D d(i. o Sin embargo mientras en el paso inicial el m´todo aglomerativo tiene n = n(n−1) posibilidades e 2 2 de unir los primeros dos conglomerados.11 Figura 2: Dendograma. el que tiene mayor distancia promedio con todos los dem´s. 6. b) Por cada observaci´n fuera del grupo disidente D. si hay n=10 observaciones. o Este n´ mero es much´ u ısimo mayor. el m´todo divisivo parte con 2n−1 − 1 posibilidades del e divisi´n del conglomerado inicial. j) − promedioj∈D d(i. a a Este da origen a un grupo ”disidente”. n(n−1) 2 = 45 mientras Eso hace poco atractivo este m´todo. se e dise˜o el siguiente algoritmo: n´ a) Encontrar el objeto m´s discimil. M´todo Divisivo. En efecto.

por lo que se debe agregar al primero.b. Es un m´todo divisivo. 7. a e Se utiliza cuando todas las variables son binarias . . dentro del conglomerado que se va a dividir: f 1 0 \g 1 a c 0 b d La asociaci´n entre f y g se define como o Af g = |ad − bc| La asociaci´n total entre f y las dem´s variables se define como: o a Af = g=f Af g La variable t que satisface At = m´x1≤f ≤p Af a es seleccionada. e a) Se elige la variable con mayor asociaci´n con las dem´s.d. h est´ en promedio m´s cerca del grupo disidente que a su complemento. en los dos conglomerados resultantes. An´lisis monot´tico. e f) Repetir e hasta que todos los conglomerados contienen solo un objeto. se divide el conglomerado en dos. e) Seleccionar el conglomerado de mayor di´metro (el di´metro es la distancia mayor entre dos a a objetos de ´l). uno en que ´sta toma el valor 0.12 a a c) Si Vh > 0. d) Repetir b y c. c) Se repite a y b. hasta que todos los Vh sean negativos. De este modo. el conjunto queda partido en dos conglomerados. y sea la siguiente tabla de contingencia para estas variables. de la siguiente forma: considere las o a variables f y g. Dividirlo como en los pasos a.c.(0 o 1). y a e otro en que toma el valor 1. b) Usando est´ variable.

y son aplicables al an´lisis de conglomerados. Algoritmo Gen´tico e Este algoritmo de conglomeraci´n no puede clasificarse como jer´rquico. a e Si Σk tiene cualquier forma. Suponga que se desea particionar un conjunto {x1 . los conglomerados resultan de forma hiperesf´rica. θ). Tiene su origen de la o a inform´tica. entonces ji = k. . xn } de observaciones en 3 grupos.13 d) Se detiene el proceso cuando todos los conglomerados tienen un s´lo objeto o bien tienen o objetos id´nticos. θ) i=1 Existen diferentes casos para fk (xi . θ. x. e 8. o Por ejemplo: puede ser el coeficiente silueta definido anteriormente o un cuociente entre cuadros medios entre conglomerados y cuadrados medidas dentro de los conglomerados Un vector de r´tulos es un vector de coordenadas enteras.. Conglomerados jer´rquicos basados en modelos a Asume que todos los datos son generados por una mezla de distribuciones probabilisticas subyacentes. Se debe disponer de una medida de Bondad de Conglomeraci´n que permite discriminar cual o esquema de distribuci´n de observaciones en un grupo de conglomerados es mejor . Σk ). . 2 Si adem´s se asume que Σk = σk I.. n ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ sea j = ⎢ ⎢ ⎢ ⎣ j1 j2 . Por ejemplo. n 9. µk da su posici´n. El siguiente m´todo se basa en estos a a e algoritmos. j) = Πn fji (xi . o o El m´todo de m´xima verosimilitud busca θ y j tales que se maximice la verosimilitud e a L(X.. . jn ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Dados los datos: el vector de r´tulos tales que si xi proviene de la k-esima poblaci´n. 2 . Se suele asumir que es normal multivariante N (µk . x2 . sus valores propios especifican la orientaci´n que tiene el n-esimo o o conglomerado y el mayor valor propio es una medida de su tama˜o o varianza. ⎡ ⎢ ⎢ ⎢ X=⎢ ⎢ ⎢ ⎣ x. θ) para alg´n vector de par´metros θ desconocido. . Si hay G poblaciones diferentes y la densidad de una observaci´n x de la k-esima poblaci´n o o u a es fk (x. 1 x. que indican el conglomerado al que o pertenece cada respectivo elemnto muestral.

Este conjunto forma la ”primera generaci´n”.y a a a x10 est´n en un tercero. en que dos parejas de padres tienen tres hijos de o cada uno. El m´todo parte de un conjunto de ”cromosomas”. ıan . ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ . que ocupan la misma posici´n. . c2 . ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ 1 1 1 3 1 3 ⎤ 1 ⎥ 1 ⎥ ⎥ 1 ⎥ ⎥ 1 ⎥ ⎥ ⎥ 1 ⎦ 1 ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎣ ⎤ 3 ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎥ ⎢ ⎣ 3 ⎦ 3 ⎤⎡ 1 3 ⎥⎢ 1 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ 3 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ ⎥⎢ 1 ⎦⎣ 1 1 3 ⎡ ⎤ 1 ⎥ ⎢ ⎢ 2 ⎥ ⎥ ⎢ ⎢ 2 ⎥ ⎥ ⎢ ⎢ 3 ⎥ ⎥ ⎢ ⎥ ⎢ ⎣ 1 ⎦ 1 ⎤⎡ 1 3 ⎥⎢ 1 ⎥⎢ 2 ⎥⎢ 2 ⎥⎢ 1 ⎥⎢ 3 ⎥⎢ 2 ⎥⎢ ⎥⎢ 1 ⎦⎣ 1 3 3 ⎡ 3 ⎢ ⎢ 1 ⎢ ⎢ 1 ⎢ ⎢ 2 ⎢ ⎢ ⎣ 2 3 ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎣ ⎡ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ 1 1 2 3 2 1 ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Padres (Generaci´n k) o ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ o Hijos (generaci´n k+1) Supongamos en nuestro ejemplo que cada pareja tiene 3 hijos. .. seleccionado al azar.14 c = [1 1 2 2 2 3 1 1 3 3 2] que indica que x1 . ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎡ ⎤⎫ ⎪ ⎪ ⎪ ⎥⎪ ⎪ ⎥⎪ ⎪ ⎥⎪ ⎥⎬ ⎥ ⎥⎪ ⎥⎪ ⎪ ⎥⎪ ⎪ ⎦⎪ ⎪ ⎪ ⎭ 1 1 . x7 . de la forma ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ . relacionados al azar. .. uno entre u los dos de ambos padres. ⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ 3 3 . seis cuyos elementos son todos 1. . Entonces la segunda generaci´n o habr´ 27 individuos.{c1 .. as´ como el n´ mero de ellos.. la o siguiente ilustraci´n muestra un caso posible. . est´n en un conglomerado. . seis cuyos elementos son 2. y seis cuyos elementos son 3. y x8 . 1 1 1 .ck } e o Estos cromosomas son arbitrarios. . u o Para formar la segunda generaci´n se forman pares. 3 Cada uno de los n´meros del cromosoma es un ”gen”. . . x4 . . Por ejemplo. 2 ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎥ .. que son vectores de r´tulos. x5 y x11 est´n en otro... Estos son los ”Padres” o con un determinado n´ mero de ”hijos”. Por ejemplo: pueden ser 18 croı u mosomas.x3 . cuyos cromosomas se forman eligiendo cada gen. yx6 . 1 2 2 . x9 . x2 . ..

Hasta el momento el procedimiento apunta a buscar un optimo. y sus genes se copian en la siguiente generaci´n. a .15 o Sea Mk (c) el valor de la medida individuo de conglomeraci´n aplicada al definido por el cromosoma c. un 10 % de individuos. se obtiene una elite que se clona en la siguiente generaci´n. Resumen del algoritmo gen´tico aplicado al an´lisis de conglomerados: e a Siguiendo con los valores dados en el ejemplo. ı Generaci´n k-esima: o Recibe de la generaci´n anterior: La elite de la generaci´n anterior foro o mada por los 3 mejores. Sin embargo. en la k-´sima generaci´n. Es decir. o a Falta un elemento para completar el proceso. tienen hijos cuyos genes resultan de la combinaci´n. que forma la ”elite”. (se incluyen los de la elite). Por ejemplo. de los correspondientes genes de sus padres. (se ”clonan”). paralelamente. la elite pueden estar formadas por los tres primeros. m´s 27 hijos (incluidos 3 mutantes) = 30 individuos. al azar. cada generaci´n tiene 3 que pertenecen a la elite de la generaci´n anterior. optimiz´ndose el proceso. En cada generaci´n se seleccionan al azar estos individuos mutantes. donde podr´ haber optimos o ıan ´ locales que superen el ya encontrado. Se debe tratar de explorar. o Despu´s se seleccionan los mejores en igual n´ mero que al inicio. en la practica. tambi´n al azar. etc. m´s 3 o o a o o hijos por cada una de las 9 parejas de la generaci´n anterior. se forman parejas al azar. ´stos son individuos que o n o e cambian espont´neamente un gen. Esto se hace de o ´ ´ la siguiente forma: En cada generaci´n se introduce una peque˜ a fracci´n de ”mutantes”. o Se selecciona un grupo de las mejores. y e u se repite todo el proceso. al que se les asigna un valor. a o n En nuestro ejemplo ser´ 3. otras zonas del espacio de posibles esquemas de conglomeraci´n. e o Se ordenan todos los individuos de la ultima generaci´n de acuerdo a sus medidas de conglom´ o eraci´n. ıan o e y se les selecciona al azar un gen. Estos mutantes permiten que la exploraci´n se extienda a otras zonas. o o por ejemplo con los 18 mejores se seleccionan 9 parejas. Adem´s. que pueden variar. En el ejemplo. Esta fracci´n es peque˜ a por ejemplo. la forma a presentada aqu´ es una de varias posibles variantes del algoritmo. Se ordenan de acuerdo a la o medida de bondad de conglomeraci´n. puede ser que estemos tratando de mejorar en el entorno de un ´ptimo ´ o local. en busca de optimos locales que superen al optimo local actual. Se repite el proceso por un n´ mero alto de generaciones mejor´ndose progresivamente la medida u a de bondad de conglomeraci´n. son 30 individuos en cada generaci´n.

a Cada pareja enjendra 3 hijos. B es el segundo mejor conglomerado para i. Sea b(i) = m´ C=A d(i. Sea C otro conglomerado.16 Los 3 mejores (elite) pasan id´nticos a la siguente generaci´n. a simple vista.b(i)} a . C) = promedio de distancias deia todos los elementos deC. es decir. Entrega a la generaci´n siguiente: o Los 3 de la elite m´s los 27 hijos ( incluidos 3 mutantes) a MEDIDAS DE BONDAD DE CONGLOMERACION. con tres esquemas de conglomerados. donde. Sea d(i. La silueta del objeto i se define como: s(i) = observar que −1 ≤ s(i) ≤ 1 Interpretaci´n: o b(i)−a(i) m´x{a(i). entre los 18 mejores (incluyendo los de la elite) se forman 9 parejas al azar. C = A. el de tres conglomerados es el que mejor separa las observaciones en grupos. el valor: o a(i) = promedio de las disimilitudes de i con todos los dem´s objetos del conglomerado A al cual a pertenece i. 3 son mutantes. el primero contiene observaciones muy distantes entre s´ Si se separa en cuatro. B) = b(i) se denomina vecindad del objeto i. Coeficiente Silueta Se define. Se debe disponer de una medida de Bondad de Conglomeraci´n que permite discriminar cual eso quema de distribuci´n de observaciones en un grupo de conglomerados es mejor . para una observaci´n i. De estos 27 hijos. ı. Si se dividen en dos conglomerados. C) ın El conglomerado B que alcanza el m´ ınimo. aparecen dos conglomerados muy pr´ximos. e o Adem´s. o La Figura 3 siguiente muestra un conjunto de 12 observaciones bidimensionales. o 1. tal que d(i.

e a mejor es la distribuci´n de conglomerados. 2 Figura 3: Tres esquemas de conglomerados para un mismo conjunto de puntos.17 s(i) ≈ 1. El del centro es el mejor. con tres conglomerados. corresponde al esquema de conglomerados que a simple vista parece mejor. el objeto i est´ entre dos conglomerados a s(i) ≈ −1. y d = nj − G es el divisor (”grados de libertad”). CM D = 1 d j i xij − xj 2 en que xij es la observaci´n i − esima del conglomerado j . mejor. donde nj es el numero de observaciones en el conglomerado j. indica que el correspondiente conglomerado tiene elementos muy disc´ ımiles. Mientras m´s grande. o La Figura 3 muestra que el mayor valor. a n es una medida de bondad dentro del respectivo conglomerado. de 0. Mientras m´s peque˜ o. . Cada elemento i xij − xj Si uno de ellos es muy grande. 2. el objeto i est´ bien clasificado a s(i) ≈ 0. a El coeficiente silueta es el promedio a trav´s de todas las observaciones. el objeto i est´ mal clasificado. Cuadrado medio dentro de los conglomerados Es el promedio de la suma de cuadrados de las distancias de cada observaci´n hasta el centroide o del conglomerado a que pertenecen.69. xj es el vector promedio del cono ´ glomerados j.

Se define d(j) como el cuociente entre la distancia en que xj se une por primera vez a otro conglomerado y la distancia en que se produce la ultima fusi´n de todos en un ´ o s´lo gran conglomerado. Otros indicadores. ıa n GRAFICOS ASOCIADOS AL ANALISIS DE CONGLOMERADOS 1. es decir. 2. n. o Sea xj una observaci´n. Ver Figura 4. Se aplica a todo el o e a procedimiento. a n y la distancia m´ ınima o la distancia promedio entre conglomerados (que se espera sea grande). mejor. e n que la mayor´ las fusiones se produjeron a distancias relativamente peque˜ as. rangueados en orden descendente dentro de su conglomerado. El coeficiente aglomerativo es ´ CA = 1 − P i=1nd(i) n 5. G ´ el n´ mero de conglomerados. el cuociente o la diferencia entre la distancia m´xima o distancia promedio dentro de los conglomerados (que se espera sea peque˜a). Mientras m´s largas las barras. . sea d(i) su distancia al primer conglomerado con que se une. y u indica norma vectorial.18 3. u Por cada elemento i. como por ejemplo.. Se pueden definir varios otros indicadores. Coeficiente F Es el un cuociente entre los cuadrados medidas dentro de los conglomerados (CMD) y los cuadros medios entre (CME) conglomerados. corresponde al o ´ coeficiente silueta. x es el vector promedio global.. significa que los d(j) tienden a ser peque˜ os. no a un determinado n´mero de conglomerados. El coeficiente aglomerativo es el promedio de (1 − d(j)) a trav´s de todas o e las observaciones.. se pueden obtener otros indicadores como variantes de estos. donde CM E = 1 G−1 j xj − x 2 en que xj es el vector promedio del conglomerados j − esimo. Coeficiente aglomerativo Es una medida global de conglomeraci´n. respecto del area del ancho 1. 4. asociada a los m´todos jer´rquicos. a . Obs´rvese que si este coeficiente es grande. dividida por la distancia de los ultimos conglomerados en unirse. Silueta La silueta de un conglomerado es una representaci´n gr´fica de los coeficientes silueta s(i) para o a todas las observaciones i = 1. La proporci´n de superficie contenida en las barras.

a 2. La a o escala vertical corresponde a la distancia en que produjeron las uniones. Figura 5: Dendograma.19 Figura 4: Gr´fico de silueta. en cada caso. . Dendograma. Ver Figura 5. Es un gr´fico que muestra c´mo se fueron uniendo los conglomerados hasta formar uno solo.

Bandera (Banner) Tambi´n es s´lo para m´todos jer´rquicos. en que cada un representa una componente principal de los datos. N´tese que el coeficiente o a o aglomerativo corresponde al la proporci´n de superficie del lado derecho del gr´fico de bandera. Los objetos se listan de arriba hacia abajo a la izquierda. Figura 6: Gr´fico de bandera. El caso m´s usual es el que se compone de las componentes 1 y 2. o La informaci´n que entrega este gr´fico es la misma que el dendograma. Biplot Es un plano formado con dos coordenadas. a 4. Ver Figura 7. La situaci´n ilustrada en el gr´fico corresponde al mismo caso del dendograma de la o a Figura 6. . y representa el a plano en que las proyecciones de las observaciones aparecen m´s dispersas. o a Ver Figura 7.20 3. colocados a la distancia de uni´n. e o e a Al lado de cada uno hay una linea horizontal. Las lineas se unen mediante trazos verticales. Es posible visualizar a los conglomerados en este plano.

21 Figura 7: Gr´ficos Biplot. a .