You are on page 1of 4

MTODO K-MEANS CLUSTERING

RESUMEN

Introduccin:

Clustering: Tambin conocido como agrupamiento, es una de las


tcnicas de minera de datos, el proceso consiste en la divisin de los datos
en grupos de objetos similares. Cuando se representan la informacin
obtenida a travs de clusters se pierden algunos detalles de los datos, pero
a la vez se simplifica dicha informacin.

Definicin:

Tcnica en la que el aprendizaje realizado es no supervisado. Desde un


punto de vista prctico. El clustering juega un papel muy importante en
aplicaciones de minera de datos, tales como exploracin de datos
cientficos, recuperacin de la informacin y minera de texto, aplicaciones
sobre bases de datos espaciales (tales como GIS o datos procedentes
de astronoma), aplicaciones Web, marketing, diagnstico mdico, anlisis
de ADN en biologa computacional y muchas otras.

De forma general, las tcnicas de Clustering son las que utilizando


algoritmos matemticos se encargan de agrupar objetos. Usando la
informacin que brindan las variables que pertenecen a cada objeto se mide
la similitud entre los mismos, y una vez hecho esto se colocan en clases
que son muy similares internamente (entre los miembros de la misma clase)
y a la vez diferente entre los miembros de las diferentes clases.

Algoritmos de clustering:

Simple K-Means:

Este algoritmo debe definir el nmero de clusters que se desean


obtener, as se convierte en un algoritmo voraz para particionar. Los
pasos bsicos para aplicar el algoritmo son muy simples.
Primeramente se determina la cantidad de clusters en los que se
quiere agrupar la informacin, en este caso las simulaciones. Luego
se asume de forma aleatoria los centros por cada clusters. Una vez
encontrados los primeros centroides el algoritmo har los tres pasos
siguientes:

1. Determina las coordenadas del centroide.


2. Determina la distancia de cada objeto a los centroides.
3. Agrupa los objetos basados en la menor distancia.

Finalmente quedarn agrupados por clusters, los grupos de


simulaciones segn la cantidad de clusters que el investigador defini
en el momento de ejecutar el algoritmo

X-Means:
Este algoritmo es una variante mejorada del K-Means. Su ventaja
fundamental est en haber solucionado una de las mayores
deficiencias presentadas en K-Means, el hecho de tener que
seleccionar a priori el nmero de clusters que se deseen obtener, a
X-Means se le define un lmite inferior K-min (nmero mnimo de
clusters) y un lmite superior K-Max (nmero mximo de clusters) y
este algoritmo es capaz de obtener en ese rango el nmero ptimo
de clusters, dando de esta manera ms flexibilidad al usuario.

Durante este proceso, el conjunto de centroides que alcanzan el


mejor valor son almacenados, y estos seran la salida final, es decir,
los valores finales de cada simulacin de acuerdo a la distancia entre
ellos. Los mismos son aplicables cuando en la Base de datos existen
al menos 2 simulaciones para el modelo (que son ecuaciones
formadas por arreglos de parmetros y condiciones iniciales). Se ha
comprobado que sus resultados son ms fiables que los obtenidos
con el K-Means, debido a que presenta un valor de distorsin menor,
son mucho mejor para realizar Clusters de un conjunto grande de
datos y es incluso una variante mucho ms rpida.
Cobweb:

Pertenece a la familia de algoritmos jerrquicos. Se caracteriza


por la utilizacin de aprendizaje incremental, esto quiere decir, que
realiza las agrupaciones instancia a instancia. Durante la ejecucin
del algoritmo se forma un rbol (rbol de clasificacin) donde las
hojas representan los segmentos y el nodo raz engloba por completo
el conjunto de datos. Al principio, el rbol consiste en un nico nodo
raz. Las instancias se van aadiendo una a una y el rbol se va
actualizando en cada paso.

La clave para saber cmo y dnde se debe actualizar el rbol la


proporciona una medida denominada utilidad de categora, que mide
la calidad general de una particin de instancias en un segmento.
Pertenece a los mtodos de aprendizaje conceptual o basado en
modelos. Esto significa que cada cluster se considera como un
modelo que puede describirse intrnsecamente, ms que un ente
formado por una coleccin de puntos. Adems en el algoritmo
tambin hay que tener en cuenta dos parmetros muy importantes:

Acuity: es un parmetro muy necesario, pues la utilidad de


categora est basada en la estimacin de la media y la
desviacin estndar del valor de un atributo para un nodo en
particular, el resultado es 0 si dicho nodo solo tiene una instancia;
por lo que se puede decir que el valor que toma este parmetro
es la medida del error de un nodo con una sola instancia
(establece la varianza mnima de un atributo).

Cut-off: este parmetro es usado para evitar el crecimiento


descontrolado de la cantidad de segmentos. Indica el grado de
mejor a que se debe producir en la utilidad de categora para que
la instancia se pueda tener en cuenta de manera individual.
Resumiendo, cuando se va a aadir un nuevo nodo y no es
suficiente el crecimiento de la utilidad de categora, pues ese
nodo se poda y la instancia pasa a otro nodo ya existente.
EM:

Este algoritmo pertenece a una familia de modelos que se conocen


como Finite Mixture Models, los cuales se pueden utilizar para
segmentar conjuntos de datos. Est clasificado como un mtodo de
particionado y recolocacin, o sea, Clustering Probabilstico. Se
trata de obtener la FDP (Funcin de Densidad de Probabilidad)
desconocida a la que pertenecen el conjunto completo de datos. El
algoritmo EM, procede en dos pasos que se repiten de forma
iterativa:

Expectation: Utiliza los valores de los parmetros, iniciales o


proporcionados por el paso Maximization, obteniendo diferentes
formas de la FDP buscada.
Maximization: Obtiene nuevos valores de los parmetros a partir
de los datos proporcionados por el paso anterior.

Finalmente se obtendr un conjunto de clusters que agrupan el


conjunto de proyectos original. Cada uno de estos cluster estar
definido por los parmetros de una distribucin

You might also like