You are on page 1of 20

Clustering Agrupamientos

Aprendizaje automtico

Minera de Datos
Qu es ? Para que usar Minera de Datos?

Minera de Datos
Qu es?
Consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos.
El Data Mining (DM; minera de datos) es un proceso para descubrir, a partir de una base de datos, nuevos conocimientos que sean vlidos, potencialmente tiles y, sobre todo, comprensibles.

Minera de Datos
Para que usar Minera de Datos? La minera de datos es una herramienta fundamental para la toma de decisiones. El proceso de aprendizaje de los datos juega un papel muy importante en muchas reas de la ciencia, las finanzas y la indstria, dnde las entidades o empresas han de minimizar los riesgos en la toma de decisiones estratgicas.

Clustering Definicion
Los algoritmos de clustering permiten clasificar un conjunto de elementos de muestra en un determinado nmero de grupos basndose en las semejanzas y diferencias existentes entre los componentes de la muestra.

Clustering
El proceso de Clustering consiste en la divisin de los datos en grupos de objetos similares. Para medir la similaridad entre objetos se suelen utilizar diferentes formas de distancia: distancia eucldea, de Manhatan, de Mahalanobis, etc.

Clustering
Desde un punto de vista prctico, el clustering juega un papel muy importante en aplicaciones de datamining, tales como exploracin de datos cientficos, recuperacin de la informacin y minera de texto, aplicaciones sobre bases de datos espaciales (tales como GIS o datos procedentes de astronoma), aplicaciones Web , marketing, diagnstico mdico, anlisis de ADN en biologa computacional, y muchas otras.

Clustering
Convencionalmente, para realizar un agrupamiento o clustering, en primer lugar el diseador tiene que definir cuantos grupos se desea construir, y, adicionalmente, un conjunto de parmetros con los que se desea agrupar. No hay ninguna gua terica sobre como escoger dichos aspectos, y depende mucho del problema a resolver y de los objetivos que busque el clasificador.

Aqu tenemos dos ejemplos, cmo cambian los grupos (clusters) dependiendo de diferentes elecciones sobre las caracteristicas usadas para realizar la clasificacion y del numero de grupos a construir. En la figura se muestra cmo cambian los grupos (clusters) dependiendo de diferentes elecciones de las caracteristicas a clasificar. En la figura, se puede notar que los datos pueden separarse por color (rojos, verdes, azules) o separarse por figura (crculos, tringulos, cuadrados). Las caracteristicas para el clustering deben escogerse segn la aplicacin.

en la parte superior izquierda se muestra un grupo de datos a los que se har clustering. En las otras tres imgenes se muestra diferentes agrupamientos segn el nmero de grupos que se quiera usar para el clustering. La eleccin del nmero de grupos es un asunto complicado, y se han desarrollado mtodos para medir la calidad del agrupamiento segn el numero de clusters.

Cuantos grupos?

Seis Clusters

Dos Clusters

Cuatro Clusters

Tipos de clustering
Los clustering se pueden clasificar segn el tipo de conjuntos que se determinen y segn la ubicacin de los clusters que se generen. Clasificacin segn el tipo de clusters resultante: Hard clustering: cuando los grupos hallados son conjuntos clsicos, es decir, un dato pertenece o no a un cluster, el grado de pertenencia al cluster es uno o cero. Fuzzy clustering: cuando los grupos hallados son conjuntos difusos, es decir, los datos tienen grado de pertenencia a los diferentes grupos.

Tipos de clustering
Clasificacin segn la ubicacin de los clusters:

Clustering jerrquico

Clustering particional:

Clustering jerrquico: cuando entre los clusters hay relacin de anidamiento, es decir un grupo raz envuelve de manera directa a uno o mas grupos, estos a su vez envuelven a otros, y asi sucesivamente. Esto puede verse en la figura 3a donde el cluster c1 envuelve directamente a c2 y donde c2 envuelve directamente a c3. Notese que pueden haber datos fuera de los clusters hijos, como es el caso de p1, de modo que c1 est compuesto por el dato p1 y el cluster c2.

Clustering particional: todos los grupos se encuentran al mismo nivel.

Puntos originales

Clustering particional

Algoritmos
K-means
Es probablemente el algoritmo de agrupamiento ms conocido. El algoritmo est basado en la minimizacin de la distancia interna (la suma de las distancias de los patrones asignados a un agrupamiento al centroide de dicho agrupamiento)

Algoritmos
ISODATA
Iterative Self-Organizing Data Analysis Techniques (con la A aadida para hacer pronunciable el nombre), un iterativo mtodo de agrupamiento que, como ya suceda con el mtodo de agrupamiento secuencial, requiere un considerable esfuerzo para ajustar adecuadamente todos sus parmetros. Adems, stos pueden modificarse en cada iteracin del algoritmo.

Algoritmos
Algoritmo adaptativo
El mtodo adaptativo es un algoritmo heurstico de agrupamiento que se puede utilizar cuando no se conoce de antemano el nmero de clases del problema

Algoritmos
Algoritmo de Batchelor y Wilkins
Como el mtodo adaptativo, el algoritmo de Batchelor y Wilkins es un mtodo de agrupamiento con nmero de clases desconocido.

Algoritmos
Algoritmo GRASP
GRASP es una tcnica de los aos 80 que tiene como objetivo resolver problemas difciles en el campo de la optimizacin combinatoria. Esta tcnica dirige la mayor parte de su esfuerzo a construir soluciones de alta calidad que son posteriormente procesadas para obtener otras an mejores.

Algoritmos
Matriz de similaridad
Los mtodos basados en grafos, igual que los algoritmos GRASP, intentan evitar este hecho pero su coste computacional los hace inaplicables en muchas ocasiones.