Professional Documents
Culture Documents
Qu es?
Informacin relevante: Cada registro es un ejemplo de una mano formada por cinco cartas extradas de una baraja estndar de 52. Cada tarjeta se describe utilizando dos atributos (palo y rango), para un total de 10 atributos predictivos. Hay un atributo de clase que describe la Mano de Poker. El orden de las cartas es importante, por lo que hay 480 posibles manos Royal Flush en comparacin con 4 (uno para cada palo se explica en ms detalle a continuacin).
Nmero de instancias: 25010 de entrenamiento, 1 milln de prueba Nmero de Atributos: 10 atributos predictivos, un atributo objetivo
Distribucin de la clase
The first percentage in parenthesis is the representation within the training set. The second is the probability in the full domain. Training set: 0: Nothing in hand, 12493 instances (49.95202% / 50.117739%) 1: One pair, 10599 instances, (42.37905% / 42.256903%)
Testing set: The value inside parenthesis indicates the representation within the test set as compared to the entire domain. 1.0 would be perfect representation, while <1.0 are under-represented and >1.0 are overrepresented. 0: Nothing in hand, 501209 instances,(1.000063) 1: One pair, 422498 instances,(0.999832) 2: Two pairs, 47622 instances, (1.001746) 3: Three of a kind, 21121 instances, (0.999647) 4: Straight, 3885 instances, (0.989897) 5: Flush, 1996 instances, (1.015569)
Estadsticas
Poker Hand # of hands Probability # of combinations
Royal Flush
Straight Flush Four of a Kind Full House
4
36 624 3744
0.00000154
0.00001385 0.0002401 0.00144058
480
4320 74880 449280
Flush
Straight Three of a Kind Two Pairs One Pair Nothing Total
5108
10200 54912 123552 1098240 1302540 2598960
0.0019654
0.00392464 0.02112845 0.04753902 0.42256903 0.50117739 1.0
612960
1224000 6589440 14826240 131788800 156304800 311875200
The number of combinations represents the number of instances in the entire domain.
WEKA
Qu es?
Un pjaro tambin conocido como woodhen. El pjaro omnvoro es nativo a Nueva Zelandia y habita una gran variedad de habitat, de zonas urbanas al prado. En madurez, puede alcanzar el tamao de un pollo domesticado. Weka es los pjaros curiosos y decididos que pueden sobrevivir en una amplia gama de habitat, de ambientes urbanos a los bosques y a los prados. Su dieta es omnvora, incluyendo la vegetacin tal como semillas, hierba y bayas as como animales tales como pequeos pjaros, ratones e insectos. Tiene un pico largo, durable, utiliz ambos para analizar el alimento y para defenderse. En la madurez, puede venir sea hasta 20 pulgadas (50 centmetros) en longitud, con los varones pesando alrededor 2.2 libras (1 kilogramo), y las hembras ms pequeas que pesan cerca de 1.5 libras (700 gramos).
Reprocesamiento
Esta etapa es siempre la que consume el mayor tiempo en el desarrollo de un proyecto de minera de datos. El preprocesamiento de datos abarca procesos de extraccin, limpieza e integracin. Algunas veces tambin se deben hacer clculos, a partir de los datos dados, para obtener otros nuevos ms interesantes que se puedan incluir en los estudios de minera. En muchos estudios es usual implementar algn algoritmo (por ejemplo el k-means) e ir realizando variaciones en los parmetros para generar diversos resultados. Si el algoritmo elegido no da buenos resultados (en el caso del k-means genera demasiadas o pocas agrupaciones), se hacen variaciones del mismo algoritmo (como kernel k-means) o definitivamente se descarta y se inicia el trabajo con otro algoritmo.
Archivos ARFF
Son archivos arff (Attribute-Relation File Format) que contienen los datos extrados y limpios obtenidos en la etapa de preprocesamiento. ARFF es un formato de texto plano, es decir, que se puede visualizar y manipular, directamente, con cualquier editor de texto como gedit o notepad.
@relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ...
Estructura Bsica
Un archivo ARFF se compone de dos partes principales: la cabecera y los datos oinstancias. En la cabecera, cada linea inicia con un smbolo de @. En la segunda parte se encuentran los datos separados por comas. Todas las lineas que comiencen con un % corresponden a comentarios. La cabecera inicia con el tag @relation indicando el nombre de la relacin representada por los datos. En las lineas siguientes se definen los atributos, con el tag @attribute seguido de su nombre y tipo, uno por lnea
@relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ...
Carga de Archivos
La carga de archivos ARFF se hace con la aplicacin del Explorer. Una vez se tiene listo el archivo con los datos para analizar en WEKA, se puede cargar en el software, seleccionndolo
Filtros
Para aplicar los filtros hay que ubicarse en la interfaz donde se carga el archivo ARFF que corresponde a la pestaa de Preprocess. Los filtros supervisados se deben usar con cuidado en los conjuntos de entrenamiento ya que usan los valores de la etiqueta de clase en la transformacin, para, por ejemplo, crear intervalos en una discretizacin. Estos mismos intervalos se deben usar luego con los conjuntos de prueba y sin usar ningn filtro no supervisado. Los filtros no supervisados de atributos son generalmente los ms utilizados, en especial para transformar uno o varios atributos a un tipo de datos especfico. Es importante tener en cuenta que al aplicar un filtro no supervisado, ste afectar a todos los atributos con el mismo tipo de dato.
Discretizacin
Las tcnicas de discretizacin se usan para reducir el nmero de valores de atributos continuos. La discretizacin tambin conocida como binning, consiste en transformar un atributo numrico y representarlo como un atributo nominal, mediante la creacin de intervalos (bins). Un intervalo es un grupo de valores que puede tomar un atributo (nominal)
Tcnica
Simple binning
Equal Frecuency Binning El nmero de bins es igual a la raz cuadrada de valores no faltantes.
ChiMerge
Descrip cin
Se establece un nmero de bins estticos. Los intervalos se calculan utilizando informacin de los datos como el mximo y el mnimo. Discretize
Analiza la calidad de mltiples intervalos, dadas unas caracters ticas usando el estadstic o chicuadr ado.
Filtro WEKA
PKIDiscretiz No tiene e
Numerizacion
Normalizacin
La tarea de numerizacin es el proceso inverso de la discretizacin, en el que se transforman atributos nominales en numricos. Este caso no es tan comn, pero existen situaciones en las cuales es til, como por ejemplo cuando el mtodo de minera de datos no acepta datos nominales. Anlisis de componentes principales y redes neuronales, son algunas de las tcnicas de numerizacin que slo trabajan con atributos numricos
La normalizacin es una transformacin muy til empleada en la minera de datos. Se realiza con dos fines principales. El primero, para poder representar todos los atributos en una misma escala. El segundo, para satisfacer requerimientos de las tcnicas utilizadas para minar, representando los datos en una escala menor (por ejemplo en una escala de cero a uno)
Seleccin de Atributos
La seleccin de atributos es la etapa ms importante dentro del preprocesamiento de datos, porque se eliminan aquellos atributos que son menos representativos. En algunos casos la seleccin de atributos se realiza por ensayo y error, hasta conseguir un modelo a patrn eficiente, pero esto no es lo ms adecuado ya que el tiempo y el costo computacional crece con respecto al nmero de variables existentes en la coleccin de datos. Existen diferentes formas para hacer seleccin de atributos, como las de tipo supervisada y no supervisada, donde la primera debe contener la etiqueta de clase, mientras que la segunda no. La mayora de algoritmos que maneja WEKA para este fin hacen seleccin de un subconjunto de atributos, mientras que otros establecen un ranking de los atributos ms relevantes. Tambin existen clasificaciones por el tipo de evaluacin y por la direccin de bsqueda que son ms complejas.
Tareas
En esta fase se determinan las tcnicas que van a ser usadas para el descubrimiento de conocimiento. La minera de datos es apoyada por tres tecnologas que actualmente se encuentran bastante avanzadas: coleccin de datos masiva, computadoras con multiprocesamiento y algoritmos de minera de datos
Clustering
Consiste en formar grupos (clusters) con base en un criterio de cercana, maximizando la similitud entre elementos de un mismo grupo, pero minimizndola respecto a elementos de otros grupos.
Es aconsejable usar algoritmos de clustering cuando no hay etiqueta de clase en los datos. Tambin cuando se prev que las instancias pueden presentar grupos de forma natural.
Simple k-means
Es un algoritmo de particionamiento, donde K corresponde al nmero de clusters a encontrar, los cuales deben satisfacer dos condiciones bsicas. La primera, es que cada cluster puede contener un elemento. La segunda, que cada elemento pertenezca nicamente a un cluster. Cada cluster est representado por el valor de la media de todos los elementos de su grupo.
Visualizacin
En la tarea de clustering, es muy importante tener la posibilidad graficar la distribucin de los datos en los diversos clusters generados por uno o ms algoritmos. No solamente, para facilitar el anlisis y la interpretacin de los resultados, sino para poder apreciar las distancias entre los clusters y sus elementos.
Las visualizaciones permiten un anlisis ms rpido de los resultados del algoritmo, en especial del comportamiento de cada atributo con respecto a los clusters encontrados.
Modos de evaluacin
Expectation Maximization
Las tareas de clustering y clasificacin comparten los modos de evaluacin: use training set, percentage split y supplied test set. Este ltimo modo, es para cuando se tienen los datos de prueba separados de los de entrenamiento, en otro archivo ARFF. Todos estos modos incluyendo classes to clusters evaluation (clases presentes en clusters), son tiles dependiendo de la cantidad y los tipos de datos a analizar.
Este algoritmo de clustering encuentra la mxima verosimilitud (log-likelihood) mediante un mtodo iterativo. Cada iteracin se compone de dos pasos: la expectativa, (expectation) donde se calcula las probabilidades de las instancias para conformar los clusters; la maximizacin, para calcular la distribucin de los parmetros.
Clasificacion
Esta tarea de minera es de las ms utilizadas e importantes. La clasificacin es un proceso que se hace a dos pasos. En el primer paso, se construye un modelo, el cual describe el conjunto preliminar de clases. El modelo es construido analizando las instancias, donde cada registro pertenece a una clase especfica conocida. Generalmente, el modelo prendido es representado en la forma de reglas declasificacin, rboles de decisin o frmulas matemticas.
En el segundo paso el modelo se usa para generar la clasificacin de datos desconocidos, estimando la precisin del modelo o clasificador. La precisin de un modelo es el porcentaje de instancias, del conjunto de entrenamiento que fueron correctamente clasificadas. Si la precisin del modelo se considera aceptable, ste se puede usar para clasificar futuros conjuntos de datos para los cuales la etiqueta de clase es desconocida.
Arboles de decisin
Los rboles son una manera prctica para visualizar la clasificacin de un conjunto de datos.
Reglas
Existen diversos mtodos para generar reglas de clasificacin en los conjuntos de entrenamiento.
One Rule, comnmente abreviado como OneR 1R, es un algoritmo de clasificacin simple, que genera una regla por cada atributo y escoge la del menor error. PRISM es un algoritmo de cubrimiento sencillo. Para poder aplicarlo, se debi usar primero el filtro NumericToNominal (como se mostr en la seccin de Filtros) para convertir todos los atributos a nominales.
Bayesianos
Los mtodos bayesianos suelen ser los ms eficientes para clasificar datos. Sin embargo, debe tenerse en cuenta que entre los atributos del conjunto de entrenamiento no pueden existir correlaciones, puesto que invalidara el resultado.
One Rule, comnmente abreviado como OneR 1R, es un algoritmo de clasificacin simple, que genera una regla por cada atributo y escoge la del menor error. PRISM es un algoritmo de cubrimiento sencillo. Para poder aplicarlo, se debi usar primero el filtro NumericToNominal (como se mostr en la seccin de Filtros) para convertir todos los atributos a nominales.
Asociacin
Las reglas de asociacin realizan una tarea similar a las correlaciones, que tienen como objetivo identificar relaciones no explcitas entre atributos nominales