You are on page 1of 33

Data Set

Qu es?

Representa datos en una memoria.


Un data set es una coleccin de datos, por lo general se presentan en tablas formulario. Cada columna representa una variable en particular. Cada fila corresponde a un determinado miembro de la base de datos en cuestin. En l se enumeran los valores para cada una de las variables, tales como la altura y el peso de un objeto. Cada valor se conoce como un punto de referencia . El conjunto de datos puede comprender datos para uno o ms miembros, que corresponden al nmero de filas.

Poker Hand Dataset


Creadores: Robert Cattral (cattral@gmail.com) y Franz Oppacher (oppacher@scs.carleton.ca) de la Carleton University (Canad)

Informacin relevante: Cada registro es un ejemplo de una mano formada por cinco cartas extradas de una baraja estndar de 52. Cada tarjeta se describe utilizando dos atributos (palo y rango), para un total de 10 atributos predictivos. Hay un atributo de clase que describe la Mano de Poker. El orden de las cartas es importante, por lo que hay 480 posibles manos Royal Flush en comparacin con 4 (uno para cada palo se explica en ms detalle a continuacin).
Nmero de instancias: 25010 de entrenamiento, 1 milln de prueba Nmero de Atributos: 10 atributos predictivos, un atributo objetivo

Informacin de los atributos


1) Palo S1 de la tarjeta # 1 Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Trboles} 2) Rango de C1 tarjeta # 1 Numrico (1-13) representa (As, 2, 3, ..., Reina, Rey) 3) Palo S2 de la tarjeta # 2 Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Trboles} 4) Rango de tarjeta # 2 Numrico (1-13) representa (As, 2, 3, ..., Reina, Rey) 5) S3 Palo de la tarjeta # 3 Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Trboles} 6) Rango de tarjeta # 3 Numrico (1-13) representa (As, 2, 3, ..., Reina, Rey) 7) Palo de la tarjeta # 4 Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Trboles} 8) Rango de tarjeta # 4 Numrico (1-13) representa (As, 2, 3, ..., Reina, Rey) 9) Palo de la tarjeta # 5 Ordinal (1-4) que representa {Corazones, Picas, Diamantes, Trboles} 10) Rango de tarjeta 5 Numrico (1-13) representa (As, 2, 3, ..., Reina, Rey) 11) Categora Hand Poker Ordinal (0-9) 0: No hay nada en la mano, no es una mano de pquer reconocida 1: Un par, un par de rangos iguales dentro de cinco cartas 2: Dos pares: dos pares de rangos iguales dentro de cinco cartas 3: Tres de una clase, tres rangos iguales dentro de cinco cartas 4:Escalera; cinco cartas, clasificados en orden secuencial sin espacios 5: Color; cinco cartas del mismo palo 6: Full house, par + tres de una clase 7: Cuatro de una clase, cuatro rangos iguales dentro de cinco cartas 8: Escalera de color, corrida + color 9: Royal flush; {As, Rey, Reina, Jota, Diez} + color

Distribucin de la clase
The first percentage in parenthesis is the representation within the training set. The second is the probability in the full domain. Training set: 0: Nothing in hand, 12493 instances (49.95202% / 50.117739%) 1: One pair, 10599 instances, (42.37905% / 42.256903%)

2: Two pairs, 1206 instances, (4.82207% / 4.753902%)


3: Three of a kind, 513 instances, (2.05118% / 2.112845%) 4: Straight, 93 instances, (0.37185% / 0.392465%) 5: Flush, 54 instances, (0.21591% / 0.19654%) 6: Full house, 36 instances, (0.14394% / 0.144058%)

7: Four of a kind, 6 instances, (0.02399% / 0.02401%)


8: Straight flush, 5 instances, (0.01999% / 0.001385%) 9: Royal flush, 5 instances, (0.01999% / 0.000154%) The Straight flush and Royal flush hands are not as representative of the true domain because they have been oversampled. The Straight flush is 14.43 times more likely to occur in the training set, while the Royal flush is 129.82 times more likely. Total of 25010 instances in a domain of 311,875,200.

Testing set: The value inside parenthesis indicates the representation within the test set as compared to the entire domain. 1.0 would be perfect representation, while <1.0 are under-represented and >1.0 are overrepresented. 0: Nothing in hand, 501209 instances,(1.000063) 1: One pair, 422498 instances,(0.999832) 2: Two pairs, 47622 instances, (1.001746) 3: Three of a kind, 21121 instances, (0.999647) 4: Straight, 3885 instances, (0.989897) 5: Flush, 1996 instances, (1.015569)

6: Full house, 1424 instances, (0.988491)


7: Four of a kind, 230 instances, (0.957934) 8: Straight flush, 12 instances, (0.866426) 9: Royal flush, 3 instances, (1.948052) Total of one million instances in a domain of 311,875,200.

Estadsticas
Poker Hand # of hands Probability # of combinations

Royal Flush
Straight Flush Four of a Kind Full House

4
36 624 3744

0.00000154
0.00001385 0.0002401 0.00144058

480
4320 74880 449280

Flush
Straight Three of a Kind Two Pairs One Pair Nothing Total

5108
10200 54912 123552 1098240 1302540 2598960

0.0019654
0.00392464 0.02112845 0.04753902 0.42256903 0.50117739 1.0

612960
1224000 6589440 14826240 131788800 156304800 311875200

The number of combinations represents the number of instances in the entire domain.

WEKA

Qu es?
Un pjaro tambin conocido como woodhen. El pjaro omnvoro es nativo a Nueva Zelandia y habita una gran variedad de habitat, de zonas urbanas al prado. En madurez, puede alcanzar el tamao de un pollo domesticado. Weka es los pjaros curiosos y decididos que pueden sobrevivir en una amplia gama de habitat, de ambientes urbanos a los bosques y a los prados. Su dieta es omnvora, incluyendo la vegetacin tal como semillas, hierba y bayas as como animales tales como pequeos pjaros, ratones e insectos. Tiene un pico largo, durable, utiliz ambos para analizar el alimento y para defenderse. En la madurez, puede venir sea hasta 20 pulgadas (50 centmetros) en longitud, con los varones pesando alrededor 2.2 libras (1 kilogramo), y las hembras ms pequeas que pesan cerca de 1.5 libras (700 gramos).

Ahh!! Pero eso noo!!


Weka es una coleccin de algoritmos de aprendizaje automtico para tareas de minera de datos. Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamar desde su propio cdigo Java. Weka contiene herramientas para los datos de pre-procesamiento, clasificacin, regresin, clustering, reglas de asociacin y visualizacin. Tambin es muy adecuado para el desarrollo de nuevos sistemas de aprendizaje de mquina.

Weka es un software de cdigo abierto

publicado bajo la Licencia Pblica General GNU .

Reprocesamiento
Esta etapa es siempre la que consume el mayor tiempo en el desarrollo de un proyecto de minera de datos. El preprocesamiento de datos abarca procesos de extraccin, limpieza e integracin. Algunas veces tambin se deben hacer clculos, a partir de los datos dados, para obtener otros nuevos ms interesantes que se puedan incluir en los estudios de minera. En muchos estudios es usual implementar algn algoritmo (por ejemplo el k-means) e ir realizando variaciones en los parmetros para generar diversos resultados. Si el algoritmo elegido no da buenos resultados (en el caso del k-means genera demasiadas o pocas agrupaciones), se hacen variaciones del mismo algoritmo (como kernel k-means) o definitivamente se descarta y se inicia el trabajo con otro algoritmo.

Archivos ARFF

Son archivos arff (Attribute-Relation File Format) que contienen los datos extrados y limpios obtenidos en la etapa de preprocesamiento. ARFF es un formato de texto plano, es decir, que se puede visualizar y manipular, directamente, con cualquier editor de texto como gedit o notepad.

Atributos de los Archivos ARFF


Son las cualidades que conforman las instancias en los archivos ARFF. Cada atributo toma un valor segn su tipo e influenciado en muchos casos por los dems atributos. La definicin de cules atributos se deben incluir, corresponde a la etapa de preprocesamiento que abarca tambin sub-etapas muy importantes, como la seleccin de los datos objetivo.
Los tipos que puede tener un atributo son bsicamente dos. Los numricos, que se indican como NUMERIC y los nominales, que pueden indicarse como NOMINAL o especificando todos los valores que pueden tomar, es decir, el dominio del atributo Tambin existen los tipos STRING y DATE.

@relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ...

Estructura Bsica
Un archivo ARFF se compone de dos partes principales: la cabecera y los datos oinstancias. En la cabecera, cada linea inicia con un smbolo de @. En la segunda parte se encuentran los datos separados por comas. Todas las lineas que comiencen con un % corresponden a comentarios. La cabecera inicia con el tag @relation indicando el nombre de la relacin representada por los datos. En las lineas siguientes se definen los atributos, con el tag @attribute seguido de su nombre y tipo, uno por lnea

@relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ...

Carga de Archivos
La carga de archivos ARFF se hace con la aplicacin del Explorer. Una vez se tiene listo el archivo con los datos para analizar en WEKA, se puede cargar en el software, seleccionndolo

Filtros
Para aplicar los filtros hay que ubicarse en la interfaz donde se carga el archivo ARFF que corresponde a la pestaa de Preprocess. Los filtros supervisados se deben usar con cuidado en los conjuntos de entrenamiento ya que usan los valores de la etiqueta de clase en la transformacin, para, por ejemplo, crear intervalos en una discretizacin. Estos mismos intervalos se deben usar luego con los conjuntos de prueba y sin usar ningn filtro no supervisado. Los filtros no supervisados de atributos son generalmente los ms utilizados, en especial para transformar uno o varios atributos a un tipo de datos especfico. Es importante tener en cuenta que al aplicar un filtro no supervisado, ste afectar a todos los atributos con el mismo tipo de dato.

Discretizacin
Las tcnicas de discretizacin se usan para reducir el nmero de valores de atributos continuos. La discretizacin tambin conocida como binning, consiste en transformar un atributo numrico y representarlo como un atributo nominal, mediante la creacin de intervalos (bins). Un intervalo es un grupo de valores que puede tomar un atributo (nominal)

Tcnica

Simple binning

Equal Frecuency Binning El nmero de bins es igual a la raz cuadrada de valores no faltantes.

ChiMerge

Agrupacin , redondeo y promedio bins por cada subconjunt o de datos.

Descrip cin

Se establece un nmero de bins estticos. Los intervalos se calculan utilizando informacin de los datos como el mximo y el mnimo. Discretize

Analiza la calidad de mltiples intervalos, dadas unas caracters ticas usando el estadstic o chicuadr ado.

Filtro WEKA

PKIDiscretiz No tiene e

Numerizacion

Normalizacin

La tarea de numerizacin es el proceso inverso de la discretizacin, en el que se transforman atributos nominales en numricos. Este caso no es tan comn, pero existen situaciones en las cuales es til, como por ejemplo cuando el mtodo de minera de datos no acepta datos nominales. Anlisis de componentes principales y redes neuronales, son algunas de las tcnicas de numerizacin que slo trabajan con atributos numricos

La normalizacin es una transformacin muy til empleada en la minera de datos. Se realiza con dos fines principales. El primero, para poder representar todos los atributos en una misma escala. El segundo, para satisfacer requerimientos de las tcnicas utilizadas para minar, representando los datos en una escala menor (por ejemplo en una escala de cero a uno)

Seleccin de Atributos
La seleccin de atributos es la etapa ms importante dentro del preprocesamiento de datos, porque se eliminan aquellos atributos que son menos representativos. En algunos casos la seleccin de atributos se realiza por ensayo y error, hasta conseguir un modelo a patrn eficiente, pero esto no es lo ms adecuado ya que el tiempo y el costo computacional crece con respecto al nmero de variables existentes en la coleccin de datos. Existen diferentes formas para hacer seleccin de atributos, como las de tipo supervisada y no supervisada, donde la primera debe contener la etiqueta de clase, mientras que la segunda no. La mayora de algoritmos que maneja WEKA para este fin hacen seleccin de un subconjunto de atributos, mientras que otros establecen un ranking de los atributos ms relevantes. Tambin existen clasificaciones por el tipo de evaluacin y por la direccin de bsqueda que son ms complejas.

Tareas
En esta fase se determinan las tcnicas que van a ser usadas para el descubrimiento de conocimiento. La minera de datos es apoyada por tres tecnologas que actualmente se encuentran bastante avanzadas: coleccin de datos masiva, computadoras con multiprocesamiento y algoritmos de minera de datos

Clustering
Consiste en formar grupos (clusters) con base en un criterio de cercana, maximizando la similitud entre elementos de un mismo grupo, pero minimizndola respecto a elementos de otros grupos.

Es aconsejable usar algoritmos de clustering cuando no hay etiqueta de clase en los datos. Tambin cuando se prev que las instancias pueden presentar grupos de forma natural.

Simple k-means
Es un algoritmo de particionamiento, donde K corresponde al nmero de clusters a encontrar, los cuales deben satisfacer dos condiciones bsicas. La primera, es que cada cluster puede contener un elemento. La segunda, que cada elemento pertenezca nicamente a un cluster. Cada cluster est representado por el valor de la media de todos los elementos de su grupo.

Visualizacin
En la tarea de clustering, es muy importante tener la posibilidad graficar la distribucin de los datos en los diversos clusters generados por uno o ms algoritmos. No solamente, para facilitar el anlisis y la interpretacin de los resultados, sino para poder apreciar las distancias entre los clusters y sus elementos.
Las visualizaciones permiten un anlisis ms rpido de los resultados del algoritmo, en especial del comportamiento de cada atributo con respecto a los clusters encontrados.

Modos de evaluacin

Expectation Maximization

Las tareas de clustering y clasificacin comparten los modos de evaluacin: use training set, percentage split y supplied test set. Este ltimo modo, es para cuando se tienen los datos de prueba separados de los de entrenamiento, en otro archivo ARFF. Todos estos modos incluyendo classes to clusters evaluation (clases presentes en clusters), son tiles dependiendo de la cantidad y los tipos de datos a analizar.

Este algoritmo de clustering encuentra la mxima verosimilitud (log-likelihood) mediante un mtodo iterativo. Cada iteracin se compone de dos pasos: la expectativa, (expectation) donde se calcula las probabilidades de las instancias para conformar los clusters; la maximizacin, para calcular la distribucin de los parmetros.

Clasificacion
Esta tarea de minera es de las ms utilizadas e importantes. La clasificacin es un proceso que se hace a dos pasos. En el primer paso, se construye un modelo, el cual describe el conjunto preliminar de clases. El modelo es construido analizando las instancias, donde cada registro pertenece a una clase especfica conocida. Generalmente, el modelo prendido es representado en la forma de reglas declasificacin, rboles de decisin o frmulas matemticas.

En el segundo paso el modelo se usa para generar la clasificacin de datos desconocidos, estimando la precisin del modelo o clasificador. La precisin de un modelo es el porcentaje de instancias, del conjunto de entrenamiento que fueron correctamente clasificadas. Si la precisin del modelo se considera aceptable, ste se puede usar para clasificar futuros conjuntos de datos para los cuales la etiqueta de clase es desconocida.

Arboles de decisin
Los rboles son una manera prctica para visualizar la clasificacin de un conjunto de datos.

Reglas
Existen diversos mtodos para generar reglas de clasificacin en los conjuntos de entrenamiento.

One Rule, comnmente abreviado como OneR 1R, es un algoritmo de clasificacin simple, que genera una regla por cada atributo y escoge la del menor error. PRISM es un algoritmo de cubrimiento sencillo. Para poder aplicarlo, se debi usar primero el filtro NumericToNominal (como se mostr en la seccin de Filtros) para convertir todos los atributos a nominales.

Bayesianos
Los mtodos bayesianos suelen ser los ms eficientes para clasificar datos. Sin embargo, debe tenerse en cuenta que entre los atributos del conjunto de entrenamiento no pueden existir correlaciones, puesto que invalidara el resultado.

One Rule, comnmente abreviado como OneR 1R, es un algoritmo de clasificacin simple, que genera una regla por cada atributo y escoge la del menor error. PRISM es un algoritmo de cubrimiento sencillo. Para poder aplicarlo, se debi usar primero el filtro NumericToNominal (como se mostr en la seccin de Filtros) para convertir todos los atributos a nominales.

Asociacin

Las reglas de asociacin realizan una tarea similar a las correlaciones, que tienen como objetivo identificar relaciones no explcitas entre atributos nominales

You might also like