P. 1
Tarea 7 Equipo 2 (1)

Tarea 7 Equipo 2 (1)

|Views: 3|Likes:
Published by Ara Medrano

More info:

Published by: Ara Medrano on Apr 21, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPTX, PDF, TXT or read online from Scribd
See more
See less

12/08/2014

pdf

text

original

Data Set

¿Qué es?

 Representa datos en una memoria.
 Un data set es una colección de datos, por lo general se presentan en tablas formulario. Cada columna representa una variable en particular. Cada fila corresponde a un determinado miembro de la base de datos en cuestión. En él se enumeran los valores para cada una de las variables, tales como la altura y el peso de un objeto. Cada valor se conoce como un punto de referencia . El conjunto de datos puede comprender datos para uno o más miembros, que corresponden al número de filas.

Poker Hand Dataset
 Creadores: Robert Cattral (cattral@gmail.com) y Franz Oppacher (oppacher@scs.carleton.ca) de la Carleton University (Canadá)

 Información relevante: Cada registro es un ejemplo de una mano formada por cinco cartas extraídas de una baraja estándar de 52. Cada tarjeta se describe utilizando dos atributos (palo y rango), para un total de 10 atributos predictivos. Hay un atributo de clase que describe la Mano de Poker. El orden de las cartas es importante, por lo que hay 480 posibles manos Royal Flush en comparación con 4 (uno para cada palo se explica en más detalle a continuación).
 Número de instancias: 25010 de entrenamiento, 1 millón de prueba  Número de Atributos: 10 atributos predictivos, un atributo objetivo

Tréboles}               10) Rango de tarjeta 5 Numérico (1-13) representa (As. cinco cartas del mismo palo 6: Full house. tres rangos iguales dentro de cinco cartas 4:Escalera. Rey) 7) Palo de la tarjeta # 4 Ordinal (1-4) que representa {Corazones. 3. . Tréboles} 6) Rango de tarjeta # 3 Numérico (1-13) representa (As. Reina. Reina. Reina. Diamantes.. par + tres de una clase 7: Cuatro de una clase. 3. no es una mano de póquer reconocida 1: Un par. Rey) 11) Categoría Hand Poker Ordinal (0-9) 0: No hay nada en la mano. Reina.. Tréboles} 8) Rango de tarjeta # 4 Numérico (1-13) representa (As. Rey) 9) Palo de la tarjeta # 5 Ordinal (1-4) que representa {Corazones. 2.. un par de rangos iguales dentro de cinco cartas 2: Dos pares: dos pares de rangos iguales dentro de cinco cartas 3: Tres de una clase. Rey) 5) S3 Palo de la tarjeta # 3 Ordinal (1-4) que representa {Corazones.. Tréboles} 2) Rango de C1 tarjeta # 1 Numérico (1-13) representa (As. 2. Diez} + color .. Picas. Picas. . Picas... Rey.. cinco cartas... Rey) 3) Palo S2 de la tarjeta # 2 Ordinal (1-4) que representa {Corazones.. 2. Tréboles} 4) Rango de tarjeta # 2 Numérico (1-13) representa (As. Diamantes. Picas. 2. Diamantes. 3. 2. corrida + color 9: Royal flush. {As. 3.. Diamantes. 3.. Jota. . Reina. . clasificados en orden secuencial sin espacios 5: Color. Reina. Diamantes. Picas. cuatro rangos iguales dentro de cinco cartas 8: Escalera de color.Información de los atributos                   1) Palo S1 de la tarjeta # 1 Ordinal (1-4) que representa {Corazones... .

392465%) 5: Flush. 10599 instances. (0. 93 instances.112845%) 4: Straight.117739%) 1: One pair. (0.02401%) 8: Straight flush. (0.144058%)     7: Four of a kind. (4.82207% / 4. Total of 25010 instances in a domain of 311.82 times more likely.14394% / 0.37185% / 0. The Straight flush is 14.200.95202% / 50.875. . 5 instances.21591% / 0. 54 instances. Training set: 0: Nothing in hand. The second is the probability in the full domain. (2. 1206 instances. 5 instances.01999% / 0.753902%) 3: Three of a kind.02399% / 0. while the Royal flush is 129. (0.Distribución de la clase     The first percentage in parenthesis is the representation within the training set. 36 instances.000154%) The Straight flush and Royal flush hands are not as representative of the true domain because they have been oversampled.256903%)      2: Two pairs. (0. 12493 instances (49.01999% / 0. (0.19654%) 6: Full house.43 times more likely to occur in the training set.05118% / 2. (42. 513 instances.001385%) 9: Royal flush. 6 instances.37905% / 42.

12 instances. . (0.999647)  4: Straight.989897)  5: Flush. (1.(0. while <1. 47622 instances. 422498 instances. 1424 instances.875. (1. 3 instances. (0.200.000063)  1: One pair. 501209 instances. 1. (1.(1. 21121 instances.999832)  2: Two pairs. 1996 instances. (0.015569)  6: Full house.957934)  8: Straight flush.988491)  7: Four of a kind. 230 instances.866426)  9: Royal flush.  0: Nothing in hand.001746)  3: Three of a kind. (0.0 are overrepresented. Testing set: The value inside parenthesis indicates the representation within the test set as compared to the entire domain.948052)  Total of one million instances in a domain of 311.0 are under-represented and >1. 3885 instances.0 would be perfect representation. (0.

Estadísticas Poker Hand # of hands Probability # of combinations Royal Flush Straight Flush Four of a Kind Full House 4 36 624 3744 0.00392464 0.00000154 0.00001385 0.00144058 480 4320 74880 449280 Flush Straight Three of a Kind Two Pairs One Pair Nothing Total 5108 10200 54912 123552 1098240 1302540 2598960 0.0002401 0.42256903 0.50117739 1.0019654 0.0 612960 1224000 6589440 14826240 131788800 156304800 311875200 The number of combinations represents the number of instances in the entire domain.04753902 0.02112845 0. .

WEKA .

puede alcanzar el tamaño de un pollo domesticado. En madurez. puede venir sea hasta 20 pulgadas (50 centímetros) en longitud. ratones e insectos. de zonas urbanas al prado. y las hembras más pequeñas que pesan cerca de 1. Tiene un pico largo.5 libras (700 gramos). de ambientes urbanos a los bosques y a los prados.¿Qué es?  Un pájaro también conocido como woodhen. En la madurez.  El pájaro omnívoro es nativo a Nueva Zelandia y habita una gran variedad de habitat. hierba y bayas así como animales tales como pequeños pájaros.  Weka es los pájaros curiosos y decididos que pueden sobrevivir en una amplia gama de habitat. incluyendo la vegetación tal como semillas.2 libras (1 kilogramo). durable. utilizó ambos para analizar el alimento y para defenderse. . con los varones pesando alrededor 2. Su dieta es omnívora.

Weka contiene herramientas para los datos de pre-procesamiento. regresión.Ahh!! Pero eso noo!!  Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. clustering.  Weka es un software de código abierto publicado bajo la Licencia Pública General GNU . . También es muy adecuado para el desarrollo de nuevos sistemas de aprendizaje de máquina. reglas de asociación y visualización. Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamar desde su propio código Java. clasificación.

limpieza e integración. se hacen variaciones del mismo algoritmo (como kernel k-means) o definitivamente se descarta y se inicia el trabajo con otro algoritmo.  Algunas veces también se deben hacer cálculos. .Reprocesamiento  Esta etapa es siempre la que consume el mayor tiempo en el desarrollo de un proyecto de minería de datos. para obtener otros nuevos más interesantes que se puedan incluir en los estudios de minería.  En muchos estudios es usual implementar algún algoritmo (por ejemplo el k-means) e ir realizando variaciones en los parámetros para generar diversos resultados. a partir de los datos dados.  El preprocesamiento de datos abarca procesos de extracción. Si el algoritmo elegido no da buenos resultados (en el caso del k-means genera demasiadas o pocas agrupaciones).

. directamente.Archivos ARFF  Son archivos arff (Attribute-Relation File Format) que contienen los datos extraídos y limpios obtenidos en la etapa de preprocesamiento. con cualquier editor de texto como gedit o notepad. es decir. ARFF es un formato de texto plano. que se puede visualizar y manipular.

not_present 67.no. es decir.typ_angina. el dominio del atributo También existen los tipos STRING y DATE.non_anginal.not_present .no.yes. asympt. La definición de cuáles atributos se deben incluir.229. non_anginal. como la selección de los datos objetivo.male..present 38.male.Atributos de los Archivos ARFF Son las cualidades que conforman las instancias en los archivos ARFF. que pueden indicarse como NOMINAL o especificando todos los valores que pueden tomar.present 67. @relation heart-disease-simplified @attribute age numeric @attribute sex { female. .female. yes} @attribute class { present.286. Los numéricos.asympt. not_present} @data 63. atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no. que se indican como NUMERIC y los nominales.. Los tipos que puede tener un atributo son básicamente dos. corresponde a la etapa de preprocesamiento que abarca también sub-etapas muy importantes.male. male} @attribute chest_pain_type { typ_angina.yes.asympt.233.?. Cada atributo toma un valor según su tipo e influenciado en muchos casos por los demás atributos.

female.male. En las lineas siguientes se definen los atributos.no.male. con el tag @attribute seguido de su nombre y tipo. En la segunda parte se encuentran los datos separados por comas. Todas las lineas que comiencen con un % corresponden a comentarios. En la cabecera. asympt.present 67. non_anginal. atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no.?.non_anginal. male} @attribute chest_pain_type { typ_angina. not_present} @data 63.yes. yes} @attribute class { present.present 38.typ_angina..not_present ..286.asympt.male.asympt.not_present 67. La cabecera inicia con el tag @relation indicando el nombre de la relación representada por los datos. cada linea inicia con un símbolo de @.233.yes.229.Estructura Básica Un archivo ARFF se compone de dos partes principales: la cabecera y los datos oinstancias. uno por línea @relation heart-disease-simplified @attribute age numeric @attribute sex { female. .no.

Una vez se tiene listo el archivo con los datos para analizar en WEKA. se puede cargar en el software. seleccionándolo .Carga de Archivos La carga de archivos ARFF se hace con la aplicación del Explorer.

.

Es importante tener en cuenta que al aplicar un filtro no supervisado. en especial para transformar uno o varios atributos a un tipo de datos específico. crear intervalos en una discretización.Filtros Para aplicar los filtros hay que ubicarse en la interfaz donde se carga el archivo ARFF que corresponde a la pestaña de Preprocess. éste afectará a todos los atributos con el mismo tipo de dato. Los filtros no supervisados de atributos son generalmente los más utilizados. para. Estos mismos intervalos se deben usar luego con los conjuntos de prueba y sin usar ningún filtro no supervisado. . Los filtros supervisados se deben usar con cuidado en los conjuntos de entrenamiento ya que usan los valores de la etiqueta de clase en la transformación. por ejemplo.

.

Discretización Las técnicas de discretización se usan para reducir el número de valores de atributos continuos. Los intervalos se calculan utilizando información de los datos como el máximo y el mínimo. consiste en transformar un atributo numérico y representarlo como un atributo nominal. Filtro WEKA PKIDiscretiz No tiene e . mediante la creación de intervalos (bins). Discretize Analiza la calidad de múltiples intervalos. Descrip ción Se establece un número de bins estáticos. dadas unas caracterís ticas usando el estadístic o chicuadr ado. redondeo y promedio bins por cada subconjunt o de datos. Un intervalo es un grupo de valores que puede tomar un atributo (nominal) Técnica Simple binning Equal Frecuency Binning El número de bins es igual a la raíz cuadrada de valores no faltantes. ChiMerge Agrupación . La discretización también conocida como binning.

.

para satisfacer requerimientos de las técnicas utilizadas para minar. El segundo. para poder representar todos los atributos en una misma escala. como por ejemplo cuando el método de minería de datos no acepta datos nominales. en el que se transforman atributos nominales en numéricos. son algunas de las técnicas de numerización que sólo trabajan con atributos numéricos La normalización es una transformación muy útil empleada en la minería de datos. Este caso no es tan común.Numerizacion Normalización La tarea de numerización es el proceso inverso de la discretización. Análisis de componentes principales y redes neuronales. pero existen situaciones en las cuales es útil. Se realiza con dos fines principales. El primero. representando los datos en una escala menor (por ejemplo en una escala de cero a uno) .

También existen clasificaciones por el tipo de evaluación y por la dirección de búsqueda que son más complejas.Selección de Atributos  La selección de atributos es la etapa más importante dentro del preprocesamiento de datos. En algunos casos la selección de atributos se realiza por ensayo y error. . pero esto no es lo más adecuado ya que el tiempo y el costo computacional crece con respecto al número de variables existentes en la colección de datos. mientras que otros establecen un ranking de los atributos más relevantes. La mayoría de algoritmos que maneja WEKA para este fin hacen selección de un subconjunto de atributos. como las de tipo supervisada y no supervisada. porque se eliminan aquellos atributos que son menos representativos. mientras que la segunda no. hasta conseguir un modelo a patrón eficiente. donde la primera debe contener la etiqueta de clase.  Existen diferentes formas para hacer selección de atributos.

Tareas…  En esta fase se determinan las técnicas que van a ser usadas para el descubrimiento de conocimiento. computadoras con multiprocesamiento y algoritmos de minería de datos . La minería de datos es apoyada por tres tecnologías que actualmente se encuentran bastante avanzadas: colección de datos masiva.

. También cuando se prevé que las instancias pueden presentar grupos de forma natural.Clustering  Consiste en formar grupos (clusters) con base en un criterio de cercanía. maximizando la similitud entre elementos de un mismo grupo. Es aconsejable usar algoritmos de clustering cuando no hay etiqueta de clase en los datos. pero minimizándola respecto a elementos de otros grupos.

donde K corresponde al número de clusters a encontrar. La segunda. . Cada cluster está representado por el valor de la media de todos los elementos de su grupo. La primera.Simple k-means Es un algoritmo de particionamiento. es que cada cluster puede contener un elemento. que cada elemento pertenezca únicamente a un cluster. los cuales deben satisfacer dos condiciones básicas.

.

Las visualizaciones permiten un análisis más rápido de los resultados del algoritmo. para facilitar el análisis y la interpretación de los resultados. .Visualización En la tarea de clustering. en especial del comportamiento de cada atributo con respecto a los clusters encontrados. es muy importante tener la posibilidad graficar la distribución de los datos en los diversos clusters generados por uno o más algoritmos. No solamente. sino para poder apreciar las distancias entre los clusters y sus elementos.

en otro archivo ARFF. la maximización. . percentage split y supplied test set. Este último modo. para calcular la distribución de los parámetros. es para cuando se tienen los datos de prueba separados de los de entrenamiento. Este algoritmo de clustering encuentra la máxima verosimilitud (log-likelihood) mediante un método iterativo. Todos estos modos incluyendo classes to clusters evaluation (clases presentes en clusters). (expectation) donde se calcula las probabilidades de las instancias para conformar los clusters. son útiles dependiendo de la cantidad y los tipos de datos a analizar.Modos de evaluación Expectation Maximization Las tareas de clustering y clasificación comparten los modos de evaluación: use training set. Cada iteración se compone de dos pasos: la expectativa.

Generalmente. árboles de decisión o fórmulas matemáticas. el cual describe el conjunto preliminar de clases. donde cada registro pertenece a una clase específica conocida. .  En el segundo paso el modelo se usa para generar la clasificación de datos desconocidos.Clasificacion Esta tarea de minería es de las más utilizadas e importantes. estimando la precisión del modelo o clasificador. se construye un modelo. El modelo es construido analizando las instancias. La clasificación es un proceso que se hace a dos pasos. el modelo prendido es representado en la forma de reglas declasificación. En el primer paso. éste se puede usar para clasificar futuros conjuntos de datos para los cuales la etiqueta de clase es desconocida. La precisión de un modelo es el porcentaje de instancias. del conjunto de entrenamiento que fueron correctamente clasificadas. Si la precisión del modelo se considera aceptable.

Arboles de decisión Los árboles son una manera práctica para visualizar la clasificación de un conjunto de datos. .

es un algoritmo de clasificación simple.  One Rule.  PRISM es un algoritmo de cubrimiento sencillo. Para poder aplicarlo. que genera una regla por cada atributo y escoge la del menor error. . comúnmente abreviado como OneR ó 1R. se debió usar primero el filtro NumericToNominal (como se mostró en la sección de Filtros) para convertir todos los atributos a nominales.Reglas Existen diversos métodos para generar reglas de clasificación en los conjuntos de entrenamiento.

es un algoritmo de clasificación simple. comúnmente abreviado como OneR ó 1R.Bayesianos Los métodos bayesianos suelen ser los más eficientes para clasificar datos. .  One Rule.  PRISM es un algoritmo de cubrimiento sencillo. debe tenerse en cuenta que entre los atributos del conjunto de entrenamiento no pueden existir correlaciones. puesto que invalidaría el resultado. Para poder aplicarlo. se debió usar primero el filtro NumericToNominal (como se mostró en la sección de Filtros) para convertir todos los atributos a nominales. que genera una regla por cada atributo y escoge la del menor error. Sin embargo.

Asociación Las reglas de asociación realizan una tarea similar a las correlaciones. que tienen como objetivo identificar relaciones no explícitas entre atributos nominales .

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->