Tutorial de Inducción Al RapidMiner

Induccin al RapidMiner 5.
www.kasperu.com
KNOWLED AND SYSTEMS PERU
Induccin al RapidMiner 5.1
2012
WWW.KASPERU.COM
Induccin al RapidMiner 5.1 Tabla de contenido
www.kasperu.com
1. 2.
RAPIDMINER. ......................................................................................................................................... 3 USO BSICO. ......................................................................................................................................... 4 2.1. 2.2. 2.3. 2.4. A. B. C. D. E. F. G. H. I. J. K. PERSPECTIVAS ............................................................................................................................. 4 ASPECTOS PRELIMINARES. ....................................................................................................... 5 OBJETIVOS DEL MODELO ........................................................................................................... 6 DESARROLLO DEL MODELO ...................................................................................................... 6 DEFINICION DE PROCESOS. ...................................................................................................... 6 LECTURA DE DATOS. ................................................................................................................... 8 TRANSFORMACION DE DATOS............................................................................................ 10 EJECUCION DEL PROCESO. ................................................................................................. 12 MUESTREO................................................................................................................................... 13 RANKING DE ATRIBUTOS .......................................................................................................... 14 MODELADO............................................................................................................................... 16 CONSULTA DEL MODELO ...................................................................................................... 19 RENDIMIENTO DEL MODELO.................................................................................................... 21 MODELO NAIVE BAYES.............................................................................................................. 22 MODELO REDES NEURONALES .............................................................................................. 23
Pgina 2
Induccin al RapidMiner 5.1 1. RAPIDMINER. El RapidMiner es un software desarrollado por Rapid-I, empresa basada en Dortmund, Alemania que en los ltimos aos ha venido teniendo un desarrollo vertiginoso. El producto principal de Rapid-I, es la solucin de anlisis de los datos RapidMiner es el lder mundial de cdigo abierto del sistema de descubrimiento de conocimiento y minera de datos. Est disponible como una aplicacin stand-alone para el anlisis de datos y como un motor de minera de datos que pueden ser integrado en otros productos. Por ahora, miles de aplicaciones de RapidMiner en ms de 30 pases dan a sus usuarios una ventaja competitiva. Entre los usuarios son empresas de renombre como Ford, Honda, Nokia, Miele, Philips, IBM, HP, Cisco, Merrill Lynch, BNP Paribas, Bank of America, Mobilkom Austria, Akzo Nobel, Aureus Pharma, PharmaDM, Cyprotex, Celera, Revere, LexisNexis, Mitre y muchas empresas pequeas y medianas se benefician de el modelo de negocio de cdigo abierto de Rapid-I1. RapidMiner (anteriormente, YALE, Yet Another Learning Environment) es un programa informtico desarrollado en Java para el anlisis y minera de datos. Permite el desarrollo de procesos de anlisis de datos mediante el encadenamiento de operadores a travs de un entorno grfico. Se usa en investigacin y en aplicaciones empresariales. La versin inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo licencia GPL y est hospedado en SourceForge desde el 2004. RapidMiner proporciona ms de 500 operadores orientados al anlisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, preprocesamiento de datos y visualizacin. Tambin permite utilizar los algoritmos incluidos en Weka y en R.
www.kasperu.com En una encuesta realizada por KDnuggets2 , una pgina de minera de datos, RapidMiner ocup el segundo lugar en herramientas de analtica y de minera de datos utilizadas para proyectos reales en 2009, fue el primero en 2010 y en el 2011.
Which data mining/analytic tools you used in the past 12 months for a real project (not just evaluation) [1103 voters] % users in 2011 % users in 2010 RapidMiner (305) R (257) Excel (240) SAS (150) Your own code (134) KNIME (134) Weka (Pentaho) (130) Salford (117) 1.6% Statistica (94) IBM SPSS Modeler (91) MATLAB (79) IBM SPSS Statistics (79) SAS Enterprise Miner (78) JMP (63) 11 Ants Analytics (62) Microsoft SQL Server (54) 8.5% 6.3% 8.3% 7.3% 7.2% 9.2% 7.2% 7.9% 7.1% 5.5% 5.7% 5.6% 4.9% 6.9% 13.6% 12.1% 12.1% 18.4% 12.1% 19.2% 11.8% 14.4% 10.6% 27.7% 37.8% 23.3% 29.8% 21.8% 24.3%
www.rapid-i.com
www.kdnuggets.com/polls/index.html
Induccin al RapidMiner 5.1 Caractersticas Desarrollado en Java Multiplataforma Representacin interna de los procesos de anlisis de datos en ficheros XML Permite el desarrollo de programas a travs de un lenguaje de script Puede usarse de diversas maneras: A travs de un GUI En lnea de comandos En batch (lotes) Desde otros programas a travs de llamadas a sus bibliotecas Extensible Incluye grficos y herramientas de visualizacin de datos Dispone de un mdulo de integracin con R y con Weka Programacin operadores basada en controles u 2. USO BSICO. 2.1. PERSPECTIVAS
www.kasperu.com
El rapidminer perspectivas:
permite
trabajar
en
tres
a. Perspectiva de Diseo Ambiente para disear el proceso de la minera de datos.
En esta perspectiva es posible trabajar con los operadores y con los repositorios. Los operadores corresponden a un conjunto de algoritmos estandarizados que se pueden encadenar tal y como un lego para armar un proyecto de minera de datos.
Los repositorios corresponden almacenes de datos y de proyectos.
los
Pgina 4
www.kasperu.com 2.2. ASPECTOS PRELIMINARES. PRELIMINAR a) Identificar el directorio de trabajo.
b. Perspectiva de Resultados. Ambiente para ver los resultados modelado.
del b) Definir la ubicacin del repositorio de procesos .. exercises\exercise 01\repository exercise
c) Identificar la fuente de los datos. Para el desarrollo de este ejercicio se hace usa los datos depositados en: exercises\exercise 01\data\SampleData.xls exercise c. Perspectiva de Bienvenida. . Pantalla inicial al entrar a la herramienta.
d) Identificar el tipo de dato y de atributo Los tipos de datos y tipos de atributos aceptados por el Rapidminer son los siguientes. Tipo de Dato attribute_value nominal numeric integer real text binomial polynomic file_path date_time date time Tipo de Atributo attribute label id weight batch cluster predictic outlier cost base_value
d. Mi primer modelo en rapidminer Introducir en el desarrollo de modelos mediante la herramienta de minera de datos RapidMiner, haciendo uso de la metodologa CRISP.
Pgina 5
Induccin al RapidMiner 5.1 2.3. OBJETIVOS DEL MODELO Crear un modelo para calcular la probabilidad de que un cliente de la empresa BikeBuyer compre uno de los productos de la empresa, se proporciona los siguientes datos: Clave ID Atributos MaritalStatus, Gender, YearlyIncome, Children, Education, Occupation, HomeOwner, Cars, CommuteDistance, Region, Age Clase BikeBuyer 1. Efectuar las siguientes transformaciones de datos: LogYearlyIncome = log(YearlyIncome) Discretizar YearlyIncome en 4 bins Transforme el tipo de dato Age de integer a polynominal. Transforme el tipo de dato Cars de nominal a numerical 2. Genere una muestra balanceada de datos (1000 de Yes y 1000 de No) observe que el balanceo de datos se efecta sobre la clase BikeBuyer. 3. Identificar los atributos con mayor relevancia para el proceso de clasificacin, mediante el clculo de los pesos de cada atributo. No aplique la normalizacin de los pesos. Elimine aquellos atributos cuyo nivel de relevancia es menor a un valor que se establecer por experimentacin. 4. Aplique el algoritmo Decision Tree para desarrollar un modelo predictivo que identifique los atributos que mejor explican la clase para los datos proporcionados. 5. Aplique modelo al 100 de los datos proporcionados y a la muestra de entrenamiento. 6. Calcule el desempeo del modelo (para el 100% de los datos) mediante la aplicacin de las siguientes medidas de evaluacin: a. Matriz de confusin.
www.kasperu.com 2.4. DESARROLLO DEL MODELO Para desarrollar el modelo de prediccin se ejecutaran los siguientes pasos: A. DEFINICION DE PROCESOS. En RapidMiner los proyectos se trabajan mediante una definicin de procesos, una definicin de proceso es un conjunto de operadores o mdulos encadenados en una secuencia. Una definicin de procesos es un archivo que se almacena en un repositorio. Un repositorio, adems de almacenar archivos de definicin de procesos, puede almacenar datos pre-cargados en archivos de lectura rpida. a) Crear el repositorio de procesos.
Seleccione new local repository
Definir el nombre del repositorio o alias [Exercise 01] y seleccione la ruta donde se ubicar el repositorio.
Pgina 6
Induccin al RapidMiner 5.1 .. exercises\exercise 01\repository repository
www.kasperu.com
Presiones Finish Confirme la creacin del repositorio.
Por otro lado verifique que en la carpeta se encuentre el archivo: Exercise 01.properties
b) Crear una nueva definicin de procesos Una definicin de procesos es un conjunto de operadores encadenados en determinado orden con la finalidad de leer datos desde diversas fuentes, aplicar transformacin, crear modelos, evaluar modelos, optimizar modelos y grabar los resultados. Para crear una definicin de procesos use el cono New:
Esto genera automticamente perspectiva de diseo vaca.
una
Pgina 7
Induccin al RapidMiner 5.1 B. LECTURA DE DATOS. a) Leer el archivo de datos desde un operador. Use el operador Read Excel para leer el archivo de datos. El operador Read Excel se diferencia del operador Read Excel with Format, en que el primero permite la definicin de cada atributo por el usuario, en el caso del segundo usa la definicin proporcionada por el Excel.
www.kasperu.com Verifique los parmetros del operador en el panel Parameters
Use la opcin Import Configuration Wizard, para definir los atributos a leer, los tipos de datos y los tipos de atributos. Seleccione el archivo de datos, desde la carpeta exercises\exercise 01\data\SampleData.xls
Lleve el cono al panel Process encadnelo de la siguiente forma.
Observe que no debe encadenar la entrada fil Pgina 8
Seleccione la hoja con la que trabajar y visualice los datos:
Induccin al RapidMiner 5.1 Atributo ID MaritalStatus Gender YearlyIncome Children Education Occupation HomeOwner Cars CommuteDistance Region Age BikeBuyer
www.kasperu.com Tipo de Dato integer binomial binomial integer polynominal polynominal polynominal binomial polynominal polynominal polynominal integer binomial Tipo de Atributo id attribute attribute attribute attribute attribute attribute attribute attribute attribute attribute attribute label
Defina las anotaciones para los atributos, estos pueden ser de cuatro tipos: Es una fila de datos Name Es la fila de nombres Comment Es una fila de comentarios Unit Indica la unidad de los datos Asigne [Name] a la primera fila y [] al resto de filas de datos (sin los []).
Presione Finish para terminar la configuracin de la importacin de datos. Asigne el tipo de dato y el tipo de atributo a cada atributo segn la siguiente tabla: b) Creacin de una Meta Data. La desventaja de los operadores Read es que requieren abrir y leer los datos desde el archivo original de datos, una alternativa es leerlo una sola vez y almacenarlo en un formato que RapidMiner requiere para ser procesado, denominado MetaData.
Use la opcin Import Excel Sheet para importar los datos de la hoja de Excel y grabarlo como un repositorio de datos. Pgina 9
www.kasperu.com C. TRANSFORMACION DE DATOS. a) Crear un sub proceso para contener los operadores de preparacin de datos: Denomine al Transformation sub proceso Data
Esta opcin genera una secuencia de cinco ventanas similares a la opcin Import Configuration Wizard del operador Read Excel. La quinta venta permite almacenar los datos en un repositorio activo.
Encadene los operadores de la siguiente forma:
b) Aplique las siguientes transformaciones a los datos. LogYearlyIncome = log(YearlyIncome) YearlyIncome Discretizar YearlyIncome en 4 bins Transforme el tipo de dato Age de integer a polynominal. Transforme el tipo de dato Cars de nominal a numerical
Para esto use los siguientes operadores: 1. 2. 3. 4. Generate attributes Discretize by bins Numerical to polynominal Nominal to numerical
Pgina 10
Induccin al RapidMiner 5.1 2. Discretize by bins
www.kasperu.com
Configure cada uno de los cuatro operadores de transformacin de datos, segn las indicaciones anteriores. 1. Generate attributes
3. Numerical to polynominal
4. Nominal to numerical
Pgina 11
www.kasperu.com D. EJECUCION DEL PROCESO. Para ejecutar los operadores use el botn Execute
Observe que ahora se perspectiva de resultados.
pasa
la
a) Analice los resultados obtenidos.
La herramienta proporciona cuatro (vistas): 1. Meta Data view Presenta una vista de las propiedades de los datos. 2. Data view Presenta una vista de los datos. 3. Plot View Proporciona una potente herramienta para el ploteo de datos. 4. Annotations Proporciona una ambiente para escribir comentarios acerca del modelo.
Pgina 12
Induccin al RapidMiner 5.1 E. MUESTREO Objetivo. Generar una muestra balanceada de datos (1000 de Yes y 1000 de No) observe que el balanceo de datos se efecta sobre la clase BikeBuyer. Para el proceso de muestreo se aplicar el operado Sample
www.kasperu.com Para obtener una muestra balanceada de datos se puede extraer el 100% de los Yes y el 11.11% de los No, obtenindose en total 2,000 registros. Los ratios se definen en la opcin sample ratio per class.
Use los siguientes parmetros para el operador:
Ejecute la definicin del proceso para visualizar los resultados. Para los datos originales se dispone de 10,000 registros.
Identifique los estados de la clase
Para los datos muestreados se dispone de 1,999 registros.
El balanceo de los datos se puede observar en la opcin Plot View.
Se observa que 1,000 registros corresponden a Yes y 9,000 corresponden a No. Pgina 13
www.kasperu.com F. RANKING DE ATRIBUTOS Objetivo. Identificar los atributos con mayor relevancia para el proceso de clasificacin, mediante el clculo de los pesos de cada atributo. No aplique la normalizacin de los pesos. Elimine aquellos atributos cuyo nivel de relevancia es menor a un valor que se establecer por experimentacin. Para el proceso de reduccin de la dimensionalidad se aplicar un conjunto de operadores que se agruparan en el subproceso Weight.
a) Clculo de los pesos de cada atributo Los pesos se calcularn usando operador Weight by Information Gain el
El operador permite calcular el nivel de contribucin del atributo para predecir la clase, debe considerarse que el peso es un clculo a priori, es decir que se calcula considerando que cada atributo por influye en la clase, asumiendo que no existe relacin entre los atributos y por otro lado se calcula sin construir ni evaluar ningn modelo.
Pgina 14
Induccin al RapidMiner 5.1 Los criterios usados son los siguientes: Weight by Information Gain Weight by Information Gain Ratio Weight by Rule Weight by Value Average Weight by Deviation Weight by Correlation Weight by Chi Squared Statistic Weight by Gini Index Weight by Tree Importance Weight by Uncertainty Weight by Relief Weight by SVM Weight by PCA Weight by Component Model Weight by User Specification Para los 1,999 registros seleccionado y para el operador de pesos Weight by Information Gain se obtiene los siguientes resultados: attibute Age CommuteDistance Education Children Region Occupation MaritalStatus HomeOwner Gender YearlyIncome Cars Log Yearly Income weight 0.073 0.014 0.010 0.009 0.007 0.007 0.004 0.002 0.002 0.000 0.000 0.000 Atributos seleccionados b) Eliminacin de los pesos menores Use el operador Select by Weights para seleccionar aquellos atributos con un nivel de relevancia mayor a un valor que se establecer por experimentacin. Observando los datos, Qu valor considera apropiado para ubicar el punto de corte? Asigne los siguientes parmetros al operador (observe que los valores son Pgina 15
www.kasperu.com referenciales y estos deben ser obtenidos por experimentacin.
Ejecute la definicin de procesos para observar los resultados. Atributos orginales
Induccin al RapidMiner 5.1 G. MODELADO Objetivo. Aplicar el algoritmo Decision Tree para desarrollar un modelo predictivo que identifique los atributos que mejor explican la clase para los datos proporcionados. Para crear el modelo se puede hacer uso de diferentes algoritmos, no se puede afirmar que uno de ellos es mejor que los otros, la utilidad de los algoritmos depende de los datos proporcionados, de las transformaciones aplicadas y del problema a resolver.
www.kasperu.com
c) Parmetros del modelo Este operador entrena rboles de decisin a partir de datos nominales y numricos. Cada vez que un nuevo nodo se crea en un determinado momento, un atributo se escoge para maximizar el poder de discriminacin de ese nodo con respecto a las dems alternativas asignadas al subrbol en particular. Criterion: especfica el criterio de seleccin de atributos y de divisiones numricas (ganancia de informacin, ndice gini, precisin, proporcin de ganancia). Minimal size for Split: tamao mnimo de divisiones que se pueden dar en cada nodo. Minimal leaf size: tamao mnimo de la hoja. Minimal gain: la ganancia mnima que debe lograrse con el fin de producir una divisin. Maximal depth: La profundidad mxima del rbol. Confidence: El nivel de confianza utilizado para el clculo del error pesimista de la poda. Number of prepruning: El nmero de nodos alternativos probados cuando la tcnica de la poda evitara una divisin. No prepruning: Las reglas de poda se aplican luego de cada iteracin Prenuning: Las reglas de poda basada en el criterio correspondiente despus de generar el rbol.
a) Creacin del rbol de decisin. El rbol de decisin se crea usando el operador Decision Tree basado en el algoritmo Quinlan's C4.5 or CART.
b) Datos de entrenamiento. Los datos para el entrenamiento del rbol provienen del proceso de seleccin anterior y corresponden a:
Determinar los parmetros ptimos de un modelo es un arte y una ciencia, para Pgina 16
Induccin al RapidMiner 5.1 propsitos de este ejercicio se usaran los siguientes valores. Los parmetros ptimos en la prctica se calculan mediante un proceso de optimizacin, proceso bastante costoso en tiempo de computadora.
www.kasperu.com
d) rbol de decisin Luego de correr el modelo se obtiene los siguientes resultados. Dado que rbol no se puede visualizar fcilmente se presenta las reglas identificadas por el algoritmo.
CommuteDistance = 0-1 Miles | Education = Bachelors: Yes {Yes=142, No=86} | Education = Graduate Degree: Yes {Yes=111, No=73} | Education = High School: No {Yes=31, No=44} | Education = Partial College: Yes {Yes=100, No=62} | Education = Partial High School: No {Yes=10, No=37} CommuteDistance = 1-2 Miles | Education = Bachelors: Yes {Yes=35, No=26} | Education = Graduate Degree: No {Yes=23, No=52} | Education = High School: Yes {Yes=44, No=29} | Education = Partial College: Yes {Yes=66, No=41}
Pgina 17
www.kasperu.com
| Education = Partial High School: No {Yes=10, No=30} CommuteDistance = 10+ Miles | Region = Europe: No {Yes=10, No=40} | Region = North America: No {Yes=44, No=89} | Region = Pacific: Yes {Yes=49, No=48} CommuteDistance = 2-5 Miles | Occupation = Clerical: No {Yes=11, No=14} | Occupation = Management: Yes {Yes=23, No=17} | Occupation = Manual: No {Yes=15, No=27} | Occupation = Professional: Yes {Yes=85, No=78} | Occupation = Skilled Manual: Yes {Yes=50, No=22} CommuteDistance = 5-10 Miles: No {Yes=141, No=184}
Pgina 18
Induccin al RapidMiner 5.1 En este rbol se puede identificar que algunos atributos con alto peso no fueren seleccionados por el rbol de decisin, tal es el caso de Age y Children. attibute Age CommuteDistance Education Children Region Occupation MaritalStatus HomeOwner Gender YearlyIncome Cars Log Yearly Income weight 0.073 0.014 0.010 0.009 0.007 0.007 0.004 0.002 0.002 0.000 0.000 0.000
www.kasperu.com H. CONSULTA DEL MODELO Objetivo. Aplicar el modelo a la muestra de entrenamiento y al 100% de los datos proporcionados.
a) Consulta del modelo Luego de crear el modelo es necesario consultarlo, para este propsito se usar el operador Apply Model.
Este operador requiere dos entradas: El modelo generado por el rbol de decisin. Los datos (sin label) a los que se les asignar la prediccin. Los parmetros del modelo son los siguientes: Application parameters: Los parmetros del modelo para su aplicacin (por lo general no es necesario). Create view: Indica que los modelos deben crear una nueva vista para visualizar los resultados sin cambiar los datos.
Pgina 19
Induccin al RapidMiner 5.1 Para propsitos de este ejercicio se consultar el modelo con los datos de entrenamiento y con los datos originales. Observe que el modelo se transfiere desde el operador Decisin Tree al primer operador Apply Model y desde este operador al siguiente operador Apply Model.
www.kasperu.com prediction respuesta del modelo confidence_Yes Probabilidad de Yes confidence_No Probabilidad de No Estos atributos presentan los valores que se muestran en la siguiente tabla:
b) Resultados obtenidos. Luego de ejecutar la definicin del proceso se obtiene los siguientes resultados: Datos originales:
Observar que la suma de las confianzas es 1.0 y que la prediccin depende de la confianza, la prediccin corresponde a la confianza que es > 0.5.
Datos de entrenamiento:
Observar que se han creado 3 atributos especiales adicionales:
Pgina 20
Induccin al RapidMiner 5.1 I. RENDIMIENTO DEL MODELO Objetivo. Calcular el desempeo del modelo (para el 100% de los datos) mediante la aplicacin de las siguientes medidas de evaluacin: a. Matriz de confusin. El rendimiento del modelo se calcular usando la matriz de confusin.
www.kasperu.com Cmo resultado se obtiene la medida de performance y los datos etiquetados.
El operador tiene un solo parmetro que por lo general no se usa, indica si el peso de ejemplo se debe utilizar para los clculos de rendimiento.
b) Resultados obtenidos Datos originales true Yes pred. Yes pred. No sum class recall 705 295 1,000 70.50% true No 4,293 4,707 9,000 52.30% class precision 4,998 14.11% 5,002 94.10% sum
a) Calcular la medida de rendimiento. La matriz de confusin se implementa mediante el operador Performance.
El %VP es del 70.50% y el %VN es del 52.30%. El %VPP es del 14.11% y del VPN es del 94.10%
Datos de entrenamiento true Yes true No pred. Yes pred. No Sum class recall 705 295 1,000 70.50% 482 517 999 51.75%
class precision 1,187 59.39% 812 63.67%
sum
En contraste con los otros mtodos de evaluacin de rendimiento, como por ejemplo el rendimiento de clasificacin, rendimiento de clasificacin binomial o de rendimiento de regresin, este operador se puede utilizar para todo tipo de tareas de aprendizaje. Se determinar automticamente el tipo de tarea de aprendizaje y calcular los criterios ms comunes para este tipo. El operador requiere como entrada los datos etiquetados con la prediccin. Pgina 21
El %VP es del 70.50% y el %VN es del 51.75%. El %VPP es del 59.39% y del VPN es del 63.67% Observe que el %VP es similar en ambos casos, pero que el %VPP con los datos originales es menor que en el caso de los datos de entrenamiento.
Induccin al RapidMiner 5.1 J. MODELO NAIVE BAYES a) Modelo Naive Bayes. c) Resultados obtenidos
www.kasperu.com
Datos originales true true Yes No sum pred. Yes 660 3,376 4,036 pred. No 340 5,624 5,964 sum 1,000 9,000 class recall 66.00% 62.49%
class precision 16.35% 94.30%
El modelo naive bayes clasifica usando una distribucin normal estimada. Considera que cada atributo influye de manera independiente en el resultado. Tiene un nico parmetro Laplace correction, se usa para reducir la influencia del cero en la probabilidad. b) Modificacin del Modelo. Modifique la definicin de procesos para reemplazar el operador Decision Tree por el operador Naive Bayes. Por otro lado elimine los operadores de reduccin de dimensionalidad dado que cuando se usa el operador Apply Model este requiere el los atributos de la consulta coincidan con los atributos del modelo.
El %VP es del 66.00% y el %VN es del 62.49%. El %VPP es del 16.35% y del VPN es del 94.30%
Datos de entrenamiento true true Yes No sum pred. Yes 660 363 1,023 pred. No 340 636 976 sum 1,000 999 class recall 66.00% 63.66%
class precision 64.52% 65.16%
El %VP es del 66.00% y el %VN es del 63.66%. El %VPP es del 64.52% y del VPN es del 65.16% Observe que el %VP es similar en ambos casos, pero que el %VPP con los datos originales es menor que en el caso de los datos de entrenamiento.
El resto del modelo permanece igual.
Pgina 22
Induccin al RapidMiner 5.1 K. MODELO REDES NEURONALES a) Red Neuronal. El modelo de redes neuronales es aplicable solo para atributos numricos, por lo que es necesario asegurar que todos los datos sean numricos (enteros o reales).
www.kasperu.com Dejando por defecto los parmetros de la capa intermedia se obtiene la siguiente arquitectura, 12 neuronas en la capa de entrada, 9 neuronas en la capa intermedia y 2 neuronas en la capa de salida.
b) Parmetros de la Red Neuronal
c) Modelo de la Red Neuronal Disee la siguiente definicin de procesos, donde se incluye un operador que convierte los valores nominales a numricos.
hidden layers: Neuronas de las capas intermedias. training cycles: pocas default: 500 learning rate: Ratio de aprendizaje. momentum: momentum de decay: Indica si el ratio de aprendizaje se reduce en el tiempo shuffle: Indica si la data de entrada es reordenada antes del aprendizaje normalize: Indica si la data es normalizada en el rango -1 a +1 error epsilon: Error de entrenamiento mnimo para detener el entrenamiento.
Pgina 23
www.kasperu.com
d) Preparacin de datos Antes de proceder a trabajar con la red neuronal es necesario convertir todos los atributos categricos a numricos Use el operador Nominal to Numerical para convertir los valores categricos en valores numricos mediante el procedimiento de numbering.
Asigne los operador:
siguientes
parmetros
al
d) Resultados obtenidos Datos originales true Yes pred. Yes 794 pred. No 206 sum 1,000 class recall 79.40% true class No sum precision 3,743 4,537 17.50% 5,257 5,463 96.23% 9,000 58.41%
El %VP es del 79.40.00% y el %VN es del 58.41%.
Pgina 24

Tutorial de Inducción Al RapidMiner

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tutorial de Inducción Al RapidMiner

Uploaded by

Copyright:

Available Formats

Induccin al RapidMiner 5.

KNOWLED AND SYSTEMS PERU

Induccin al RapidMiner 5.1

Induccin al RapidMiner 5.1 Tabla de contenido

a. Perspectiva de Diseo Ambiente para disear el proceso de la minera de datos.

Los repositorios corresponden almacenes de datos y de proyectos.

Induccin al RapidMiner 5.1

www.kasperu.com 2.2. ASPECTOS PRELIMINARES. PRELIMINAR a) Identificar el directorio de trabajo.

b. Perspectiva de Resultados. Ambiente para ver los resultados modelado.

del b) Definir la ubicacin del repositorio de procesos .. exercises\exercise 01\repository exercise

Seleccione new local repository

Induccin al RapidMiner 5.1 .. exercises\exercise 01\repository repository

Presiones Finish Confirme la creacin del repositorio.

Esto genera automticamente perspectiva de diseo vaca.

www.kasperu.com Verifique los parmetros del operador en el panel Parameters

Lleve el cono al panel Process encadnelo de la siguiente forma.

Observe que no debe encadenar la entrada fil Pgina 8

Seleccione la hoja con la que trabajar y visualice los datos:

Induccin al RapidMiner 5.1

Encadene los operadores de la siguiente forma:

Induccin al RapidMiner 5.1 2. Discretize by bins

Induccin al RapidMiner 5.1

Observe que ahora se perspectiva de resultados.

a) Analice los resultados obtenidos.

Use los siguientes parmetros para el operador:

Identifique los estados de la clase

Para los datos muestreados se dispone de 1,999 registros.

El balanceo de los datos se puede observar en la opcin Plot View.

Induccin al RapidMiner 5.1

www.kasperu.com referenciales y estos deben ser obtenidos por experimentacin.

Ejecute la definicin de procesos para observar los resultados. Atributos orginales

Induccin al RapidMiner 5.1

Observar que se han creado 3 atributos especiales adicionales:

www.kasperu.com Cmo resultado se obtiene la medida de performance y los datos etiquetados.

a) Calcular la medida de rendimiento. La matriz de confusin se implementa mediante el operador Performance.

class precision 1,187 59.39% 812 63.67%

class precision 16.35% 94.30%

class precision 64.52% 65.16%

El resto del modelo permanece igual.

b) Parmetros de la Red Neuronal

Induccin al RapidMiner 5.1

Asigne los operador:

El %VP es del 79.40.00% y el %VN es del 58.41%.

You might also like