You are on page 1of 6

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf.

(51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

Taller de Induccin al RapidMiner 5.1

Minera de Datos y Minera de Textos (DM047)

SUMILLA El RapidMiner es un programa informtico para la minera de datos, minera de textos y otras tareas para el anlisis de datos. Permite el desarrollo de procesos de anlisis de datos mediante el encadenamiento de operadores a travs de un entorno grfico. Se usa en investigacin educacin, capacitacin, creacin rpida de prototipos y en aplicaciones empresariales, debido a su facilidad de instalacin, de uso y su amplia librera de operadores, proporciona ms de 500 operadores orientados al anlisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, preprocesamiento de datos y visualizacin, funciones para el intercambio de datos con base de datos. Tambin permite utilizar los algoritmos incluidos en Weka y en R. En una encuesta realizada por KDnuggets, una web de minera de datos, RapidMiner ocup el segundo lugar en herramientas de analtica y de minera de datos utilizadas para proyectos reales en el 2009, primero en el 2010, primero en el 2011 y tercero en el 2012 luego del R y del excel. La versin inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y est hospedado en SourceForge desde el 2004. OBJETIVOS Al final del taller los alumnos estarn en capacidad de: Conocer las perspectivas de diseo y de resultados, conocer la arquitectura de los operadores y los repositorios de procesos. Conocer los tipos de datos y tipos de atributos usados por el RapidMiner y su relacin con otras herramientas. Creacin, modificacin y eliminacin de definiciones de procesos (conjunto de operadores), visualizacin de la ventana de parmetros. Ejecutar operadores para la lectura de datos, exportacin de datos, ejecucin de sentencias SQL. Implementar definiciones de procesos para la transformacin de datos. Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos basado en su efectividad haciendo uso de la matriz de clasificacin y del MAPE. Implementar definiciones de procesos para la creacin de modelos de clasificacin. Implementar definiciones de procesos para la creacin de modelos de agrupamiento. Implementar definiciones de procesos para la creacin de modelos de reglas se asociacin. Implementar definiciones de procesos para la creacin de modelos de minera de datos. Comprender, usar y entender los resultados entregados en la perspectiva de resultados.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

CONTENIDO El contenido est conformado por los siguientes temas:

Uso bsico

Preparacin de datos

Modelos predictivos

Evaluacin de modelos

Ejemplos de aplicacin

Minera de Textos

Los temas se encadenan en una secuencia lgica de desarrollo pedaggico, basada en la exposicin de las acciones y los pasos necesarios para implementar modelos de minera de datos y minera de textos en el RapidMiner. METODOLOGA Aprendizaje basado en la solucin de problemas y casos. Desarrollo de conceptos bsicos para explicar los conceptos necesarios. Desarrollo de ejercicios, donde se aplica la herramienta para abordar problemas prcticos. Uso de medios audiovisuales (proyectores). Materiales de clase impresos y en CD.

DOMINIOS DE APLICACIN Riesgos Financieros Riesgos de Fraudes Riesgos de Accidentes de Trabajo Desercin de clientes Deteccin de fraudes Segmentacin de Clientes Ventas Cruzadas Patrones Secuenciales Anlisis de opiniones subjetivas Similaridad de documentos Bsqueda e indexacin de documentos Anlisis de mensajes en redes sociales Anlisis de encuestas abiertas. Anlisis de post en blogs. Anlisis de correos electrnicos (spam). Estructuracin de base de datos.

REQUISITOS Es deseable que los alumnos tengan experiencia en (no indispensable): Conocimientos bsicos de minera de datos. Base de datos (MS SQL, mySQL, Oracle, Sybase, etc.) Estadstica y probabilidades Hoja de clculo. Disponer de una computadora para el desarrollo de las clases

QUIENES PUEDEN ASISTIR Analistas de riesgos. Analistas de marketing en la web. Analistas de marketing, mercadeo o de pronstico. Investigadores de mercado que desean analizar encuestas abiertas. Personal involucrado en proyectos de Business Intelligence. Personal involucrado en proyectos de pronstico y prediccin. Profesionales de estadsticos y economa. Profesionales en estadstica interesados en analizar el contenido de textos no estructurados (formularios, encuestas, etc.). Administradores de Bases de Datos.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

HERRAMIENTAS Para el desarrollo del taller se hace uso del software libre RapidMiner.

MATERIALES El alumno recibe como parte de su capacitacin: Un CD conteniendo el material del taller, ejercicios prcticos, software libre y documentos relacionados. Material impreso. Break de cortesa. CONSTANCIA Para recibir la constancia de asistencia al taller, el alumno debe de asistir al 100% de la sesin. La constancia de asistencia se entrega solo al finalizar la sesin, si esta estudiante no se encuentra en el aula en el momento de la entrega no recibir la constancia de asistencia. INSTRUCTOR Ing. Samuel Oporto Daz. Especialista en el desarrollo de modelos predictivos. Magster en Inteligencia Artificial ITESM-Mxico. Ingeniero de Sistemas UNI-Per. Estudios de Especializacin en robtica aplicada-CNAD-Mxico DF. Poltica Educativa Virtual-UAHChile. Docente del curso de Inteligencia Artificial en la UNI, UPAO, USMP y UPC. Docente del Curso de Minera de Datos en el IIFIIS, CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal del Instituto de Investigacin de la FIIS (IIFIIS). Especialista en Visin Artificial, Reconocimiento de Patrones y Redes Neuronales. Investigador en Ciencias de Computacin con publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005, CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas Autnomos. Consultor del programa de Modernizacin del Estado Peruano. Consultor de la Secretara de Planificacin Estratgica del Ministerio de Educacin del Per.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

TEMARIO Nombre de los temas a tratar USO BSICO DEL RAPIDMINER Interface de usuario, repositorios, proyectos, operaciones y procesos, carga de datos de archivos planos y base de datos. Perspectivas de diseo y de resultados, conocer la arquitectura de los operadores y los repositorios de procesos. Creacin, modificacin y eliminacin de definiciones de procesos (conjunto de operadores), visualizacin de la ventana de parmetros. PREPARACIN DE DATOS Tipos de datos y tipos de atributos usados por el RapidMiner, normalizacin y estandarizacin, discretizacin, valores null, valores extremos, muestreo absoluto, relativo y probable, balanceo de datos. SELECCIN DE ATRIBUTOS Reduccin de la dimensionalidad. Identificacin de atributos con mayor relevancia, calculo de pesos, generacin del ranking, tipos de ranking, filtro por ranking, eliminacin de atributos con menor ranking. MODELOS PREDICTIVOS CON RAPIDMINER Exploracin de datos y visualizacin de datos, correlaciones, regresin lineal, naive bayes, rbol de decisin, redes neuronales, SVM, regresin logstica. Duracin 2 horas

1 horas

1 horas

1 horas

EVALUACIN DE MODELOS Particin de datos, mtodos de evaluacin, grafico de elevacin, curva ROC, matriz de confusin.

1 horas

MINERA DE TEXTOS (TEXT MINING) Lectura y escritura de documentos, Preparacin de datos: tokenizacion, stopwords, stemming, filtros, n-grams, Creacin del vector de ndices, Clasificacin de documentos. Total de horas a dictar

2 horas

8 horas

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

EX ALUMNOS DE NUESTROS CURSOS O TALLERES EDELNOR SUNAT Pacifico Vida Profuturo AFP Caja Municipal de Trujillo FondeSurco SCI Nextel del Per Telefnica del Per ATENTO Corporacin Radial del Per RPP TECSUP UPCH UPC BSH Electrodomsticos LAN Per Visanet Per Corporacin Lindley Citibank del Per S.A. Aceros Arequipa Financiera Efectiva S.A. Red Cientfica Peruana

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

KASPeru Av. Jos Pardo 138, Oficina 1402 Miraflores Lima Per (51-1) 697-8227 (51-1) 725-7209

www.kasperu.com informes@kasperu.com Todos los derechos reservados. Todos los nombres de empresas y/o productos mencionados tienen propsitos de identificacin nicamente, ellos son registrados por sus respectivos dueos.

You might also like