Professional Documents
Culture Documents
Noviembre 2013
Introduccin
Da a da generamos informacin y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el generar informacin, nos puede ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier mbito segn el dominio en que nos desarrollemos.
Qu es Minera de Datos?
- La extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til, a partir de datos. (1) - La integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin(2)
Los pasos a seguir para la realizacin de un proyecto de minera de datos son: 1. La Determinacin de los Objetivos. Trata sobre la delimitacin de los objetivos que el cliente desea 2. Pre procesamiento de los Datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y transformacin de las bases de datos.
4.
Principales Caractersticas de MD
Explorar los datos que se encuentran en las profundidades de las bases de datos, o almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. El entorno de la minera de datos suele tener una arquitectura clienteservidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos archivados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. La minera de datos produce cinco tipos de informacin: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronsticos.
Qu es el proceso de KDD?
Extraccin de Conocimiento en Bases de Datos
- Es la extraccin automatizada de conocimiento o patrones interesantes, no triviales, implcitos, previamente desconocidos, potencialmente tiles y predictivos de la informacin de grandes Bases de Datos.(3)
- El proceso de KDD consiste en usar mtodos de minera de datos(algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificacin de ciertos parmetros usando una base de datos junto con preprocesamientos y post-procesamientos.
DATOS PROBLEMAS
A L G O R I T M O S
IMPLANTAR
No esttico
1 2
Con el modelado se construye un modelo en una situacin donde se conoce la respuesta y luego se aplica en otra situacin de la cual se desconoce la respuesta.
1 3
1 4
Normalmente esta tcnica es usada para anlisis preliminar de los datos (resumen, caractersticas de los datos, etc.).
Describir un comportamiento en una base de datos compleja para aumentar el conocimiento y entendimiento sobre gente, productos, procesos etc. (Visualizacin Diferenciacin)
Descripcin
Establecer que las mujeres presentan menor siniestralidad en seguros de automvil que los hombres Identificar las caractersticas de personas que apoya uno u otro partido poltico
1 5
Ejemplo
Gestin de personal de una empresa: Qu clases de empleados hay contratados?
Datos:
Modelo generado:
Minera de datos
Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos
Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones
1 6
Clasificacin
Ejemplo: Diagnostico medico, deteccin de fraude o que producto compraran ms unos clientes, clasificar solicitudes de crdito (alto, medio, bajo) Se usan arboles de decisin, reglas, anlisis de discriminantes, etc.
Estimacin o Regresin
La meta es inducir un modelo para poder predecir el valor de la clase dados los valores de los atributos Ejemplo: Estimar el valor del ingreso total de un grupo familiar, Determinar probabilidad de transaccin sea fraudulenta , Estimar nmero de hijos en un grupo familiar Se usan rboles de regresin, regresin lineal, redes neuronales, maquinas de vectores, etc.
1 7
rboles de decisin
SE SELECCIONA EL NODO RAIZ Y ESTE SE DIVIDE DE ACUERDO A LOS VALORES DEL ATRIBUTO RAIZ
rboles de decisin
Representan reglas donde atributos independientes determinan los valores finales. En estos rboles cada nodo representa una propiedad que puede tomar diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones finales. Nos pueden servir para tareas como: Clasificacin en general y validaciones Usadas donde se deben tomar decisiones a partir de varias alternativas Son tiles en problemas de alta dimensionalidad y pequeo numero de valores Ingreso para cada atributo.
> $5000
Genero
<=$5000
Edad Modelo predictivo generado
M 0 Casado
F
Ingreso
>35
Genero
<= 35
Antigedad
Soltera F
M >=4
>4
rboles de decisin
rboles de decisin
Agente comercial: Debo conceder una hipoteca a un cliente?
Datos:
Modelo generado:
Minera de datos
If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
2 1
Ejemplo
Tienda de TV: Cuntas televisiones planas se vendern el prximo mes?
Datos:
Modelo generado:
Minera de datos
2 2
Exploracin
Una dependencia funcional es un patrn en el que se establece que uno a ms atributos determinan el valor de Dependencia otro. Se puede utilizar redes bayesianas, redes casuales. Por ejemplo si un paciente ingresa por maternidad determina su sexo Detecta eventos que ocurren de manera simultnea Se usan por ejemplo las reglas de asociacin. Ejemplo: Un cliente que compra cerveza, compra paales con prb P1, Un cliente que compra Pizza, compra Vino con prb P1, Un cliente que compra Vino, compra Pizza con prb P2
Asociacin
2 3
Se usa como alternativa al algoritmo de arboles de decisin Nos pueden servir para tareas como: Las mismas tareas que los rboles de decisin. Regresiones (similar a la clasificacin, pero predice una magnitud continua). Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen, procesamiento de lenguaje natural, prediccin y optimizacin.
2 4
Reglas de Asociacin
2 7
Anlisis de Canasta
Ejemplo Un ejemplo tradicional de minera de datos es el relacionado con una bsqueda en una bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del proceso se dio como resultado la siguiente: Si edad < 35; y sexo = masculino; y dia = jueves entonces compras incluyen paales; y cerveza Esto sirvi para que empresa tomara medidas relacionada con la ubicacin de ciertos productos en sitios comunes.
2 8
Cliente 1:
Arroz, bebida, cerveza
2 9
3 0
3 2
Ejemplo
Supermercado: Cundo los clientes compran huevos, tambin compran aceite?
Datos:
Modelo generado:
Minera de datos
Beneficios para el Supermercado: Las relaciones entre productos permiten apoyar decisiones como:
Armado de Packs (Consulta de Canasta)
o Entre 2 productos de alta rotacin de distintas categoras pero del mismo proveedor + un producto de baja rotacin y alto margen. o Entre 2 productos de alta rotacin de categoras y proveedores distintos + un producto de baja rotacin y alto margen.
Descuentos: Polticas agresivas para productos que se venden juntos, con alta confiabilidad Relaciones entre proveedores y sus productos Identificacin de preferencias y gustos de los clientes Reforzar esas preferencias Incentivar a otros clientes a tomar estas preferencias Se encuentran relaciones entre productos de distintas categoras por ejemplo:
Detergente con Yogurt, Detergente con Leche o Yogurt con Mayonesa
Anticipar cambios en las preferencias de los clientes y actuar oportunamente Aumento en las ventas de la cadena
3 4
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de minera de datos tanto libres como comerciales como, por ejemplo:
KNIME SPSS Clementine (software) SAS Enterprise Miner RapidMiner Weka KXEN Orange
3 5
Herramienta Weka
La Weka (Gallirallus australis) es un ave originaria de Nueva Zelanda. Esta Gallincea en peligro de extincin es famosa por su curiosidad y agresividad. De aspecto pardo y tamao similar a una gallina, las wekas se alimentan fundamentalmente de insectos y frutos.
Weka es un software programado en Java que est orientado a la extraccin de conocimientos desde bases de datos con grandes cantidades de informacin.
3 6
Herramienta Weka
Caractersticas principales de Weka:
Est disponible libremente bajo la licencia pblica General de GNU. Es muy portable porque est completamente implementado en Java y puede correr en casi cualquier plataforma. Contiene una extensa coleccin de tcnicas para preprocesamiento de datos y modelado. Es fcil de utilizar por un principiante gracias a su interfaz grfica de usuario.
3 7
Herramienta Weka
3 8
Herramienta Weka
3 9
Referencias
- (1)http://www.daedalus.es/mineria-de-datos/ - (2)(Molina y otros, 2001) - (3)http://www.monografias.com/trabajos55/mineria-de-datos/mineria-dedatos.shtm -(4)http://www.uccor.edu.ar/paginas/seminarios/Cursos/DMMedicine/Clase1-FIUNER.pdf -(5)http://www.microsoft.com/business/smb/eses/tecnologia/data_mining.mspx -(6) http://www.tecnicas.com/conceptos/data-mining/metodos.aspx -(7)http://www.scielo.org.co/scielo.php?pid=S012056092009000100008&script=sci_arttext -(8)http://www.youtube.com/watch?v=-aPU13W7Xvw&NR=1&feature=fvwp -(9)http://www.youtube.com/watch?v=CBLRKqHoAIs&NR=1 http://ccc.inaoep.mx/~emorales/Cursos/KDD03/node7.html
4 0