You are on page 1of 42

Bases de Datos Minera de Datos

Integrantes del Equipo:

Milwar Canqui Quispe

Noviembre 2013

Introduccin
Da a da generamos informacin y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el generar informacin, nos puede ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier mbito segn el dominio en que nos desarrollemos.

Qu es Minera de Datos?
- La extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til, a partir de datos. (1) - La integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin(2)

Proceso de Minera de Datos

Los pasos a seguir para la realizacin de un proyecto de minera de datos son: 1. La Determinacin de los Objetivos. Trata sobre la delimitacin de los objetivos que el cliente desea 2. Pre procesamiento de los Datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y transformacin de las bases de datos.

Proceso de Minera de Datos


3. Determinacin del Modelo. Se comienza realizando unos anlisis estadsticos de los datos y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo son los algoritmos a utilizarse. Anlisis de los Resultados. Verifica si los resultados obtenidos son coherentes con los obtenidos por el anlisis y la visualizacin grfica. Y el cliente determina si le aporta nuevos conocimientos que le permita la toma de decisiones.

4.

Principales Caractersticas de MD
Explorar los datos que se encuentran en las profundidades de las bases de datos, o almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. El entorno de la minera de datos suele tener una arquitectura clienteservidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos archivados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. La minera de datos produce cinco tipos de informacin: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronsticos.

Aplicaciones de Minera de Datos

Qu es el proceso de KDD?
Extraccin de Conocimiento en Bases de Datos
- Es la extraccin automatizada de conocimiento o patrones interesantes, no triviales, implcitos, previamente desconocidos, potencialmente tiles y predictivos de la informacin de grandes Bases de Datos.(3)

- El proceso de KDD consiste en usar mtodos de minera de datos(algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificacin de ciertos parmetros usando una base de datos junto con preprocesamientos y post-procesamientos.

Fases del KDD

Fases del KDD


Determinar las fuentes de informacin. Disear el esquema de un almacn de datos (Data Warehouse): que consiga unificar de manera operativa toda la informacin recogida. Implantacin del almacn de datos: que permita la navegacin y visualizacin previa de sus datos, para decidir qu aspectos puede interesar que sean estudiados. Seleccin, limpieza y transformacin de los datos que se van a analizar: la seleccin incluye tanto una divisin o fusin horizontal (filas) como vertical (atributos).La limpieza y prepocesamiento de datos se logra diseando una estrategia adecuada para manejar errores, valores incompletos, secuencias de tiempo, etc. Seleccionar y aplicar el mtodo de minera de datos apropiado: esto incluye la seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasificacin, agrupamiento o clustering, regresin, etc. La transformacin de los datos al formato requerido por el algoritmo especfico de minera de datos.

Fases del KDD


Evaluacin, interpretacin, transformacin y representacin de los patrones extrados, interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con otros datos, otros algoritmos, otras metas y otras estrategias. Difusin y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema lo cual puede incluir resolver conflictos existentes. El conocimiento se obtiene para realizar acciones o la toma de decisiones.

DATOS PROBLEMAS

TCNICAS DE DATA MINING

A L G O R I T M O S

IMPLANTAR

MODELO DE DATA MINING

Estadstica o Inteligencia Artificial

No esttico
1 2

Con el modelado se construye un modelo en una situacin donde se conoce la respuesta y luego se aplica en otra situacin de la cual se desconoce la respuesta.

1 3

CLASIFICACION DE ALGORITMOS DE MINERIA DE DATOS

1 4

Normalmente esta tcnica es usada para anlisis preliminar de los datos (resumen, caractersticas de los datos, etc.).
Describir un comportamiento en una base de datos compleja para aumentar el conocimiento y entendimiento sobre gente, productos, procesos etc. (Visualizacin Diferenciacin)

Descripcin

Establecer que las mujeres presentan menor siniestralidad en seguros de automvil que los hombres Identificar las caractersticas de personas que apoya uno u otro partido poltico
1 5

Ejemplo
Gestin de personal de una empresa: Qu clases de empleados hay contratados?

Datos:

Modelo generado:

Minera de datos

Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos
Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones

1 6

ALGORITMOS DE MINERIA DE DATOS


Prediccin
La meta es inducir un modelo para poder predecir una clase dados los valores de los atributos

Clasificacin

Ejemplo: Diagnostico medico, deteccin de fraude o que producto compraran ms unos clientes, clasificar solicitudes de crdito (alto, medio, bajo) Se usan arboles de decisin, reglas, anlisis de discriminantes, etc.

Estimacin o Regresin

La meta es inducir un modelo para poder predecir el valor de la clase dados los valores de los atributos Ejemplo: Estimar el valor del ingreso total de un grupo familiar, Determinar probabilidad de transaccin sea fraudulenta , Estimar nmero de hijos en un grupo familiar Se usan rboles de regresin, regresin lineal, redes neuronales, maquinas de vectores, etc.
1 7

rboles de decisin

SE SELECCIONA EL NODO RAIZ Y ESTE SE DIVIDE DE ACUERDO A LOS VALORES DEL ATRIBUTO RAIZ

rboles de decisin
Representan reglas donde atributos independientes determinan los valores finales. En estos rboles cada nodo representa una propiedad que puede tomar diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones finales. Nos pueden servir para tareas como: Clasificacin en general y validaciones Usadas donde se deben tomar decisiones a partir de varias alternativas Son tiles en problemas de alta dimensionalidad y pequeo numero de valores Ingreso para cada atributo.

> $5000
Genero

<=$5000
Edad Modelo predictivo generado

M 0 Casado

F
Ingreso

>35
Genero

<= 35
Antigedad

Soltera F

M >=4

>4

0 1 0 1 0 1 If (Ingreso=>5000 AND Genero=F AND Estado = Soltera Then P(Coche)=1 1


9

rboles de decisin

rboles de decisin
Agente comercial: Debo conceder una hipoteca a un cliente?
Datos:

Modelo generado:

Minera de datos

If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes

2 1

Ejemplo
Tienda de TV: Cuntas televisiones planas se vendern el prximo mes?
Datos:

Modelo generado:

Minera de datos

Modelo lineal: nmero de televisiones para el prximo mes


V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05

2 2

ALGORITMOS DE MINERIA DE DATOS

Exploracin
Una dependencia funcional es un patrn en el que se establece que uno a ms atributos determinan el valor de Dependencia otro. Se puede utilizar redes bayesianas, redes casuales. Por ejemplo si un paciente ingresa por maternidad determina su sexo Detecta eventos que ocurren de manera simultnea Se usan por ejemplo las reglas de asociacin. Ejemplo: Un cliente que compra cerveza, compra paales con prb P1, Un cliente que compra Pizza, compra Vino con prb P1, Un cliente que compra Vino, compra Pizza con prb P2

Asociacin

2 3

Neural Network (Redes neuronales)


Al igual que los rboles de decisin, este algoritmo tambin resuelve problemas de clasificacin y regresin. Puede ser adecuado para detectar patrones no lineales, difcilmente descriptibles por medio de reglas.

Se usa como alternativa al algoritmo de arboles de decisin Nos pueden servir para tareas como: Las mismas tareas que los rboles de decisin. Regresiones (similar a la clasificacin, pero predice una magnitud continua). Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen, procesamiento de lenguaje natural, prediccin y optimizacin.
2 4

ALGORITMOS DE MINERIA DE DATOS


Segmentacin
Separacin de los datos en subgrupos o clases interesantes Se usan algoritmos de clustering, SOM(sef-organizacin), EM(expectation maximizacin), K-means etc. Sirve sobre todo para buscar elementos afines dentro de un conjunto. Por ejemplo, podemos usarlo para saber que en una poblacin hay

hombres y mujeres jvenes solteros, hombres mayores solteros, hombres


y mujeres mayores casados... pero no mujeres mayores solteras. Nos puede servir para: Segmentar un mercado. Validaciones (las entradas que no pertenecen a un cluster, pueden ser "outliners" o elementos anmalos).
2 5

ALGORITMOS DE MINERIA DE DATOS


Algoritmo de Naive Bayes
Este algoritmo busca correlaciones entre atributos y pertenece a la clasificacin de dependencias . Cuando no tenemos muy claro qu atributo se puede predecir en funcin de otros, una tcnica muy habitual es tratar de utilizar el algoritmo de Naive Bayes tratando de predecir el valor de todos los atributos en funcin de todos los atributos (un "todos contra todos"). El resultado de esta correlaciones suele ser un modelo en el que tenemos ms o menos claro qu vamos a poder predecir en esos datos. Ventaja: se entrena muy rpido Desventaja: No es muy preciso. Se usa para: Exploracin inicial de los dato
2 6

Anlisis de Canasta (Market Basket Analysis)

Reglas de Asociacin
2 7

Anlisis de Canasta
Ejemplo Un ejemplo tradicional de minera de datos es el relacionado con una bsqueda en una bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del proceso se dio como resultado la siguiente: Si edad < 35; y sexo = masculino; y dia = jueves entonces compras incluyen paales; y cerveza Esto sirvi para que empresa tomara medidas relacionada con la ubicacin de ciertos productos en sitios comunes.
2 8

Anlisis de Canasta (Market Basket Analysis)


Los hbitos de compra de los clientes pueden ser representados a travs de asociaciones o correlaciones entre los diferentes productos que compran en sus canastas.

Cliente 1: Arroz, pur, bebida

Cliente 2: Arroz, helado, pan

Cliente 1:
Arroz, bebida, cerveza
2 9

Anlisis de Canasta: Indicadores

Las relaciones entre productos se miden por:


Importancia Relativa (support):indica el porcentaje de transacciones que
llevan el antecedente y el consecuente, con respecto al total de transacciones analizadas
Ejemplo: {arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Importancia Relativa(arroz cerveza)= 2/3=66% Este indicador seala que tan frecuente es la relacin entre productos con respecto al universo de boletas. Pero no indica si existe vnculo entre ambos productos.

3 0

Anlisis de Canasta: Indicadores


Confiabilidad (confidence) : Indica el porcentaje de transacciones que llevan el
antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el antecedente. Ejemplo: {arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

Confianza (cerveza pur)= 1/2=50%


Esta relacin seala el vnculo entre ambos productos (probabilidad condicional). Pero, qu pasa en el siguiente caso: Confianza(helado arroz)=1/1= 100% Quiere decir que hay una fuerte relacin entre estos productos?
3 1

Anlisis de Canasta: Indicadores


Ganancia (gain or Improvement): puntaje que representa el aumento en la
probabilidad de seleccin del consecuente, al ser comprado en conjunto con el antecedente. Ganancia (AB)=Confianza(AB)/Importancia Relativa(B) Ejemplo: {arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Ganancia(helado arroz)=1/1= 1 Ganancia(bebida pur)=0,5/0,3= 1,5

Con estos indicadores podemos entender las relaciones entre clientes

3 2

Ejemplo
Supermercado: Cundo los clientes compran huevos, tambin compran aceite?
Datos:

Modelo generado:

Minera de datos

Eggs -> Oil: Confianza = 75%, Soporte = 37%


3 3

Beneficios para el Supermercado: Las relaciones entre productos permiten apoyar decisiones como:
Armado de Packs (Consulta de Canasta)
o Entre 2 productos de alta rotacin de distintas categoras pero del mismo proveedor + un producto de baja rotacin y alto margen. o Entre 2 productos de alta rotacin de categoras y proveedores distintos + un producto de baja rotacin y alto margen.

Descuentos: Polticas agresivas para productos que se venden juntos, con alta confiabilidad Relaciones entre proveedores y sus productos Identificacin de preferencias y gustos de los clientes Reforzar esas preferencias Incentivar a otros clientes a tomar estas preferencias Se encuentran relaciones entre productos de distintas categoras por ejemplo:
Detergente con Yogurt, Detergente con Leche o Yogurt con Mayonesa

Anticipar cambios en las preferencias de los clientes y actuar oportunamente Aumento en las ventas de la cadena
3 4

Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de minera de datos tanto libres como comerciales como, por ejemplo:

KNIME SPSS Clementine (software) SAS Enterprise Miner RapidMiner Weka KXEN Orange
3 5

Herramienta Weka
La Weka (Gallirallus australis) es un ave originaria de Nueva Zelanda. Esta Gallincea en peligro de extincin es famosa por su curiosidad y agresividad. De aspecto pardo y tamao similar a una gallina, las wekas se alimentan fundamentalmente de insectos y frutos.

Weka es un software programado en Java que est orientado a la extraccin de conocimientos desde bases de datos con grandes cantidades de informacin.

3 6

Herramienta Weka
Caractersticas principales de Weka:
Est disponible libremente bajo la licencia pblica General de GNU. Es muy portable porque est completamente implementado en Java y puede correr en casi cualquier plataforma. Contiene una extensa coleccin de tcnicas para preprocesamiento de datos y modelado. Es fcil de utilizar por un principiante gracias a su interfaz grfica de usuario.
3 7

Herramienta Weka

3 8

Herramienta Weka

3 9

Referencias
- (1)http://www.daedalus.es/mineria-de-datos/ - (2)(Molina y otros, 2001) - (3)http://www.monografias.com/trabajos55/mineria-de-datos/mineria-dedatos.shtm -(4)http://www.uccor.edu.ar/paginas/seminarios/Cursos/DMMedicine/Clase1-FIUNER.pdf -(5)http://www.microsoft.com/business/smb/eses/tecnologia/data_mining.mspx -(6) http://www.tecnicas.com/conceptos/data-mining/metodos.aspx -(7)http://www.scielo.org.co/scielo.php?pid=S012056092009000100008&script=sci_arttext -(8)http://www.youtube.com/watch?v=-aPU13W7Xvw&NR=1&feature=fvwp -(9)http://www.youtube.com/watch?v=CBLRKqHoAIs&NR=1 http://ccc.inaoep.mx/~emorales/Cursos/KDD03/node7.html
4 0

You might also like