You are on page 1of 29

MINERIA DE DATOS

Carlos via
Rodrigo Quintanilla Barra

Qu es la mineria de
datos?
Minera de datos
es la exploracin
y anlisis de
grandes
cantidades de
datos con el
objeto de
encontrar
patrones y reglas
significativas
(conocimiento)

Un poco de historia..
Al hablar del Data Mining, no nos referimos a un
concepto explcitamente contemporneo, realmente
las primeras ideas que se tienen acerca de este
proceso se revocan ya hasta mediados los aos
setenta donde se buscaba encontrar correlaciones en
bases de datos, pero no fue hasta finales de los
ochenta cuando se comenz a consolidad la idea de
Data Mining y KDD (Knowledge Discovery and Data
Mining).
Ya a mediados de la dcada de 1990 se hizo notar el
impacto de grandes cantidades de datos acumulados
y las dificultades de interpretarlos de un modo
productivo, lo que llev al desarrollo de novedosas
tcnicas de Data Mining y anlisis inteligente de datos.

MINERIA DE DATOS

DescubrimientodeConocimientoapartirdeBasesdeDatos
(KDD,delinglsKnowledgeDiscoveryfromDatabases
procesonotrivialdeidentificarpatronesvlidos,
novedosos,potencialmentetilesyenltima
instanciacomprensiblesapartirdelosdatos.
Fayyadetal.1996

KDDsenutredediferentesdisciplinas:
estadstica.
sistemasdeinformacin/basesdedatos.
aprendizajeautomtico/InteligenciaArtificial.
visualizacindedatos.
computacinparalela/distribuida.
interfacesdelenguajenaturalabasesdedatos.

KDD Knowledge Discovery from Databases


Proceso de KDD
Datos
iniciales

Almacn de
Datos
(Data
Warehouse)

Integracin y
recopilacin

Datos
seleccionado
s

Seleccin,
limpieza y
transformacin

DATA MINING

Patrone
s

Evaluacin e
interpretacin

Conocimient
o

Visin con las herramientas tradicionales:


El analista empieza con una pregunta, una suposicin o
simplemente una intuicin y explora los datos y construye un
modelo. El analista propone el modelo.

Visin con la minera de datos:


Aunque el analista no pierde la posibilidad de proponer modelos,
el sistema encuentra y sugiere modelos.

Ventajas:
Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos.
Se pueden evaluar muchos modelos generados automticamente,
y esto aumenta la probabilidad de encontrar un buen modelo.
El analista necesita menos formacin sobre construccin de
modelos y menos experiencia.

Un resultado adecuado por mineria de


datos tiene las siguientes caracteristica
es comprensible (por seres humanos)
es vlido con cierto grado de certeza
es potencialmente til
es novedoso o sirve para validar una
hiptesis

Data Mining : confluencia de mltiples


disciplinas
Visualizacin

Estadstic
a

Data Mining

Sistemas de
informacin

Aprendizaj
e
automtic
o

Otras
disciplinas

La minera de datos es un subconjunto


de la inteligencia de negocios

Minera de datos
Dr.
11 Francisco J. Mata

reas de aplicacin ms
frecuentes (Cajal et al.,
2001).

MINERIA DE DATOS

Tipos de aplicaciones de la minera


de datos
Aplicaciones o problemas de minera
de datos pueden clasificarse en las
siguientes categoras
Clasificacin
Estimacin
Pronstico
Asociacin
Agrupacin o segmentacin

Clasificacin
Examinar las caractersticas de un
nuevo objeto y asignarle una clase o
categora de acuerdo a un conjunto
de tales objetos previamente
definido
Ejemplos:
Clasificar aplicaciones a crdito como
bajo, medio y alto riesgo
Detectar reclamos fraudulentos de
seguros

Estimacin
Relacionado con clasificacin
Mientras clasificacin asigna un valor
discreto, estimacin produce un valor
continuo

Ejemplos:
Estimar el precio de una vivienda
Estimar el ingreso total de una familia

Pronstico
Predecir un valor futuro con base a
valores pasados
Ejemplos:
Predecir cunto efectivo requerir un
cajero automtico en un fin de semana

Asociacin
Determinar cosas u objetos que van
juntos
Ejemplo:
Determinar que productos se adquieren
conjuntamente en un supermercado

Agrupacin o segmentacin
Dividir una poblacin en un nmero
de grupos ms homogneos
No depende de clases pre-definidas a
diferencia de clasificacin
Ejemplo:
Dividir la base de clientes de acuerdo
con los hbitos de consumo

Proceso de data mining


Un proceso tpico de minera de datos tiene los
siguientes pasos:
1. Seleccin del conjunto de datos:

Variables objetivo: variables que quiero predecir.


Variables independientes: variables que sirven para hacer el
calculo.

2. Anlisis de las propiedades de los datos:

Histogramas
Diagramas de dispersin
Valores atpicos
etc.

3. Transformacin del conjunto de datos de entrada:

Pre procesamiento de los datos (prepara los datos para aplicar


la tcnica de data mining que mejor se adapte).

4. Seleccionar y aplicar la tcnica de minera de


datos:

Se construye un modelo predictivo.

5. Extraccin de conocimiento:

Usando el modelo predictivo se obtiene los valores de las


variables, observando los patrones de comportamiento.

6. Interpretacin y evaluacin de datos:

Se debe comprobar que las conclusiones que arrojan los


modelos predictivos sean validas y suficientemente
satisfactorias.
En el caso de no ser as debe encontrarse otro modelo que si
cumpla utilizando otra tcnica de data mining.

Tcnicas del data mining


Estas tcnicas provienen de la inteligencia artificial y de
la estadstica, y no son mas que algoritmos sofisticados
que se aplican a un conjunto de datos para obtener los
resultados.
Las tcnicas mas representativas son:
Redes neuronales
Regresin lineal
Arboles de decisin
Modelos estadsticos
Agrupamiento
Reglas de asociacin

Red neuronal artificial

La redes neuronales artificiales son un paradigma de


aprendizaje y procesamiento automtico inspirado en la
forma como funciona el sistema nervioso de los animales.
Se trata de un sistema de interconexin de neuronas que
colaboran entre si para producir un estimulo de salida.

Regresin lineal

En estadstica la regresin lineal es un mtodo matemtico


que modela la relacin entre una variable dependiente y las
variables independientes.

Arboles de decisin

Es un modelo de prediccin, basado en diagramas de


construcciones lgicas que sirven para representar y
categorizar una serie de condiciones que ocurren de forma
sucesiva .

Modelos estadsticos

Un modelo estadstico es una expresin simblica en forma


de igualdad que se emplea en todos los diseos
experimentales para indicar los diferentes factores que
modifican la variable de respuesta.

Agrupamiento

Un algoritmo de agrupamiento es un procedimiento de


agrupacin de una serie de vectores de acuerdo a un
criterio.

Estos criterios por lo general son distancia o similitud.

El conocimiento de este grupo de vectores nos permite una


descripcin sinttica de un conjunto de datos
multidimensional complejo.

Reglas de asociacin

Las reglas de asociacin se utilizan para descubrir hechos


que ocurren en comn dentro de un determinado conjunto
de datos.

(cebollas, vegetales) (carne)

Esta regla encontrada en un supermercado indica que un consumidor que


compra cebollas y vegetales, es probable que compre tambin carne.

Conceptos clave
Paradigma: un paradigma de programacin es
una propuesta tecnolgica que es adoptada por
una comunidad de programadores que trata de
resolver uno o varios problemas claramente
delimitados.
Vector: en programacin, es una zona de
almacenamiento continuo, que contiene una serie
de elementos del mismo tipo (varios datos del
mismo tipo).

You might also like