Professional Documents
Culture Documents
Carlos via
Rodrigo Quintanilla Barra
Qu es la mineria de
datos?
Minera de datos
es la exploracin
y anlisis de
grandes
cantidades de
datos con el
objeto de
encontrar
patrones y reglas
significativas
(conocimiento)
Un poco de historia..
Al hablar del Data Mining, no nos referimos a un
concepto explcitamente contemporneo, realmente
las primeras ideas que se tienen acerca de este
proceso se revocan ya hasta mediados los aos
setenta donde se buscaba encontrar correlaciones en
bases de datos, pero no fue hasta finales de los
ochenta cuando se comenz a consolidad la idea de
Data Mining y KDD (Knowledge Discovery and Data
Mining).
Ya a mediados de la dcada de 1990 se hizo notar el
impacto de grandes cantidades de datos acumulados
y las dificultades de interpretarlos de un modo
productivo, lo que llev al desarrollo de novedosas
tcnicas de Data Mining y anlisis inteligente de datos.
MINERIA DE DATOS
DescubrimientodeConocimientoapartirdeBasesdeDatos
(KDD,delinglsKnowledgeDiscoveryfromDatabases
procesonotrivialdeidentificarpatronesvlidos,
novedosos,potencialmentetilesyenltima
instanciacomprensiblesapartirdelosdatos.
Fayyadetal.1996
KDDsenutredediferentesdisciplinas:
estadstica.
sistemasdeinformacin/basesdedatos.
aprendizajeautomtico/InteligenciaArtificial.
visualizacindedatos.
computacinparalela/distribuida.
interfacesdelenguajenaturalabasesdedatos.
Almacn de
Datos
(Data
Warehouse)
Integracin y
recopilacin
Datos
seleccionado
s
Seleccin,
limpieza y
transformacin
DATA MINING
Patrone
s
Evaluacin e
interpretacin
Conocimient
o
Ventajas:
Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos.
Se pueden evaluar muchos modelos generados automticamente,
y esto aumenta la probabilidad de encontrar un buen modelo.
El analista necesita menos formacin sobre construccin de
modelos y menos experiencia.
Estadstic
a
Data Mining
Sistemas de
informacin
Aprendizaj
e
automtic
o
Otras
disciplinas
Minera de datos
Dr.
11 Francisco J. Mata
reas de aplicacin ms
frecuentes (Cajal et al.,
2001).
MINERIA DE DATOS
Clasificacin
Examinar las caractersticas de un
nuevo objeto y asignarle una clase o
categora de acuerdo a un conjunto
de tales objetos previamente
definido
Ejemplos:
Clasificar aplicaciones a crdito como
bajo, medio y alto riesgo
Detectar reclamos fraudulentos de
seguros
Estimacin
Relacionado con clasificacin
Mientras clasificacin asigna un valor
discreto, estimacin produce un valor
continuo
Ejemplos:
Estimar el precio de una vivienda
Estimar el ingreso total de una familia
Pronstico
Predecir un valor futuro con base a
valores pasados
Ejemplos:
Predecir cunto efectivo requerir un
cajero automtico en un fin de semana
Asociacin
Determinar cosas u objetos que van
juntos
Ejemplo:
Determinar que productos se adquieren
conjuntamente en un supermercado
Agrupacin o segmentacin
Dividir una poblacin en un nmero
de grupos ms homogneos
No depende de clases pre-definidas a
diferencia de clasificacin
Ejemplo:
Dividir la base de clientes de acuerdo
con los hbitos de consumo
Histogramas
Diagramas de dispersin
Valores atpicos
etc.
5. Extraccin de conocimiento:
Regresin lineal
Arboles de decisin
Modelos estadsticos
Agrupamiento
Reglas de asociacin
Conceptos clave
Paradigma: un paradigma de programacin es
una propuesta tecnolgica que es adoptada por
una comunidad de programadores que trata de
resolver uno o varios problemas claramente
delimitados.
Vector: en programacin, es una zona de
almacenamiento continuo, que contiene una serie
de elementos del mismo tipo (varios datos del
mismo tipo).