Professional Documents
Culture Documents
Resumen
La sistematizacin del proceso de minera
de datos es un punto importante para la
planificacin y ejecucin de este tipo de
proyecto.
Algunas
organizaciones
implementan el proceso KDD, mientras que
otras aplican un estndar ms especfico
como CRISP-DM. Si la organizacin ha
adquirido productos de la empresa SAS,
tiene a su disposicin una metodologa
especialmente desarrollada para los
mismos, la metodologa SEMMA. Por otro
lado, la metodologa Catalyst (conocida
como P3TQ) est ganando cada vez mayor
popularidad debido a su completitud y
flexibilidad para adaptarse en distintos
escenarios.
Introduccin
La minera de datos es una disciplina que
ha crecido enormemente en los ltimos
aos. Las organizaciones han comprendido
que los grandes volmenes de datos que
residen en sus sistemas pueden ser
analizados y explotados para obtener nuevo
conocimiento a partir de los mismos.
Minera de Datos o Explotacin de
Informacin, es el proceso de extraer
conocimiento
til,
comprensible
y
novedoso de grandes volmenes de datos,
siendo su principal objetivo encontrar
informacin oculta o implcita, que no es
posible
obtener
mediante
mtodos
estadsticos convencionales. La entrada al
proceso de minera est formada
generalmente por registros provenientes de
bases de datos operacionales o bien
bodegas de datos (Datawarehouse).
Contexto
Este trabajo se desarrolla en el marco del
Proyecto de Investigacin y Desarrollo
Anlisis comparativo de metodologas
para la gestin de proyectos en minera de
1
42%
Propia
19%
SEMMA
13%
Proceso KDD
De la organizacin
Especfica del
dominio
Algunos
modelos
conocidos
como
metodologas son en realidad un modelo de
proceso: un conjunto de actividades y tareas
organizadas para llevar a cabo un trabajo.
La
diferencia
fundamental
entre
metodologa y modelo de proceso radica en
que el modelo de proceso establece qu
hacer, y la metodologa especifica cmo
hacerlo. Una metodologa no solo define las
fases de un proceso sino tambin las tareas
que deberan realizarse y cmo llevar a
cabo las mismas.
Otra
7%
5%
5%
4%
No utiliza
5%
0%
10%
20%
30%
40%
50%
Lneas de investigacin/desarrollo
En el marco de este proyecto se investigar:
Las distintas metodologas y modelos de
proceso vigentes para proyectos de
minera de datos.
Las similitudes y diferencias entre cada
modelo. Se tendrn en cuenta no slo las
etapas que los componen, sino tambin
aspectos clave para la gestin de
Referencias
1.
2.
3.
4.
5.
6.
7.
8.
9.
Resultados y Objetivos
En la actualidad, son escasos y poco
difundidos los estudios que comparan los
modelos mencionados, enfocados en
aspectos
principalmente
descriptivos
(comparacin de las fases que los
componen) y no en un estudio
comprensivo-comparativo, que contemple
aspectos tales como:
Grado en el que se incorporan actividades
para la gestin del proyecto (como
gestin del riesgo, de costos, de Recursos
Humanos).
Nivel de detalle de las tareas que
componen cada fase, abriendo una
discusin sobre qu modelos pueden ser
realmente considerados una metodologa.
Viabilidad de cada modelo para la
aplicacin en diferentes escenarios (ya
sea partiendo de un conjunto de datos o
abordando una situacin o problema
organizacional).
Como objetivo de este trabajo se pretende
la construccin de un marco comparativo
que permita confrontar los distintos
modelos, y evaluar la adecuacin de los
mismos en escenarios donde el proyecto de
minera de datos tiene por objetivo
colaborar en la solucin de un problema
organizacional.
Formacin de los Recursos Humanos
En el marco de este proyecto de
investigacin se est realizando una tesis de