You are on page 1of 18

Nombre del Alumno:

Juana Esther Gonzalez Prez.

Matricula:
102H7050

Grupo:
A

Nombre completo de la materia.


Tratamiento de informacin para la toma de decisiones

Nombre completo del docente asesor de la materia.


Martha Ofelia Jimnez Velzquez

Nmero y tema de la actividad.


act05 Fases que integran el anlisis inteligente de los datos

Ciudad y fecha.
Cunduacn, Tab., a 25 de noviembre del 2014

ndice
Introduccin..................................................................................................................................... 3
Fases que Integran el Anlisis Inteligente de los Datos ...................................................... 4
a) Fase de integracin y recopilacin ................................................................................... 5
b) Fase de seleccin, limpieza y transformacin .............................................................. 5
c) Fase de minera de datos .................................................................................................... 7
d) Fase de evaluacin e interpretacin ................................................................................ 8
Ejemplos de cmo se Aplican las Fases que Integran el Anlisis Inteligente de los
Datos................................................................................................................................................ 11
En la empresa............................................................................................................................ 11
En el gobierno ........................................................................................................................... 11
En la universidad ...................................................................................................................... 12
En investigaciones espaciales ............................................................................................. 12
En los clubes deportivos........................................................................................................ 13
Negocios ..................................................................................................................................... 13
Fraudes ........................................................................................................................................... 14
Recursos humanos .................................................................................................................. 14
Comportamiento en Internet ................................................................................................. 15
Juegos ......................................................................................................................................... 15
Ciencia e Ingeniera ................................................................................................................. 15
Conclusin ..................................................................................................................................... 17
Bibliografa ..................................................................................................................................... 18

Gonzalez Juana Act. 05

Introduccin
La presente investigacin realizada aborda el tema de las fases que integran el
anlisis inteligente de los datos y se darn mencin de algunos ejemplos en donde
se aplican cada una de ellas
Como primer punto se explican las faces que integran el anlisis inteligente de
datos de la cual se explican muy a fondo para llegar a su comprensin.
El aumento del volumen y variedad de informacin que se encuentra informatizada
en bases de datos digitales ha crecido espectacularmente en la ltima dcada.
KDD [Knowledge Discovery in Databases] es el proceso completo de extraccin
de informacin, que se encarga adems de la preparacin de los datos y de la
interpretacin de los resultados obtenidos. KDD se ha definido como el proceso
no trivial de identificacin en los datos de patrones vlidos, nuevos,
potencialmente tiles, y finalmente comprensibles. Se trata de interpretar grandes
cantidades de datos y encontrar relaciones o patrones. Lo cual ayuda a la
disminucin del volumen y la variedad de informacin que se encuentra
almacenada en las bases de datos.

Gonzalez Juana Act. 05

Fases que Integran el Anlisis Inteligente de los Datos


El trmino descubrimiento de conocimiento en bases de datos (knowledge Discovery in
databases, KDD para abreviar) se refiere al amplio proceso de bsqueda de conocimiento
en bases de datos, y para enfatizar la aplicacin a alto nivel de mtodos especficos de
minera de datos.
La minera de datos no es ms que un paso esencial de un proceso ms amplio cuyo
objetivo es el descubrimiento de conocimiento en bases de datos. Este proceso consta de
una secuencia iterativa de etapas o fases: preparacin de datos, minera de datos,
evaluacin, difusin y uso de modelos. La extraccin de conocimiento es un proceso
iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores y
porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta
calidad. Es interactivo porque el usuario o un experto en el dominio del problema deben
ayudar en la preparacin de los datos, validacin del conocimiento extrado, etc.

Figura 1. Fases del anlisis inteligente de datos

Gonzalez Juana Act. 05

a) Fase de integracin y recopilacin


Lo normal es que los datos necesarios para poder llevar a cabo un proceso de
extraccin de conocimiento pertenezcan a diferentes organizaciones o a distintos
departamentos de una misma entidad. Incluso puede ocurrir que algunos datos
necesarios para el anlisis nunca hayan sido recolectados en el mbito de la
organizacin por no ser necesarios para sus aplicaciones. En muchos casos,
adems, puede que haya que adquirir datos externos desde bases de datos
pblicas o desde bases de datos privadas. Esta no es una tarea sencilla, ya que
cada fuente de datos usa diferentes formatos de registro, diferentes grados de
agregacin de los datos, diferentes claves primarias, diferentes tipos de error, etc.
Lo primero por lo tanto, es integrar estos datos. La idea de la integracin de
mltiples bases de datos ha dado lugar a la tecnologa de almacene s de datos
(data warehousing). Este trmino, hace referencia a la tendencia actual en las empresas e
instituciones de coleccionar datos de las bases de datos transaccin ales y otras fuentes
diversas para hacerlos accesibles para el anlisis y la toma de decisiones.
El primer paso en el proceso de extraccin de conocimiento a partir de datos es
precisamente reconocer y reunir los datos con los que se va a trabajar. Si esta
recopilacin se va a realizar para una tarea puntual y no involucra muchas cantidades y
variedades de datos, es posible que el sentido comn sea suficiente para obtener
u n conjunto de datos con la calidad suficiente para poder empezar a trabajar. En
cambio, si se requieren datos de distintas fuentes, tanto externas como internas a
la organizacin, con datos complejos y variados, posiblemente en grandes cantidades
y adems cambiantes, con los que se desee realizar a medio o largo plazo diversas
tareas de minera de datos, es posible que el sentido comn no sea suficiente
para hacer una recopilacin e integracin en condiciones.

b) Fase de seleccin, limpieza y transformacin


Despus de la recopilacin, el siguiente paso en el proceso de la extraccin de
conocimiento es seleccionar y preparar el subconjunto de datos que se va a
minar,

los

cuales constituyen lo que se conoce como vista minable. Este paso es

necesario ya que algunos datos coleccionados en la fase anterior son irrelevantes o


innecesarios para la tarea de minera que se desea realizar.
Pero adems de la irrelevancia, existen otros problemas que afectan a la calidad
de los datos. Uno de estos problemas es la presencia de valores que no se
Gonzalez Juana Act. 05

ajustan al comportamiento general de los datos. Estos datos anmalos pueden


representar

errores en los

datos o

pueden ser

valores

correctos que son

simplemente diferentes a los dems. Algunos algoritmos de minera de datos


ignoran estos datos, otros los descartan considerndolos ruido o excepciones, pero
otros son muy sensibles y el resultado se ve claramente perjudicado por ello. Sin
embargo, no siempre es conveniente eliminarlos, ya que en algunas aplicaciones
como la deteccin de compras fraudulentas por tarjeta de crdito o la prediccin de
inundaciones, los eventos raros pueden ser ms interesantes que los regulares.
La recopilacin de datos debe ir acompaada de una limpieza e integracin de los
mismos, para que stos estn en condiciones para su anlisis. Los beneficios del
anlisis y de la extraccin de conocimiento a partir de datos dependen, en gran
medida, de la calidad de los datos recopilados.
Limpieza y transformacin
En la mayora de bases de datos existe mucha informacin que es incorrecta
respecto al dominio de la realidad que se desea cubrir y un nmero menor, pero
a veces tambin relevante, de datos inconsistentes. Estos problemas se acentan
cuando se realiza la integracin de distintas fuentes. No obstante, mientras los
datos errneos

crecen

de

manera

lineal

respecto

al

tamao de

los

datos

recopilados, los datos inconsistentes se multiplican. Un aspecto muy importante a la


hora de realizar los procesos de integracin, limpieza y transformacin, es que se
debe conocer el dominio de donde provienen los datos.
La transformacin de datos engloba, en realidad, cualquier proceso que modifique
la forma de los datos. Prcticamente todos los procesos de preparacin de datos
involucran

algn

tipo

de

transformacin.

Existen distintas

operaciones

que

transforman atributos, algunas transforman un conjunto de atributos en otros, o


bien derivan nuevos atributos, o bien cambian el tipo (mediante numerizacin o
discretizacin) o el rango (mediante escalado).
Exploracin y seleccin
Una vez que los datos estn recopilados, integrados y limpios, an no se est en
condiciones de realizar la tarea de minera de datos. Es necesario, adems, realizaron
reconocimiento o anlisis exploratorio de los datos con el objetivo de conocerlos mejor
de cara a la tarea de minera de datos. Incluso esta fase es imprescindible
Gonzalez Juana Act. 05

cuando se realiza minera de datos abierta, ya que tenemos todo el volumen de


datos pero hemos de determinar los datos a seleccionar y las tareas a realizar sobre
esos datos.

c) Fase de minera de datos


La fase de minera de datos es la ms caracterstica del proceso de extraccin de
conocimiento y muchas veces se utiliza esta fase para nombrar todo el proceso. El
objetivo de esta fase es producir nuevo conocimiento que pueda utilizar el usuario.
Esto se realiza construyendo un modelo basado en los datos recopilados para este
efecto. El modelo es una descripcin de los patrones y relaciones entre los datos
que pueden usarse para hacer predicciones, para entender mejor los datos o para
explicar situaciones pasadas. Para ello es necesario tomar una serie de decisiones
antes de empezar el proceso:

Determinar qu tipo de tarea de minera es el ms apropiado.

Elegir el tipo de modelo.

Elegir el algoritmo de minera que resuelva la tarea y obtenga el tipo de modelo


que estamos buscando.

En la construccin del modelo es donde se ve mejor el carcter iterativo del


proceso de minera de datos, ya que ser necesario explorar modelos alternativos
hasta encontrar aquel que resulte ms til para resol ver el problema. As, una vez
obtenido un modelo y a partir de los resultados obtenidos para el mismo, se
puede construir otro modelo usando la misma tcnica pero otros parmetros, o
quizs usar otras tcnicas o herramientas.
El proceso de construccin de modelos predictivos requiere tener bien definidas las
etapas

de

entrenamiento

y validacin para asegurar que las predicciones sern

robustas y precisas. La idea bsica es estimar el modelo con una porcin de los datos
(datos de entrenamiento) y luego validarlo con el resto de los datos (datos de testeo).
Tareas predictivas
Se trata de problemas y tareas en los que hay que predecir uno o ms valores
para uno o ms ejemplos. Los ejemplos en la evidencia van acompaados de una
salida (clase, categora o valor numrico) o un orden entre Introduccin a la minera
de datos ellos. Dependiendo de cmo sea la correspondencia entre los ejemplos y
Gonzalez Juana Act. 05

los valores de salida y la presentacin de los ejemplos es posible definir varias


tareas predictivas.
Tareas descriptivas
Los ejemplos se presentan como un conjunto E sin etiquetar ni ordenar de ninguna
manera. El objetivo, por tanto, no es predecir nuevos datos sino describir. Los existentes.
Lgicamente, esto se puede hacer de muchas maneras y la variedad de tareas se
dispara.

d) Fase de evaluacin e interpretacin


Los mtodos de aprendizaje permiten construir modelos a partir de un conjunto de
datos o evidencia. En la mayora de los casos es necesario evaluar la calidad de
las hiptesis de la manera ms exacta posible. Por ejemplo, si en el mbito de
aplicacin de un modelo un error en la prediccin causa importantes consecuencias
(por

ejemplo

deteccin

de

clulas

cancergenas),

es importante

conocer

con

exactitud el nivel de precisin de los modelos aprendidos. Por lo tanto, la etapa de


evaluacin de modelos es crucial para la aplicacin real de las tcnicas de
minera de datos. Sin embargo establecer medidas justas y exhaustivas no es tarea
sencilla. Una primera aproximacin lleva a utilizar el propio conjunto de datos de
entrenamiento como referencia para evaluar la calidad de un modelo. Sin embargo,
esta aproximacin es del todo equivocada, ya que premia los modelos que se ajustan ms
al conjunto de entrenamiento, por lo que favorecen los modelos que sobre ajustan
el conjunto de datos de entrenamiento y no generalizan para otros datos.
Tcnicas de evaluacin
En los modelos predictivos, el uso de la separacin de conjunto de datos de
entrenamiento y de testeo es fcil de interpretar. Por ejemplo, para una tarea de
clasificacin, despus de generar el modelo con el conjunto de entrenamiento, ste
se puede usar para predecir la clase de los datos de prueba. Entonces, la razn
de precisin se obtiene dividiendo el nmero de clasificaciones correctas por el
nmero total de instancias. La precisin es una buena estimacin de cmo se
comportar el modelo de datos futuros similares a los del test.
Esta forma de proceder no garantiza que el modelo sea correcto, sino que
simplemente indica que si usamos la misma tcnica con una base de datos con
Gonzalez Juana Act. 05

datos similares a los de prueba, la precisin media ser bastante parecida a la


obtenida con stos.
Validacin simple
El mtodo de evaluacin ms bsico reserva un porcentaje de la base de datos como
conjunto de prueba y no la usa para construir el modelo. Este porcentaje suele variar
entre el 5% y el 50%. La divisin de los datos en estos grupos debe ser aleatoria para
que la estimacin sea correcta.
Validacin cruzada con k pliegues
En el mtodo de validacin cruzada con k pliegues ( k -fold cross-validation) los
datos se dividen aleatoriamente en k grupos. Un grupo se reserva para el conjunto
de da tos de prueba y con los otros k -1 restantes se construye un modelo y se
usa para predecir el resultado de los datos del grupo reservado. Este proceso se
repite k veces, dejando cada vez un grupo diferente para la prueba. Esto significa
que se calculan k tasas de error independientes. Finalmente se construye un modelo
con todos los datos y se obtienen sus tasas de error y precisin promediando las k
tasas de error disponibles.
Bootstrapping
Otra tcnica para estimar el error de un modelo cuando se disponen de pocos
datos, es la conocida como bootstrapping. sta consiste en construir un primer
modelo con todos los datos iniciales. Entonces, se crean numerosos conjuntos de
datos, llamados bootstrap samples, haciendo un muestreo de los datos originales
con reemplazo, es decir, se van seleccionando instancias del conjunto inicial,
pudiendo seleccionar la misma instancia varias veces. Ntese que los conjuntos
construidos de esta forma pueden contener datos repetidos. A continuacin se
construye un modelo con cada conjunto y se calcula su tasa de error sobre el
conjunto

de

test (que son los datos

sobrantes

de cada muestreo). El error final

estimado para el modelo construido con todos los datos se calcula promediando los
errores obtenidos para cada muestra.
Interpretacin y contextualizacin
Pese a todas las medidas vistas anteriormente, en muchos casos hay que evaluar
tambin el contexto donde el modelo se va a utilizar. Por ejemplo, en el caso de
Gonzalez Juana Act. 05

la clasificacin y las reglas de asociacin, usar la precisin como medida de


calidad tiene ciertas desventajas. E n primer lugar, no tiene en cuenta el problema
de tener distribuciones de clases no balanceadas. Este aspecto pone en evidencia
que es necesario conocer mejor el tipo de errores y su costo asociado. En los
problemas de clasificacin se usa la matriz de confusin, la cual muestra el
recuento de casos de las clases predichas y sus valores actuales.
La consideracin de que todos los errores no son iguales puede incluso tenerse
en cuenta en situaciones donde los costos de error suelen ser difciles de estimar
o

incluso

desconocidos

para

muchas

aplicaciones.

En estos casos, se usan

estrategias alternativas como el anlisis ROC (Receiver Operating Characteristic).


Como se ha mencionado anteriormente, la precisin de un modelo no garantiza
que refleje el mundo real. Normalmente, esta situacin se produce cuando al
construir

el

implcitamente

modelo
influyen

no
en

hemos
l.

En

tenido

en

cualquier

cuenta
caso,

algunos parmetros
se

deber

que

contrastar

el

conocimiento que ste nos proporciona con el conocimiento previo que pudiramos
tener sobre el problema para detectar y en su caso resolver los posibles conflictos.

Gonzalez Juana Act. 05

Ejemplos de cmo se Aplican las Fases que Integran el Anlisis


Inteligente de los Datos

En la empresa
Deteccin de fraudes en las tarjetas de crdito. Examinar transacciones, propietarios de
tarjetas y datos financieros para detectar y mitigar fraudes. En un principio para detectar
fraudes en tarjetas de crdito, luego incorporar las tarjetas comerciales, de combustibles y
de dbito. Descubriendo el porqu de la desercin de clientes de una compaa
operadora de telefona mvil. Este estudio fue desarrollado en una operadora espaola
que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes
que se dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se
analizaron los diferentes histricos de clientes que haban abandonado la operadora y de
clientes que continuaban con su servicio. Tambin se analizaron las variables personales
de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron,
para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los
descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y
gratuitas.
Prediciendo el tamao de las audiencias televisivas.
La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para
predecir el tamao de las audiencias televisivas para un programa propuesto, as como el
tiempo ptimo de exhibicin. El sistema utiliza redes neuronales y rboles de decisin
aplicados a datos histricos de la cadena para determinar los criterios que participan
segn el programa que hay que presentar. La versin final se desempea tan bien como
un experto humano con la ventaja de que se adapta ms fcilmente a los cambios porque
es constantemente reentrenada con datos actuales.

En el gobierno
Para el FBI analizar las bases de datos comerciales para detectar terroristas.
Departamento de Justicia debe introducirse en la vasta cantidad de datos comerciales
referentes a los hbitos y preferencias de compra de los consumidores, con el fin de
descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos
Gonzalez Juana Act. 05

aseguran que, con esta informacin, el FBI unira todas las bases de datos y permitir
saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario,
las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia,
grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como
diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom
clases de vuelo o si tiene cuentas de banco abiertas, entre otros.

En la universidad
Conociendo si los recin titulados de una universidad llevan a cabo actividades
profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recin titulados
de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de
Chihuahua. Se quera observar si sus recin titulados se insertaban en actividades
profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el
perfil que caracteriz a los exalumnos durante su estancia en la universidad. El objetivo
era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno
se haca una buena insercin laboral o si existan otras variables que participaban en el
proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de
procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la
actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos
aproximados se descubri que existan cuatro variables que determinaban la adecuada
insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde
habitaba el estudiante, colegio de dnde provena, nota al ingresar y promedio final al salir
de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio
socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas
para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la
universidad.

En investigaciones espaciales
Proyecto SKYCAT.
Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion tres
terabytes de imgenes que contenan aproximadamente dos millones de objetos en el
cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con
23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de todos esos
objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en
tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos
Gonzalez Juana Act. 05

en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad. Los resultados
han ayudado a los astrnomos a descubrir diecisis nuevos qusars con corrimiento hacia
el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms
antiguos. Estos qusars son difciles de encontrar y permiten saber ms acerca de los
orgenes del universo.

En los clubes deportivos

El AC de Milan utiliza un sistema inteligente para prevenir lesiones. Esta temporada el


club comenzar a usar redes neuronales para prevenir lesiones y optimizar el
acondicionamiento de cada atleta. Esto ayudar a seleccionar el fichaje de un posible
jugador o a alertar al mdico del equipo de una posible lesin. El sistema, creado por
Computer Associates International, es alimentado por datos de cada jugador,
relacionados con su rendimiento, alimentacin y respuesta a estmulos externos, que se
obtienen y analizan cada quince das. El jugador lleva a cabo determinadas actividades
que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten
seales de radio que posteriormente son almacenadas en una base de datos.
Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna
posible lesin. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que
presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por
otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de
ambos sexos, as como saber si una determinada lesin se relaciona con el estilo de
juego de un pas concreto donde se practica el ftbol.

Negocios
La minera de datos puede contribuir significativamente en las aplicaciones de
administracin empresarial basada en la relacin con el cliente. En lugar de contactar con
el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas,
slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de
responder positivamente a una determinada oferta o promocin. Por lo general, las
empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero
tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer
muy rpidamente.

Gonzalez Juana Act. 05

En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra
construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin
puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo
(una quincena, un mes) y slo enviar las ofertas a las personas que es probable que sean
rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones
de cada modelo y pasar a una minera de datos lo ms automatizada posible.
El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de
hbitos de compra en supermercados. Un estudio muy citado detect que los viernes
haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y
cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres
jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando
de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar
las ventas compulsivas.

Fraudes
Un caso anlogo es el de la deteccin de transacciones de blanqueo de dinero o de
fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la
relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas
o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de
probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar
medidas rpidas frente a ellas.

Recursos humanos
La minera de datos tambin puede ser til para los departamentos de recursos humanos
en la identificacin de las caractersticas de sus empleados de mayor xito. La
informacin obtenida puede ayudar a la contratacin de personal, centrndose en los
esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda
ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en la
obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o
compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de
planes de produccin o gestin de mano de obra.

Gonzalez Juana Act. 05

Comportamiento en Internet
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre
todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la
informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles
propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un
determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la
informacin histrica disponible acerca de los clientes que han comprado el primero.

Juegos
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para
determinados juegos combinacionales, tambin llamados finales de juego de tablero (por
ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuracin de
inicio, se ha abierto una nueva rea en la minera de datos que consiste en la extraccin
de estrategias utilizadas por personas para estos orculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con xito al
funcionamiento de estos orculos. En su lugar, la produccin de patrones perspicaces se
basa en una amplia experimentacin con bases de datos sobre esos finales de juego,
combinado con un estudio intensivo de los propios finales de juego en problemas bien
diseados y con conocimiento de la tcnica (datos previos sobre el final del juego).
Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el
juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.

Ciencia e Ingeniera
En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas
relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos
campos son:
Gentica
En el estudio de la gentica humana, el objetivo principal es entender la relacin
cartogrfica entre las partes y la variacin individual en las secuencias del ADN humano y
la variabilidad en la susceptibilidad a las enfermedades. En trminos ms llanos, se trata
de saber cmo los cambios en la secuencia de ADN de un individuo afectan al riesgo de
desarrollar enfermedades comunes (como por ejemplo el cncer). Esto es muy importante
para ayudar a mejorar el diagnstico, prevencin y tratamiento de las enfermedades. La

Gonzalez Juana Act. 05

tcnica de minera de datos que se utiliza para realizar esta tarea se conoce como
"reduccin de dimensionaldad multifactorial".
Ingeniera elctrica
En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta
tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado
del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los
cambios de carga en transformadores se utilizan ciertas tcnicas para agrupacin de
datos (clustering) tales como los Mapas Auto-Organizativos (SOM, Selforganizing map).
Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de
dichas anomalas
Anlisis de gases
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases disueltos
(DGA, Dissolved gas analysis) en transformadores elctricos. El anlisis de gases
disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar
transformadores.

Gonzalez Juana Act. 05

Conclusin
Para concluir esta investigacin en la actualidad las fases que integran el anlisis
de datos han permitido al mundo tecnolgico y empresarial a manejar grandes
cantidades de informacin y poder as tener un mejor uso de ellas.
El anlisis inteligente de los datos nos permite analizar factores de influencia en
determinados procesos, predecir o estimar variables o comportamientos futuros,
segmentar o agrupar tems similares, adems de obtener secuencias de eventos
que provocan comportamientos especficos.
Por lo cual se podra considera como la ltima etapa de la introduccin de
mtodos cuantitativos, cientficos en el mundo del comercio, industria y negocios.
Desde ahora, todos los no estadsticos pueden construir modelos exactos de
algunas de sus actividades, para estudiarlas mejor, comprenderlas y mejorarlas.

Gonzalez Juana Act. 05

Bibliografa

Centeno, H, Doffourt, G, Garca, N, Gmez, G, Gonzlez, E, Granado, L, Loyo, S,


Prez, A & Prez, D. (2011). Minera de datos. El arte de sacar conocimiento de
grandes volmenes de datos. Recuperado el 21 de noviembre del 2014 de:
http://www.monografias.com/trabajos-pdf4/mineria-datos-arte/mineria-datosarte.pdf

Jess, D, Lpez, J & Jess, J. (2012). La minera de datos en el proceso de KDD.


Recuperado el 21 de noviembre del 2014 de: https://prezi.com/or1wtpdy4tv/tutorial- kdd-mineria-de-datos/

Hasperu, W. (2012) Extraccin de conocimiento en grandes bases de datos


utilizando estrategias adaptativas. Recuperado de:
http://postgrado.info.unlp.edu.ar/Carreras/Doctorado/Tesis/Hasperue_Waldo.pdf

CTIC. Anlisis inteligente de datos. Recuperado el 21 de noviembre del 2014 de:


http://www.fundacionctic.org/actualidad-y-divulgacion/noticias/analisis-inteligentede-datos

Hernndez, J. Minera de datos Proceso KDD. Recuperado el 22 Recuperado 22


de noviembre del 2014 de: http://users.dsic.upv.es/~jorallo/master/dm2.pdf

Molina, M. (2006).Tcnicas de anlisis de datos. Recuperado 22 de Noviembre del


2014 de: http://www.giaa.inf.uc3m.es/docencia/II/ADatos/apuntesAD.pdf

Gonzalez Juana Act. 05