Mineria de Datos

MINERIA DE DATOS
Definicin
La minera de datos puede definirse inicialmente como un proceso de

descubrimiento de nuevas y significativas relaciones, patrones y tendencias al
examinar grandes cantidades de datos. (Hernandez Orallo, Ramirez Quintana , &
Ferri Ramirez , 2004)
La minera de datos puede describirse como anlisis de datos exploratorio. El
propsito es buscar patrones interesantes en los datos, patrones que pueden
usarse para especificar la estrategia del negocio o para identificar
comportamientos fuera de lo comn (por ejemplo, un incremento sbito en la
actividad de una tarjeta de crdito puede indicar que la tarjeta ha sido robada). Las
herramientas de minera de datos aplican tcnicas estadsticas a una gran
cantidad de datos almacenados para buscar patrones. (Wesley Longman, 2001)
Mediante el conocimiento adquirido sobre los clientes, ser capaz de interpretar sus
objetivos, expectativas y deseos. Esto es conseguido por la minera de datos
(data mining), o por minera de datos dirigida al cliente (customer centric data
mining), que es una coleccin de tcnicas y mtodos que facilitan la adquisicin y
retencin de la parte del mercado que cabe a una empresa.
Analistas en minera de datos desarrollan dos tipos de modelos: predictivos y
descriptivos a partir de grandes masas de datos. La minera de datos provee un
mtodo automtico para descubrir patrones en datos, sin la tendenciosidad y la
limitacin anlisis sustentado meramente en la intuicin humana. (Vieira Braga ,
Ortiz Valencia , & Ramirez Carvajal , 2009)
La minera de datos en los negocios y en el marketing
Se puede definir la minera de datos desde un punto de vista estrecho como el
descubrimiento automtico de patrones o modelos interesantes y no obvios
escondidos en una base de datos, las cuales tienen un gran potencial para
contribuir en los aspectos principales del negocio.
Para el anlisis de los datos podemos emplear la estadstica clsica, aunque
recientemente se ha incorporado en los negocios la utilizacin de herramientas de
la minera de datos. Las razones principales son tres:
La minera de datos ofrece la posibilidad de llevar a cabo un proceso de

descubrimiento de informacin automtico. Las tcnicas estadsticas
clsicas requieren generalmente de la delimitacin por parte del analista
de las variables a considerar, series de datos a incluir y tipo de anlisis a
realizar. En definitiva, estn sujetas a una idea previa del estadista.
Las herramientas de minera de datos se han diseado para ser empleadas
directamente por decisores o personal del negocio y no necesariamente
tcnicos. La minera de datos automatiza los procesos estadsticos y por

ello, descargan al usuario final de tal tarea.
Desde el punto de vista de productos, las herramientas de minera de datos
estn preparadas para trabajar con grandes volmenes de registros,
mientras que, generalmente, los paquetes estadsticos clsicos se saturan
cuando se introduce gran cantidad de datos para analizar.
(Barreiro Fernandez, Diaz de Castro, Ruzo Sanmartin , & Losada Perez,
2003)
Tcnicas de la minera de datos
La minera de datos tiene como objetivo analizar los datos para extraer
conocimiento. Este conocimiento puede ser en forma de relaciones, patrones o
reglas inferidos de los datos y previamente desconocidos, o bien en forma de una
descripcin ms concisa es decir un resumen de los mismos
Tcnicas predictivas: especifican el modelo para los datos en base a un

conocimiento terico previo. El modelo supuesto para los datos debe
contrastarse despus del proceso de minera de datos antes de aceptarlo
como vlido. (Perez Lopez & Satin Gonzalez, 2008)
Los modelos predictivos pretenden estimar valores futuros o desconocidos
de variables de inters que denominamos variables objetivo o
dependientes usando otras variables de la base de datos, a las que
denominamos variables independientes o predictivas. Un ejemplo
predictivo seria aquel que permite estimar la demanda de un nuevo
producto en funcin del gasto en publicidad. (Hernandez Orallo, Ramirez
Quintana , & Ferri Ramirez , 2004)
Las tcnicas predictivas suelen denominarse tcnicas de clasificacin ad
hoc ya que clasifican individuos u observaciones dentro de grupos
previamente definidos. (Hernandez Orallo, Ramirez Quintana , & Ferri
Ramirez , 2004)
Tcnicas descriptivas: no se asignan ningn papel predeterminado a las
variables. No se supone la existencia de variables dependientes ni
independientes y tampoco se supone la existencia de un modelo previo
para los datos. (Perez Lopez & Satin Gonzalez, 2008)
Los modelos descriptivos en cambio, identifican patrones que explican o
resumen datos, es decir, sirven para explotar las propiedades de los datos
examinados, no para predecir nuevos datos. Por ejemplo, una agencia de
viaje desea identificar grupos de personas con unos mismos gustos, con el
objeto de organizar diferentes ofertas para cada grupo y poder as remitirles
esta informacin, para ellos analiza los viajes que han realizado sus clientes
e infiere un modelo descriptivo que caracteriza estos grupos. (Hernandez
Orallo, Ramirez Quintana , & Ferri Ramirez , 2004)
Las tcnicas descriptivas se denominan tcnicas de clasificacin post hoc

porque realizan clasificacin sin especificacin previa de los grupos.
(Hernandez Orallo, Ramirez Quintana , & Ferri Ramirez , 2004)
Tcnicas auxiliares: son herramientas de apoyo ms superficiales y
limitadas. Se trata de nuevos mtodos basados en tcnicas estadsticas
descriptivas, consultas e informes y enfocados en general hacia la
verificacin. (Hernandez Orallo, Ramirez Quintana , & Ferri Ramirez ,
2004)

Minera de datos y KDD

Podemos afirmar que el proceso de minera de datos pertenece a un esquema
ms amplio denominado Descubrimiento de conocimiento en bases de datos, ms
conocido como KDD (Knowledge Discovery in Databases). Una definicin de
Descubrimiento de conocimiento en bases de datos es el proceso no trivial de
identificacin de patrones vlidos, novedosos, potencialmente tiles y
fundamentalmente comprensibles en los datos.
Las principales reas que contribuyen son el aprendizaje automtico (aporta
algoritmos que mejoran automticamente a travs de la experiencia, centrndose
fundamentalmente en la induccin y siendo aplicable a datos tanto numricos
como simblicos), las bases de datos (se encarga de almacenar, acceder, buscar
y actualizar datos) y la estadstica (aplica tcnicas de deduccin e induccin de
datos, principalmente numricos). Cada una de ellas aporta una serie de tcnicas
y herramientas que, tras una adecuada aplicacin, dan como resultado un modelo
de conocimiento.
(Tuya , Ramos Roman, & Dolado Cosin, 2007)

En el proceso de extraccin del conocimiento KDD la secuencia de las fases es la
siguiente:
Seleccin: se integran y recopilan datos, se determinan las fuentes de

informacin que pueden ser tiles y donde conseguirlas, se identifican y
seleccionan las variables relevantes en los datos y se aplican las tcnicas
de muestreo adecuadas.
Exploracin: mediante tcnicas de anlisis exploratorio de datos, buscando
entre otras cosas la distribucin de los datos, su simetra y normalidad y las
correlaciones existentes en la informacin.
Limpieza de los datos: ya que pueden contener valores atpicos, valores
faltantes y valores errneos. En esta fase se analiza la influencia de los
datos atpicos, se imputan los valores faltantes y se eliminan o corrigen los
datos incorrectos.
Transformacin de los datos: mediante tcnicas de reduccin o aumento de
la dimensin y escalado simple y multidimensional, entre otras.
Minera de datos: se decide cual es la tarea a realizar (clasificar, agrupar,
etc.) y se elige la tcnica descriptiva o predictiva que se va a utilizar.
Evaluacin e interpretacin: se evalan los patrones y se analizan por los
expertos, y si es necesario se vuelve a las fases anteriores para una nueva
iteracin.
Difusin: se hace uso del nuevo conocimiento y se hace partcipe de el a
todos los posibles usuarios.
Los modelos de minera de datos se pueden aplicar en escenarios como los

siguientes:
Previsin: calcular las ventas y predecir las cargas de servidor o el tiempo

de inactividad del servidor.
Riesgo y probabilidad: elegir los mejores clientes para la distribucin de

correo directo, determinar el punto de equilibrio probable para los
escenarios de riesgo, y asignar probabilidades a diagnsticos u otros
resultados.
Recomendaciones: determinar los productos que se pueden vender juntos y

generar recomendaciones.
Buscar secuencias: analizar los artculos que los clientes han introducido en
el carrito de compra y predecir los posibles eventos.
Agrupacin: separar los clientes o los eventos en clsteres de elementos

relacionados, y analizar y predecir afinidades.
La generacin de un modelo de minera de datos forma parte de un proceso

mayor que incluye desde la formulacin de preguntas acerca de los datos y la
creacin de un modelo para responderlas, hasta la implementacin del modelo en
un entorno de trabajo. Este proceso se puede definir mediante los seis pasos
bsicos siguientes:
1. Entendimiento del problema
2. Entendimiento de los datos
3. Preparacin de datos
4. Modelamiento
5. Evaluacin
6. Despliegue funcional-comercial
Metodologa de la minera de datos
Un trabajo de minera de datos podramos decir que tpicamente consta de las
siguientes partes:
1. Entendimiento del problema: se trata de hablar con el cliente, conocer sus
necesidades, conocer su negocio o actividad, conocer qu datos relevantes tiene
disponibles y cules seran necesarios pero no estn disponibles, etc.
2. Entendimiento de los datos: hay que saber qu significan los datos, si son
continuos o discretos, qu tipo de valores toman, qu utilidad futura pueden tener
y saber si estn bien capturados o no.
3. Preparacin de datos: se trata de reflexionar sobre cmo guardar los datos.
Tpicamente hablaremos de tablas con filas y columnas, pero hay que ver cmo se
organizan las tablas, cmo se interrelacionan entre ellas, etc. En definitiva
organizar los datos para poder sacarles partido.
4. Modelamiento: una vez se tienen los datos organizados hay que definir los
algoritmos que se van a utilizar para tratar los datos. Una vez tratados, los datos
nos devolvern informacin til.
5. Evaluacin: los resultados obtenidos deben de ser sometidos a comprobacin,
verificar que estn libres de errores, ratificar que son tiles para los objetivos
perseguidos, etc.
6. Despliegue funcional-comercial: una vez se tiene automatizada la captura y
tratamiento de datos para obtener unos resultados, se desarrollan herramientas,
normalmente en forma de aplicaciones informticas que permiten generar alertas,
informes, estadsticas, etc. que tienen una utilidad directa para la toma de
decisiones y sistema de informacin del cliente.
Minera de datos: qu es? Para qu sirve?

Hay diferentes definiciones para minera de datos. Una muy simple sera decir que
es el estudio y tratamiento de datos masivos para extraer conclusiones e
informacin relevante de ellos.
Vamos a tratar de explicar para qu sirve la minera de datos dando ejemplos de
en qu situaciones se aplica.
Ejemplos:
a) Supongamos un banco que otorga crditos y va a estudiar la concesin de un
crdito. El banco tiene una serie histrica de datos de clientes y concesin de
crditos con m x n casillas. Por ejemplo los datos disponibles pueden ser: Cliente /
Edad / Estado civil / Trabaja / Nmina / Casa / Hipoteca / Pag?. Cada una de
estas columnas se llama atributo. El campo Pag? es binario (solo puede tomar
como valores s o no) y es el atributo clave que tiene el banco para estudiar la
concesin del crdito. No siempre existe un atributo clave. Para qu le sirve la
minera de datos al banco? Pues para decidir si concede el crdito o no: por
ejemplo, estudiando y tratando los datos puede llegar a la conclusin de que los
varones menores de 20 aos que estn casados estadsticamente tienen un alto
porcentaje de impagos. Si el cliente corresponde a ese perfil la decisin puede ser
denegar el crdito.
b) Supongamos un hospital donde hay unos datos de pacientes y un diagnstico.
Se puede tener una tabla de datos que incluya por ejemplo datos como Paciente /
Edad / Glbulos rojos / Glbulos blancos / Tensin / Azcar / Diagnstico. Para
qu le servira la minera de datos al hospital? Pues por ejemplo para hacer un pre
diagnstico de la dolencia que con mayor probabilidad pueda tener un paciente en
base a sus datos asociados. Un tipo de dolencia se dice que es un dato discreto
porque solo puede tomar unos valores concretos (por ejemplo que haya 30 tipos
de dolencias). Estudiando y tratando los datos se pueden llegar a conclusiones,
por ejemplo que si un paciente tiene ms de 60 aos, los glbulos blancos muy
altos y el azcar alto es muy probable que est desarrollando diabetes. Si el
paciente corresponde a ese perfil, la decisin puede ser hacer unas pruebas
especficas o poner cierto tratamiento preventivo.
c) Supongamos un hipermercado. La minera de datos para grandes superficies se
llama anlisis de cesta de la compra o Market Basket Analysis. Por cada compra
realizada, especialmente las realizadas con tarjeta, podra almacenar datos que le
permite conocer los gustos de los clientes, qu es lo que ms compran, qu

cantidades compran, cmo se correlacionan los productos, etc. En una tabla de
datos se podran tener campos como Cliente / Gasto en leche / Gasto en pan /
Gasto en cerveza / Gasto en paales / Gasto en pescado. Para qu le servira la
minera de datos a la gran superficie? Le permitira tomar decisiones como que si
por ejemplo la leche y el pan estn muy correlacionados (cuando se compra leche
se suele comprar pan), ambos productos se pueden colocar distanciados dentro
del establecimiento para que el cliente recorra ms distancia y al ver ms
productos compre ms. Estas tcnicas se incluyen dentro de lo que se llama
Marketing Basado en Minera de Datos (en ingls, CRM, Client Relation
Management) y son discutibles, pero de lo que no cabe duda es de que los
grandes comercios estudian la psicologa y hbitos de los clientes para tratar de
sacarles partido. Otro ejemplo sera que si un producto tiene alta demanda se
puede ofrecer con descuentos promocionales para servir de gancho y que el
cliente acuda a ese hipermercado
d) Supongamos una empresa de desarrollo de software. Un equipo de ingenieros
puede desarrollar aplicaciones informticas y por cada una de ellas se recopilan
distintos datos relacionados con la mtrica del software (por ejemplo Horas de
trabajo / Lneas de cdigo / Nmero de errores por cada 1000 lneas de cdigo,
etc.). Para qu le servira la minera de datos a la empresa de desarrollo de
software? Pues por ejemplo para saber el nmero de errores que previsiblemente
se va a encontrar en un proyecto y el tiempo que puede necesitar para corregirlos,
antes de que el proyecto en s se haya desarrollado completamente.
Cmo funciona la minera de datos?
Si bien la tecnologa de informacin a gran escala ha ido evolucionando por

separado las transacciones y sistemas de anlisis, la minera de datos proporciona
un enlace entre los dos. El software de minera de datos analiza las relaciones y
patrones en los datos de transaccin almacenados sobre la base de consultas de
los usuarios de composicin abierta. Existen varios tipos de software de anlisis
que estn disponibles: estadsticos, de aprendizaje automtico, y redes
neuronales. En general, se buscan cualquiera de estos cuatro tipos de relaciones:
Clases: Los datos almacenados se utilizan para localizar datos en grupos

predeterminados. Por ejemplo, una cadena de restaurantes podra minar datos de
compra del cliente para determinar cuando los clientes los visitan y lo que
normalmente ordenan. Esta informacin podra utilizarse para aumentar el trfico
al
tener
especiales
del
da.
Grupos: Los elementos de datos se agrupan de acuerdo a las relaciones lgicas

o preferencias de los consumidores. Por ejemplo, los datos pueden ser extrados
para identificar segmentos de mercado o afinidades de los consumidores.
Asociaciones: Los datos pueden ser minados para identificar asociaciones. El

ejemplo de cerveza-paal es un ejemplo de minera asociativa.
Patrones secuenciales: Los datos se minan para anticipar patrones de

comportamiento y tendencias. Por ejemplo, un distribuidor especializado en
sistemas al aire libre puede predecir la probabilidad de compra de una mochila
basado en la compra de un consumidor de sacos de dormir y calzado de
senderismo.
Campos de aplicacin de la minera de datos

La minera de datos tiene muchos campos de aplicacin pues puede ser til en
prcticamente todas las facetas de la actividad humana. Vamos a indicar algunas
cuestiones relevantes sobre la posible aplicacin de la minera de datos:
a) La minera de datos tiene utilidad empresarial: las empresas pueden optimizar
procesos y mejorar sus productos y ventas utilizando minera de datos.
b) Existen pocos especialistas o empresas especializadas en minera de datos.
Teniendo en cuenta su importancia, es un campo de trabajo para emprendedores.
c) La minera de datos es una disciplina que se est desarrollando cada vez con
mayores capacidades gracias al avance en tecnologa y a la cada vez ms alta
capacidad de computacin de los ordenadores. Constituye un campo amplio
de investigacin en el que cada vez trabajan ms investigadores y equipos de
investigacin.
Herramientas para aplicar tcnicas de minera de datos

Para la aplicacin de las tcnicas de minera de datos existen diversas
herramientas; algunas son independientes del sistema gestor de bases de datos y
otras son nativas de un gestor de bases de datos especfico.
Herramientas nativas del gestor
En los ltimos aos, empresas como ORACLE y SQL Server han incorporado
algunos algoritmos o tcnicas para el anlisis de datos, buscando facilitar el
proceso de descubrimiento de conocimiento para la toma de decisiones.
SQL Server Data Mining: es una herramienta que contiene las caractersticas
necesarias para crear complejas soluciones de minera de datos, ya que permite:
Aplicar soluciones de minera de datos utilizando Microsoft Excel.
Entender cmo, cundo y dnde aplicar los algoritmos que se incluyen en el

servidor de SQL.
Realizar la extraccin de datos de procesamiento analtico en lnea (OLAP).
Utilizar SQL Server Management Studio para acceder y proteger los objetos
de minera de datos.
Utilizar SQL Server Business Intelligence Development Studio para crear y

gestionar proyectos de minera de datos (MacLennan, Tang, & Crivat,
2009).
Entre las ventajas de la minera de datos de Microsoft podemos citar la integracin

estrecha con la plataforma de base de datos de clase mundial SQL Server, ya que
aprovecha el desempeo, la seguridad y las caractersticas de optimizacin de
SQL Server; la extensibilidad, ya que se puede extender la minera de datos de
Microsoft para implementar algoritmos que no vienen incluidos en el producto.
Los algoritmos implementados por Microsoft son:
rboles de decisin.
Bayes naive.
Clsteres.
Redes neuronales.
Serie temporal.
Regresin lineal.
Clsteres de secuencia.
Asociacin.
Oracle Data Mining: permite que las empresas desarrollen aplicaciones de

inteligencia de negocio avanzadas que exploten las bases de datos corporativas,
descubran nuevos conocimientos e integren esa informacin en aplicaciones
comerciales.
Oracle Data Mining incorpora las siguientes funcionalidades de minera de datos
para realizar clasificaciones, agrupamiento, predicciones y asociaciones.
Agrupamiento (k-means, O-Cluster).
rboles de decisin.
Atributo relevante.
Caracterstica de seleccin.
Clasificador bayesiano (naive bayes).
Mquinas de soporte vectorial (support vector machines).
Modelos lineales generalizados
Reglas de asociacin (APRIORI).
Los mejores 10 algoritmos en minera de datos

rboles de decisin
Los algoritmos de rbol de decisin consisten en organizar los datos en elecciones
que compiten formando ramas de influencia despus de una decisin inicial. El
tronco del rbol representa la decisin inicial, y empieza con una pregunta de s o
no, como tomar o no el desayuno. Tomar desayuno y no tomar desayuno seran
las dos ramas divergentes del rbol, y cada eleccin posterior tendra sus propias
ramas divergentes que llevan a un punto final.
-El algoritmo K-means

El algoritmo K-means se basa en el anlisis de grupos. Trata de dividir los datos
recogidos en "bloques" ("clusters" en ingls) separados agrupados por
caractersticas comunes.
-Mquinas de vectores de soporte

Los algoritmos de mquinas de vectores de soporte toman datos de entrada y
predicen cul de las dos posibles categoras incluyen los datos de entrada. Un
ejemplo sera recoger los cdigos postales de un grupo de votantes e intentar
predecir si un votante es demcrata o republicano.
-El algoritmo a priori

El algoritmo apriori normalmente controla los datos de transacciones. Por ejemplo,
en una tienda de ropa, el algoritmo podra controlar qu camisas suelen comprar
juntas los clientes.
-El algoritmo EM
Este algoritmo define parmetros analizando los datos y predice la posibilidad de
una salida futura o evento aleatorio dentro de los parmetros de datos. Por
ejemplo, el algoritmo EM podra intentar predecir el momento de una siguiente
erupcin de un giser segn los datos de tiempo de erupciones pasadas.
-Algoritmo PageRank
El algoritmo PageRank es un algoritmo base para los motores de bsqueda.
Punta y estima la relevancia de un trozo determinado de datos dentro de un gran
conjunto, como un nico sitio web dentro de un conjunto mayor de todos los sitios
web de Internet.
-Algoritmo AdaBoost
El algoritmo AdaBoost funciona dentro de otros algoritmos de aprendizaje que
anticipan un comportamiento segn los datos observados para que sean sensibles
a extremos estadsticos. Aunque el algoritmo EM puede sesgarse debido a un
giser que tiene dos erupciones en menos de un minuto cuando normalmente
tiene una erupcin una vez al da, el algoritmo AdaBoost modificara la salida del
algoritmo EM analizando la relevancia del extremo.
-Algoritmo del vecino k ms cercano
Este algoritmo reconoce patrones en la ubicacin de los datos y los asocia a los
datos con un identificador mayor. Por ejemplo, si quieres asignar una oficina postal
a cada ubicacin geogrfica del hogar y tienes un conjunto de datos para cada
ubicacin geogrfica del hogar, el algoritmo del vecino k ms cercano asignar las
casas a la oficina postal ms cercana segn su proximidad.
-Naive Baye
El algoritmo Naive Baye predice la salida de una identidad basndose en los datos
de observaciones conocidas. Por ejemplo, si una persona tiene una altura de 6
pies y 6 pulgadas (1,97 m) y lleva una talla 14 de zapatos, el algoritmo Naive Baye
podra predecir con una determinada probabilidad que la persona es un hombre.
-Algoritmo CART
"CART" es una sigla en ingls que significa anlisis de rbol regresivo y de
clasificacin. Al igual que los anlisis de rboles de decisin, organiza los datos
segn opciones que compiten, como si una persona ha sobrevivido a un
terremoto. Al contrario que los algoritmos de rboles de decisin, que slo pueden
clasificar una salida o una salida numrica basada en la regresin, el algoritmo
CART puede usar los dos para predecir la probabilidad de un evento.
CONCLUSIONES Y ALGO SOBRE EL FUTURO DE LA MINERA DE DATOS

La minera de datos es algo ms all de la estadstica tradicional (clculo de
medias, anlisis de varianza, etc.). Mientras que en Estados Unidos su sanidad
usa ya tcnicas de minera de datos, en la mayora de los pases los sistemas
sanitarios se apoyan an en la estadstica tradicional de principios de siglo XX.
Esto obviamente ir cambiando, y es un ejemplo del enorme potencial que
adquirir la data mining en los aos venideros. Tambin hay frenos al desarrollo
del data mining. En muchos casos las empresas son muy celosas de sus datos y
resultados en minera de datos. Por eso es frecuente que rechacen colaborar o
contratar trabajos de minera de datos con las universidades porque tienen
autntico pnico a que la competencia pueda hacerse con sus datos. Como
conclusin, podra decirse que la minera de datos est en pleno auge y an
mucha gente no es consciente de la importancia que tiene. Su avance se constata,
por ejemplo, en las ofertas de empleo, donde cada vez con mayor frecuencia
aparecen trminos como Anlisis de datos, CRM, Data Mining, Clustering,
etc.
(Robles Aldana & R. Sotolongo, 2013)
Bibliografa
Barreiro Fernandez, J. M., Diaz de Castro, J. A., Ruzo Sanmartin , E., & Losada
Perez, F. (2003). Gestion cientifica empresarial: temas de investigacion
actuales . Corua : NETBLILO , S.I.
Cesar, K. (2006). Aprende a programar . Obtenido de Aprende a programar :
http://aprenderaprogramar.com/index.php?
option=com_attachments&task=download&id=197
Copyriht. (2009). Obtenido de Copyriht: http://www.tecnologiasinformacion.com/mineria-de-datos.html
Daedalus-Data, Decisions and Language, S.A. (1998). Obtenido de Daedalus:
http://www.daedalus.es/que-tecnologias-nos-diferencian/inteligencia-denegocio/mineria-de-datos/
Day, G. (2006). ehowenespanol. Obtenido de ehowenespanol:
http://www.ehowenespanol.com/mejores-10-algoritmos-mineria-datosinfo_295108/
Hernandez Orallo, J., Ramirez Quintana , M. J., & Ferri Ramirez , C. (2004).
Introduccion a la mineria de datos . Barcelona: Alhambra, S.A .
J. Vallejos, S. (2006). Unne. Obtenido de Enne:

http://exa.unne.edu.ar/informatica/SO/Mineria_Datos_Vallejos.pdf
Perez Lopez, C., & Satin Gonzalez, D. (2008). Mineria de datos: tecnicas y
herramientas. Madrid: Thomson Ediciones Paraninfo, S.A.
Perez Marquez, M. (2013). Mineria de datos. Tecnicas de segmentacion .
Mexico: Alfaomega.
Robles Aldana, Y., & R. Sotolongo, A. (mayo de 2013). SCIELO. Obtenido de
SCIELO: http://www.scielo.br/scielo.php?pid=S180717752013000200389&script=sci_arttext
Server, S. (2014). Microsoft. Obtenido de Microsoft:
https://msdn.microsoft.com/eses/library/ms175595%28v=sql.120%29.aspx
Server, S. (2014). microsoft . Obtenido de microsoft :
https://msdn.microsoft.com/eses/library/ms174949%28v=sql.120%29.aspx
Tuya , J., Ramos Roman, I., & Dolado Cosin, J. (2007). Tecnicas cuantitativas
para la gestion en la ingenieria del software . La corua : NETBIBLO, S.L.
Vieira Braga , L. P., Ortiz Valencia , L. I., & Ramirez Carvajal , S. S. (2009).
Introduccion a la mineria de datos . Brasil : E-Papers servicios editoriales
LTDA .
Wesley Longman, A. (2001). Introduccion a los sitemas de bases de datos .
Mexico : Pearson Educacion .

Mineria de Datos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mineria de Datos

Uploaded by

Copyright:

Available Formats

MINERIA DE DATOS

La minera de datos puede definirse inicialmente como un proceso de

La minera de datos ofrece la posibilidad de llevar a cabo un proceso de

tcnicos. La minera de datos automatiza los procesos estadsticos y por

Tcnicas de la minera de datos

Tcnicas predictivas: especifican el modelo para los datos en base a un

Las tcnicas descriptivas se denominan tcnicas de clasificacin post hoc

(Hernandez Orallo, Ramirez Quintana , & Ferri Ramirez , 2004)

(Hernandez Orallo, Ramirez Quintana , & Ferri Ramirez , 2004)

(Tuya , Ramos Roman, & Dolado Cosin, 2007)

Seleccin: se integran y recopilan datos, se determinan las fuentes de

(Hernandez Orallo, Ramirez Quintana , & Ferri Ramirez , 2004)

Los modelos de minera de datos se pueden aplicar en escenarios como los

Previsin: calcular las ventas y predecir las cargas de servidor o el tiempo

Riesgo y probabilidad: elegir los mejores clientes para la distribucin de

Recomendaciones: determinar los productos que se pueden vender juntos y

Agrupacin: separar los clientes o los eventos en clsteres de elementos

La generacin de un modelo de minera de datos forma parte de un proceso

1. Entendimiento del problema

2. Entendimiento de los datos

Minera de datos: qu es? Para qu sirve?

permite conocer los gustos de los clientes, qu es lo que ms compran, qu

Cmo funciona la minera de datos?

Si bien la tecnologa de informacin a gran escala ha ido evolucionando por

Clases: Los datos almacenados se utilizan para localizar datos en grupos

Grupos: Los elementos de datos se agrupan de acuerdo a las relaciones lgicas

Asociaciones: Los datos pueden ser minados para identificar asociaciones. El

Patrones secuenciales: Los datos se minan para anticipar patrones de

Campos de aplicacin de la minera de datos

Herramientas para aplicar tcnicas de minera de datos

Aplicar soluciones de minera de datos utilizando Microsoft Excel.

Entender cmo, cundo y dnde aplicar los algoritmos que se incluyen en el

Realizar la extraccin de datos de procesamiento analtico en lnea (OLAP).

Utilizar SQL Server Business Intelligence Development Studio para crear y

Entre las ventajas de la minera de datos de Microsoft podemos citar la integracin

Oracle Data Mining: permite que las empresas desarrollen aplicaciones de

Agrupamiento (k-means, O-Cluster).

Clasificador bayesiano (naive bayes).

Mquinas de soporte vectorial (support vector machines).

Modelos lineales generalizados

Reglas de asociacin (APRIORI).

Los mejores 10 algoritmos en minera de datos

-El algoritmo K-means

-Mquinas de vectores de soporte

-El algoritmo a priori

CONCLUSIONES Y ALGO SOBRE EL FUTURO DE LA MINERA DE DATOS

(Robles Aldana & R. Sotolongo, 2013)

J. Vallejos, S. (2006). Unne. Obtenido de Enne:

You might also like