You are on page 1of 4

Los nuevos retos de la estadística

,
el Data Mining
Por Tomàs Aluja
Dept. de Estadística e Investigación Operativa. Universitat Politècnica de Catalunya.

La estadística surgió en el siglo XX como respuesta a problemas planteados por la sociedad, ¿cómo
encontrar el fertilizante que maximiza una producción agrícola?, ¿cómo utilizar componentes más
baratos sin que se resienta el rendimiento del producto?, ¿cómo determinar si un medicamento es
efectivo?, etc. Las innovaciones siempre han ido parejas de los problemas planteados. Sin embargo,
debemos reconocer que la ciencia estadística ha estado manipulando datos durante ¾ partes del siglo sin
disponer de verdaderas herramientas de cálculo. Ello, junto a un determinado estilo de enseñanza de la
estadística, le ha hecho aparecer como una ciencia esencialmente teórica. En los últimos años, el
desarrollo del hardware está proporcionando nuevos e interesantes problemas a los cuales la estadística
debe afrontar. Uno de estos problemas principales es el de hacer emerger la información contenida en los
datos, guardados de forma rutinaria por los sistemas de información puestos en marcha por las empresas
en los últimos 20 años, dando lugar a lo que ha venido en denominarse Data Mining (Minería de Datos).
Ya no se trata de analizar pequeños conjuntos de datos, sino de gigas o terabytes con un objetivo muy
preciso, la toma de una decisión empresarial. Ahora esto es concebible y obliga a repensar la Estadística y
a establecer puentes con los jóvenes y dinámicos competidores de la Inteligencia Artificial, aprovechando
las sinergias de la colaboración y los puntos fuertes de ambas disciplinas.
Palabras clave: Estadística, Inteligencia Artificial, Data warehouse, KDD, modelización.
Statistics had risen in the begining of XX century as a response to problems of society. Problems like
defining a optimum fertilizer, the optimal conditions of production in an industry or assessing the effect
of a drug, etc. Innovation always occured due to stated problems. Anyway, we shall agree that statistics
has been manipulating data for a most part of XX century without having a real computer device. Also a
certain style of statistics installed in academia favoured a theoretical concept of the discipline. Nowadays,
development in hardware have contributed to new and interestings sorts of data to analyse, which
statistics should face. One of this problem is to come into knowledge the information hidden in the stored
data by the information systems put in work for companies in the last two decades, coming up what is
called the field of “data mining”. It is no question to analyse small data files, but gigas or terabytes of
data, with a precise goal, to take a managerial decision. Nowadays, this is conceivable and push to think
again statistics and to establish bridges of cooperation with our competitors of Artificial Intelligence,
taking advantage of the strongness of both disciplines.
Key words: Statistics, Artifical Intelligence, Data warehouse, KDD, modelling.

LA NUEVA FUERZA MOTRIZ

S

ellés no se había decidido todo
lo rápido que debiera. Fortuny
se le había adelantado y había
cerrado el pacto por el que adquiría
la finca de Sala. Esta finca tenía la gra-

cia que por ella el río se estrechaba y
hacía un desnivel, por el que el agua
corría más rápidamente. Ahora Fortuny
podría instalar allí más telares y tener
más fuerza motriz con la que moverlos y a la larga tener ventaja competitiva sobre Sellés. A principios del si-

Los nuevos retos de la estadística,
el Data Mining

34

glo XIX, el movimiento del agua era
la fuerza motriz que movía toda la industria textil.
Este relato puede parecer ahora desfasado, pero no lo es. Ahora igual que
antes, las empresas deben obtener su

Investigación y Marketing

Núm. 68

sino que ahora la fuerza motriz son los DATOS. sólo que en el nuevo siglo que ahora empezamos. Ta m b i é n p u e d e definirse el data mining como el proceso de conversión de datos en información útil para la toma de decisiones. Este es el objetivo del DATA MINING. Mi opinión es que no. hipermercados. nunca como hasta ahora se podía pensar en tener unas herramientas informáticas para la gestión y análisis de estos datos como de las que ya ahora se dispone. ¿EL DATA MINING ES ESTADÍSTICA O INTELIGENCIA ARTIFICIAL? Pero.fuerza motriz con la que mover la empresa. 68 35 ¿QUÉ EMPRESAS PUEDEN UTILIZAR EL DATA MINING? La respuesta es que todas. Y todos estos factores irán “in crescendo” en el nuevo siglo. ¿cuáles son las técnicas de Data Mining? ¿Son técnicas propias. No hace falta que estén almacenados en una base de datos o en un sistema de “data warehouse”. Encontrar el filón que nos lleva hacia la información preciosa para la empresa. hay que ser capaces de APRENDER de los datos. Nosotros entenderemos por data mining la exploración y análisis. una unidad de Data Mining. Para ello la producción de información relevante se ha convertido en un factor de supervivencia para las empresas. no son propias sino que provienen de la Estadística y de la Informática. Estas dos disciplinas. reservándose este último para la fase propiamente algorítmica de tratamiento de la información. o cuando Los nuevos retos de la estadística. Tener datos históricos almacenados sobre los procesos y las interacciones con los clientes son un tesoro para la empresa. basta tenerlos en un fichero. Entre el público especializado se distingue entre el llamado “Knowledge Discovery in Data Bases” (KDD) y Investigación y Marketing ■ Data Mining. se han desarrollado independientes la una de la otra. de su sistema de toma de decisiones para aprender de los datos históricos almacenados. son las pioneras en la utilización Data Mining.? ¿Es una moda?. más acertadas y obtener así. y también las instituciones públicas. Núm. hay que pasar al tratamiento inteligente de los datos. estrechamente conectados con la dirección. de forma cuanto más automática posible. En este sentido. o por el contrario. su especificidad. cuyos procesos den lugar a grandes cantidades de datos almacenados. Nunca como hasta ahora se podía pensar en un almacenamiento masivo de los datos históricos. Es a efectos de tener guardados los datos de forma estructurada y sin duplicidades que es bueno para la empresa tenerlos en una base de datos. nunca como hasta ahora había habido la potencia de cálculo suficiente para prescindir de las muestras (aunque sean aleatorias) y poder trabajar con todos los datos almacenados. sin embargo. pero para aplicar una técnica de Data Mining. venta directa. El almacén de datos es importante puesto que nos permite record a r c ó m o h a n s i d o l a s interacciones de nuestra empresa con nuestros clientes. como a menudo sucede en el entorno académico. son susceptibles de ganar utilizando las herramientas del Data Mining. por ahora las empresas de servicios. nunca como hasta ahora había habido un nivel de competencia tan global entre las empresas. Ciertamente. mejora su adaptación al entorno y le hace adquirir ventaja competitiva. Hay que hacer un salto adelante. en un “data warehouse”). un simple fichero Dbase. … de forma de poderle aconsejar cuales son los productos más interesantes para él (o ella). basta. Las técnicas. Access o texto. es decir. Ahora se dan todas las condiciones para que cada vez más las unidades de data mining crezcan y se consoliden como centros técnicos de soporte. no son las fuentes de energía las que provocan diferencias significativas entre las empresas. Hay que aprender de las interacciones pasadas con nuestros clientes. de grandes cantidades de datos para descubrir patrones y reglas de comp o r t a m i e n t o . pero con tener memoria no es suficiente. concretamente de la Inteligencia Artificial. Las características comunes a todas las técnicas de data mining son que deben ser capaces de tratar grandes volúmenes de datos y capaces de extraer conocimiento sobre subconjuntos de ellos. las toma de prestado de otras disciplinas?. mientras el KDD abarca todas las fases. el Data Mining . desde la preparación de los datos hasta la presentación de resultados. Pero no basta con tener los datos almacenados en un sistema de fácil acceso y consulta (esto es. su ciclo de compra. aseguradoras. etc. banca. La capacidad de la empresa. cuando en realidad el problema que abordan es el mismo. pero en la práctica. ¿ES EL DATA MINING UNA MODA? ¿Por qué ahora todas las empresas de un cierto tamaño están poniendo en marcha. El hecho de disponer de datos de calidad almacenados y sistemas rápidos de extracción de la información contenida en los mismos significa poder tomar decisiones más rápidamente que la competencia. llegando a una complicidad como la que antaño teníamos con los tenderos del barrio. o considerando la posibilidad de poner en marcha. En España se constata que en este momento la demanda de sistemas de data mining está en fase de crecimiento exponencial. La única condición es tener datos históricos fiables sobre sus transacciones o procesos. sus hábitos. nuestra opinión es que el data mining no es una opción sino una necesidad. nunca como hasta ahora había habido la necesidad de ofrecer productos adaptados a las necesidades del cliente. El “data warehouse” es la memoria de la empresa. esta distinción es muy sutil. Pero todas las empresas. para saber cuáles son sus preferencias. ventaja competitiva respecto los competidores.

. trabajar con pocas variables. es una herramienta imprescindible para programar una política de marketing. Las poblaciones de consumidores son a efectos prácticos infinitas. mientras que en el campo de la Inteligencia Artificial podemos citar el perceptrón. Un cierto acto de compra.. más ricas. esto es. es una técnica de data mining. forma de pago. descripciones y más fácil será detectar lo inesperado. el Data Mining 36 son preguntas que se pueden formular una empresa. su perfil de compra y proyectar estos tipos en toda la población de consumidores. lo más automático posible y hecho con un enfoque de aprender de los datos y orientado a la toma de decisiones empresarial. También puede aplicarse en contextos di- Investigación y Marketing ■ Núm. es decir. así como eventuales discrepancias con esta regularidad y sugerir hipótesis de explicación.e. Permite detectar qué productos se adquieren conjuntamente. Resumiendo mucho. sino formas inteligentes de utilizar una técnica. más coherentes serán las Predicción. 1964). sabiendo que otro ha sido comprado? Definición de tipologías. también los árboles de decisión (QUINLAN. Un principio clásico de la Estadística. mientras que si la variable de respuesta es categórica (p.. de valores. aquello que no teníamos previsto y que resulta valioso para entender mejor el comportamiento de algún grupo de individuos. El número de técnicas es muy grande y seguirá creciendo en el futuro.then . señalemos los hitos históricos de la regresión para la predicción de una variable continua (GALTON. 1958). en Estadística. Búsqueda de asociaciones. aportando cada una los puntos fuertes que le son propios. de opinión. secuencias de reglas “if . MARS (Multivariate Adaptative Regression Splines. las tipologías pueden ser de consumo. 1937). Por otro lado. ahora ya no es válido (aunque siempre es deseable llegar a formular modelos simples). ¿QUÉ PROBLEMAS ABORDA EL DATA MINING? Muchos. Detectar los distintos tipos de ciclos y la fase en que se encuentra cada consumidor ayudará a crear complicidades y adecuar la oferta de productos a las necesidades y crear fidelización.menos muy parecido. 1890). cualquier problema empresarial para el que existan datos históricos almacenados es susceptible de ser un problema de Data Mining. Si la variable de respuesta es de tipo continua (p. pero no para detectar el comportamiento de subgrupos particulares. También aquí. la compra o no compra de un producto) diremos que se trata de un problema de clasificación. 1991) . sin pretender ser exhaustivos y sabiendo que dejamos técnicas sin mencionar. Éstas y muchas más. esto es. Los nuevos retos de la estadística. localización. Detectar estos distintos tipos de consumidores. Permiten hacer visualizaciones de realidades multivariantes complejas y por tanto poner de relieve las regularidades estadísticas.. Para describir la realidad cuantas más variables tengamos mejor. los algoritmos genéticos (HOLLAND. Por otro lado. los sistemas expertos. más globales. ¿va asociado a otro acto? ¿Podemos inferir que determinados actos de compra suceden conjuntamente más de lo que sería esperable si fuesen independientes? ¿Puedo sugerir un cierto producto. Búsqueda de lo inesperado por descripción de la realidad multivariante. el análisis discriminante para la predicción de una variable nominal (FISHER. presentamos una lista de técnicas con una breve reseña. Friedman. Todo consumidor sigue un ciclo de necesidades que ocasionan actos de compra distintos a lo largo de su vida. etc. dado que en realidad todo tratamiento cuantitativo de datos históricos. pero los tipos de consumidores son un número mucho más limitado. la rentabilidad de un cliente) diremos que se trata de un problema de regresión. Para ello necesitaremos disponer de datos históricos con una serie de variables explicativas y la variable de respuesta que queremos predecir. Sin pretender ser exhaustivo. antecedente de las modernas redes neuronales (Rosemblat. Las muestras aleatorias son suficientes para describir la regularidad estadística global. para la toma de decisiones en los años setenta. Análisis Factoriales Descriptivos. Como mera ilustración de las aportaciones de ambas disciplinas al problema de la predicción. Lo cual también se verá favorecido por el hecho de trabajar con todos los datos. Para contestar deberemos construir un modelo. el principio de la parsimonia. A menudo la empresa requerirá hacer predicciones respecto el comportamiento futuro de un consumidor.else”. la siguiente es una lista ilustrativa: Detección de ciclos temporales. conviene tener claro de que no existe la técnica más inteligente. mientras que la Estadística está más preocupada por el poder de generalización de los resultados obtenidos. 68 . 1970). no existe una única técnica para solucionarlo. sino que puede ser abordado utilizando distintas aproximaciones. podemos decir que la Inteligencia Artificial ha estado más centrada en ofrecer soluciones algorítmicas con un costo computacional aceptable. poder inferir los resultados a situaciones más generales que la estudiada. 1986) . como día de la semana. LAS TÉCNICAS Cualquiera que sea el problema a tratar. permite incorporar variables técnicas que ayudan en la interpretación. el AID para la construcción de árboles de decisión (SONQUIST y MORGAN. ¿Qué probabilidad tiene un cliente de darse de baja en los próximos tres meses? ¿Cuál será la rentabilidad de un producto específico entre mi clientela? ¿Qué riesgo tengo de que no me paguen un producto adquirido a crédito?. Market Basket Analysis o análisis de la cesta de la compra.e.

. Son técnicas que parten de establecer una medida de proximidad entre individuos y a partir de ahí.. tal como son los datos recogidos por internet. VENTURI G. Previsión Local.Le data mining. SALEM A. Series Temporales. a partir de unos datos históricos almacenados. Addison-Wesley. Son modelos más generales que la simple regresión que permiten tratar diferentes tipos de variables de respuesta. . permite modelizar las componentes básicas de la serie. Es una de las técnicas más prometedoras. a fin de hacer que un potencial cliente vuelva a conectarse. EUB.Neural Networks for Pattern Recognition. En principio cualquier problema que se pueda plantear como la optimización de una cierta combinación entre distintos componentes. dando lugar al web mining. estando estas combinaciones sujetas a restricciones. de un tratamiento previo de los datos. queremos soslayar el carácter ético que debe presidir las relaciones entre las empresas y los consumidores. (1995).Exploring Textual Data. no sólo al análisis de datos históricos sino también a los datos almacenados recibidos “on line”. Permite aprender en contextos difíciles. Investigación y Marketing ■ Núm. Su principal ventaja es la facilidad de interpretación. A su vez los datos objeto del análisis también pueden ser textos. Wiley. Permiten obtener de forma visual las reglas de decisión bajo las que operan los consumidores. LINOFF G. BIBLIOGRAFÍA Algoritmos genéticos. La idea de base es que individuos parecidos tendrán comportamientos parecidos respecto de una cierta variable de respuesta. También aquí se simula el modelo biológico de la evolución de las especies. etc. (1998) . M. Para las personas interesadas en ampliar el tema y estar el día. en general. Más a largo plazo podrá utilizarse la voz o las imágenes. tablecer unas relaciones con los clientes beneficiosas para ambos. Inspiradas en el modelo biológico. Modelos Lineales Generalizados. Por último. En el futuro.. ciclo y estacionalidad y así poder hacer predicciones para el futuro. Su principal inconveniente es que para el usuario son una caja negra. tales como cifra de ventas. Técnicas de clustering. como por ejemplo la preferencia entre productos concurrentes en el mercado o bien variables de respuesta reflejando la probabilidad de compra de un cierto producto. LEFÉBURE R. LEBART L. Barcelona. sin precisar.com. cada vez existen modelos más flexibles que permiten hacer predicciones fiables en problemas más complejos (MARS). buscar los grupos de individuos más parecidos entre sí. La técnica consiste en situar los individuos en un espacio euclídeo y hacer predicciones de su comportamiento a partir del comportamiento observado en los vecinos. Permite establecer relaciones causales y proporcionar predicciones..Data mining techniques for marketing. 68 . La utilización de las frases realmente escritas por los clientes supone un enriquecimiento de los análisis usuales realizados con información numérica. BERRY E. que ya se está haciendo presente. (1999) . Eyrolles. dando lugar al text mining. BISHOP.. Kluwer. MORINEAU A. el campo de actuación del data mining se ampliará. BERRY M. sólo que a una velocidad infinitamente mayor.Aprender de los datos: el análisis de componentes principales. Oxford: Oxford University Press. puede resolverse mediante algoritmos genéticos. J. sales and customer support. ZANTIGE D. consumo de un producto. (1997) . en donde las técnicas de data mining son utilizadas para optimizar las interacciones a través de la web. Redes bayesianas. dado el potencial de conocimiento de los consumidores que las técnicas de data mining suponen. (1996) .Data mining. (1998) . Puede codificarse a partir del conocimiento de un experto o ser inferido a partir de los datos. A partir de la serie de comportamiento histórica. sino de establecer relaciones duraderas con los clientes basadas en la confianza mutua. Redes neuronales. A. Boston. Son generalizaciones de los modelos estadísticos clásicos.. Las técnicas de data mining deben ser utilizadas por la empresa de forma de es- Los nuevos retos de la estadística. A su vez. tendencia. ALUJA T. su novedad estriba en el apren- dizaje secuencial y sobre todo en la no linealidad. existe una web con una revista informática gratuita en http://www. una aproximación desde el data mining.. Consiste en representar todos los posibles acontecimientos en los que estamos interesados mediante un grafo con las probabilidades condicionales de transición entre acontecimientos. Árboles de decisión. J.ferentes al de las grandes superficies e incorporar el factor temporal. el Data Mining 38 ADRIAANS P. C.kdnuggets. No se trata de obtener beneficios de forma inmediata.