You are on page 1of 20

Q UESTII O , vol. 25, 3, p.

479-498, 2001

LA MINERIA DE DATOS, ENTRE LA ESTADISTICA Y LA INTELIGENCIA ARTIFICIAL


` TOMAS ALUJA Universitat Polit` cnica de Catalunya e

En la pasada d cada hemos asistido a la irrupci on de un nuevo concepto e en el mundo empresarial: el data mining (minera de datos). Algunas empresas han implementado unidades de minera de datos estrechamente vinculados a la direcci on de la empresa y en los foros empresariales las sesiones dedicadas a la minera de datos han sido las protagonistas. La minera de datos se presenta como una disciplina nueva, ligada a la In teligencia Articial y diferenciada de la Estadstica. Por otro lado, en el mundo estadstico m s acad mico, la minera de datos ha sido conside a e rada en su inicio como una moda m as, aparecida despu s de los sistemas e expertos, conocida desde haca tiempo bajo el nombre de data shing. Es esto realmente as? En este artculo abordaremos las races estads ticas de la minera de datos, los problemas que trata, haremos una pa nor mica sobre el alcance actual de la minera de datos, presentaremos a un ejemplo de su aplicaci on en el mundo de la audiencia de televisi on y, por ultimo, daremos una visi on de futuro. Data mining, between statistics and articial intelligence Palabras clave: Data mining, an lisis de datos, modelizaci n, inteligena o cia articial, KDD, redes neuronales, arboles de decisi n o Clasicaci n AMS (MSC 2000): 62-07, 68T10, 62P30 o
* Departamento de Estadstica e Investigaci n Operativa. Universitat Polit` cnica de Catalunya (UPC). o e E-mail: tomas.aluja@upc.es Recibido en abril de 2001. Aceptado en noviembre de 2001.

479

1. INTRODUCCION El almacenamiento de datos se ha convertido en una tarea rutinaria de los sistemas de informaci n de las organizaciones. Esto es a n m s evidente en las empresas de la nueva o u a economa, el e-comercio, la telefona, el marketing directo, etc. Los datos almacenados son un tesoro para las organizaciones, es donde se guardan las interacciones pasadas con los clientes, la contabilidad de sus procesos internos, representan la memoria de la organizaci n. Pero con tener memoria no es suciente, hay que pasar a la acci n intelio o gente sobre los datos para extraer la informaci n que almacenan. Este es el objetivo de o la Minera de Datos. En primer lugar situemos la minera de datos a partir de algunas deniciones que se ha dado sobre la misma: Data Mining: the process of secondary analysis of large databases aimed at nding unsuspected relationships which are of interest or value to the database owners (Hand, 1998) Iterative process of extracting hidden predictive patterns from large databases, using AI technologies as well as statistics techniques (Mena, 1999) La ultima, sin ser la denici n m s popular, enfatiza, sin embargo, cu les son las races o a a de la minera de datos: la Inteligencia Articial (en particular Machine learning) y la Estadstica. Si buscamos a su vez deniciones de estas dos disciplinas: Machine learning: a branch of AI that deals with the design and application of learning algorithms (Mena, 1999) Estadstica: a branch of Applied Mathematics, and may be regarded as mathematics applied to observational data . . . Statistics may be regarded as 1. the study of populations 2. the study of variation 3. the study of methods of the reduction of data (Fisher, 1925) methodology for extracting information from data and expressing the amount of uncertainity in decisions we make (C. R. Rao, 1989). Observemos que ya en 1925, Sir R. Fisher consider la estadstica bajo tres opticas o diferentes, como el estudio de poblaciones, lo cual est en el propio origen de la discia plina, como el estudio de la variabilidad que permite la modelizaci n de los fen menos o o 480

teniendo en cuenta la aleatoriedad presente en la naturaleza y como m todos de sntesis e de la informaci n contenida en los datos. La denici n m s moderna de C. R. Rao pero o a mite resaltar las coincidencias con la denici n de minera de datos presentada m s o a arriba. Es claro que para cualquier persona vinculada con la estadstica puede hablarse de dos tipos de estadstica, una que podemos denominar Estadstica Exploratoria ( Data Analysis) y otra que podemos denominar Estadstica Inferencial ( modelling). Si bien las fronteras entre ambos tipos de estadstica no siempre es f cil de establecer, a y a menudo la primera se presenta como la fase previa de la segunda (Cox & Snell, 1982) (Rao, 1989), existe una diferencia conceptual importante entre ambos tipos de Estadstica. La Estadstica Inferencial se reere al paradigma central del quehacer estadstico, esto es, decidir entre varias hip tesis a partir de las consecuencias obser o vadas. Consiste en incorporar la aleatoriedad dentro de la decisi n (ya sea en su forma o param trica mediante el razonamiento deductivo para delucidar la verosimilitud de cada e hip tesis o por m todos computacionales). o e Data analysis tiene un sentido muy general de estadstica aplicada (con una con notaci n de aproximaci n pragm tica e informatizada). Jean Paul Benzecri expresaba o o a perfectamente el espritu de este enfoque cuando armaba en sus cursos de 1965 que le mod` le doit suivre les donn es et non linverse (si bien Data Analysis es m s e e a amplio que el equivalente franc s de analyse des donn es, el cual queda circunscrito e e a An lisis Multivariante Exploratorio). En este enfoque, no se trata de no tener en cuena ta la naturaleza aleatoria de los datos (es obvio, por ejemplo, que cuando se seleccionan las componentes principales signicativas para realizar una clasicaci n se est trao a tando de eliminar la parte aleatoria de los datos), sino que primero son los datos y es a partir de estos que se busca manifestar la informaci n relevante para los problemas o planteados. Se puede constatar, sin embargo, que muchos de los problemas abordados en An lisis a de Datos son comunes con la Inteligencia Articial. Estas dos disciplinas, como a menudo sucede en el entorno acad mico, se han desarrollado la una a espaldas de la otra, e dando lugar a nomenclaturas totalmente diferentes para problemas iguales. La Tabla 1, elaborada por el profesor L. Lebart, muestra las equivalencias para el problema de la predicci n con redes neuronales. o Resumiendo mucho, podemos decir que la Inteligencia Articial ha estado m s preocua pada en ofrecer soluciones algortmicas con un coste computacional aceptable, mientras que la Estadstica se ha preocupado m s del poder de generalizaci n de los resultados a o obtenidos, esto es, poder inferir los resultados a situaciones m s generales que la estua diada.

481

Tabla 1. Equivalencias de nomenclatura entre la Estadstica y la Inteligencia Articial para el problema de predicci n por redes neuronales. o Inteligencia Articial red (network) ejemplos (patterns) features, inputs, outputs inputs outputs, targets errores training, learning funci n de error, coste o pesos, coef. sin pticos a aprendizaje supervisado aprenendizaje no supervisado Estadstica modelo observaciones, individuos variables variables explicativas variables de respuesta residuos estimaci n o criterio de ajuste par metros a regresi n, discriminaci n o o clasicaci n o

Como mera ilustraci n de las aportaciones de ambas disciplinas al problema de la preo dicci n, se alemos los hitos hist ricos de la regresi n para la predicci n de una variao n o o o ble continua (Galton, 1890), el an lisis discriminante para la predicci n de una variable a o nominal (Fisher, 1937), el AID para la construcci n de arboles de decisi n (Sonquist o o y Morgan, 1964), MARS (Friedman, 1991)... en Estadstica, mientras que en el campo de la Inteligencia Articial podemos citar el perceptr n, antecedente de las modernas o redes neuronales (Rosemblat, 1958), los sistemas expertos, secuencias de reglas if then else, para la toma de decisiones en los a os setenta, los algoritmos gen ticos n e (Holland, 1970), tambi n los arboles de decisi n (Quinlan, 1986)... e o 1.1. Nuevos problemas La progresiva utilizaci n de los avances tecnol gicos por las empresas e instituciones o o hace aparecer nuevas colectas de datos y nuevos problemas. Development in hardware have contributed to statistics by giving us many new and interestings sorts of data to analyse. Data have been able to be captured and stored quickly and cheaply by spectrometers, telescopes, process measuring devices, . . . From these instruments have come new research problems. New applications have not arisen in science alone. Hardware changes have led to sophisticated point-of-sales terminals, bar-code readers and the ability to store and recall the huge volumes of data that are constantly being collected in warehouses, retail stores, government departments and nancial institutions. Attempts to use such data to improve business performance have led to the eld of data mining (Cameron, 1997). 482

Un campo privilegiado de aplicaci n de las t cnicas de minera de datos es el marketing, o e concretamente todo aquello que se agrupa bajo el nombre de CRM (costumer relationship management), donde el objetivo es conocer lo mejor posible los clientes para poder satisfacerlos mejor y asegurar as la rentabilidad de las empresas. Problemas tales como estimar el potencial econ mico de los clientes, modelizar la probabilidad de baja, meo dir la satisfacci n por el servicio, descubrir nuevos segmentos de clientes potenciales, o etc., son problemas que los responsables de la acci n comercial de las empresas deben o afrontar. Pero no s lo las empresas o las instituciones son generadoras de nuevos problemas que o afrontar, otros campos cientcos tambi n generan nuevos problemas donde la minera e de datos se convierte en imprescindible, tales como las investigaciones originadas a raz del proyecto Genoma, qu secuencias de genes motivan la aparici n de enfermedades?, e o lo hacen de forma determinista o en probabilidad? Tambi n la informaci n transmitida e o por sat lite puede proporcionar avances a fen menos hasta hoy difciles de explicar, e o tales como la vulcanologa, los terremotos o el clima, etc. La Tierra est dejando de a ser el marco de referencia unico para serlo cada vez m s el sistema solar, como lo a prueba la inuencia que tienen las erupciones solares en las telecomunicaciones va sat lite. Otros campos de gran actualidad son encontrar m todos de predicci n ables, e e o r pidos y baratos sobre la composici n de los alimentos a partir del an lisis del espectro a o a infrarrojo de estos alimentos u otros an lisis qumicos. a Todo esto comporta la necesidad de tratar tablas de datos complejos y de tama o iniman ginable hasta ahora. Esta situaci n es nueva para el estadstico y bastante alejada de la o cl sica muestra aleatoria de observaciones independientes formada por algunas decenas a de variables y unos cuantos millares de individuos. Tal como se ala D. Hand (1998), n ahora los datos son secondary, messy, with many missings, noisy and not representative. Esto supone un reto para la estadstica que obligar a repensar los esquemas a cl sicos de la inferencia estadstica y de signicaci n de los resultados observados. Si a o bien el nivel de signicaci n sheriano continua siendo v lido para detectar la discreo a pancia entre los datos observados y la hip tesis formulada, es obvio que el orden de o magnitud de los p-value es ahora muy inferior al acostumbrado. Tambi n es claro e que en este contexto cobran renovada importancia los m todos de inducci n computae o cionales, de simulaci n por Monte Carlo, bootstrap, etc. o

2. QUE PROBLEMAS ABORDA LA MINERIA DE DATOS? Cualquier problema para el que existan datos hist ricos almacenados es un problema o susceptible de ser tratado mediante t cnicas de Minera de Datos. Sin pretender ser e exhaustivos la siguiente es una lista ilustrativa:

483

B squeda de lo inesperado por descripci on de la realidad multivariante. Un principio u cl sico de la Estadstica, el principio de la parsimonia, ya no es ahora v lido (si bien a a siempre ser n preferibles los modelos simples). Para describir un fen meno cuantas a o m s variables tengamos mejor, m s ricas, m s globales y m s coherentes ser n las a a a a a descripciones y m s f cil ser detectar lo inesperado, esto es, aquello que no habamos a a a previsto y que resulta valioso para entender mejor el comportamiento de alg n grupo u de individuos, lo cual se ve favorecido por el hecho de trabajar con muestras grandes. Las muestras aleatorias son sucientes para describir la regularidad estadstica global, pero no para detectar comportamientos particulares de subgrupos. B squeda de asociaciones. Un cierto suceso, est asociado a otro suceso?, podemos u a inferir que determinados sucesos ocurren simultaneamente m s de lo que seria espea rable si fuesen independientes?, es posible sugerir un producto, sabiendo que otro ha sido adquirido? Denici n de tipologas. Los consumidores son, a efectos pr cticos, innitos, pero los o a tipos de consumidores distintos son un n mero mucho m s peque o. Detectar estos u a n tipos distintos, su perl de compra y proyectarlos sobre toda la poblaci n, es una opeo raci n imprescindible a la hora de programar una poltica de marketing. Por otro lado, o las tipologas no tienen que ser necesariamente de consumo, pueden ser de opiniones, valores, condiciones de vida, etc. Detecci n de ciclos temporales. Todo consumidor sigue un ciclo de necesidades que o ocasionan actos de compra distintos a lo largo de su vida. Detectar los diferentes ciclos y la fase donde se sit a cada consumidor ayudar a crear complicidades y adecuar la u a oferta de productos a las necesidades y crear delizaci n. o Predicci n. A menudo deberemos efectuar predicciones: cu l es la probabilidad de o a baja de un cliente?, cu l es el precio de una vivienda concreta?, llover ma ana? Esa a n tas y muchas m s son preguntas que deberemos responder, para ello construiremos un a modelo a partir de los datos hist ricos. Si la variable de respuesta es continua (p. e. o la rentabilidad de un cliente) diremos que se trata de un problema de regresi n, mieno tras que si la variable de respuesta es categ rica (p. e. la compra o no de un producto) o diremos que se trata de un problema de clasicaci n. o

3. LAS TECNICAS En general, cualquiera que sea el problema a resolver, no existe una unica t cnica pa e ra solucionarlo, sino que puede ser abordado siguiendo aproximaciones distintas. El n mero de t cnicas es muy grande y s lo puede crecer en el futuro. Tambi n aqu, sin u e o e pretender ser exhaustivos, la siguiente es una lista de t cnicas con una breve rese a. e n

484

An lisis Factoriales Descriptivos. Permiten hacer visualizaciones de realidades mula tivariantes complejas y, por ende, manifestar las regularidades estadsticas, as como eventuales discrepancias respecto de aquella y sugerir hip tesis de explicaci n. o o Market Basket Analysis o an lisis de la cesta de la compra. Permite detectar qu proa e ductos se adquieren conjuntamente, permite incorporar variables t cnicas que ayudan e en la interpretaci n, como el da de la semana, localizaci n, forma de pago. Tambi n o o e puede aplicarse en contextos diferentes del de las grandes supercies, en particular el e-comercio, e incorporar el factor temporal. T cnicas de clustering. Son t cnicas que parten de una medida de proximidad entre e e individuos y a partir de ah, buscar los grupos de individuos m s parecidos entre s, a seg n una serie de variables mesuradas. u Series Temporales. A partir de la serie de comportamiento hist rica, permite modelizar o las componentes b sicas de la serie, tendencia, ciclo y estacionalidad y as poder hacer a predicciones para el futuro, tales como cifra de ventas, previsi n de consumo de un o producto o servicio, etc. Redes bayesianas. Consiste en representar todos los posibles sucesos en que estamos interesados mediante un grafo de probabilidades condicionales de transici n entre suo cesos. Puede codicarse a partir del conocimiento de un experto o puede ser inferido a partir de los datos. Permite establecer relaciones causales y efectuar predicciones. Modelos Lineales Generalizados. Son modelos que permiten tratar diferentes tipos de variables de respuesta, por ejemplo la preferencia entre productos concurrentes en el mercado. Al mismo tiempo, los modelos estadsticos se enriquecen cada vez m s y a se hacen m s exibles y adaptativos, permitiendo abordar problemas cada vez m s a a complejos: (GAM, Projection Pursuit, PLS, MARS, . . . ). Previsi n local. La idea de base es que individuos parecidos tendr n comportamientos o a similares respecto de una cierta variable de respuesta. La t cnica consiste en situar los e individuos en un espacio eucldeo y hacer predicciones de su comportamiento a partir del comportamiento observado en sus vecinos. Redes neuronales. Inspiradas en el modelo biol gico, son generalizaciones de modelos o estadsticos cl sicos. Su novedad radica en el aprendizaje secuencial, el hecho de uti a lizar transformaciones de las variables originales para la predicci n y la no linealidad o del modelo. Permite aprender en contextos difciles, sin precisar la formulaci n de un o modelo concreto. Su principal inconveniente es que para el usuario son una caja negra. Arboles de decision. Permiten obtener de forma visual las reglas de decisi n bajo las o cuales operan los consumidores, a partir de datos hist ricos almacenados. Su principal o ventaja es la facilidad de interpretaci n. o

485

Algoritmos gen ticos. Tambi n aqu se simula el modelo biol gico de la evoluci n de e e o o las especies, s lo que a una velocidad innitamente mayor. Es una t cnica muy promeo e tedora. En principio cualquier problema que se plantee, como la optimizaci n de una o combinaci n entre distintas componentes, estando estas componentes sujetas a restrico ciones, puede resolverse mediante algoritmos gen ticos. e Un enriquecimiento de las posibilidades de an lisis son los sistemas hbridos, esto es, la a combinaci n de dos o m s t cnicas para mejorar la eciencia en la resoluci n de un proo a e o blema, como por ejemplo, utilizar un algoritmo gen tico para inicializar una red neuroe nal, o bien utilizar un arbol decisi n como variable de entrada en una regresi n logstica. o o En el futuro, el campo de actuaci n de la minera de datos no puede sino crecer. En o particular debemos mencionar en estos momentos el an lisis de datos recibidos por ina ternet y on line, dando lugar al web mining, donde las t cnicas de data mining se e utilizan para optimizar las interacciones a trav s de la web. Cu les son las secuencias e a de p ginas m s visitadas?, qu p ginas visitan los que compran?, los que compran, a a e a vuelven a conectarse?, cuales son las killer pages?, una vez efectuada una adquisici n, qu productos puedo sugerir?, son algunas de las preguntas que los responsables o e de comercio electr nico de las empresas se est n formulando en estos momentos. o a Tambi n los datos objeto de an lisis pueden ser textos, dando lugar al text mining. Esto e a es particularmente util en el an lisis de las encuestas de satisfacci n percibida por los a o usuarios. La utilizaci n de las frases realmente escritas supone un enriquecimiento de o los an lisis realizados s lo con informaci n num rica. Tambi n la utilizaci n del text a o o e e o mining para la sntesis y la presentaci n de la informaci n encontrada en la web es o o un campo actual de investigaci n. M s a largo plazo podr n utilizarse la voz o las o a a im genes. a Otra de las nuevas vas de investigaci n es el fuzzy mining, esto es, la utilizaci n de o o las t cnicas de minera de datos con objetos simb licos, que representen m s dedige o a namente la incertidumbre que se tiene de los objetos que se estudian. La tendencia actual m s prometedora sera la de integrar los dos puntos de vista, proa vinientes de la estadstica y de la Inteligencia Articial, en las soluciones algortmicas propuestas, de forma de aprovechar los puntos fuertes de ambas disciplinas. En consecuencia los algoritmos deberan contemplar las dos siguientes propiedades b sicas: a Poder de generalizaci on a poblaciones diferentes de la observada. Lo cual implica im plementar t cnicas ecientes de validaci n de resultados, ya sea a partir del conocie o miento de la distribuci n muestral de los estadsticos del modelo o por m todos como e putacionales como la validaci n cruzada, etc. o Escalabilidad. Dado el volumen de datos a tratar, el coste de los algoritmos ha de ser todo lo lineal que sea posible respecto de los par metros que denen el coste, en partia cular respecto del n mero de individuos. u

486

4. COMPARACION DE TECNICAS Una pregunta que nos podemos formular es cu l es el mejor m todo para resolver a e un problema. La experiencia nos muestra que excepto ciertos problemas especcos y difciles, la mayora de problemas abordados en minera de datos dan resultados com parables cualquiera que sea la t cnica utilizada. Hemos realizado una prueba con un e chero de 4000 individuos y 15 variables para explicar dos variables de respuesta sobre la adquisici n de un cierto producto, el primero es un producto que podramos calicar o de relativamente f cil de predecir, mientras que el segundo es claramente m s difcil. a a Hemos efectuado la predicci n de ambas variables mediante 4 t cnicas alternativas: o e

An lisis Discriminante a Redes neuronales Arboles de decisi n o Regresi n Logstica o

Para medir la calidad de la predicci n por cada m todo, hemos seleccionado al azar o e 4 muestras de 1000 individuos cada una como muestras de aprendizaje, utilizando los 3000 restantes como muestra de validaci n. Para cada m todo hemos realizado 3 ejecuo e ciones cambiando ligeramente los par metros del modelo. Por tanto, en total disponea mos de 12 ejecuciones por m todo. Tomando el promedio de la probabilidad de acierto e en las muestras de aprendizaje y en las de validaci n obtenemos los resultados que se o muestran en la Tabla 2:

Tabla 2. Comparaci n de la probabilidad de acierto seg n 4 m todos de predicci n. o u e o Problema 1 An lisis Discriminante a Redes Neuronales Arboles de Clasicaci n o Regresi n logstica o Problema 2 An lisis Discriminante a Redes Neuronales Arboles de Clasicaci n o Regresi n logstica o Apren. 71.13% 71.63% 72.94% 74.18% Apren. 62.18% 62.29% 62.70% 65.28% Test 69.71% 69.12% 70.31% 71.33% Test 61.39% 60.19% 61.03% 59.36%

487

Observando los resultados vemos que las probabilidades de acierto en la muestra de validaci n son bastante parecidas para los cuatro tipos de modelos utilizados. o

5. EJEMPLO DE APLICACION. DEFINICION DE TARGETS COMPORTAMENTALES DE CONSUMO TELEVISIVO Las innovaciones tecnol gicas en el mundo audiovisual, producen el almacenamiento o de una cantidad ingente de datos. El an lisis de estos datos permite una mejora en la a toma de decisiones por parte de las organizaciones implicadas. En audiometra se dispone de informaci n minuto a minuto de la audiencia realizada o por un panel de familias. Estas observaciones pasan por un proceso de validaci n y o enriquecimiento a partir de los datos sociodemogr cos disponibles sobre los panelistas a y por el minutado de programas y spots. Posteriormente, la muestra obtenida se afecta con un factor de elevaci n para obtener datos a nivel poblacional. o El problema planteado es el de denir targets compuestos explicativos del consumo de programas del g nero Revistas del coraz n, el cual ha experimentado un notable e o aumento en los ultimos a os en la programaci n televisiva. n o Los datos analizados han sido todos los programas de este g nero emitidos durante e el a o 1997. La variable de respuesta ha sido los minutos semanales de visi n de los n o programas de tipo rosa, en las cadenas estatales y para todos los individuos mayores de 3 a os. Las variables explicativas son todas las sociodemogr cas. n a En el a o 1997 se realizaron un total de 707 emisiones para este tipo de programas con n una audiencia promedio de 32 minutos semanales por individuo. El inter s del problema planteado es claro, tanto para las propias Televisiones y Produce toras, como t cnica alternativa para denir targets anes a cualquier programa, como e para las empresas de publicidad, anunciantes, agencias o centrales, al poder efectuar un matching entre los targets de consumo televisivo con el target consumidor del producto anunciado y as poder ser introducido en un sistema de media-planing para la compra de publicidad. Cl sicamente, este problema se soluciona mediante t cnicas estadsticas simples, coa e mo es la distribuci n por variable o an lisis de perles simples. La simplicidad de esta o a t cnica es su principal ventaja. As, por ejemplo, en el histograma de la Figura 1, mose trando el perl de la audiencia de dibujos animados respecto de la edad, es clara la preferencia del segmento de ni os (4 a 15 a os) de este tipo de programas, pero tamn n bi n se observa una cierta anidad con el segmento de personas jubiladas (m s de 65 e a a os). El histograma no revela si esta anidad es propia del segmento o es debida a la n presencia de ni os en el hogar. n

488

100 80 60 40 20 0
4 a 15 16 a 24 25 a 29 30 a 44 45 a 64 65 o +

Figura 1. Perl de audiencia de dibujos animados seg n la edad. u

Una forma de obtenci n directa de targets compuestos del consumo televisivo de los o programas rosa, es la utilizaci n de arboles de decisi n para explicar la audiencia de o o este tipo de programas. Escogemos esta metodologa por su aplicabilidad inmediata de los resultados obtenidos. Estos resultados se obtienen de forma visual. La Figura 2 esquematiza el proceso de Minera de Datos en audiometra.

Figura 2. Sistema de KDD en audiometra.

El proceso de generaci n de un arbol es un proceso iterativo. Empieza situando toda o la muestra disponible en el nodo raz, a partir del cual, por sucesivas particiones, se obtienen las ramas del arbol hasta los nodos terminales u hojas, formadas por conjuntos de individuos que han visto un n mero similar de minutos los programas rosa. u

489

Figura 3. Ejemplo de arbol de decisi n. o

El algoritmo de construcci n de un arbol de decisi n implementa el siguiente bucle: o o Hacer para cada nodo: 1. 2. 3. 4. Vericar el criterio de parada del proceso en el nodo. Denir la lista de todas las particiones posibles del nodo. Seleccionar la partici n optima. o Generar la partici n seleccionada. o

La Figura 3 ilustra las primeras particiones del arbol generado. El arbol obtenido ilustra bien el proceso seguido, cada nodo da el n mero de individuos u que contiene y el promedio de audiencia de estos individuos en los programas rosa. La obtenci n visual de los resultados permite a su vez su crtica, en efecto, la programaci n o o ofrecida por cada cadena condiciona la visi n que puede hacerse de sus programas. o Existen varios algoritmos para la construcci n de arboles de decisi n: AID, CHAID, o o CART, C4.5. La diferencia b sica es, aparte del hecho de que los arboles generados a sean binarios o n-arios, la denici n de la partici n optima de un nodo. Ciertamente o o seleccionar la partici n optima implica previamente denir un criterio de optimalidad. o Nosotros expresamos el criterio a optimizar en funci n de la pureza del nodo it , deo nida por la siguiente f rmula: o it

wit i mt
it

wit
it

490

Funci n de los pesos de los individuos w it del nodo y de las distancias de estos indivio duos al representante del nodo m t .
e2

0 1 0
2 m 1 e1 3

1 0 0

e3

0 0 1

Para el caso de variables de respuesta continuas y utilizando la m trica eucldea (norma e o o L2 ), la f rmula anterior se reduce a la conocida f rmula de la variancia de la variable de respuesta (yi ) en el nodo: yi yt 2 nt En este caso es obvio que efectuar una partici n de un nodo implica descomponer la o variancia total (VT ) del nodo original en dos componentes, una es la variancia intra (V w ) y la otra es la variancia inter (Vb ): VT Vb Vw it
it

Por tanto, maximizar la pureza de los nodos hijos implica minimizar V w y por consiguiente maximizar Vb , esto es, encontrar dos nodos con la diferencia de medias lo m s a signicativa posible (teorema de Huyghens). El otro criterio a vericar en cada nodo es el criterio de parada, ya que en caso contrario podemos hacer crecer un arbol hasta que todos los nodos sean puros o contengan un solo individuo. Es evidente que entonces habramos sobreparametrizado el arbol. Cuanto m s avanzamos en la construcci n del arbol, menos ables son las particiones a o que se obtienen. Una manera de evitar esto es utilizar una t cnica de validaci n como e o criterio de parada. Cuando se produzcan diferencias signicativas entre la muestra de aprendizaje y la de validaci n, signica que las particiones no son estables. o La gura 5 muestra la calidad del arbol en funci n de su tama o. En la muestra de o n aprendizaje esta medida es siempre mon tona creciente, mientras que en la muestra de o 491

Figura 5. Calidad de un arbol en funci n de su tama o. o n

validaci n, a partir de un cierto tama o se estabiliza y puede llegar a decrecer, indicando o n que las particiones efectuadas m s all de este nivel son producto del azar. a a

6. CONCLUSIONES La experiencia pr ctica muestra claramente la aptitud de las t cnicas de minera de datos a e para resolver problemas empresariales. Tambi n es clara su aportaci n para resolver e o problemas cientcos que impliquen el tratamiento de grandes cantidades de datos. La minera de datos es, en realidad, una prolongaci n de una pr ctica estadstica de lar o a ga tradici n, la de An lisis de Datos. Existe, adem s, una aportaci n propia de t cnicas o a a o e especcas de Inteligencia Articial, en particular sobre la integraci n de los algorit o mos, la automatizaci n del proceso y la optimizaci n del coste. o o A diferencia de la IA, que es una ciencia joven, en Estadstica se viene aprendiendo de los datos desde hace m s de un siglo, la diferencia consiste que ahora existe la potencia a de c lculo suciente para tratar cheros de datos de forma masiva y autom tica. Esta a a es una realidad que cada vez ser m s habitual. Sin abandonar ninguno de los campos a a previamente abordados, la Estadstica ha evolucionado de ocuparse de la contabilidad de los estados a ser la metodologa cientca de las ciencias experimentales, hasta ser un problem solver para las organizaciones modernas. Es por esta raz n el enfasis dado o a que los resultados sean accionables. Por otro lado y en relaci n a la amplia panoplia de t cnicas disponibles, conviene tener o e claro de que no existe la t cnica m s inteligente, sino formas inteligentes de utilizar e a una t cnica y que cada uno utiliza de forma inteligente aquello que conoce. Tambi n e e que para la mayora de problemas no existen diferencias signicativas en los resultados obtenidos.

492

Por todo lo dicho, es nuestra opini n de que la minera de datos no es una moda pasajera, o sino que se entronca en una vieja tradici n estadstica y que cada vez m s debe servir o a para hacer m s eciente el funcionamiento de las organizaciones modernas, ayudar a a resolver problemas cientcos y ampliar los horizontes de la Estadstica.

7. BIBLIOGRAFIA Adriaans, P. & Zantige, D. (1996). Data mining. Addison-Wesley. Aluja, T. & Morineau, A. (1999). Aprender de los datos: el an alisis de componentes principales, una aproximaci on desde el data mining. EUB. Barcelona. Aluja, T. & Nafria, E. (1996). Automatic segmentation by decision trees. Proceedings on Computational Statistics COMPSTAT 1996, ed. A. Prat. Physica Verlag. Aluja, T. & Nafria, E. (1998a). Robust impurity measures in Decision Trees. Data Science, Classication and related methods, ed. C. Hayashi, N. Ohsumi, K. Yajima, Y. Tanaka, H-H. Bock and Y. Baba. Springer. Aluja, T. & Nafria, E. (1998b). Generalised impurity measures and data diagnostics in decision trees. Visualising Categorical Data, ed. J rg Blasius and M. Greenacre. o Academic Press. Aluja, T. (2000). Los nuevos retos de la estadstica, el Data Mining. Investigaci on y Marketing, 68, 3, 34-38. AEDEMO. Benz cri, J.-P. & coll. (1973). La Taxinomie, Vol. I, LAnalyse des Correspondances, e Vol. II, Dunod, Paris. Berry, M. J. A. & Linoff, G. (1997). Data mining techniques for marketing, sales and customer support. J. Wiley. Beveridge, W. H. (1944). Full employed in a free society. George Allen and Unwin. Bishop, C. M. (1995). Neural Networks for Pattern Recognition, Oxford: Oxford University Press. Booker, L. B., Goldberg, D. E. & Holland, J. H. (1989). Classier systems and genetic algorithms. Springer-Verlag. Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classication and Regression Trees. Waldsworth International Group, Belmont, California. Cameron, M. (1997). Current inuences of Computing on Statistics. International Statistical Review, 65, 3, 277-280. Celeux, G. (Ed.) (1990). Analyse discriminante sur variables continues, coll. didactique, INRIA. Celeux, G. & Lechevallier, Y. (1982). M thodes de Segmentation non Param trie e ques. Revue de Statistique Appliqu ee, XXX(4), 39-53. 493

Celeux, G. & Nakache, J. P. (1994). Analyse discriminante sur variables qualitatives. Polytechnica. Ciampi, A. (1991). Generalized Regression Trees. Computational Statistics and Data Analysis, 12, 57-78. North Holland. Cox, D. R. & Snell, E. J. (1982). Applied Statistics. Principles and Examples. Chapman and Hall. Elder, J. F. & Pregibon, D. (1996). A statistical perspective on Knowledge Discovery in Databases. Advances in Knowledge Discovery and Data Mining, 83-116. AAAI Press. Fayad, U. M., Piatetsky-Shapiro, G. & Smuth, P. (1996). From Data Mining to Knowledge Discovery: an overview. Advances in Knowledge Discovery and Data Mining, 1-36. AAAI Press. Fisher, R. A. (1925). Statistical Methods, Experimental Design and Scientic Inference. Oxford Science Publications. Friedman, J. H. (1991). Multiple Adaptative Regression Splines. Annals of Statistics 19, 1-141. Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning. Addison Wesley. Greenacre, M. (1984). Theory and Application of Correspondence Analysis. Academic Press. Gueguen, A. & Nakache, J. P. (1988). M thode de discrimination bas e sur la conse e truction dun arbre de d cision binaire. Revue de Statistique Appliqu ee, XXXVI e (1), 19-38. Hand, D. J. (1997). Construction and Assessment of Classication Rules. J. Wiley. Hand, D. J. (1998). Data Mining: Statistics and more?. The American Statistician, 52, 2, 112-118. Hand, D., Mannila, H. & Smyth, P. (2001). Principles of Data Mining. The MIT Press. Hastie, T. & Tibshirani, R. (1990). Generalized Additive Models, Chapman & Hall. Hastie, T., Tibshirani, R. & Friedman, J. (2001). The Elements of Statistical Learning: Data Mining, Inference and Prediction. Springer. Kass, G. V. (1980). An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics, 29, 2, 119-127. Lebart, L., Morineau, A. & Piron, M. (1995). Statistique exploratoire multidimensionnelle, Dunod, Paris. Lebart, L., Salem, A. & Berry, E. (1998). Exploring Textual Data, Kluwer, Boston. Lebart, L. (1998). Correspondence Analysis, Discrimination and Neural Networks. Data Science, Classication and related methods, ed. C. Hayashi, N. Ohsumi, K. Yajima, Y. Tanaka, H-H. Bock and Y. Baba. Springer. 494

Lef bure, R. & Venturi, G. (1998). Le data mining. Eyrolles. e McCullagh, P. & Nelder, J. A. (1986). Generalized Linear Models. Chapman and Hall. Mena, J. (1999). Data Mining your website. Digital Press. Mola, F. & Siciliano, R. (1992). A two-stage predictive splitting algorithm in binary segmentation. Computational Statistics, 1. Y. Dodge and J. Whittaker ed. Physica Verlag. Murthy, S. K. (1998). Automatic Construction of Decision Trees from Data: A MultiDisciplinary Survey. Data Mining and Knowledge Discovery, 2, 345-389. Quinlan, J. (1988). C4.5: Programs for machine learning. Morgan Kaufman. Rao, C. R. (1989). Statistics and Truth. CSIR, New Delhi. Ripley, B. D. (1996). Neural Networks and pattern recognition. Wiley, New York. Sarle, W. S. (1994). Neural Networks and Statistical Models. Proc. 9 th . Annual SAS Users Group International Conference. SAS Institute. Sonquist, J. A. & Morgan, J. N. (1964). The Detection of Interaction Effects. Ann Arbor: Institute for Social Research. University of Michigan.

495

ENGLISH SUMMARY
DATA MINING, BETWEEN STATISTICS AND ARTIFICIAL INTELLIGENCE
` TOMAS ALUJA Universitat Polit` cnica de Catalunya e

In the last decade a new concept had raised in the entrepreneurial side: data mining. Some companies have created data mining units directly linked to the CRM direction and in the professional forums data mining sessions have gained appeal. Data mining has appeared as a new discipline linked to Machine Learning, Articial Intelligence and Data Bases, clearly differentiated from Statistics. On the other side, on the well-established statistics academia, data mining has been seen as the last fashion of a bad-known trend of data shing and data dredging. Is it really so? In this paper we will focus on the statistical roots of data mining, we will try to make and overview of the actual scope of data mining, we will present an application in the TV audience measure and we give some insights for the next future. Keywords: Data mining, data analysis, modelling, articial intelligence, KDD, neural networks, decision trees AMS Classication (MSC 2000): 62-07, 68T10, 62P30

* Department of Statistics and Operations Research. Technological University of Catalonia (UPC). E-mail: tomas.aluja@upc.es Received April 2001. Accepted November 2001.

496

Statistics had risen in the beginning of XX century as a response to problems of society. Problems like dening a optimum fertiliser, the optimal conditions of production in an industry or assessing the effect of a drug, etc. Innovation always occurred due to stated problems. Anyway, we shall agree that statistics has been manipulating data for a most part of XX century without having a real computer device. Also a certain style of statistics installed in academia favoured a theoretical concept of the discipline. Nowadays, development in hardware have contributed to new and interesting sorts of data to analyse, which statistics should face. One of this problem is to come into knowledge the information hidden in the stored data by the information systems put in work for companies in the last two decades, coming up what is called the eld of data mining. It is no question to analyse small data les, but gigas or terabytes of data, with a precise goal, to take a managerial decision. This caused the appearance of data mining units in rms and its increasing interest in scientic meetings which devoted sessions to data mining. Anyway, data mining appeared linked to Articial Intelligence, mainly machine learning, disciplines. Whereas it was considered by statisticians as a new version of the bad-known data shing or data dredging. It is really so?. I will establish that data mining stems from an old statistics tradition. In fact statistics lump together what can be called data analysis and inferential statistics, the rst being the rst phase for the second (Cox, 1982, Rao, 1989). The difference between both approaches was wisely stated by Benzecry in his courses of 1964, data is rst, then follows the model, whereas for the inferential approach it is just the opposite. This is a sound difference, but it is clear that new problems arise, from the retail bar-code readers, transactions with a banking card, calls from a mobile telephone, or from the genome project, or satellite data, etc. This data very often is, as D. Hand (1998) pointed out, very large (huge), secondary, messy, with many missings, noisy and not representative. But it is absolute clear that statistics could play a central role for handling their associated uncertainty. These problems constitute a challenge for statisticians, pushing them to think again statistics, in particular the central issue of the tests of signicance, and also to establish bridges of co-operation with our competitors of Articial Intelligence, taking advantage of the strongness of both disciplines. Scientic disciplines, splitted in locked knowledge areas, have been developing isolated ones from others, leading to apparent different disciplines for the same problems. Here we show this applied to the case of Statistics and Articial Intelligence, following the L. Lebart theory of two languages. Finally we present a data mining application to the problem of nding good targets for TV program audience using decision trees. Decision trees, although they are not within the best classier performers, like neural networks, generalised linear models, support vector machines, etc. have the appeal of being directly actionable, which in practice can overcome its shortcoming. Also for not very complex problems there is very little difference among different methods, making trees very useful for managerial applications. We follow the previously presented methodology (Aluja et al, 1998b) of building stable trees taking into account the individual contribution to impurity whithin the CART framework of tree building (Breiman et al, 1984).

497

Finally a point of humility from lord William Beveridge (1940) in this starving for knowledge: Nobody believes a theory, except the one that has formulated it. Everybody believes a gure, except the one who has calculated it.

498