DM Marketing

COMERCIALIZACIN
LA MINERA DE DATOS COMO HERRAMIENTA DE MARKETING: DELIMITACIN Y MEDIDAS DE EVALUACIN DEL RESULTADO
Jos Alberto Castaeda Garca (jalberto@ugr.es) Miguel ngel Rodrguez Molina (rmolina@ugr.es) Universidad de Granada Facultad de CC. EE. y EE. Dpto. Comercializacin e Investigacin de Mercados Campus Cartuja, s/n 18071 Granada RESUMEN La minera de datos (data mining) est siendo utilizada cada da ms en los negocios, y apareciendo con ms frecuencia en trabajos acadmicos, lo que justifica la aproximacin que aqu realizamos. El trabajo pretende abordar una delimitacin del concepto minera de datos a travs de su definicin y concrecin de las tareas y algoritmos que l integran. Una vez cumplido el objetivo anterior nos a centraremos en uno de los aspectos ms problemticos, la evaluacin de los resultados en minera de datos. Propondremos aqu una divisin de los principales indicadores en 4 categoras: bondad de ajuste, relevancia, novedad y aplicabilidad. Este trabajo tiene implicaciones importantes en el campo profesional, pero tambin en el acadmico, ayudando a disipar algunas dudas sobre qu es y cul es la utilidad de la minera de datos y realizando una propuesta en la poco abordada tarea del anlisis de resultados. PALABRAS CLAVE: minera de datos, evaluacin del resultado, tareas de anlisis, algoritmos de IA ABSTRACT Data mining is being utilized more every day in the businesses and appearing more frequently in academic works, what justifies the approximation that here we present. The paper attempts to approach the data mining concept's delimitation through its definition and concretion of the tasks and algorithms that integrate it. Once the former objective has been completed, we'll focus on one of the most problematical issues, the analysis of the results effectiveness in data mining. We'll propose here a division of the principal measures in 4 categories: goodness, relevance, novelty and applicability. This work has important implications in businesses and in the academic area, helping to dissipate some misgivings about data mining's utility, its components and the measures of the result's effectiveness. KEYWORDS: data mining, results evaluation, analysis tasks, AI algorithms.
1. LA MINERA DE DATOS EN LOS NEGOCIOS Y EN EL MARKETING. La necesidad de informacin surge como consecuencia de dos factores: la incertidumbre y el coste a asumir en caso de errar en la toma de decisiones [Wright y Ashill, 1998]. En los momentos actuales ambas caractersticas estn presentes en niveles elevados para los negocios, haciendo imprescindible la informacin para el xito en el mercado [Kotler, et al. 2000; McLeod, 2000, 4; O'Brien et al. 1995; Snchez Fernndez, 2001; Weiber y Kollmann, 1998], hasta el punto de que algunos autores hablan de una economa basada en la informacin y el conocimiento [Drucker, 1993]. Para obtener la informacin necesaria hemos de partir de una materia prima: los datos. stos estn hoy en da disponibles en grado superlativo gracias a la facilidad de captacin, transmisin y gestin de los mismos que ofrecen las tecnologas de la informacin [Leverick et al. 1997; Talvinen, 1995]. Sin embargo, es la transformacin de los datos en informacin y la aplicacin de sta al negocio lo que generar valor para la empresa [Dhar y Stein, 1997, 11; Stair y Reynolds, 2000, 5].
143
Para el anlisis de los datos podemos emplear la "estadstica clsica", aunque recientemente se ha incorporado en los negocios la utilizacin de herramientas de minera de datos. Las razones principales son tres, que se corresponden con las diferencias entre ambas: La minera de datos ofrece la posibilidad de llevar a cabo un proceso de descubrimiento de informacin automtico, es decir, dirigido por el algoritmo [Mena, 1999, 50; Pyle, 1999, 486]. Las tcnicas estadsticas "clsicas" requieren generalmente de la delimitacin por parte del analista de las variables a considerar, series de datos a incluir y tipo de anlisis a realizar. En definitiva, estn sujetas a una idea previa del estadista. Las herramientas de minera de datos se han diseado para ser empleadas directamente por decisores o personal del negocio [Berson y Smith, 1997, 336], y no necesariamente por tcnicos. La minera de datos automatiza los procesos estadsticos y, por ello, descargan al usuario final de tal tarea. Desde el punto de vista de productos, las herramientas de minera de datos estn preparadas para trabajar con grandes volmenes de registros, mientras que, generalmente, los paquetes estadsticos clsicos se saturan cuando se introduce gran cantidad de datos para analizar [Mena, 1999, 50; Pyle, 1999, 486]. La escalabilidad es una de sus principales ventajas [Small y Edelstein, 1997].
El inters del mundo profesional por la minera de datos se manifiesta por el variado y amplio conjunto de empresas que han lanzado al mercado productos de data mining1 , entre las cuales se encuentran las tres empresas ms importantes en herramientas de anlisis SPSS (Clementine), SAS (Enterprise Miner) e IBM (Inteligent Miner). Desde un punto de vista acadmico, Malhotra y Peterson [2001] identifican a los algoritmos de minera de datos como uno de los campos emergentes y de futuro en la investigacin de marketing, a lo que podemos unir la aparicin de manuales sobre minera de datos [Berson y Smith, 1997; Caberna et al. 1997; Delmater y Hancock, 2001; Groth, 1998 y 2000; Han y Kamber, 2001 entre otros], algunos de los cuales con especial enfoque en el marketing [Berry y Linoff, 1997]. En el mbito nacional, y dentro de la disciplina, tambin encontramos alguna destacable incursin en la minera de datos [Luque Martnez, 2000]. Con todo, y teniendo en cuenta las sugerencias de Desphand [1999] respecto a aprovechar las aportaciones de otras disciplinas, consideramos conveniente la incursin que aqu se presenta en la minera de datos. Este trabajo supone una continuacin de las investigaciones desarrolladas en el seno del grupo de investigacin al que pertenecemos. En lo que resta del documento nos dedicaremos a definir el concepto de minera de datos y los factores determinantes de su creciente utilizacin en los negocios. Seguidamente, realizamos un repaso sobre su aplicacin, a travs del estudio de las tareas y algoritmos de minera de datos y, a continuacin, profundizamos en uno de los aspectos ms preocupantes, la evaluacin de los resultados. Finalizamos el trabajo con algunas conclusiones e implicaciones, especialmente orientadas al campo de los negocios.
2. DEFINICIN DE MINERA DE DATOS. Si tuviramos que dar un concepto de minera de datos nos encontraramos con tres corrientes diferentes en la literatura. De acuerdo con Peacock [1998a] la definicin se puede abordar desde una triple perspectiva, en funcin de la amplitud de la misma. As, se puede definir la minera de datos desde un punto de vista estrecho como el descubrimiento automtico de patrones o modelos interesantes y no obvios escondidos en una base de datos, los cuales tienen un gran potencial para contribuir en los aspectos principales del negocio. La palabra interesante en los negocios se traduce en su aplicabilidad a las estrategias y tcticas de la empresa, como a sus objetivos. La minera de datos, desde un punto de vista estrecho, comprende, como sistema de extraccin de relaciones, los mtodos basados en la computadora, requiriendo poca involucracin y ayuda por parte del analista en la obtencin de informacin relevante. Incluiramos aqu los algoritmos de redes neuronales artificiales, rboles de decisin, induccin de reglas, lgica difusa, anlisis de links y los algoritmos genticos. Si tenemos que acudir a un concepto ms amplio, Peacock [1998a] indica que la minera de datos tambin engloba, aparte de lo ya comentado, la confirmacin o prueba de relaciones reveladas por el proceso de descubrimiento. Emplearamos para ello mtodos estadsticos clsicos y Bayesianos, as como la fijacin de hiptesis que se verificarn en el proceso de obtencin de informacin, a parte de incluir la bsqueda de la
1
Vase Groth, 2000, 245.
144
confirmacin de relaciones, modelos o teoras formuladas mediante la aplicacin de minera de datos desde un punto de vista estrecho. Como ejemplos se puede mencionar el anlisis exploratorio de datos, la regresin mnimo cuadrtica, la regresin logstica y el anlisis discriminante. En este proceso la parte humana juega un importante papel a la hora de obtener informacin relevante. Se puede hablar, por tanto, de un proceso semiautomtico de minera. Por ltimo, y como concepto ms amplio recogido en la literatura, la minera de datos se identifica con el proceso de descubrir conocimiento en bases de datos (KDD Knowledge Discovery in Databases), englobando as un conjunto de actividades, entre las que se encuentra el anlisis de los datos. En el cuadro siguiente aparecen un conjunto de autores clasificados en funcin de la postura que adoptan en su trabajo, con relacin a las distintas aproximaciones a la definicin de minera de datos.
Tabla 1. Clasificacin de trabajos por definicin de minera de datos adoptada. DEFINICIN Minera de datos como sistema automtico de obtencin de informacin Minera de datos como sistema semiautomtico de obtencin de informacin. [Elaboracin propia] Minera de datos como sinnimo de KDD TRABAJOS Ainslie y Drze, 1998; Aluja, 2000; Berson y Smith, 1997; Cabena et al. 1997; Delmater y Hancock, 2001; Gargano y Raggad, 1999; Gilman, 1999; Kimball y Merz, 2000; Mena, 1999; Morgan y Chapple, 1999; Moxon, 1996; Peacock, 1998b; SPSS, 1999. Anand et al. 1998; Berry y Linoff, 1997; Edelstein, 1996, 1997, 1998, 1999, 2000a y 2000b; Fayyad, 1997; Frawley y Thearling, 1999; Groth, 1998 y 2000; Han et al. 1999; Han y Kamber, 2001; Leeds, 2000; Luque Martnez, 2000; Padmanabhan y Tuzhilin, 1999; Small y Edelstein, 1997; Sugumaran y Bose, 1999. Feelders et al. 2000; Forcht y Cochran, 1999; Hermiz, 1999; Hui y Jha, 1999; Mannila, 1997.
Para Kimball y Merz [2000] la minera de datos no es ms que un paso hacia delante de la estadstica (gracias al apoyo de la Inteligencia Artificial, que ha colaborado con la generacin de nuevas tcnicas). Sin embargo, es la aparicin de los nuevos sistemas de almacenamiento (Data Warehouse) lo que permite hacer realidad la minera de datos. De una forma ms amplia, el surgimiento de la minera de datos es consecuencia de 4 procesos de desarrollo fundamentales y apareados (figura 1). La evolucin producida en la captacin de datos, la gestin y anlisis de los mismos, y la concepcin del propio negocio y de la actividad de marketing han facilitado y motivado el desarrollo de la minera de datos.
Figura 1. Evoluciones paralelas a la minera de datos
FILOSOFA NEGOCIO/ MARKETING
Preocupacin por la distribucin
Preocupacin por la comunicacin
Venta cruzada. Mximo valor de los clientes actuales Desarrollo de nuevas tcnicas de anlisis basadas en Inteligencia Artificial Desarrollo del OLTP como herramienta de mejora de captura y acceso a las BD
Mejora de la relacin con el cliente, mediante la creacin de valor Integracin de varias herramientas de anlisis en productos con fcil interface
HERRAMIEN. DE ANLISIS
Desarrollo del anlisis estadstico. Aparicin de las primeras empresas (SPSS, SAS e IBM) Creacin de las bases de datos basadas en computadora Desde 1910 las empresas comienzan a recoger datos de sus clientes (mbito local)
Desarrollo de nuevas herramientas de anlisis
BASES DE DATOS
Avances diversos en BD, aparicin de los Sistemas de Gestin
Desarrollo de OLAP y Data Warehouse
DATOS
Acumulacin de datos en las empresas
Globalizacin. Incremento en el volumen de datos disponibles
Las empresas entran en el mercado electrnico, del que captan gran cantidad de datos
2000
Aos 60
[Elaboracin propia]
Aos 70
Aos 80
Aos 90
145
3. ANLISIS EN MINERA DE DATOS. Previo al anlisis de cualquier serie de datos a travs de las herramientas aqu analizadas se requiere de un preproceso que en ocasiones supone el 80% del tiempo [Edelstein, 1998 y 1999; Feelders et al. 2000; Leeds, 2000]. Puesto que analizar este aspecto no entra dentro del objetivo de este trabajo nos remitimos a trabajos como el de Pyle [1999] para la profundizacin y la comprensin de las fases previas al anlisis en minera de datos. En la fase de anlisis, aunque la minera de datos necesita de escasa supervisin por parte del analista, hay que tomar una serie de decisiones que son claves para el resultado final: en primer lugar, hay que decidir el tipo de anlisis (tarea) a realizar y, en segundo lugar, hay que elegir un algoritmo o herramienta para llevarla a cabo. 3.1. Seleccin de la tarea. En general, la minera de datos permite, como indican Berson y Smith [1997, 341], obtener oro de una montaa de datos. Desde un punto de vista general, la minera de datos permitir completar dos tareas de anlisis: describir y predecir [Edelstein 1996, 2000a y 2000b; Han y Kamber, 2001; Pei et al. 2000], mientras que si profundizamos en cada una de las tareas encontramos un amplio conjunto de posibilidades de anlisis (tabla 2).
Tabla 2. Funciones de la minera de datos TAREAS Descripcin Anlisis de asociaciones AUTORES Aluja, 2000; Berry y Linoff, 1997; Han y Kamber, 2001; Luque Martnez, 2000; Peacock, 1998a; Pei et al. 2000; Zaane et al. 1998. Aluja, 2000; Berry y Linoff, 1997; Greening, 2000; Groth, 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Mobasher et al. 1996; Moxon, 1996; Peacock, 1998a; Pei et al. 2000; Srivastava et al. 2000; Zaane et al. 1998. Berry y Linoff, 1997; Forcht y Cochran, 1999; Groth, 1998 y 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Luque Martnez, 2000; Mena, 1999; Mobasher et al. 1996; Moxon, 1996; Peacock, 1998a; Pei et al. 2000; Srivastava et al. 2000; Zaane. et al. 1998. Aluja, 2000; Berry y Linoff, 1997; Greening, 2000; Groth, 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Luque Martnez, 2000; Mena, 1999; Peacock, 1998a; Pei et al. 2000; Zaane et al. 1998. Berry y Linoff, 1997; Forcht y Cochran, 1999; Greening, 2000; Groth, 1998 y 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Luque Martnez, 2000; Mena, 1999; Mobasher et al. 1996; Moxon, 1996; Peacock, 1998a; Pei et al. 2000; Srivastava et al. 2000. Han y Kamber, 2001. Berry y Linoff, 1997; Forcht y Cochran, 1999; Greening, 2000; Groth, 2000; Kimball y Merz, 2000; Luque Martnez, 2000; Moxon, 1996. Groth, 1998; Groth, 2000; Luque Martnez, 2000; Mena, 1999. Groth, 2000; Mena, 1999. Pei et al. 2000 ; Zaane et al. 2000.
Clasificacin
Prediccin
Anlisis de cluster Valores extremos Estimacin Visualizacin Optimizacin [Elaboracin propia] Series temporales
No son stas las nicas tareas que se relacionan con la minera de datos en la literatura, sino que aparecen algunas otras, como la segmentacin [Mena, 1999], anlisis de evolucin [Han y Kamber, 2001], etc., que surgen a partir de las incluidas en la tabla anterior. Como indica Mena [1999, 18], es el tipo de datos con los que se cuenta, junto con los objetivos de la investigacin, los que van a determinar la tarea o tareas a realizar. Tngase en cuenta que para la solucin de un problema concreto quizs sea necesario llevar a cabo diferentes actividades que muestren una visin global. 3.2. Eleccin de la herramienta Cada una de las tareas antes comentadas necesita de alguna herramienta para ser desarrollada y es este el momento donde los algoritmos que se integran en los diferentes programas de minera de datos juegan un papel fundamental. stos pueden incluir desde aqullos empleados en la estadstica clsica, como las nuevas herramientas desarrolladas a partir de la Inteligencia Artificial, junto con las herramientas de preguntas y de visualizacin. Si tenemos en cuenta la definicin estricta de minera de datos, solamente deberan ser
146
considerados como algoritmos de minera de datos aquellos que permitan obtener un conocimiento de forma automtica eliminando, por tanto, las tcnicas estadsticas, los algoritmos de preguntas y la visualizacin. Sera pretencioso ofrecer aqu una visin de cada uno de los algoritmos empleados en minera de datos, por lo que nos remitimos a Berry y Linoff [1997], Berson y Smith [1997] y Han y Kamber [2001]. Conocidas las distintas herramientas, hay que proceder a la seleccin de la adecuada para la investigacin que se plantea en cada momento. Revisada la literatura relevante con relacin a este tema, resulta difcil establecer una que sea la ms adecuada, e incluso, la mejor dentro de las tareas que se llevan a cabo. Es ms, no existe acuerdo en lo que se refiere a las tareas desarrolladas por cada uno de los algoritmos. En definitiva, se han de producir dos elecciones diferentes, aunque conectadas. En primer lugar, hay que seleccionar el algoritmo que sea ms adecuado (redes neuronales, rboles de decisin, tcnicas de generacin de reglas, u otros) y, en segundo lugar, habr que determinar de entre los paquetes de minera de datos disponibles aqul que, disponiendo de la tcnica, sea el ms conveniente. En la prctica las decisiones se invierten, debido a que resulta costoso adquirir varios paquetes de minera de datos. En todo caso, para aquellas organizaciones que cuenten con varios productos de minera de datos, aconsejamos la primera de las secuencias. La razn la encontramos en que, por regla general, es el algoritmo el que condiciona el resultado, ms que el producto que lo contiene, ya que ste, fundamentalmente, se relaciona con la facilidad de uso. Vamos a centrarnos en primer lugar en analizar los aspectos relevantes a tener en cuenta a la hora de seleccionar el algoritmo de anlisis. Cada herramienta es empleada para un conjunto de tareas. Como hemos indicado anteriormente, no existe un acuerdo en la literatura en cuanto a qu actividades son realizadas por los diferentes algoritmos2 . Nosotros hemos construido una tabla indicando usos de las 4 tcnicas de minera de datos ms comnmente citadas, as como la estadstica clsica. En trabajos futuros se profundizar en este tema, ya que como vemos, varias tcnicas se pueden emplear para llevar a cabo una misma actividad, aunque con rendimientos significativamente diferentes.
Tabla 3. Seleccin de algoritmos de minera de datos en funcin de la tarea a desarrollar [A partir de Berry y Linoff, 1997, 415] HERRAMIENTAS Estadstica estndar Generacin de Reglas Redes Neuronales rboles de Decisin Algoritmos Genticos X Descripcin Asociacin Clasificacin Prediccin Estimacin Clustering Optimizacin X X X X X X X X X X X X X X X X X X X X X X X
Puesto que un mismo tipo de anlisis puede ser completado por varios algoritmos, se hace necesario evaluar el rendimiento de los mismos en base a un conjunto de indicadores. Nosotros proponemos aqu una relacin de atributos a medir a la hora de evaluar los algoritmos de minera de datos, la cual ha surgido a partir de Mena [1999, 136]; Berson y Smith [1997, 345] y Berry y Linoff [1997, 422]: Precisin. Mide la capacidad del algorit mo de llegar al resultado correcto. En definitiva, tratamos de evaluar el grado de error cometido en la respuesta. Claridad. Mide la transparencia de una tcnica, en cuanto a la interpretacin de los posibles resultados, as como la forma en que se ha llegado a los mismos. Una red neuronal es un claro ejemplo de tcnica que genera modelos de caja negra, en los cuales es difcil conocer cmo se producen las transformaciones internas que hacen llegar al resultado final. Utilidad. La informacin tiene un valor que decrece con el paso del tiempo, por ello, resulta necesario que la tcnica empleada genere informacin en un formato fcil de entender, con el objetivo de que tras la interpretacin del decisor se convierta en un recurso accionable para la empresa. En definitiva, este indicador mide la forma de presentacin de los resultados. sta se mejora con el empleo de tcnicas de visualizacin, de jerarquizacin de reglas, etc. Generalidad. Se refiere a la posibilidad de aplicar la tcnica a mltiples tipos de problemas, afectados por un amplio grupo de variables y con el empleo de varios tipos de datos. Adaptabilidad. Se refiere a la existencia o no de una fase de preproceso sobre los datos. sta es una de las etapas ms costosas del proceso de obtencin de conocimiento de la Web y, por ello, resulta conveniente emplear aquella tcnica que permita tomar los datos directamente de la base de datos, sin necesidad de cambios previos.
Vase Berry y Linoff, 1997; Berson y Smith, 1997; Han y Kamber, 2001.
147
Facilidad de construccin. La construccin del modelo suele ser bastante autnoma con relacin al decisor. Sin embargo, tambin hemos de medir el coste de consecucin en base a otros elementos, como el consumo de registros que necesita para el entrenamiento. Rapidez. Los algoritmos pueden tardar 5 minutos en proporcionar una respuesta al problema planteado o un mes. Por ello, y dadas las caractersticas de dinamismo del mercado virtual, ste es un elemento a tener en cuenta. Depende en gran medida del hardware en el que se ejecute la herramienta. Gestin de memoria. Mide la necesidad de recursos de computacin que son necesarios para que la herramienta pueda actuar correctamente. Generalmente, rapidez y recursos necesarios van de la mano, es decir, aquellos algoritmos ms lentos son los que necesitan ms capacidad de computacin. Estos dos ltimos criterios estn reduciendo su importancia gracias a los avances que cada da se producen en las tecnologas de la computacin. Robustez. En qu medida es capaz el algoritmo de trabajar con datos perdidos o con errores, sin que afecte significativamente a alcanzar el resultado ptimo? Se trata de un atributo relacionado con el preproceso, puesto que reduce la necesidad de ste. Validacin. Se refiere a la facilidad para comprobar que el modelo ha llegado a la solucin ptima. As, las tcnicas es tadsticas disponen de buenos indicadores, como el coeficiente de determinacin (R2 ). Sin embargo, cuando hablamos de minera de datos resulta una tarea ms compleja. Habitualmente cada herramienta construye sus propios indicadores, o se emplea la validacin cruzada. Disponibilidad. Algunas tcnicas estn ms disponibles en los distintos paquetes comerciales que otras. As, las redes neuronales y los rboles de decisin son algoritmos usuales, mientras que los algoritmos genticos difcilmente se encuentran.
El listado de dimensiones que acabamos de comentar debe mostrar una visin de conjunto acerca de cada algoritmo, la priorizacin de los diferentes atributos corresponde al decisor, en funcin de las necesidades de la empresa. El consejo respecto a las tcnica a emplear es la utilizacin de una combinacin de las diferentes herramientas con las que contamos [Berry y Linoff, 1997, 424; Gargano y Raggad, 1999; Mena, 1999, 143]. El objetivo es doble, por un lado conseguimos la validacin de los resultados, mediante la obtencin de una misma conclusin a travs de diferentes tcnicas, adems de alcanzar una visin ms global del problema. El segundo objetivo es mejorar la realizacin de una tarea concreta, como el empleo de algoritmos genticos para ajustar los pesos de una red neuronal, o aplicar un rbol de decisin sobre un conjunto de atributos, para encontrar aquellos que son relevantes y aplicarlos en realizar algn tipo de prediccin.
4. EVALUACIN DEL RESULTADO EN MINERA DE DATOS. En general, en minera de datos existe un amplio consenso en que hay que llevar a cabo una fase de evaluacin del resultado, al igual que se ha venido realizando con los anlisis estadsticos clsicos. En stos se evala la bondad del resultado de forma amplia y precisa, puesto que se han generado multitud de indicadores. Cuando se pretende la evaluacin del resultado obtenido en minera de datos, no existe un consenso. Si seguimos a Berson y Smith [1997], Berry y Linoff [1997], Han y Kamber [2001], Mena [1999] o algn otro autor que trate el tema de las medidas de bondad del resultado, encontraremos enormes dificultades para llegar a una conclusin nica. Cada autor adopta una perspectiva diferente. En la literatura analizada, a excepcin de Berry y Linoff [1997, 94] y Berson y Smith [1997, 510], no aparece ningn esquema completo, y ms o menos lgico, de indicadores de la efectividad del resultado obtenido mediante la minera de datos. La aproximacin del primero de los trabajos comentados parte de unos objetivos previos que han de guiar la evaluacin final. A partir de ah dicha evaluacin se realiza sobre el modelo, sobre el resultado y sobre el impacto que tendr en la organizacin la informacin obtenida. Pese a considerarla como una buena aproximacin al tema estudiado, utiliza pocos indicadores para medir constructos complejos, como el impacto de un resultado. Por otro lado, no aporta ningn coeficiente que sirva al decisor para filtrar informacin en funcin del nivel de novedad que supone sta. La otra aproximacin es la que Berson y Smith [1997, 510] realizan, basndose fundamentalmente en la precisin del modelo, presentando el mismo conjunto de indicadores que Berry y Linoff [1997, 94], pero
148
referidos todos a la variable antes citada. Sin embargo, como se coment anteriormente el resultado de la minera de datos es interesante por algo ms que por su precisin. La propuesta que aqu realizamos trata de recoger un nmero amplio de indicadores, tanto objetivos, como subjetivos, organizados en torno a 4 aspectos fundamentales del resultado: la bondad, la relevancia, la novedad y la aplicabilidad del resultado. Vamos a ver detenidamente cada uno de estos grupos de medidas. 4.1. Indicadores de la bondad del resultado. Al igual que en la regresin, estos ndices tratan de aportar una idea acerca del error que se comete al emplear un modelo para realizar una tarea. Es, como indican Padmanabhan y Tuzhilin [1999], una medida de la fortaleza estadstica del resultado. Son indicadores objetivos construidos, casi especficamente, para cada tipo de resultado [Cabena et al. 1997, 56]. Cuando el resultado se presenta en forma de clasificacin o estimacin utilizaremos el indicador de PRECISIN [Berson y Smith, 1997, 510; Edelstein, 1998 y 2000a], medido a travs del porcentaje de predicciones que son correctas. Cuando hablamos de clasificacin se emplear el porcentaje de casos bien clasificados y para la estimacin el porcentaje de registros con una estimacin que el decisor considere correcta. La otra cara de la moneda del indicador presentado es el RATIO DE ERROR [Berry y Linoff, 1997, 99; Berson y Smith, 1997, 510; Edelstein, 1997 y 1998], que mide el porcentaje de casos en los que el resultado no coincide con la realidad. Por tanto, se puede definir como el complementario de la precisin. Otras medidas derivadas de las dos anteriores que han aparecido en la literatura son las siguientes: La varianza o la desviacin tpica son medidas empleadas cuando se estiman valores continuos. Se basan en obtener un promedio de los errores cometidos [Berry y Linoff, 1997, 100; Berson y Smith, 1997, 511.]. La matriz de confusin [Cabena, et al. 1997, 56; Edelstein, 1998]. Ayuda a conocer la bondad del modelo para predecir y tambin para descubrir en qu casos se producen errores.
Cuando medimos la bondad del ajuste en algoritmos que han necesitado de un entrenamiento previo para generar el modelo, puede ocurrir que basndonos en el indicador de precisin o en el ratio de error se aporte una idea equivocada. Ello ocurre por el sobre-aprendizaje [Berry y Linoff, 1997; Cabena et al. 1997, 56; Peacock, 1998b; Berson y Smith, 1997, 342; Edelstein, 1997; Luque Martnez, 2000], es decir, cuando el modelo se ajusta muy bien a la muestra empleada para su construccin, mientras que para cualquier otra serie de datos el ajuste es bastante malo. En tal caso, el modelo construido ha de ser validado para un conjunto de datos independientes a la muestra empleada y que se denomina conjunto de prueba, midiendo la precisin o ratio de error sobre dicha serie de datos. Pasando a los indicadores que se emplean en los algoritmos que producen resultados en forma de reglas, la precisin se va a medir a travs del COEFICIENTE DE CONFIANZA [Berry y Linoff, 1997, 106; Berson y Smith, 1997, 481; Han y Kamber, 2001, 27; Lan et al. 1999; Spiliopoulou et al. 1999; Spiliopoulou y Faulstich, 1998], que se define como la probabilidad condicionada de un hecho (conclusin) con respecto a otro (condicin). Utilizaremos el ejemplo siguiente de una base de datos de sesiones en un sitio Web para ilustrar las explicaciones.
Tabla 4. Izquierda Ejemplo de matriz de confusin Tabla 5. Derecha Base de datos de ejemplo [Elaboracin propia] Observado Prediccin Clase A Clase B Clase C Clase A 35 7 23 Clase B 6 50 16 Clase C 10 8 20 N 1 2 3 4 5 6 7 Da Laboral Festivo Festivo Laboral Laboral Festivo Laboral Zona visitada Noticias Chat Compras Chat Noticias Compras Juegos
Como se puede observar, la regla "SI festivo ENTONCES zona compras" se puede aplicar en la base de datos en tres ocasiones, puesto que son tres veces las que el campo da toma el valor Festivo, el cual es la condicin en la regla. De esas tres veces solamente 2 llevan al navegante a la zona de compra, por lo tanto, el coeficiente de confianza se calcula como: P(Compra|Festivo) = P(Festivo U Compra) / P(Festivo) = 2/3 = 0.67
149
Berson y Smith [1997, 481] denominan a este indicador como "Precisin", aunque la terminologa ms generalmente aceptada es la presentada en este trabajo. Por ltimo, la DISTANCIA [Berry y Linoff, 1997, 106] es empleada en algunas tcnicas de minera de datos (anlisis cluster, razonamiento basado en memoria, etc.), cuando se disponen de variables continuas y numricas, mediante la raz cuadrada de la suma al cuadrado de las distancias en cada eje. 4.2. Indicadores de relevancia del resultado. Si los anteriores coeficientes medan la bondad de ajuste del modelo a los datos, stos se centran en mostrar la importancia del resultado. Para ello mide la aportacin a la situacin actual y la frecuencia de utilidad del resultado. Mostraremos a continuacin dos indicadores, referidos ambos a la presentacin de resultados en forma de reglas. Un dato que puede ser interesante en las reglas es el nmero de veces que se pueden aplicar, es decir, la frecuencia con la que se presenta la condicin. Utilizar un porcentaje en lugar de un valor absoluto parece ms conveniente, ya que nos libramos de la dependencia al tamao de la muestra y, adems, lo referimos al total de casos considerados. El primero de los indicadores es el COEFICIENTE DE COBERTURA [Berson y Smith, 1997, 481; Lan et al. 1999; Spiliopoulou et al. 1999; Spiliopoulou y Faulstich, 1998], que mide el porcentaje de registros en los cuales se puede aplicar la regla. Se corresponde con el denominador que hemos empleado para el clculo del coeficiente de confianza. En la base de datos de ejemplo observamos como en total disponemos de 7 registros, de los cuales el campo DIA presenta en 3 ocasiones el valor Festivo, que es precisamente la condicin impuesta por la regla "SI festivo ENTONCES zona compras". As, el coeficiente de cobertura se sita para dicha regla en el 0.43 (3/7). Otro de los indicadores es el COEFICIENTE DE APOYO [Berson y Smith, 1997, 481; Berry y Linoff, 1997, 106; Han y Kamber, 2001, 27], que muestra el porcentaje de ocasiones en que globalmente aparece la relacin descrita por la regla. Al igual que el anterior tambin es posible expresarlo en trminos absolutos, sin embargo, sera ms conveniente la propuesta del porcentaje. Volviendo al ejemplo que venimos empleando observamos como la regla "SI festivo ENTONCES zona compras" solamente se cumple para los casos tercero y sexto, con lo cual el coeficiente de apoyo es del 0.29 (2/7). Existe una relacin entre el coeficiente de confianza, de cobertura y de apoyo. Los tres forman distintos elementos de una misma relacin, que presentamos a continuacin:
Coeficiente de Confianza = Coeficiente de Apoyo / Coeficiente de Cobertura
Para el caso de los resultados en forma de reglas hay otro indicador apropiado para medir el grado de importancia de la regla a travs de la aportacin que supone respecto a la pura probabilidad. Se denomina COEFICIENTE DE SIGNIFICACIN [Berson y Smith, 1997, 481]. Tomando como ejemplo la siguiente regla:
Si Festivo y Navegante comprador Entonces visita a la zona de compras. Confianza = 0.7; Cobertura = 0.2; Apoyo = 0.14.
Por lo tanto, tenemos que el apoyo de dicha regla es del 14% (0.7*0.2). Pero puede ocurrir que en general en Internet, e independientemente de la empresa, en fin de semana entre el 70% de los navegantes, que haya un 40% de navegantes compradores y que las visitas a zonas de compras se siten en torno al 50% respecto al total. Con ello tenemos que, por mera probabilidad, en el 14% de las ocasiones un navegante comprador visitar la zona de compras en fin de semana (0.7*0.4*0.5). Ello se cumple siempre que estemos hablando de hechos independientes, entre los que no se puede establecer ningn tipo de relacin como la que presume la regla. Algunos autores llaman a este indicador mejora [Luque Martnez, 2000]. Una forma de calcularlo sera a travs de la diferencia entre el coeficiente de apoyo y la probabilidad de ocurrencia conjunta de hechos independientes. Por ltimo, y para cualquier tipo de resultado, se puede emplear un indicador de la importancia del mismo, el LIFT [Berson y Smith, 1997, 481; Berry y Linoff, 1997, 106; Edelstein, 1998 y 2000a].
150
El indicador Lift, segn Berry y Linoff [1997, 106], permite la com paracin entre diferentes resultados producidos por distintos algoritmos, trmino no posible con el resto de medidas. Sin embargo, est especialmente indicado para la evaluacin de tareas de clasificacin. La forma de presentacin es a travs de un indicador o en forma de grfico, el cual resulta ms visual. El problema es que depende de la muestra empleada, ya que para muestras pequeas se puede generar un alto Lift. Sin embargo, ello no supone que estemos eligiendo el ptimo. El Lift se calcula a travs del cociente entre el porcentaje de concentracin de elementos o hechos en una determinada clase, frente a la concentracin que presenta la poblacin en su conjunto (generalmente dicha poblacin se identifica con el total de registros en la base de datos).
Lift = Porcentaje de objetivo en la clase/Porcentaje de objetivo en la poblacin.
Por ejemplo, si habitualmente el nmero de respuestas ante un banner instalado en nuestra Web se sita en el 5% (sobre un total impactos), y con un modelo, que ayuda a identificar aquellos navegantes con mayor propensin de respuesta, conseguimos el 20%, entonces el indicador Lift toma un valor de 20/5=4. No es un porcentaje, sino simplemente un indicador de cuantas veces es mejor el modelo, en la captacin del hecho objetivo, que la aleatoriedad. En forma de grfico el indicador Lift nos ayudar a conocer cmo evoluciona el indicador a travs de los diferentes deciles de la poblacin. La aplicacin de un modelo va generando mejores resultados, para luego converger con la situacin de ausencia de modelo. As, el grfico Lift es el que aparece en trazo ms grueso y que presenta una primera fase de fuerte descenso, para pasar a una fase de decrecimiento moderado, hasta alcanzar el valor 1 (valor mnimo)3 .
Figura 2. Evolucin del indicador LIFT a lo largo de los distintos deciles de la poblacin
100 90 80 70 60 50
% objetivo
CON MODELO
SIN MODELO
40 30
LIFT
1 LIFT
20 10 0
[Berry y Linoff, 1997, 109]
10 10 20 20 30 30 40 40 50 50 60 60 70 70 80 80 90 90 100 % de poblacin % poblacin
4.3. Indicadores de novedad del resultado. Uno de los problemas que tiene la generacin de reglas es la obtencin de informacin excesivamente abundante y obvia. El indicador que aqu presentamos trata de solventar ambos problemas. El COEFICIENTE DE NOVEDAD [Berson y Smith, 1997, 481] est exclusivamente creado para indicar si una regla es interesante o no en funcin del nmero de reglas ya generadas para un rea de conocimiento concreta. Se trata de evitar las redundancias en su obtencin. As, resulta ms interesante una regla con los anteriores indicadores bajos, pero desconocida, frente a una con fuertes coeficientes de bondad e importancia, pero cuya existencia ya era conocida por procesos de anlisis anteriores. Autores como Bchner et al. [1999], Anand et al. [1998], Han et al. [1999] o Padmanabhan y Tuzhilin [1999], abogan por la inclusin del conocimiento previo del negocio e intuicin que detentan los decisores para: restringir el espacio de bsqueda, obtener un conocimiento ms preciso y eliminar aqul que resulte no interesante. Se hace necesario, por tanto, codificar el conocimiento de los expertos en el negocio en forma de reglas para hacer ms eficiente la bsqueda de informacin. La forma de medicin es generalmente subjetiva (Berson y Smith [1997], por ejemplo, no especificaron ninguna forma de expresarla) y es el decisor quien ha de establecer el mtodo. Una forma de medicin ms objetiva sera
3
El indicador LIFT no tiene un valor mximo.
151
hacer que tome valores dicotmicos 0 1. De esta forma tomar el primero de ellos cuando sea exactamente igual a otra regla ya generada anteriormente y almacenada, mientras que tomar el valor 1 para cualquier otro caso. En Padmanabhan y Tuzhilin [1999], se discute un algoritmo que pretende obtener todas aquellas reglas relevantes, definidas como contradictorias a las creencias introducidas por el decisor. En ocasiones interesa que el output de un proceso de minera de datos coincida con las creencias anteriores, es el caso en que nos planteamos la prueba de hiptesis. Por tanto, en esta situacin, aquellas reglas que sean coincidentes con las creencias previas sern las ms interesantes. 4.4. Indicadores de aplicabilidad del resultado. Por ltimo, en los negocios de hoy en da, la necesidad de rapidez en la respuesta al mercado tiene una enorme importancia. Por ello, resulta necesario contar con los resultados y modelos generados lo ms rpidamente posible. Las facetas que permiten una aplicacin rpida del resultado son, la simplicidad y el beneficio esperado. Es decir, en la medida en que un output resulte ms fcil de interpretar, de comprender y de transformar en conocimiento aplicado al negocio, tendr un mayor valor para el decisor. El COEFICIENTE DE SIMPLICIDAD [Berson y Smith, 1997, 481] ayudar a medir dicho constructo. Nuevamente se trata de una medida subjetiva, establecida por parte del decisor. Una forma sencilla de hacerlo ms objetivo es midiendo la forma en que se produce la respuesta y para ello establecer un listado de categoras ordenadas. Una variante objetiva de simplicidad comentada por Berry y Linoff [1997, 98], a la que denominan longitud de descripcin mnima, es contar el nmero de bits necesarios para codificar cada regla y el conjunto de excepciones a la misma. As, aquella regla que ocupa un menor nmero de bits ser la ms valorada. El ltimo conjunto de ndices que vamos a comentar, y no menos importantes, es la TIR o tasa de retorno, el VAN o Valor Actual Neto y el BENEFICIO [Berson y Smith, 1997, 511; Berry y Linoff, 1997, 109; Edelstein, 1998 y 2000a]. En definitiva, tratamos de medir una nica cosa, el valor que aporta la informacin aplicada al negocio. Hemos de comparar, por tanto, los costes e ingresos que supone la aplicacin del modelo o resultados obtenidos, con la situacin en que decidimos sin contar con la informacin suministrada por la minera de datos. Desde nuestro punto de vista resulta ms conveniente un empleo conjunto de todos los coeficientes presentados, para conocer el posible inters e impacto de un proceso minera de datos. El decisor tiene la oportunidad de filtrar las reglas y resultados obtenidos en el proceso de anlisis por cada uno de los coeficientes calculados en la fase de evaluacin. La prueba del modelo generado en el negocio es el ltimo paso en la validacin, y el que realmente establecer la vala del proceso de minera de datos.
5. REFLEXIONES FINALES E IMPLICACIONES DE NEGOCIO. La minera de datos es una problemtica de reciente incursin en los negocios o no menos incipiente preocupacin en el marketing. Ello es un factor determinante del escaso, y en ocasiones errneo, conocimiento de la minera de datos y de su reducido desarrollo, manifiesto en la medicin de la eficiencia del resultado. Del trabajo extraemos las siguientes conclusiones: No existe una nica definicin de minera de datos, ni siquiera una mayoritariamente aceptada, lo que impedir identificar las tcnicas de anlisis que, de manera unvoca, la integran. Consideramos, desde un punto de vista prctico, que la minera de datos es un proceso (incluido en un software): automtico o semiautomtico para el descubrimiento de informacin orientada a la toma de decisiones a partir de grandes volmenes de datos, combinando la facilidad de uso con la integrabilidad entre tcnicas y con los sistemas empresariales.
Como bien indican Ainslie y Drze [1998], Groth [2000, 61] o Luque Martnez, [2000] la minera de datos no sustituye a la estadstica "clsica", sino que la complementa.
152
Una de las principales ventajas citadas en las herramientas de minera de datos es su facilidad de uso, siendo necesario, adems, un conocimiento adecuado de los distintos algoritmos empleados, puesto que no todos ofrecen los mismos resultados ni con la misma eficiencia. La utilidad de la minera de datos se reduce en la medida en que no se evalen adecuadamente los resultados que genera. Ello supone obtener indicadores sobre 4 facetas del resultado: bondad de ajuste, relevancia, novedad y aplicabilidad. El clculo de estas medidas permitir cumplir con las promesas que realiza la minera de datos a travs de su definicin. Resulta conveniente dedicar esfuerzos al establecimiento de medidas de evaluacin del resultado en minera de datos que permitan la comparacin entre aquellos generados por distintas herramientas.
Este estudio ayudar, a todos aquellos acadmicos y profesionales que se estn planteando estudiar y/o utilizar la minera de datos, a identificar sus potencialidades reales y las distintas corrientes que aparecen en la literatura sobre la temtica. Resulta de especial relevancia la ordenacin propuesta de medidas de evaluacin del resultado, puesto que las mismas constituyen uno de los puntos clave en la obtencin de informacin valiosa del proceso de minera de datos en los negocios, y un elemento esencial para su utilizacin en el mbito acadmico. Proponemos avanzar en la comparacin entre el rendimiento de los distintos algoritmos procedentes de la Inteligencia Artificial, as como en su comparacin con las tcnicas tradicionales de anlisis , aspecto que abordaremos en el futuro. Adems, el preproceso de los datos en cada tcnica y el desarrollo de medidas de evaluacin de los resultados son dos aspectos que requieren de un mayor tratamiento en la literatura.
BIBLIOGRAFA.
Ainslie, A.; Drze, X. (1996): "Data Mining: Using Neural Networks as a Benchmark for Model Building", Decisions Marketing, invierno. Aluja, T. (2000): "Los nuevos retos de la estadstica, el Data Mining", Investigacin y Marketing, n 68, pgs. 34-38. Anand, S.S.; Patrick, A.R.; Hughes, J.G.; Bell, D.A. (1998): "A Data Mining methodology for cross-sales", Knowledge-Based Systems, n 10, pgs. 449-461. Berry, M.J.A.; Linoff, G. (1997): Data mining techniques: for marketing, sales and customer support. Ed. John Wiley & Sons, Inc. Nueva York. Berson, A.; Smith, S.J. (1997): Data Warehousing, Data Mining, & OLAP. Ed. McGraw-Hill. Nueva York. Bchner, A.G.; Anand, S.S.; Mulvenna, M.D.; Hughes, J.G. (1999): "Discovery Internet marketing intelligence through web log mining", Proc. Unicom99 Data Mining & Datawarehousing: Realising the full Value of Business Data , pgs. 127-138. Cabena, P.; Hadjinian, P; Stadler, R.; Verhees, J.; Zanasi, A. (1997): Discovering Data Mining: from Concept to Implementation. Ed. Prentice Hall. Upper Saddle River, NJ. Delmater, R.; Hancock, M. (2001): Data Mining Explained. Ed. Digital Press. Woburn, MA. Deshpand, R. (1999): "What Are the Contributions of Marketing to Organizational Performance and Societal Welfare?", Journal of Marketing, vol. 63, Special Issue, pgs. 164-167. Dhar, V.; Stein, R. (1997): Seven Methods for Transforming Corporate Data Into Business Intelligence. Ed. McGraw-Hill. Upper Saddle River, NJ. Drucker, P . F. (1993): Post Capitalist Society. Oxford: Butterworth Heinemann. Edelstein, H. (1996): "Data mining: exploiting the hidden trends in your data", DB2 Magazine, verano. Edelstein, H. (1997): "Mining for gold", Information Week, abril. Edelstein, H. (1998): "Data mining - let's get practical", DB2 Magazine, verano. Edelstein, H. (1999): "A preprocessing prescriptive", Teradata Review, verano. Edelstein, H. (2000a): "Building Profitable Customer Relationship With Data Mining", disponible en www.twocrows.com. Edelstein, H. (2000b): "Mining Large Databases - A Case Study", disponible en www.twocrows.com. Fayyad, U.M. (1997): "Editorial", Data Mining and Knowledge Discovery, vol. 1, n 1, pgs. 5-10. Feelders, A.; Daniels, H.; Holsheimer, M. (2000): "Methodological and practical aspects of data mining", Information & Management, n 37, pgs. 271-281. Forcht, K.A.; Cochran, K. (1999): "Using data mining and datawarehousing techniques", Industrial Management & Data Systems, vol. 99, n 5, pgs. 189-196. Frawley, A.; Thearling, K. (1999): "Increasing Customer Value by Integrating Data Mining and Campaign Management Software", Direct Marketing Magazine, febrero, pgs. 49-53. Gargano, M.L.; Raggad, B.G. (1999): "Data mining - a powerful information creating tool", OCLC Systems & Services, vol. 15, n 2, pgs. 81-90. Gilman, M. (1999): "White paper", disponible en www.data -mine.com , diciembre. Greening, D.R. (2000): "Data mining on the web", Web Techniques, enero. Groth, R. (1998): Data mining. Ed. Prentice Hall PTR. Upper Saddle River, NJ. Groth, R. (2000): Data mining: building competitive advantage. Ed. Prentice Hall PTR. Upper Saddle River, NJ. Han, J.; Kamber, M. (2001): Data mining: concepts and techniques. Ed. Morgan Kaufmann Publishers. San Francisco Han, J.; Lakshmanan, L.; Ng, R.T. (1999): "Constraint-Based, Multidimensional Data Mining", Computer, vol. 32, agosto, n 8, pgs. 46-50. Hermiz, K.B. (1999): "Critical success factors for data mining projects", DM Direct, febrero. Hui, S.C.; Jha, G. (1999): "Data mining for customer service support", Information & Management, n 38, pgs. 1-13. Kimball, R.; Merz, R. (2000): The Data Webhouse Toolkit. Ed. John Wiley & Sons, Inc. Nueva York. Kotler, P.; Cmara, D.; Grande, I.; Cruz, I. (2000): Direccin de Marketing. Edicin del Milenio. (10 Edicin). Ed. Prentice Hall. Madrid. Lan, B.; Bressan, S.; Chin Ooi, B.; Tay, Y. (1999): "Making web servers pushier", Proceedings Workshop on Web Usage Analysis and User Profiling (WEBKDD'99), agosto. Leeds, S. (2000): "Data Mining: Beware of the Shaft", Direct Marketing, enero, pgs. 38-42.
153
Leverick, F.; Littler, D.; Wilson, D.; Bruce, M. (1997): "The role of IT in the reshaping of marketing", Journal of Marketing Practice: Applied Marketing Science, vol. 3, n 2, pgs. 87-106. Luque Martnez, T. (2000): Proyecto de Investigacin a plaza de catedrtico. Universidad de Granada. Septiembre. Trabajo no publicado. Malhotra, N.K.; Peterson, M. (2001): "Marketing research in the new millenium: emerging issues and trends", Marketing Intelligence & Planning, vol. 19, n 4, pgs. 216-235. Mannila, H. (1997): "Methods and problems in data mining", Proceedings of International Conference on Database Theory (ICDT'97), Delphi, Grecia, enero. McLeod, R. (2000): Sistemas de Informacin Gerencial. (7 Edicin). Ed. Prentice Hall PTR. Mexico. Mena, J. (1999): Data Mining your Website. Ed. Digital Press. Boston. Mobasher, B.; Jain, N.; Han, E.; Srivastava, J. (1996): "Web Mining: Pattern Discovery from World Wide Web Transactions", Technical Report TR96-050, Department of Computer Science, University of Minnesota, septiembre. Morgan, W.; Chapple, T. (1999): "Report on data mining and data visualisation", disponible en: http://www.cios.sbu.ac.uk/units/vp/RecievedAssignments%5CMorgan%5CVP_Report.html Moxon, B. (1996): "Defining data mining", DBMS Data Warehouse Supplement, agosto. O'Brien, T.V.; Schoenbachler, D.D.; Gordon, G.L. (1995): "Marketing information systems for consumer products companies: a management overview", Journal of Consumer Marketing, vol. 12, n 5, pgs. 16-36. Padmanabhan, B.; Tuzhilin, A. (1999): "Unexpectedness as a measure of interestingness in knowledge discovery", Decision Support Systems, n 27, pgs. 30-318. Peacock, P.R. (1998a): "Data Mining in Marketing: part 1", Marketing Management, vol. 16, invierno, n 4, pgs. 9-18. Peacock, P.R. (1998b): "Data Mining in Marketing: Part 2", Marketing Management, primavera, pgs. 15-25. Pei, J.; Han, J.; Mortazavi-asl, B.; Zhu, H. (2000): "Mining Access Patterns Efficiently from Web Logs", Proc. 2000 Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD'00), Kyoto, Japan, abril. Pyle, D. (1999): Data Preparation for Data Mining. Ed. Morgan Kaufmann Publishers. San Francisco, California. Snchez Fernndez, J. (2001): Sistemas de informacin en las organizaciones: el EDI en los canales de distribucin. Ed. Pirmide. Madrid. Small, R.D.; Edelstein, H. (1997): "Scalable data mining", Intelligent Information Systems, 8, pgs. 5-28. Spiliopoulou, M.; Faulstich, L. (1998): "WUM: a Web Utilization Miner", Workshop on the Web and Data Bases (WebDB98), pgs. 109115. Spiliopoulou, M.; Faulstich, L.; Winkler, K. (1999): "A data miner analyzing the navigational behaviour of Web", Proc. of the Workshop on Machine Learning in User Modelling of the ACAI'99 Int. Conf., Creta, Grecia, julio. SPSS Inc. (1999): Data Mining with Confidence. Ed. SPSS Inc. Srivastava, J.; Cooley, R.; Deshpande, R.; Tan, P. (2000): "Web Usage Mining: discovery and applications of usage patterns from Web data", ACM Special Interest Group on Knowledge Discovery in Data and Data Mining, vol. 1, n 2, pgs. 12-23. Stair, R.; Reynolds, G. (2000): Principios de Sistemas de Informacin. Ed. International Thomson Editores. Mxico, D.F. Sugumaran, V.; Bose, R. (1999): "Data analysis and mining environment: a distributed intelligent agent technology application", Industrial Management & Data Systems, vol. 99, n 2, pgs. 71-80. Talvinen, J.M. (1995): "Information systems in marketing", European Journal of Marketing, vol. 29, n 1, pgs. 8-26. Weiber, R.; Kollmann, T. (1998): "Competitive advantages in virtual markets-pespectives of "information-based marketing" in cyberspace", European Journal of Marketing, vol. 32, n 7/8, pgs. 603-615. Wright, M.; Ashill, N. (1998): "A contingency model of marketing information", European Journal of Marketing, vol. 32, n 1/2, pgs. 125144. Zaane, O.R.; Xin, M.; Han, J. (1998): "Discovery Web access patterns and trends by Applying OLAP and data mining technology on Web Logs", Proceedings of Advances in Digital Libraries, abril.
154

DM Marketing

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DM Marketing

Uploaded by

Copyright:

Available Formats

COMERCIALIZACIN

Vase Groth, 2000, 245.

FILOSOFA NEGOCIO/ MARKETING

Preocupacin por la distribucin

Preocupacin por la comunicacin

Desarrollo de nuevas herramientas de anlisis

Avances diversos en BD, aparicin de los Sistemas de Gestin

Desarrollo de OLAP y Data Warehouse

Acumulacin de datos en las empresas

Globalizacin. Incremento en el volumen de datos disponibles

[Berry y Linoff, 1997, 109]

10 10 20 20 30 30 40 40 50 50 60 60 70 70 80 80 90 90 100 % de poblacin % poblacin

El indicador LIFT no tiene un valor mximo.

You might also like