thesolidqjournal business intelligence

Por Mark Tabladillo

32

¿Por qué utilizar minería de datos?
[Nota del editor: Este artículo es un extracto del aparecido en la comunidad MSDN SQL Server “Why Use Microsoft Data Mining?”]

Data mining might not solve all the world's problems, but here is a real-world look at how Microsoft SQL Server data mining technologies can provide actionable information and answers to common business questions.

L

a minería tiene la connotación de que se anda en busca de algo valioso, con la minería recordamos imágenes del trabajo de un minero desempeñando esta actividad. Para mí, el termino minería de datos mantiene una noción romántica de un minero de datos, buscando descubrir patrones ocultos, con la ayuda de una computadora como compañero de equipo. Microsoft ha definido tres roles de trabajo para las personas que pudieran estar interesadas en la minería de datos (Microsoft 2008b). Estos roles están organizados por función, y una persona especifica o equipo puede interesarse en realizar diferentes tareas y abarcar más de un grupo: • Analista – Entiende los datos y es capaz de traducir los resultados de la minería de datos en información útil para el negocio. • Desarrollador – Integra soluciones de minería de datos dentro de aplicaciones personalizadas. • Arquitecto – Responde a las necesidades de analistas y desarrolladores, y tiene un fuerte interés en las tecnologías de integración de datos e informes.

¿Qué es la minería de datos?
De acuerdo a “Minería de datos con Microsoft SQL Server 2008” (“Data Mining with Microsoft SQL Server 2008”, MacLennan, Tang, & Crivat, 2009), minería de datos es “el proceso de analizar datos para encontrar patrones ocultos utilizando metodologías automáticas” (MacLennan, et al., 2009, p. 1). Primero, la minería de datos se refiere a una actividad, lo que significa que es algo que se hace. En tecno-

logías de Microsoft, la minería de datos se realiza a través de los Analysis Services de SQL Server y requiere de una licencia de SQL Server. Al mover la actividad (por lo general) a un servidor, Microsoft está permitiendo que estos procesos intensivos de datos se ejecuten donde la eficiencia del procesamiento y la conectividad a los sistemas de la empresa puedan llevarse a cabo. SQL Server puede ejecutarse en una computadora de escritorio, y de forma personal, lo tengo instalado en Windows Vista para hacer demostraciones del producto. Sin embargo la minería de datos trabaja mejor en un ambiente de servidor. En otras implementaciones puedes saber de personas que han creado aplicaciones de minería de datos tanto para computadoras de escritorio como para servidores. Segundo, la minería de datos significa análisis. La función del trabajo de analista describe a la persona que más interesada esta en hacer minería de datos. Microsoft ha hecho de libre disposición un plug-in para Excel 2007 el cual permite a los analistas conectar Microsoft Office con una implementación de minería de datos en SQL Server. El plug-in de Excel permite a los analistas realizar minería de datos sobre los datos de Excel (los datos son analizados en el servidor y los resultados son devueltos a Excel). Aún sin este plug-in, un analista bien entrenado puede analizar los datos haciendo uso gratuito del Business Intelligence Development Studio (BIDS), el cual viene incluido con SQL Server. El BIDS viene incluido con SQL Server 2005 o 2008, y utilizando la estructura de Visual Studio, un analista puede crear un proyecto o solución (colección de proyectos), cualquiera de los cuales puede incluir minería de datos de Microsoft. El punto importante

©The SolidQ™ Journal, Julio 2010– www.solidq.com/sqj

He visto algunas definiciones que incluyen los términos semiautomático y automático. un modelo describe un patrón oculto en los datos. la minería de datos revela patrones ocultos. Este artículo no habla en detalle de estadística. porque en mucho de ese trabajo. Encontrar patrones es una actividad humana normal y los analistas pueden realizar visualmente comparación de patrones y el reconocimiento de conjuntos de datos pequeños. pero es realmente importante para todos aquellos que trabajan con sistemas de Inteligencia de Negocios.Net para adaptar soluciones o aplicaciones. mi definición de minería de datos incluye todos los tamaños). pero más típicamente. El término oculto significa que no hemos podido descubrir todos los patrones aún en un pequeño conjunto de datos (por lo tanto. pero un buen libro de minería de datos incluirá información acerca de esta materia que se necesitará para conocer las aplicaciones de minería de datos. viniendo de una formación en estadística aplicada. la minería de datos revela patrones ocultos. ellos pudieron haberlo hecho o dejaron implícito esto en su respuesta. y llegamos a ver esos patrones como modelos. el resultado es una ecuación con variables y pesos. Minería de datos en general (y Minería de datos de Microsoft en particular) crea conclusiones basadas en técnicas matemáticas generalmente aceptadas para la comparación de patrones. Podemos utilizar software de minería de datos para aplicar matemáticas sofisticadas y descubrir patrones ocultos. aunque creo que la distinción entre estos términos es discutible. Un modelo generalmente es una descripción de algo más. pero como regla general. Es importante que la minería de datos no resulte solamente en una ecuación. La estadística es importante para los analistas. porque estos modelos nos dan información estadística. sino también las extensiones de lenguaje de minería de datos (DMX – Data Mining Extensions) y la estructura . Finalmente. La minería de datos de Microsoft produce modelos. y en minería de datos. Un patrón puede ser considerado un modelo o una explicación de un conjunto de datos empíricos. Sería apropiado decir modelos estadísticos.33 es que la minería de datos es otra herramienta importante que el analista puede y debe usar. Si hemos hablado con algunos vendedores de minería de datos o consultores. patrones (los cuales pueden ser patrones o reglas o formulas) y enlaces (el significado de los enlaces de datos con la estructura de minería. Julio 2010– www. algunos de los cuales son expresados como ecuaciones.com/sqj . el lugar donde los datos son definidos para la minería de datos). y el potencial para adaptar el desarrollo extiende las posibilidades para la automatización de la empresa. El término tiene una connotación que puede incluir una modelo o tal vez un modelo de automóvil o un hogar modelo. La minería de datos de Microsoft trabaja de manera automática por diseño. tanto descriptiva como predictiva. porque alguien puede decir que ya se tienen y ya se han visto todos los datos. ¿Qué es un modelo? He tenido diversión interactiva haciendo esta pregunta cuando presento este tema. La programabilidad extiende esta actividad más allá de solamente el análisis a la medida y permite a los analistas proyectar sus hallazgos en soluciones completas de nivel empresarial. Microsoft no solamente ha previsto herramientas de usuario como el BIDS y el plug-in de Excel 2007. De hecho. proviene de los libros en línea de SQL Server (SQL Server Books Online). para nuestro uso. incluso para los productos que nos gusta usar. ¿Qué obtenemos de la minería de datos? Me encantaría decir que la minería de datos puede resolver todos los problemas del mundo. Por lo general estas técnicas avanzadas provienen de matemáticos con un alto nivel académico y la minería de datos en sí misma es un área activa de la investigación universitaria. incluso sin minería de datos.solidq. El diagrama de la arquitectura del modelo de minería en la Figura 1. El modelo de minería de Microsoft incluye metadatos (información acerca de los datos). podríamos preguntarnos si ¿colocar una función en un ciclo de control vuelve un proceso semiautomático en uno automático? Los desarrolladores de software son una audiencia importante para la tecnología de minería de datos de Microsoft. Regresando a la definición central. todos tenemos que leer más allá de la promesa de la publicidad. la tecnología muestra resultados que muestran relaciones basadas en datos. Tercero. El adjetivo oculto puede ser contra intuitivo. La minería de datos puede y en algunos casos debe presentar ecuaciones. Señalar esta diferencia fue importante para mí. Siendo realistas. The SolidQ™ Journal. Desde la perspectiva del desarrollador de software. la minería de datos es una actividad automática. la minería de datos asume datos empíricos solamente y sus resultados provienen de la información presentada.

com/sqj . Generalmente la minería de datos puede localizar una sola observación.. es importante para los mineros de datos profesionales dedicar tiempo a comprender qué modelos son posibles y qué es lo que pueden entregar. incluso por sus propias características determinadas. • Publicidad dirigida – la gente de marketing utiliza la minería de datos para entregar anuncios perso- ©The SolidQ™ Journal. Microsoft ha proporcionado mucha información gratuita en línea y yo tengo enlaces a muchos recursos importantes disponibles en marktab. Julio 2010– www. Por lo tanto es preciso decir que la minería de datos no puede resolver los problemas del mundo. la minería de datos sugiere otro producto. puede permitir a grandes organizaciones a administrar sus campañas de marketing u organizar sus servicios profesionales alrededor de grupos similares. deberían incluir la formación continua y el desarrollo de sus analistas. el propósito es resolver algún objetivo de negocio.thesolidqjournal business intelligence 34 En el caso de la minería de datos de Microsoft. • Análisis de “separación” (Churn Analysis) – el término “separación” (Churn) se refiere a perder un cliente cautivo. La minería de datos no es independiente de un analista profesional que pueda interpretar y aplicar los resultados a una pregunta de negocios. 2009). Incluso podría ser correcto decir que la minería de datos no resuelve problema alguno directamente. 2009. Figura 1: Arquitectura del modelo de minería puede que no haya una ecuación específica (o grupo de ecuaciones) que describan completamente el modelo entero. 4-5). que pudieran estar cometiendo fraude. pp. puede ser importante. Además de la información de libre acceso.net (MarkTab Consulting. esta lista incluye: • Generación de recomendaciones – después de que el cliente seleccionó uno o más productos. sino también en las herramientas tecnológicas que desarrollen soluciones. Si estos resultados provienen de la estadística o de la minería de datos (o de ambas). pero en su lugar es el minero de datos (el profesional capacitado) quien llena el vacío entre un modelo de minería de datos y un problema de negocio. fraudes en la industria financiera en donde se busca una transacción o un cliente entre miles. Los resultados de la minería de datos son dependientes de los datos (y por lo tanto metadatos) que se usaron para crear el modelo. no solamente en los objetivos esenciales específicos de la industria. ¿Qué problemas resuelve la minería de datos? Algunos problemas típicos que la minería de datos puede ayudar a resolver son categorizados en el libro “SQL Server 2008 Data Mining” (MacLennan et al. las grandes empresas deberían a provechar a los consultores de minería de datos y la capacitación en minería de datos para acelerar ya sea su comienzo o bien su actualización en minería de datos. Las organizaciones que toman en serio las tecnologías de minería de datos. En muchos entornos de negocios empresariales. el resultado actual ha sido información que conlleva a tomar algún tipo de acción. La traducción requiere de alguien que conozca los objetivos específicos de la industria y la tecnología de minería de datos. entre incluso millones que pueden ser diferentes. y conocer tempranamente que indicadores pueden mostrar que alguien está listo a cambiar.solidq. Incluso en lugares en donde la estadística y los analistas estadísticos han proporcionado soluciones. lo que cuenta es traducir los resultados matemáticos al lenguaje de negocios. Los tomadores de decisiones quieren conocer a fondo cómo tomar decisiones. • Segmentación de clientes – Agrupar clientes. • Detección de anomalías – Comúnmente. • Administración de riesgos – Las calificaciones crediticias frecuentemente se basan en fórmulas multivalentes que ayudan a predecir niveles de riesgo.

Los deportes son tema de actualidad en todo el mundo. ya sea en el año actual o a través de la historia. Julio 2010– www. la minería de datos puede proporcionar pistas sobre la respuesta. tan común que cada planta de procesamiento de cacahuates necesita tomar muchas precauciones contra los agentes causales conocidos. • Pronóstico – Los análisis de series de tiempo toman datos del pasado y ofrecen una mirada hacia el futuro.. Demos una mirada a algunas historias de msn. incluso cuando hay aumentos o disminuciones estacionales. • Negocios . pero en algunas situaciones. Microsoft cuenta con casos de estudio en línea describiendo implementaciones específicas de negocio de The SolidQ™ Journal. Toda la historia que tenemos son indicadores de rendimiento para un equipo en particular. En cualquier investigación (de salud o criminal). La salmonella es una bacteria muy común.35 nalizados en línea.UU. La mayoría de las encuestas se realizan con una muestra de la población total. En los EE. La minería de datos puede dar una idea de cómo proporcionar pesos porque muchos de los algoritmos de minería de datos de Microsoft ponderan. se contrae a un ritmo muy acelerado desde 1982. En esta historia la clasificación entre los candidatos conocidos para determinar a los actuales culpables requiere reunir datos. pero las organizaciones generalmente siempre quieren saber cómo dirigir sus comunicaciones basados en lo que saben de su clientela. La causalidad es un tema complicado (y más allá del alcance de este artículo).UU. La sabiduría estadística clásica establece que la correlación no prueba la causalidad.com (Microsoft 2009b) y veamos qué preguntas pueden ser abordadas por la minería de datos: • Noticias en EE. En presentaciones pasadas he señalado numerosos ejemplos del valor de la minería de datos en las noticias. • Salud – El brote de salmonella en la industria de los cacahuates en EE. muchos minoristas experimentan incrementos en sus ventas durante la temporada navideña entre noviembre y enero. podría haber múltiples causas posibles. y sabemos de los encuestadores entrevistan a los votantes justo antes y después de las elecciones. es decir que sólo porque un par de indicadores podrían subir y bajar juntos no quiere decir que uno cause el otro.UU. Tal vez hayas sido entrevistado para algún estudio. Las series de tiempo son las herramientas de que dispone la minería de datos.com/sqj .Una historia que dice que los consumidores están más al día en enero me lleva a pensar cómo la minería de datos pueden aportar una importante contribución al monitoreo (la colecta y análisis de las encuestas). el investigador tiene que clasificar por completo múltiples eventos y factores. pero podemos crear un modelo computarizado (minería de datos aplicada) para ayudarnos a descubrir patrones y proporcionar puntos de vista acerca de los deportes de equipo o los jugadores considerados los mejores del mundo o de la historia. las cuales ayudan a proporcionar información comparable incluso cuando las tendencias estacionales podrían influir en los datos.UU. y cuando esta colección implica complejas relaciones multivalentes. por lo que el análisis requiere la aplicación de pesos a los resultados para que la muestra se asemeje más a la población. Ya advertí anteriormente acerca de las conclusiones de causalidad cuando sólo existe evidencia asociativa (culpa por asociación). La gente quiere saber qué equipos y que jugadores son los mejores. • Deportes – Una historia acerca de los Acereros de Pittsburgh se preguntaba si el equipo de la NFL tenía la mejor línea defensiva de todos los tiempos. pero es importante no precipitarse a concluir una causa y efecto fuera de un experimento cuidadosamente controlado. • Noticias Mundiales – Un artículo sobre el calor abrasador que se registró al sur de Australia trae a la mente la forma en que más datos sobre el clima pueden proporcionar las variables asociativas para ayudar a entender por qué las temperaturas aumentan. y decidir cuáles tienen una relación causal probable en un resultado específico. – La historia nos reporta que la economía de los EE. (ahora se cree que se trata de una sola planta procesadora) es un ejemplo del tipo de investigación para la cual la minería de datos puede ser muy valiosa.solidq. Los minoristas experimentados saben ajustar comparativamente su análisis para contabilizar lo que es una temporada diferente comparada a las otras temporadas.

transformarlos para darles un uso apropiado. y SAS). Estas nuevas normas culturales provienen de la cultura de Inteligencia de Negocios y SQL Server. todo el hardware tiene costos de mantenimiento asociados. ¿Qué costos tiene la minería de datos? Algunos costos que considerar rápidamente en la implementación de la minería de datos: • Licenciamiento o tarifa de compra – los costos del software varían. incluyendo Oracle. incluyen: • Integración estrecha con la plataforma de base de datos de clase mundial SQL Server. otros tienen precio de licenciamiento. Teradata. y los respaldos de los datos están incluidos en el costo.nivel inteligencia de negocios. Esta tecnología puede acceder datos en otras plataformas (a través de los proveedores ADO . Algunas ventajas importantes de las herramientas de minería de datos de Microsoft. y creo que es una añadidura bienvenida en la forma que han venido trabajando los analistas estadísticos tradicionalmente. • Producción – calidad en el uso y resultados. sino también limpiarlos y. Un equipo de desarrolladores puede integrar la minería de datos dentro de las soluciones actuales de Inteligencia de Negocios.solidq. donde estos costos pueden ser evaluados y ajustados de manera apropiada.com/sqj . Alguien necesita hacerse cargo de esta preparación de los datos para el análisis (y dichas tareas son frecuentes en la mayoría de los sistemas de inteligencia de negocios). para que cuando nos enfrentemos con un problema. y otras veces. la tecnología Microsoft implica a equipos de trabajo para que tomen bajo su tutela más proyectos de minería de datos y podemos esperar que en futuras iteraciones nos ayude a habilitar el trabajo de diferentes equipos en la minería de datos de forma conjunta. El modelado de datos conlleva una norma cultural que nos muestra a individuos fuertes guiando el camino (podemos pensar en John Wayne o en nuestro superhéroe favorito de historietas). Adquirir los datos puede ser parte de la solución o puede ser que requieras de una nueva estrategia para reunir datos. posiblemente. DB2. la seguridad y las características de optimización de SQL Server. • Desarrollo del personal – La minería de datos no simplemente funciona una vez que se han cargado los datos en la computadora. La integración funciona mejor con Windows. • Hardware y mantenimiento – ya sean las computadoras de escritorio o los servidores. Esto significa que la minería de datos aprovecha el desempeño. sino en la medida de lo posible. Ventajas de la minería de datos de Microsoft Hay muchos productos de software de minería de datos disponibles (libres o no). Además de que muchas organizaciones ya poseen la licencia de minería de datos a través de SQL Server 2008 o 2005. SQL Server proporciona formas de monitorear el uso. Las grandes organizaciones deben incluir intencionalmente los costos de la minería de datos dentro de sus procesos normales de presupuesto. Julio 2010– www.thesolidqjournal business intelligence 36 minería de datos SQL Server (Microsoft 2009a). hasta efectuar desarrollos a la medida. sólo parte de los datos se encuentra disponible. • Adquisición de datos – Algunas veces los datos no están disponibles para resolver un problema en particular. Pero el punto más importante es aprender acerca de los algoritmos y de lo que hacen.NET. Un analista entrenado en minería de datos se compromete no solamente a aprender la tecnología. pero debido a que se puede utilizar una interfaz web. • Preparación de datos – Preparar datos para la minería no significa sólo tenerlos. ©The SolidQ™ Journal. • Aplicaciones para producción . Esta característica es importante porque Microsoft crea y da soporte a lenguajes. Algunos productos de minería de datos para computadoras de escritorio por si solas no otorgan la escalabilidad o la seguridad y las características de acceso a los datos de SQL Server. podamos considerar la minería de datos como parte de la solución. no necesita ser una solución de Inteligencia de Negocios basada en Windows para integrar estas herramientas. y aunque algunos paquetes de software son gratuitos. Pero a medida que avanzamos. Necesitamos héroes pero también necesitamos equipos.

Inc. Data Mining with Neural Networks. NY: Springer Science & Business Media. M.v10/MS.SQLSVR. • Aplicaciones prácticas en Excel a través de los complementos de minería de datos.marktab. Entre la comunidad de minería de datos el término “Análisis Visual” (Visual Analytics) incluye la habilidad de realizar análisis a través de interfaces visuales y los complementos proporcionan una buena manera de aprovechar la bien conocida interfaz visual de Excel la cual proporciona la fachada principal (front-end) para todos los algoritmos de minería de datos de Microsoft. from http://www.solidq. Inc.com/ssdm/.. NC: SAS Institute.. M. Data Mining with SQL Server 2005.microsoft. y miembro asociado facultado en la universidad de Phoenix. San Francisco. Data Mining Techniques. (2006).. & MacLennan.aspx.-N.marktab.SQLCC. J. • CodePlex Open Source Community.. The SolidQ™ Journal. • MacLennan. (2005). • Han.v10. 2009. Introduction to Data Mining. San Francisco. www. • Microsoft. 2009). MSN Web Portal. & Frank. Retrieved January 15. Retrieved January 15. J. (2006). LLC. (2006). NY: John Wiley & Sons. IN: Wiley Publishing.com/sqj . I. CA: Elsevier.com. (2008). from http://www. New York. 2009. (2005). Tang.net. from http://www.. B. Retrieved January 15. (2009b). CA: Elsevier. Inc. Data Mining with SQL Server 2008.SVM) y el código se encuentra disponible en Codeplex (CodePlex Open Source Community. New York. SQLServerDataMining. • Witten.sqlserverdatamining. & Linoff. • Tan. Por ejemplo hay algunos que han escrito un algoritmo de máquina de vectores de apoyo (Support Vector Machine . and Prediction. Julio 2010– www.net. Microsoft SQL Server 2008 Product Information . NY: John Wiley & Sons. R. Inc. • Hastie.. • Microsoft. (2009). Retrieved January 15. Retrieved January 15. Tibshirani. Support Vector Machine plug-in in Analysis Services. G.htm. Se pueden ver algunas demostraciones y ejemplos de los complementos en mi sitio web (www. Inference. 2009). Indianapolis.acm. • Berry. J.. • MarkTab Consulting. MA: Pearson Education. from http://www. (2009). P.). A.aspx • Microsoft. & Kuman.com Home Page. (2000). Steinbach. Microsoft ha proporcionado algunos consejos y técnicas para la extensibilidad en el sitio web respaldado por el equipo de minería de datos de Microsoft (SQL Server Data Mining Team. (2009a).en/s10dm_0evalplan/html/cd4df273-0c6a-4b3e-9572-8a7e313111e8.net). from http://svmplugin.codeplex. Inc. J. J. 2009. Z. E. Inc. Pueden seguir a Mark a través de Twitter en: @MarkTabNet.37 • Extensibilidad. P..msn. Inc. (1997)..). SQL Server 2008 Books Online -. Su sitio web. New York. IN: Wiley Publishing. from http://msdn. M. es un portal dedicado a la minería de datos con SQL Server. (2008a). Inc. G. Indianapolis. Es posible extender la minería de datos de Microsoft para implementar algoritmos que no vienen incluidos en el producto. Z.marktab.org/. & Friedman.NET un desarrollador de software puede integrar otras soluciones de minería de datos independientes dentro de la solución Microsoft (el nivel de integración depende de cómo es de abierta la otra solución de minería de datos). y se pueden encontrar enlaces a muchos recursos que personalmente he encontrado útiles en mi portal de minería de datos www. J. H. Espero que esta breve introducción a la minería de datos haya proporcionado una mirada al mundo real sobre algunos problemas de negocio que pueden ser resueltos con la minería de datos. from http://www. (2001).net Data Mining Portal. 2009. The Elements of Statistical Learning: Data Mining. & Crivat. • SQL Server Data Mining Team. References • Association for Computing Machinery. Inc.D. 2009. Retrieved January 15.Data Mining). 2009. Data Mining: Concepts and Techniques (Second ed.Data Mining). • Tang. Sobre del Autor Mark Tabladillo. MarkTab. V. Inc. New York. • Cerrito. Mining Models (Analysis Services . 2009. Boston. 2008.. Mastering Data Mining. B.net. Es propietario de MarkTab. es mentor de Solid Quality Mentors especializado en minería de datos y tecnologías de inteligencia de negocios.com/. • Microsoft. (2008b).. Cary. • Berry. • Bigus. (1996). Introduction to Data Mining Using SAS Enterprise Miner. & Linoff. J. Ph.marktab.microsoft. (2009). También utilizando el sistema . P. Microsoft también proporciona mucha información gratuita en línea y tutoriales sobre su software. NY: McGraw-Hill Companies. from mshelp://MS. Retrieved August 15.. M. A. Se puede empezar a utilizar la minería de datos mediante el uso del complemento de Excel de 32 bits. Welcome Page.com/sqlserver/2008/en/us/case-studies. (2009).com/en-us/library/bb510519. Data Mining: Practical Machine Learning Tools and Techniques (Second ed.Case Studies.How Do I Browse by Job Role (Analysis Services . & Kamber.. Retrieved January 15. T.