You are on page 1of 32
Usando machine learning en big data PID_00241341 Ricardo Garcia Ruiz Tiempo minimo de dedicacién recomendado: 6 horas Cr U Universitat Oberta ( de Catalunya 10+ P9019 Lande marie wring en ta Nin pa es poi nd So ny caer pe capa, ‘asim ri fergie esr et eit pn isin Lande marie wring en ta indice 1, Fundamentos del aprendizaje automatico (machine learning), LA, Aprendizaje automatico y big data. 1.1.1, Introduccién al aprendizaje automatico en relacién al big data, 1.1.2. Aprendizaje automatico con big data: analisis avanzado de datos 1.1.3. Una mirada mas cercana al aprendizaje automatico 1.1.4, Taxonomfas en el aprendizaje automatic 1.2. Mineria de datos y su relacién con el aprendizaje automatico 1.2.1. Tareas en la minerfa de datos 1.2.2. La evaluacién del modelo y su validacién 1.2.3, Retos de la mineria de datos 13, abajando con datos 1.3.1, Preparacién de datos para el aprendizaje automatico 1.3.2. Preprocesamiento de datos 14, Prictica: introduccién a KNIME 14.1. KNIME 1.4.2, Descarga ¢ instalacién de KNIME 1.4.3, KNIME Workspace 2. Herramientas y técnicas de clasificacién. 2.1. Algoritmos de clasificacién - método Naive Bayes 2.1.1. Un enfoque de modelizacién estadistica 2.1.2, Testeando nuestro modelo estadistico 2.1.3. Reglas en el método Naive Bayes 2.2. Algoritmos de clasificacién - aprendizaje mediante arbol de decision 2.2.1. Induccién mediante drboles de decision 2.2.2, La construccion de arboles de decision. 2.2.3. Problemas por sobreajuste en arboles de decision 2.3. Clasificacién con Spark 2.3.1. Spark: biblioteca de aprendizaje automatico (MLIib) 2.3.2. Spark: usando MLlib para clasificacion 3. Aprendiendo a utilizar las reglas de asociaci6n, 3.1. Reglas de asociacién 3.1.1. Reglas de asociacién en mineria de datos 3.1.2, Cémo trabajan las reglas de asociacién en mineria de datos 3.2, Bjemplos de reglas de asociacién en mineria de datos 3.2.1. Weather data, 12 18 15 7 a 23 23 28 28 28 29 30 33 33 33 36 38 39 39 B 46 48 48 52 87 87 87 59 63 83 3.2.2, Especificando soporte y cobertura 4. Andlisis mediante agrupaci6n (cluster analisys) 4.1, Aprendizaje no supervisado mediante clustering. 4.2. El algoritmo de clustering K-means. 43. Clustering en Spark usando MLlib 66 m1 nm 74 7 Lande marie wring en ta 1, Fundamentos del aprendizaje automatico (machine learning) 1.1. Aprendizaje automitico y big data 1.1.1, Introduccién al aprendizaje automitico en relacién al big data En este curso aprendertis algunas de las herramientas y técnicas para el ana lisis de grandes voltimenes de datos mediante el uso de técnicas de aprendi- zaje automitico, machine learning. Vais a poder desarrollar, sobre la base de lo aprendido anteriormente, los datos preparados, y mirar las relaciones mas, profundas entre elementos. ¥ también a construir, ejecutar e interpretar algu- nos de los principales modelos de aprendizaje automatico. En primer lugar, vamos a recapitular donde estamos en este momento. Recor daremos una buena estrategia para hacer frente a grandes voltimenes de datos, cn el framework MapReduce y el sistema de archivos HDES. Recordaremos también que el ecosistema de Hadoop proporciona herramien- tas para ayudar a procesar grandes volimenes de datos y hacer el framework mis flexible. Estas herramientas nos ayudan a realizar el procesamiento de consultas, reunir restimenes, explorar los datos. Otro tipo de analisis que vamos a cubrir en este curso es el de modelado, Aun alto nivel, podemos pensar en el modelado como todo aquello que trata de encontrar relaciones entre los datos, Esto podria implicar categorias de da- 10s, entre las variables en los datos, o entre las variables en alguna etiqueta de destino o de clase externa, Y las relaciones o bien pueden ser provistas por un experto en el dominio, 0 que se puedan aprender, y esencialmente eso es 1 aprendizaje automatico. En. este curso, aprenderéis algunas de las claves, algoritmos principales, y en qué contexto se deberan usar. Se va a cubrir el aprendizaje automético utilizando una herramienta basada en GUI llamada Nine, que es posible ejecutar con datos resumidos. ¥ con la plataforma Sparks, que trabaja directamente con datos distribuidos. 1.1.2. Aprendizaje automatico con big data: an datos Hemos hablado mucho de tiempo real, de plataformas de alto rendimiento, Hemos hablado de Hadoop y Spark. Hemos aprendido hasta ahora cémo in- corporar y manejar los datos en estas plataformas. Cémo hacer analiticas ba sieas. Algunos restimenes bisicos. Ahora vamos a introducitnos y mirar en las, capas adicionales para el anilisis de estos grandes volimenes de datos, Hemos hablado de que los datos estan creciendo muy répido, que van desde terabytes y petabytes hasta zettabytes y exabytes. Hemos hablado acerca de la velocidad con la que todo este desarrollo esta avanzando, y de las plataformas y las téc- nicas que pueden ayudarnos a domesticar esta noci6n de big data. Anterior ‘mente, hemos pasado tiempo aprendiendo sobre cémo organizar y realizar consultas, y ambas son piezas importantes dentro del procesamiento en big data, Ahora vamos a afiadir otra capa encima de eso, denominada analitica avanzada (advanced analytics). ‘Vamos a empezar a hablar de la mineria en el entorno big data, asi como de la Clasificaci6n, de la regresién, de las reglas en mineria de datos, clustering, todas diferentes técnicas que podemos aplicar a estos datos para tratar de obtener alguna informacién adicional. Anteriormente, se ha hecho mencién de un par de cosas diferentes sobre los, ‘grandes desafios de datos, {Cuales son algunos de los grandes desafios de da- tos? Bueno, en primer lugar, se trata de encontrar el talento. Y es de esperar, dado que nosotros mismos nos estamos enfrentando ahora a este reto al tomar este curso de especializacién en big data. En segundo lugar, hemos estado re- cogiendo datos de diferentes fuentes. Nos han estado llegando estos diferentes, conjuntos de datos de diferentes fuentes, como Twitter y Yelp y otros alo largo del recorrido de esta especializacién, Vamos a seguir haciendo eso. Y el tercero consiste en entender las herramientas y plataformas. En esta clase, vamos a aprender acerca de las herramientas especificas y plataformas espe ficas para la busqueda de una visién de los datos mediante el uso de mineria de datos, sistemas predictivos y todo aquello que proporcionan las téenicas de aprendizaje automatico. Asi, transformar los datos en conocimiento para tomar mejores decisiones es nuestro objetivo, Vamos a empezar a partir de datos, vamos a aplicar algiin tipo de andlisis, vamos a ver Insight, sin olvidar que nuestro principal objetivo es tomar decisiones basadas en estos datos y que nos conduzean a tomar acciones, ara ello, hemos hablado un poco sobre esto anteriormente y hemos mencio- nado enfoques de andlisis tradicionales. Un enfoque de analisis tradicional es cl que tipicamente realizan las empresas que tienen una gran cantidad de da- tos en un némero de formas diferentes y que tratamos de dar sentido fuera de para ver como pueden ayudar a su negocio. A menudo, se requiere de muchos tipos diferentes de anélisis en funcién del problema que se esta tra- 10+ P9019 7 ands mene ea en gate tando de resolver. Algunos analisisutilizarén un almacén tradicional. Tal vez, €n otto tipo de anélisis, se requeriran muchos enfoques diferentes para traer diferentes conjuntos de datos, Pero, tipicamente, solemos tener una gran can- tidad de datos, tomar algunos subconjuntos de los datos y tratar de ver si po- demos revelar algunos patrones. De esta forma, podemos tomar esos patrones y llevatlos de vuelta al negocio permitiendo algunas nuevas funcionalidades © proporcionar alguna informacién adicional. Ahora bien, si empezamos a hablar de los anilisis de big data y el enfoque en big datas, las cosas estan cambiando, tenemos que realizar un poco de cambio en el paradigma de trabajo. La capacidad para gestionar y analizar petabytes de datos permite a las empresas ahora estudiar los grupos de informacién que puedan tener un impacto en el negocio. ¥ ahora estamos requiriendo estos nuevos motores de anélisis que pueden gestionar esta informacién que se en- cuentra altamente distribuida, Estos motores pueden proporcionar resultados, con el fin de optimizar y resolver muchos diferentes retos empresariales. Asi que ahora el analisis puede llegar a ser muy complejo con big data. Por ejemplo, muchas organizaciones estén utilizando modelos predictivos que emparejan tantos datos estructurados y no estructurados en conjunto para predecir el fraude. Andlisis de medios sociales, anélisis de texto, todos estos ‘nuevos tipos de analiticas estén siendo utilizados debido a la presencia del big data, y fundamentalmente debido a todas estas nuevas tecnologias y platafor- ‘mas que nos permiten acceder al procesamiento distribuido sobre este gran conjunto de datos co 7 Decision ume: Mp6) meatless 4 e2sbenssstsoss Rar, ing nda OA Asi que hemos visto este diagrama antes. Hemos hablado de estos diferentes niiveles de datos y cémo llevan los datos a las decisiones y a la accién. En lo que nos vamos a centrar ahora es en el tercer nivel, en el predictivo. ;Qué va a pasar ahora? ;Cémo podemos tomar las predicciones y que se conviertan en decisiones y luego en posteriores acciones? Esto es en lo que vamos a centrar nuestro estudio en su mayorfa, Anteriormente mencionamos la forma en que todo encaja en este nivel de analisis de madurez. Ya hemos hablado de analizar los datos de que disponemos, de ser capaces de hacer las preguntas, por qué las cosas suceden, lo que sucedié. Y ahora estamos hablando de modelos pre- dictivos que nos ayudarén a responder a las preguntas de lo que podria suce- der. ¥ tal vez por qué y cémo esta sucediendo. ¥ entonces podemos entrar en. este atin més alto nivel de optimizacién. Lo que llamamos andlisis predictivo prescriptive u optimizado. Entonces, gcémo la maquina de aprendizaje encaja en todo el gran esquema de big data? Hasta ahora, hemos aprendido mucho sobre grandes volimenes, de datos. Sabemos que hay una gran cantidad de datos estructurados, una gran. cantidad de datos no estructurados, podemos saber que hay una gran cantidad de datos de los medios sociales y nos vamos a poder traer todos estos datos juntos. Vamos a aplicar una serie de diferentes algoritmos de aprendizaje au- tomatico con el fin de encontrar Insight. Hay muchos tipos diferentes de apli- caciones de datos grandes. Tradicionalmente, el negocio espera que se utiliza rn los datos para responder a ciertos tipos de preguntas acerca de qué hacer, tal vez cuando hacerlo, cémo son intrinsecamente los datos. La integracién, a menudo se hace de muchas maneras diferentes y viene a través de muchos campos diferentes, dependiendo realmente de si se trata de una aplicacién empresarial de propésito general o de aplicaciones de negocio muy especificas. Con Ia Megada de big data esto esta cambiando. Ahora estamos viendo el desa- rrollo de aplicaciones que estin diseftadas especificamente para aprovecharse de grandes voliimenes de datos. Para aprovechar estas caracteristicas especifi cas de grandes voliimenes de datos. Y vemos continuamente mas y mas de estos en muchas éreas. Mas especificamente, salud, manufactura, comerciali- zacién, estén desarrollandose y estén enfocados en utilizar grandes cantida- des de datos especificos. Lo que todas estas aplicaciones tienen en comin es que, si recordais que hablamos sobre las tres V, que estén todos los grandes, voltimenes de datos, velocidad y variedad de datos. Ademés, la posibilidad de transformar los datos y el comportamiento que aprenden sobre esos datos es Jo que se transforma en la ventaja para el mercado. Por lo tanto, la inica cosa que la mayoria de estas aplicaciones tendré en su fundamentacién es estar construido bajo el paradigma de algoritmos de apren- dizaje automatico. Asi que vamos a ver estos algoritmos de aprendizaje auto- matico y cémo podemos utilizarlos. 1.1.3. Una mirada més cercana al aprendizaje automitico Asi que vamos a echar un vistazo a la maquina de aprendizaje_ «We are drowning in data, bul starving for knowledge!» Si nos fijamos en esta cita de John Naisbitt, nos estamos ahogando en datos, pero estamos hambrientos de conocimiento, Eso es muy cierto, y sigue siendo cierto incluso en nuestra era de grandes volimenes de datos. Hay varias ma- neras diferentes de hablar de aprendizaje automatico. La gente, histéricamente, ha empezado a utilizar y a adoptar nuevas técnicas, de la inteligencia artificial y del aprendizaje automatico desde los sistemas de informatica y computaci6n. Y, con el tiempo, algunas de estas técnicas se han. clegido y utilizado por un nimero de diversas industrias, comenzando con la prediccién del mercado de valores, predicciones sobre fraude y cosas por el estilo, En ese momento se adopté el nombre de mineria de datos, Hablaremos de ello dentro de poco, aunque solo existe la intencién de que os familiaricéis, con esta terminologfa. Con el paso del tiempo, la mineria de datos comenz6 a evolucionar en anilisis predictive, que estaba en su mayor parte basado en estos algoritmos de aprendizaje automatico junto con quizas algunas de las herramientas de business intelligence (Bl). Entonces esos términos comenzaron, a evolucionar en algo que se llama advanced analytics. Y actualmente oimos mucho hablar sobre la ciencia de datos. Por lo tanto, cuando ofmos hablar de la maquina el aprendizaje, la minerfa de datos, 1 anilisis predictivo, a veces la gente utiliza estos términos indistintamente, y probablemente no presenta ningéin riesgo seguro para el propésito de nuestro aprendizaje. En realidad, nos estamos preparando para estas analiticas mas avanzadas y hacia el sentido de datos en el que estamos trayendo toda esta tecnologia y los problemas de negocios a la vez, Asi que hay muchas definiciones de la minerfa de datos, del aprendizaje au- tomatico. Data mining (mineria de datos) es el proceso de extraccién de informa cin significativa de grandes bases de datos, informacién que revela in- teligencia del negocio, a través de factores ocultos, tendencias y correla- clones para permitir al usuario realizar predicciones que resuelven pro- bblemas del negocio proporcionando una ventaja competitiva, Las he- rramientas de data mining predicen las nuevas perspectivas y pronosti- ‘can [a situacién futura de la empresa, esto ayuda a los mismos a tomar decisiones de negocios proactivamente. + Data Access + Data Sampling + Data 1 ‘Transformation E Evaluate & Interpret Model + Model Apply + Custom Reports + External Applications, ent sede coniel2885_ sami 78282) ces Probablemente hay otras cien detiniciones diferentes, y es probable que haya algunas definiciones mejores, Pero creo que realmente muestra asi que de lo que estamos hablando aqui es del impulso de descubrimiento de informacién, en los datos, y el modelado de patrones ocultos en los grandes volimenes © datos. Nos esta hablando sobre implicito, previamente desconocido, inespera- do, potencialmente muy iitl, 0 estamos hablando de mineria de datos en di- ferentes formas, y también, como podremos ver posteriormente, que pueden, ser en términos de reglas o irregularidades, tal vez patrones, tal vez limitacio- nes en datos fuera de rango, Pero por lo general son todos ellos procedentes de cualquiera de las bases de datos, o grandes conjuntos de datos filtrados, 0 HDES, o muchas fuentes diferentes. Asi que cuando hablamos de minerfa de datos, hemos querido hablar acerca de esta metodologia de realizacién de arriba abajo. Digamos que tenemos una gran cantidad de datos y nos gustaria utilizar algunas herramientas analiticas. Si empezamos usando herramientas de SQL, puede que la ejecucién de algu- nas consultas SQL, estamos haciendo algunos informes, decimos que estamos arafando la superficie de la informacién de nuestros datos. Debido a que es- tamos en busca de las cosas que sabemos que estan ahi, y queremos encontrar especificamente qué tipo de datos y cémo se aplican. A continuacién, vamos a entrar en un anilisis algo mas profundo, Quiza utilicemos algunas herramien- tas estadisticas y BI. Tal vez estemos haciendo algunos restimenes y anilisis. ¥ entonces, vamos a centrarnos, en este estudio especifico, en esta informacién, coculta, Estamos hablando de estos métodos de mineria de datos ascendentes, para el descubrimiento de conocimiento. Asi que vamos a necesitar cavar pro- fundamente en nuestros datos tratando de encontrar estos patrones que tal vez no sabfamos que existian antes. ands mene ea en gate Role of Software Proactive Predictive Analytics Interactive Passive Presentation Exploration Discovery A menudo, vais a ver este tipo de graficos en el que se habla sobre papel pasivo ¥ activo de software, asi como la presentacién, la exploracién y el descubr miento de los datos. ¥ lo que donde realmente queremos estar es en esa es- quina superior derecha, Realmente queremos tratar de llegar a ese anélisis pre- dictivo o mineria de datos, junto con la herramienta de BI que nos permitiré subir con mas descubrimiento avanzado, més el conocimiento del negocio, y un enfoque mas proactivo para nuestros datos. Entonces, qué es la mineria de datos? Realmente es una combinacién de la IA o herramientas de inteligencia artificial y el analisis estadistico que estén utilizandose a la vez para descubrit la informacién oculta en nuestros datos. Entonces, gqué tipo de cosas se pueden descubrir a partir de datos? Existen diferentes tipos de relaciones que podemos descubrir en nuestros datos. Una de ellas son las asociaciones, y tal vez haydis ofdo hablar sobre la historia de la pizza y la cerveza; algunas personas dicen que no es una historia real. La historia comienza cuando alguien estd en la tienda de comestibles, mientras nosotros estamos buscando patrones en los datos, sedan cuenta de que cuando os hombres fueron de compras los jueves y los sébados, entonces coincide que compraron cervezas y pafiales. Y no existia previamente un enlace entre Ja cerveza y los pafiales, y ahora se pueden realizar todo tipo de analisis de la informacién con esto y vamos a hablar sobre este asunto un poco mas cuando entremos en la asociacién de en la asociacién de. Entonces podria estar buscando secuencias. Tal ver estamos tratando de atar eventos juntos. Matrimonios, compras de muebles, tal vez hubo algan com- ponente de tiempo alli también. © que podria estar buscando alguna clasifica- i6n, reconocimiento de patrones, tales como quizas los atributos de los em- pleados que tienen mas probabilidades de dejar de fumar, o atributos de los, clientes que tienen més probabilidades de atraer a nuestra empresa en parti-

You might also like