You are on page 1of 35

Qu es Machine Learning?

POR ANDRS GONZLEZEL 1 JULIO 2014 EN BIG DATA, DATA PREDICTION, MACHINE LEARNING

Machine Learning es una disciplina cientfica del mbito de la Inteligencia


Artificial que crea sistemas que aprenden automticamente. Aprender en este
contexto quiere decir identificar patrones complejos en millones de datos. La
mquina que realmente aprende es un algoritmo que revisa los datos y es
capaz de predecir comportamientos futuros. Automticamente, tambin en este
contexto, implica que estos sistemas se mejoran de forma autnoma con el
tiempo, sin intervencin humana. Veamos cmo funciona.

Big Data y Machine Learning aplicado a la empresa


Una empresa de telefona quiere saber qu clientes estn en peligro de darse de
baja de sus servicios para hacer acciones comerciales que eviten que se vayan a la
competencia. Cmo puede hacerlo? La empresa tiene muchos datos de los
clientes, muchsimos: antigedad, planes contratados, consumo diario, llamadas
mensuales al servicio de atencin al cliente, ltimos cambios de planes
contratados pero seguramente los usa solo para facturar y para hacer
estadsticas. Qu ms puede hacer con esos datos? Se pueden usar para predecir
cundo un cliente se va a dar de baja y gestionar la mejor accin que lo evite. Es
pocas palabras, con Machine Learning se puede pasar de ser reactivos a ser
proactivos. Los datos histricos del conjunto de los clientes, debidamente
organizados y tratados en bloque, generan una base de datos que se puede
explotar para predecir futuros comportamientos, favorecer aquellos que mejoran
los objetivos de negocio y evitar aquellos que son perjudiciales.

Esa cantidad ingente de datos son imposibles de analizar por una persona para
sacar conclusiones y menos todava para hacer predicciones. Los algoritmos en
cambio s pueden detectar patrones de comportamiento contando con las
variables que le proporcionamos y descubrir cules son las que han llevado, en
este caso, a darse de baja como cliente. La siguiente imagen es un ejemplo de una
prediccin simplificada basada en datos de una compaa de telefona ficticia,
pero usando una herramienta de Machine Learning real:
La visualizacin en rbol (en esta imagen est simplificado, la prediccin real tiene
muchos ms nodos) permite ver los patrones que han seguido ciertos clientes que
se han dado de baja. En este caso est resaltada una de las ramas centrales, que
indican un patrn en el que el cliente:

Tiene ms de 3 llamadas al servicio de atencin al cliente.


Llama menos de 171,95 minutos al da.
Las llamadas en horario nocturno son inferiores a 189,02 minutos.

Este es un anlisis de los datos histricos, pero dnde est la prediccin?


Vamos a ello: si los clientes que tienen estas caractersticas ya se han dado de baja
de la compaa, es previsible que los que todava son clientes y tienen este mismo
comportamiento estn en riesgo de irse. Segn este modelo predictivo, es
bastante probable que esto suceda (se dice que la prediccin tiene una confianza,
en este caso, de 91,97%). Si el departamento de marketing tuviera esta
informacin, podra proponerles proactivamente un cambio de plan de
tarificacin o podra revisar por qu han llamado al servicio de atencin al cliente
para intentar mantenerlos.

El rbol de prediccin completo sera el siguiente. En este caso hemos resaltado


una prediccin falsa (es decir, no se dara de baja) con una confianza del 90,59%. A
la derecha de la imagen se puede ver el patrn de comportamiento de este grupo
de clientes:
Por qu es importante?
La cantidad de datos que se generan actualmente en las empresas se est
incrementado de forma exponencial. Extraer informacin valiosa de ellos
supone una ventaja competitiva que no se puede menospreciar.
En CleverData pensamos que es una oportunidad a la que se le debe prestar
especial atencin. La gran ventaja es que actualmente no hace falta ser un gur
de los datos para poder aprovechar este tipo de tecnologas. Existen en el
mercado herramientas de uso muy sencillo (incluso para profanos en anlisis de
datos) y asequibles econmicamente para cualquier tamao de empresa que
permiten hacer predicciones como las descritas en el apartado anterior. Si quieres
ver cmo se genera un modelo como el anterior, revisa este artculo en el que
describimos el proceso paso a paso.

El reto de sacar partido de los datos se ha simplificado enormemente. El Machine


Learning de hoy no es como antes. Esto quiere decir que con los datos adecuados,
las tecnologas adecuadas y los anlisis adecuados es posible actualmente
producir fcil y automticamente modelos de comportamiento para analizar
datos de gran volumen y complejidad. Adems, los sistemas proporcionan
resultados rpidos y precisos sin intervencin humana, incluso a gran escala. El
resultado: predicciones de alto valor para tomar mejores decisiones y
desarrollar mejores acciones de negocio.

mbitos de aplicacin del Machine Learning


Muchas actividades actualmente ya se estn aprovechando del Machine Learning.
Sectores como el de las compras online no te has preguntado alguna vez cmo
se decide instantneamente los productos recomendados para cada cliente al
final de un proceso de compra? , el online advertising dnde poner un anuncio
para que tenga ms visibilidad en funcin del usuario que visita la web o los
filtros anti-spam llevan tiempo sacando partido a estas tecnologas.

El campo de aplicacin prctica depende de la imaginacin y de los datos que


estn disponibles en la empresa. Estos son algunos ejemplos ms:

Detectar fraude en transacciones.


Predecir de fallos en equipos tecnolgicos.
Prever qu empleados sern ms rentables el ao que viene (el sector de los
Recursos Humanos est apostando seriamente por el Machine Learning).
Seleccionar clientes potenciales basndose en comportamientos en las redes
sociales, interacciones en la web
Predecir el trfico urbano.
Saber cul es el mejor momento para publicar tuits, actualizaciones de
Facebook o enviar las newsletter.
Hacer prediagnsticos mdicos basados en sntomas del paciente.
Cambiar el comportamiento de una app mvil para adaptarse a las
costumbres y necesidades de cada usuario.
Detectar intrusiones en una red de comunicaciones de datos.
Decidir cul es la mejor hora para llamar a un cliente.
La tecnologa est ah. Los datos tambin. Por qu esperar a probar algo que
puede suponer una puerta abierta a nuevas formas de tomar decisiones basadas
en datos? Seguro que has odo que los datos son el petrleo del futuro. Ahora ya
puedes empezar a bombearlo.
Machine Learning: predicciones basadas en datos con
BigML
POR ANDRS GONZLEZEL 9 JULIO 2014EN BIG DATA, BIGML, DATA PREDICTION, MACHINE LEARNING8 COMENTARIOS

La prediccin de bajas de usuarios de servicios de suscripcin es una de las


aplicaciones ms conocidas en el mbito del Machine Learning, Big Data y Data
Prediction.

Las tecnologas de prediccin basadas en datos se han simplificado tanto que se


han puesto al alcance no slo de las grandes empresas, sino a las de cualquier
tamao. Herramientas como las desarrolladas por BigML han facilitado que el
Machine Learning sea una realidad por su sencillez, como vamos a ver en ese
artculo, y por sus costes reducidos.

Prediccin en 3 pasos
En el anterior artculo hacamos una pequea introduccin al Machine Learning.
En este vamos a ver un ejemplo prctico, paso a paso, de cmo explotar datos
que tenemos en la empresa para tomar decisiones, en este caso para evitar que
un cliente se d de baja de nuestros servicios (y que probablemente se vaya a la
competencia).

Nuestra empresa ficticia ofrece servicios de telefona y la pregunta que queremos


responder es: Este cliente se va a dar de baja en los siguientes X meses?. Las
posibles respuestas (nuestra prediccin) son dos: s o no.

Los 3 pasos por los que pasaremos son:

1. Recopilar un conjunto de datos histricos de valor.


2. Crear un modelo con los datos (entrenaremos un algoritmo).
3. Hacer predicciones.

Primer paso: recopilacin de datos


La seleccin y preparacin de los datos para entrenar al sistema es una de las
tareas ms importantes del proceso. Como vamos a ver en el resto del artculo, las
predicciones son tan sencillas de hacer con BigML que podemos tener el vicio de
poner todos los datos disponibles pensando que cuantos ms tengamos, mejores
sern las predicciones. Pero no, no sirve cualquier dato. Necesitamos datos de
calidad y bien estructurados. Si no los seleccionamos correctamente lo que
haremos ser introducir ruido en el sistema que producir predicciones de poco o
nulo valor. Aunque durante el proceso de entrenamiento del algoritmo el propio
sistema puede detectar y descartar datos que considera superfluos, es importante
hacer una labor de seleccin de los datos que tengan sentido para responder la
pregunta que les estamos haciendo. En el caso que vamos a tratar en este
artculo, esta tarea ya est hecha, pero si quieres ms informacin, revisa esta
entrada de nuestro blog que explica con ms detalle por qu es importante
limpiar, seleccionar y transformar los datos.

En nuestro ejemplo, vamos a caracterizar a cada cliente (o abonado) con algunos


datos clave de su perfil, como por ejemplo su antigedad o el nmero de llamadas
que ha hecho. La pieza mnima de informacin que usamos para definir el perfil
de los abonados la llamaremos caracterstica (feature en ingls). El conjunto de
abonados, junto con sus caractersticas, forman la base de datos (un fichero CSV)
que es el que usaremos para hacer las predicciones.

Tipos de caractersticas

Para predecir las bajas de un servicio de telefona podemos dividir las


caractersticas en 4 grupos:

Caractersticas del cliente: informacin bsica del usuario (por ejemplo


edad, sexo, ciudad de residencia).
Caractersticas de soporte: son datos sobre la interaccin del usuario con el
servicio de atencin al usuario (nmero de llamadas, cuestiones planteadas,
valoracin de su satisfaccin).
Caractersticas de uso: uso que hace el abonado del sistema (nmero de
interacciones con el servicio, planes contratados, gasto mensual).
Caractersticas adicionales o de contexto: otro tipo de informacin til para
la prediccin (por ejemplo, la antigedad del cliente).

Vamos ya con el ejemplo concreto. Basaremos el ejercicio de este artculo en un


fichero que pone a nuestra disposicin BigML para predecir las bajas de clientes
en una empresa ficticia de telefona. Al ser un ejemplo, las caractersticas no se
ajustan exactamente a las que desearamos, pero nos sirve para hacer un paseo
por el proceso de prediccin.
El fichero que usaremos es un CSV tiene informacin de 3.333 abonados y tiene
este aspecto:

Cada lnea corresponde a un abonado, con sus caractersticas y con una ltima
columna que indica si ese abonado se dio de baja o no (columna churn). Hemos
dividido el fichero original en dos, uno con el 80% de los datos y otro con el 20%.
Para entrenar al sistema (crear un modelo) usaremos el fichero con el 80%. Para
verificar si el modelo hace buenas predicciones usaremos el 20% restante.

Manos a la obra. Ahora toca subir los datos al sistema. Si no lo has hecho ya, crea
una cuenta en BigML (es gratis). En el panel de control (Dashboard), pulsa en el
icono de la carpeta y selecciona el fichero con el 80% de los datos en tu ordenador
o simplemente arrstralo desde el escritorio al espacio de trabajo (drag&drop).

El fichero aparecer en la lista de Sources:


Pulsando en el nombre del fichero podrs ver una muestra de los datos que has
subido (hasta 25 instancias). Observa que las filas se han convertido en columnas
y las columnas en filas:

BigML ha detectado el tipo de dato de cada caracterstica. En este caso slo


tenemos datos de texto y datos numricos, representados por ABC y 123
respectivamente.

Una vez subidos los datos vamos a crear un Dataset, es decir, transformar el CSV
en un formato que BigML puede tratar y en el que podremos hacer un anlisis
previo de los datos.

Con un clic en el icono de la nube representado con un rayo creamos el Dataset


(1-CLICK DATASET):
Aparecer automticamente la siguiente ventana:

Aqu ya podemos hacer un preanlisis de los datos. Los histogramas de la derecha


sirven para analizar la variacin y distribucin de cada caracterstica. No
entraremos en detalle pero es interesante pasar con el ratn por las figuras para
ver sus propiedades. Tambin es interesante fijarnos en la ltima fila,
que BigML ha marcado con una diana para indicar que es el campo objetivo, es
decir, el campo que vamos a predecir (automticamente se asigna como objetivo
la ltima columna del fichero, pero se puede cambiar):

Tambin hay que destacar que la primera fila State tiene una admiracin con la
leyenda This field is not preferred. El sistema ha detectado que este campo no es
significativo para hacer predicciones de bajas, ya que tal y como se ve en el
histograma, es un dato que se puede considerar aleatorio. Es un dato que
pensbamos que sera interesante para hacer la prediccin, pero BigML lo
descarta por no aportar valor y porque puede introducir ruido en las predicciones
(aunque podramos usarlo si consideramos que BigML se ha equivocado en su
valoracin).

Segundo paso: crear un modelo (entrenar al sistema)


Tras crear el Dataset, vamos a crear y entrenar el modelo. En este paso BigML va
a detectar los patrones de comportamiento que llevan a los abonados a darse de
baja. En la vista de Dataset clicamos de nuevo al icono de la nube representado
con el rayo y pulsamos esta vez en 1-CLICK MODEL:
En tu pantalla aparecer el rbol de patrones:
Un rbol de patrones representa un modelo en el que cada nodo est asociado
con una pregunta a un valor de una caracterstica, con un nmero de posibles
respuestas representadas por las ramas, en el que las hojas se asocian a los
valores de salida. La respuesta a la primera pregunta est en el nodo superior.
Segn se baja por los nodos del rbol se van respondiendo a ms preguntas. El
valor del ltimo nodo nos da la prediccin del modelo. Cada nodo lleva asociada
una confianza en tanto por ciento.
En este punto ya tenemos el modelo entrenado con datos histricos. El sistema ha
detectado los patrones junto con la confianza de cada uno. Vamos ahora a hacer
predicciones.

Tercer paso: hacer predicciones


Hay varias formas de hacer predicciones. En este artculo vamos a usar una de las
ms sencillas. Se trata de una prediccin individual, de un nico abonado, con las
caractersticas que definamos nosotros.

Para empezar, en la vista del modelo pulsa en el icono de la nube representado


con el rayo y despus en PREDICT:

Automticamente aparece una pantalla para poner un valor a cada una de las
caractersticas:
Selecciona los valores que desees y pulsa en el botn verde inferior Predict.
Qu valores has puesto?Qu predice el modelo para este abonado?
Una prediccin uno a uno no es prctica en muchos escenarios. Para
predicciones masivas podemos usar un fichero de entrada con los datos de
todos los usuarios de los que queremos hacer predicciones. Se hacen desde la
opcin BATCH PREDICTION que habrs visto al pulsar la ltima vez en el icono de
la nube representado con el rayo.

Esta opcin, adems de servir para hacer predicciones masivas, sirve para verificar
si el modelo est funcionando correctamente. Te acuerdas del fichero con el 20%
de los datos? Es hora de usarlo. Hay que subirlo, crear un Dataset y hacer
predicciones Batch Prediction.

Ya lo has hecho? El modelo que hemos creado, est haciendo predicciones


fiables?Qu porcentaje de las predicciones ha acertado? Te adelantamos que
este modelo se puede mejorar, pero eso lo explicaremos en prximos artculos.
Te damos una pista por si quieres hacerlo t mismo: Ensembles.

Conclusiones
El mensaje que nos queda es que no es necesario nada ms que un servicio
como BigML para hacer predicciones, sin olvidar que los datos hay
que recogerlos, limpiarlos, transformarlos La calidad de una prediccin no
depende tanto del algoritmo que usemos como de la calidad de los datos. Por
otro lado, de la misma forma que hemos visto cmo predecir bajas, por qu no
predecir cul es el plan ms adecuado para cada cliente? Los datos estn ah. Es
hora de empezar a explotarlos para ayudar a la evolucin de tu empresa. Ya no es
necesario instalar infraestructuras dedicadas con grandes costes de
implementacin y gestin. Te animas?
Sistemas de recomendacin de contenido con Machine
Learning
POR ANDRS GONZLEZEL 19 SEPTIEMBRE 2014EN BIG DATA, MACHINE LEARNING, TECNOLOGA

Los sistemas de recomendacin de contenidos se han hecho muy populares en


los ltimos aos. Entre los mbitos ms extendidos se encuentran las
recomendaciones de productos en tiendas online, pelculas, vdeos, msica, libros,
productos o recomendaciones de perfiles a los que seguir en redes sociales. En
este artculo analizamos aspectos importantes a la hora de seleccionar o
implementar un sistema de recomendacin y el papel del Machine Learning en
este mbito.

Qu es un sistema de recomendacin?
Un recomendador es un sistema que selecciona un producto que, si se compra,
maximiza el valor tanto para el comprador como para el vendedor en un
determinado momento del tiempo. Para hacer las recomendaciones, el sistema
analiza y procesa informacin histrica de los usuarios (edad, compras previas,
calificaciones), de los productos o de los contenidos (marcas, modelos, precios,
contenidos similares) y la transforma en conocimiento accionable, es
decir, predice qu producto puede ser interesante para el usuario y para la
empresa. Los recomendadores, adems, tienen cierto nivel de autonoma a la
hora de presentar las recomendaciones al usuario final.

Desde un punto de vista ms tcnico, los recomendadores habitualmente son de


dos tipos: los filtros colaborativos y los filtros basados en contenido. En este
contexto, un filtro es el algoritmo matemtico que decide cul es la
recomendacin ptima basado en los datos que le entreguemos.

Los filtros colaborativos (collaborative filtering)


Los filtros colaborativos generalmente basan su lgica en las caractersticas del
usuario. Los datos que se tienen del usuario se convierten en el centro de un filtro
colaborativo. El sistema analiza las compras anteriores, las preferencias, las
calificaciones que ha dado de otros productos, el importe medio de las compras,
etc. y busca otros usuarios que se parecen a l y que han tomado decisiones
parecidas. Los productos que han tenido xito con usuarios similares,
seguramente tambin le interesarn al nuevo usuario.

Los filtros basados en contenido (content-based filtering)


Los filtros basados en contenido tienen el producto como base de la prediccin,
en lugar de tener al usuario. Es decir, utiliza las caractersticas del artculo (marca,
precio, calificaciones, tamao, categora, etc.) para hacer las recomendaciones.

Veamos un ejemplo de filtro basado en contenido que usa Machine Learning para
hacer las recomendaciones. Pensemos en un sistema de recomendaciones de un
servicio de msica en streaming. El producto en este caso seran las canciones.
Los datos de los que disponemos para cada cancin son por ejemplo el grupo, el
cantante, la discogrfica y el gnero (pop, rock, clsica, banda sonora). Para
enriquecer ms al sistema, tambin vamos a valorar las calificaciones que el
usuario ha hecho sobre los temas calificaciones explcitas, como las
puntuaciones con estrellas, o implcitas, como las veces que ha escuchado el tema
, as como las caractersticas propias del usuario (edad, sexo y pas).

Estos datos, centrados en el producto y aliados con datos del usuario, sern la
materia prima de este sistema de recomendacin. Veamos cmo se hace la
prediccin. El Machine Learning es una disciplina que hace predicciones en
base a preguntas a los datos. La pregunta que debe responder en este caso es:
este usuario al que tengo que hacer una recomendacin y que tiene estas
caractersticas, este comportamiento y que ha calificado previamente estas
canciones, qu calificacin le dara a esta cancin, que es del grupo X, de la
discogrfica Y y de gnero Rock? La respuesta del filtro (que hemos entrenado
con los datos de cientos de miles de usuarios del sistema) nos dara un nmero
entre 0 y 10, basado en las calificaciones que les han dado otros usuarios que se
parecen a l. La pregunta se debe repetir con todas las canciones que se incluyan
en el catlogo de recomendaciones y se obtendr la prediccin de las
calificaciones de todas ellas. De todas las respuestas, las canciones que obtengan
mejor nota sern las que se presenten al usuario.

Esta es una aproximacin a un sistema de recomendaciones. Existen otras que se


pueden valorar en funcin del tipo de producto que se est analizando y de los
objetivos de negocio. En todo caso, ms all del tipo de filtro y su diseo, hay
cuestiones importantes que se deben tener en cuenta.

Asegrate de que realmente necesitas un recomendador


Si el catlogo de productos es pequeo o si tienes pocos clientes, seguramente no
necesitas un recomendador. La rentabilidad de un recomendador crece
exponencialmente a medida que crecen tanto el catlogo como el nmero de
clientes.
La experiencia del usuario es ms importante que el
algoritmo
Asegrate de que el usuario ve las recomendaciones en el momento y sitio
adecuado. Definir por adelantado su ubicacin no es algo que se pueda
generalizar, cada tipologa de producto tiene sus necesidades. Una web de vdeos
como youtube ofrece recomendaciones principalmente en tres momentos: al
acceder a la pgina principal, cuando termina de reproducirse un vdeo y en la
zona a la derecha del reproductor. En cambio en una web de comercio electrnico
puede ser ms eficiente situarlas en la parte inferior del producto que se est
viendo y al final del proceso de compra. Lo imprescindible es que se muestren en
el flujo de navegacin cuando al usuario le sea ms til recibirlas. El A/B testing es
una buena tcnica para tomar este tipo de decisiones.

Las recomendaciones deben tener un sentido estratgico


La mejor recomendacin para un cliente es tambin la mejor para el negocio? No
siempre. Desde el punto de vista del cliente, es diferente una buena
recomendacin que una recomendacin til. A menudo las recomendaciones con
mxima probabilidad de ser correctas son demasiado obvias como para serle
tiles. En ocasiones es mejor hacer recomendaciones arriesgadas que ofrezcan
productos desconocidos para el cliente.

En cambio desde el punto de vista del negocio es necesario hacer un balance


entre las ganancias a corto plazo y el retorno a largo. La lgica de negocio debe
estar inserta en el sistema de recomendacin para poder ajustar los valores a los
objetivos de negocio. Contar con valores como la rentabilidad del producto
como parmetro de decisin puede ser un enfoque de partida.

Balancea adecuadamente los datos y los algoritmos


La calidad y cantidad de los datos es ms importante que los algoritmos. Un
buen algoritmo con unos datos de poca calidad ofrecer asimismo
recomendaciones de baja calidad. Pero unos buenos datos, con el volumen
suficiente y organizados eficientemente, nos darn recomendaciones
razonablemente buenas aunque el algoritmo no sea ptimo.

La fase de ingeniera de datos, seleccin de caractersticas, categorizacin (lo que


en ingls se llama feature engineering) es un proceso particularmente importante
en cualquier proyecto que implique un anlisis masivo de datos para hacer
predicciones.
Mdelo todo
Desde las impresiones o la tasa de clic (CTR), pasando por las acciones
secundarias, la eficiencia en distintos tipos de dispositivos, el tiempo medio de
compra, comparaciones entre usuarios con recomendaciones y sin ellas, precio
medio de la compra, nmero de interacciones totales, tiempo de visualizacin de
vdeos, tasas de rebote, nmero total de artculos revisados Todo.

Conclusiones
Un sistema de recomendaciones es mucho ms que un algoritmo o un filtro
que selecciona productos con ms o menos acierto. Podemos dividir un
recomendador en 4 partes: la base de conocimiento (la informacin, los datos), el
procesamiento de la base de conocimientos (tecnologa, algoritmos, filtros), la
analtica y control de negocio (medir todo, estrategia de negocio) y finalmente el
interface del usuario.

Para terminar, y ya que estamos en un mundo de datos, pongamos un peso a


cada una de ellas:

Base de conocimiento 25%


Procesamiento de la base de conocimientos 5%
Analtica y control de negocio 20%
Interface del usuario 50%

Evala tu entorno, tu producto, tu negocio, la calidad y cantidad de tus datos, el


comportamiento de tus clientes y construye el recomendador adecuado a tus
necesidades. Si deseas conocer ms sobre el tema, no dudes en ponerte en
contacto con nosotros.
Diferencias entre Business Intelligence y Machine Learning
POR ANDRS GONZLEZEL 14 FEBRERO 2017EN NEGOCIO, TECNOLOGANO HAY COMENTARIOS

Es habitual que la gente nos pregunte cul es la diferencia entre Business


Intelligence y Machine Learning. Yo tambin me hice esa pregunta cuando
empec en este apasionante mundo de las predicciones basadas en datos.

No creo que haya una posicin comn y nica en el mundillo de los datos sobre la
diferencia entre uno y otro. Aqu simplemente daremos nuestro punto de vista
basado en nuestra experiencia, que seguro que se puede complementar y
enriquecer con el de otros profesionales y especialistas del sector.

Empecemos primero por entender cul es el objetivo de cada mbito.

Para qu se usa el Business Intelligence?

El primer paso en cualquier tipo de Business Intelligence es recoger los datos en


bruto (raw data en ingls). Una vez almacenados, los ingenieros de datos utilizan
lo que se denominan herramientas de ETL (Extraer, Transformar y Cargar) para
manipular, transformar y clasificar los datos en una base de datos estructurada.
Estas bases de datos estructuradas habitualmente se llaman data warehouse.

Los analistas de negocio utilizan tcnicas de visualizacin de datos para explorar


los datos almacenados en las bases de datos estructuradas. Con este tipo de
herramientas crean paneles visuales (o dashboards) para hacer accesible la
informacin a perfiles de negocio no especialistas en datos. Los paneles ayudan a
analizar y entender los resultados en el pasado y sirven para adaptar la estrategia
futura que mejore los KPI (indicadores clave de negocio).
En definitiva, el Business Intelligence tradicional permite tener una visin
descriptiva de la actividad de la empresa, muy visual y basada en datos. Utiliza
principalmente datos agregados para describir tendencias de futuro.

Y qu diferencia hay con el Machine Learning?

En un principio podra parecer que poca, ya que el Machine Learning tambin usa
los datos para trabajar, utiliza herramientas de ETL para acceder a ellos y su
propsito principal es mejorar los objetivos de negocio de las compaas.

El mecanismo por el que lo hace es la deteccin de patrones en millones de datos.


Esta es una primera diferencia importante respecto al BI tradicional, a la que
podramos aadir, a nuestro modo de entender, estos tres aspectos:

1. Frente al uso de datos agregados, el Machine Learning utiliza datos


individuales con caractersticas definitorias de cada una de las instancias. De
esta forma se pueden usar miles de variables para detectar los patrones.
2. En lugar de basarse en una analtica descriptiva, el Machine Learning ofrece
una analtica predictiva. Es decir, no solo hace una valoracin de lo que ha
pasado y extrapola tendencias generales, sino que hace predicciones
individualizadas en el que los detalles y matices definen los comportamientos
del futuro.
3. Los paneles de visualizaciones o dashboards se sustituyen por aplicaciones
predictivas. Estamos hablando de uno de los mayores potenciales del
Machine Learning: los algoritmos predictivos aprenden automticamente de
los datos y sus modelos se pueden integrar en aplicaciones para dotarlas de
capacidades predictivas. Los modelos se reentrenan peridicamente para que
aprendan automticamente de nuevos datos.

Un ejemplo

Imaginemos un escenario en el que un ecommerce hace un anlisis del


comportamiento de sus clientes en la tienda. Uno de los objetivos es conocer con
antelacin y con el mayor detalle, cuntos clientes se van a dar de baja del
sistema el mes que viene, ya que eso es un KPI importante para el negocio.

Un enfoque basado en Business Intelligence utilizara lo sucedido en meses o


aos anteriores junto con otras variables globales como por ejemplo la tendencia
del mercado o el nmero de clientes en la fecha actual respecto a otros aos. Con
esos datos se crearan unos panes visuales de tendencias que informaran del
porcentaje previsto de clientes que se van a dar de baja.

El desarrollo de aplicaciones predictivas es una de las potencias


destacables del Machine Learning, ya que facilitan la automatizacin
de procesos, la toma de decisiones y el continuo aprendizaje basado
en datos

En base a esta informacin, la direccin del ecommerce puede tomar decisiones


de negocio, como por ejemplo dirigir campaas de marketing a determinados
sectores de poblacin.

En cambio, un enfoque basado en Machine Learning utilizara la base de datos


completa de clientes, perfiles, compras y bajas para buscar patrones de
comportamiento y determinar cules de ellos estaban dando seales de que se
iban a dar de baja el siguiente mes:

1. Los datos a usar seran los detalles de las compras de todos los clientes, sus
datos personales (edad, sexo, antigedad), los datos de los productos (base
de datos SKU, categorizaciones, precios), datos de promociones, de campaas
de marketing junto con un campo final que indicara, para cada cliente, si se
ha dado de baja.
2. Frente al anlisis de tendencias y global del Business Intelligence, el Machine
Learning hace predicciones cliente a cliente. En este ejemplo, un sistema de BI
nos dira qu porcentaje de clientes se van a dar de baja. Uno de Machine
Learning nos lo dira individualmente, para cada cliente. Basado en esta
informacin, el negocio puede hacer acciones personalizadas para evitar la
fuga de clientes.
3. Con Machine Learning se puede crear aplicaciones en tiempo real que se
integren en el sistema de reservas para proporcionar informacin sobre la
probabilidad de que el cliente se vaya a ir. Adems, se puede crear un sistema
automtico que enve por ejemplo campaas de email con ofertas
personalizadas a aquellos clientes que estn en riesgo.

Conclusiones

El Business Intelligence ofrece un enfoque til que describe lo sucedido en el


pasado, permite entender los datos a roles empresariales no especializados en la
analtica usando potentes visualizaciones y sirve para tomar decisiones basadas
en tendencias globales.

El Machine Learning, en cambio, es una tcnica que permite detectar patrones a


bajo nivel en miles de datos individuales. El desarrollo de aplicaciones predictivas
es una de las potencias destacables, ya que facilitan la automatizacin de
procesos, la toma de decisiones y el continuo aprendizaje basado en datos.
Adems, se trata de sistemas que aprenden automticamente con el tiempo, se
integran en los desarrollos de la compaa y se adaptan a los cambios de entorno
cuando se les alimenta de forma constante con nuevos datos.
Algunas aplicaciones del Machine Learning:
1. Amazon se apunta al Machine Learning low-cost
POR ANDRS GONZLEZEL 10 ABRIL 2015EN BIG DATA, DATA PREDICTION, MACHINE LEARNING, TECNOLOGAUN
COMENTARIO

Hacer aplicaciones predictivas nunca ha sido tan fcil y barato como ahora.
Aunque no nos demos cuenta, las aplicaciones con capacidad predictiva conviven
con nosotros desde hace tiempo: detectores de spam (predicen si un correo
nuevo lo mandan a la carpeta spam en funcin de ciertos patrones),
las recomendaciones de perfiles en Twitter (predice qu usuarios nos pueden
interesar basndose en patrones de otros usuarios que se parecen a nosotros),
los anuncios de Google (predicen qu anuncios tienen mayor probabilidad de
que hagamos clic), o tu compaa de telfono (predice si te vas a dar de baja en
funcin de tus patrones de consumo).

Las grandes compaas tienen sus propios centros de datos, analistas, cientficos,
matemticos, programadores y sobre todo presupuesto para poder abordar este
tipo de proyectos. Pero desde hace unos aos estn apareciendo en el mercado
servicios en la nube que acercan las tecnologas predictivas a las empresas de
cualquier tamao. Es el Machine Learning low-cost.

La ltima en apuntarse ha sido Amazon, compaa que lleva aos usando el


Machine Learning internamente para recomendar sus productos en funcin del
comportamiento del visitante en la web. Si eres cliente de Amazon te sonar lo de
Qu otros productos compran los clientes tras ver este producto? o Los
clientes que compraron este producto tambin compraron.
Amazon lanza su servicio de Machine Learning low-cost

Amazon ha abierto las puertas a una tecnologa troncal en su xito como


compaa. Ayer mismo anunciaba su servicio de Machine Learning para ayudar a
las empresas a usar todos los datos que han recogido para mejorar la calidad de
sus decisiones. S, no slo se trata de ofrecer un mejor servicio a los clientes, sino
de tomar decisiones de negocio basadas en datos. Predecir cul es el mejor sitio
para abrir una nueva tienda en una gran ciudad no es balad. Predecir las
nacionalidades de los huspedes en una cadena hotelera sirve para mejorar
la gestin de recursos (comida, personal, actividades). Los clientes
descontentos normalmente se van sin avisar. Te gustara anticiparte y
recuperarlo incluso antes de que l haya tomado la decisin?

No es que Amazon haya sufrido un ataque de generosidad al entregar al mercado


su gallina de los huevos de oro. Lo que en realidad est haciendo es
posicionarse en un mercado, el de los motores predictivos low-cost, que lleva
unos aos gestndose.

Efectivamente, el ao 2010 Google lanzaba su Prediction API, un entorno que


permita que los programadores pudieran hacer aplicaciones inteligentes que
aprenden de los datos.

Un ao ms tarde, BigML lanzaba su servicio en la nube de Machine Learning que


acerca esta tecnologa a los no programadores, con unos costes realmente bajos
(incluso gratis), visualizaciones enriquecedoras y una facilidad de uso realmente
impresionante.

Apenas hace dos meses Microsoft haca el anuncio oficial de su propio Machine
Learning, un entorno que corre sobre la infraestructura Azure.
Se trata de entornos en la nube, flexibles y baratos. Estamos seguros de que en tu
empresa tienes muchos datos. Sabemos que siempre los has usado. Pero has
pensando en incluir los nuevos tipos de datos que se generan en el entorno
digital? Correos electrnicos con tus clientes, recorridos de las visitas en la web,
solicitudes de informacin en formularios, descargas de documentacin,
interacciones en las redes sociales, datos de compras con tarjetas de crdito,
llamadas telefnicas Ese es tu Big Data. Si quieres sacarle partido y sumar
ventajas competitivas, es el momento de usar las mismas herramientas que los
grandes. Nosotros te podemos acompaar en el camino. Te lo vas a perder?

2. Cmo usar Big Data y Machine Learning en el Sector


del Turismo
POR ANDRS GONZLEZEL 10 OCTUBRE 2016EN BIG DATA, MACHINE LEARNING, NEGOCIO, TURISMO2 COMENTARIOS

Big Data y Turismo. Este es el tema de moda que lleva dando vueltas un tiempo
en el sector y en las consultoras de negocio. El mar de fondo que hay en esos dos
conceptos es: muy bien, es cierto que hay muchos datos pero, cmo se les mete
mano para sacarles partido en el mundo del turismo? Alguien puede ofrecer algo
ya?. Una bsqueda en Internet arroja alguna pista de lo que se est cociendo en
el mundillo. Busco Big Data y Turismo en Google. Las sugerencias de bsquedas
ya dicen algo:
Indicadores, retos, oportunidades. Los ttulos de los resultados de bsqueda
van un poco ms de lo mismo: estudios del Big Data en el sector del turismo,
informes de big data y turismo. Todos ellos de recomendada lectura. Pero yo
sigo en las mas cmo usar el Big Data para mejorar los objetivos de
negocio en turismo? Calco directamente esa pregunta en Google y vuelven de
nuevo los retos, oportunidades, cmo el Big Data revolucionar la gestin del
turismo (en futuro):
Buffff. Yo quiero algo para ahora y Google no parece ayudar. El objetivo de este
artculo es dar una respuesta clara. En realidad, el ttulo debera haber sido:

Cmo el Machine Learning saca jugo del Big


Data para mejorar los objetivos de negocio en
turismo
S, Machine Learning es la Killer App del Big Data. En otras palabras, es la
tecnologa que permite sacar jugo a los miles o millones de datos que tenemos
almacenados. Es la tecnologa que sirve para amortizar las inversiones que se
hacen en Big Data. Es la tecnologa que usan los grandes (Google, Apple,
Amazon, Spotify), que ahora est al alcance de todos.

El Machine Learning permite descubrir patrones en millones de datos. Se trata de


un nuevo concepto en la programacin. Con Machine Learning se crean sistemas
que aprenden automticamente de los datos, en lugar de programarlos
explcitamente para hacer algo concreto.

Si vamos a casos concretos (en este blog ya hemos explicado un caso prctico:
la prediccin de la nacionalidad de los turistas y las mejoras de negocio que lleva
asociada), aqu tenemos algunos mbitos de negocio en los que puede ayudar:

Prediccin de cancelaciones. Saber con antelacin si una reserva se va a


cancelar mejora sensiblemente la gestin, por ejemplo, del overbooking o de
las habitaciones de un hotel. En este mbito podemos predecir las
cancelaciones de reservas de habitaciones, de reservas de vuelos, de reservas
de actividades, de mesa en los restaurantes
Prediccin de ocupacin. La capacidad de planificacin se ve
significativamente aumentada cuando se sabe con datos qu recursos
(habitaciones, mesas, plazas) se van a ocupar en un rango determinado de
fechas.
Prediccin de retrasos en vuelos. La mejora que supone en la gestin de los
problemas asociados a los retrasos es indiscutible. No todos los retrasos se
pueden predecir, pero s que hay patrones que sirven para determinar en una
gran mayora de casos si un vuelo se va a retrasar.
Personalizacin de la estancia. Descubrir patrones de comportamiento
permite conocer con antelacin al cliente y por tanto ofrecer servicios y
productos que se ajustan a su perfil. La personalizacin es un rea destacada
del Machine Learning.
Prediccin de las necesidades de los huspedes. La segmentacin
(clusterizacin) es una potente estrategia para saber de antemano qu
necesidades van a tener los clientes. Un cliente que pertenece a un
determinado segmento tiene necesidades similares al resto.
Optimizacin de la segmentacin de clientes. El enfoque estadstico
tradicional encuentra relaciones lineales entre un nmero limitado de
variables. Con Machine Learning es posible descubrir patrones en millones de
datos con cientos o miles de variables.
Maximizar eficiencia de campaas promocionales (online y offline). La
prediccin de segmentos de pblico objetivo para cada tipo de campaa, el
medio o la hora de la comunicacin aumentan la eficiencia de las campaas.

Por qu es importante
Actualmente muchas empresas estn enfocadas en estrategias para almacenar
todos los datos que pueden (en una especie de sndrome de Digenes de datos),
sin advertir que los datos que tienen actualmente ya son tiles para mejorar los
objetivos de negocio.

En general, podemos asegurar que no se trata de tener cuantos ms datos mejor.


Es preferible tener menos datos pero de alta calidad que muchos datos pero de
poco valor. Si tu empresa es del sector turstico, ests preparado para empezar a
sacar partido de los datos. Empezamos?

3. Market Basket Analysis: Big Data y Machine Learning


en Retail
POR ANDRS GONZLEZEL 19 ABRIL 2016EN BIG DATA, MACHINE LEARNING, RETAILNO HAY COMENTARIOS

Recientemente hemos terminado un proyecto con una de las cadenas de


supermercados lderes en Espaa. Nos solicitaron que hiciramos un anlisis de
los datos de los tickets de compra de una tienda de un periodo de 3 meses para
saber qu artculos se compran habitualmente juntos. Es lo que en el mbito del
Machine Learning se conoce como Association Discovery y que aplicado al
mundo del retail se denomina Market Basket Analysis, o anlisis de la cesta de
la compra.

Qu es el Association Discovery
El Association Discovery trata de descubrir patrones de compra en grandes
volmenes de datos. A diferencia de otras tcnicas de Machine Learning,
encuentra asociaciones entre valores, no slo entre variables.
Visto en Kdnuggets
En el caso que nos ocupa hemos encontrado ms de 500 asociaciones de compra
que indican que la compra de un producto est conectada con la compra
simultnea de otro. Cada asociacin corresponde a un emparejamiento de
patrones de compra de dos o ms productos. Por ejemplo, una asociacin nos
podra decir que la compra de atn en lata est fuertemente relacionada con la
compra de salsa de mayonesa. Evidentemente eso no quiere decir que siempre
que se compra atn tambin se compra mayonesa, pero s nos indica que el atn
y la mayonesa se compran juntos de una forma ms frecuente que otros
productos. Seran dos productos que estn, de alguna forma, conectados.

Este tipo de informacin basada en datos puede ser utilizada por parte de las
unidades de negocio para maximizar los objetivos de negocio. Veamos cmo.

Por qu es importante para el negocio


Saber qu productos se compran simultneamente sirve para mejorar las ventas
en varios mbitos. Por ejemplo, si sabemos que cuando se compra pan y
hamburguesa, tambin se compra ktchup, podemos aumentar las ventas de
ktchup si ponemos estos tres productos en la misma seccin o estantera del
supermercado. Adems el cliente estar ms satisfecho porque no tendr que
recorrer pasillos buscando los productos.
Aplicaciones de negocio
La aplicacin prctica de nuestro cliente va ms all del posicionamiento de
productos en la tienda. Nuestro trabajo junto con el equipo de negocio de la
cadena de supermercados nos ha abierto la perspectiva a otras aplicaciones para
maximizar las ventas basadas en:

El posicionamiento de los productos en el lineal. Colocar juntas la cerveza y


las patatas fritas si se ha determinado que se compran simultneamente,
maximiza la venta de ambos productos.
Las mejoras de las ofertas trade. En el sector del retail habitualmente se
hacen ofertas de paquetes de compra de 2 o ms productos. La bsqueda de
asociaciones permite la seleccin de estos productos para maximizar la
atencin del cliente y, finalmente, las ventas de los paquetes.
La seleccin del surtido para las tiendas. En las tiendas no caben todos los
productos de los que dispone el supermercado. El anlisis de los productos
que se compran simultneamente en la tienda ms grande de la cadena
ayuda en la seleccin del surtido de las tiendas.
La venta cruzada (o cross-selling) de productos complementarios en caja.
Ofrecer un producto a todos los clientes que pasan por caja es una buena
estrategia para vender ms. Pero, qu pasara si pudiramos hacer una
oferta personalizada en funcin del ticket de compra del cliente, en lugar de
ofrecer siempre el mismo producto, sea cual sea el cliente? Si sabemos que el
arroz est asociado a la compra simultnea de tomate frito, ofrezcamos el
tomate a ese cliente que ha comprado arroz, en lugar de un refresco de cola.

Consideraciones sobre las asociaciones


Las asociaciones de productos no ocurren porque estn naturalmente
conectadas, sino por diferentes factores. Uno de los factores ms importantes es
el posicionamiento de los productos en las estanteras (o lineal).

Otros factores que influyen en las asociaciones son la poca del ao (en navidad
se compran productos distintos que en verano), las tiendas que tiene la
competencia en los alrededores, el tipo de barrio en el que est situada la tienda
(barrio comercial, turstico, de negocios) o las ofertas disponibles en el periodo
de anlisis.

Por otro lado, un nmero no despreciable de asociaciones son evidentes (por


ejemplo, la compra simultnea de champ y acondicionador de pelo). Para
eliminar estos resultados triviales, es necesario seguir estrategias de anlisis
diferencial, comparando tiendas, periodos del ao, clientes, barrios, etc.

En este sentido, si se observa una asociacin en una tienda pero no en el resto,


significa que hay algo interesante en esa tienda. De la misma forma, si una
asociacin se produce en todas las tiendas excepto en una, significa que hay algo
especial para investigar.

Conclusiones
El anlisis de la cesta de la compra basado en datos permite optimizar las
estrategias enfocadas en maximizar las ventas en el sector del retail. El Machine
Learning puede ayudar en tareas como posicionar los artculos en las tiendas,
seleccionar el surtido en las tiendas o en preparar recomendaciones como
recurso de venta de ltimo producto en caja. En definitiva, ayuda a mejorar la
eficiencia en la toma de decisiones, a aumentar las ventajas competitivas y a
optimizar los esfuerzos a la hora de conseguir los objetivos de negocio.

En CleverData pensamos que el momento para empezar a sacarle valor a los


datos es ahora. La tecnologa lo permite, los costes son infinitamente ms bajos
comparados con hace apenas 5 aos y los datos estn a nuestro alcance. La
estrategia que aprovecha los datos para tomar decisiones de negocio no es ajena
a la transformacin digital de los negocios. Ms bien al contrario, el uso de los
datos para aumentar la eficiencia de los procesos y la relacin con el cliente forma
parte intrnseca de las empresas que destacan en el mbito de la transformacin
de los negocios apoyada en las tecnologas digitales. Y ha llegado el momento de
poner los datos a trabajar para nosotros.

You might also like