You are on page 1of 58

Metodología y definición de

problema

M.Sc. Ing. Danny Luis Huanca Sevilla


Agenda
• Que es ciencia de datos
• Relación con otras ciencias
• Tipos de aprendizaje
• Algoritmos de aprendizaje
• Definición del problema de negocio
¿Qué es Ciencia de datos?
¿Qué es Ciencia de datos?
• ¿Cómo puedo dar el mejor regalo a una persona el 23 de julio o el 21
de septiembre?
¿Que és Ciencia de datos?
• ¿Cómo puedo dar el mejor regalo a una persona el 23 de julio o el 21
de septiembre?

Conociendo a la persona
¿Qué es Ciencia de datos?
Una empresa desea conocer mejor a sus clientes
para mejorar su atención y generar mayores ingresos
¿Qué es Ciencia de datos?
Una empresa desea conocer mejor a sus clientes para
mejorar su atención y generar mayores ingresos
¿Qué es Ciencia de datos?

Se requiere de un
proceso que permita
agrupar los clientes de
tal manera que se pueda
ofrecer productos
acorde a sus
necesidades.
¿Qué es Ciencia de datos?
El proceso requiere de un elemento para generar la agrupación
¿Qué es Ciencia de datos?
El proceso requiere de un elemento para generar la agrupación

Patrón / modelo
Qué es un patrón
Un patrón es un conjunto de elementos que forman una unidad
diferenciada y que se repite a lo largo del tiempo, por lo que pueden
tomarse como modelo o punto de referencia
Qué es un patrón
Ej. El patrón para fabricar zapatos.
conjunto unidad diferenciada

se repite

modelo
¿Qué es Ciencia de datos?

La Ciencia de datos es un proceso que permite extraer información de


grandes conjuntos de datos utilizando diferentes métodos para
encontrar insospechadas relaciones denominadas patrones de
comportamiento.
¿Qué es Ciencia de datos?
En los últimos años se popularizó gracias a la llegada de Big Data.
Big data implica el manejo de datos que pueden cumplir uno o todas
las siguientes propiedades:
• Volumen
• Velocidad
• Variedad
¿Qué es Ciencia de datos?
Ejemplo: El departamento de recursos humanos
de una gran empresa desea dividir a sus
empleados en distintos grupos con el objetivo de
entender su comportamiento y tratarlos de
manera adecuada, en base a las siguientes
variables:

Estado Auto Alquiler/


Sueldo Hijos
Civil propio propio

Sindicato Bajas Antigüedad Sexo


¿Qué es Ciencia de datos?
Una parte de los datos …
id Sueldo Casado Coche Hijos Alq/prop Sindicato Bajas/año Antigüedad Sexo
1 1000 si no 0 Alquiler no 7 15 H
2 2000 no si 1 Alquiler si 3 3 M
3 1500 si si 2 Prop si 5 10 H
4 3000 si si 1 Alquiler no 12 7 M
5 1000 si si 0 Prop si 1 6 H
6 4000 no si 0 Alquiler si 3 16 M
7 2500 no no 0 Alquiler si 0 8 H
8 2000 no si 0 Prop si 2 6 M
9 2000 si si 3 Prop no 7 5 H
10 3000 si si 2 Prop no 1 20 H
11 5000 no no 0 Alquiler no 2 12 M
12 800 si si 2 Prop no 3 1 H
13 2000 no no 0 Alquiler no 27 5 M
14 1000 no si 0 Alquiler si 0 7 H
15 800 no si 0 Alquiler no 3 2 H
¿Qué es Ciencia de datos?
Grupo 1 Grupo 2 Grupo 3
Mediante un Sueldo: 1.233 1.428 1.535

método de Casado:
No-> 0,0 No-> 0,98 No-> 0,77
Si-> 1,0 Si-> 0,02 Si-> 0,23
Ciencia de
No-> 0,05 No-> 0,01 No-> 0,82
datos se Auto:
Si-> 0,95 Si-> 0,99 Si-> 0,18
podría obtener Hijos: 2,3 0,3 0,05
tres grupos. Alquiler-> 0,17 Alquiler-> 0,75 Alquiler-> 0,99
Alq./prop:
Propio-> 0,83 Propio-> 0,25 Propio-> 0,01
No-> 0,67 No-> 0,0 No-> 0,8
Sindicato:
Si-> 0,33 Si-> 1,0 Si-> 0,2
Bajas/año: 5,1 2,3 8,3
Antigüedad: 8,1 8 8,7
M-> 0,83 M-> 0,25 M-> 0,61
Sexo:
F-> 0,17 F-> 0,75 F-> 0,39
¿Qué es Ciencia de datos?
Ejemplo 2 Análisis de crédito bancario

Determinar que personas de las que solicitan crédito no lo


devuelven.

C-credito Cuentas Devuelve


IDC D-credito(años) Salario(euros) Casa propia …
(euros) morosas crédito

101 15 60000 2200 si 2 no


102 2 30000 3500 si 0 si
103 9 9000 1700 si 1 no
104 15 18000 1900 no 0 si
105 10 24000 2100 no 0 no
¿Qué es Ciencia de datos?
Ejemplo 3 Análisis de cesta de compra

Determinar la asociación de productos en la compra para


reubicación de los mismos en supermercados

id canasta Huevos aceite Pañales Vino Leche Mantequilla Salmon Lechugas …


1 si no no si no si si si …
2 no si no no si no no si …
3 si no si no si no no no …
4 no si si no si no no no …
5 si si no no no si no si …
6 si no no si si si si no …
7 no no no no no no no no …
8 si si si si si si si no …
… … … … … … … … … …
¿Qué es Ciencia de datos?
Ejemplo 4 Determinar las ventas de un producto

Determinar las ventas de electrodomésticos, a fin de


mantener un inventario adecuado

Producto mes-12 … mes-4 mes-3 mes-2 mes-1


televisor plano 30' Philips 20 … 52 14 139 74
video-dvd-recorder Miesens 11 … 43 32 26 59
discman mp3 LJ 50 … 61 14 5 28
frigorifico no frost Jazzussi 3 … 21 27 1 49
microondas con grill Sanson 14 … 27 2 25 12
… … … … … … …
RELACIÓN CON OTRAS CIENCIAS
RELACIÓN CON OTRAS CIENCIAS

22
RELACIÓN CON OTRAS CIENCIAS

INTELIGENCIA
ARTIFICIAL

23
Tipos de aprendizaje
Tipos de aprendizaje

¿Cómo conocer al cliente a partir


de la información que se dispone
en bases de datos?
Tipos de aprendizaje
¿Cómo conocer al cliente a partir de la información que se dispone en
bases de datos?
¿Examinando registro por registro?
Tipos de aprendizaje
¿Cómo conocer al cliente a partir de la información que se dispone en
bases de datos?
¿Examinando registro por registro?
Porque no dejar que las computadoras “Aprendan” ese
comportamiento
Tipos de aprendizaje
• Aprendizaje Supervisado.

• Aprendizaje No Supervisado.

https://www.youtube.com/watch?v=oT3arRRB2Cw
• Aprendizaje por reforzamiento
APRENDIZAJE SUPERVISADO
• Son técnicas que dado un conjunto de variables X, estas pueden
explicar una variable de salida Y.

• Se dice supervisado pues las tuplas Y - X se constituyen en elementos


ejemplo para entrenar un modelo de este tipo, así de este modo, el
modelo aprende con los ejemplos.
AGRUPACION DE TECNICAS EN FUNCION AL
APRENDIZAJE
Aprendizaje supervisado churn Y Predicho Y Probabilidad
1 1 0,95
0 1 0,36
1 1 0,45
0 0 0,9
Datos X
entrada

Variable
Objetivo Y
APRENDIZAJE NO SUPERVISADO

• Son técnicas que dado un conjunto de


variables X, deben auto organizarse para
encontrar un patrón de relación entre
ellas. NO existe Y.

• Se dice no supervisado pues las tuplas Y


- X no existen. Solo se tiene elementos
ejemplo X para entrenar un modelo de
este tipo.
AGRUPACION DE TECNICAS EN FUNCION AL
APRENDIZAJE
Aprendizaje no supervisado

Customer ID Target Probability to be target =1 Classification Value estimation Cluster membership Cluster center
1 1 0.9 C1 1000 G1 0.55
2 0 0.7 C2 905 G3 0.3
3 1 0.65 C1 1500 G2 0.01
4 1 0.65 C3 200 G5 1.6
Datos 5 0 0.6 C4 100 G2 0.01
. . . . . .
entrada . . . . . .
. . . . . .
150,000 0 0.0001 C1 90 G4 -0.01

Variable
Objetivo
ALGORITMOS DE APRENDIZAJE
ALGORITMOS DE APRENDIZAJE

Descripción
Clasificación
Estimación
Predicción
Clustering
Asociación
ALGORITMOS DE APRENDIZAJE

Descripción

Encontrar maneras para describir patrones


y tendencias en los datos
ALGORITMOS DE APRENDIZAJE
Clasificación
Existe una variable categórica. Ejemplo: Escala de ingreso,
que puede ser particionado en 3 categorías: Ingreso alto,
ingreso medio e ingreso bajo.
ALGORITMOS DE APRENDIZAJE
Estimación
Similar a la clasificación excepto que la variable objetivo es numérica en lugar
de ser categórica.

Ejemplo: Predicción de promedio de notas en un sistema educativo.


ALGORITMOS DE APRENDIZAJE
Predicción
Similar a la clasificación y la estimación, la diferencia esta que las predicción es se realizan
en el futuro.

Ejemplo: Predicción de precio de acciones en el futuro.


Métodos: redes neuronales, árboles de decisión, vecino K mas cercano.
ALGORITMOS DE APRENDIZAJE
Clustering

Se refiere al agrupamiento de registros, observaciones o casos


dentro de clases de objetos similares.
ALGORITMOS DE APRENDIZAJE
Asociación

Conocido también como “análisis de afinidad” o “análisis de


canasta de mercado”
Objetivo. Encontrar reglas para asociar dos o mas atributos.

Ejemplo: Investigar en una compañía de teléfonos la respuesta


positiva a una oferta de servicio agregado.
Definición del problema
CRISP - DM
Fase de entendimiento del negocio (denominada también de
investigación)
a) Enunciar los objetivos del proyecto claramente en términos del
negocio.
b) Determinar las restricciones en la formulación del problema.
c) Preparar una estrategia preliminar para llegar a los objetivos.

d) Aumentado. Definición de la arquitectura (Fuentes, destinos,


estrategia)
CRISP - DM
Documento de estrategia Big Data
Documento de estrategia Big Data
• Etapas de llenado de la plantilla

1. Identificar iniciativas claves en la empresa.


2. Identificar entidades clave
3. Identificar las decisiones posibles sobre las entidades.
Identificar las iniciativas claves de la
organización
• ¿ Qué intenta realizar el negocio en los próximos 9 a 12 meses? Este
rango de tiempo es importante ya que:
• Focaliza el esfuerzo en algo relevante.
• Crea un sentido de urgencia en la organización para moverse rápidamente.
• Da al proyecto la posibilidad de generar un ROI en 12 meses o menos.
Identificar las iniciativas claves de la
organización
Una iniciativa de negocio tiene las siguientes características:
• Critico para el negocio (entre 9 y 12 meses).
• Socializado ya sea interna o externamente.
• Multiarea (Marketing, Ventas, IT).
• Patrocinado por un ejecutivo senior.
• Tiene un objetivo financiero medible
• Tiene un tiempo de entrega bien definido.
• Ofrece una reducción de costos o ventaja competitiva.
Identificar las iniciativas claves de la
organización
Ejemplo:
• Reducir tasa de deserción en los próximos 12 meses de 20% a 15%.
• Incrementar la satisfacción del cliente reduciendo en un 20% el
consumo de agua.
• Segmentar los clientes para ofrecer campañas personalizadas e
incrementar el revenue del producto Y en un 10%.
• Crear un combo de servicios personalizado que permita incrementar
el revenue de la organización en un 2%.
Identificar las iniciativas claves de la
organización

• Leído el caso. ¿Qué iniciativa de negocio se puede extraer para la


compañía TELCO?
Identificar entidades clave
• Después de identificar las iniciativas clave. Se procede a escoger una
de ellas.
• Para la iniciativa selecciona se identifica las entidades clave que la
componen.
Identificar entidades clave
• Ejemplo: Se escoge la iniciativa de negocio: Segmentar los clientes
para ofrecer campañas personalizadas e incrementar el revenue del
producto Y en un 10%
• Las entidades clave son:
• El producto Y.
• Los clientes.
Identificar entidades clave

¿Para el caso telco que entidades clave se pueden identificar?


Identificar decisiones sobre las entidades
clave
• Identificar las decisiones clave que se deben hacer con las entidades
con la finalidad de llegar a la iniciativa de negocio. Estas se deben
generar en un brainstorming junto al stakeholder
• En el ejemplo para cada entidad clave se plantea las decisiones
respectivas:
Identificar decisiones sobre las entidades
clave
• Producto Y
• ¿Qué características de tamaño tiene el producto Y?
• ¿Qué tiempo de vida tiene el producto en el mercado?

• Clientes
• ¿Qué características demográficas tienen los clientes?
• ¿Cuánto consumen del producto Y?
• ¿En qué temporadas se compra mas el producto?
Identificar decisiones sobre las entidades
clave

¿Qué Decisiones clave identificó para las entidades del caso Telco?
Identificar los casos de uso
• Identificar los casos de uso
• Agrupar las decisiones en temas comunes.
• El resultado debe responder a la pregunta: “Como podemos hacer dinero”

• Ejemplo:
• Agrupación de clientes para incrementar el revenue del producto Y.
• Crear combos con productos complementarios para incrementar las ventas.
• Crear una predicción del producto para mejorar los canales de distribución.
Mapear los casos de uso a modelos analíticos
Caso de uso Modelo Analítico
Agrupación de clientes para incrementar el revenue Aprendizaje no supervisado – Clustering
del producto Y
Crear combos con productos complementarios para Modelo de afinidad
incrementar las ventas
Crear una predicción del producto para mejorar los Predicción de demanda con redes neuronales
canales de distribución.
Identificar los casos de uso
Para el caso TELCO que caso de uso pudo identificar

You might also like