You are on page 1of 47

DATA SCIENCE FUNDAMENTALS

SUPERVISED METHODS
ANDRÉ OMAR CHÁVEZ PANDURO
« Divide las dificultades que examinas en tantas
partes como sea posible , para su mejor solución»
EXPOSITOR

André Omar Chávez Panduro


UNMSM
MSc in Data Science Candidate
Promotion “Erwin Kraenau Espinal”
Universidad Ricard Palma

Senior Data Scientist

Customer Intelligence
Analyst

Data Analyst
AGENDA
 Clasificación.
 Modelo General de los Métodos de Clasificación.
 Regresión Logística Binaria.
 Clasificador Bayesiano : Naive Bayes
 Clasificación Mediante k – Vecinos más cercanos.
 Indicadores de Medición de Modelos Supervisados.
CLASIFICACIÓN: DEFINICIÓN
 Dada una colección de registros (Conjunto de Entrenamiento) cada registro
contiene un conjunto de variables (atributos) denominado x, con una variable
(atributo) adicional que es la clase denominada y.

 El objetivo de la clasificación es encontrar un modelo (una función) para


predecir la clase a la que pertenecería cada registro, esta asignación una
clase se debe hacer con la mayor precisión posible.

 Un conjunto de prueba (tabla de testing) se utiliza paradeterminar la precisión


del modelo. Por lo general, el conjunto de datos dado se divide en dos
conjuntos al azar de el de entrenamiento y el de prueba.
MODELO GENERAL DE LOS MÉTODOS DE CLASIFICACIÓN
Desarrollo Modelos Productivo Modelos
ESTADO ING RESO S
REEMBO LSO FRAUDE
ID CIVIL ANUALES
1 SI SOLTERO S/ 1,000 NO Algoritmo de
2 SI CASADO S/ 5,000 NO Aprendizaje
3 NO CASADO S/ 3,500 SI
4 SI VIUDO S/ 4,500 NO
Generar
5 NO SOLTERO S/ 2,000 NO
el
6 NO SOLTERO S/ 1,500 SI Modelo
Tabla de Aprendizaje

REEMBO LSO
ESTADO ING RESO S
FRAUDE Modelo
ID CIVIL ANUALES Nuevos
7 SI SOLTERO S/ 4,000 NO Individuos
8 SI CASADO S/ 5,500 NO
9 NO CASADO S/ 6,500 SI Aplicar
el
10
Tabla de Testing Evaluar Modelo
DEFINICIÓN DE CLASIFICACIÓN

 Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛 } de tuplas o


registros (individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2,
… , 𝐶𝑚 }, el problema de la clasificación es encontrar una
función 𝑓: 𝐷 → 𝐶 tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .

 𝑓: 𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión,


un modelo basado en Análisis Discriminante, o una Red
Beyesiana.
DEFINICIONES BÁSICAS
 Conjunto de Datos (Data Set): El total del conjunto de datos sobre los que queremos
desarrollar un algoritmo de Machine Learning con el fin de obtener un modelo que lo
represente lo mejor posible. Contendrá variables independientes y dependientes.

 Variables Independientes (Features), (VI): Aquellas columnas del Data Set que serán
usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.

 Variables dependientes (Labels,Target), (VD): Columna del data set que responde a una
correlación de VI y que debe ser predicha por el futuro modelo

 Conjunto de Datos de Entrenamiento (TrainingSet): Subconjunto del Data Set que será
utilizado para entrenar el modelo que se pretende generar.

 Conjunto de Datos de Test (TestSet): Subconjunto del data set que se le pasará al modelo
una vez haya sido entrenado para comprobar, mediante el uso de diferentes métricas,
sus indicadores más importantes de calidad.

9
SUPERVISED LEARNING (MODELOS SUPERVISADOS)

Se tiene una variable


objetivo (Variable de
Salida).

Variables que ayudan a


predecir a la variable de
salida (Variables de
entrada).
Existe una dependencia de
las variables de entrada
con las variables de salida.
SUPERVISED LEARNING

 Género.

 Si Compra
 Rangos de Edad.

 Ingresos.  No Compra

 Estado Civil.
Regresión Logística
Binaria
DEFINICIÓN
 Es un modelo predictivo supervisado.
 La regresión logística es un modelo de elección discreta en el
que la variable dependiente es cualitativa binaria.
 Es flexible en cuanto a la naturaleza de las variables
explicativas, pues éstas pueden ser de cuantitativas y
categóricas.
 Permite estudiar el impacto que tiene cada una de las
variables independientes en la probabilidad de que ocurra el
suceso de estudio.
MODELO DE REGRESIÓN LOGÍSTICA
DICOTÓMICO

La variable Morosidad toma los siguientes valores:

“1” si el cliente es moroso.


“0” si el cliente es no moroso.

¿Es dicotómica?
¿Es cualitativa?
¿Es mutuamente excluyente?
MODELO DE REGRESIÓN LOGÍSTICA DICOTÓMICO
 Para este modelo se considera que la variable respuesta, es una
variable dicotómica que tomas dos valores.
 Para estos modelos dicotómicos, las dos categorías deben de ser
mutuamente excluyentes.
 La variable respuesta se puede expresar de la siguiente forma:
MODELO DE REGRESIÓN LOGÍSTICA
DICOTÓMICO
MODELO DE REGRESIÓN LOGÍSTICA DICOTÓMICO
MODELO DE REGRESIÓN LOGÍSTICA DICOTÓMICO
MÉTODO DE ESTIMACIÓN

 Para modelos de regresión logística, los parámetros se estiman a través de los


métodos de Máxima Verosimilitud.
 Puesto que el modelo es no lineal, se necesita un algoritmo iterativo para esta
estimación. El método iterativo que se aplica es el método de Newton-
Raphson.
MODELO DE REGRESIÓN LOGÍSTICA DICOTÓMICO

Odds Ratio
Es la razón entre la probabilidad de que se produzca un suceso y
la probabilidad de que no se produzca ese suceso.
EJEMPLO DE ODDS ( CHANCE)
Tabla Deudas en el SSFF?
Total
CHURN SI NO
Si 60 50 110
No 80 120 200
Total 140 170 310
60
𝜌𝑑𝑒𝑢𝑑𝑎𝑠
Ω𝑑𝑒𝑢𝑑𝑎𝑠 = = 140 = 0.75
𝜌 (1 − 𝑑𝑒𝑢𝑑𝑎𝑠) 80
2
140
𝐴 = 𝜋𝑟 50
𝜌𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠
Ω𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠 = = 170 = 0.42
𝜌 (1 − 𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠) 120
170
Ω𝑑𝑒𝑢𝑑𝑎𝑠
𝑂𝑅 = = 1.78
Ω𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠
MODELOS BAYESIANOS NAIVE
BAYES
INTRODUCCIÓN

 Estudió el problema de la determinación de la probabilidad de las


causas a través de los efectos observados.
Definición

o Es un método importante no sólo porque ofrece un análisis


cualitativo de las atributos y valores que pueden intervenir
en el problema, sino porque da cuenta también de la
importancia cuantitativa de esos atributos. En el aspecto
cualitativo podemos representar cómo se relacionan esos
atributos ya sea en una forma causal, o señalando
simplemente de la correlación que existe entre esas
variables (o atributos). Cuantitativamente (y ésta es la
gran aportación de los métodos bayesianos).
DEFINICIÓN
VARIABLES CUANTITATIVAS
K – Vecinos más
cercanos
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS.

Análisisde vecino más próximo es un método de clasificación de


casos basado en su similaridad con otros casos. En aprendizaje de
máquinas, se ha desarrollado como una forma de reconocer
patrones de datos sin requerir una coincidencia exacta con patrones
o casos almacenados.

v5 v1
v2
v3 v8

v4

v6
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS.

Los casos similares están cercanos entre sí y los casos no


similares están distantes entre sí. Además, la distancia
entre dos casos es una medida de sus diferencias.
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS : IDEA INTUITIVA

Como de los K=5 “individuos” de entrenamiento 3


son patos entonces el “individuo” de testing se
clasifica como pato
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS

Para K=1 (círculo más pequeño), la clase de la nueva instancia sería


la Clase 1, ya que es la clase de su vecino más cercano, mientras
que para K=3 la clase de la nueva instancia sería la Clase 2 pues
habrían dos vecinos de la Clase 2 y solo 1 de la Clase 1
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS :
ELECCIÓN DE LA DISTANCIA
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS :
ALGORITMO
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS :
¿ELECCIÓN DEL K ÓPTIMO?

X X X

(a) 1 - Vecino más cercano. (b) 2 - Vecinos más cercanos. (c) 3- Vecinos más cercanos.

 Si K es muy pequeño el modelo será muy sentitivo a puntos que son


atípicos o que son ruido (datos corruptos)
 Si K es muy grande, el modelo tiende a asignar siempre a la clase
más grande.
EVALUANDO UN MODELO DE APRENDIZAJE
SUPERVISADO

3
4
IDEAS FUNDAMENTALES
 Existen medidas de error utilizadas para la evaluación de modelos de
clasificación. Muchas de estas medidas se calculan en función de la
matriz de confusión asociada al modelo, la que se define a
continuación:
 Error
 Sensibilidad
 Especificidad
 Acierto
 Youden

 Asimismo existen otros indicadores que nos ayude a validar modelos


como:
 AUC ( área bajo la curva)
 GINI
 Otro método es la de la Validación Cruzada
EVALUANDO UN ALGORITMO DE MACHINE LEARNING
MUESTRA DE ENTRENAMIENTO Y VALIDACIÓN

MUESTRA DE
ENTRENAMIENTO
50 %
MUESTRA DE
ENTRENAMIENTO
75 %
UNIVERSO UNIVERSO MUESTRA DE
TOTAL DE CLIENTES DE LA TOTAL DE CLIENTES DE COMPROBACIÓN
EMPRESA LA EMPRESA 30 %
100 % 100 %

MUESTRA DE
VALIDACIÓN
25 % MUESTRA DE
VALIDACIÓN
20 %
EVALUANDO UN ALGORITMO DE MACHINE LEARNING
VALIDACIÓN CRUZADA

1
UNIVERSO
TOTAL DE 2 5 Folds
CLIENTES DE LA 3
EMPRESA
100 %
4
5

2 1 1 1 1
FOLDS ENTRENAMIENTO 3 3 2 2 2
4 4 4 3 3
5 5 5 5 4

MODELO DE MACHINE
LEARNING

FOLDS VALIDACIÓN 1 2 3 4 5

EVALUAR RENDIMIENTO t1 t2 t3 t4 t5

EVALUAMOS EL RENDIMIENTO
VALIDACIÓN CRUZADA DE K ITERACIONES O K-FOLD CROSS-
VALIDATION.

 Los datos de muestra se dividen en K subconjuntos. Uno de los


subconjuntos se utiliza como datos de prueba y el resto (K-1) como
datos de entrenamiento.
VALIDACIÓN CRUZADA DEJANDO UNO FUERA O LEAVE-ONE-OUT
CROSS-VALIDATION (LOOCV).

 Se separan los datos de forma que para cada iteración tengamos una sola
muestra para los datos de prueba y todo el resto conformando los datos de
entrenamiento.
EVALUANDO UN ALGORITMO DE MACHINE
LEARNING
MATRIZ DE CONFUSIÓN Y MATRIZ DE COSTOS
PREDICCIÒN
MATRIZ DE CONFUSIÒN
NO MOROSOS MOROSOS

REALIDAD
NO
MOROSOS
DECISIÓN CORRECTA
VN FP
MOROSOS
FN DECISIÓN CORRECTA
VP

PRECISIÓN = (VN + VP) / (VN + VP + FP + FN)

SENSIBILIDAD = VP / (VP + FN)

ESPECIFICIDAD = VN / (VN + FP)

F-SCORE = 2 *( (VP/ VP + FP) * (VP/ VP + FN)) / ((VP/ VP + FP) + (VP/ VP + FN))


APLICACIÓN DE MACHINE LEARNING
Caso práctico: Clasificación del cáncer
• Casos en los que el nº de ejemplos negativos es mucho mayor que el de ejemplos positivos
• Ejemplo:

𝑦=1 𝑐á𝑛𝑐𝑒𝑟
• Modelo regresión logística
𝑦=0 𝑛𝑜 𝑐á𝑛𝑐𝑒r
• Se tiene un 1 % de error en el set de test (99 % de diagnósticos correctos)
• Sólo el 0,5 % de los pacientes tiene cáncer

Exactitud vs. Precisión (Accuracy vs. Precision)

4
1
INDICADORES
 Curva de ROC: Una curva ROC es una representación gráfica de
la sensibilidad en función de los falsos positivos (complementario
de la especificidad) para distintos puntos de corte. Un parámetro
para evaluar la bondad de la prueba es el área bajo la curva
que tomará valores entre 1 (prueba perfecta) y 0,5 (prueba
inútil).
ÍNDICE DE GINI. Gini = 2 ∗ (ROC − 0.5)

 Si el valor del Gini se encuentra entre 0 y 0.25, decimos que el


modelo predictivo tiene una clasificación “Baja”; si el valor del
Gini se encuentra entre 0.25 y 0.45, tiene una clasificación
“Aceptable”; si el valor del Gini se encuentra entre 0.45 y 0.6,
tiene una clasificación “Buena”, y finalmente, si el valor del Gini
es mayor a 0.5, el modelo tiene una clasificación de “Muy
buena”.
ESTADISTICO KAPPA
 El estadístico Kappa es similar a la accuracy, pero tiene en cuenta
la posibilidad de una predicción correcta por casualidad.
 Los valores de Kappa oscilan entre 0 y un máximo de 1, lo que
indica una concordancia perfecta entre las predicciones del
modelo y los valores reales. Los valores inferiores a uno indican una
concordancia imperfecta.
ESTADISTICO K-S
 El estadístico KS ayuda a entender, qué porción de la población
debe ser dirigida para obtener la mayor tasa de respuesta.
 El KS se usa para tomar decisiones como: ¿Cuántos clientes
deberíamos apuntar para dirigir una campaña de marketing?.
LOG - LOSS
GRACIAS
POR SU ATENCIÓN

You might also like