Professional Documents
Culture Documents
SUPERVISED METHODS
ANDRÉ OMAR CHÁVEZ PANDURO
« Divide las dificultades que examinas en tantas
partes como sea posible , para su mejor solución»
EXPOSITOR
Customer Intelligence
Analyst
Data Analyst
AGENDA
Clasificación.
Modelo General de los Métodos de Clasificación.
Regresión Logística Binaria.
Clasificador Bayesiano : Naive Bayes
Clasificación Mediante k – Vecinos más cercanos.
Indicadores de Medición de Modelos Supervisados.
CLASIFICACIÓN: DEFINICIÓN
Dada una colección de registros (Conjunto de Entrenamiento) cada registro
contiene un conjunto de variables (atributos) denominado x, con una variable
(atributo) adicional que es la clase denominada y.
REEMBO LSO
ESTADO ING RESO S
FRAUDE Modelo
ID CIVIL ANUALES Nuevos
7 SI SOLTERO S/ 4,000 NO Individuos
8 SI CASADO S/ 5,500 NO
9 NO CASADO S/ 6,500 SI Aplicar
el
10
Tabla de Testing Evaluar Modelo
DEFINICIÓN DE CLASIFICACIÓN
Variables Independientes (Features), (VI): Aquellas columnas del Data Set que serán
usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.
Variables dependientes (Labels,Target), (VD): Columna del data set que responde a una
correlación de VI y que debe ser predicha por el futuro modelo
Conjunto de Datos de Entrenamiento (TrainingSet): Subconjunto del Data Set que será
utilizado para entrenar el modelo que se pretende generar.
Conjunto de Datos de Test (TestSet): Subconjunto del data set que se le pasará al modelo
una vez haya sido entrenado para comprobar, mediante el uso de diferentes métricas,
sus indicadores más importantes de calidad.
9
SUPERVISED LEARNING (MODELOS SUPERVISADOS)
Género.
Si Compra
Rangos de Edad.
Ingresos. No Compra
Estado Civil.
Regresión Logística
Binaria
DEFINICIÓN
Es un modelo predictivo supervisado.
La regresión logística es un modelo de elección discreta en el
que la variable dependiente es cualitativa binaria.
Es flexible en cuanto a la naturaleza de las variables
explicativas, pues éstas pueden ser de cuantitativas y
categóricas.
Permite estudiar el impacto que tiene cada una de las
variables independientes en la probabilidad de que ocurra el
suceso de estudio.
MODELO DE REGRESIÓN LOGÍSTICA
DICOTÓMICO
¿Es dicotómica?
¿Es cualitativa?
¿Es mutuamente excluyente?
MODELO DE REGRESIÓN LOGÍSTICA DICOTÓMICO
Para este modelo se considera que la variable respuesta, es una
variable dicotómica que tomas dos valores.
Para estos modelos dicotómicos, las dos categorías deben de ser
mutuamente excluyentes.
La variable respuesta se puede expresar de la siguiente forma:
MODELO DE REGRESIÓN LOGÍSTICA
DICOTÓMICO
MODELO DE REGRESIÓN LOGÍSTICA DICOTÓMICO
MODELO DE REGRESIÓN LOGÍSTICA DICOTÓMICO
MÉTODO DE ESTIMACIÓN
Odds Ratio
Es la razón entre la probabilidad de que se produzca un suceso y
la probabilidad de que no se produzca ese suceso.
EJEMPLO DE ODDS ( CHANCE)
Tabla Deudas en el SSFF?
Total
CHURN SI NO
Si 60 50 110
No 80 120 200
Total 140 170 310
60
𝜌𝑑𝑒𝑢𝑑𝑎𝑠
Ω𝑑𝑒𝑢𝑑𝑎𝑠 = = 140 = 0.75
𝜌 (1 − 𝑑𝑒𝑢𝑑𝑎𝑠) 80
2
140
𝐴 = 𝜋𝑟 50
𝜌𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠
Ω𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠 = = 170 = 0.42
𝜌 (1 − 𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠) 120
170
Ω𝑑𝑒𝑢𝑑𝑎𝑠
𝑂𝑅 = = 1.78
Ω𝑛𝑜𝑑𝑒𝑢𝑑𝑎𝑠
MODELOS BAYESIANOS NAIVE
BAYES
INTRODUCCIÓN
v5 v1
v2
v3 v8
v4
v6
CLASIFICACIÓN MEDIANTE K-VECINOS MÁS CERCANOS.
X X X
(a) 1 - Vecino más cercano. (b) 2 - Vecinos más cercanos. (c) 3- Vecinos más cercanos.
3
4
IDEAS FUNDAMENTALES
Existen medidas de error utilizadas para la evaluación de modelos de
clasificación. Muchas de estas medidas se calculan en función de la
matriz de confusión asociada al modelo, la que se define a
continuación:
Error
Sensibilidad
Especificidad
Acierto
Youden
MUESTRA DE
ENTRENAMIENTO
50 %
MUESTRA DE
ENTRENAMIENTO
75 %
UNIVERSO UNIVERSO MUESTRA DE
TOTAL DE CLIENTES DE LA TOTAL DE CLIENTES DE COMPROBACIÓN
EMPRESA LA EMPRESA 30 %
100 % 100 %
MUESTRA DE
VALIDACIÓN
25 % MUESTRA DE
VALIDACIÓN
20 %
EVALUANDO UN ALGORITMO DE MACHINE LEARNING
VALIDACIÓN CRUZADA
1
UNIVERSO
TOTAL DE 2 5 Folds
CLIENTES DE LA 3
EMPRESA
100 %
4
5
2 1 1 1 1
FOLDS ENTRENAMIENTO 3 3 2 2 2
4 4 4 3 3
5 5 5 5 4
MODELO DE MACHINE
LEARNING
FOLDS VALIDACIÓN 1 2 3 4 5
EVALUAR RENDIMIENTO t1 t2 t3 t4 t5
EVALUAMOS EL RENDIMIENTO
VALIDACIÓN CRUZADA DE K ITERACIONES O K-FOLD CROSS-
VALIDATION.
Se separan los datos de forma que para cada iteración tengamos una sola
muestra para los datos de prueba y todo el resto conformando los datos de
entrenamiento.
EVALUANDO UN ALGORITMO DE MACHINE
LEARNING
MATRIZ DE CONFUSIÓN Y MATRIZ DE COSTOS
PREDICCIÒN
MATRIZ DE CONFUSIÒN
NO MOROSOS MOROSOS
REALIDAD
NO
MOROSOS
DECISIÓN CORRECTA
VN FP
MOROSOS
FN DECISIÓN CORRECTA
VP
𝑦=1 𝑐á𝑛𝑐𝑒𝑟
• Modelo regresión logística
𝑦=0 𝑛𝑜 𝑐á𝑛𝑐𝑒r
• Se tiene un 1 % de error en el set de test (99 % de diagnósticos correctos)
• Sólo el 0,5 % de los pacientes tiene cáncer
4
1
INDICADORES
Curva de ROC: Una curva ROC es una representación gráfica de
la sensibilidad en función de los falsos positivos (complementario
de la especificidad) para distintos puntos de corte. Un parámetro
para evaluar la bondad de la prueba es el área bajo la curva
que tomará valores entre 1 (prueba perfecta) y 0,5 (prueba
inútil).
ÍNDICE DE GINI. Gini = 2 ∗ (ROC − 0.5)