You are on page 1of 49

Introducción al modelado

Unidad 4
Temas

● Estadística inferencial
● Modelos determinísticos y estocásticos
● Tipos de modelos
● Machine Learning
● Otras técnicas
● Caso práctico de modelado.
¿Para qué sirve
la estadística?

La estadística es una rama de las matemáticas que se utiliza para recopilar, analizar e interpretar datos con
el fin de tomar decisiones informadas basadas en la evidencia obtenida.

● Descubrir patrones -> Estadística descriptiva


● Confirmar una hipótesis -> Estadística inferencial
Análisis predictivo
(o el arte de generar inferencias)
Análisis predictivo
Tiene como objetivo:
Generar un modelo analítico de datos históricos para predecir (o inferir) el comportamiento de
la población de la cual proceden los datos muestrales.
Muestra
Población

En nuestros datos muestrales detectamos patrones que nos sirven para predecir qué
sucederá en la población.
¿Qué es un modelo en estadística?

Un modelo es una representación matemática o simbólica que se utiliza para describir o explicar el
comportamiento de un conjunto de datos o de una población en general.

Un modelo matemático relaciona una variable que queremos predecir con una o varias variables
relacionadas.
Algunos ejemplos..

● El tiempo de estudio en función de la cantidad de hojas que tenemos que leer

● El precio de un viaje en función de los kilómetros que vayamos que recorrer,


el consumo del auto y el precio del combustible

● El estado de un paciente (enfermo/no enfermo) en función de sus síntomas


Dependiente Independiente

Respuesta Predictora

Explicada Explicativa

Target Features
Un modelo matemático nunca es una
representación completamente exacta de una
situación física.
En un buen modelo la realidad se simplifica lo
suficiente para permitir cálculos matemáticos, pero
incluso así es bastante exacto para permitir
conclusiones valiosas.
Es importante el conocimiento acerca de las
limitaciones de un modelo.
Modelos determinísticos y estocásticos

Un modelo estadístico puede ser determinístico o estocástico.

● Un modelo determinístico es aquel que describe una relación fija y precisa entre las variables.

● Un modelo estocástico incorpora el azar o la variabilidad en la relación entre las variables.


Tipos de Modelos

- Para predecir una variable numérica -> Modelos de Regresión


- Para predecir una variable categórica -> Modelos de Clasificación
Problemas de Regresión

Predecimos valores numéricos. La variable target en un


problema de regresión es de tipo numérica.

El modelo más sencillo es el modelo de regresión lineal


simple.
Problemas de Clasificación

Predecimos la clase más probable de un elemento. La


variable target es una variable de tipo categórica.

El modelo más sencillo es el modelo de clasificación binaria.


Modelos paramétricos y no paramétricos

Los modelos estadísticos pueden ser paramétricos o no paramétricos.

● Los modelos paramétricos suponen una distribución específica de probabilidad para los datos y estiman los
parámetros de esa distribución. Ejemplo: regresión lineal

● Los modelos no paramétricos no hacen suposiciones explícitas sobre la distribución de probabilidad y se basan en
métodos más generales. Ejemplo: modelo de ml
Machine Learning
Aprendizaje automático

Rama de la Inteligencia Artificial (AI) que desarrolla y aplica algoritmos que pueden aprender de los datos,
identificando los patrones, y generar predicciones sin ser programados explícitamente.
Inteligencia
Disciplina que incluye diversas técnicas y enfoques
Artificial para desarrollar sistemas informáticos capaces de
realizar tareas que requieren inteligencia

Machine Learning humana, como el aprendizaje, la percepción, el


razonamiento y la toma de decisiones.
¿Qué es un Algoritmo?

Un algoritmo es una secuencia finita de instrucciones bien definidas para resolver una clase de
problemas específicos o un cálculo.
Video “Instrucciones Exactas”
https://www.youtube.com/watch?v=ajkglMnByFM
En la programación habitual, escribimos algoritmos para que una computadora siga, con el fin de realizar una tarea específica.
En los modelos de ML, en lugar de decirle a la computadora cómo realizar una tarea específica, el algoritmo se utiliza para
entrenar un modelo a partir de los datos.
Los modelos de machine learning se construyen
utilizando algoritmos que aprenden de los
datos.

En el proceso de aprendizaje, se ajusta el


modelo automáticamente en función del
número de aciertos y de fallos producidos para
mejorar su rendimiento.
Modelos (de ML) supervisados y no supervisados

Los modelos estadísticos pueden ser supervisados o no supervisados.

● Los modelos supervisados son aquellos que se entrenan utilizando un conjunto de datos etiquetados.

● Los modelos no supervisados se entrenan utilizando un conjunto de datos no etiquetados.


Aprendizaje Supervisado
conocida

input proceso output


Entrada Salida

● El modelo es entrenado utilizando ejemplos. El modelo recibe un conjunto de datos de entrada junto con los
resultados correctos.
● El algoritmo mejora al buscar reducir el error entre los resultados reales y predichos.
Aprendizaje No Supervisado
desconocido

input proceso output


Entrada Salida

● Estos algoritmos tienen como objetivo encontrar estructuras internas en


base a explorar los datos.
● No requieren de ejemplos para aprender (solo los datos de entrada).
Aprendizaje por refuerzo
El algoritmo descubre, a través de ensayo y error, qué acciones producen las mayores recompensas.
acción
AGENTE

input proceso output AMBIENTE

estado/ recompensa
● Metaheurísticas: Las metaheurísticas son técnicas de optimización que buscan
encontrar soluciones óptimas a problemas complejos. Estas técnicas se basan en la
exploración del espacio de soluciones del problema y en la aplicación de operaciones
heurísticas para guiar la búsqueda hacia una solución óptima.
● Algoritmos Genéticos: Los algoritmos genéticos son una técnica de optimización que
se basa en la selección natural. Estos algoritmos se inspiran en la evolución biológica y
utilizan operadores genéticos para generar nuevas soluciones y seleccionar las mejores
soluciones.
● Sistemas expertos: Los sistemas expertos son sistemas computacionales que utilizan
conocimientos de expertos en un dominio para realizar tareas específicas. Estos
sistemas utilizan reglas y algoritmos de inferencia para tomar decisiones basadas en el
conocimiento experto.
● Nociones de lógica difusa: La lógica difusa es una técnica de modelado matemático
que permite tratar la incertidumbre y la imprecisión en los datos. Esta técnica se basa en
la idea de que los conceptos no son binarios (verdadero/falso), sino que tienen un grado
de verdad difuso.
Actividad
¿Cómo funciona?
1
- ¿Qué datos se utilizan?
- ¿Qué tipo de algoritmo se usa? https://quickdraw.withgoogle.com/
- ¿Cómo se evalúa el éxito en el juego?

2 3

https://freddiemeter.withyoutube.com/ https://shadowart.withgoogle.com/
Pipeline de un proyecto
de Machine Learning

1 2 3
Definir el objetivo Obtener los datos Limpieza de los datos

4 5 6
Entrenar el modelo Evaluar y validar Deployment del modelo
el modelo
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

1 Definir el objetivo

Entender el problema es nuestro primer paso.


La idea es podernos responder las siguientes preguntas:
• ¿Qué deseamos hacer?
• ¿Cómo podemos hacerlo?
• ¿Es posible lo que deseo con los datos que tengo?
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

2 Obtener los datos


Para nuestro análisis podemos usar datos de distintas fuentes:

● Fuente primaria: Datos construidos por uno o por la propia empresa.


● Fuente secundaria: Datos compartidos por una persona u organización aliada.
● Fuente terciaria: Datos depurados, donde no se conoce al originante. No es recomendable.
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

Para hacer buenas predicciones, necesitamos buenos


datos.
Para ello, nuestros datos deben tener las siguientes
características:

● Abundantes
● Consistentes y confiables
● Estar disponibles
● Correctos
● Representativos
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

3 Limpieza de los datos


El objetivo de esta etapa es adecuar los datos para poder realizar su análisis. Algunas tareas de la limpieza de
datos son: eliminación de datos duplicados, eliminación de valores atípicos o erróneos, imputación de
datos faltantes, corrección de errores tipográficos y la normalización de los datos. También puede incluir
procesos de transformación de datos, como la conversión de formatos de fecha y hora, la normalización de
nombres y categorías y la conversión de unidades.
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

4 Entrenar el modelo
La selección del algoritmo dependerá de Cuando comparamos un enfoque tradicional con uno de ML, vale la pena
nuestro problema. Es conveniente recordar preguntarnos:
que siempre vamos a buscar la solución
más sencilla y económica. ● Calidad: ¿Cuánto mejor es la solución con ML?

● Costo y mantenimiento: ¿Qué tan costosa es la solución ML a corto y


largo plazo? ¿Puede la solución ML justificar el aumento en el costo?
¿Cuánto mantenimiento requerirá la solución?
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

Para realizar el entrenamiento, es preciso que separemos nuestros datos en 2 partes:

● “Datos de Entrenamiento” usados para entrenar nuestro modelo


● “Datos de Test o de Testing” que utilizaremos para evaluar la performance de nuestro
modelo.
DATA

Se suele utilizar un 70/30 % o 80/20%


Es una convención, no hay una proporción correcta.
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

5 Evaluar y validar el modelo


● Nos sirve para conocer la bondad de nuestro modelo. >> capacidad de generalización
● Se realiza con datos que no fueron usados para el entrenamiento
● En el caso de que los resultados no sean satisfactorios, deberemos re-entrenar el modelo.
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

Considerando los siguientes 3 escenarios,


¿Qué modelo parece ser el mejor?

a b c
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

Underfitting Overfitting

El modelo a es muy simple y no El modelo b refleja el comportamiento El modelo c se adaptó demasiado a


reproduce el comportamiento de los general de los datos, sin sobre adaptarse. los datos. No tiene capacidad de
datos. generalización
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

¿Cómo podemos
prevenir el Underfitting?

● Tratar los datos correctamente, eliminando


outliers y variables innecesarias.

Underfitting ● Utilizar modelos más complejos.

sub-ajuste ● Ajustar mejor los parámetros de nuestros


modelos.
Nuestro modelo no es capaz de identificar patrones. Por lo que
tendrá siempre pésimos resultados.
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

¿Cómo podemos
prevenir el overfitting?

● Incluir una validación.

Overfitting ● Mayor número de datos.

sobre-ajuste ● Ajustar los parámetros de nuestros


modelos.
Nuestro modelo aprendió DEMASIADO bien de los datos de ● Utilizar modelos más simples.
entrenamiento. No será capaz de generalizar.
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

Validación cruzada
(Cross-Validation)

Ayuda a evaluar los resultados que devuelve el modelo y garantizar la


independencia de las particiones que hacemos, con lo cual se evita el ● Separamos los datos de entrenamiento en

sobreajuste. diferentes partes (ej. 5)


● Se obtienen las métricas de error de las
evaluaciones de las distintas particiones y
luego se informa el error medio.
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo

6 Deployment del modelo


Implementación en producción de nuestro modelo.
Explorar…

https://teachablemachine.withgoogle.com/

You might also like