Unidad 4a

Introducción al modelado
Unidad 4
Temas
● Estadística inferencial
● Modelos determinísticos y estocásticos
● Tipos de modelos
● Machine Learning
● Otras técnicas
● Caso práctico de modelado.
¿Para qué sirve
la estadística?
La estadística es una rama de las matemáticas que se utiliza para recopilar, analizar e interpretar datos con
el fin de tomar decisiones informadas basadas en la evidencia obtenida.
● Descubrir patrones -> Estadística descriptiva

● Confirmar una hipótesis -> Estadística inferencial
Análisis predictivo
(o el arte de generar inferencias)
Análisis predictivo
Tiene como objetivo:
Generar un modelo analítico de datos históricos para predecir (o inferir) el comportamiento de
la población de la cual proceden los datos muestrales.
Muestra
Población
En nuestros datos muestrales detectamos patrones que nos sirven para predecir qué
sucederá en la población.
¿Qué es un modelo en estadística?
Un modelo es una representación matemática o simbólica que se utiliza para describir o explicar el
comportamiento de un conjunto de datos o de una población en general.
Un modelo matemático relaciona una variable que queremos predecir con una o varias variables
relacionadas.
Algunos ejemplos..
● El tiempo de estudio en función de la cantidad de hojas que tenemos que leer
● El precio de un viaje en función de los kilómetros que vayamos que recorrer,

el consumo del auto y el precio del combustible
● El estado de un paciente (enfermo/no enfermo) en función de sus síntomas

Dependiente Independiente
Respuesta Predictora
Explicada Explicativa
Target Features
Un modelo matemático nunca es una
representación completamente exacta de una
situación física.
En un buen modelo la realidad se simplifica lo
suficiente para permitir cálculos matemáticos, pero
incluso así es bastante exacto para permitir
conclusiones valiosas.
Es importante el conocimiento acerca de las
limitaciones de un modelo.
Modelos determinísticos y estocásticos
Un modelo estadístico puede ser determinístico o estocástico.
● Un modelo determinístico es aquel que describe una relación fija y precisa entre las variables.
● Un modelo estocástico incorpora el azar o la variabilidad en la relación entre las variables.

Tipos de Modelos
- Para predecir una variable numérica -> Modelos de Regresión

- Para predecir una variable categórica -> Modelos de Clasificación
Problemas de Regresión
Predecimos valores numéricos. La variable target en un

problema de regresión es de tipo numérica.
El modelo más sencillo es el modelo de regresión lineal

simple.
Problemas de Clasificación
Predecimos la clase más probable de un elemento. La

variable target es una variable de tipo categórica.
El modelo más sencillo es el modelo de clasificación binaria.

Modelos paramétricos y no paramétricos
Los modelos estadísticos pueden ser paramétricos o no paramétricos.
● Los modelos paramétricos suponen una distribución específica de probabilidad para los datos y estiman los
parámetros de esa distribución. Ejemplo: regresión lineal
● Los modelos no paramétricos no hacen suposiciones explícitas sobre la distribución de probabilidad y se basan en
métodos más generales. Ejemplo: modelo de ml
Machine Learning
Aprendizaje automático
Rama de la Inteligencia Artificial (AI) que desarrolla y aplica algoritmos que pueden aprender de los datos,
identificando los patrones, y generar predicciones sin ser programados explícitamente.
Inteligencia
Disciplina que incluye diversas técnicas y enfoques
Artificial para desarrollar sistemas informáticos capaces de
realizar tareas que requieren inteligencia
Machine Learning humana, como el aprendizaje, la percepción, el

razonamiento y la toma de decisiones.
¿Qué es un Algoritmo?
Un algoritmo es una secuencia finita de instrucciones bien definidas para resolver una clase de
problemas específicos o un cálculo.
Video “Instrucciones Exactas”
https://www.youtube.com/watch?v=ajkglMnByFM
En la programación habitual, escribimos algoritmos para que una computadora siga, con el fin de realizar una tarea específica.
En los modelos de ML, en lugar de decirle a la computadora cómo realizar una tarea específica, el algoritmo se utiliza para
entrenar un modelo a partir de los datos.
Los modelos de machine learning se construyen
utilizando algoritmos que aprenden de los
datos.
En el proceso de aprendizaje, se ajusta el

modelo automáticamente en función del
número de aciertos y de fallos producidos para
mejorar su rendimiento.
Modelos (de ML) supervisados y no supervisados
Los modelos estadísticos pueden ser supervisados o no supervisados.
● Los modelos supervisados son aquellos que se entrenan utilizando un conjunto de datos etiquetados.
● Los modelos no supervisados se entrenan utilizando un conjunto de datos no etiquetados.

Aprendizaje Supervisado
conocida
input proceso output

Entrada Salida
● El modelo es entrenado utilizando ejemplos. El modelo recibe un conjunto de datos de entrada junto con los
resultados correctos.
● El algoritmo mejora al buscar reducir el error entre los resultados reales y predichos.
Aprendizaje No Supervisado
desconocido
input proceso output

Entrada Salida
● Estos algoritmos tienen como objetivo encontrar estructuras internas en

base a explorar los datos.
● No requieren de ejemplos para aprender (solo los datos de entrada).
Aprendizaje por refuerzo
El algoritmo descubre, a través de ensayo y error, qué acciones producen las mayores recompensas.
acción
AGENTE
input proceso output AMBIENTE
estado/ recompensa
● Metaheurísticas: Las metaheurísticas son técnicas de optimización que buscan
encontrar soluciones óptimas a problemas complejos. Estas técnicas se basan en la
exploración del espacio de soluciones del problema y en la aplicación de operaciones
heurísticas para guiar la búsqueda hacia una solución óptima.
● Algoritmos Genéticos: Los algoritmos genéticos son una técnica de optimización que
se basa en la selección natural. Estos algoritmos se inspiran en la evolución biológica y
utilizan operadores genéticos para generar nuevas soluciones y seleccionar las mejores
soluciones.
● Sistemas expertos: Los sistemas expertos son sistemas computacionales que utilizan
conocimientos de expertos en un dominio para realizar tareas específicas. Estos
sistemas utilizan reglas y algoritmos de inferencia para tomar decisiones basadas en el
conocimiento experto.
● Nociones de lógica difusa: La lógica difusa es una técnica de modelado matemático
que permite tratar la incertidumbre y la imprecisión en los datos. Esta técnica se basa en
la idea de que los conceptos no son binarios (verdadero/falso), sino que tienen un grado
de verdad difuso.
Actividad
¿Cómo funciona?
1
- ¿Qué datos se utilizan?
- ¿Qué tipo de algoritmo se usa? https://quickdraw.withgoogle.com/
- ¿Cómo se evalúa el éxito en el juego?
2 3
https://freddiemeter.withyoutube.com/ https://shadowart.withgoogle.com/
Pipeline de un proyecto
de Machine Learning
1 2 3
Definir el objetivo Obtener los datos Limpieza de los datos
4 5 6
Entrenar el modelo Evaluar y validar Deployment del modelo
el modelo
1 2 3 4 5 6
Definir el Obtener Limpieza de Entrenar el Evaluar y validar
Deployment
objetivo los datos los datos modelo el modelo
1 Definir el objetivo
Entender el problema es nuestro primer paso.

La idea es podernos responder las siguientes preguntas:
• ¿Qué deseamos hacer?
• ¿Cómo podemos hacerlo?
• ¿Es posible lo que deseo con los datos que tengo?
1 2 3 4 5 6
Deployment
2 Obtener los datos

Para nuestro análisis podemos usar datos de distintas fuentes:
● Fuente primaria: Datos construidos por uno o por la propia empresa.

● Fuente secundaria: Datos compartidos por una persona u organización aliada.
● Fuente terciaria: Datos depurados, donde no se conoce al originante. No es recomendable.
1 2 3 4 5 6
Deployment
Para hacer buenas predicciones, necesitamos buenos

datos.
Para ello, nuestros datos deben tener las siguientes
características:
● Abundantes
● Consistentes y confiables
● Estar disponibles
● Correctos
● Representativos
1 2 3 4 5 6
Deployment
3 Limpieza de los datos

El objetivo de esta etapa es adecuar los datos para poder realizar su análisis. Algunas tareas de la limpieza de
datos son: eliminación de datos duplicados, eliminación de valores atípicos o erróneos, imputación de
datos faltantes, corrección de errores tipográficos y la normalización de los datos. También puede incluir
procesos de transformación de datos, como la conversión de formatos de fecha y hora, la normalización de
nombres y categorías y la conversión de unidades.
1 2 3 4 5 6
Deployment
4 Entrenar el modelo
La selección del algoritmo dependerá de Cuando comparamos un enfoque tradicional con uno de ML, vale la pena
nuestro problema. Es conveniente recordar preguntarnos:
que siempre vamos a buscar la solución
más sencilla y económica. ● Calidad: ¿Cuánto mejor es la solución con ML?
● Costo y mantenimiento: ¿Qué tan costosa es la solución ML a corto y

largo plazo? ¿Puede la solución ML justificar el aumento en el costo?
¿Cuánto mantenimiento requerirá la solución?
1 2 3 4 5 6
Deployment
Para realizar el entrenamiento, es preciso que separemos nuestros datos en 2 partes:
● “Datos de Entrenamiento” usados para entrenar nuestro modelo

● “Datos de Test o de Testing” que utilizaremos para evaluar la performance de nuestro
modelo.
DATA
Se suele utilizar un 70/30 % o 80/20%

Es una convención, no hay una proporción correcta.
1 2 3 4 5 6
Deployment
5 Evaluar y validar el modelo

● Nos sirve para conocer la bondad de nuestro modelo. >> capacidad de generalización
● Se realiza con datos que no fueron usados para el entrenamiento
● En el caso de que los resultados no sean satisfactorios, deberemos re-entrenar el modelo.
1 2 3 4 5 6
Deployment
Considerando los siguientes 3 escenarios,

¿Qué modelo parece ser el mejor?
a b c
1 2 3 4 5 6
Deployment
Underfitting Overfitting
El modelo a es muy simple y no El modelo b refleja el comportamiento El modelo c se adaptó demasiado a

reproduce el comportamiento de los general de los datos, sin sobre adaptarse. los datos. No tiene capacidad de
datos. generalización
1 2 3 4 5 6
Deployment
¿Cómo podemos
prevenir el Underfitting?
● Tratar los datos correctamente, eliminando

outliers y variables innecesarias.
Underfitting ● Utilizar modelos más complejos.
sub-ajuste ● Ajustar mejor los parámetros de nuestros

modelos.
Nuestro modelo no es capaz de identificar patrones. Por lo que
tendrá siempre pésimos resultados.
1 2 3 4 5 6
Deployment
¿Cómo podemos
prevenir el overfitting?
● Incluir una validación.
Overfitting ● Mayor número de datos.
sobre-ajuste ● Ajustar los parámetros de nuestros

modelos.
Nuestro modelo aprendió DEMASIADO bien de los datos de ● Utilizar modelos más simples.
entrenamiento. No será capaz de generalizar.
1 2 3 4 5 6
Deployment
Validación cruzada
(Cross-Validation)
Ayuda a evaluar los resultados que devuelve el modelo y garantizar la

independencia de las particiones que hacemos, con lo cual se evita el ● Separamos los datos de entrenamiento en
sobreajuste. diferentes partes (ej. 5)

● Se obtienen las métricas de error de las
evaluaciones de las distintas particiones y
luego se informa el error medio.
1 2 3 4 5 6
Deployment
6 Deployment del modelo

Implementación en producción de nuestro modelo.
Explorar…
https://teachablemachine.withgoogle.com/

Unidad 4a

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Unidad 4a

Uploaded by

Copyright:

Available Formats

Introducción al modelado

● Descubrir patrones -> Estadística descriptiva

● El tiempo de estudio en función de la cantidad de hojas que tenemos que leer

● El precio de un viaje en función de los kilómetros que vayamos que recorrer,

● El estado de un paciente (enfermo/no enfermo) en función de sus síntomas

Un modelo estadístico puede ser determinístico o estocástico.

● Un modelo estocástico incorpora el azar o la variabilidad en la relación entre las variables.

- Para predecir una variable numérica -> Modelos de Regresión

Predecimos valores numéricos. La variable target en un

El modelo más sencillo es el modelo de regresión lineal

Predecimos la clase más probable de un elemento. La

El modelo más sencillo es el modelo de clasiﬁcación binaria.

Los modelos estadísticos pueden ser paramétricos o no paramétricos.

Machine Learning humana, como el aprendizaje, la percepción, el

En el proceso de aprendizaje, se ajusta el

Los modelos estadísticos pueden ser supervisados o no supervisados.

● Los modelos no supervisados se entrenan utilizando un conjunto de datos no etiquetados.

input proceso output

input proceso output

● Estos algoritmos tienen como objetivo encontrar estructuras internas en

input proceso output AMBIENTE

Entender el problema es nuestro primer paso.

2 Obtener los datos

● Fuente primaria: Datos construidos por uno o por la propia empresa.

Para hacer buenas predicciones, necesitamos buenos

3 Limpieza de los datos

● Costo y mantenimiento: ¿Qué tan costosa es la solución ML a corto y

Para realizar el entrenamiento, es preciso que separemos nuestros datos en 2 partes:

● “Datos de Entrenamiento” usados para entrenar nuestro modelo

Se suele utilizar un 70/30 % o 80/20%

5 Evaluar y validar el modelo

Considerando los siguientes 3 escenarios,

El modelo a es muy simple y no El modelo b reﬂeja el comportamiento El modelo c se adaptó demasiado a

● Tratar los datos correctamente, eliminando

Underfitting ● Utilizar modelos más complejos.

sub-ajuste ● Ajustar mejor los parámetros de nuestros

● Incluir una validación.

Overfitting ● Mayor número de datos.

sobre-ajuste ● Ajustar los parámetros de nuestros

Ayuda a evaluar los resultados que devuelve el modelo y garantizar la

sobreajuste. diferentes partes (ej. 5)

6 Deployment del modelo

You might also like