Professional Documents
Culture Documents
Separata02 ML Uni Fim
Separata02 ML Uni Fim
SESION 02
REGRESION
3
Objetivo
4
Estadistica Descriptiva
La estadística descriptiva es muy importante porque si presentamos nuestros datos sin procesar,
sería difícil visualizar lo que muestran los datos, especialmente si son muchos. Por lo tanto, la
estadística descriptiva nos permite presentar los datos de una manera más significativa, lo que
permitira una interpretación más sencilla de los datos. Por ejemplo, si tenemos los resultados
de 100 examenes de un curso, podríamos estar interesados en el desempeño general de los
estudiantes. También estaríamos interesados en la distribución o difusión de las notas. La
estadística descriptiva nos permite hacer esto.
5
Medidas de Tendencia Central
Las medidas de tendencia central son formas de describir la posición central de una distribución
de frecuencia para un grupo de datos. En nuestro ejemplo anterior, la distribución de frecuencias
es simplemente la distribución y el patrón de calificaciones obtenidas por los 100 estudiantes
desde la más baja hasta la más alta. Podemos describir esta posición central utilizando una serie
de estadísticas, incluida la moda, la mediana y la media.
Una medida de tendencia central es un valor único que intenta describir un conjunto de datos
mediante la identificación de la posición central dentro de ese conjunto de datos. Como tales,
las medidas de tendencia central a veces se denominan medidas de ubicación central. También
se clasifican como estadísticas de resumen. La media (a menudo llamada promedio) es
probablemente la medida de tendencia central que mas conocemos, pero hay otras, como la
mediana y la moda.
La media, la mediana y la moda son todas medidas válidas de tendencia central, pero en
diferentes condiciones, algunas medidas de tendencia central se vuelven más apropiadas que
otras. En las siguientes secciones, veremos la media, la moda y la mediana, y aprenderemos
cómo calcularlos y en qué condiciones son más apropiados para su uso.
6
Medidas de Tendencia Central: Media
Media de la muestra:
Media de la poblacion:
Una propiedad importante de la media es que incluye todos los valores de su conjunto de datos
como parte del cálculo. Además, la media es la única medida de tendencia central donde la
suma de las desviaciones de cada valor de la media es siempre cero.
7
Medidas de Tendencia Central: Mediana
Preferiremos usar la mediana sobre la media (o la moda) cuando nuestros datos están sesgados
(es decir, la distribución de frecuencia de nuestros datos está sesgada). Si consideramos la
distribución normal, ya que es la más evaluada en estadística, cuando los datos son
perfectamente normales, la media, la mediana y la moda son idénticas. Además, todos
representan el valor más típico en el conjunto de datos. Sin embargo, a medida que los datos se
vuelven sesgados, la media pierde su capacidad de proporcionar la mejor ubicación central para
los datos porque los datos sesgados los alejan del valor típico. Sin embargo, la mediana
conserva mejor esta posición y no está tan fuertemente influenciada por los valores sesgados.
8
Medidas de Tendencia Central: Mediana
En el caso de datos sesgados, en la siguiente imagen encontramos que la media está siendo
arrastrada en el sentido directo del sesgo. En estas situaciones, generalmente se considera que
la mediana es el mejor representante de la ubicación central de los datos. Cuanto más sesgada
sea la distribución, mayor será la diferencia entre la mediana y la media, y se debe poner mayor
énfasis en usar la mediana en lugar de la media. Un ejemplo clásico de la distribución sesgada
hacia la derecha salario, donde los que ganan más brindan una representación falsa del ingreso
típico si se expresan como una media y no como una mediana.
9
Medidas de Tendencia Central: Moda
Un problema con la moda es que no nos proporcionará una muy buena medida de tendencia
central cuando la marca más común está lejos del resto de los datos en el conjunto de datos,
como se muestra en el siguiente diagrama:
10
Medidas de Dispersion
Las medidas de dispersión, se utiliza para describir la variabilidad en una muestra o población.
Por lo general, se usa junto con una medida de tendencia central, como la media o la mediana,
para proporcionar una descripción general de un conjunto de datos.
Por ejemplo, la puntuación media de los 100 alumnos puede ser de 65 sobre 100. Sin embargo,
no todos los alumnos habrán obtenido 65 puntos. Más bien, sus puntajes se distribuirán. Unos
serán más bajos y otros más altos. Las medidas de dispersión nos ayudan a resumir cuán
dispersas están estas puntuaciones. Para describir este diferencial, tenemos a nuestra
disposición una serie de estadísticas, algunas de ellas son los cuartiles, la varianza, la
desviacion standard y la correlacion.
11
Medidas de Dispersion: Cuartiles
Los cuartiles nos informan sobre la dispersión de un conjunto de datos dividiéndolo en cuartos,
al igual que la mediana lo divide por la mitad. Por ejemplo, considere las calificaciones de los
100 estudiantes a continuación, que se han ordenado de la calificación más baja a la más alta.
En este caso datos no agrupados.
N = 100;
Primer Cuartil => (N + 1)/4 = 25.25; Segundo Cuartil => 2 (N + 1)/4 = 50.50; Tercer Cuartil
=> 3(N + 1)/4 = 75.75
Q1 = 55 + 0.25(45 – 45) = 25
Q2 = 58 + 0.50(59 – 58) = 58.5
Q3 = 71 + 0.75(71 – 71) = 71
12
Medidas de Dispersion: Varianza
Los cuartiles son útiles, pero también son algo limitados porque no tienen en cuenta todas las
notas de nuestro grupo de datos. Para tener una idea más representativa de la dispersión,
debemos tener en cuenta los valores reales de cada puntaje en un conjunto de datos. La varianza
y la desviación estándar son tales medidas.
La varianza alcanza valores positivos elevando al cuadrado cada una de las desviaciones. La
suma de estas desviaciones al cuadrado nos da la suma de los cuadrados, que luego podemos
dividir por el número total de notas en nuestro grupo de datos (en otras palabras, 100 porque
hay 100 estudiantes) para encontrar la varianza. Por lo tanto, para nuestros 100 estudiantes, la
varianza es 211,89, como se muestra a continuación:
Como medida de variabilidad, la varianza es útil. Si las notas en nuestro grupo de datos están
muy dispersos, la varianza será un número grande. Por el contrario, si las notas se distribuyen
muy cerca de la media, la varianza será un número menor. Sin embargo, hay dos problemas
potenciales con la varianza. En primer lugar, debido a que las desviaciones de las notas con
respecto a la media se elevan al cuadrado, esto da más peso a las puntuaciones extremas. Si
nuestros datos contienen valores atípicos (en otras palabras, uno o un pequeño número de
puntajes que están particularmente lejos de la media y quizás no representan bien nuestros datos
en su conjunto), esto puede deshacer el peso de estos notas. En segundo lugar, la varianza no
está en las mismas unidades que las puntuaciones en nuestro conjunto de datos: la varianza se
mide en unidades al cuadrado. Esto significa que no podemos ubicarlo en nuestra distribución
de frecuencia y no podemos relacionar directamente su valor con los valores de nuestro
conjunto de datos. Por lo tanto, la cifra de 211,89, nuestra varianza, parece algo arbitraria.
Calcular la desviación estándar en lugar de la varianza corrige este problema. No obstante, el
análisis de la varianza es extremadamente importante en algunos análisis estadísticos,
discutidos en otras guías estadísticas.
13
Medidas de Dispersion: Desviacion Standard
La desviación estándar se usa junto con la media para resumir datos continuos, no datos
categóricos. Además, la desviación estándar, como la media, normalmente solo es adecuada
cuando los datos continuos no están significativamente sesgados o tienen valores atípicos.
14
Medidas de Dispersion: Covarianza
La desviación típica es un indicador de de dispersión de una variable. ¿Qué pasa cuando tienes
más de una variable? Existe alguna forma de saber cómo se relaciona una con la otra?
La Covarianza es la media aritmética de los productos de las desviaciones de cada una de las
variables respecto a sus medias respectivas.
1. La covarianza positiva >> cuando uno variable crece la otra variable también. Tienen
una relación directa.
2. La covarianza negativa >> cuando una variable crece la otra variable decrece. Tienen
una relación Inversa.
15
Medidas de Dispersion: Correlacion
La correlacion sirve para medir la relacion que existe entre dos o mas variables.
La practica de algun deporte esta relacionada con una vida mas longeva?
Existe una relacion entre la cantidad de carne ingerida diariamente y el cancer?
Mayor estudio implica mejores notas en un examen?
Si la correlacion es lineal su direccion puede ser positiva o negativa. Su fuerza varia entre
perfecta y nula.
16
Medidas de Dispersion: Correlacion
17
Medidas de Dispersion: Coeficiente de Correlacion
Este coeficiente nos da una medida de la fuerza y el sentido de una relacion lineal entre variables
cuantitativas.
Cuando el signo es positivo la asociacion lineal es positiva lo que implica que cuando el valor
de una variable x aumenta tambien aumenta el valor de la otra variable y.
Cuando el signo es negativo la asociacion lineal es negativa lo que implica que cuando el valor
de una variable x aumenta el valor de la otra variable y disminuye.
18
Medidas de Dispersion: Coeficiente de Determinacion R2
El 16 nos da una idea de la dispersion de los datos. Un valor de 0 indica que no hay variabilidad,
mayor el valor, mayor la dispersion de los datos.
En la grafica anterior trataremos de averiguar que tan bien se ajusta la recta del lado derecho al
conjunto de datos. ¿Cual es la bondad del ajuste?.
19
Medidas de Dispersion: Coeficiente de Determinacion R2
¿Es este ajuste mejor que el ajuste con la media? Si es asi, ¿Qué tan mejor es? ¿Cómo
cuantificamos esta diferencia?
Variables correlacionadas
Por lo que Var(line)/Var(mean) nos indicara que porcentaje de la variacion total en y (peso del
raton) no esta explicada por la variacion en x (tamaño del raton).
Asi pues para saber que porcentaje de la variacion total en y (peso del raton) esta explicada por
la variacion en x (tamaño del raton) usamos 1 - Var(line)/Var(mean) = 81%
En otras palabras la relacion entre las dos variables explica el 81% de la variacion de los datos.
Esta relacion es significativa.
20
Medidas de Dispersion: Coeficiente de Determinacion R2
Variables no correlacionadas
Var(mean) = 32 y Var(line) = 30
Var(line)/Var(mean) nos indicara que porcentaje de la variacion total en y (pero del raton) no
esta explicada por la variacion en x (tiempo oliendo una roca).
Asi pues para saber que porcentaje de la variacion total en y (peso del raton) esta explicada por
la variacion en x (tiempo oliendo una roca) usamos 1 - Var(line)/Var(mean) = 6%
En otras palabras la relacion entre las dos variables explica el 6% de la variacion de los datos.
Esta relacion no es significativa.
R2 es mas facil de interpretar, por ejemplo que tan mejor es R = 0.7 que R = 0.5
R2 = 0.72 = 0.49
R2 = 0.52 = 0.25
Con R2 es facil ver que la primera correlacion es el doble mejor que la segunda correlacion.
21
Covarianza y el coeficiente de correlacion
Al graficar el diagrama de dispersion podemos ver que hay una relacion lineal positiva o directa
entre ambas variables.Nos da informacion sobre la covariacion (variacion conjunta) y sus
caracteristicas, si es lineal, su signo y su intensidad.
22
Covarianza y el coeficiente de correlacion
σXY = 4.4548
ρXY = σXY/(σXσY)
ρXY = 0.9194
23
Bias Variance Trade Off
Sin embargo cuando vemos el ajuste del modelo para ver su comportamiento con el testing set
obsevamos que la linea recta del primer metodo de ML ajusta mejor que el segundo metodo
(linea ondulada).
TESTING
En otras palabras sera dificil predecir como se comportara la linea ondulada con otros testing
sets. A veces lo hara bien, otras veces lo hara mal. Tiene alta variabilidad.
El modelo con la linea ondulada tiene bajo bias pero alta varianza dado que la suma de sus
residuos al cuadrado varian mucho entre diversos testing sets.
El modelo con la linea recta tiene alto bias pero baja varianza dado que la suma de sus residuos
al cuadrado varian poco entre diversos testing sets.
Lo que debemos encontrar es un modelo que tenga bajo bias y baja varianza con el objeto que
el modelo genere predicciones consistente con diversos testing sets. Para eso debemos
encontrar una curva intermedia entre nuestros dos modelos. Esto se puede lograr utilizando
regularization, boosting o bagging.
24
Regresion Lineal
El análisis de regresión se utiliza para crear un modelo que describe la relación entre una
variable dependiente y una o más variables independientes (features). Dependiendo de si hay
una o más variables independientes, se hace una distinción entre análisis de regresión lineal
simple y múltiple.
En el caso de una regresión lineal simple, el objetivo es examinar la influencia de una variable
independiente sobre una variable dependiente. En el segundo caso, una regresión lineal
múltiple, se analiza la influencia de varias variables independientes sobre una variable
dependiente.
Para esto se debe minimizar la distancia vertical entre todos nuestros datos y nuestra recta de
regresion, la cual viene a ser nuestro modelo.
Debemos seleccionar las mejores variables independientes que puedan contribuir a la variable
dependiente. Para esto, generamos la matriz de correlación para todas las variables
independiente e incluimos la variable dependiente.
El valor de las correlaciones nos dara una idea de qué variables son significativas. A partir de
esta informacion, seleccionamos las variables (feature selection) independientes en orden
decreciente de valor de correlación, entrenamos y ejecutamos nuestro modelo de regresión para
estimar los coeficientes minimizando la función de error. Cuando no veamos mejora en nuestro
modelo dejamos de agregar o eliminar las variables independientes.
Por otra lado, tengamos en cuenta que si agregamos más variables independientes se crean
relaciones entre ellas. Por lo que no solo las variables independientes estaran relacionadas con
la variable dependiente, sino que también estaran relacionadas entre sí, esto se conoce como
multicolinealidad. Todas las variables independientes se deberian correlacionar con la variable
dependiente, pero no entre sí.
25
Regresion Polinomial
El algoritmo de regresión lineal simple, solo funciona cuando la relación entre los datos es
lineal. Pero supongamos que tenemos datos no lineales, la regresión lineal no será capaz de
dibujar una línea de mejor ajuste y falla en tales condiciones. Considere el siguiente diagrama
que tiene una relación no lineal y puede ver los resultados de la regresión lineal en él. Por lo
tanto, introducimos la regresión polinomial para superar este problema, esto ayudara a modelar
una relación curvilínea entre las variables independientes y dependientes.
La regresión polinomial es una forma de regresión lineal en la que debido a la relación no lineal
entre las variables dependientes e independientes, procedemos a agregar algunos términos
polinómicos a la regresión lineal para convertirla en una regresión polinomial.
26
Regresion Polinomial
La regresion polinomial tiene tendencia a ajustarse excesivamente, hay evitar ajustar con
polinomios de grados altos. Siempre visualizar la curva de ajuste y ver que esta se ajuste a la
naturaleza del problema.
27
Support Vector Regression
Los puntos de datos que quedan fuera del tubo ϵ se penalizan por su error:
El error asociado con un punto que esta sobre el ϵ-tube se calcula como la distancia vertical
entre el punto y el margen superior del ϵ-tube. Se denota ξι*
Si el punto está debajo del tubo, el error es la distancia vertical entre el margen inferior del ϵ-
tube y dicho punto. Se denota ξi
Image Source: Efficient Learning Machines Theories, Concepts, and Application for
Engineers and System Designers by Mariette Awad and Rahul Khanna
Imagen utilizada solo con propositos educativos
28
Support Vector Regression
Para el caso no lineal se aplica el mismo procedimiento pero con la diferencia que se
implementa un kernel.
29
Decision Tree Regression
Los árboles de decisión son modelos predictivos formados por reglas binarias (si/no) con las
que se consigue repartir las observaciones en función de sus atributos y predecir así el valor de
la variable respuesta.
Los árboles de regresión son el subtipo de árboles de predicción que se aplica cuando la variable
respuesta es continua. En términos generales, en el entrenamiento de un árbol de regresión, las
observaciones se van distribuyendo por bifurcaciones (nodos) generando la estructura del árbol
hasta alcanzar un nodo terminal. Cuando se quiere predecir una nueva observación, se recorre
el árbol acorde al valor de sus predictores hasta alcanzar uno de los nodos terminales. La
predicción del árbol es la media de la variable respuesta de las observaciones de entrenamiento
que están en ese mismo nodo terminal.
30
Decision Tree Regression
Se toma el promedio de cada división y se asigna a cada división denominada Terminal Leaf
del Árbol de Decisión. Al dividir los datos en divisiones relevantes, el algoritmo de aprendizaje
automático puede predecir con mayor precisión el valor de la variable independiente.
Una aplicación práctica, por ejemplo, predecir el salario de un empleado se puede hacer en
Python. Tomando los datos de salario y puesto como variables dependientes, podemos calcular
el salario predicho de cualquier empleado dado su puesto utilizando el modelo de regresión de
árbol de decisión.
31
Random Forest Regression
Veamos el caso de los árboles de decisión. Como sabemos, pueden reconstruir patrones muy
complejos, pero tienden a tener un rendimiento inferior incluso si se producen cambios menores
en los datos. Es por eso que un árbol de decisiones independiente no obtendrá grandes
resultados. Aún así, si compone muchos de estos árboles, el rendimiento predictivo mejorará
drásticamente. Esto es un método de conjunto llamado Random Forest.
La idea general del esemble learning es bastante simple. Debe entrenar varios algoritmos de
ML y combinar sus predicciones de alguna manera. Tal enfoque tiende a hacer predicciones
más precisas que cualquier modelo individual. Un modelo Ensemble es un modelo que consta
de muchos modelos base.
Bagging
Bootstrap Aggregating o Bagging es una técnica bastante simple pero realmente poderosa.
Comprender el concepto general de Bagging es realmente crucial, ya que es la base del
algoritmo Random Forest (RF). Revisemos en profundidad el algoritmo general de bagging.
Para empezar, supongamos que tiene algunos datos originales que desea utilizar como conjunto
de entrenamiento (conjunto de datos D). Quiere tener K modelos base en nuestro conjunto.
Para promover la variación del modelo, el bagging requiere entrenar cada modelo en el conjunto
en un subconjunto elegido al azar del conjunto de entrenamiento. El número de muestras en
cada subconjunto suele ser como en el conjunto de datos original (por ejemplo, N), aunque
puede ser menor.
32
Random Forest Regression
Luego realizar los pasos A, B y C K – 1 vez para tener K subconjuntos para cada uno de sus K
modelos base
En el caso de la regresión, solo debe tomar el promedio de las predicciones del modelo K.
En general, el bagging es una buena técnica que ayuda a manejar el sobreajuste y reduce la
varianza.
33
Random Forest Regression
Todo lo demás es bastante simple. Random Forest crea K subconjuntos de los datos del conjunto
de datos original D. Las muestras que no aparecen en ningún subconjunto se denominan
muestras "listas para usar".
Los árboles K se construyen utilizando un solo subconjunto. Además, cada árbol se construye
hasta que haya menos o igual a N muestras en cada nodo. Además, en cada nodo, las
características F se seleccionan aleatoriamente. Uno de ellos se utiliza para dividir el nodo.
K modelos entrenados forman un conjunto y el resultado final de la tarea de regresión se
produce promediando las predicciones de los árboles individuales
34