You are on page 1of 33

MACHINE LEARNING CON PYTHON

SESION 02
REGRESION

*Cuadros e imágenes extraidos de internet solo con fines educativos


ÍNDICE
OBJETIVO ......................................................................................................................................................... 4
ESTADISTICA DESCRIPTIVA ............................................................................................................................... 5
MEDIDAS DE TENDENCIA CENTRAL................................................................................................................... 6
MEDIDAS DE TENDENCIA CENTRAL: MEDIA ...................................................................................................... 7
MEDIDAS DE TENDENCIA CENTRAL: MEDIANA ................................................................................................. 8
MEDIDAS DE TENDENCIA CENTRAL: MEDIANA ................................................................................................. 9
MEDIDAS DE TENDENCIA CENTRAL: MODA .................................................................................................... 10
MEDIDAS DE DISPERSION ............................................................................................................................... 11
MEDIDAS DE DISPERSION: CUARTILES ............................................................................................................ 12
MEDIDAS DE DISPERSION: VARIANZA ............................................................................................................ 13
MEDIDAS DE DISPERSION: DESVIACION STANDARD ....................................................................................... 14
MEDIDAS DE DISPERSION: COVARIANZA ........................................................................................................ 15
MEDIDAS DE DISPERSION: CORRELACION ...................................................................................................... 16
MEDIDAS DE DISPERSION: CORRELACION ...................................................................................................... 17
MEDIDAS DE DISPERSION: COEFICIENTE DE CORRELACION ............................................................................ 18
MEDIDAS DE DISPERSION: COEFICIENTE DE DETERMINACION R2 ................................................................... 19
MEDIDAS DE DISPERSION: COEFICIENTE DE DETERMINACION R2 ................................................................... 20
MEDIDAS DE DISPERSION: COEFICIENTE DE DETERMINACION R2 ................................................................... 21
COVARIANZA Y EL COEFICIENTE DE CORRELACION ......................................................................................... 22
COVARIANZA Y EL COEFICIENTE DE CORRELACION ......................................................................................... 23
BIAS VARIANCE TRADE OFF ............................................................................................................................ 24
REGRESION LINEAL ......................................................................................................................................... 25
REGRESION POLINOMIAL ............................................................................................................................... 26
REGRESION POLINOMIAL ............................................................................................................................... 27
SUPPORT VECTOR REGRESSION...................................................................................................................... 28
SUPPORT VECTOR REGRESSION...................................................................................................................... 29
DECISION TREE REGRESSION .......................................................................................................................... 30
DECISION TREE REGRESSION .......................................................................................................................... 31
RANDOM FOREST REGRESSION ...................................................................................................................... 32
RANDOM FOREST REGRESSION ...................................................................................................................... 33
RANDOM FOREST REGRESSION ...................................................................................................................... 34

3
Objetivo

El objetivo de esta sesion es profundizar en el analisis de la correlacion lineal de dos variables,


la cual cuantifica que tan relacionadas estan las mismas. Esta tecnica esta estrechamente
relacionada con la regresion lineal la cual da lugar a una ecuacion que describe dicha relacion
en terminos matematicos.

En la practica de esta sesion, continuacion de la practica de la sesion anterior, finalizaremos el


analisis exploratorio de datos para poder ya aplicar diversos algoritmos de clasificacion para
obtener la variables objetivo buscada, en este caso la supervicencia o no de un pasajero del
Titanic.

4
Estadistica Descriptiva

La estadística descriptiva es el término que se le da al análisis de datos que ayuda a describir,


mostrar o resumir datos de una manera significativa de modo que puedan surgir patrones a partir
de dichos datos, eso se realiza con la ayuda de gráficos o valores de resumen. Sin embargo, la
estadística descriptiva no nos permitira sacar conclusiones más allá de los datos que hemos
analizado ni llegar a conclusiones con respecto a las hipótesis que podríamos haber hecho. Es
simplemente una manera de describir nuestros datos.

La estadística descriptiva es muy importante porque si presentamos nuestros datos sin procesar,
sería difícil visualizar lo que muestran los datos, especialmente si son muchos. Por lo tanto, la
estadística descriptiva nos permite presentar los datos de una manera más significativa, lo que
permitira una interpretación más sencilla de los datos. Por ejemplo, si tenemos los resultados
de 100 examenes de un curso, podríamos estar interesados en el desempeño general de los
estudiantes. También estaríamos interesados en la distribución o difusión de las notas. La
estadística descriptiva nos permite hacer esto.

5
Medidas de Tendencia Central

Las medidas de tendencia central son formas de describir la posición central de una distribución
de frecuencia para un grupo de datos. En nuestro ejemplo anterior, la distribución de frecuencias
es simplemente la distribución y el patrón de calificaciones obtenidas por los 100 estudiantes
desde la más baja hasta la más alta. Podemos describir esta posición central utilizando una serie
de estadísticas, incluida la moda, la mediana y la media.

Una medida de tendencia central es un valor único que intenta describir un conjunto de datos
mediante la identificación de la posición central dentro de ese conjunto de datos. Como tales,
las medidas de tendencia central a veces se denominan medidas de ubicación central. También
se clasifican como estadísticas de resumen. La media (a menudo llamada promedio) es
probablemente la medida de tendencia central que mas conocemos, pero hay otras, como la
mediana y la moda.

La media, la mediana y la moda son todas medidas válidas de tendencia central, pero en
diferentes condiciones, algunas medidas de tendencia central se vuelven más apropiadas que
otras. En las siguientes secciones, veremos la media, la moda y la mediana, y aprenderemos
cómo calcularlos y en qué condiciones son más apropiados para su uso.

*Informacion e imagenes extraidas de:


https://statistics.laerd.com/statistical-guides/measures-central-tendency-mean-mode-
median.php

6
Medidas de Tendencia Central: Media

La media (o promedio) es la medida de tendencia central más popular y conocida. Se puede


usar tanto con datos discretos como continuos, aunque su uso es más frecuente con datos
continuos. La media es igual a la suma de todos los valores del conjunto de datos dividida por
el número de valores del conjunto de datos.

Media de la muestra:

Media de la poblacion:

Una propiedad importante de la media es que incluye todos los valores de su conjunto de datos
como parte del cálculo. Además, la media es la única medida de tendencia central donde la
suma de las desviaciones de cada valor de la media es siempre cero.

La media tiene una desventaja principal: es particularmente susceptible a la influencia de


valores atípicos. Estos son valores que son inusuales en comparación con el resto del conjunto
de datos por ser especialmente pequeños o grandes en valor numérico.

7
Medidas de Tendencia Central: Mediana

La mediana es la puntuación media de un conjunto de datos que se ha organizado en orden de


magnitud. La mediana se ve menos afectada por los valores atípicos y los datos sesgados. Para
calcular la mediana, supongamos que tenemos los siguientes datos (numero impar de datos):

Primero ordenamos los datos en orden ascendente:

En el siguiente ejemplo tenemos un numero par de datos:

Primero ordenamos los datos en orden ascendente:

La mediana sera el resultado del promedio de las notas 5 y 6 es decir: 55.5

Preferiremos usar la mediana sobre la media (o la moda) cuando nuestros datos están sesgados
(es decir, la distribución de frecuencia de nuestros datos está sesgada). Si consideramos la
distribución normal, ya que es la más evaluada en estadística, cuando los datos son
perfectamente normales, la media, la mediana y la moda son idénticas. Además, todos
representan el valor más típico en el conjunto de datos. Sin embargo, a medida que los datos se
vuelven sesgados, la media pierde su capacidad de proporcionar la mejor ubicación central para
los datos porque los datos sesgados los alejan del valor típico. Sin embargo, la mediana
conserva mejor esta posición y no está tan fuertemente influenciada por los valores sesgados.

8
Medidas de Tendencia Central: Mediana

En el caso de datos sesgados, en la siguiente imagen encontramos que la media está siendo
arrastrada en el sentido directo del sesgo. En estas situaciones, generalmente se considera que
la mediana es el mejor representante de la ubicación central de los datos. Cuanto más sesgada
sea la distribución, mayor será la diferencia entre la mediana y la media, y se debe poner mayor
énfasis en usar la mediana en lugar de la media. Un ejemplo clásico de la distribución sesgada
hacia la derecha salario, donde los que ganan más brindan una representación falsa del ingreso
típico si se expresan como una media y no como una mediana.

9
Medidas de Tendencia Central: Moda

La moda es la puntuación más frecuente en nuestro conjunto de datos. En un histograma


representa la barra más alta en un gráfico de barras o histograma. Por lo tanto, a veces puede
considerar la moda como la opción más popular. A continuación se presenta un ejemplo de un
moda:

Un problema con la moda es que no nos proporcionará una muy buena medida de tendencia
central cuando la marca más común está lejos del resto de los datos en el conjunto de datos,
como se muestra en el siguiente diagrama:

10
Medidas de Dispersion

Las medidas de dispersión, se utiliza para describir la variabilidad en una muestra o población.
Por lo general, se usa junto con una medida de tendencia central, como la media o la mediana,
para proporcionar una descripción general de un conjunto de datos.

Por ejemplo, la puntuación media de los 100 alumnos puede ser de 65 sobre 100. Sin embargo,
no todos los alumnos habrán obtenido 65 puntos. Más bien, sus puntajes se distribuirán. Unos
serán más bajos y otros más altos. Las medidas de dispersión nos ayudan a resumir cuán
dispersas están estas puntuaciones. Para describir este diferencial, tenemos a nuestra
disposición una serie de estadísticas, algunas de ellas son los cuartiles, la varianza, la
desviacion standard y la correlacion.

11
Medidas de Dispersion: Cuartiles

Los cuartiles nos informan sobre la dispersión de un conjunto de datos dividiéndolo en cuartos,
al igual que la mediana lo divide por la mitad. Por ejemplo, considere las calificaciones de los
100 estudiantes a continuación, que se han ordenado de la calificación más baja a la más alta.
En este caso datos no agrupados.

N = 100;
Primer Cuartil => (N + 1)/4 = 25.25; Segundo Cuartil => 2 (N + 1)/4 = 50.50; Tercer Cuartil
=> 3(N + 1)/4 = 75.75

Q1 = 55 + 0.25(45 – 45) = 25
Q2 = 58 + 0.50(59 – 58) = 58.5
Q3 = 71 + 0.75(71 – 71) = 71

12
Medidas de Dispersion: Varianza

Los cuartiles son útiles, pero también son algo limitados porque no tienen en cuenta todas las
notas de nuestro grupo de datos. Para tener una idea más representativa de la dispersión,
debemos tener en cuenta los valores reales de cada puntaje en un conjunto de datos. La varianza
y la desviación estándar son tales medidas.

La varianza alcanza valores positivos elevando al cuadrado cada una de las desviaciones. La
suma de estas desviaciones al cuadrado nos da la suma de los cuadrados, que luego podemos
dividir por el número total de notas en nuestro grupo de datos (en otras palabras, 100 porque
hay 100 estudiantes) para encontrar la varianza. Por lo tanto, para nuestros 100 estudiantes, la
varianza es 211,89, como se muestra a continuación:

Como medida de variabilidad, la varianza es útil. Si las notas en nuestro grupo de datos están
muy dispersos, la varianza será un número grande. Por el contrario, si las notas se distribuyen
muy cerca de la media, la varianza será un número menor. Sin embargo, hay dos problemas
potenciales con la varianza. En primer lugar, debido a que las desviaciones de las notas con
respecto a la media se elevan al cuadrado, esto da más peso a las puntuaciones extremas. Si
nuestros datos contienen valores atípicos (en otras palabras, uno o un pequeño número de
puntajes que están particularmente lejos de la media y quizás no representan bien nuestros datos
en su conjunto), esto puede deshacer el peso de estos notas. En segundo lugar, la varianza no
está en las mismas unidades que las puntuaciones en nuestro conjunto de datos: la varianza se
mide en unidades al cuadrado. Esto significa que no podemos ubicarlo en nuestra distribución
de frecuencia y no podemos relacionar directamente su valor con los valores de nuestro
conjunto de datos. Por lo tanto, la cifra de 211,89, nuestra varianza, parece algo arbitraria.
Calcular la desviación estándar en lugar de la varianza corrige este problema. No obstante, el
análisis de la varianza es extremadamente importante en algunos análisis estadísticos,
discutidos en otras guías estadísticas.

13
Medidas de Dispersion: Desviacion Standard

La desviación estándar es una medida de la dispersión de puntajes dentro de un conjunto de


datos. Por lo general, estamos interesados en la desviación estándar de una población. Sin
embargo, como a menudo se nos presentan datos de una muestra solamente, podemos estimar
la desviación estándar de la población a partir de una desviación estándar de la muestra. Estas
dos desviaciones estándar (desviaciones estándar de la muestra y de la población) se calculan
de manera diferente. En estadística, generalmente se nos presenta el tener que calcular las
desviaciones estándar de la muestra, aunque también se mostrará la fórmula para una desviación
estándar de la población.

La desviación estándar se usa junto con la media para resumir datos continuos, no datos
categóricos. Además, la desviación estándar, como la media, normalmente solo es adecuada
cuando los datos continuos no están significativamente sesgados o tienen valores atípicos.

Formula de la desviacion standard para una muestra:

Formula de la desviacion standars para una poblacion:

14
Medidas de Dispersion: Covarianza

La desviación típica es un indicador de de dispersión de una variable. ¿Qué pasa cuando tienes
más de una variable? Existe alguna forma de saber cómo se relaciona una con la otra?

La Covarianza es la media aritmética de los productos de las desviaciones de cada una de las
variables respecto a sus medias respectivas.

1. La covarianza positiva >> cuando uno variable crece la otra variable también. Tienen
una relación directa.
2. La covarianza negativa >> cuando una variable crece la otra variable decrece. Tienen
una relación Inversa.

15
Medidas de Dispersion: Correlacion

La correlacion sirve para medir la relacion que existe entre dos o mas variables.

La correlacion contesta preguntas como las siguientes:

La practica de algun deporte esta relacionada con una vida mas longeva?
Existe una relacion entre la cantidad de carne ingerida diariamente y el cancer?
Mayor estudio implica mejores notas en un examen?

Si la correlacion es lineal su direccion puede ser positiva o negativa. Su fuerza varia entre
perfecta y nula.

16
Medidas de Dispersion: Correlacion

17
Medidas de Dispersion: Coeficiente de Correlacion

Para cuantificar las relaciones anteriores tenemos el Coeficiente de Correlacion al cual se le


asignara un valor entre -1 y 1.

Este coeficiente nos da una medida de la fuerza y el sentido de una relacion lineal entre variables
cuantitativas.

Cuando el signo es positivo la asociacion lineal es positiva lo que implica que cuando el valor
de una variable x aumenta tambien aumenta el valor de la otra variable y.

Cuando el signo es negativo la asociacion lineal es negativa lo que implica que cuando el valor
de una variable x aumenta el valor de la otra variable y disminuye.

18
Medidas de Dispersion: Coeficiente de Determinacion R2

Recordemos que la varianza es la medida de la variabilidad de un conjunto de datos que indica


hasta qué punto se distribuyen los diferentes valores. Matemáticamente, se define como la suma
de los cuadrados de las diferencias entre una variable y su media, dividido entre el numero de
datos.

El 16 nos da una idea de la dispersion de los datos. Un valor de 0 indica que no hay variabilidad,
mayor el valor, mayor la dispersion de los datos.

Var(mean) = Σ (yi - ȳ)2 Var(line) = Σ (yi – (mxi + b))2

En la grafica anterior trataremos de averiguar que tan bien se ajusta la recta del lado derecho al
conjunto de datos. ¿Cual es la bondad del ajuste?.

19
Medidas de Dispersion: Coeficiente de Determinacion R2

¿Es este ajuste mejor que el ajuste con la media? Si es asi, ¿Qué tan mejor es? ¿Cómo
cuantificamos esta diferencia?

Variables correlacionadas

La suma total de cuadrados de los residuos de la imagen anterior Var(line) representa la


variacion del modelo ajustado, o variacion no explicada por el modelo (recta de regresion).

Supongamos que Var(mean) = 32 y Var(line) = 6

Por lo que Var(line)/Var(mean) nos indicara que porcentaje de la variacion total en y (peso del
raton) no esta explicada por la variacion en x (tamaño del raton).

Var(line)/Var(mean) = 6/32 = 19%

Asi pues para saber que porcentaje de la variacion total en y (peso del raton) esta explicada por
la variacion en x (tamaño del raton) usamos 1 - Var(line)/Var(mean) = 81%

En otras palabras la relacion entre las dos variables explica el 81% de la variacion de los datos.
Esta relacion es significativa.

A este ultimo resultado se el conoce como coeficiente de determinacion R2

20
Medidas de Dispersion: Coeficiente de Determinacion R2

Variables no correlacionadas

Var(mean) = 32 y Var(line) = 30

Var(line)/Var(mean) nos indicara que porcentaje de la variacion total en y (pero del raton) no
esta explicada por la variacion en x (tiempo oliendo una roca).

Var(line)/Var(mean) = 30/32 = 94%

Asi pues para saber que porcentaje de la variacion total en y (peso del raton) esta explicada por
la variacion en x (tiempo oliendo una roca) usamos 1 - Var(line)/Var(mean) = 6%

En otras palabras la relacion entre las dos variables explica el 6% de la variacion de los datos.
Esta relacion no es significativa.

Si el coeficiente de correlacion R = 0.9 entonces el coeficiente de determinacion R2 = 0.81, la


relacion entre las dos variables explica el 81% de la variacion de los datos.

R2 es mas facil de interpretar, por ejemplo que tan mejor es R = 0.7 que R = 0.5

R2 = 0.72 = 0.49
R2 = 0.52 = 0.25

Con R2 es facil ver que la primera correlacion es el doble mejor que la segunda correlacion.

21
Covarianza y el coeficiente de correlacion

En el siguiente grafico tenemos informacion de la edad de 20 automoviles asi como el


consumo de gasolina en litros por cada 100 km según la edad del automovil.

Al graficar el diagrama de dispersion podemos ver que hay una relacion lineal positiva o directa
entre ambas variables.Nos da informacion sobre la covariacion (variacion conjunta) y sus
caracteristicas, si es lineal, su signo y su intensidad.

Ahora calculemos la covarianza y el coeficiente de correlacion para estos datos:

22
Covarianza y el coeficiente de correlacion

De la formula de covarianza tenemos:

σXY = 4.4548

De la formula del coeficiente de correlacion:

ρXY = σXY/(σXσY)

ρXY = 0.9194

Se trata entonces de una relación directa o positiva y muy fuerte.

23
Bias Variance Trade Off

Recordemos que en el training set el bias es la incapacidad de un metodo de ML para capturar


la relacion entre dos variables en este caso la linea recta (imagen izquierda). Al contrario con
otro metodo de ML la curva ondulada (imagen derecha) encaja perfectamente en todos los
puntos.

Sin embargo cuando vemos el ajuste del modelo para ver su comportamiento con el testing set
obsevamos que la linea recta del primer metodo de ML ajusta mejor que el segundo metodo
(linea ondulada).

TESTING

En otras palabras sera dificil predecir como se comportara la linea ondulada con otros testing
sets. A veces lo hara bien, otras veces lo hara mal. Tiene alta variabilidad.

El modelo con la linea ondulada tiene bajo bias pero alta varianza dado que la suma de sus
residuos al cuadrado varian mucho entre diversos testing sets.

El modelo con la linea recta tiene alto bias pero baja varianza dado que la suma de sus residuos
al cuadrado varian poco entre diversos testing sets.

Lo que debemos encontrar es un modelo que tenga bajo bias y baja varianza con el objeto que
el modelo genere predicciones consistente con diversos testing sets. Para eso debemos
encontrar una curva intermedia entre nuestros dos modelos. Esto se puede lograr utilizando
regularization, boosting o bagging.

24
Regresion Lineal

El análisis de regresión se utiliza para crear un modelo que describe la relación entre una
variable dependiente y una o más variables independientes (features). Dependiendo de si hay
una o más variables independientes, se hace una distinción entre análisis de regresión lineal
simple y múltiple.

En el caso de una regresión lineal simple, el objetivo es examinar la influencia de una variable
independiente sobre una variable dependiente. En el segundo caso, una regresión lineal
múltiple, se analiza la influencia de varias variables independientes sobre una variable
dependiente.

Para esto se debe minimizar la distancia vertical entre todos nuestros datos y nuestra recta de
regresion, la cual viene a ser nuestro modelo.

Debemos seleccionar las mejores variables independientes que puedan contribuir a la variable
dependiente. Para esto, generamos la matriz de correlación para todas las variables
independiente e incluimos la variable dependiente.

El valor de las correlaciones nos dara una idea de qué variables son significativas. A partir de
esta informacion, seleccionamos las variables (feature selection) independientes en orden
decreciente de valor de correlación, entrenamos y ejecutamos nuestro modelo de regresión para
estimar los coeficientes minimizando la función de error. Cuando no veamos mejora en nuestro
modelo dejamos de agregar o eliminar las variables independientes.

Por otra lado, tengamos en cuenta que si agregamos más variables independientes se crean
relaciones entre ellas. Por lo que no solo las variables independientes estaran relacionadas con
la variable dependiente, sino que también estaran relacionadas entre sí, esto se conoce como
multicolinealidad. Todas las variables independientes se deberian correlacionar con la variable
dependiente, pero no entre sí.

25
Regresion Polinomial

El algoritmo de regresión lineal simple, solo funciona cuando la relación entre los datos es
lineal. Pero supongamos que tenemos datos no lineales, la regresión lineal no será capaz de
dibujar una línea de mejor ajuste y falla en tales condiciones. Considere el siguiente diagrama
que tiene una relación no lineal y puede ver los resultados de la regresión lineal en él. Por lo
tanto, introducimos la regresión polinomial para superar este problema, esto ayudara a modelar
una relación curvilínea entre las variables independientes y dependientes.

¿Cómo la regresión polinomial resuelve el problema de los datos no lineales?

La regresión polinomial es una forma de regresión lineal en la que debido a la relación no lineal
entre las variables dependientes e independientes, procedemos a agregar algunos términos
polinómicos a la regresión lineal para convertirla en una regresión polinomial.

¿Por qué a la regresión polinomial se le llama regresión lineal polinomial?

Si observamos cuidadosamente la ecuación de regresión polinomial, veremos que estamos


tratando de estimar la relación entre los coeficientes e y. Recordemos que los valores de x e y
ya los tenemos en la data de entrenamiento, el entrenamiento nos determinara los coeficientes
pero el grado de los coeficientes es 1, lo cual es una regresión lineal simple. Por lo tanto, la
regresión polinomial también se conoce como regresión lineal polinomial.

26
Regresion Polinomial

La regresion polinomial tiene tendencia a ajustarse excesivamente, hay evitar ajustar con
polinomios de grados altos. Siempre visualizar la curva de ajuste y ver que esta se ajuste a la
naturaleza del problema.

27
Support Vector Regression

En el aprendizaje automático, las Support Vector Machine son modelos de aprendizaje


supervisado con algoritmos de aprendizaje asociados que analizan los datos utilizados para la
clasificación y el análisis de regresión. En el caso de la regresion la Support Vector Regression,
la línea recta que se requiere para ajustar los datos se denomina hiperplano.

La idea principal es minimizar el error, individualizando el hiperplano que maximiza el margen,


teniendo en cuenta que se tolera parte del error.

A diferencia de los mínimos cuadrados ordinarios, el modelo SVR establece un límite de


tolerancia de error ϵ alrededor de la línea de regresión de modo que todos los puntos de datos
dentro de ϵ no sean penalizados por su error.

Los puntos de datos que quedan fuera del tubo ϵ se penalizan por su error:

El error asociado con un punto que esta sobre el ϵ-tube se calcula como la distancia vertical
entre el punto y el margen superior del ϵ-tube. Se denota ξι*

Si el punto está debajo del tubo, el error es la distancia vertical entre el margen inferior del ϵ-
tube y dicho punto. Se denota ξi

Image Source: Efficient Learning Machines Theories, Concepts, and Application for
Engineers and System Designers by Mariette Awad and Rahul Khanna
Imagen utilizada solo con propositos educativos

28
Support Vector Regression

Para el caso no lineal se aplica el mismo procedimiento pero con la diferencia que se
implementa un kernel.

29
Decision Tree Regression

Los árboles de decisión son modelos predictivos formados por reglas binarias (si/no) con las
que se consigue repartir las observaciones en función de sus atributos y predecir así el valor de
la variable respuesta.

El algoritmo del árbol de decisiones cae dentro de la categoría de algoritmos de aprendizaje


supervisado. Funciona tanto para variables de salida continuas como categóricas.

Los árboles de regresión son el subtipo de árboles de predicción que se aplica cuando la variable
respuesta es continua. En términos generales, en el entrenamiento de un árbol de regresión, las
observaciones se van distribuyendo por bifurcaciones (nodos) generando la estructura del árbol
hasta alcanzar un nodo terminal. Cuando se quiere predecir una nueva observación, se recorre
el árbol acorde al valor de sus predictores hasta alcanzar uno de los nodos terminales. La
predicción del árbol es la media de la variable respuesta de las observaciones de entrenamiento
que están en ese mismo nodo terminal.

Aquí x1 y x2 son variables independientes e y se llama variable dependiente. Por ejemplo, si


queremos predecir los costos de vivienda de diferentes localidades, podemos tomar x1 como el
número de habitaciones y x2 como la antigüedad de la casa en años. Se considera que estas dos
variables dependientes afectan el precio, “y”.

El siguiente gráfico de dispersión muestra el gráfico 2D de x1 y x2, y y es una tercera


dimensión, por ejemplo, la fijación de precios. En Decision Tree Regression, primero
subdividimos el gráfico en varias divisiones llamadas virtualmente hojas. Formando así las
llamadas hojas del árbol.

30
Decision Tree Regression

El algoritmo decide el número de divisiones teniendo en cuenta el valor de la información


añadida al realizar la división. Por lo tanto, se construye un árbol de decisión de la siguiente
manera:

Se toma el promedio de cada división y se asigna a cada división denominada Terminal Leaf
del Árbol de Decisión. Al dividir los datos en divisiones relevantes, el algoritmo de aprendizaje
automático puede predecir con mayor precisión el valor de la variable independiente.

Una aplicación práctica, por ejemplo, predecir el salario de un empleado se puede hacer en
Python. Tomando los datos de salario y puesto como variables dependientes, podemos calcular
el salario predicho de cualquier empleado dado su puesto utilizando el modelo de regresión de
árbol de decisión.

31
Random Forest Regression

Recordemos que la varianza es la medida de la variabilidad de un conjunto de datos que indica


hasta qué punto se distribuyen los diferentes valores. Matemáticamente, se define como la suma
de los cuadrados de las diferencias entre una variable y su media, dividido entre el numero de
datos.

Veamos el caso de los árboles de decisión. Como sabemos, pueden reconstruir patrones muy
complejos, pero tienden a tener un rendimiento inferior incluso si se producen cambios menores
en los datos. Es por eso que un árbol de decisiones independiente no obtendrá grandes
resultados. Aún así, si compone muchos de estos árboles, el rendimiento predictivo mejorará
drásticamente. Esto es un método de conjunto llamado Random Forest.

¿Qué es el esemble learning?

La idea general del esemble learning es bastante simple. Debe entrenar varios algoritmos de
ML y combinar sus predicciones de alguna manera. Tal enfoque tiende a hacer predicciones
más precisas que cualquier modelo individual. Un modelo Ensemble es un modelo que consta
de muchos modelos base.

Bagging

Bootstrap Aggregating o Bagging es una técnica bastante simple pero realmente poderosa.
Comprender el concepto general de Bagging es realmente crucial, ya que es la base del
algoritmo Random Forest (RF). Revisemos en profundidad el algoritmo general de bagging.

Para empezar, supongamos que tiene algunos datos originales que desea utilizar como conjunto
de entrenamiento (conjunto de datos D). Quiere tener K modelos base en nuestro conjunto.

Para promover la variación del modelo, el bagging requiere entrenar cada modelo en el conjunto
en un subconjunto elegido al azar del conjunto de entrenamiento. El número de muestras en
cada subconjunto suele ser como en el conjunto de datos original (por ejemplo, N), aunque
puede ser menor.

32
Random Forest Regression

Para crear cada subconjunto, debe utilizar una técnica de arranque:

A Primero, extraer aleatoriamente una muestra de su conjunto de datos original D y


colocarla en su subconjunto

B Segundo, devolver la muestra a D (esta técnica se llama muestreo con reemplazo)

C Tercero, realizar los pasos A y B N (o menos) veces para llenar su subconjunto

Luego realizar los pasos A, B y C K – 1 vez para tener K subconjuntos para cada uno de sus K
modelos base

Construir cada uno de los modelos base K en su subconjunto

Combinar sus modelos y hacer la predicción final

En el caso de la regresión, solo debe tomar el promedio de las predicciones del modelo K.

En general, el bagging es una buena técnica que ayuda a manejar el sobreajuste y reduce la
varianza.

¿Qué es un bosque aleatorio?

Random Forest es un algoritmo de aprendizaje supervisado que se basa en el método de esemble


learning y muchos árboles de decisión. Random Forest es una técnica de bagging, por lo que
todos los cálculos se ejecutan en paralelo y no hay interacción entre los árboles de decisión al
construirlos. RF se puede utilizar para resolver tareas de clasificación y regresión.

33
Random Forest Regression

El nombre "bosque aleatorio" proviene de la idea de bagging de la aleatorización de datos


(aleatorio) y la construcción de múltiples árboles de decisión (bosque). En general, es un
poderoso algoritmo de ML que limita las desventajas de un modelo de árbol de decisiones.

Para aclarar las cosas, veamos el algoritmo exacto de Random Forest:

Tenemos un conjunto de datos originales D, queremos tener K árboles de decisión en nuestro


conjunto. Además, tenemos un número N: se construirá un árbol hasta que haya muestras
menores o iguales a N en cada nodo (para la regresión, la tarea N suele ser igual a 5). Además,
tiene un número F: número de características que se seleccionarán aleatoriamente en cada nodo
del árbol de decisión. La función que se usará para dividir el nodo se selecciona de estas
funciones F (para la tarea de regresión, F suele ser igual a sqrt (número de funciones del
conjunto de datos original D)

Todo lo demás es bastante simple. Random Forest crea K subconjuntos de los datos del conjunto
de datos original D. Las muestras que no aparecen en ningún subconjunto se denominan
muestras "listas para usar".

Los árboles K se construyen utilizando un solo subconjunto. Además, cada árbol se construye
hasta que haya menos o igual a N muestras en cada nodo. Además, en cada nodo, las
características F se seleccionan aleatoriamente. Uno de ellos se utiliza para dividir el nodo.
K modelos entrenados forman un conjunto y el resultado final de la tarea de regresión se
produce promediando las predicciones de los árboles individuales

34

You might also like