You are on page 1of 28

Análisis Multivariante Aplicado a la Sociología

Regresión Lineal

Ramón Gutiérrez Sánchez

Departamento Estadística e I. O.
Universidad de Granada

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 1 / 28


Contenido
1 Modelo de Regresión
2 Obtención del modelo
Estimación de los coeficientes del modelo
Contraste sobre los parámetros del modelo
Contraste sobre el modelo
Bondad de ajuste
3 Predicciones
4 Comprobación de las hipótesis del modelo
Linealidad
Obtención de los residuos
Normalidad
Independencia de los residuos
Homocedasticidad o igualdad de varianzas
Multicolinealidad
5 Modelo de introducción por pasos
6 Regresión con variables Dummys
7 Estudio más avanzados
Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 2 / 28
Modelo de Regresión
Definición
La regresión consiste en encontrar un modelo que explique el comportamiento de una variable Y, que se
denomina dependiente o explicada, mediante un conjunto de variables explicativas X1 , X2 , . . . , Xk , llamadas
independientes.

Modelo de regresión múltiple


El modelo vendrá dado por la forma:

Y = f (X1 , X2 , . . . , Xk ) + u

Regresión lineal múltiple


Cuando la función es de tipo lineal, la regresión será de la forma:

Y = β0 + β1 X1 + . . . + βk Xk + u

Objetivo
Nuestro objetivo es, tomar una muestra (u observaciones) de los valores de las variables Y , X1 , X2 , . . . , Xk , y
encontrar los valores β0 , β1 , . . . , βk , de tal forma que conocidos valores concretos de las variables explicativas
X1 , . . . , Xk , podamos sustituirlos en la expresión anterior y obtener un valor para la variable Y.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 3 / 28


Modelo de Regresión
Hipótesis del modelo
Los errores tiene que ser una aleatorios con media cero y varianza constante;
incorrelados y con distribución normal.
La variable Y debe ser aleatoria.
Todas las variables independientes deben ser relevantes.
Las variables X1 , . . . , Xk deben ser linealmente independientes. Si no se cumple esta
hipótesis se dice que existe multicolinealidad.

Pasos para la obtención del modelo


Determinar las variables independientes y la variable dependiente (cuantitativas).
En base a una muestra de las variables anteriores estimar los valores de β0 ; β1 ; . . . ; βk
Contrastar si todos los parámetros son significativos.
Determinar la bondad del ajuste.
Comprobar si se cumplen las hipótesis del modelo.
Estudiar los individuos y residuos para mejorar el modelo.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 4 / 28


Ejemplo

El embarazo adolescente es un problema mundial con múltiples consecuencias. Una es


que éstas jóvenes en su gran mayoría deberán tener la responsabilidad de mantener
solas a sus hijos bajo condiciones económicas muchas veces precarias, negando su
propia adolescencia. El bajo nivel educativo de los padres, las limitadas aspiraciones
profesionales de las jóvenes, las actitudes ambivalentes o positivas hacia el embarazo
de las adolescentes, las estudiantes con las calificaciones más bajas y aquellas quienes
se involucran en actividades delictivas han sido identificadas como factores claves al
momento de la iniciación sexual y el primer embarazo.
El fichero Regresion.sav contiene:
Variable Estado: nombre de los estados de EE.UU.
Variable Tasa embarazo: tasa de embarazo adolescente para mujeres entre los 15
y los 19 años para el año 2000 (por cada 1000 habitantes).
Variable Alcohol: el porcentaje, entre los 12 y 17 años, que consumió alcohol el
mes pasado.
Variable Monoparentales: porcentaje de menores de 18 años viviendo en familias
con un solo padre.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 5 / 28


Obtención del modelo
Modelo
Obtener el modelo consiste en obtener los parámetros β0 , β1 , . . . , βk que acompaña a las variables. El modelo será:

Tasa embarazo = β0 + β1 Alcohol + β2 Monoparentales

Obtención en SPSS
Tendremos que seleccionar los menús:
Analizar
Regresión
Lineales
Seleccionar la variable dependiente (Tasa Embarazo) y las independientes (Alcohol y Monoparentales)

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 6 / 28


Estimación de los coeficientes del modelo
Coeficientes
Los coeficientes del modelo son:

Tasa embarazo = 88,501 − 2,709Alcohol + 1,199Monoparentales

Interpretación de los coeficientes


β0 : es el valor de la Tasa de Embarazo cuando el Consumo de Alcohol y la Tasa de Familia
Monoparentales sea de 0.
β1 = −2,709: es lo que se incremente (en este caso decrece) la tasa de embarazo conforme el
porcentaje de consumo de alcohol aumenta en una unidad.
β2 = 1,199: la tasa de embarazo aumenta en 1.119 cuando el porcentaje de familias
monoparentales aumenta en una unidad.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 7 / 28


Contraste sobre los parámetros del modelo
Sobre cada uno de los parámetros del modelo es necesario realizar el contraste

H 0 : βi = 0

H1 : βi 6= 0
con este contrastes nos garantizamos que el parámetro sea significativo, de modo que:
Si se acepta la hipótesis nula: implica que βi = 0, es decir el coeficiente que multiplica a la variable es 0 y por lo
tanto esa variable no afecta al modelo.
Si se rechaza la hipótesis nula (p-valor< α) implica aceptar la alternativa y por ello el parámetro es significativo.

En nuestro ejemplo tenemos que:


β0 tiene un p-valor , 000 menor que 0.05 por lo que ese parámetro es significativo.
β1 tiene un p-valor , 002 menor que 0.05 por lo que ese parámetro es significativo.
β2 tiene un p-valor , 000 menor que 0.05 por lo que ese parámetro es significativo

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 8 / 28


Contraste sobre el modelo
Contrastes simultáneos
Estos constrastes consisten en confirmar si, todos los parámetros que afectan las variables independientes, son
simultáneamente significativos, es decir:
H 0 : β1 = β2 = . . . = βk
H1 : algún βi 6= 0

Si aceptamos H0 , solo nos quedaría que Y = β0 , es decir que la variable dependiente es una constante, por lo que no
existe regresión.
Si aceptamos H1 si existe la regresión.
Generalmente si todos los parámetros individualmente son significativos, la regresión también lo es. Este contraste se
denomina contraste de regresión y está asociado a la Tabla ANOVA.

Tabla ANOVA
El contraste de regresión se resuelve mediante la tabla ANOVA:

Podemos ver que el p-valor del contrastes es p − valor =, 000 <= α = 0,05 por lo que se rechaza la hipótesis nula, es decir, la
regresión existe o es significativa

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 9 / 28


Bondad de ajuste
Coeficiente de determinación
La bondad del ajuste consiste en determinar la calidad de la regresión, es decir si el modelo
se ajusta realmente a los datos y por tanto será bueno para predecir. El coeficiente que se
utiliza para medir la bondad del ajustes es el coeficiente de de determinación o R 2 . De
forma que:
R 2 ∈ [0, 1]
Si R 2 = 1 implica que el ajuste es perfecto.
Si R 2 = 0 el ajuste es pésimo.
Conforme más cerca este estadístico a los extremos mejor o peor se considera el
ajuste.

En este caso R 2 toma un valor de 0.439, por lo que podremos considerar un medio-bajo
nivel de ajuste.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 10 / 28


Predicciones

El objetivo concreto de la regresión es establecer un modelo con el que poder


realizar predicciones. Por ejemplo, para un valor de la variable porcentaje de
consumo de alcohol de 17 y un porcentaje de familias monoparentales de 21,
¿cuál será la tasa de embarazo? Para ello simplemente habrá que sustituir en la
ecuación

Tasa embarazo = 88,501 − 2,709Alcohol + 1,199Monoparentales

los valores de alcohol y monoparentales por 17 y 21:

Tasa embarazo = 88,501 − 2,709 ∗ 17 + 1,199 ∗ 21 = 67, 627

Nota
No se debe realizar predicciones fuera de los rangos de las variables
independientes pues no se conoce el comportamiento en otras zonas

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 11 / 28


Predicciones
En SPSS
Para realizar una predicción en SPSS tendremos que introducir en la última fila los valores conocidos

y dentro de la ventana de regresión, seleccionar:


Guardar
Valores Pronosticados no tipificados
Al ejecutar el menú, en la ventana de datos nos aparecen los valores pronosticados para todos los valores.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 12 / 28


Comprobación de las hipótesis del modelo

Hipótesis del modelo


Que la relación entre las variables sea de tipo lineal.
Los errores o residuos (u) tiene que ser una variable aleatoria con media cero
y varianza constante; que no estén autocorrelados y que sean normales.
La variable Y sea aleatoria.
Que todas las variables X sean relevantes en el modelo (ya comprobado).
Que las variables X1 , . . . , Xk sean linealmente independientes. Si no se
cumple esta hipótesis se dice que existe multicolinealidad.

Todas estas hipótesis son deseables y no obligatorias. El incumplimiento de


alguna de ellas nos llevará a tener menos seguridad en los resultados obtenidos.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 13 / 28


Comprobación de las hipótesis: linealidad
Caso de una solo variable independiente
En el caso de existir una sola variable independiente es sencillo comprobar la linealidad con
el gráfico de dispersión entre la variable dependiente y la independiente.

Caso de más de una variable independiente


Si existen mas de una variable dependiente se puede:
Generar todos los gráficos de la variable dependiente frente a las independientes. Si
observa linealidad en todos ellos se asume la linealidad múltiple.
Obtener la correlación parcial. Esta muestra el grado de asociación lineal de cada
variable independiente frente a la dependiente, excluidas el resto de la variables
independientes.

Incumplimiento de está hipótesis


Si esta hipótesis no se cumple, el modelo no se ajustaría a los datos, previsiblemente R 2
será bajo y las predicciones no serían fiables

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 14 / 28


Comprobación de las hipótesis: linealidad
Gráficos parciales
Tendremos que en el menú de regresión seleccionar:
Botón Gráficos
Seleccionar generar todos los gráficos parciales

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 15 / 28


Comprobación de las hipótesis: linealidad
Correlaciones
En el menú de regresión:
Botón Estadísticos
Seleccionamos correlaciones y correlaciones parcial

La correlación, r , varía entre [−1, 1], cuanto más cerca de los extremos mayor linealidad.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 16 / 28


Obtención de los residuos

Definición
Los residuos (no tipificados) son la diferencia entre los valores observados
(variable Y o dependiente) y los valores predichos (valor obtenido de sustituir para
cada individuo de la muestra los valores de las variables independientes en el
modelo de regresión obtenido).

Obtención
Seleccionaremos:
Guardar
Residuos no tipificados
Se guardan en la vista de datos.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 17 / 28


Comprobación de las hipótesis: Normalidad
La normalidad de los residuos es deseable ya que los contrastes que se realizan sobre los parámetros se basan
en esta hipótesis. Si no se cumpliera, las conclusiones derivadas de los contrastes de hipótesis (sobre los
parámetros y sobre la regresión) pudieran ser incorrectas.

Métodos gráficos
Desde la ventana de regresión, marcamos:
Botón gráficos
Seleccionar Histográma
Seleccionar Gráfico probabilístico normal

El histograma se adapta a la curva normal, pero no podemos afirmarlo en la parte de la izquierda. Tampoco
podemos asegurar la normalidad con el gráfico probabilístico normal.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 18 / 28


Comprobación de las hipótesis: Normalidad
Métodos numéricos
Si, con los residuos salvados en la vista de datos, seleccionamos:
Menú Analizar; Menús Estadísticos descriptivos; Explorar
Introducimos en Lista de variables dependientes los residuos Botón Gráficos marcamos:
Histograma
Gráficos por prueba de normalidad

Este contraste es de la forma:


H0 : La población es normal
H1 : La población no es normal
Se utiliza el contraste de Shapiro-Wilks cuando la población es pequeña (menor de 50) y el de kolmogorov-Smirnov para
poblaciones grandes. En este caso sería indiferente cual usar, pero en ambos casos el p-valor no es menor de 0.05 por lo que
aceptamos la hipótesis nula; es decir los residuos son normales.
Desde este mismo menú se pude comprobar como la media de los residuos es 0 (5, 5e −15 ) y la desviación típica 1.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 19 / 28


Comprobación de las hipótesis: Independencia de los residuos
Los residuos deben ser independientes unos de otros, es decir que no haya patrones de comportamiento en
ellos. Se contrasta mediante el estadístico de Durbin-Watson que mide si los residuos están incorrelados. Este
estadístico oscila entre [0-4] (algunos software lo centran en [-2,2]), de forma que:
Si toma el valor de 2 los residuos están incorrelados (deseable).
Si toma el valor 4, los residuos están correlacionados positivamente.
Si toma el valor 0, los residuos están correlacionados negativamente.

Para obtenerlo tendremos que marcar, en el menú de regresión:

Estadísticos
Estadístico de Durbin-Watson

El estadístico es muy cercano a 2, por lo que asumiremos que los residuos están incorrelados.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 20 / 28


Comprobación de las hipótesis: Homocedasticidad
Homocedasticidad de varianzas
La homocedasticidad de las varianzas implica que los residuos tengan varianza constante, es decir, sean aleatorios.
Se comprueba con el gráfico de los residuos tipificados frente a los valores predichos. En este gráfico se debe observar
aleatoriedad, es decir que no existan patrones (curva, recta...) de comportamiento en los residuos

Aplicación en SPSS
Para realizar el gráfico para contrastar la homocedasticidad, en el menú de regresión seleccionamos:
Gráficos
En Y introducimos *ZRESID
En X introducimos *ZPRED
En este gráfico, tenemos que ver que los valores se distribuyan aleatoriamente en torno al eje X (línea imaginaria que pasa por
el 0)

Podemos ver como existe aleatoriedad.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 21 / 28


Comprobación de las hipótesis: Multicolinealidad

La multicolinealidad consiste en existencia de relación lineal entre las variables


independientes. Este problema es muy difícil de detectar y genera grandes desajustes del
modelo.
Lo estudiaremos mediante los estadísticos de multicolinealidad y el Factor de inflación de la
varianza (VIF). Estos valores son recíprocos, de tal forma que valores altos en el VIF o
bajos en la tolerancia indicarán que existe el problema de multicolinealidad.
Una vez determinado el problema, tendremos que averiguar que variables son las
involucradas la multicolinealidad, es decir, que variables son las que son linealmente
dependientes. Para ello estudiamos el diagnóstico de la colinealidad. En él:
Hay tantas dimensiones como parámetros.
Autovalor: obtenido de la matriz de datos.
Índice de condición: cociente entre el autovalor de cada dimensión entre el autovalor
máximo.
Estudiaremos aquellos valores con un índice de condición alto, si en una fila, varias
variables tienen una proporción de varianza alta (más de 0.6), esas son candidatas a estar
relacionadas linealmente.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 22 / 28


Comprobación de las hipótesis: Multicolinealidad
En el menú de regresión, marcamos:
Botón Estadísticos
Diagnostico de la colinealidad
Como vemos, tanto la tolerancia como el VIF son muy similares, por lo tanto no aparecen
evidencias de multicolinealidad. Además, en la dimensión 3, con un índice de condición de
19.848, el porcentaje de varianza solo es alto para una de las dos variables.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 23 / 28


Modelo de introducción por pasos
Cuando tenemos muchas variables, a partir del modelo completo (o con todas las variables), a veces
es complicado determinar que variables deben de formar parte del modelo y cuales deben ser
eliminadas. Ya que el hecho de eliminar alguna puede hacer que otra pase a ser o no ser significativa.
Para solucionar esto, existen procedimiento iterativos en los que se resuelve de forma automática. A
estos procedimiento se les llama métodos de inclusión por pasos.

Modelo de introducción por pasos


Para la selección de variables por pasos, en el menú de regresión lineal hay que:

Seleccionar el menú desplegable Método


Cambiar la opción de Intro por alguna otra (por pasos en nuestro caso)

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 24 / 28


Modelo de introducción por pasos
SPSS va introduciendo las variables, paso a paso, que más aumentan el valor de R 2 , hasta que la
introducción de una nueva variable no aporta un cambio decisivo en el valor de R 2 , es decir no va a aportar
nada en la mejora del modelo.
En nuestro caso, la variable más explicativa de la Tasa de embarazo va a ser las familias monoparentales
(modelo 1, R 2 = 0,311) posteriormente, el introducir la variable consumo de alcohol, también es influyente
pero el modelo con las dos variables tiene un R 2 = 0,439.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 25 / 28


Regresión con variables Dummys
Definición
El análisis de regresión se usa principalmente cuando las variables son de tipo cuantitativo. Si las variables son de
tipo cualitativo, se puede solucionar el problema mediante la creación de variables Dummys, ficticias o indicativas.
De tal forma que estas detecten la presencia o ausencia de una determinada modalidad de la variable cualitativa.
Una variable cualitativa con k modalidades, generará k-1 variables dummys con 0 y 1, de tal forma que estas
representan las diferentes modalidades.

Creación de variables
Si tenemos una variable (Estado Civil) con tres modalidades (soltero, casado y viudo), tendremos que:
Crear dos variables ficticias F1 y F2
Si un individuo es soltero, los valores en ambas variables serán 0 (este será el estado de referencia).
Si un individuo está casado, las variables ficticias tomarán el valor F1=1 y F2=0.
Si un individuo es viudo, las variables ficticias tomarán el valor F1=0 y F2=1.
De tal forma que si realizamos la regresión entre una variable Y que dependa del estado civil, se realiza en base a
estas dos nuevas variables:
Y = β0 + β1 F 1 + β2 F 2
donde:
β0 será el valor en Y si el individuo es soltero.
β1 será el cambio que se produce en Y al pasar de soltero a casado.
β2 será el cambio que se produce al pasar de soltero a viudo

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 26 / 28


Regresión con variables Dummys
Ejemplo
Se supone que para 2020 la población de origen latino del Estado de Texas será la mayoritaria. De forma que se quiere estudiar la
población latina en relación a la zona donde esta el estado (Frontera, Centro-Oeste y Resto del estado) Usando el fichero
Regresionficti.sav, la codificación de variables Dummy será:
Si el individuo pertenece al Resto del Estado: F1=0, F2=0.
Si el individuo pertenece a un estado de la Frontera: F1=1, F2=0.
Si el individuo pertenece a un estado del Centro oeste: F1=0, F2=1.

Modelo
El modelo será:
Tasadelatinos = 22,150 + 46,935F 1 − 4,225F 2

Es decir, comparando con nuestro estado de control (Resto del estado) en el que la población latina es del 22.15 %, los estados de la
frontera aumenta con respecto al resto en un 46.935 % (22.15+46.935=69.085 %) y en el Centro Oeste disminuye en un 4.225
(22.150-4.225=17.925 %).
El resto de los análisis: de bondad de ajuste, contrastes sobre los parámetros, hipótesis del modelo... son equivalentes. Sobre las
variables ficticias no tienen sentido la mayor parte de ellos.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 27 / 28


Estudios más avanzados

El análisis de regresión puede ser mejorado con el estudio de:


Residuos anómalos: se pueden estudiar los individuos que producen un
residuo tipificado fuera del intervalo [-2,2].
Distancias: miden como mejora el modelo al eliminar ese individuo (de
malahanovis, de cook, valores de influencia)
Estadísticos de influencia: miden los cambios en los coeficientes o en el
ajuste al eliminar un individuo (DFbetas, Dffits...)
Todos ellos se encuentran en el botón de guardar.

Ramón Gutiérrez Sánchez (EIO) Análisis Multivariante 28 / 28