Regresion Lineal Multiple 3

Regresin lineal mltiple
J. M. Rojo Abun Instituto de Economa y Geografa Madrid, II-2007
Jos Manuel Rojo
ndice
I. II. III. IV. V. VI. VII. VIII.
INTRODUCCIN .................................................................................................. 2 EL MODELO DE REGRESIN LINEAL MLTIPLE........................................ 5 HIPTESIS............................................................................................................. 6 ESTIMACIN DE LOS PARMETROS POR MNIMOS CUADRADOS........ 7 VARIANZA RESIDUAL ..................................................................................... 11 CONTRASTE DE REGRESIN ......................................................................... 13 COEFICIENTE DE DETERMINACIN R2 ....................................................... 16 DIAGNOSIS Y VALIDACIN DE UN MODELO DE REGRESIN LINEAL MLTIPLE ........................................................................................................... 17
VIII.1. Multicolinealidad .................................................................................................. 17 VIII.2. Anlisis de residuos .............................................................................................. 18 VIII.3. Valores de influencia (leverage) ........................................................................... 20 VIII.4. Contrastando las hiptesis bsicas ........................................................................ 21 VIII.5. Homocedasticidad ................................................................................................. 22 VIII.6. Errores que deben de evitarse ............................................................................... 23
IX. X.
SELECCIN DE LAS VARIABLES REGRESORAS ....................................... 24 EJEMPLO 1 .......................................................................................................... 25
Jos Manuel Rojo
I.
Introduccin
En el capitulo anterior se ha estudiado el modelo de regresin lineal simple, donde se analizaba la influencia de una variable explicativa X en los valores que toma otra variable denominada dependiente (Y). En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas.
Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple.
Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, , xk, la variable dependiente Y. cules son las que ms influyen en
En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms variables explicativas y un trmino aleatorio: y = b0 + b1 x1 + b2 x2 + ... + bk xk + u Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
Esta ecuacin recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta de regresin tenemos un plano:
Jos Manuel Rojo
A A
Linear Regression
e + 1,41 * a_espald
A A A A A A A A A A A A A A AA A A A A A
A A
Con tres variables explicativas tendramos un espacio de tres dimensiones, y as sucesivamente.
Vamos a ir introduciendo los elementos de este anlisis a travs de un sencillo ejemplo.
Consideramos una muestra de personas como la que sigue a continuacin:
Registr o 1 2 3 4 5 6 7 8
sexo mujer mujer mujer mujer mujer mujer mujer mujer
estatura l_roxto X1 158 152 168 159 158 164 156 167 X6 39 38 43 40 41 40 41 44
pie X2 36 34 39 36 36 36 36 37
l_brazo a_espald X3 68 66 72.5 68.5 68.5 71 67 73 X4 43 40 41 42 44 44.5 36 41.5
d_crneo X5 55 55 54.5 57 57 54 56 58
peso Y 43 45 48 49 50 51 52 52
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de variables x1 ,..., x5 y la variable peso (Y).
Jos Manuel Rojo
En primer lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar para predecir el peso reciben el nombre de variables independientes o explicativas.
En la prctica deberemos de elegir cuidadosamente qu variables vamos a considerar como explicativas. Algunos criterios que deben de cumplir sern los siguientes:

Tener sentido numrico. No deber de haber variables repetidas o redundantes Las variables introducidas en el modelo debern de tener una cierta justificacin terica. La relacin entre variables explicativas en el modelo y casos debe de ser como mnimo de 1 a 10. La relacin de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.
Jos Manuel Rojo
II.
El Modelo de regresin lineal mltiple
El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas:
Modelo de regresin simple: y = b0 + b1 x + u
Modelo de regresin mltiple: y = b0 + b1 x1 + b2 x2 + b3 x3 + ... + bk xk + u
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas:

estatura pie l_brazo a_espald d_craneo
El modelo que deseamos construir es: peso = b0 + b1 estatura + b2 pie + b3 l _ brazo + b4 a _ espald + b5 d _ craneo
Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida.
Jos Manuel Rojo
III.
Hiptesis
Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente estn generados por el
siguiente modelo lineal:
Y = X * B +U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
V (ui ) = 2
c) Independencia: las perturbaciones aleatorias son independientes entre s:
E (ui u j ) = 0, i j
d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin
normal: U N (0, 2 )
e) Las variables explicativas Xk se obtienen sin errores de medida.
Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
Jos Manuel Rojo
IV.
Estimacin de los parmetros por mnimos cuadrados
Vamos a calcular un hiperplano de regresin de forma que se minimice la varianza residual:

2 Min ( y j y j)
Donde:
y j = b0 + b1 * x1,1 + b2 * x2, j + ...bk * xk , j
Utilizando notacin matricial:
u1 y1 y 1 u y y 2 2 2 u = . = . = y y . . n un yn y
Jos Manuel Rojo
Y teniendo en cuenta la definicin de y :
u1 y1 b0 b1 * x1,1 b2 * x2,1 b3 * x3,1 ... bk * xk ,1 u y b b * x b * x b * x ... b * x k k ,2 2 2 0 1 1, 2 2 2, 2 3 3, 2 = y y . u= . = . . y b b x b x b x b x * * * ... * u k k ,n n n 0 1 1,n 2 2,n 3 3,n
Por lo tanto:
y1 1 x1,1 y 1 x 1, 2 2 u = yn 1 x1,n
. . . .
. .
xk ,1 b0 xk , 2 b1 * . = y X *b . xk , n bk
Por lo tanto la varianza residual se puede expresar de la siguiente forma: n * 2 = u * u = ( y X * b) * ( y X * b)
Es decir:
2 (b) = ( y j y j ) = u * u
Por tanto, la varianza residual es una funcin del vector de parmetros b y la condicin para que tenga un mnimo ser:
(b) =0 b
Jos Manuel Rojo
Antes de derivar vamos a simplificar la expresin de la varianza residual: n * 2 = u * u = ( y x * b ) * ( y x * b ) = y * y y * x * b b * x * y + b * x * x * b Por lo tanto:

2 (b) = ( y j y j ) = u * u = y * y y * x * b b * x * y + b * x * x * b
(b ) ( y X * b ) * ( y X * b ) = 2 * X * Y + 2 * X * X * B = b b
Igualando a cero y despejando:

X *Y = X * X * B
y si X * X es matriz no singular y por lo tanto tiene inversa, tenemos:

X *Y = X * X * B
Multiplicando por ( X * X ) 1
( X * X ) 1 X * Y = ( X * X ) 1 X * X * B
( X * X ) 1 X * Y = I * B
B = ( X * X ) 1 * X * Y
sta es la expresin del estimador de parmetros B .
Jos Manuel Rojo
Adems
X *Y = X * X * B
X *Y X * X * B = 0
X * (Y X * B ) = 0
X *U = 0
Es decir, los residuos obtenidos del modelo estimado por mnimos cuadrados no van a estar correlacionados con las variables explicativas.
Nota
Es importante observar que si las variables explicativas X estn muy correlacionadas entre si, la matriz ( X * X ) va a tener el determinante con valor cero o muy cercano a cero. Si hay al menos una variable que puede ser expresada como combinacin lineal del resto (ingresos mensuales, ingresos anuales) el determinante de esta matriz es cero y dicha matriz ser singular y por lo tanto no tendr inversa.
Si no hay variables que sean combinacin lineal de las dems, pero estn fuertemente correlacionadas, el determinante no ser cero pero tendr un valor muy prximo a cero; este caso va a producir una inestabilidad en la solucin del estimador, en general, se va a producir un aumento en su varianza.
En estos casos se impone la utilizacin de un mtodo de seleccin de variables explicativas.
A los problemas provocados por la fuerte correlacin entre las variables explicativas se les llama multicolinealidad.
Jos Manuel Rojo
10
V.
Varianza residual
Al igual que en el caso de regresin lineal simple, vamos a descomponer la variabilidad de la variable dependiente Y en dos componentes o fuentes de variabilidad: una componente va a representar la variabilidad explicada por el modelo de regresin y la otra componente va a representar la variabilidad no explicada por el modelo y, por tanto, atribuida a factores aleatorios.
Consideramos la variabilidad de la variable dependiente como:
n * 2 = ( yi Y ) 2
Es decir, la variabilidad de Y es la suma cuadrtica de los valores que toma la variable respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresin obtenemos la siguiente expresin:
) y) + ( y y )) ( y y) = ( y
2 2 i i i i
Es decir, que la suma de cuadrados de la variable Y respecto a su media se puede descomponer en trminos de la varianza residual. De esta expresin se deduce que la distancia de Y a su media se descompone como la distancia de Y a su estimacin ms la distancia de su estimacin a la media.
Teniendo en cuenta que el ltimo trmino representa la varianza no explicada, tenemos:
VT = VE + VNE
Jos Manuel Rojo
11
Grficamente es fcil ver la relacin:
Dividiendo la variabilidad total entre sus grados de libertad obtenemos la varianza de la variable dependiente Y :
SY2 =
VT n 1
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza residual de la variable dependiente Y :
2 SR =
VNE n (k + 1)
Tabla resumen
Suma de cuadrados VT VE VNE
Grados de libertad n-1 k-1

2 SY =
( y y) y) (y ) ( y y)
2 2
VT n 1 VNE n k 1
n-k-1
2 SR =
Jos Manuel Rojo
12
VI.
Contraste de regresin
Como estamos sacando conclusiones de una muestra de un conjunto mucho ms amplio de datos, a veces este conjunto ser infinito, es obvio que distintas muestras van a dar distintos valores de los parmetros.
Un caso de especial inters es asignar una medida de probabilidad a la siguiente afirmacin o hiptesis: H 0 b1 = b2 = ... = bk = 0
La afirmacin contraria sera:

H 1 b j 0
Nota La hiptesis nula es que todos los coeficientes menos b0 son nulos y la hiptesis alternativa o complementaria es que existe al menos uno que es distinto de 0, puede haber varios que sean nulos, pero al menos existe uno distinto de cero.
Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea nulo, es decir, los valores de las variables explicativas X no van a influir en la variable Peso.
Jos Manuel Rojo
13
Construccin del contraste Si los residuos siguen una distribucin normal y b1 = b2 = ... = bk = 0 , tenemos que:
VT
2 n 1
VE
12
VNE
2 n ( k +1)
Por tanto:
VE VNE
n (k + 1)
VE F1, n ( k +1) 2 SR
Es decir, el cociente entre la varianza explicada y la varianza no explicada ser aproximadamente 1. Adems, al seguir una distribucin F, podemos asignar una
medida de probabilidad (p-value) a la hiptesis de que la varianza explicada es igual a la varianza no explicada.
En caso contrario la varianza no explicada ser muy inferior a la varianza explicada y, por lo tanto, este cociente tendr un valor muy superior a 1.
Nota
En general si el p-value es menor de 0.05 se acepta que el modelo de regresin es significativo; en caso contrario no podemos hablar de regresin, pues el modelo sera nulo.
Jos Manuel Rojo
14
Si aceptamos que el modelo de regresin es significativo, es habitual mostrar el p-value; por ejemplo:
Encontramos que este modelo de regresin es estadsticamente significativo con un p-value de 0.0003
Jos Manuel Rojo
15
VII.
Coeficiente de determinacin R2
Vamos a construir un coeficiente (estadstico) que mida la bondad del ajuste del
2 modelo. Si bien la varianza residual ( S R ) nos indica cmo estn de cerca las
estimaciones respecto de los puntos, esta varianza est influida por la varianza de la variable dependiente, la cual, a su vez, est influida por su unidad de medida. Por lo tanto, una medida adecuada es la proporcin de la varianza explicada (VE) entre la varianza total (VT); de este modo, definimos el coeficiente de determinacin R 2 :
VE VT VNE VNE = = 1 VT VT VT
R2 =
Por ser cociente de sumas de cuadrados, este coeficiente ser siempre positivo. Si todos los puntos estn sobre la recta de regresin, la varianza no explicada ser 0, y por lo tanto:
R2 =
0 VE = 1 =1 VT VT
Este coeficiente es muy importante pues determina qu porcentaje (en tantos por uno) de la varianza de la variable dependiente es explicado por el modelo de regresin.
En general, se pueden clasificar los valores de R 2 de la siguiente manera:
Menor de 0.3 Muy malo
0.3 a 0.4 Malo
0.4 a 0.5 Regular
0.5 a 0.85 Bueno
Mayor de 0.85 Sospechoso
Adems, a diferencia de la varianza residual, este coeficiente es adimensional; esto quiere decir que no est afectado por transformaciones lineales de las variables; por ello, si cambiamos las unidades de medida, el coeficiente de determinacin permanecer invariante.
Jos Manuel Rojo
16
VIII. Diagnosis y validacin de un modelo de regresin lineal mltiple VIII.1. Multicolinealidad
Si las variables explicativas se pueden expresar como una combinacin lineal:
1 x1 + 2 x2 + ... + k xk + 0 = 0
Se dice que tenemos un problema de multicolinealidad.
En general, este problema va a afectar incrementando la varianza de los estimadores.
Este problema se detecta fcilmente: Solicitando el determinante de la matriz de varianzas-covarianzas, que estar cercano a cero. Calculando el cociente entre el primer y ltimo autovalor de la matriz de varianzas-covarianzas que ser mayor de 50. Calculando para cada variable el coeficiente de determinacin ( R 2 ) de dicha variable con el resto. La solucin es eliminar del modelo aquellas variables explicativas que dependen unas de otras. En general, los mtodos de seleccin de variables solucionan automticamente este problema.
ANOVAb Model 1 Sum of Squares 3485,401 775,265 4260,667 df 6 20 26 Mean Square 580,900 38,763 F 14,986 Sig. ,000a
Regression Residual Total
a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_espald, l_ brazo, pie, estatura b. Dependent Variable: peso
Jos Manuel Rojo
17
Coefficientsa Unstandardized Coefficients B Std. Error -133,261 43,985 -,354 ,445 2,187 1,248 ,821 ,621 1,067 ,660 1,093 ,922 -,003 ,841 Standardized Coefficients Beta -,283 ,489 ,317 ,335 ,157 -,001 Collinearity Statistics Tolerance VIF ,072 ,117 ,159 ,212 ,517 ,212 13,882 8,574 6,307 4,724 1,933 4,724
Model 1
(Constant) estatura pie l_brazo a_espald d_crneo l_roxto Longitud de rodilla a tobillo
t -3,030 -,796 1,752 1,323 1,616 1,186 -,004
Sig. ,007 ,435 ,095 ,201 ,122 ,250 ,997
a. Dependent Variable: peso
En esta tabla se muestra el valor de los estimadores del hiperplano de regresin.
La columna denominada tolerancia es: 1 R2 Donde la variable correspondiente entra como variable dependiente y el resto de las variables explicativas actan como regresoras.
A la vista de estos resultados, la variable estatura esta provocando problemas de multicolinealidad.
Es interesante observar que si bien el contraste de regresin es significativo, ninguna de las variables explicativas lo es.
VIII.2. Anlisis de residuos
Definimos como residuo del i-esimo caso a: i ui = yi y
Los residuos son variables aleatorias que siguen (?) una distribucin normal. Los residuos tienen unidades de medida y, por tanto no se puede determinar si es grande o pequeo a simple vista.
Jos Manuel Rojo
18
Para solventar este problema se define el residuo estandarizado como:
Zui =
1 ui * 1 hii S R
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir negativamente en el anlisis, si su residuo estandarizado es mayor de 3 en valor absoluto.
Zui 3
Para evitar la dependencia entre numerador y denominador de la expresin anterior, tambin se utilizan los residuos estudentizados.
SZui =
1 ui * 1 hii S (i ) R
(i ) es la varianza residual calculada sin considerar el i-esimo caso. Donde S R
El anlisis descriptivo y el histograma de los residuos nos indicarn si existen casos que no se adapten bien al modelo lineal.
Residuals Statisticsa Predicted Value Residual Std. Predicted Value Std. Residual Minimum 23,9527 -31,69022 -1,860 -,939 Maximum 138,1509 117,84905 2,627 3,492 Mean 71,2963 ,00000 ,000 ,000 Std. Deviation 25,44848 29,60339 1,000 ,877 N 27 27 27 27
Jos Manuel Rojo
19
Podemos observar que hay un caso que tiene un residuo anormal, pues su valor tipificado es 3.49.
VIII.3. Valores de influencia (leverage)
Se considera que una observacin es influyente a priori si su inclusin en el anlisis modifica sustancialmente el sentido del mismo. Una observacin puede ser influyente si es un outlayer respecto a alguna de las variables explicativas:
Jos Manuel Rojo
20
Para detectar estos problemas se utiliza la medida de Leverage: 1 ( x x )2 (1 + i 2 ) n sx
l (i ) =
Este estadstico mide la distancia de un punto a la media de la distribucin. Valores cercanos a 2/n indican casos que pueden influir negativamente en la estimacin del modelo introduciendo un fuerte sesgo en el valor de los estimadores.
VIII.4. Contrastando las hiptesis bsicas
Normalidad de los residuos.
Para verificar esta hiptesis se suele utilizar el histograma de los residuos y en caso necesario el test de Kolgomorov Smirnov.
One-Sample Kolmogorov-Smirnov Test ZRE_1 Standardized Residual 27 ,0000000 ,87705802 ,117 ,117 -,105 ,609 ,852
N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
Mean Std. Deviation Absolute Positive Negative
a. Test distribution is Normal. b. Calculated from data.
En este caso no se detecta falta de normalidad, el pvalue del test KS es de 0.852, por lo tanto se concluye que:
No se encuentran diferencias estadsticamente significativas para rechazar la hiptesis de normalidad.
Jos Manuel Rojo
21
VIII.5. Homocedasticidad
La hiptesis de homocedasticidad establece que la variabilidad de los residuos es independiente de las variables explicativas. En general, la variabilidad de los residuos estar en funcin de las variables explicativas, pero como las variables explicativas estn fuertemente correlacionadas con la variable dependiente, bastara con examinar el grfico de valores pronosticados versus residuos al cuadrado.
Este es un claro ejemplo de falta de homocedasticidad.
Existe una familia de transformaciones denominada Box-CCOS que se realizan sobre la variable dependiente encaminadas a conseguir homocedasticidad. La transformacin ms habitual para conseguir homocedasticidad es:
Y = log(Y )
En cualquier caso, es conveniente examinar detenidamente las implicaciones de realizar este tipo de transformaciones, pues en muchas ocasiones es peor el remedio que la enfermedad, ya que la variable dependiente puede llegar a perder el sentido.
Jos Manuel Rojo
22
VIII.6. Errores que deben de evitarse
Errores que son fciles pasar por alto al realizar un modelo de regresin lineal mltiple son los siguientes:
No controlar el factor tamao. Si hay un factor de ponderacin, no tenerlo en cuenta. Al calcular los grados de libertad en los contrastes de hiptesis. No incluir una variable relevante en el modelo. Incluir una variable irrelevante. Especificar una relacin lineal que no lo es.
Jos Manuel Rojo
23
IX.
Seleccin de las variables regresoras Los procedimientos para seleccionar las variables regresoras son los siguientes: Eliminacin progresiva. Introduccin progresiva. Regresin paso a paso (Stepwise Regression).
Este ltimo mtodo es una combinacin de los procedimientos anteriores. Parte del modelo sin ninguna variable regresora y en cada etapa se introduce la ms significativa, pero en cada etapa examina si todas las variables introducidas en el modelo deben de permanecer. Termina el algoritmo cuando ninguna variable entra o sale del modelo.
Jos Manuel Rojo
24
X.
Ejemplo 1
Statistics l_roxto Longitud de rodilla a tobillo 27 0 43,0926 43,0000 3,15630 ,632 ,448 1,044 ,872 38,00 52,00
N Mean Median Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Minimum Maximum
Valid Missing
estatura 27 0 168,7963 168,0000 10,22089 ,173 ,448 -1,016 ,872 152,00 189,00
peso 27 0 63,8889 65,0000 12,80124 ,187 ,448 -,658 ,872 43,00 91,00
pie 27 0 38,9815 39,0000 2,86384 ,303 ,448 -,855 ,872 34,00 45,00
l_brazo 27 0 73,4815 73,0000 4,93707 ,427 ,448 -,605 ,872 66,00 83,00
a_espald 27 0 45,8519 46,0000 4,02113 -,249 ,448 ,075 ,872 36,00 53,00
d_crneo 27 0 57,2407 57,0000 1,84167 ,178 ,448 -,740 ,872 54,00 61,00
Jos Manuel Rojo
25
Model Summaryb Model 1 R R Square ,904a ,818 Adjusted R Square ,763 Std. Error of the Estimate 6,22602 DurbinWatson 2,274
a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_ espald, l_brazo, pie, estatura b. Dependent Variable: peso
ANOVAb Model 1 Sum of Squares 3485,401 775,265 4260,667 df 6 20 26 Mean Square 580,900 38,763 F 14,986 Sig. ,000a
Regression Residual Total
a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_espald, l_ brazo, pie, estatura b. Dependent Variable: peso
Jos Manuel Rojo
26
Coefficientsa Unstandardized Coefficients B Std. Error -133,261 43,985 -,354 ,445 2,187 1,248 ,821 ,621 1,067 ,660 1,093 ,922 -,003 ,841 Standardized Coefficients Beta -,283 ,489 ,317 ,335 ,157 -,001 Collinearity Statistics Tolerance VIF ,072 ,117 ,159 ,212 ,517 ,212 13,882 8,574 6,307 4,724 1,933 4,724
Model 1
(Constant) estatura pie l_brazo a_espald d_crneo l_roxto Longitud de rodilla a tobillo
t -3,030 -,796 1,752 1,323 1,616 1,186 -,004
Sig. ,007 ,435 ,095 ,201 ,122 ,250 ,997
Residuals Statisticsa Predicted Value Residual Std. Predicted Value Std. Residual Minimum 44,1230 -8,21203 -1,707 -1,319 Maximum 88,5975 11,34415 2,134 1,822 Mean 63,8889 ,00000 ,000 ,000 Std. Deviation 11,57816 5,46058 1,000 ,877 N 27 27 27 27
Jos Manuel Rojo
27
El mismo anlisis pero utilizando un algoritmo de seleccin de variables.

Model Summaryc Model 1 2 R R Square ,850a ,722 ,891b ,794 Adjusted R Square ,711 ,777 Std. Error of the Estimate 6,88269 6,05049 DurbinWatson 2,120
a. Predictors: (Constant), pie b. Predictors: (Constant), pie, a_espald c. Dependent Variable: peso
ANOVAc Model 1 Sum of Squares 3076,382 1184,285 4260,667 3382,065 878,602 4260,667 df 1 25 26 2 24 26 Mean Square 3076,382 47,371 1691,032 36,608 F 64,942 Sig. ,000a
Regression Residual Total Regression Residual Total
46,192
,000b
a. Predictors: (Constant), pie b. Predictors: (Constant), pie, a_espald c. Dependent Variable: peso
Coefficientsa Unstandardized Coefficients B Std. Error -84,173 18,421 3,798 ,471 -87,250 16,228 2,213 ,687 1,415 ,490 Standardized Coefficients Beta ,850 ,495 ,444 Collinearity Statistics Tolerance VIF 1,000 ,363 ,363 1,000 2,753 2,753
Model 1 2
(Constant) pie (Constant) pie a_espald
t -4,569 8,059 -5,376 3,219 2,890
Sig. ,000 ,000 ,000 ,004 ,008
Jos Manuel Rojo
28
a Collinearity Diagnostics
Variance Proportions Condition Dimension Eigenvalue (Constant) pie a_espald Index Statisticsa ,00 1 1,997 Residuals 1,000 ,00 2 ,003 27,778 1,00 Std. Deviation 1,00 Minimum Maximum Mean N 2 Predicted 1 Value 2,995 1,000 ,00 ,00 ,0027 43,3520 87,3214 63,8889 11,40524 2 ,004 27,747 ,83 ,02 ,2227 Residual -10,25595 12,53056 ,00000 5,81312 3 ,001 50,270 ,17 ,98 ,7827 Std. Predicted Value -1,801 2,055 ,000 1,000 Std. Residual Variable: peso a. Dependent -1,695 2,071 ,000 ,961 27 Model 1
Jos Manuel Rojo
29
Histogram
Dependent Variable: peso
Frequency
Mean = 1,99E-15 Std. Dev. = 0,961
Jos Manuel Rojo
30
Jos Manuel Rojo
31

Regresion Lineal Multiple 3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion Lineal Multiple 3

Uploaded by

Copyright:

Available Formats

Regresin lineal mltiple

J. M. Rojo Abun Instituto de Economa y Geografa Madrid, II-2007

Jos Manuel Rojo

I. II. III. IV. V. VI. VII. VIII.

SELECCIN DE LAS VARIABLES REGRESORAS ....................................... 24 EJEMPLO 1 .......................................................................................................... 25

Jos Manuel Rojo

Jos Manuel Rojo

Con tres variables explicativas tendramos un espacio de tres dimensiones, y as sucesivamente.

Vamos a ir introduciendo los elementos de este anlisis a travs de un sencillo ejemplo.

Consideramos una muestra de personas como la que sigue a continuacin:

sexo mujer mujer mujer mujer mujer mujer mujer mujer

l_brazo a_espald X3 68 66 72.5 68.5 68.5 71 67 73 X4 43 40 41 42 44 44.5 36 41.5

Jos Manuel Rojo

Jos Manuel Rojo

El Modelo de regresin lineal mltiple

Modelo de regresin simple: y = b0 + b1 x + u

Modelo de regresin mltiple: y = b0 + b1 x1 + b2 x2 + b3 x3 + ... + bk xk + u

estatura pie l_brazo a_espald d_craneo

Jos Manuel Rojo

a) Linealidad: los valores de la variable dependiente estn generados por el

siguiente modelo lineal:

Jos Manuel Rojo

Estimacin de los parmetros por mnimos cuadrados

Vamos a calcular un hiperplano de regresin de forma que se minimice la varianza residual:

Utilizando notacin matricial:

Jos Manuel Rojo

Y teniendo en cuenta la definicin de y :

u1 y1 b0 b1 * x1,1 b2 * x2,1 b3 * x3,1 ... bk * xk ,1 u y b b * x b * x b * x ... b * x k k ,2 2 2 0 1 1, 2 2 2, 2 3 3, 2 = y y . u= . = . . y b b x b x b x b x * * * ... * u k k ,n n n 0 1 1,n 2 2,n 3 3,n

Por lo tanto la varianza residual se puede expresar de la siguiente forma: n * 2 = u * u = ( y X * b) * ( y X * b)

Jos Manuel Rojo

Antes de derivar vamos a simplificar la expresin de la varianza residual: n * 2 = u * u = ( y x * b ) * ( y x * b ) = y * y y * x * b b * x * y + b * x * x * b Por lo tanto:

Igualando a cero y despejando:

y si X * X es matriz no singular y por lo tanto tiene inversa, tenemos:

sta es la expresin del estimador de parmetros B .

Jos Manuel Rojo

En estos casos se impone la utilizacin de un mtodo de seleccin de variables explicativas.

Jos Manuel Rojo

Consideramos la variabilidad de la variable dependiente como:

Teniendo en cuenta que el ltimo trmino representa la varianza no explicada, tenemos:

Jos Manuel Rojo

Grficamente es fcil ver la relacin:

Suma de cuadrados VT VE VNE

Grados de libertad n-1 k-1

Jos Manuel Rojo

La afirmacin contraria sera:

Jos Manuel Rojo

Jos Manuel Rojo

Jos Manuel Rojo

En general, se pueden clasificar los valores de R 2 de la siguiente manera:

Menor de 0.3 Muy malo

0.3 a 0.4 Malo

0.4 a 0.5 Regular

0.5 a 0.85 Bueno

Mayor de 0.85 Sospechoso

Jos Manuel Rojo

VIII. Diagnosis y validacin de un modelo de regresin lineal mltiple VIII.1. Multicolinealidad

Si las variables explicativas se pueden expresar como una combinacin lineal:

Se dice que tenemos un problema de multicolinealidad.

En general, este problema va a afectar incrementando la varianza de los estimadores.

Regression Residual Total

Jos Manuel Rojo

t -3,030 -,796 1,752 1,323 1,616 1,186 -,004

Sig. ,007 ,435 ,095 ,201 ,122 ,250 ,997