Professional Documents
Culture Documents
Lineal Simple
B
Lineal
Mltiple
Pendiente: 1
x1
Intercepto: 0
x
Dos puntos (A y B), o el
intercepto y la pendiente (0
and 1), definen una lnea
sobre una superficie
bidimensional.
x2
Tres o ms puntos (A, B, y C), o el
intercepto y los coeficientes de X1 y
X2 (0 , 1, y 2), definen un plano en
una superficie de tres dimensiones.
x2
Y=0++X
1X1 + 2X2 + . . . + kXk +
Y=
0
1 1 + 2X2 + . . . + kXk +
Donde0es
eselelintercepto
interceptoYY de
delala
Donde
0
superficiede
deregresin
regresinyycada
cadai, ,ii==
superficie
i
1,2,...,kes
eslalapendiente
pendientede
delalasuperficie
superficiede
de
1,2,...,k
regresinalgunas
algunasveces
vecesllamada
llamadalala
regresin
superficiede
derespuestarespuesta-con
conrespecto
respectoaa
superficie
XXi.i.
x1
Y x x
0
Supuestosdel
delmodelo:
modelo:
Supuestos
2
~N(0,2),
),errores
erroresindependientes
independientesunos
unosde
deotros.
otros.
1.1. ~N(0,
Lasvariables
variablesXXiestn
estnno
nocorrelacionadas
correlacionadascon
conlos
lostrminos
trminosde
deerror..
error..
2.2. Las
i
REGRESIN LINEAL Y
MNIMOS CUADRADOS
MLTIPLE
CON
x1
y b0 b1x
X
En un
un modelo
modelo de
de regresin
regresin
En
lineal simple,
simple, elel mtodo
mtodo de
de
lineal
mnimos cuadrados
cuadrados minimiza
minimiza
mnimos
suma de
de cuadrados
cuadrados de
de los
los
lala suma
errores de
de lala recta
recta oo lnea
lnea de
de
errores
regresinestimada.
estimada.
regresin
x2
y b0 b1 x1 b2 x 2
Enun
unmodelo
modelode
deregresin
regresinlineal
lineal
En
mltiple, elel mtodo
mtodo de
de mnimos
mnimos
mltiple,
cuadrados minimiza
minimiza lala suma
suma de
de
cuadrados
cuadrados de
de los
los errores
errores del
del
cuadrados
planode
deregresin
regresinestimada.
estimada.
plano
Y b0 b1 X 1 b2 X 2 bk X k
Donde Y es
eselelvalor
valorestimado
estimadode
deY,
Y,sobre
sobre lalasuperficie
superficiede
de
Donde
regresin. Los
Lostrminos
trminosbb00,...,b
,...,bkk son
sonlos
loscoeficientes
coeficientesestimados
estimadosde
de
regresin.
losparmetros
parmetrospoblacionales
poblacionalesi.i.
los
Efectivamente,elelvalor
valorobservado
observadode
deYYes
eselelvalor
valorestimado
estimadoms
ms
Efectivamente,
unerror:
error:
un
+.....++bbkkxxkjkj+e
+e
yyj j==bb00++bb11xx1j1j++bb22xx2j2j+.
Calcular b1, b2, etc. es una labor muy tediosa, por lo que se usar Excel
o Minitab para estimar los parmetros o modelos de regresin.
ESTIMACIN DE LA
REGRESIN MLTIPLE
ECUACIN
DE
Y b0 b1 X 1 b2 X 2 bk X k
Y b0 b2 X 2 b3 X 3 bn X n
Donde Y es
eselelvalor
valorestimado
estimadode
deY,
Y,sobre
sobre lalasuperficie
superficiede
de
Donde
regresin. Los
Lostrminos
trminosbb00,...,b
,...,bkk son
sonlos
loscoeficientes
coeficientesestimados
estimadosde
de
regresin.
losparmetros
parmetrospoblacionales
poblacionalesi.i.
los
Y nb b X b X
X Y b X b X b X X
X Y b X b X X b X
0
2
2
2
2
3
ESTIMACIN DE LA
REGRESIN MLTIPLE
ECUACIN
DE
1
2
3
4
5
6
7
8
9
10
11
12
Produccin
(miles de
unidades)
Asistencia (Total de
asistencia en miles)
X2
Bono de
productividad
(cientos de
pesos)
X3
10.00
1.30
9.00
12.00
1.20
12.00
15.00
1.80
14.00
11.00
1.30
12.00
10.00
1.20
12.50
12.50
1.20
12.70
14.00
1.29
15.00
20.00
1.80
14.00
16.00
2.00
9.00
14.60
1.50
10.00
17.00
1.29
12.50
21.00
2.50
25.00
Solucin
Abrir archivos:
GM.xls
GM.mpj
Siguiendo el ejemplo de GM
(
Y
i
Y
i
)
Se
n k 1
Solucin
Abrir archivos:
GM.xls
GM.mpj
Ejemplos
Libro de texto 1:
Lechero, pginas 203 y 259.
Aeromxico
Leche.xls
Calcular
Calcular
Calcular
Examen
Calcular
Calcular
Calcular
Calcular
10
Siguiendo el ejemplo de GM
Aeromxico
Aeromxico Mltiple.xls
Calcular
Calcular
Calcular
Calcular
Calcular
Calcular
Calcular
Calcular
Calcular
11
SCR
R
SCT
2
SCE
R 1
SCT
2
Siguiendo el ejemplo de GM
Solucin
Abrir archivos:
GM.xls
GM.mpj
12
Solucin:
Excel
Ejemplos
Aeromxico
Abrir archivos:
Aeromxico Mltiple.xls Calcular
Minitab
Calcular
Calcular
Calcular
Calcular
Calcular
Calcular
Calcular
Calcular
13
SCE
R 2 1
(n k 1)
SCT
(n 1)
(n 1)
R 1 (1 R )
n k 1
2
14
Ejemplo:
Considere que el caso de Aeromxico. Aada la variable pesca.
Este estadstico se ajusta a la medida del poder explicativo para el nmero de
grados de libertad. Debido a que el grado de libertad para SCE es n-k-1,
agregar otra variable explicativa termina en la prdida de otro grado de
libertad, Rt2 decrecer si se adiciona una variable que no ofrece suficiente
poder explicativo para justificar la prdida de los grados de libertad. Si se
reduce demasiado, se debe considerar su retiro.
SCE
(n k 1)
R 1
SCT
(n 1)
2
R 2 1 (1 R 2 )
(n 1)
n k 1
Solucin
Siguiendo el ejemplo de GM
Abrir archivos:
GM.xls
GM.mpj
15
Dado el modelo de regresin, una de las primeras preguntas que se plantean es:
Tiene algn valor explicativo?
Esto puede responderse mejor realizando el anlisis de varianza (ANOVA). El
procedimiento del ANOVA prueba si alguna de las variables independientes
tiene relacin con la variable dependiente. Si una variable independiente no
est relacionada con la variable Y, su coeficiente debera ser cero. Es decir, si X i
no est relacionada con Y, entonces i=0. El procedimiento ANOVA prueba la
hiptesis nula de que todos los valores de son cero contra la alternativa de que
por lo menos un no es cero.
H 0 : 1 2 3 ... k 0
HA : Al menos un no es cero
16
Fuente de variacin
n-1
Valor F
CMR
CME
SCT
NOTA:
El grado de libertad para la suma de los cuadrados de la regresin es igual a k,
el nmero de variables independientes del modelo, mientras que el grado de
libertad para la suma de cuadrados del error es n-k-1.
Cada una de las sumas de cuadrados se encuentra exactamente igual que en la
regresin simple.
2
SCT (Yi Y )
SCR (Yi Y ) 2
SCE (Yi Yi ) 2
17
Fuente de variacin
n-1
Valor F
CMR
CME
SCT
Aeromxico
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados
F
Regresin
2
163.6317094
81.81585468 121.1843772
Residuos
12
8.101623977
0.675135331
Total
14
171.7333333
F=
18
Ejemplos
Excel
Minitab
Calcular
Calcular
Calcular
Calcular
Examen
Calcular
Calcular
GM
Calcular
Calcular
Calcular
Calcular
19
H 0 : 1 0
HA : 1 0
b1 1
t
Sb1
20
Coeficientes
3.528399419
0.839663845
1.440974675
Error tpico
0.999417593
0.141907679
0.736038659
Estadstico t
Probabilidad
3.53045558 0.004142939
5.916972567 7.06481E-05
1.957743194
0.07392294
b1 1 0.839663845 0
t
5.916972567
Sb 1
0.141907679
Debido a que t=5.92 3.055, se rechaza la hiptesis nula. Al nivel de
significancia del 1%, la publicidad contribuye significativamente al poder
explicativo del modelo, an despus de haber incluido el ingreso nacional.
Esto se confirma mediante el valor p en la tabla anterior de 0.0000706
(tradicionalmente se expresa como que es rechazada o no rechazada con un
error menor a 1X10-4).
El valor p, es el valor ms bajo en el que se puede fijar y sin embargo
rechazar la hiptesis nula. Debido a que el valor del 1% es mayor que
0.0000 se rechaza la hiptesis nula.
21
H0:2 0
HA : 2 0
1.440974675 0
t
1.957743194
0.736038659
Tecnolgico de Monterrey Campus
22
23
Ejemplos
Excel
Minitab
Calcular
Calcular
Calcular
Calcular
Examen
Calcular
Calcular
GM
Calcular
Calcular
Calcular
Calcular
24
MULTICOLINEALIDAD
1.
2.
3.
Ocurre cuando existe una alta correlacin entre dos variables independientes.
Es necesario calcular la matriz de correlacin, donde si se observa que un
valor es alto entonces existe multicolinealidad.
En cualquier momento dos o ms variables independientes estn relacionadas
linealmente, entonces existe algn grado de multicolinealidad. Si la presencia
se vuelve demasiado pronunciada, el modelo se ver afectado negativamente.
Lo que se considera demasiado alto todava es un llamado al juicio por parte
del investigador.
Ejemplo:
Asumiendo que se utilizan las tcnicas de regresin para estimar una curva de
demanda (o funcin de demanda) para un producto. Se establece que el
nmero de consumidores est relacionado con la demanda, se seleccionan
como variables explicativas:
X1= Todos los hombres en el rea del mercado.
X2= Todas las mujeres en el rea del mercado.
X3= Poblacin total en el rea del mercado.
25
MULTICOLINEALIDAD
Ejemplo de Aeromxico:
Matriz de correlacin
Columna 1
Columna 2
Columna 1
1
Columna 2 0.968378371
1
Columna 3 0.90287726 0.869821316
Columna 3
Y 40 10 X 1 80 X 2
26
MULTICOLINEALIDAD
2.
3.
27
MULTICOLINEALIDAD
Deteccin de la multicolinealidad
Quizs la forma ms directa para probar la multicolinealidad es producir una
matriz de correlacin para todas las variables del modelo.
Ejemplo de Aeromxico:
Matriz de correlacin
Columna 1
Columna 2
Columna 1
1
Columna 2 0.968378371
1
Columna 3 0.90287726 0.869821316
Columna 3
H 0 : 12 0
HA : 12 0
Donde 12 es el coeficiente de correlacin poblacional para X 1 (publicidad) y
X2 (ingreso).
28
MULTICOLINEALIDAD
Utilizando :
Donde r12 es la correlacin muestral entre
publicidad (X1) e ingreso nacional (X2)
r12
t
Sr
1 r
Sr
n2
2
12
Ejemplo de Aeromxico:
Matriz de correlacin
H 0 : 12 0 No hay correlacin
HA : 12 0 S hay correlacin
Sr
1 0.86982
15 2
0.136845
0.8698
t
6.35606
0.136845
Donde 12 es el coeficiente de
correlacin poblacional para las
dos variables independientes.
29
MULTICOLINEALIDAD
Si se determina al 5%, el valor crtico de t0.05,13=2.16. Hay n-2 grados de
libertad (y no n-k-1).
Regla de decisin:
No rechazar si - 2.16
t 2.16
Rechazar si
2.16 t 2.16
1
30
MULTICOLINEALIDAD
La correlacin entre pasajeros y publicidad 0.968, por tanto el coeficiente de
determinacin es r2=(0.968)2=0.937, mientras que pasajeros e ingreso nacional la
correlacin es 0.903, por tanto el coeficiente de determinacin es
r2=(0.903)2=0.815. Sin embargo, las dos variables juntas revelaron un R 2 de slo
0.953. Si se toman las dos variables independientes explican el 93.7% y 81.5%
Pasajeros VS Publicidad e Ingreso
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0.976127243
0.952824395
0.944961794
0.821666192
15
Pasajeros VS Publicidad
Pasajeros VS Ingreso
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.968378371
Coeficiente de determinacin R^2
0.93775667
R^2 ajustado
0.932968721
Error tpico
0.906780212
Observaciones
15
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.90287726
Coeficiente de determinacin R^2
0.815187347
R^2 ajustado
0.800970989
Error tpico
1.562505211
Observaciones
15
31
MULTICOLINEALIDAD
Otra forma de detectar la multicolinealidad es analizar el Factor de Inflacin de
Varianza (VIF). El VIF relacionado con toda variable X se halla haciendo
regresin de sta sobre todas las otras variables X. El R 2 resultante tambin se
utiliza luego para calcular el VIF de esa variable. El VIF para todo X i representa
la influencia de dicha variable en la multicolinealidad.
Factor de Inflacin de la Varianza. El VIF para toda variable independiente es
una medida del grado de multicolinealidad en que contribuye dicha variable.
Debido a que slo hay dos variables independientes en el modelo de
Aeromxico, se hace regresin de Xi sobre las otras variables independientes
(X2), o se hace regresin de X 2 sobre X1 y da el mismo coeficiente de correlacin
(r12=0.87). El VIF para cualquier variable independiente dada X i es:
1
Factor de Inflacin de
VIF
la Varianza. Para Xi
1 Ri2
En donde Ri2 es el coeficiente de determinacin obtenido al hacer la regresin de
Xi sobre todas las variables independientes. Como se mencion, la
multicolinealidad produce un incremento en la variacin o error estndar del
coeficiente de regresin. El VIF mide el incremento en la varianza del
coeficiente de regresin por encima del que ocurrira si no estuviera
presente la multicolinealidad.
32
MULTICOLINEALIDAD
El VIF para publicidad es:
VIF
1
4.1
2
1 (0.87)
Coef
3.5284
0.8397
1.4410
SE Coef
0.9994
0.1419
0.7360
T
3.53
5.92
1.96
P
0.004
0.000
0.074
VIF
4.1
4.1
El mismo VIF para X2 se hallara ya que slo hay dos variables independientes. Esto
podra interpretarse como la varianza de b 1 y b2 que es ms de 4 veces lo que debera ser
sin la multicolinealidad en el modelo.
En general, la multicolinealidad no se considera un problema significativo a menos que
el VIF de una sola Xi mida por lo menos 10, o la suma de los VIFs para todas las Xi
sea por lo menos 10.
Otros indicios de multicolinealidad incluyen grandes cambios en los coeficientes o en
su signo cuando existe un cambio pequeo en el nmero de observaciones. Adems, si
la razn F es significante y los valores t no lo son, puede estar presente la
multicolinealidad.
Igualmente si la suma o eliminacin de una variable produce grandes cambios en los
coeficientes o sus signos, puede existir multicolinealidad.
33
MULTICOLINEALIDAD
Corrigiendo la multicolinealidad
Qu puede hacerse para eliminar o mitigar la multicolinealidad? Quiz la
solucin ms lgica es la eliminacin de la variable causante. SI X i y Xj estn
relacionadas muy cerca, una de ellas puede sencillamente eliminarse del
modelo. Despus de todo debido a la superposicin, la inclusin de la segunda
variable agrega muy poco a la explicacin de Y.
La pregunta sera cul de ellas debera eliminarse? Haciendo referencia al
modelo de Aeromxico, puede ser aconsejable eliminar el Ingreso debido a que
su correlacin con Y es menor que la publicidad. Las pruebas t aplicadas
tambin sugieren que el Ingreso no era significante al 5%.
Sin embargo, al eliminar simplemente una de las variables esto puede conllevar
al sesgo de especificacin, en el cual, el formato del modelo est en desacuerdo
con su base terica. Debe evitarse la multicolinealidad, por ejemplo, si el ingreso
se eliminara de una expresin funcional para la demanda de los consumidores.
Sin embargo, la teora econmica as como el simple sentido, dicen que el
ingreso debera incluirse en todo intento por explicar el consumo.
34
MULTICOLINEALIDAD
Sesgo de especificacin. Una especificacin errnea de un modelo a causa de la
inclusin o exclusin de ciertas variables que terminan en una contravencin de
los principios tericos.
Si se prohbe eliminar una variable debido a algn sesgo resultante, se puede con
frecuencia reducir la multicolinealidad cambiando la forma de la variable. Quiz
dividiendo los valores originales de la variable causante por la poblacin, para
as obtener una cifra per cpita lo cual sera benfico. Adicionalmente dividir
ciertas medidas monetarias por el ndice de precios (como el ndice de Precios al
Consumidor) y por ende obtener una medida en trminos reales, tambin es un
mtodo efectivo de eliminar la multicolinealidad. Ambos procedimientos podran
aplicarse al Ingreso.
Tambin es posible combinar dos o ms variables. Esto podra hacerse con el
modelo para la demanda del consumidor, el cual emple X 1=hombres,
X2=mujeres y X3=poblacin total. Las variables X 1 y X2 podran sumarse para
formar X3. El modelo entonces constara de una sola variable explicativa.
35
MULTICOLINEALIDAD
En cualquier evento, debera reconocerse que existe algn grado de
multicolinealidad en la mayora de los modelos de regresin que contienen dos o
ms variables independientes. Entre ms grande sea el nmero de variables
independientes mayor ser la probabilidad de multicolinealidad. Sin
embargo, esto no necesariamente resta mritos a la utilidad del modelo ya que el
problema de multicolinealidad puede no ser grave.
La multicolinealidad causar graves errores en los coeficientes individuales,
aunque el efecto combinado de estos coeficientes no sea drsticamente alterado.
Un modelo de prediccin diseado para predecir el valor de Y, con base en
todos los Xi tomados en combinacin, darn una precisin considerable. Slo los
modelos explicativos creados para explicar la contribucin al valor de Y por
cada Xi, tienden a colapsarse ante la multicolinealidad.
36
Y 40 10 X 1 200 X 2
Y= Toneladas de produccin
X1= Unidades del insumo de trabajo
X2= Unidades de ingreso de capital
Esto puede llevar a concluir que el capital es ms importante que el trabajo al
determinar la produccin ya que tiene el coeficiente ms grande. Despus de todo,
un incremento de una unidad de capital, manteniendo constante el trabajo, resulta
en un incremento de 200 unidades en la produccin. Sin embargo, tal comparacin
no es posible. Todas las variables se miden en unidades totalmente diferentes: una
en unidades de peso, otra en nmero de personas y una tercera en mquinas.
Adems, existen factores diferentes al coeficiente de una variable que determinan
su impacto total en Y. Por ejemplo, la varianza en una variable es muy importante
al determinar su influencia en Y. La varianza mide con qu frecuencia y cunto
cambia una variable. Por tanto, una variable puede tener un coeficiente grande y
cada vez que cambia afecta a Y notablemente. Pero si su varianza es muy pequea
y cambia slo una vez en un milenio, su impacto global en Y ser insignificante.
37
bi
Beta
Sy / Sxi
38
1.441
Beta
0.2436
3.052 / 0.605
As, un cambio en una desviacin estndar en el ingreso nacional da un cambio
en la desviacin estndar de pasajeros en 0.2436. De igual forma, para
publicidad es 0.7519. Esto puede sugerir que la publicidad tiene un impacto ms
fuerte en los pasajeros. Sin embargo, ante la presencia de la multicolinealidad,
incluso estos coeficientes estandarizados sufren de muchas de las deficiencias
que los coeficientes normales. Por ende, se considera una prctica deficiente
medir la importancia de una variable con base en sus coeficientes
39
40
41
En los esfuerzos de bsqueda se pueden hallar muchas variables que son tiles
para explicar el valor de la variable dependiente. Por ejemplo, aos de educacin,
entrenamiento y experiencia son instrumentos para determinar el nivel de ingresos
de una persona. Estas variables pueden medirse numricamente y prestarse al
anlisis estadstico.
Sin embargo, tal no es el caso de otras variables que tambin son tiles al explicar
los niveles de ingreso. Los estudios han demostrado que el gnero y la geografa
tambin tienen un poder explicativo considerable.
Una mujer que haya completado el mismo nmero de aos de educacin y
capacitacin que un hombre no tendr el mismo ingreso. Un trabajador del norte
del pas puede no ganar lo mismo que gana un trabajador del sur haciendo un
trabajo similar. Tanto el gnero como la demografa pueden ser variables
explicativas altamente tiles en el esfuerzo por predecir el ingreso propio.
42
43
Ejemplo:
Como Gerente Regional de una cadena de tiendas departamentales (Liverpool), se
desea estudiar la relacin entre los gastos de los clientes y seleccionar las variables
que puedan explicar tales gastos. Adems de la seleccin lgica del ingreso como
variable explicativa, se considera que el sexo de un cliente tambin puede hacer
parte en la explicacin de los gastos. Por tanto, se recolectan 15 observaciones
para estas tres variables: los gastos en cientos de pesos, el ingreso en miles de
pesos y el sexo.
Cmo codificar el sexo?, Hombre=H y Mujer=M? u Hombre=0 y Mujer=1? (si
se toman al revs los valores, no afectara a los modelos calculados: H=1 y M=0).
44
Intercepcin
Variable X 1
Variable X 2
Coeficientes
12.21135484
0.791225806
5.106709677
Error tpico
3.938063222
0.110726018
1.672449916
Estadstico t
Probabilidad
3.100852919 0.009175446
7.145798419 1.17102E-05
3.053430556
0.01002063
45
46
Esto significa que para cualquier ingreso dado, los clientes que sean mujeres
gastan en promedio $5.1067 (expresarlo en cientos) ms que los hombres.
Sea el ingreso igual a $30 ($30,000.00), entonces para las mujeres:
47
Coeficientes
17.31806452
0.791225806
-5.106709677
Error tpico
4.16932664
0.110726018
1.672449916
Estadstico t
Probabilidad
4.153683798 0.001337771
7.145798419 1.17102E-05
-3.053430556
0.01002063
48
= 1 si es casado(a)
= 1 si es soltero(a)
= 1 si es divorciado(a)
= 0 si no es casado(a)
= 0 si no es soltero(a)
= 0 si no es divorciado(a)
49
Intercepcin
Variable X 1
Variable X 2
Variable X 3
Variable X 4
Variable X 5
Coeficientes
9.328768282
0.859807084
6.828160722
-1.937593561
-1.59556857
5.495333688
Error tpico
5.052172802
0.121849843
1.637227625
1.815336205
2.059438344
2.85678059
Estadstico t
1.846486383
7.056283908
4.170562857
-1.06734695
-0.774759086
1.923610693
Se:H=0
C:C=1
S:S=1
D:D=1
50
Ejemplos:
Ingreso de 30
HyC=?
HyS=?
HyD=?
HyV=?
Se:H=0
C:C=1
S:S=1
D:D=1
Ingreso de 30
MyC=?
MyS=?
MyD=?
MyV=?
51
RESIDUALES
Ejemplo de Aeromxico
Produccin
Yp
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3.528399419
Asistencia
0.839663845 X2
Y-Yp
Bono de productividad
1.44097468 X3
Yp
(Y-Yp)2
15
17
13
23
16
21
14
20
24
17
16
18
23
15
16
15.3833771
-0.3834 0.14697799
17.5238167
-0.5238 0.27438391
13.2429375
-0.2429 0.05901863
23.1054716
-0.1055 0.01112426
15.613933
0.3861
20.965032
0.0350 0.00122276
15.1528211
-1.1528 1.32899658
19.8948122
0.1052 0.01106447
25.0153552
-1.0154 1.03094623
15.844489
1.1555 1.33520571
15.7475193
0.2525 0.06374651
17.8015004
0.1985 0.03940209
21.2571255
1.7429 3.03761163
14.7205287
0.2795 0.07810419
16.7312806
Sumatorias
-0.7313 0.53477132
0.0000 8.10162398
0.1490477
52
RESIDUALES
Supuesto 3:
53
RESIDUALES
Para detectar la autocorrelacin se utiliza la prueba de Durbin-Watson:
2
(
e
t
e
t
1
)
d
2
e
t
H 0 : et , et 1 0
HA : et , et 1 0
Existe autocorrelacin
54
RESIDUALES
Se supone que se selecciona un valor del 1%. Dado que n = 15, y k el nmero
de variables independientes es 1 (para RLS), el valor DurbinWatson inferior es
dL = 0.81, y el valor superior Durbin-Watson es dU = 1.07.
Estos valores se aplican entonces a la escala en la figura que se construya para
tal efecto.
Si el valor Durbin-Watson es menor que d L = 0.81, se sugiere una
autocorrelacin positiva y se rechaza la hiptesis nula.
Si es mayor que (4 - dL) = 3.19, se sugiere la autocorrelacin negativa y se
rechaza la hiptesis nula.
Si est entre dU = 1.07 y (4 - dU) = 2.93, no se rechaza la hiptesis nula.
Si el valor DurbinWatson cae en cualquiera de las dos regiones restantes, la
prueba no es conclusiva.
En este caso, el valor Durbin-Watson de 2.48 cae en la regin de la escala que
indica que la correlacin no existe y no se rechaza la hiptesis nula.
Generalmente hablando, si el valor Durbin-Watson es cercano a 2, no se
rechaza la hiptesis nula.
55
sta y la siguiente diapositiva son extradas del material del Dr. Mendoza del Campus
Morelos, cmendoza@itesm.mx con su autorizacin respectiva en 2003.
Para hacer la regresin lineal hicimos una suposicin muy seria. Aunque
sabamos que no era totalmente cierto, supusimos que la regresin sigue la
figura de una lnea recta al graficarla contra la X.
La manera de ver qu tan equivocada es esta suposicin es a travs de una
grfica: el Diagrama de Diagnstico o Grfica de Residuales.
1. Cmo es?
Se trata de una grfica en la que se ponen los residuos en el eje vertical y los
valores pronosticados en el horizontal. En otras palabras, los residuos son la
diferencia entre la Y observada y el valor de la recta de mnimos cuadrados.
2. Cmo se usa?
El diagrama de diagnstico nos indica dos tipos de cosas:
presencia de aberraciones
curvatura de la esperanza condicional
56
57
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
Hasta el momento slo se han analizado modelos lineales (la relacin entre X y Y
puede expresarse como una lnea recta). Sin embargo, esto no siempre es el caso.
Se puede encontrar que un modelo curvilineal (no lineal) puede proporcionar un
mejor ajuste.
En RLS se coment sobre las suposiciones de normalidad, homocedasticidad e
independencia del error, que se incluyen en el modelo de regresin. En muchas
circunstancias el efecto de las violaciones de estas suposiciones se puede superar
transformando la variable dependiente, las variables explicatorias o ambas.
Ejemplo:
Se supone que en el esfuerzo por predecir
las declaraciones de impuestos con base en
la poblacin del Estado de Mxico, el
Gobernador recolecta los datos que se
observaron en los ltimos diez aos. Los
datos para impuestos estn en miles de
millones y para poblaciones estn en
millones.
Impuestos
85
118
164
228
31
43
61
611
316
444
Poblacin
2.68
2.98
3.50
3.79
1.57
2.01
2.15
4.90
4.16
4.50
58
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
Impuestos
600
500
400
300
200
100
0
0.00
1.00
2.00
3.00
4.00
5.00
6.00
Poblacin
Un polinomio de grado k
Y 0 1 X 2 X 2 ... kX k
59
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
Por consiguiente el modelo del Gobierno del Estado de Mxico puede tener un
mejor ajuste utilizando un polinomio de grado 2 o un polinomio de segundo
orden.
Forma cuadrtica
2
Y b 0 b1 X b 2 X
del polinomio
En este modelo cuadrtico, la segunda variable explicativa es simplemente la
cuadrada de la primera. En el caso del Gobernador se tiene:
I b 0 b1P b 2 P 2
Donde I es impuestos y P es la poblacin.
En este punto, se comparan los resultados de este modelo con los obtenidos si se
estima un modelo de regresin lineal simple.
La impresin en Minitab para el modelo en el cual se hace la regresin de los
impuestos sobre la poblacin se muestra en la siguiente diapositiva.
60
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
Por consiguiente el modelo del Gobierno Estatal puede tener un mejor ajuste
utilizando un polinomio de grado 2 o un polinomio de segundo orden.
Un Modelo Lineal
The regression equation is
Impuestos = - 302 + 159 Poblacin
Predictor
Constant
Poblaci
S = 76.38
Coef
-302.39
158.96
SE Coef
76.75
22.60
R-Sq = 86.1%
T
-3.94
7.04
P
0.004
0.000
R-Sq(adj) = 84.3%
Un Ajuste Cuadrtico
The regression equation is
Impuestos = 325 - 278 Poblacin + 67.7 Poblacin2
Predictor
Constant
Poblaci
Poblaci
S = 22.20
Coef
325.36
-277.98
67.692
SE Coef
70.63
47.10
7.226
R-Sq = 99.0%
T
4.61
-5.90
9.37
P
0.002
0.001
0.000
R-Sq(adj) = 98.7%
Ntese que R2 es
86.1%
(bastante
aceptable) con R2
del 84.3% y un
error estndar de
76.38%.
Si se utiliza un
modelo cuadrtico
tanto R2 como R2
y el error estndar
se
mejoran
respectivamente
99%, 98.7, 22.20%
61
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
Coef
2.0302
2.6147
SE Coef
0.1724
0.1478
R-Sq = 97.5%
T
11.78
17.69
P
0.000
0.000
Ntese
el
mejoramiento en el
error estndar de
slo 0.1680 y
R2=97.5 y R2=97.2
R-Sq(adj) = 97.2%
62
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
63
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
La respuesta depende, al menos en parte, del propsito para el cual est destinado
el modelo. Si se desea utilizar el modelo para explicar los valores presentes de Y y
comprender por qu se comportan como lo hace, se utiliza el modelo con el
coeficiente de determinacin ms alto. Es decir, si el propsito es explicar,
entonces el modelo con el valor explicativo ms alto es el que debe utilizarse.
Si por otra parte, el propsito del modelo es predecir los valores futuros de Y, se
utiliza el modelo con el error estndar de estimacin ms bajo. Si se desea
predecir, se gozar de ms xito con el modelo que genera el menor error de
prediccin.
Sin embargo, tal experimentacin debera mantenerse al mnimo. Se considera
cuestionable, incluso no tico experimentar de forma salvaje con el modelo y
luego con el otro. Se debera saber desde el comienzo dada la naturaleza del
estudio de investigacin, qu procedimiento seguir. Con frecuencia se hace la
analoga de que buscar ciegamente el mejor modelo es similar a disparar una
flecha al objetivo y luego sacar el blanco del punto en donde cay la flecha.
64
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
Yi 0 1 X 1i 2 X 2i i
As mismo, si se hubiera aplicado una transformacin logartmica, el modelo sera:
Yi 0 1 ln X 1i 2 ln X 2i i
An ms, si se aplicara una transformacin recproca, el modelo sera:
1
1
Yi 0 1
2
i
X 1i
X 2i
Tecnolgico de Monterrey Campus
65
LINEARIZACION
ECUACIONES
(LINEALIZACIN)
DE
Yi 0 X 1i 1 X 2i 2i
ln Yi ln 0 1 ln X 1i 2 ln X 2i ln i
Por consiguiente la ecuacin anterior, es lineal en los logaritmos naturales.
En forma muy similar el modelo exponencial:
Yi e 0 1 X 1i 2 X 2 ii
ln Yi 0 1 X 1i 2 X 2i ln i
Tecnolgico de Monterrey Campus
66
Para examen...
Requisitos:
Calculadora cientfica
Tablas de t-Student y F
Tablas del estadstico de Durbin-Watson
Formulario
Del examen:
Planteamiento del problema
Desarrollo
Solucin
Interpretacin
67