You are on page 1of 67

Froylan Franco Herrera

Pronsticos para la Toma de Decisiones


Unidad 3.
Regresin Lineal Mltiple
Objetivo: El alumno al trmino de esta unidad deber conocer la tcnica de
regresin mltiple y ser capaz de aplicarla en el rea administrativa.

Tecnolgico de Monterrey Campus

Froylan Franco Herrera

Unidad 3.- Regresin Lineal Mltiple


1.
2.
3.
4.
5.
6.

Comparativa de los anlisis de regresin


Modelo de regresin mltiple
Regresin lineal y mltiple con mnimos cuadrados
Respecto a la regresin estimada
Estimacin de la ecuacin de regresin mltiple
Evaluacin del modelo:
Error estndar de estimacin
Coeficiente de determinacin mltiple
Coeficiente de determinacin corregido
Pruebas de hiptesis
Pruebas individuales para los coeficientes de regresin parcial
7. Multicolinealidad
8. Comparacin de los coeficientes de regresin
9. Regresin paso a paso
10. Variables dummy (datos cualitativos y variables ficticias variables
artificiales)
11. Anlisis de residuales
12. Linearizacion (linealizacin) de ecuaciones

Tecnolgico de Monterrey Campus

COMPARATIVA DE LOS ANLISIS DE


REGRESIN

Froylan Franco Herrera

Lineal Simple
B

Lineal
Mltiple

Pendiente: 1

x1

Intercepto: 0

x
Dos puntos (A y B), o el
intercepto y la pendiente (0
and 1), definen una lnea
sobre una superficie
bidimensional.

x2
Tres o ms puntos (A, B, y C), o el
intercepto y los coeficientes de X1 y
X2 (0 , 1, y 2), definen un plano en
una superficie de tres dimensiones.

Tecnolgico de Monterrey Campus

Froylan Franco Herrera

MODELO DE REGRESIN MLTIPLE


El Modelo
Modelode
deRegresin
RegresinPoblacional
Poblacionalde
de
El
unavariable
variabledependiente
dependienteY,
Y,sobre
sobreun
un
una
conjuntode
dekkvariables
variablesindependente
independente, ,XX,1,
conjunto
1
estdado
dadopor:
por:
XX2,.2,.. .. ., ,XXk kest

x2

Y=0++X
1X1 + 2X2 + . . . + kXk +
Y=
0
1 1 + 2X2 + . . . + kXk +
Donde0es
eselelintercepto
interceptoYY de
delala
Donde
0
superficiede
deregresin
regresinyycada
cadai, ,ii==
superficie
i
1,2,...,kes
eslalapendiente
pendientede
delalasuperficie
superficiede
de
1,2,...,k
regresinalgunas
algunasveces
vecesllamada
llamadalala
regresin
superficiede
derespuestarespuesta-con
conrespecto
respectoaa
superficie
XXi.i.

x1
Y x x
0

Supuestosdel
delmodelo:
modelo:
Supuestos
2
~N(0,2),
),errores
erroresindependientes
independientesunos
unosde
deotros.
otros.
1.1. ~N(0,
Lasvariables
variablesXXiestn
estnno
nocorrelacionadas
correlacionadascon
conlos
lostrminos
trminosde
deerror..
error..
2.2. Las
i

Tecnolgico de Monterrey Campus

REGRESIN LINEAL Y
MNIMOS CUADRADOS

Froylan Franco Herrera

MLTIPLE

CON

x1

y b0 b1x
X

En un
un modelo
modelo de
de regresin
regresin
En
lineal simple,
simple, elel mtodo
mtodo de
de
lineal
mnimos cuadrados
cuadrados minimiza
minimiza
mnimos
suma de
de cuadrados
cuadrados de
de los
los
lala suma
errores de
de lala recta
recta oo lnea
lnea de
de
errores
regresinestimada.
estimada.
regresin

x2

y b0 b1 x1 b2 x 2

Enun
unmodelo
modelode
deregresin
regresinlineal
lineal
En
mltiple, elel mtodo
mtodo de
de mnimos
mnimos
mltiple,
cuadrados minimiza
minimiza lala suma
suma de
de
cuadrados
cuadrados de
de los
los errores
errores del
del
cuadrados
planode
deregresin
regresinestimada.
estimada.
plano

Tecnolgico de Monterrey Campus

Froylan Franco Herrera

RESPECTO A LA REGRESIN ESTIMADA

Y b0 b1 X 1 b2 X 2 bk X k
Donde Y es
eselelvalor
valorestimado
estimadode
deY,
Y,sobre
sobre lalasuperficie
superficiede
de
Donde
regresin. Los
Lostrminos
trminosbb00,...,b
,...,bkk son
sonlos
loscoeficientes
coeficientesestimados
estimadosde
de
regresin.
losparmetros
parmetrospoblacionales
poblacionalesi.i.
los

Efectivamente,elelvalor
valorobservado
observadode
deYYes
eselelvalor
valorestimado
estimadoms
ms
Efectivamente,
unerror:
error:
un
+.....++bbkkxxkjkj+e
+e
yyj j==bb00++bb11xx1j1j++bb22xx2j2j+.
Calcular b1, b2, etc. es una labor muy tediosa, por lo que se usar Excel
o Minitab para estimar los parmetros o modelos de regresin.

Tecnolgico de Monterrey Campus

ESTIMACIN DE LA
REGRESIN MLTIPLE

Froylan Franco Herrera

ECUACIN

DE

Y b0 b1 X 1 b2 X 2 bk X k
Y b0 b2 X 2 b3 X 3 bn X n

Donde Y es
eselelvalor
valorestimado
estimadode
deY,
Y,sobre
sobre lalasuperficie
superficiede
de
Donde
regresin. Los
Lostrminos
trminosbb00,...,b
,...,bkk son
sonlos
loscoeficientes
coeficientesestimados
estimadosde
de
regresin.
losparmetros
parmetrospoblacionales
poblacionalesi.i.
los

Y nb b X b X
X Y b X b X b X X
X Y b X b X X b X
0

2
2
2

Tecnolgico de Monterrey Campus

2
3

ESTIMACIN DE LA
REGRESIN MLTIPLE

ECUACIN

Froylan Franco Herrera

DE

GM desea estimar el modelo de regresin que involucra la produccin de unidades


vendidas, las asistencias al trabajo por parte de su personal y el bono que otorga.
Los datos son expresados en la siguiente tabla.
Mes

1
2
3
4
5
6
7
8
9
10
11
12

Produccin
(miles de
unidades)

Asistencia (Total de
asistencia en miles)

X2

Bono de
productividad
(cientos de
pesos)
X3

10.00

1.30

9.00

12.00

1.20

12.00

15.00

1.80

14.00

11.00

1.30

12.00

10.00

1.20

12.50

12.50

1.20

12.70

14.00

1.29

15.00

20.00

1.80

14.00

16.00

2.00

9.00

14.60

1.50

10.00

17.00

1.29

12.50

21.00

2.50

25.00

Solucin
Abrir archivos:
GM.xls
GM.mpj

Tecnolgico de Monterrey Campus

EVALUACIN DEL MODELO:


ERROR ESTNDAR DE ESTIMACIN

Froylan Franco Herrera

Puede utilizarse como una medida de bondad de ajuste. Tiene la misma


interpretacin que con la regresin simple. Mide los grados de dispersin de
los valores de Yi alrededor del plano de regresin. Entre menos dispersin se
presente, ms pequeo ser el Se y ms preciso ser el modelo en su prediccin
y pronstico.
Error estndar de estimacin

Siguiendo el ejemplo de GM

(
Y
i

Y
i
)

Se
n k 1

Solucin
Abrir archivos:
GM.xls
GM.mpj

Tecnolgico de Monterrey Campus

EVALUACIN DEL MODELO:


ERROR ESTNDAR DE ESTIMACIN

Froylan Franco Herrera

Solucin: Abrir archivos:


Excel
Minitab

Ejemplos
Libro de texto 1:
Lechero, pginas 203 y 259.
Aeromxico

Leche.xls

Calcular

Aeromxico Mltiple.xls Calcular

Inventar datos para:


Unilever
Ejercicio 45

Calcular
Calcular

Examen

Calcular

Calcular
Calcular
Calcular

Tecnolgico de Monterrey Campus

10

EVALUACIN DEL MODELO:


COEFICIENTE DE DETERMINACIN

Froylan Franco Herrera

Solucin: Abrir archivos


Excel
Minitab
GM.xls
GM.mpj

Siguiendo el ejemplo de GM

Aeromxico

Aeromxico Mltiple.xls

Pronsticos en los negocios (Leche)


Unilever
Ejercicio 45
Examen

Calcular

Calcular

Calcular

Calcular
Calcular
Calcular

Calcular
Calcular
Calcular

Tecnolgico de Monterrey Campus

11

EVALUACIN DEL MODELO: COEFICIENTE DE


DETERMINACIN MLTIPLE

Froylan Franco Herrera

La porcin del cambio en Y se explica mediante todas las variables


independientes en el modelo
Coeficientes de determinacin

SCR
R
SCT
2

SCE
R 1
SCT
2

Siguiendo el ejemplo de GM

Solucin
Abrir archivos:
GM.xls
GM.mpj

Tecnolgico de Monterrey Campus

12

EVALUACIN DEL MODELO: COEFICIENTE DE


DETERMINACIN MLTIPLE

Froylan Franco Herrera

Solucin:
Excel

Ejemplos
Aeromxico

Abrir archivos:
Aeromxico Mltiple.xls Calcular

Pronsticos en los negocios (lechero)


Unilever
Ejercicio 45
Examen

Minitab

Calcular

Calcular

Calcular

Calcular

Calcular
Calcular

Calcular
Calcular

Tecnolgico de Monterrey Campus

13

EVALUACIN DEL MODELO: COEFICIENTE DE


DETERMINACIN CORREGIDO

Froylan Franco Herrera

Es una forma rpida y fcil de evaluar el modelo de regresin para determinar


qu tan bien se ajusta el modelo a los datos.
Es posible inflar artificialmente R2, con tan slo adicionar otra variable
independiente al modelo. Incluso algunas variables absurdas sin un poder
explicativo si se incorporaran al modelo, R 2 aumentar.
Ejemplo:
Considere que el caso de Aeromxico. Aada la variable pesca.

SCE
R 2 1

(n k 1)
SCT
(n 1)

(n 1)
R 1 (1 R )
n k 1
2

Debido a que el numerador de la primera frmula es el CME, puede decirse que


Rt2, es una combinacin de dos medidas de desempeo del modelo de regresin:
El Cuadrado Medio del Error (CME) y el Coeficiente de Determinacin.

Tecnolgico de Monterrey Campus

14

EVALUACIN DEL MODELO: COEFICIENTE DE


DETERMINACIN CORREGIDO

Froylan Franco Herrera

Ejemplo:
Considere que el caso de Aeromxico. Aada la variable pesca.
Este estadstico se ajusta a la medida del poder explicativo para el nmero de
grados de libertad. Debido a que el grado de libertad para SCE es n-k-1,
agregar otra variable explicativa termina en la prdida de otro grado de
libertad, Rt2 decrecer si se adiciona una variable que no ofrece suficiente
poder explicativo para justificar la prdida de los grados de libertad. Si se
reduce demasiado, se debe considerar su retiro.

SCE

(n k 1)
R 1
SCT
(n 1)
2

R 2 1 (1 R 2 )

(n 1)
n k 1

Solucin
Siguiendo el ejemplo de GM

Abrir archivos:
GM.xls
GM.mpj

Tecnolgico de Monterrey Campus

15

EVALUACIN DEL MODELO: PRUEBAS DE


HIPTESIS

Froylan Franco Herrera

Dado el modelo de regresin, una de las primeras preguntas que se plantean es:
Tiene algn valor explicativo?
Esto puede responderse mejor realizando el anlisis de varianza (ANOVA). El
procedimiento del ANOVA prueba si alguna de las variables independientes
tiene relacin con la variable dependiente. Si una variable independiente no
est relacionada con la variable Y, su coeficiente debera ser cero. Es decir, si X i
no est relacionada con Y, entonces i=0. El procedimiento ANOVA prueba la
hiptesis nula de que todos los valores de son cero contra la alternativa de que
por lo menos un no es cero.

H 0 : 1 2 3 ... k 0
HA : Al menos un no es cero

Si no se rechaza la hiptesis nula, entonces no hay relacin lineal entre Y y


cualquiera de las variables independientes. Por otra parte, si la hiptesis nula se
rechaza, entonces por lo menos una variable independiente est relacionada
linealmente con Y.

Tecnolgico de Monterrey Campus

16

EVALUACIN DEL MODELO: PRUEBAS DE


HIPTESIS

Froylan Franco Herrera

Fuente de variacin

Grados de libertad Suma de cuadrados Cuadrado medio


SCR
Entre muestras (tratamiento)
k
SCR
k
SCE
Dentro de las muestras (error)
n-k-1
SCE
n-k-1
Variacin total

n-1

Valor F
CMR
CME

SCT

NOTA:
El grado de libertad para la suma de los cuadrados de la regresin es igual a k,
el nmero de variables independientes del modelo, mientras que el grado de
libertad para la suma de cuadrados del error es n-k-1.
Cada una de las sumas de cuadrados se encuentra exactamente igual que en la
regresin simple.
2

SCT (Yi Y )

SCR (Yi Y ) 2

SCE (Yi Yi ) 2

Tecnolgico de Monterrey Campus

17

EVALUACIN DEL MODELO: PRUEBAS DE


HIPTESIS

Froylan Franco Herrera

Fuente de variacin

Grados de libertad Suma de cuadrados Cuadrado medio


SCR
Entre muestras (tratamiento)
k
SCR
k
SCE
Dentro de las muestras (error)
n-k-1
SCE
n-k-1
Variacin total

n-1

Valor F
CMR
CME

SCT

Aeromxico
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados
F
Regresin
2
163.6317094
81.81585468 121.1843772
Residuos
12
8.101623977
0.675135331
Total
14
171.7333333

F=

Promedio de los cuadrados de la regresin


Cuadrado medio de la regresin
=
Promedio de los cuadrados de residuos
Cuadrado medio del error

Debido a que la razn F es CMR/CME, los grados de libertad necesarios para


realizar una prueba F se ve en la tabla anterior (2 y 12). Para probar la hiptesis, al
nivel del 5% se tiene a travs de tablas que F 0.05,2,12 es 3.89. La regla de decisin
es: No rechazar si F3.89; rechazar si F 3.89. Debido a que F=121.18la
hiptesis nula se rechaza. Se concluye a un nivel de significancia de 5% que existe
una relacin lineal entre Y y por lo menos una de las variables independientes.

Tecnolgico de Monterrey Campus

18

EVALUACIN DEL MODELO: PRUEBAS DE


HIPTESIS

Froylan Franco Herrera

Ejemplos

Excel

Minitab

Calcular

Calcular

Calcular

Calcular

Examen

Calcular
Calcular

GM

Calcular
Calcular

Calcular

Calcular

Pronsticos en los negocios (lechero)


Unilever
Ejercicio 45

Tecnolgico de Monterrey Campus

19

Froylan Franco Herrera

EVALUACIN DEL MODELO: PRUEBAS INDIVIDUALES


PARA LOS COEFICIENTES DE REGRESIN PARCIAL
El siguiente paso lgico es probar cada coeficiente individualmente para
determinar cul es (cules son) significante(s).
Considerando el ejemplo de Aeromxico
Primero se prueba la publicidad

H 0 : 1 0
HA : 1 0

En donde 1 es el coeficiente de regresin poblacional para la publicidad. No


rechazar la hiptesis nula significa que la publicidad no contribuye con el
poder explicativo alguno al modelo, dado que el ingreso nacional ya est
incluido.
Se utiliza la prueba t estndar con n-k-1 grados de libertad.
Prueba de hiptesis para la significancia
del coeficiente de regresin parcial

b1 1
t
Sb1

En donde Sb1 es el error estndar del coeficiente de regresin.

Tecnolgico de Monterrey Campus

20

Froylan Franco Herrera

EVALUACIN DEL MODELO: PRUEBAS INDIVIDUALES


PARA LOS COEFICIENTES DE REGRESIN PARCIAL
Si se selecciona un valor del 1%, t0.01,12=3.055.
Regla de decisin: No rechazar si t est entre 3.055. De lo contrario rechazar.
Intercepcin
Variable X 1
Variable X 2

Coeficientes
3.528399419
0.839663845
1.440974675

Error tpico
0.999417593
0.141907679
0.736038659

Estadstico t
Probabilidad
3.53045558 0.004142939
5.916972567 7.06481E-05
1.957743194
0.07392294

b1 1 0.839663845 0
t

5.916972567
Sb 1
0.141907679
Debido a que t=5.92 3.055, se rechaza la hiptesis nula. Al nivel de
significancia del 1%, la publicidad contribuye significativamente al poder
explicativo del modelo, an despus de haber incluido el ingreso nacional.
Esto se confirma mediante el valor p en la tabla anterior de 0.0000706
(tradicionalmente se expresa como que es rechazada o no rechazada con un
error menor a 1X10-4).
El valor p, es el valor ms bajo en el que se puede fijar y sin embargo
rechazar la hiptesis nula. Debido a que el valor del 1% es mayor que
0.0000 se rechaza la hiptesis nula.

Tecnolgico de Monterrey Campus

21

Froylan Franco Herrera

EVALUACIN DEL MODELO: PRUEBAS INDIVIDUALES


PARA LOS COEFICIENTES DE REGRESIN PARCIAL
Recurdese que cuando la publicidad era la nica variable explicativa se report
un valor t de 13.99491761 Por qu es diferente ahora? El valor t de 5.92 en
este modelo mide la contribucin adicional de publicidad dado que el ingreso
nacional ya est incluido. Al rechazar la hiptesis nula, se ha determinado al
nivel de significancia del 1% que la publicidad contribuye significativamente al
poder explicativo del modelo, incluso despus de que se ha adicionado el
ingreso nacional.
La misma prueba de significancia se realiza sobre la segunda variable explicativa,
en este caso el ingreso nacional.

H0:2 0
HA : 2 0

Si =5%, t0.05,12=2.179. Entonces,


Regla de decisin: No rechazar si t est entre 2.179. De lo contrario rechazar.

1.440974675 0
t
1.957743194
0.736038659
Tecnolgico de Monterrey Campus

22

Froylan Franco Herrera

EVALUACIN DEL MODELO: PRUEBAS INDIVIDUALES


PARA LOS COEFICIENTES DE REGRESIN PARCIAL
Claramente la hiptesis nula 2=0 no se rechaza. No se puede concluir, al nivel
de significancia del 5%, que el ingreso nacional contribuye al poder explicativo
del modelo si la publicidad ya est incluida como variable significativa.
De acuerdo con el valor p, se puede bajar el nivel de significancia a slo 7.4% y
sin embargo rechazar la hiptesis nula. Si el valor se fija ms bajo, tal como
5%, no se rechaza la hiptesis nula. Pero si se fija al 10%, t0.10,12= 1.782
Regla de decisin: No rechazar si t est entre De lo contrario rechazar.
Debido a que el valor t es 1.96, la hiptesis nula se rechaza al nivel de
significancia del 10%.

Tecnolgico de Monterrey Campus

23

Froylan Franco Herrera

EVALUACIN DEL MODELO: PRUEBAS INDIVIDUALES


PARA LOS COEFICIENTES DE REGRESIN PARCIAL

Ejemplos

Excel

Minitab

Calcular

Calcular

Calcular

Calcular

Examen

Calcular
Calcular

GM

Calcular
Calcular

Calcular

Calcular

Pronsticos en los negocios (lechero)


Unilever
Ejercicio 45

Tecnolgico de Monterrey Campus

24

Froylan Franco Herrera

MULTICOLINEALIDAD
1.
2.
3.

Ocurre cuando existe una alta correlacin entre dos variables independientes.
Es necesario calcular la matriz de correlacin, donde si se observa que un
valor es alto entonces existe multicolinealidad.
En cualquier momento dos o ms variables independientes estn relacionadas
linealmente, entonces existe algn grado de multicolinealidad. Si la presencia
se vuelve demasiado pronunciada, el modelo se ver afectado negativamente.
Lo que se considera demasiado alto todava es un llamado al juicio por parte
del investigador.

Ejemplo:
Asumiendo que se utilizan las tcnicas de regresin para estimar una curva de
demanda (o funcin de demanda) para un producto. Se establece que el
nmero de consumidores est relacionado con la demanda, se seleccionan
como variables explicativas:
X1= Todos los hombres en el rea del mercado.
X2= Todas las mujeres en el rea del mercado.
X3= Poblacin total en el rea del mercado.

Obviamente X3 es una combinacin de X1 y X2 (X3=X1+X2). La correlacin


r13 entre X1 y X3 y la correlacin r23 entre X2 y X3 es muy alta. Esto garantiza
la presencia de multicolinealidad y crea muchos problemas en el uso de las
tcnicas de regresin.

Tecnolgico de Monterrey Campus

25

Froylan Franco Herrera

MULTICOLINEALIDAD
Ejemplo de Aeromxico:
Matriz de correlacin

Columna 1

Columna 2

Columna 1
1
Columna 2 0.968378371
1
Columna 3 0.90287726 0.869821316

Columna 3

Los problemas de la multicolinealidad


1. Uno de los problemas de la multicolinealidad surge de la incapacidad de
separar los efectos individuales de cada variable independiente sobre Y.
Ante la presencia de la multicolinealidad de cada variable independiente es
imposible desenmaraar los efectos de cada X i. Supngase el siguiente
modelo:

Y 40 10 X 1 80 X 2

X1 y X2 mostraron un alto grado de correlacin. En este caso, el coeficiente


de 10 para X1 puede no representar el efecto verdadero de X 1 sobre Y. Los
coeficientes de regresin se vuelven no confiables y no pueden tomarse
como estimaciones del cambio en Y dado un cambio de una unidad en la
variable independiente.

Tecnolgico de Monterrey Campus

26

Froylan Franco Herrera

MULTICOLINEALIDAD
2.

Adems, los errores estndares de los coeficientes S b1 se desbordan. Si se


toman dos o ms muestras del mismo tamao, se encontrara una gran
variacin en los coeficientes. En el modelo especificado anteriormente, en
lugar de 10 como coeficiente de X1, una segunda muestra podra dar un
coeficiente 15 20. Si b1 vara mucho de una muestra a otra, se debe
cuestionar la exactitud.

3.

La multicolinealidad puede incluso hacer que el signo del coeficiente sea


opuesto al que la lgica dicta. Por ejemplo, si se incluye el precio como
una variable en la estimacin de la curva de la demanda, se puede encontrar
que tom un signo positivo. Esto implica que como el precio de un bien
sube, los consumidores compran ms de ste. Esto es una evidente
contravencin de la lgica que sustenta a la teora de la demanda.

Tecnolgico de Monterrey Campus

27

Froylan Franco Herrera

MULTICOLINEALIDAD
Deteccin de la multicolinealidad
Quizs la forma ms directa para probar la multicolinealidad es producir una
matriz de correlacin para todas las variables del modelo.
Ejemplo de Aeromxico:
Matriz de correlacin

Columna 1

Columna 2

Columna 1
1
Columna 2 0.968378371
1
Columna 3 0.90287726 0.869821316

Columna 3

Puede eliminarse algo de conjetura utilizando una prueba t para determinar si el


nivel de correlacin entre dos variables independientes difiere significativamente
de cero. Dada una relacin de no cero entre publicidad y el ingreso nacional de
r=0.8698 en la muestra, se desea probar la hiptesis de que la correlacin es cero
al nivel poblacional. Se prueba la hiptesis de que:

H 0 : 12 0
HA : 12 0
Donde 12 es el coeficiente de correlacin poblacional para X 1 (publicidad) y
X2 (ingreso).

Tecnolgico de Monterrey Campus

28

Froylan Franco Herrera

MULTICOLINEALIDAD
Utilizando :
Donde r12 es la correlacin muestral entre
publicidad (X1) e ingreso nacional (X2)

r12
t
Sr
1 r
Sr
n2

2
12

Ejemplo de Aeromxico:
Matriz de correlacin

H 0 : 12 0 No hay correlacin
HA : 12 0 S hay correlacin

Sr

1 0.86982
15 2

0.136845

0.8698
t
6.35606
0.136845

Donde 12 es el coeficiente de
correlacin poblacional para las
dos variables independientes.

Tecnolgico de Monterrey Campus

29

Froylan Franco Herrera

MULTICOLINEALIDAD
Si se determina al 5%, el valor crtico de t0.05,13=2.16. Hay n-2 grados de
libertad (y no n-k-1).
Regla de decisin:
No rechazar si - 2.16

t 2.16

Rechazar si

2.16 t 2.16

Dado que t=6.36>2.16 se puede rechazar la hiptesis nula de que no hay


correlacin entre X1 y X2 (12=0). Existe sin embargo alguna multicolinealidad.
Esto no significa que el modelo es defectuoso irrevocablemente. De hecho, muy
pocos modelos estn totalmente libres de multicolinealidad.
Otra forma de detectar la multicolinealidad es comparar los coeficientes de
determinacin entre la variable dependiente y cada una de las variables
independientes.
Columna 1
Columna 2
Columna 3
Columna 1
1
Columna 2 0.968378371
1
Columna 3 0.90287726 0.869821316

Tecnolgico de Monterrey Campus

1
30

Froylan Franco Herrera

MULTICOLINEALIDAD
La correlacin entre pasajeros y publicidad 0.968, por tanto el coeficiente de
determinacin es r2=(0.968)2=0.937, mientras que pasajeros e ingreso nacional la
correlacin es 0.903, por tanto el coeficiente de determinacin es
r2=(0.903)2=0.815. Sin embargo, las dos variables juntas revelaron un R 2 de slo
0.953. Si se toman las dos variables independientes explican el 93.7% y 81.5%
Pasajeros VS Publicidad e Ingreso
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

0.976127243
0.952824395
0.944961794
0.821666192
15

Pasajeros VS Publicidad

Pasajeros VS Ingreso

Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.968378371
Coeficiente de determinacin R^2
0.93775667
R^2 ajustado
0.932968721
Error tpico
0.906780212
Observaciones
15

Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.90287726
Coeficiente de determinacin R^2
0.815187347
R^2 ajustado
0.800970989
Error tpico
1.562505211
Observaciones
15

Aparentemente existe alguna superposicin en su poder explicativo. Incluir la


variable Ingreso hizo muy poco por incrementar la capacidad del modelo para
explicar el nmero de pasajeros. Gran parte de la informacin sobre pasajeros,
ya proporcionada por la publicidad, simplemente se duplica por el Ingreso. Esto
es un indicio de que la multicolinealidad puede estar presente.

Tecnolgico de Monterrey Campus

31

Froylan Franco Herrera

MULTICOLINEALIDAD
Otra forma de detectar la multicolinealidad es analizar el Factor de Inflacin de
Varianza (VIF). El VIF relacionado con toda variable X se halla haciendo
regresin de sta sobre todas las otras variables X. El R 2 resultante tambin se
utiliza luego para calcular el VIF de esa variable. El VIF para todo X i representa
la influencia de dicha variable en la multicolinealidad.
Factor de Inflacin de la Varianza. El VIF para toda variable independiente es
una medida del grado de multicolinealidad en que contribuye dicha variable.
Debido a que slo hay dos variables independientes en el modelo de
Aeromxico, se hace regresin de Xi sobre las otras variables independientes
(X2), o se hace regresin de X 2 sobre X1 y da el mismo coeficiente de correlacin
(r12=0.87). El VIF para cualquier variable independiente dada X i es:
1
Factor de Inflacin de
VIF

la Varianza. Para Xi
1 Ri2
En donde Ri2 es el coeficiente de determinacin obtenido al hacer la regresin de
Xi sobre todas las variables independientes. Como se mencion, la
multicolinealidad produce un incremento en la variacin o error estndar del
coeficiente de regresin. El VIF mide el incremento en la varianza del
coeficiente de regresin por encima del que ocurrira si no estuviera
presente la multicolinealidad.

Tecnolgico de Monterrey Campus

32

Froylan Franco Herrera

MULTICOLINEALIDAD
El VIF para publicidad es:

VIF

1
4.1
2
1 (0.87)

The regression equation is


Pasajeros (en 1000s) = 3.53 + 0.840 Publicidad (en USD$1000s)
+ 1.44 Ingreso nacional (Billones de U
Predictor
Constant
Publicid
Ingreso

Coef
3.5284
0.8397
1.4410

SE Coef
0.9994
0.1419
0.7360

T
3.53
5.92
1.96

P
0.004
0.000
0.074

VIF
4.1
4.1

El mismo VIF para X2 se hallara ya que slo hay dos variables independientes. Esto
podra interpretarse como la varianza de b 1 y b2 que es ms de 4 veces lo que debera ser
sin la multicolinealidad en el modelo.
En general, la multicolinealidad no se considera un problema significativo a menos que
el VIF de una sola Xi mida por lo menos 10, o la suma de los VIFs para todas las Xi
sea por lo menos 10.
Otros indicios de multicolinealidad incluyen grandes cambios en los coeficientes o en
su signo cuando existe un cambio pequeo en el nmero de observaciones. Adems, si
la razn F es significante y los valores t no lo son, puede estar presente la
multicolinealidad.
Igualmente si la suma o eliminacin de una variable produce grandes cambios en los
coeficientes o sus signos, puede existir multicolinealidad.
33

Tecnolgico de Monterrey Campus

Froylan Franco Herrera

MULTICOLINEALIDAD
Corrigiendo la multicolinealidad
Qu puede hacerse para eliminar o mitigar la multicolinealidad? Quiz la
solucin ms lgica es la eliminacin de la variable causante. SI X i y Xj estn
relacionadas muy cerca, una de ellas puede sencillamente eliminarse del
modelo. Despus de todo debido a la superposicin, la inclusin de la segunda
variable agrega muy poco a la explicacin de Y.
La pregunta sera cul de ellas debera eliminarse? Haciendo referencia al
modelo de Aeromxico, puede ser aconsejable eliminar el Ingreso debido a que
su correlacin con Y es menor que la publicidad. Las pruebas t aplicadas
tambin sugieren que el Ingreso no era significante al 5%.
Sin embargo, al eliminar simplemente una de las variables esto puede conllevar
al sesgo de especificacin, en el cual, el formato del modelo est en desacuerdo
con su base terica. Debe evitarse la multicolinealidad, por ejemplo, si el ingreso
se eliminara de una expresin funcional para la demanda de los consumidores.
Sin embargo, la teora econmica as como el simple sentido, dicen que el
ingreso debera incluirse en todo intento por explicar el consumo.

Tecnolgico de Monterrey Campus

34

Froylan Franco Herrera

MULTICOLINEALIDAD
Sesgo de especificacin. Una especificacin errnea de un modelo a causa de la
inclusin o exclusin de ciertas variables que terminan en una contravencin de
los principios tericos.
Si se prohbe eliminar una variable debido a algn sesgo resultante, se puede con
frecuencia reducir la multicolinealidad cambiando la forma de la variable. Quiz
dividiendo los valores originales de la variable causante por la poblacin, para
as obtener una cifra per cpita lo cual sera benfico. Adicionalmente dividir
ciertas medidas monetarias por el ndice de precios (como el ndice de Precios al
Consumidor) y por ende obtener una medida en trminos reales, tambin es un
mtodo efectivo de eliminar la multicolinealidad. Ambos procedimientos podran
aplicarse al Ingreso.
Tambin es posible combinar dos o ms variables. Esto podra hacerse con el
modelo para la demanda del consumidor, el cual emple X 1=hombres,
X2=mujeres y X3=poblacin total. Las variables X 1 y X2 podran sumarse para
formar X3. El modelo entonces constara de una sola variable explicativa.

Tecnolgico de Monterrey Campus

35

Froylan Franco Herrera

MULTICOLINEALIDAD
En cualquier evento, debera reconocerse que existe algn grado de
multicolinealidad en la mayora de los modelos de regresin que contienen dos o
ms variables independientes. Entre ms grande sea el nmero de variables
independientes mayor ser la probabilidad de multicolinealidad. Sin
embargo, esto no necesariamente resta mritos a la utilidad del modelo ya que el
problema de multicolinealidad puede no ser grave.
La multicolinealidad causar graves errores en los coeficientes individuales,
aunque el efecto combinado de estos coeficientes no sea drsticamente alterado.
Un modelo de prediccin diseado para predecir el valor de Y, con base en
todos los Xi tomados en combinacin, darn una precisin considerable. Slo los
modelos explicativos creados para explicar la contribucin al valor de Y por
cada Xi, tienden a colapsarse ante la multicolinealidad.

Tecnolgico de Monterrey Campus

36

COMPARACIN DE LOS COEFICIENTES DE


REGRESIN

Froylan Franco Herrera

Despus de desarrollar el modelo completo, existe con frecuencia la tendencia a


comparar los coeficientes de regresin para determinar cul variable ejerce ms
influencia en Y. sta tentacin peligrosa debe evitarse. Considrese por ejemplo
del modelo:

Y 40 10 X 1 200 X 2

Y= Toneladas de produccin
X1= Unidades del insumo de trabajo
X2= Unidades de ingreso de capital
Esto puede llevar a concluir que el capital es ms importante que el trabajo al
determinar la produccin ya que tiene el coeficiente ms grande. Despus de todo,
un incremento de una unidad de capital, manteniendo constante el trabajo, resulta
en un incremento de 200 unidades en la produccin. Sin embargo, tal comparacin
no es posible. Todas las variables se miden en unidades totalmente diferentes: una
en unidades de peso, otra en nmero de personas y una tercera en mquinas.
Adems, existen factores diferentes al coeficiente de una variable que determinan
su impacto total en Y. Por ejemplo, la varianza en una variable es muy importante
al determinar su influencia en Y. La varianza mide con qu frecuencia y cunto
cambia una variable. Por tanto, una variable puede tener un coeficiente grande y
cada vez que cambia afecta a Y notablemente. Pero si su varianza es muy pequea
y cambia slo una vez en un milenio, su impacto global en Y ser insignificante.

Tecnolgico de Monterrey Campus

37

COMPARACIN DE LOS COEFICIENTES DE


REGRESIN

Froylan Franco Herrera

Para compensar estas deficiencias, algunas veces se mide la respuesta de Y a los


cambios en los coeficientes de regresin estandarizados. Los coeficientes de
regresin estndar tambin denominados coeficientes beta (no confundirse con el
valor el cual es el coeficiente desconocido a nivel poblacional), reflejan el
cambio en la respuesta promedio de Y, calculada en el nmero de desviaciones
estndar de Y, de los cambios en Xi, medida en el nmero de desviaciones estndar
de Xi. El efecto que se pretende con el clculo de los es hacer que los
coeficientes no tengan dimensiones.
Coeficiente beta o
estandarizado para Xi

bi
Beta
Sy / Sxi

Bi= Coeficiente de regresin


Sy= Desviacin estndar de la variable dependiente
Sxi= Desviacin estndar de la variable independiente

Tecnolgico de Monterrey Campus

38

COMPARACIN DE LOS COEFICIENTES DE


REGRESIN

Froylan Franco Herrera

Calculando ambas desviaciones estndar y considerando el ingreso y los


pasajeros para el caso de Aeromxico, se obtiene:

1.441
Beta
0.2436
3.052 / 0.605
As, un cambio en una desviacin estndar en el ingreso nacional da un cambio
en la desviacin estndar de pasajeros en 0.2436. De igual forma, para
publicidad es 0.7519. Esto puede sugerir que la publicidad tiene un impacto ms
fuerte en los pasajeros. Sin embargo, ante la presencia de la multicolinealidad,
incluso estos coeficientes estandarizados sufren de muchas de las deficiencias
que los coeficientes normales. Por ende, se considera una prctica deficiente
medir la importancia de una variable con base en sus coeficientes

Tecnolgico de Monterrey Campus

39

Froylan Franco Herrera

REGRESIN PASO A PASO


El estadstico proporciona los datos para las varias variables explicativas
potenciales y luego, con ciertos comandos u opciones que se le dan a la
computadora se puede determinar cules variables son las ms adecuadas para
formular el modelo completo.
De sta forma, el modelo se desarrolla por etapas y puede tomar dos formas:
Eliminacin hacia atrs.
Seleccin hacia delante.
ELIMINACIN HACIA ATRS
Se da la orden a la computadora para que calcule todo el modelo utilizando todas
las variables independientes. Los valores t se calculan para todos los coeficientes.
Si alguno es insignificante, la computadora elimina el valor t ms prximo a cero
y calcula el modelo nuevamente. Esto contina hasta que todos los b i restantes
sean significativamente diferentes de cero
SELECCIN HACIA DELANTE
Primero la variable que est ms correlacionada con Y se selecciona para ser
incluida en el modelo. El segundo paso es la seleccin de una segunda variable
con base para explicar Y, dado que la primera variable ya est en el modelo. La
seleccin de la segunda variable se basa en su coeficiente parcial de
determinacin, el cual es una contribucin de la variable al poder explicativo del
modelo, dada la presencia de la primera variable.

Tecnolgico de Monterrey Campus

40

Froylan Franco Herrera

REGRESIN PASO A PASO


Por ejemplo, se asume que la primera variable seleccionada es X 5 (dado que es la
variable con mayor coeficiente de determinacin), se calcula todo el modelo
posible de dos variables en el cual una de las cuales es X 5. El modelo que produce
el R2 ms alto es el que se selecciona. Este proceso contina hasta que todas las
variables X estn en el modelo o hasta que la inclusin de otra variable no termine
en un incremento significativo de R2.
Aunque la regresin por pasos parece ser un modelo efectivo y conveniente para
la especificacin del modelo, deben tomarse ciertas precauciones. El proceso
explorar los datos, a la espera de un modelo estadsticamente ms preciso con el
R2 ms alto. Sin embargo, la computadora no puede razonar o pensar y el modelo
resultante puede funcionar estadsticamente pero puede ser contrario a todo
principio lgico o terico, y por tanto, sufrir de un sesgo de especificacin. La
regresin paso a paso debera utilizarse con extrema precaucin, y todo modelo
formulado de esta forma, debera analizarse o escudriarse muy de cerca.

Tecnolgico de Monterrey Campus

41

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

En los esfuerzos de bsqueda se pueden hallar muchas variables que son tiles
para explicar el valor de la variable dependiente. Por ejemplo, aos de educacin,
entrenamiento y experiencia son instrumentos para determinar el nivel de ingresos
de una persona. Estas variables pueden medirse numricamente y prestarse al
anlisis estadstico.
Sin embargo, tal no es el caso de otras variables que tambin son tiles al explicar
los niveles de ingreso. Los estudios han demostrado que el gnero y la geografa
tambin tienen un poder explicativo considerable.
Una mujer que haya completado el mismo nmero de aos de educacin y
capacitacin que un hombre no tendr el mismo ingreso. Un trabajador del norte
del pas puede no ganar lo mismo que gana un trabajador del sur haciendo un
trabajo similar. Tanto el gnero como la demografa pueden ser variables
explicativas altamente tiles en el esfuerzo por predecir el ingreso propio.

Tecnolgico de Monterrey Campus

42

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Debido a que ninguna variable puede expresarse de inmediato numricamente, no


pueden incluirse directamente en un modelo de regresin. Por tanto, se debe
modificar la forma de stas variables no numricas, de tal manera que se puedan
incluir en el modelo y por ende ganar el poder explicativo adicional que ofrecen.
Variables cualitativas o variables dummy. Son las variables que no estn
expresadas en forma directa y cuantitativa.
Ejemplos:
Las ventas de una empresa pueden depender de la estacin (los trajes de bao por
ejemplo), se venden mejor en primavera o verano que en invierno.
Si una persona que es casada, soltera, viuda o divorciada puede afectar sus gastos
para efectos de esparcimiento, mientras que el lugar de residencia (urbano,
suburbano o rural) probablemente tendr impacto en la valorizacin de impuestos
de una persona.
Ante este tipo de variables que no se pueden cuantificar se usan las Vars. dummy.

Tecnolgico de Monterrey Campus

43

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Ejemplo:
Como Gerente Regional de una cadena de tiendas departamentales (Liverpool), se
desea estudiar la relacin entre los gastos de los clientes y seleccionar las variables
que puedan explicar tales gastos. Adems de la seleccin lgica del ingreso como
variable explicativa, se considera que el sexo de un cliente tambin puede hacer
parte en la explicacin de los gastos. Por tanto, se recolectan 15 observaciones
para estas tres variables: los gastos en cientos de pesos, el ingreso en miles de
pesos y el sexo.
Cmo codificar el sexo?, Hombre=H y Mujer=M? u Hombre=0 y Mujer=1? (si
se toman al revs los valores, no afectara a los modelos calculados: H=1 y M=0).

Tecnolgico de Monterrey Campus

44

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Intercepcin
Variable X 1
Variable X 2

Coeficientes
12.21135484
0.791225806
5.106709677

Error tpico
3.938063222
0.110726018
1.672449916

Estadstico t
Probabilidad
3.100852919 0.009175446
7.145798419 1.17102E-05
3.053430556
0.01002063

Y 12.2114 0.7912 X 1 5.1067 X 2


Tecnolgico de Monterrey Campus

45

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Y 12.2114 0.7912 X 1 5.1067 X 2


El uso de la variable dummy para sexo produce dos rectas de regresin: una para
hombres y una para mujeres. Estas rectas tienen la misma pendiente pero
diferentes interceptos. En otras palabras, se generan dos rectas de regresin
paralelas que comienzan en puntos diferentes sobre el eje vertical.
Debido a que se especific 0 para hombres, la ecuacin se convierte en:

Y 12.2114 0.7912 X 1 5.1067(0)


Y 12.2114 0.7912 X 1
Para mujeres el valor se codific como 1 y produce:

Y 12.2114 0.7912 X 1 5.1067(1)


Y 17.3181 0.7912 X 1
Tecnolgico de Monterrey Campus

46

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Esto significa que para cualquier ingreso dado, los clientes que sean mujeres
gastan en promedio $5.1067 (expresarlo en cientos) ms que los hombres.
Sea el ingreso igual a $30 ($30,000.00), entonces para las mujeres:

Y 12.2114 0.7912(30) 5.1067(1) 41.0541


Mientras que para los hombres:

Y 12.2114 0.7912(30) 5.1067(0) 35.9474


La diferencia de $5.1067 (expresarlo en cientos) ocurre porque el valor codificado
para los hombres cancela el coeficiente de b 2 de 5.1067, mientras que el valor
codificado de 1 para las mujeres termina en la adicin de 5.1067 a la ecuacin.

Tecnolgico de Monterrey Campus

47

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Si se hubiera codificado la variable dummy asignando 1 a los hombres y 0 a las


mujeres, los resultados finales seran iguales.
Intercepcin
Variable X 1
Variable X 2

Coeficientes
17.31806452
0.791225806
-5.106709677

Error tpico
4.16932664
0.110726018
1.672449916

Estadstico t
Probabilidad
4.153683798 0.001337771
7.145798419 1.17102E-05
-3.053430556
0.01002063

Y 17.3181 0.7912 X 1 5.1067 X 2


El modelo para los hombres:

Mientras que para las mujeres:

Y 17.3181 0.7912 X 1 5.1067(1)


Y 12.2114 0.7912 X 1

Y 17.3181 0.7912 X 1 5.1067(0)


Y 17.3181 0.7912 X 1

Y 12.2114 0.7912(30) 35.9474

Y 17.3181 0.7912(30) 41.0541

Como se observa, no importa cmo se codifiquen los datos cualitativos (H=0 y


M=1 u H=1 y M=0) los modelos siempre sern los mismos.
En ste caso, se demuestra que la mujer tiende a gastar ms que el hombre.
(Compradoras compulsivas Que felicidad para ellas!!!, y para nosotros?)

Tecnolgico de Monterrey Campus

48

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Ahora bien, si una variable dummy tiene ms de dos posibles respuestas, no se


puede codificar como 0, 1, 2, 3, etc. Una variable con r posibles respuestas se
expandir para comprender r-1 variables.
Ejemplo:
Se puede incluir la variable en el modelo para estudiar el efecto del estado civil
sobre los gastos. Las posibles respuestas pueden incluir casado(a), soltero(a)
divorcidado(a) y viudo(a). Adems, de X 1 para ingreso y X2 para sexo, estas
cuatro posibles respuestas requieren tres variables adicionales, X 3, X4, X5 para
codificar los datos sobre el estado civil. Esto se logra ingresando slo 0 1 por
cada variable de la siguiente manera:
X3
X4
X5

= 1 si es casado(a)
= 1 si es soltero(a)
= 1 si es divorciado(a)

= 0 si no es casado(a)
= 0 si no es soltero(a)
= 0 si no es divorciado(a)

No es necesaria ninguna variable par viudo, porque si X 3=X4=X5=0, el proceso de


eliminacin revela la observacin de ser viudo.

Tecnolgico de Monterrey Campus

49

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Intercepcin
Variable X 1
Variable X 2
Variable X 3
Variable X 4
Variable X 5

Coeficientes
9.328768282
0.859807084
6.828160722
-1.937593561
-1.59556857
5.495333688

Error tpico
5.052172802
0.121849843
1.637227625
1.815336205
2.059438344
2.85678059

Estadstico t
1.846486383
7.056283908
4.170562857
-1.06734695
-0.774759086
1.923610693

Se:H=0
C:C=1
S:S=1
D:D=1

Y 9.3288 0.8598 X 1 6.8282 X 2 1.9376 X 3 1.5956 X 4 5.4953 X 5


Tecnolgico de Monterrey Campus

50

Froylan Franco Herrera

VARIABLES DUMMY (DATOS CUALITATIVOS


VARIABLES FICTICIAS -VARIABLES ARTIFICIALES)

Ejemplos:

Y 9.3288 0.8598 X 1 6.8282 X 2 1.9376 X 3 1.5956 X 4 5.4953 X 5


I:I=30

Ingreso de 30
HyC=?
HyS=?
HyD=?
HyV=?

Se:H=0

C:C=1

S:S=1

D:D=1

Ingreso de 30
MyC=?
MyS=?
MyD=?
MyV=?

Tecnolgico de Monterrey Campus

51

Froylan Franco Herrera

RESIDUALES
Ejemplo de Aeromxico
Produccin
Yp

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

3.528399419

Asistencia
0.839663845 X2

Y-Yp

Bono de productividad
1.44097468 X3

Yp

(Y-Yp)2

15
17
13
23
16
21
14
20
24
17
16
18
23
15
16

15.3833771

-0.3834 0.14697799

17.5238167

-0.5238 0.27438391

13.2429375

-0.2429 0.05901863

23.1054716

-0.1055 0.01112426

15.613933

0.3861

20.965032

0.0350 0.00122276

15.1528211

-1.1528 1.32899658

19.8948122

0.1052 0.01106447

25.0153552

-1.0154 1.03094623

15.844489

1.1555 1.33520571

15.7475193

0.2525 0.06374651

17.8015004

0.1985 0.03940209

21.2571255

1.7429 3.03761163

14.7205287

0.2795 0.07810419

16.7312806
Sumatorias

-0.7313 0.53477132
0.0000 8.10162398

Tecnolgico de Monterrey Campus

0.1490477

52

Froylan Franco Herrera

RESIDUALES

Supuesto 3:

Los trminos de error son independientes uno del otro


Autocorrelacin. Ocurre cuando los trminos de error no son independientes
Se trata de eventos dependientes (lo que pas en perodos de tiempo
anteriores)
Se puede decir que el valor de un
error es una funcin del error
anterior. Es ms probable que un
error positivo sea seguido por
otro positivo, mientras que un
error negativo est relacionado
con un segundo error negativo.
Tal condicin, que contraviene el
supuesto de independencia de
errores, se llama autocorrelacin
positiva, porque los signos iguales
se agrupan. En la autocorrelacin
negativa cada error es seguido de
signo opuesto.

Tecnolgico de Monterrey Campus

53

Froylan Franco Herrera

RESIDUALES
Para detectar la autocorrelacin se utiliza la prueba de Durbin-Watson:
2
(
e
t

e
t

1
)
d
2
e
t

en donde e, es el error en el perodo de tiempo t y e t-1 es el error en el perodo


anterior. La frmula anterior requiere que el trmino de error (Y i - Ypi ) se
calcule para cada perodo y es muy laborioso calcularlo manualmente.
A travs de Minitab se obtuvo que para el caso de Aeromxico, el estadstico de
Durbin-Watson es de 2.48. Este valor se utiliza para probar la hiptesis de que
no existe correlacin entre trminos de error sucesivos, as:
No existe autocorrelacin

H 0 : et , et 1 0
HA : et , et 1 0

Existe autocorrelacin

en donde es el coeficiente de correlacin para errores sucesivos. El valor


Durbin-Watson se compara con los valores crticos tomados de la tabla del
Estadstico de Durbin-Watson para un nivel de significancia del 1% o del 5%.

Tecnolgico de Monterrey Campus

54

Froylan Franco Herrera

RESIDUALES
Se supone que se selecciona un valor del 1%. Dado que n = 15, y k el nmero
de variables independientes es 1 (para RLS), el valor DurbinWatson inferior es
dL = 0.81, y el valor superior Durbin-Watson es dU = 1.07.
Estos valores se aplican entonces a la escala en la figura que se construya para
tal efecto.
Si el valor Durbin-Watson es menor que d L = 0.81, se sugiere una
autocorrelacin positiva y se rechaza la hiptesis nula.
Si es mayor que (4 - dL) = 3.19, se sugiere la autocorrelacin negativa y se
rechaza la hiptesis nula.
Si est entre dU = 1.07 y (4 - dU) = 2.93, no se rechaza la hiptesis nula.
Si el valor DurbinWatson cae en cualquiera de las dos regiones restantes, la
prueba no es conclusiva.
En este caso, el valor Durbin-Watson de 2.48 cae en la regin de la escala que
indica que la correlacin no existe y no se rechaza la hiptesis nula.
Generalmente hablando, si el valor Durbin-Watson es cercano a 2, no se
rechaza la hiptesis nula.

Tecnolgico de Monterrey Campus

55

RESIDUALES: GRFICA DE DIAGNSTICO

Froylan Franco Herrera

sta y la siguiente diapositiva son extradas del material del Dr. Mendoza del Campus
Morelos, cmendoza@itesm.mx con su autorizacin respectiva en 2003.

Para hacer la regresin lineal hicimos una suposicin muy seria. Aunque
sabamos que no era totalmente cierto, supusimos que la regresin sigue la
figura de una lnea recta al graficarla contra la X.
La manera de ver qu tan equivocada es esta suposicin es a travs de una
grfica: el Diagrama de Diagnstico o Grfica de Residuales.
1. Cmo es?
Se trata de una grfica en la que se ponen los residuos en el eje vertical y los
valores pronosticados en el horizontal. En otras palabras, los residuos son la
diferencia entre la Y observada y el valor de la recta de mnimos cuadrados.
2. Cmo se usa?
El diagrama de diagnstico nos indica dos tipos de cosas:
presencia de aberraciones
curvatura de la esperanza condicional

Tecnolgico de Monterrey Campus

56

Froylan Franco Herrera

RESIDUALES: GRFICA DE DIAGNSTICO


Aberraciones. Es una observacin que no corresponde a las dems. Su valor es
extraordinario o atpico por alguna razn. Una observacin aberrante tiene un
valor muy grande o muy pequeo para lo que deba valer.
Cuando una observacin as se encuentra entre los datos para calcular la
regresin puede alterar por completo los resultados. Es bueno detectarla y darle
un tratamiento aparte. Si en el diagrama de diagnstico se encuentra un punto
completamente aislado y separado de los dems, es seal de que puede tratarse
de una aberracin y es conveniente tratarla por separado.
Curvatura. Cuando la regresin sigue una lnea curva, esta se manifiesta ms
claramente en el diagrama de diagnstico. Los puntos de esta grfica presentan
el aspecto general de una curva. Al haber deducido la tendencia recta de los
datos, la curvatura se manifiesta mejor.
Si detectamos curvatura en el diagrama de diagnstico debemos preguntarnos si
sta es importante o no. Es preciso ver los tamaos de los residuos para decidir
si esta curvatura es importante; si los residuos son pequeos, comparados con los
tamaos de Y, aunque la curvatura est presente, no afectar mucho a los
resultados; si la curvatura es sustancial, la regresin no ser til.

Tecnolgico de Monterrey Campus

57

LINEARIZACION
ECUACIONES

Froylan Franco Herrera

(LINEALIZACIN)

DE

Hasta el momento slo se han analizado modelos lineales (la relacin entre X y Y
puede expresarse como una lnea recta). Sin embargo, esto no siempre es el caso.
Se puede encontrar que un modelo curvilineal (no lineal) puede proporcionar un
mejor ajuste.
En RLS se coment sobre las suposiciones de normalidad, homocedasticidad e
independencia del error, que se incluyen en el modelo de regresin. En muchas
circunstancias el efecto de las violaciones de estas suposiciones se puede superar
transformando la variable dependiente, las variables explicatorias o ambas.
Ejemplo:
Se supone que en el esfuerzo por predecir
las declaraciones de impuestos con base en
la poblacin del Estado de Mxico, el
Gobernador recolecta los datos que se
observaron en los ltimos diez aos. Los
datos para impuestos estn en miles de
millones y para poblaciones estn en
millones.

Impuestos
85
118
164
228
31
43
61
611
316
444

Tecnolgico de Monterrey Campus

Poblacin
2.68
2.98
3.50
3.79
1.57
2.01
2.15
4.90
4.16
4.50
58

LINEARIZACION
ECUACIONES

(LINEALIZACIN)

Froylan Franco Herrera

DE

Recurdese que en un modelo de regresin simple, el cambio en Y es constante. A


medida que X cambia, Y cambia en un monto dado. En un modelo curvilineal, a
medida que X cambia, Y cambia en una cantidad diferente.
Relacin Curvilineal para declaraciones de impuesto y
poblacin
700

Impuestos

600
500
400
300
200
100
0
0.00

1.00

2.00

3.00

4.00

5.00

6.00

Poblacin

Un polinomio de grado k

Y 0 1 X 2 X 2 ... kX k

La frmula anterior es un polinomio de grado k debido a que es la potencia ms


alta de cualquier variable explicativa.

Tecnolgico de Monterrey Campus

59

LINEARIZACION
ECUACIONES

Froylan Franco Herrera

(LINEALIZACIN)

DE

Por consiguiente el modelo del Gobierno del Estado de Mxico puede tener un
mejor ajuste utilizando un polinomio de grado 2 o un polinomio de segundo
orden.
Forma cuadrtica
2
Y b 0 b1 X b 2 X
del polinomio
En este modelo cuadrtico, la segunda variable explicativa es simplemente la
cuadrada de la primera. En el caso del Gobernador se tiene:

I b 0 b1P b 2 P 2
Donde I es impuestos y P es la poblacin.
En este punto, se comparan los resultados de este modelo con los obtenidos si se
estima un modelo de regresin lineal simple.
La impresin en Minitab para el modelo en el cual se hace la regresin de los
impuestos sobre la poblacin se muestra en la siguiente diapositiva.

Tecnolgico de Monterrey Campus

60

LINEARIZACION
ECUACIONES

Froylan Franco Herrera

(LINEALIZACIN)

DE

Por consiguiente el modelo del Gobierno Estatal puede tener un mejor ajuste
utilizando un polinomio de grado 2 o un polinomio de segundo orden.
Un Modelo Lineal
The regression equation is
Impuestos = - 302 + 159 Poblacin
Predictor
Constant
Poblaci
S = 76.38

Coef
-302.39
158.96

SE Coef
76.75
22.60

R-Sq = 86.1%

T
-3.94
7.04

P
0.004
0.000

R-Sq(adj) = 84.3%

Un Ajuste Cuadrtico
The regression equation is
Impuestos = 325 - 278 Poblacin + 67.7 Poblacin2
Predictor
Constant
Poblaci
Poblaci
S = 22.20

Coef
325.36
-277.98
67.692

SE Coef
70.63
47.10
7.226

R-Sq = 99.0%

T
4.61
-5.90
9.37

P
0.002
0.001
0.000

R-Sq(adj) = 98.7%

Ntese que R2 es
86.1%
(bastante
aceptable) con R2
del 84.3% y un
error estndar de
76.38%.
Si se utiliza un
modelo cuadrtico
tanto R2 como R2
y el error estndar
se
mejoran
respectivamente
99%, 98.7, 22.20%

Tecnolgico de Monterrey Campus

61

LINEARIZACION
ECUACIONES

(LINEALIZACIN)

Froylan Franco Herrera

DE

Un modelo alternativo para los modelos curvilineales puede lograrse mediante la


transformacin de los datos de alguna manera. Un mtodo comn implica el uso
de logaritmos. Esta transformacin logartmica puede hacer que los datos sean
lineales en el logaritmo.
Impuestos Poblacin Ln(Impuestos) Ln(Poblacin)
85
2.68
4.44265
0.98582
118
2.98
4.77068
1.09192
164
3.50
5.09987
1.25276
228
3.79
5.42935
1.33237
31
1.57
3.43399
0.45108
43
2.01
3.76120
0.69813
61
2.15
4.11087
0.76547
611
4.90
6.41510
1.58924
316
4.16
5.75574
1.42552
444
4.50
6.09582
1.50408

NOTA: Recurdese que el error


estndar es una medida de dispersin
de los valores de Yi alrededor de la
recta de regresin. Mide la variacin
de los puntos por encima y por
debajo de la recta de regresin.
Refleja la tendencia a desviarse del
valor real de Y cuando se utiliza el
modelo de regresin para fines
predictivos. En este sentido, es una
medida del error tpico.

The regression equation is


Ln(Impuestos) = 2.03 + 2.61 Ln(Poblacin)
Predictor
Constant
Ln(Pobla
S = 0.1680

Coef
2.0302
2.6147

SE Coef
0.1724
0.1478

R-Sq = 97.5%

T
11.78
17.69

P
0.000
0.000

Ntese
el
mejoramiento en el
error estndar de
slo 0.1680 y
R2=97.5 y R2=97.2

R-Sq(adj) = 97.2%

Tecnolgico de Monterrey Campus

62

LINEARIZACION
ECUACIONES

Froylan Franco Herrera

(LINEALIZACIN)

DE

Entonces si la poblacin que pagar impuestos ste ao es 3.2, el


ln(Poblacin)=1.16315

ln(Impuestos) 2.0302 2.6147(1.16315) 5.07149


Obteniendo el antilogaritmo de 5.07149, (e5.07149) el resultado es 159.4116739.
De esta forma como los datos estaban en miles de millones, el Gobierno del
Estado de Mxico puede esperar impuestos por alrededor de $159,411,673,900.00
Consideraciones:
Puede ser necesario experimentar con diferentes formas funcionales para
determinar cul proporciona el mejor ajuste. En la bsqueda del modelo ptimo,
los resultados de diferentes modelos logartmicos pueden compararse con los
obtenidos utilizando funciones polinmicas.
Sin embargo, los resultados de tales comparaciones pueden ser inconsistentes. Un
modelo puede reportar un coeficiente de determinacin ms alto que otro (lo cual
es bueno), mientras que lleva un error estndar de estimacin mayor (lo cual es
malo). La pregunta es cul modelo utilizar?

Tecnolgico de Monterrey Campus

63

LINEARIZACION
ECUACIONES

Froylan Franco Herrera

(LINEALIZACIN)

DE

La respuesta depende, al menos en parte, del propsito para el cual est destinado
el modelo. Si se desea utilizar el modelo para explicar los valores presentes de Y y
comprender por qu se comportan como lo hace, se utiliza el modelo con el
coeficiente de determinacin ms alto. Es decir, si el propsito es explicar,
entonces el modelo con el valor explicativo ms alto es el que debe utilizarse.
Si por otra parte, el propsito del modelo es predecir los valores futuros de Y, se
utiliza el modelo con el error estndar de estimacin ms bajo. Si se desea
predecir, se gozar de ms xito con el modelo que genera el menor error de
prediccin.
Sin embargo, tal experimentacin debera mantenerse al mnimo. Se considera
cuestionable, incluso no tico experimentar de forma salvaje con el modelo y
luego con el otro. Se debera saber desde el comienzo dada la naturaleza del
estudio de investigacin, qu procedimiento seguir. Con frecuencia se hace la
analoga de que buscar ciegamente el mejor modelo es similar a disparar una
flecha al objetivo y luego sacar el blanco del punto en donde cay la flecha.

Tecnolgico de Monterrey Campus

64

LINEARIZACION
ECUACIONES

Froylan Franco Herrera

(LINEALIZACIN)

DE

Finalmente, es de lamentarse que con frecuencia la eleccin de una trasformacin


apropiada no sea fcil de hacer. Entre las transformaciones a lo largo de una
escalera de poderes discutida por Tukey J.W. (1977. Exploratory Data Analysis.
Reading, Mass.:Addison-Wesley) estn las transformaciones de raz cuadrada, la
transformacin logartmica y la transformacin recproca. Si se aplicara una
transformacin de raz cuadrada a los valores de cada uno de las dos variables
explicatorias, el modelo de regresin sera:

Yi 0 1 X 1i 2 X 2i i
As mismo, si se hubiera aplicado una transformacin logartmica, el modelo sera:

Yi 0 1 ln X 1i 2 ln X 2i i
An ms, si se aplicara una transformacin recproca, el modelo sera:

1
1
Yi 0 1
2
i
X 1i
X 2i
Tecnolgico de Monterrey Campus

65

LINEARIZACION
ECUACIONES

Froylan Franco Herrera

(LINEALIZACIN)

DE

Adems, es interesante observar que en algunas situaciones el uso de una


transformacin puede cambiar lo que parece ser un modelo no lineal en uno lineal.
Por ejemplo, el modelo multiplicativo:

Yi 0 X 1i 1 X 2i 2i

Se puede transformar (tomando logaritmos naturales tanto de las variables


dependientes como de las independientes) en el modelo:

ln Yi ln 0 1 ln X 1i 2 ln X 2i ln i
Por consiguiente la ecuacin anterior, es lineal en los logaritmos naturales.
En forma muy similar el modelo exponencial:

Yi e 0 1 X 1i 2 X 2 ii

Tambin se puede transformar a la forma lineal (tomando logaritmos naturales


tanto de las variables dependientes como de las independientes). El modelo
resultante es:

ln Yi 0 1 X 1i 2 X 2i ln i
Tecnolgico de Monterrey Campus

66

Froylan Franco Herrera

Para examen...

Requisitos:
Calculadora cientfica
Tablas de t-Student y F
Tablas del estadstico de Durbin-Watson
Formulario
Del examen:
Planteamiento del problema
Desarrollo
Solucin
Interpretacin

Tecnolgico de Monterrey Campus

67

You might also like