Chapter 2

Conceptos Estadísticos
2.1 Funciones Aleatorias
Uno de los elementos más importantes de la econometría y estadística se
refiere al concepto de función o variable aleatoria. En esta sección se desar-
rollan los conceptos necesarios para entender a profundidad en qué consiste
una función o variable aleatoria, ilustrada con una serie de ejemplos.
Definición. Sea S un conjunto y sea S una familia de subconjuntos de S.
S se denomina σ-algebra si se dan tres condiciones.
1. ∅, S ∈ S
2. A ∈ S ⇒A
c
= SÂA ∈ S
3. A
n
∈ S, n = 1, 2, 3...., ⇒∪

n=1
A
n
∈ S
Ejercicio. S = {1, 2, 3, 4}. Evaluar si S = {∅, {1, 2, 3, 4}} es σ-algebra.
Este ejemplo muestra que la condición (1) se cumple. Además si A = {∅}
entonces vemos que su complemento A
c
= {{1, 2, 3, 4}} también pertenece a
S (condición 2). Por último, verificando la condición (3), si A
1
= ∅, A
2
=
{1, 2, 3, 4} entonces la unión de ambos conjuntos también pertenece al σ-
algebra: ∪
2
n=1
A
n
∈ S.¥
Ejercicio. S = {1, 2, 3, 4}. Evaluar si el conjunto S es σ-algebra: S =
{∅, {1}, {2}, {2, 3, 4}, {1, 3, 4}, {1, 2}, {3, 4}, {1, 2, 3, 4}}
3
4 CHAPTER 2 CONCEPTOS ESTADíSTICOS
Aquí se puede apreciar que las dos primeras condiciones se cumplen fá-
cilmente. Para el caso de la segunda condición, si por ejemplo se define
A = {2}, entonces su complemento A
c
está en el conjunto S y esto se dá para
todo conjunto potencial A. Cada uno de los ocho elementos que pertenecen a
S pueden ser operados con el operador Uni´ on para todo n, y siempre es posi-
ble verificar que dicha unión pertenece al conjunto S, el conjunto σ-algebra.¥
Ejercicio. S = {1, 2, 3, 4}. Evaluar si el conjunto S es σ-algebra: S =
{∅, {1}, {2}, {2, 3, 4}, {1, 3, 4}, {1, 2, 3, 4}}
Aquí se puede apreciar que las dos primeras condiciones se cumplen fá-
cilmente. Para el caso de la segunda condición, si por ejemplo se define
A = {2, 3, 4}, entonces su complemento A
c
está en el conjunto S y esto se
dá para todo conjunto potencial A. Cada uno de los seis elementos que
pertenecen a S pueden ser operados con el operador Uni´ on para todo n. En
este caso es posible verificar que dicha unión no siempre pertenece al conjunto
S, por ejemplo {1, 2} / ∈ S. Luego, el conjunto S no es σ-algebra.¥
Definición. Un par (S, S), conformado por un conjunto S y su σ-algebra
S de sus subconjuntos se denomina espacio medible. Cualquier conjunto
A ∈ S se denomina conjunto medible.
Definición. Sea A el conjunto de intervalos abiertos en < :
(−∞, b), (a, b), (a, +∞), (−∞, +∞)
Cada σ-algebra que contenga A debe también contener todos los inter-
valos cerrados (complementos). La menor σ-algebra que contenga todos los
conjuntos o intervalos abiertos se denomina Borel-algebra, y se denota por
B. Cualquier conjunto que pertenezca a B se denomina conjunto de Borel.
Definición. Sea (S, S) un espacio medible. Una medida es una función
real extendida µ : S →
¯
<, tal que se dan las siguientes tres condiciones
(
¯
< ≡ <∪ {−∞, +∞}):
1. µ(∅) = 0
2. µ(A) ≥ 0, ∀A ∈ S
3. Si {A
n
}

n=1
es un conjunto de secuencias disjuntas numerables (conta-
bles) en S, entonces µ(∪

n=1
A
n
) =
P

n=1
µ(A
n
).
2.1 FUNCIONES ALEATORIAS 5
Definición. Un espacio medida es una tripleta (S, S, µ), donde S es un
conjunto, S es el σ-algebra de sus subconjuntos, y µ es una medida definida
en S.
Definición. Si µ(S) = 1, entonces µ no se denomina medida sino que
medida de probabilidad, y la tripleta (S, S, µ) se denomina espacio de prob-
abilidad, en lugar de espacio de medida. Luego en este caso el conjunto
medible A ∈ S se denomina evento, y µ(A) se denomina probabilidad del
evento A. Aquí usualmente se cambia la notación a P(A), es decir la tripleta
es (S, S, P).
Definición. Dado un espacio medible (S, S), una función de valor real η
es medible con respecto a S, es decir es S-medible, si:
{ω ∈ S|η(ω) < x} ∈ S, ∀x ∈ < (2.1)
Si este espacio es un espacio de probabilidad, entonces η se denomina
VARIABLE ALEATORIA.
Ejemplo. Considere el conjunto S = {1, 2, 3, 4}, y el σ-algebra S =
{∅, {1}, {2}, {2, 3, 4}, {1, 3, 4}, {1, 2}, {3, 4}, {1, 2, 3, 4}}. Sea η : S → <,
donde:
η (1) = 20
η (2) = 5
η (3) = 6
η (4) = 7
Para verificar si η es una función medible, se debe analizar la condición
representada en la definición de lo que es una función medible:
Si x = 1 ⇒{ω ∈ S|η(ω) < x} = ∅ ∈ S
Si x = 6.5 ⇒{ω ∈ S|η(ω) < x} = {2, 3} / ∈ S
Si x = 7.5 ⇒{ω ∈ S|η(ω) < x} = {2, 3, 4} ∈ S
Luego dado que para x = 6.5 la condición no se cumple, entonces η no es
una función medible¥.
1
1
S hubiese sido el caso que η(3) = η(4) = c, para alguna constante c, entonces la función
η habría sido medible.
6 CHAPTER 2 CONCEPTOS ESTADíSTICOS
Finalmente, dado que {ω ∈ S|η(ω) < x} ∈ S, se le puede aplicar el
operador µ, puesto que µ : S →
¯
<, es decir:
µ({ω ∈ S|η(ω) < x}) ∈
¯
<
en donde si µ es una medida de probabilidad, entonces:
P ({ω ∈ S|η(ω) < x}) ∈ [0, 1]
2.2 Funciones de Distribución de Densidad
Toda variable aleatoria X puede ser representada a través de una función de
probabilidad de conjuntos, la cual en su representación contínua se denota
por:
P (A) =
Z
A
f (x) dx
o para el caso generalizado de un conjunto A con k = 1, 2, ..., K elementos:
P (A) =
Z
...
Z
A
f (x
1,
x
2,
x
3,
...x
K
) dx
1
dx
2
dx
3
...dx
K
La función de probabilidades asociada a un evento se puede represen-
tar por la figura N

2.1, donde el área sombreada denota la probabilidad de
ocurrencia del evento A = {X = x|a < x < b}, asociada a que la variable
aleatoria X tome un valor entre a y b.
Considerando que A ∈ S, las funciones de probabilidad son no negativas,
es decir f (x) ­ 0, y tienen la característica de que P(S) = 1, lo cual puede
ser representado por:
P (S) =
Z
S
f (x) dx = 1
o para el caso generalizado de un conjunto S con n elementos:
P (S) =
Z
...
Z
S
f (x
1,
x
2,
x
3,
...x
n
) dx
1
dx
2
dx
3
...dx
n
= 1
Ejemplo. Considere el evento A = {x|0 < x < 1}. Si f(x) = e
−x
,
entonces:
P (A) =
Z
A
f (x) dx =
Z
1
0
e
−x
dx = 1 −
1
e
¥
2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 7
Figure 2.1: Función de Distribución Univariada
Ejercicio. Sea la función de densidad f(x, y) =

6x
2
y si x ∈ (0, 1), y ∈ (0, 1)
0 en otro caso

.
La probabilidad de que ocurra el evento A =
©
(x, y)|0 < x <
3
4
,
1
3
< y < 2
ª
se denota por
R 3
4
0
R
1
1
3
6x
2
ydxdy =
3
8

2.2.1 Distribuciones Condicionales y Marginales
El teorema de Bayes que di existen dos eventos A y B, entonces P [A, B] =
P [A] · P [B|A] = P [B] · P [A|B] y que para el caso en que A,B son eventos
independientes, P [A, B] = P [A] · P [B].
De igual manera podemos analizar funciones de distribución contínuas. Si
por ejemplo x
1
, x
2
son v.a. con una función de distribución conjunta f (x
1
, x
2
)
entonces podemos definir a la función de distribución marginal de x
1
y de x
2
8 CHAPTER 2 CONCEPTOS ESTADíSTICOS
respectivamente como:
f
0
(x
1
) =
Z

−∞
f (x
1
, x
2
) dx
2
f
0
(x
2
) =
Z

−∞
f (x
1
, x
2
) dx
1
Dado la definición de la función de distribución marginal y en conjunto
con el teorema de Bayes, es posible definir la distribución para x
1
condicional
en x
2
, y la distribución para x
2
condicional en x
1
respectivamente como:
f (x
1
|x
2
) =
f (x
1
, x
2
)
f
0
(x
2
)
f (x
2
|x
1
) =
f (x
1
, x
2
)
f
0
(x
1
)
donde es posible verificar que
R

−∞
f (x
1
|x
2
) dx
1
=
R

−∞
f (x
2
|x
1
) dx
2
= 1:
Z

−∞
f (x
1
|x
2
) dx
1
=
Z

−∞
f (x
1
, x
2
)
f
0
(x
2
)
dx
1
=
1
f
0
(x
2
)
Z

−∞
f (x
1
, x
2
) dx
1
=
1
f
0
(x
2
)
· f
0
(x
2
)
= 1
Ejercicio. Si f (x
1
, x
2
) =

2, si 0 < x
1
< x
2
< 1
0 en otro caso

, entonces:
f
0
(x
1
) =
Z

−∞
f (x
1
, x
2
) dx
2
=
Z
1
x
1
2dx
2
= 2|
1
x
1
= 2 (1 −x
1
)
f
0
(x
2
) =
Z

−∞
f (x
1
, x
2
) dx
2
=
Z
x
2
0
2dx
1
= 2|
x
2
0
= 2x
2
f (x
1
|x
2
) =
f (x
1
, x
2
)
f
0
(x
2
)
=
2
2x
2
=
1
x
2
f (x
2
|x
1
) =
f (x
1
, x
2
)
f
0
(x
1
)
=
2
2 (1 −x
1
)
=
1
(1 −x
1
)
Z

−∞
f (x
1
|x
2
) dx
1
=
Z

−∞
2
2x
2
dx
1
=
1
x
2
(x
2
−0) = 1
Z

−∞
f (x
2
|x
1
) dx
2
=
Z

−∞
2
2 (1 −x
1
)
dx
2
=
1
(1 −x
1
)
(1 −x
1
) = 1¥
2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 9
2.2.2 Función Generadora de Momentos
La función generadora de momentos, si existe (condición de integrabilidad),
y dado que es única, permite obtener todos los momentos de una distribución
que sea factible generar. Para el caso en que tenemos X
1
, X
2
, ...., X
n
v.a.,
podemos definir a la función generadora de momentos M como:
M (φ
1
, φ
2
, ..., φ
n
) = E
£
e
φ
1
X
1

2
X
2
+...φ
n
X
n
¤
= E
£
e
φ
1
X
1
e
φ
2
X
2
...e
φ
n
Xn
¤
= E
£
e
φ
1
X
1
¤
E
£
e
φ
2
X
2
¤
.....E
£
e
φ
n
X
n
¤
= M (φ
1
) M (φ
2
) .....M (φ
n
)
= Π
n
i=1
M (φ
i
)
expresión válida si las v.a. son independientes entre sí.
Al deribar dos veces la función generadora de momentos con respecto al
parámetro φ
i
y evaluando tales deribadas en un vector de φ
i
= 0, se obtiene:
∂M (0, 0, ..., 0)
∂φ
i
= E[X
i
]

2
M (0, 0, ..., 0)
∂φ
2
i
= E
£
X
2
i
¤
de manera que la varianza de una v.a. X
i
se puede generar a partir de:
σ
2
=

2
M (0, 0, ..., 0)
∂φ
2
i

·
∂M (0, 0, ..., 0)
∂φ
i
¸
2
= E
£
X
2
i
¤
−[E[X
i
]]
2
2.2.3 Independencia Estocástica
Sean X
1
, X
2
, ...., X
n
v.a. Entonces serán estocásticamente independientes si
se da que la función f (x
1
, x
2
, ...., x
n
) que se denomina de verosimilitud, se
puede expresar como multiplicaciones de densidades marginales de cada v.a.,
es decir:
f (x
1
, x
2
, ...., x
n
) = f
0
(x
1
) f
0
(x
2
) ...f
0
(x
n
) = Π
n
i=1
f
0
(x
i
)
10 CHAPTER 2 CONCEPTOS ESTADíSTICOS
Ejercicio. Verifiquemos si X
1,
X
2
son estocásticamente independientes,
cuando la función de densidad conjunta está definida por:
f (x
1
, x
2
) =
½
x
1
+x
2
si 0 < x
1
< 1 y 0 < x
2
< 1
0 en otro caso
¾
En este caso tenemos que las funciones marginales serán:
f
0
(x
1
) =
½R
1
0
(x
1
+x
2
) dx
2
= x
1
+
1
2
si 0 < x
1
< 1
0 en otro caso
¾
f
0
(x
2
) =
½R
1
0
(x
1
+x
2
) dx
1
=
1
2
+x
2
si 0 < x
2
< 1
0 en otro caso
¾
Luego es posible verificar si f (x
1
, x
2
)
?
= f
0
(x
1
) f
0
(x
2
).
½
x
1
+x
2
si 0 < x
1
< 1 y 0 < x
2
< 1
0 en otro caso
¾
?
=
½
x
1
+
1
2
0
¾½
1
2
+x
2
0
¾
Claramente (x
1
+x
2
) 6=
¡
x
1
+
1
2
¢ ¡
1
2
+x
2
¢
, luego X
1
, X
2
NO son estocásti-
camente independientes.¥
2.2.4 Funciones de Distribución más Conocidas
Existen diversas formas funcionales para describir una variable aleatoria,
dependiendo primordialmente de si es contínua o discreta. A continuación se
detalla las principales funciones de probabilidades para variables aleatorias
discretas y continuas, presentando las principales características de cada una
de ellas.
2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 11
Table 2.1: Funciones de Distribución Discretas
Nombre Notación
Función FGM Media-Varianza
Binomial x ∼ b (n, p)
n!
x!(n−x)!
p
x
1
(1 −p
1
)
n−x
, x = 0, 1, 2, ....
[(1 −p
1
) +p
1
e
t
]
n
np
1
np
1
(1 −p
1
)
Trinomial x, y ∼ t (n, p
1
, p
2
)
n!
x!y!(n−x−y)!
p
x
1
p
y
2
(1 −p
1
−p
3
)
n−x−y
, x, y = 0, 1, 2, ....
[(1 −p
1
−p
2
) +p
1
e
t
1
+p
2
e
t
2
]
n
E[X]=np
1
E[Y ]=np
2
σ
2
x
=np
1
(1 −p
1
) σ
2
y
=np
2
(1 −p
2
)
Poisson x ∼ P (λ)
λ
x
e
−λ
x!
, x = 0, 1, 2, ....
e
λ(e
t
−1)
λ λ
Una de las funciones más utilizadas en econometría con el fin de testear
hipótesis sobre algun parámetro (o combinación lineal de parámetros) es la
t-Student. Como anécdota, W. S. Gossett fue quien descubrió esta distribu-
ción mientras trabajaba en la empresa de cervezas Guinness. Esta estipulaba
que no era permitido publicar el trabajo de los miembros de su equipo, lo
cual lo llevó a publicarla bajo el pseudónimo de Student. La siguiente figura
presenta una gráfica entre la normal estandarizada y una t-Student de 4 gra-
dos de libertad.
12 CHAPTER 2 CONCEPTOS ESTADíSTICOS
4 2 0 -2 -4
0.5
0.375
0.25
0.125
0
x
y
x
y
Función de Distribución N(0, 1) y t-Student con λ = 5 (azul)
Existen teoremas que permiten relacionar distintas funciones de distribu-
ción. Entre los más utilizados consideremos los siguientes:
Teorema. Si una v.a es generada por una función de distribución normal
estandarizada, entonces el cuadrado de esa variable se distribuye según una
chi-cuadrada con un grado de libertad. Es decir, analíticamente, si x˜N(0, 1)
enronces x
2
˜χ
2
(1).
Teorema. Si existe un vector de v.a cada una generada por una distribu-
ción χ
2
cada una con sus respectivos grados de libertad, entonces la suma
de ellas también posee una distribución chi-cuadrada y posee los grados de
libertad que resultan de sumar individualmente los grados de libertad de sus
componentes. Es decir, analíticamente, si x
1
˜χ
2
(r
1
), x
2
˜χ
2
(r
2
), x
3
˜χ
2
(r
3
),
...., y x
n
˜χ
2
(r
n
), entonces
P
n
i=1
x
i
˜χ
2
(
P
n
i=1
r
i
).
Ejercicio. Considere una función de distribución Poisson definida por:
f (x) =

λ
x
e
−λ
x!
para x = 0, 1, 2, .....
0 de otra manera

La función generadora de momentos para esta Poisson es:
M (t) =

X
x=0
λ
x
e
−λ
x!
e
tx
= e
−λ

X
x=0
(λe
t
)
x
x!
2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 13
y se sabe que
P

x=0
ϕ
x
x!
→e
ϕ
, entonces:
M (t) = e
−λ
e
λe
t
= e
λ
(
e
t
−1
)
=⇒

M
0
(0) = λ
M
00
(0) = λ +λ
2

=⇒σ
2
P
= λ
Dado lo anterior, si asumimos que λ = 2, entonces ¿ cuál es la probabili-
dad de que x ≥ 1?
P [X ≥ 1] = 1 −P [X = 0]
= 1 −f (0)
= 1 −
2
0
e
−2
0!
= 1 −e
−2
= 0.865
Siguiendo con la función de distribución Poisson, ¿ cuál es la probabilidad
de que X esté entre 0 y 8, excluyendo 0 y 8?
P [0 < X < 8] = P [X ≤ 7] −P [X = 0]
= 0.949 −0.018
= 0.931¥
Ejercicio. Si sabemos que:
x
1
˜N (µ
1
, σ
2
1
) =⇒M
x
1
(t) = e
µ
µ
1
t+
σ
2
1
t
2
2

x
2
˜N (µ
2
, σ
2
2
) =⇒M
x
2
(t) = e
µ
µ
2
t+
σ
2
2
t
2
2

entonces ¿cuál es la distribución de Y = X
1
+X
2
, si ambas son variables
estocásticamente independientes?
M
y
(t) = E
£
e
tY
¤
= E
£
e
t(X
1
+X
2
)
¤
= E
£
e
tX
1
¤
E
£
e
tX
2
¤
= e
µ
µ
1
t+
σ
2
1
t
2
2

e
µ
µ
2
t+
σ
2
2
t
2
2

= e
Ã

1

2
)t+
(
σ
2
1

2
2
)
t
2
2
!
=⇒ Y ˜N
¡
µ
1

2
, σ
2
1

2
2
¢
¥
14 CHAPTER 2 CONCEPTOS ESTADíSTICOS
Ejercicio. Si X˜N (0, 1), entonces ¿cuál es la distribución de Y = X
2
?
Para responder esta pregunta podemos partir de la función generadora de
momentos de Y :
M
y
(t) = E
£
e
tY
¤
= E
h
e
tX
2
i
=
Z

−∞
e
tx
2


e

x
2
2
dx
=
Z

−∞
1


e

(1−2t)x
2
2
dx
Mediante una transformación de variables z = x
p
(1 −2t), por lo tanto:
z
2
= x
2
(1 −2t)
dz = dx

1 −2t
es decir que:
M
y
(t) =
Z

−∞
1


e

z
2
2

1 −2t
dz
pero como
R

−∞
1


e

z
2
2
dz = 1, entonces:
M
y
(t) = (1 −2t)

1
2
Recordando que la función generadora de momentos para una chi-cuadrado
es
M
χ
2 (t) = (1 −2t)

r
2
entonces podemos decir que Y ˜χ
2
(1) .¥
Ejercicio. Sabemos que si V ˜χ
2
(r) y W˜N (0, 1), entonces T =
W

V
r
˜t (r).
Dado lo anterior, ¿cuál es la distribución de t
2
?
Sabemos que t
2
=
W
2
V
r
donde en numerador es χ
2
(1) y el numerador del
denominador sigue una χ
2
(r). ESto implica que la función t
2
sigue una
distribución Fisher, con grados de libertad 1 y r, es decir t
2
˜F (1, r) .¥
2.3 Momentos de una Distribución
Sea x una v.a. cuya pdf se representa por f(x).
Definición. La expectativa matemática de U(X) se representa por:
2.3 MOMENTOS DE UNA DISTRIBUCIÓN 15
E[U (X)] =
Z

−∞
U (x) f (x) dx =
X
x
U (x) f (x)
Para el caso de un vector de eventos X
1
, X
2
, X
3
, ..., X
n
se tiene que:
E[U (X
1
, X
2
, X
3
, ..., X
n
)] =
Z

−∞
.....
Z

−∞
U (x
1
, x
2
, x
3
, ..., x
n
)
f (x
1
, x
2
, x
3
, ..., x
n
) dx
1
dx
2
dx
3
....dx
n
Como tal, es posible demostrar que la expectativa matemática de una
poderación de v.a. es equivalente a la ponderación de las expectativas matemáti-
cas, es decir:
E
"
n
X
i=1
h
i
x
i
#
=
n
X
i=1
h
i
E[x
i
]
Ejercicio. Sea f (x) =

2 (1 −x) , x ∈ (0, 1)
0, x / ∈ (0, 1)

.
E[X] =
Z

−∞
xf (x) =
Z
1
0
2 (1 −x) dx =
1
3
E
£
X
2
¤
=
Z

−∞
x
2
f (x) =
Z
1
0
2x(1 −x) dx =
1
6
E
£
6X
2
+ 3X
¤
= 6E
£
X
2
¤
+ 3E[X] = 2¥
2.3.1 Media y Varianza
Los primeros momentos más comunes en el análisis de cualquier serie es
la media y la varianza (o desviación estándar). Utilizando la nomenclatura
anterior, es posible decir que para el caso especial donde U (X) = x, entonces
la media poblacional se define por, E[X] = µ, y si ahora U (X) = (X −µ)
2
,
entonces la varianza poblacional se definirá por: E
£
(X −µ)
2
¤
= σ
2
.
El cálculo de la varianza se simplifica al utilizar el siguiente resultado,
que indica que la varianza de una v.a es equivalente a la diferencia entre el
valor esperado del cuadrado de la variable y el cuadrado del valor esperado
16 CHAPTER 2 CONCEPTOS ESTADíSTICOS
de la variable, es decir:
σ
2
= E
£
(X −µ)
2
¤
= E
£
X
2
−2Xµ +µ
2
¤
= E
£
X
2
¤
−2µE[X] +µ
2
= E
£
X
2
¤
−{E[X]}
2
De esta última expresión se verifica por qué en el campo de las finanzas
es usual asumir que la varianza de los retornos de un activo son equivalentes
al promedio de los retornos históricos del activo, especialmente cuando se
trabaja con series de tiempo de alta frecuancia como pueden ser datos diarios.
Es común asumir que el valor esperado de un activo utilizando datos diarios
es nulo, de manera que tal aproximación es válida. En capítulos posteriores
se analizan aplicaciones cuando la volatilidad de los retornos de un activo
es variable y se modela a partir de los retornos históricos (véase modelos
GARCH).
2.3.2 Skewness
El tercer momento de una pdf se denomina skewness, y determina el grado
de asimetría que posee una distribución. Para el caso de funciones simétricas
como la normal o la t-student, este coeficiente es cero, y analíticamente se
representa por:
S
k
=
1

3
T
X
t=1
(x
i
−µ)
3
donde T representa al tamaño muestral.
Este indicador indica si la cola más larga de la distribución se encuentra
desviada hacia la derecha, centrada o desviada hacia la izquierda de la dis-
tribución. Si la cola más larga se encuentra hacia la izquierda (derecha) de
la distribución, el coeficiente de skewness será negativo (positivo) y se dirá
que la distribución es sesgada a la izquierda (derecha).
Como todo estimador, el coeficiente tiene su propia distribución que se
deriva asintóticamente, y que permite hacer inferencia con muestras finitas.
La distribución es una normal, con media cero y varianza 6/T, lo cual rep-
2.3 MOMENTOS DE UNA DISTRIBUCIÓN 17
resentamos para T = 20, 50, 100 por la función de densidad:
f (s) =
1
q

¡
6
T
¢
e
−0.5
³
s
2
6/T
´
S
k
a
˜N
µ
0,
6
T

2 1 0 -1 -2
1.5
1.25
1
0.75
0.5
0.25
0
x
y
x
y
Funciones de Distribución para el Coeficiente de Skewness: T = 20, 50, 100
La hipótesis nula H
0
: S
k
= 0 se evalúa a través de una tabla normal
estandarizada con el siguiente estadístico:
ˆ z
S
k
=
ˆ
S
k
q
6
T
˜N (0, 1)
En la medida que este estadístico sea superior en valor absoluto a 1.96 se
dirá que rechazamos la hipótesis nula de que el coeficiente de skewness tiene
un valor cero, es decir cumple con una de las características que posee una
distribución normal.
Una alternativa es trabajar con los valores de probabilidad, que entregan
el área bajo la curva evaluada desde el valor del estadístico ˆ z
S
k
y el infinito.
Si esta probabilidad P [ψ > ˆ z
S
k
] > α%, entonces diremos que rechazamos la
hipótesis nula con un α% de significancia.
18 CHAPTER 2 CONCEPTOS ESTADíSTICOS
2.3.3 Kurtosis
El cuarto momento se denomina kurtosis, y determina si las colas tienen una
masa o altura superior, igual, o inferior a la de una distribución normal. El
coeficiente de Kurtosis adopta un valor de 3 si las v.a. son generadas de una
normal, y analíticamente se representa por:
K =
1

4
T
X
t=1
(x
i
−µ)
4
La medida de referencia de este coeficiente para una distribución normal
es de 3 (mesokúrtica), de manera que si el estadístico es mayor que 3, entonces
la función tiene características de leptokurtosis (K > 3), mientras que si
la distribución tiene un coeficiente menor a 3, entonces esta se denomina
platykúrtica (K < 3).
La función de distribución del coeficiente de kurtosis es 1/
2
p
(2 · π · 24/100)·
exp
¡
−0.5 ·
¡
(x −3)
2
/ (24/100))
¢¢
f (s) =
1
q

¡
24
T
¢
e
−0.5
µ
(s−3)
2
24/T

K
a
˜N
µ
3,
24
T

2.3 MOMENTOS DE UNA DISTRIBUCIÓN 19
6 4 2 0
1
0.75
0.5
0.25
0
x
y
x
y
Funciones de Distribución para el Coeficiente de Kurtosis: T = 20, 50, 100
Para testear la hipótesis nula de que K = 3 debemos calcular el estadís-
tico:
ˆ z
K
=
ˆ
K −3
q
24
T
˜N (0, 1)
En la medida que este estadístico sea superior en valor absoluto a 1.96 se
dirá que rechazamos la hipótesis nula de que el coeficiente de kurtosis tiene
un valor de tres, es decir cumple con una de las características que posee una
distribución normal.
2.3.4 Test de Normalidad de Jarque-Bera
Tal como se menciona en la sección de funciones de distribución, si sumamos
dos funciones de distribución chi-cuadradas, la función resultante también
obedece a una distribución chi-cuadrada, teniendo los grados de libertad
que resultan de sumar los grados de libertad de las funciones de densidad
individuales.
Con este antecedente Jarque y Bera desarrollaron un estadístico que
evalúa en forma conjunta la hipótesis nula si el coeficiente de skewness y
Kurtosis toman valores de 0 y 3 respectiva y conjuntamente.
20 CHAPTER 2 CONCEPTOS ESTADíSTICOS
Para generar el estadístico requiero sumar el cuadrado de dos funciones
de distribución estandarizadas como son ˆ z
S
k
y ˆ z
K
:
(z
S
k
)
2
+ (z
K
)
2
˜χ
2
(2)
=⇒

¸
ˆ
S
k
q
6
T
¸

2
+

¸
ˆ
K −3
q
24
T
¸

2
˜χ
2
(2)
=⇒ JB =
T
6
·
ˆ
S
2
k
+
1
4
³
ˆ
K −3
´
2
¸
˜χ
2
(2)
Tal como se genera el estadístico cabe mencionar que este indicador tiene
una cota inferior en cero, es decir que no puede ser inferior a cero, de manera
que en la medida que se aleja de 0, ya sea porque el coeficiente de skewness
se aleja de 0 o porque el coeficiente de kurtosis difiere de 3, aumenta la
probabilidad de rechazar la hipótesis nula de que la distribución generadora
de los datos proviene de una distribución normal.
2.3.5 Aplicación: Indice Accionario NASDAQ
Utilizando datos diarios del índice NASDAQ desde el 5 de febrero de 1971
(fecha de su creación) al jueves 8 de marzo del año 2001, analicemos las
conclusiones que podemos obtener al analizar los cuatro primeros momentos
de la distribución de los retornos de este índicador. La figura N

2.2, elaborada
entrega los estadísticos relevantes para este análisis, junto con un histograma
de los retornos accionarios del NASDAQ.
El retorno promedio diario es de 0.044518% de manera que el retorno anu-
alizado (multiplicando por 240 días hábiles) corresponde a 10.68% promedio.
De igual manera la desviación estándar diaria del NASDAQ alcanza a 0.89%,
lo cual a tasa anualizada (multiplicando por

240 ) representa un 13.78%.
El coeficiente de skewness del −1.24 genera un estadístico z de:
ˆ z
S
k
=
−1.24
q
6
7106
= −42. 674
lo cual permite rechazar la hipótesis nula de que el coeficiente de skewness
es cero.
2.3 MOMENTOS DE UNA DISTRIBUCIÓN 21
0
500
1000
1500
2000
2500
-12.5 -10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5
Serie: Retornos del NASDAQ
Sample Febrero 1971 - Marzo 2001
Observations 7106
Media 0.044518
Mediana 0.109189
Máximo 7.086021
Mínimo -12.04784
Dev. St. 0.889491
Skewness -1.238488
Kurtosis 17.14976
Jarque-Bera 61097.15
Probabilidad 0.000000
Figure 2.2: Histograma y Estadísticos Básicos del NASDAQ
De igual manera el coeficiente de kurtosis que alcanza a 17.15, genera un
estadístico z de:
ˆ z
K
=
17.15 −3
q
24
7106
= 243. 48
es decir rechazamos con fuerza que los retornos puedan ser representados por
una función con coeficiente de kurtosis de 3. Las características de leptokur-
tosis son muy típicas de los retornor de precios de activos financieros. Gran
presencia de retornos alejados del centro de la distribución (outliers) posi-
tivos y negativos hacen que esta sea muy concentrada en la media y además
en los extremos de la distribución.
El test de Jarque-Bera viene a complementar este resultado. El estadístico
toma un valor de 61,097.15, lo cual claramente queda fuera del nivel crítico
de una chi-cuadrado con dos grados de libertad. La probabilidad que se
reporta es cercana a cero, indicando en este caso que la probabilidad de que
los retornos del NASDAQ provengan de una distribución normal es casi nula.
22 CHAPTER 2 CONCEPTOS ESTADíSTICOS
Código GAUSS: Estadísticos Descriptivos
Un código en GAUSS que se puede utilizar para generar el cálculo
de estos estadísticos se presenta a continuación (utilizando los datos
del NASDAQ):
load p[7107,1]=a:\nasdaq.txt;
r=ln(p./lag1(p))*100;
r=r[2:rows(r)];
”La Media es : ”;;meanc(r);
”La STDC es : ”;;stdc(r);
”La STDCs es : ”;;stdc(r)*sqrt((rows(r)-1)/rows(r));
”La Minc es : ”;;minc(r);
”La Maxc es : ”;;maxc(r);
s=1/(rows(r)*stdc(r)^3)*sumc((r-meanc(r))^3);
”La Skewness : ”;;s;
” El P-Value del Skewness es : ”;;cdfnc(abs(s));
k=1/(rows(r)*stdc(r)^4)*sumc((r-meanc(r))^4);
”La Kurtosis : ”;;k;
” El P-Value del Kurtosis es : ”;;cdfnc(abs(k));
jb=rows(r)/6*(s^2+.25*(k-3)^2);
” El Jarque-Bera Statistic es : ”;;jb;
” El P-Value del JB es :”;;cdfchic(jb,2);
2.4 Inferencia
Dado que no es posible conocer los valores de los parámetros poblacionales,
la econometría nos ayuda a obtener una aproximación de estos a través de
los parámetros estimados con al muestra disponible. El punto consiste en
tener una métrica para evaluar la exactitud de estos estimadores puntuales.
Sesgo, eficiencia y error cuadrático medio son tres propiedades que se pueden
estudiar para los estimadores.
2.4 INFERENCIA 23
2.4.1 Sesgo
Definición. Un estimador
ˆ
λ de un parámetro poblacional λ se dice insesgado
si su media muestral es λ. Es decir:
E
h
ˆ
λ
i
= λ
O alternativamente, si definimos sesgo como la diferencia entre el valor
esparado y el valor poblacional de un parámetro, entonces
ˆ
λ se dirá insesgado
si su sesgo es cero, es decir:
Sesgo
h
ˆ
λ|λ
i
= E
h
ˆ
λ −λ
i
= 0
Ejercicio. Demuestre que la definición para la varianza poblacional s
2
es
insesgada:
s
2
=
P
t=T
t=1
(x
t
− ¯ x)
2
T −1
Para demostrar esta proposición, es suficiente recordar que el siguiente
estadístico tiene una distribución chi-cuadrado con (T −1) grados de libertad,
es decir que:
(T −1)
s
2
σ
2
˜χ
2
(T −1)
Como el valor esperado de una chi-cuadrado es equivalente a sus grados de
libertad, es decir en este caso T − 1 (y la varianza es igual al doble de sus
grados de libertad, 2(T −1)), entonces dado que:
E
£
χ
2
(T −1)
¤
= (T −1)
=⇒ s
2
˜
σ
2
(T −1)
χ
2
(T −1)
=⇒ E
£
s
2
¤
=
σ
2
(T −1)
(T −1)
=⇒ E
£
s
2
¤
= σ
2
¥
es decir el valor esperado del estimador s
2
es insesgado pues su esperanza
matemática es igual al valor poblacional del parámetro analizado σ
2
.
24 CHAPTER 2 CONCEPTOS ESTADíSTICOS
2.4.2 Eficiencia
Puede darse el caso en que se tenga dos estimadores insesgados y sea necesario
decidir cuál se utilizará para hacer la estimación del parámetro poblacional.
Idealmente si tenemos dos estimadores insesgados "es mejor" escoger aquel
que es "más certero" en su estimación, es decir aquel que posee una distribu-
ción "más angosta" o centrada en su valor medio. Un concepto que está
ligado a este segundo momento de la distribución es el de eficiencia.
Definición. Un estimador insesgado
ˆ
λ
1
es más eficiente que otro estimador
insesgado
ˆ
λ
1
, si la varianza muestral del primer estimador es inferior a la
varianza muestral del segundo estimador. Es decir,
ˆ
λ
1
es más eficiente que
ˆ
λ
2
si:
V
³
ˆ
λ
1
´
< V
³
ˆ
λ
2
´
Sin embargo, existe la posibilidad de verse obligado a escoger entre dos
estimadores, uno de los cuales es insesgado pero de gran varianza, mientras
existe otro que está levemente sesgado pero es de menor varianza. Para
solucionar tal ambiguedad se ha desarrollado el concepto de Error Cuadrático
Medio (ECM), el cual pondera de manera equivalente el sesgo (al cuadrado)
y la varianza de los estimadores, de manera que uno puede descanzar en este
criterio para escoger el estimador que posee menor ECM.
Definición. El Error Cuadrático Medio (ECM) se define por:
ECM
³
ˆ
λ
´
= E
·
³
λ −
ˆ
λ
´
2
¸
= E
·
³
λ −E
³
ˆ
λ
´
+E
³
ˆ
λ
´

ˆ
λ
´
2
¸
= E
·
³
λ −E
³
ˆ
λ
´´
2
¸
+E
h
2
³
λ −E
³
ˆ
λ
´´³
E
³
ˆ
λ
´

ˆ
λ
´i
+
E
·
³
E
³
ˆ
λ
´

ˆ
λ
´
2
¸
= E
·
³
λ −E
³
ˆ
λ
´´
2
¸
+E
·
³
ˆ
λ −E
³
ˆ
λ
´´
2
¸
=
h
Sesgo
³
ˆ
λ
´i
2
+V arianza
³
ˆ
λ
´
Ejercicio. Los estimadores más conocidos para la varianza poblacional
2.4 INFERENCIA 25
son el s
2
y el estimador de máxima verosimilitud ˆ σ
2
MLE
. Analice las carac-
terísticas de los ambos estimadores:
s
2
=
P
t=T
t=1
(x
t
− ¯ x)
2
T −1
ˆ σ
2
MLE
=
P
t=T
t=1
(x
t
− ¯ x)
2
T
Es útil considerar que (T −1)
s
2
σ
2
˜χ
2
(T −1) de manera que analicemos
primero las características de sesgo de ambos estimadores:
s
2
˜
σ
2
(T−1)
χ
2
(T −1)
ˆ σ
2
MLE
˜
σ
2
T
χ
2
(T −1) =
(T−1)
T
s
2
Al aplicar operador expectativa podemos ver que el estimador ˆ σ
2
MLE
es ses-
gado mientras que s
2
es insesgado:
E[s
2
] = E
h
σ
2
(T−1)
χ
2
(T −1)
i
=
σ
2
(T−1)
E[χ
2
(T −1)] = σ
2
E
£
ˆ σ
2
MLE
¤
= E
h
σ
2
T
χ
2
(T −1)
i
=
(T−1)
T
E [s
2
] =
(T−1)
T
σ
2
< σ
2
E
£
ˆ σ
2
MLE
¤
< σ
2
= E[s
2
]
Esto nos indica que el sesgo de ˆ σ
2
MLE
es distinto de cero:
E
£
ˆ σ
2
MLE
−σ
2
¤
=
(T −1)
T
σ
2
−σ
2
=
−1
T
σ
2
< 0
Con respecto a la varianza de ambos estimadores, sabemos que la varianza
de una distribución chi-cuadrado es equivalente al doble de sus grados de
libertad, de manera que fácilmente podemos verificar el valor de las varianzas
para ambos estimadores:
V [s
2
] = V
h
σ
2
(T−1)
χ
2
(T −1)
i
=
³
σ
2
(T−1)
´
2
V [χ
2
(T −1)] =
³
σ
2
(T−1)
´
2
2 (T −1)
V
£
ˆ σ
2
MLE
¤
= V
h
σ
2
T
χ
2
(T −1)
i
=
³
(T−1)
T
´
2
V [s
2
] =
³
σ
4
T
2
´
2 (T −1)
V
£
ˆ σ
2
MLE
¤
< V [s
2
]
26 CHAPTER 2 CONCEPTOS ESTADíSTICOS
podemos constatar que la varianza del estimador ˆ σ
2
MLE
es menor a la
varianza del estimador insesgado s
2
, de manera que para escoger procedamos
a calcular el ECM de cada estimador, y el criterio consistiría en escoger aquel
estimador con menor ECM:
ECM (s
2
) =
³
σ
4
(T−1)
2
´
2 (T −1) = σ
4
h
2
(T−1)
i
ECM
¡
ˆ σ
2
MLE
¢
=
σ
4
T
2
+
³
σ
4
T
2
´
2 (T −1) = σ
4
£
2T−1
T
2
¤
Considerando que ECM
¡
ˆ σ
2
MLE
¢
< ECM (s
2
), vemos que el estimador ses-
gado es más preciso pues la menor varianza de este más que compensa la
ponderación que recibe el sesgo en la función ECM.¥
2.5 Generación de Números Aleatorios
2.5 GENERACIÓN DE NÚMEROS ALEATORIOS 27
Table 2.2: Funciones de Distribución Continuas
Nombre Notación
Función FGM Media-Varianza
Gamma x∼ Γ(α, β)
1
Γ(α)β
α
x
α−1
e
−x
β
, 0 < x < ∞
(1 −βt)
−α
αβ αβ
2
Exponencial x∼ Γ
¡
1,
1
λ
¢
λe
−λx
, 0 < x < ∞
¡
1 −
t
λ
¢
−1
1
λ
1
λ
2
Chi-Cuadrada x∼ χ
2
(r, θ)
1
Γ(
r
2
)2
r
2
x
r
2
−1
e
−x
2
, −∞< x < ∞
(1 −2t)

r
2
e

(1−2t)
r +θ 2r + 4θ
Normal x∼ N (µ, σ
2
)
1

2πσ
2
e

1
2
(x−µ)
2
σ
2
, −∞< x < ∞
e
³
µt+
σ
2
t
2
2
´
µ σ
2
T-Student t ∼ t(r)
T =
z∼N(0,1)
q
V ∼χ
2
(r)
r
0
r
r−2
F-Fisher F(r
1
, r
2
) F =
u∼χ
2
(r
1
)
r
1
v∼χ
2
(r
2
)
r
2
Part II
Modelos de Regresión
29
Chapter 3
Modelo con una Variable
Explicativa
3.1 Modelo Simple
El modelo de regresión simple con una variable explicativa la podemos rep-
resentar por:
y
t
= β
0

1
x
t

t
para todo t = 1, 2, ...., T (3.1)
Esta expresión se puede representar gráficamente considerando por ejem-
plo un modelo cuyo coeficiente de posición es 100 y cuya pendiente o coefi-
ciente de sensibilidad (semielasticidad) es 0.9, es decir para el modelo teórico
y = 100 + 0.9 · x.
31
32CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
5 2.5 0 -2.5 -5
104
102
100
98
96
x
y
x
y
Ecuación de la Lineal Recta: y = 100 + 0.9 · x
Dado que E[y
t
|x
t
] = β
0

1
x
t
entonces se puede decir que:
y
t
= E[y
t
|x
t
] +ε
t
En general toda variable puede descomponerse en una parte determinís-
tica y una estocástica ε. Una vez que estimamos el modelo poblacional con
datos muestrales llegamos a que la variable dependiente o endógena y
t
se
descompone en una parte estimada y un residuo muestral:
y
t
=
ˆ
β
0
+
ˆ
β
1
x
t
+e
t
ˆ y
t
=
ˆ
β
0
+
ˆ
β
1
x
t
y
t
= ˆ y
t
+e
t
e
t
= y
t

ˆ
β
0
+
ˆ
β
1
x
t
El método de los mínimos cuadrados ordinarios consiste en estimar los
coeficientes a través de un proceso de minimización de la siguiente función
de pérdida, conocida como la suma de los residuos al cuadrado (SRC):
$(β
0
, β
1
) =
t=T
X
t=1
e
2
t
=
t=T
X
t=1
³
y
t

ˆ
β
0

ˆ
β
1
x
t
´
2
3.1 MODELO SIMPLE 33
Analíticamente lo que el método de mínimos cuadrados hace es encontrar
un punto mínimo en la superficie de una cierta función $ encontrando el par
de coeficientes
ˆ
β
0
y
ˆ
β
1
a través restringir que el gradiente o las pendientes
de esta función es cero en ambas dimensiones. Graficamente se representa
por la siguiente función correspondiente al sigueinet problema cuto mínimo
se encuentra en el punto (0.005, 0.4158):
P
x
i
= 6
P
y
i
= 3
P
y
i
x
i
= 15
P
x
2
i
= 36
P
y
2
i
= 10 T = 100
Vizualización del Método de los Mínimos Cuadrados
Para esto se requiere de obtener las condiciones necesarias de primer orden
(CNPO) que correspponden a las primeras derivadas las cuales se igualan a
cero para generar un óptimo:
∂$(β
0
, β
1
)
∂β
0
= 0
∂$(β
0
, β
1
)
∂β
1
= 0
Según nuestro modelo estas ecuaciones se denominan ecuaciones normales
y se pueden escribir como:
34CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
−2
t=T
X
t=1
³
y
t

ˆ
β
0

ˆ
β
1
x
t
´
= 0
−2
t=T
X
t=1
x
t
³
y
t

ˆ
β
0

ˆ
β
1
x
t
´
= 0
o de manera equivalente y de más fácil recordación (al dividir por −2):
t=T
X
t=1
e
t
= 0
t=T
X
t=1
x
t
e
t
= 0
El número de ecuaciones normales es equivalente al número de incógnitas
del modelo, es decir el conjunto de parámetros a estimar. Utilizando una
representación extensiva de las ecuaciones normales, estas se pueden escribir
como:
t=T
X
t=1
y
t
= T
ˆ
β
0
+
ˆ
β
1
t=T
X
t=1
x
t
t=T
X
t=1
y
t
x
t
=
ˆ
β
0
t=T
X
t=1
x
t
+
ˆ
β
1
t=T
X
t=1
x
2
t
lo cual implica que la solución (en representación recursiva) de este sis-
tema es:
ˆ
β
0
=
P
t=T
t=1
y
t
T

ˆ
β
1
P
t=T
t=1
x
t
T
= ¯ y −
ˆ
β
1
¯ x
ˆ
β
1
=
P
t=T
t=1
(x
t
− ¯ x) (y
t
− ¯ y)
P
t=T
t=1
(x
t
− ¯ x)
2
=
P
t=T
t=1
(x
t
− ¯ x) y
t
P
t=T
t=1
(x
t
− ¯ x)
2
Ejercicio. A partir de la siguiente información para Y y X, determine los
estimadores mínimo cuadrados para β
0
y β
1.
Y 2 4 6 8 10
X 1 2 3 4 5
Claramente los valores estimados corresponden a
ˆ
β
0
= 0 y
ˆ
β
1
= 2.¥
3.1 MODELO SIMPLE 35
3.1.1 Aplicación: Betas Financieros en Indice DowJones
Consideremos los datos semanales (marzo 1994 a marzo 2001) del índice
de precios de acciones americano Dow Jones y a seis de sus componentes
(Citigroup, General Electric, Wal-Mart, Microsoft, Exxon, y Phillip Morris).
El parámetro estimado
ˆ
β
1
representa el coeficiente ”beta” que representa la
correlación que existe entre los retornos de una acción y el valor de mercado.
Analíticamente el modelo a estimar corresponde a:
(R
it
−R
ft
) = β
0

1
(R
DJt
−R
ft
) +ε
t
, ∀i = 1, 2, ...6, y ∀t.
donde R
it
corresponde al retorno en t de la acción i, R
ft
es la tasa libre
de riesgo, medida a través de la letra del tesoro americano a tres meses, y
R
DJt
es el retorno diario del Dow Jones en t.
Activo
ˆ
β
0
ˆ
β
1
Citigroup 0.135131 1.609109
General Electric 0.115481 1.205445
Wal-Mart 0.040995 1.150044
Microsoft 0.383609 0.941912
Exxon 0.077849 0.639781
Phillip Morris 0.110858 0.631160
La gran volatilidad relativa de la acción de Citigroup versus los retornos
del mercado se deduce de que el parámetro beta asociado alcanza un valor
de 1.61, es decir que si el Dow Jones cae en 2%, entonces el valor de las
acciones de Citigroup caerá en 3.2%, es decir un 61% adicional. De igual
manera si el Dow Jones sube en un 5% entonces la acción de Citigroup subirá
en un 8% aproximadamente. Esta característica hace que esta acción sea
altamente riesgosa y deba tener una baja (alta) ponderación en un portafolio
conservador (agresivo).
Phillip Morris tiende a ser la acción más estable en relación al mercado,
por lo que su porcentaje debiera ser alto (bajo) en un portafolio conservador
(agresivo).
36CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
3.2 Características del Modelo de Regresión
La metodología de la estimación de mínimos cuadrados, introduce ciertas
características a los residuos y estimaciones de la variable dependiente que
son interesantes de destacar.
3.2.1 Suma de residuos muestrales es nulo
La primera tiene que ver con que el valor medio de los residuos es nulo, lo
cual implica que la suma de los residuos es igual a cero.
t=T
X
t=1
e
t
= 0
Esta característica es bastante trivial pues se deduce de la misma metodología
de los mínimos cuadrados, la cual impone a través de su primera ecuación
normal que esta suma sea cero.
Si el modelo de regresión posee una constante entonces la primera derivada
parcial, o primera expresión de ecuación normal, indicará que la suma de los
residuos muestrales es cero. Sin embargo si el modelo no posee una constante
en su formulación, esta condición no necesariamente se cumplirá pues nunca
surge como condición necesaria de primer orden al no tener nunca que derivar
con respecto a este parámetro. Puede sin embargo darse el caso que la rep-
resentación de la data haga que este parámetro sea efectivamente cero, por
ejemplo si las series Y, X se entregan en forma de desviación de sus propias
medias, lo cual implicaría que la suma de estos residuos también lo será.
3.2.2 Las series actuales y estimadas tienen igual me-
dia
Esta característica se deduce de la noción que el valor actual de la variable
dependiente se puede descomponer en lo que estima el modelo y el residuo
3.2 CARACTERíSTICAS DEL MODELO DE REGRESIÓN 37
(lo que no estima el modelo):
y
t
= ˆ y
t
+e
t
=⇒
t=T
X
t=1
y
t
=
t=T
X
t=1
ˆ y
t
+
t=T
X
t=1
e
t
=⇒
1
T
t=T
X
t=1
y
t
=
1
T
t=T
X
t=1
ˆ y
t
+
1
T
t=T
X
t=1
e
t
pero como sabemos los residuos muestrales tienen una media de cero, es
decir su sumatoria es nula, luego:
1
T
t=T
X
t=1
y
t
=
1
T
t=T
X
t=1
ˆ y
t
=⇒ ¯ y =
_
ˆ y
Una implicania de esta condición es que la metodología de los mínimos
cuadrados hace que la curva de regresión que pasa a través de la nube de
puntos pase justo por el punto que representa a la media de X y la media de
Y .
3.2.3 Los residuos no se correlacionan con la variable
independiente
Sabemos que el coeficiente de correlación entre es
ρ
eX
=
P
t=T
t=1
(e
t
− ¯ e) (x
t
− ¯ x)
q
P
t=T
t=1
(e
t
− ¯ e)
2
q
P
t=T
t=1
(x
t
− ¯ x)
2
=
P
t=T
t=1
e
t
(x
t
− ¯ x)
q
P
t=T
t=1
(e
t
− ¯ e)
2
q
P
t=T
t=1
(x
t
− ¯ x)
2
Luego para verificar si el coeficiente de correlación muestral entre el
residuo y la variable independiente es nulo, bastaría con demostrar que la
covarianza entre ellos es nula tambien. Es así coo trabajando numéricamente
con el numerador se tiene:
t=T
X
t=1
e
t
(x
t
− ¯ x) =
t=T
X
t=1
e
t
x
t
− ¯ x
t=T
X
t=1
e
t
38CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
Pero como sabemos de las condiciones de ortogonalidad, las ecuaciones
normales para
ˆ
β
0
y
ˆ
β
1
nos indican que los residuos ponderados por unos y
por la variable independiente x suman cero, es decir:
t=T
X
t=1
e
t
= 0
t=T
X
t=1
x
t
e
t
= 0
luego podemos decir que
P
t=T
t=1
e
t
(x
t
− ¯ x) = 0, de manera que el coefi-
ciente de correlación es también cero: ρ
eX
= 0.
3.2.4 Los residuos no se correlacionan con la variable
dependiente estimada
Al igual que para el caso anterior, es suficiente analizar que el numerador de
la definición sea nulo, es decir:
ρ
eX
=
P
t=T
t=1
(e
t
− ¯ e) (ˆ y
t
− ¯ y)
q
P
t=T
t=1
(e
t
− ¯ e)
2
q
P
t=T
t=1
(ˆ y
t
− ¯ y)
2
=
P
t=T
t=1
e
t
(ˆ y
t
− ¯ y)
q
P
t=T
t=1
(e
t
− ¯ e)
2
q
P
t=T
t=1
(ˆ y
t
− ¯ y)
2
luego debemos analizar si
P
t=T
t=1
e
t
(ˆ y
t
− ¯ y) = 0.
Dado que ˆ y
t
=
ˆ
β
0
+
ˆ
β
1
x
t
, entonces podemos decir que:
t=T
X
t=1
e
t
ˆ y
t
− ¯ y
t=T
X
t=1
e
t
=
t=T
X
t=1
e
t
ˆ y
t
=
t=T
X
t=1
e
t
³
ˆ
β
0
+
ˆ
β
1
x
t
´
=
ˆ
β
0
t=T
X
t=1
e
t
+
ˆ
β
1
t=T
X
t=1
e
t
x
t
= 0
Esta última igualdad proviene de las dos ecuaciones normales arriba men-
cionadas:
P
t=T
t=1
e
t
= 0 y
P
t=T
t=1
e
t
x
t
= 0.
3.3 EVALUACIÓN DEL AJUSTE: R
2
39
3.3 Evaluación del Ajuste: R
2
Qué tan buen ajuste efectúa el modelo a los datos es la pregunta que con-
testa el coeficiente de determinación R
2
. Este explica que porcentaje de la
volatilidad de la variable dependiente es explicada por el modelo.
Para llegar a tal representación es necesario recordar que:
y
t
= ˆ y
t
+e
t
=⇒ y
t
=
ˆ
β
0
+
ˆ
β
1
x
t
+e
t
=⇒ y
t
=
z }| {
¯ y −
ˆ
β
1
¯ x+
ˆ
β
1
x
t
+e
t
=⇒ y
t
− ¯ y =
ˆ
β
1
(x
t
− ¯ x) +e
t
=⇒ (y
t
− ¯ y)
2
=
ˆ
β
2
1
(x
t
− ¯ x)
2
+e
2
t
+ 2
ˆ
β
1
(x
t
− ¯ x) e
t
=⇒
t=T
X
t=1
(y
t
− ¯ y)
2
=
ˆ
β
2
1
t=T
X
t=1
(x
t
− ¯ x)
2
+
t=T
X
t=1
e
2
t
+ 2
ˆ
β
1
t=T
X
t=1
(x
t
− ¯ x) e
t
pero sabemos que el término de la derecha
P
t=T
t=1
(x
t
− ¯ x) e
t
es igual a
cero, luego:
=⇒
t=T
X
t=1
(y
t
− ¯ y)
2
=
ˆ
β
2
1
t=T
X
t=1
(x
t
− ¯ x)
2
+
t=T
X
t=1
e
2
t
=⇒ SCT = SCE +SCR
=⇒ R
2
=
SCE
SCT
= 1 −
SCR
SCT
= 1 −
P
t=T
t=1
e
2
t
P
t=T
t=1
(y
t
− ¯ y)
2
De esta última expresión se puede concluir que el método de los mínimos
cuadrados lo que hace indirectamente es maximizar el R
2
de un modelo, pues
el denominador no es modificable ni dependiente del vector de parámetros
ˆ
β, de manera que exiete una dualidad en ambos objetivos, es decir Min
P
t=T
t=1
e
2
t
⇐⇒Max R
2
.
Adicionalmente n o es difícil demostrar que existe una equivalencia entre
el coeficiente de determinación y el coeficiente de correlación entre Y y X.
Para esto, recordemos que SCE =
ˆ
β
2
1
P
t=T
t=1
(x
t
− ¯ x)
2
y que el parámetro de
semielasticidad
ˆ
β
1
=
P
t=T
t=1
(xt−¯ x)(yt−¯ y)
P
t=T
t=1
(xt−¯ x)
2
, entonces reemplazando esta expresión
en la definición de R
2
llegamos a:
40CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
R
2
=
SCE
SCT
=
ˆ
β
2
1
P
t=T
t=1
(x
t
− ¯ x)
2
P
t=T
t=1
(y
t
− ¯ y)
2
=
=⇒ R
2
=
"
P
t=T
t=1
(x
t
− ¯ x) (y
t
− ¯ y)
P
t=T
t=1
(x
t
− ¯ x)
2
#
2 P
t=T
t=1
(x
t
− ¯ x)
2
P
t=T
t=1
(y
t
− ¯ y)
2
=⇒ R
2
=
h
P
t=T
t=1
(x
t
− ¯ x) (y
t
− ¯ y)
i
2
P
t=T
t=1
(x
t
− ¯ x)
2
P
t=T
t=1
(y
t
− ¯ y)
2
=⇒ R
2
=

P
t=T
t=1
(x
t
− ¯ x) (y
t
− ¯ y)
q
P
t=T
t=1
(x
t
− ¯ x)
2
q
P
t=T
t=1
(y
t
− ¯ y)
2
¸
¸
2
=⇒ R
2
= [ρ
Y X
]
2
Ejercicio. Considere la siguiente información generada de una base de
datos de coeficiente intelectual (variable y) y horas promedio de ver televisión
(variable exógena x) de un grupo de n = 50 adolecentes:
¯ y = 30 ¯ x = 15 n = 1, ..., 50
P
(y
i
− ¯ y)
2
= 200
P
(x
i
− ¯ x)
2
= 80
P
(x
i
− ¯ x) (y
i
− ¯ y) = −45
Se le pide computar el valor de los coeficientes considerando un modelo de
regresión lineal del tipo y
i
= β
0
+ β
1
x
i
+
i
. Adicionalmente obtenga el R
2
de la regresión estimada.
Para primero determinar el valor de los coeficientes debemos recordar las
fórmulas de ambos estimadores y de allí comenzar a reemplazar los datos que
se nos entregan en la matriz anterior:
ˆ
β
1
=
P
i=N
i=1
(x
i
− ¯ x) (y
i
− ¯ y)
P
i=N
i=1
(x
i
− ¯ x)
2
=
P
i=50
i=1
(x
i
− ¯ x) (y
i
− ¯ y)
P
i=50
i=1
(x
i
− ¯ x)
2

ˆ
β
1
=
−45
80
= −0.562 5
Reemplazando en la función que determina el coeficiente de posición
ˆ
β
0
:
ˆ
β
0
= ¯ y −
ˆ
β
1
¯ x

ˆ
β
0
= 30 −(−0.562 5) · 15 = 38. 438
3.4 SUPUESTOS BÁSICOS SOBRELOS RESIDUOS POBLACIONALES41
Ahora para calcular el coeficiente de deternminación R
2
debemos calcular la
razón de la suma de los cuadrados del modelo (o explicada) con la suma de
los cuadrados totales, es decir R
2
=
SCE
SCT
.
R
2
=
SCE
SCT
=
ˆ
β
2
1
P
i=50
i=1
(x
i
− ¯ x)
2
P
i=50
i=1
(y
i
− ¯ y)
2
= (−0.562 5)
2
·
80
200
= 0.126 56
Es decir el modelo explica solamente un 12.656% de la volatilidad de la
variable endógena o dependiente y, y la relación encontrada ˆ y = 38. 438
−0.562 5 · x, se puede representar por la siguiente gráfica:
5 2.5 0 -2.5 -5
41.25
40
38.75
37.5
36.25
x
y
x
y
Representación Gráfica del Modelo Estimado
3.4 Supuestos Básicos sobre los Residuos Pobla-
cionales
Un paso absolutamente necesario para hacer inferencia consiste en imponer
ciertos supuestos sobre los residuos poblacionales del modelo de regresión lin-
eal. Estos permitirán que las distribuciones resultantes nos permitan efectuar
diferentes tests de hipótesis a partir de las estimaciones de los coeficientes.
Consideremos el modelo
y
t
= β
0

1
x
t

t
42CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
La siguiente lista conforma los supuestos estándares que permitirán hacer
inferencia sin tener que correjir el modelo estimado, y que permite tener
estimadores insesgados y eficientes (consistentes):
1. Los errores teóricos tienen un valor esperado cero, es decir que de
existir una distribución para estos residuos, ella se asume centrada en cero:
E[ε
t
] = 0 ∀t
2. Existe homoscedasticidad de los residuos teóricos, de manera que la
varianza de los errores poblacionales es similar e independientemente de t:
V [ε
t
] = σ
2
∀t
3. No hay autocorrelación de los residuos, esto indica que los residuos
entre si son ortogonales:
Cov [ε
t
, ε
t±k
] = 0 ∀t y ∀k 6= 0
4. No hay correlación entre el residuo poblacional ε
t
y la variable exógena
x
t
, es decir con esto se impone una condición de ortogonalidad de los residuos
con la variable exógena:
Cov [x
t
, ε
t±k
] = 0 ∀t y ∀k
5. Finalmente el supuesto más importante se refiere a la necesidad de que
los residuos provengan de una distribución normal:
ε
t
˜N
Estas cinco condiciones se asumen presentes en un modelo de regresión
simple y se pueden resumir notacionalmente al decir que el residuo tiene una
distribución normal, idéntica, e independiente distribuida, con valor esperado
cero y varianza constante σ
2
. Es decir:
ε
t
iid
˜ N
¡
0, σ
2
¢
∀t
Estos supestos permitiran determinar cuál es la distribución de los esti-
madores mínimo cuadrados de manera de que podamos comenzar a evaluar
hipótesis que involucren a los parámetros poblacionales β
0
y β
1
.
3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 43
3.5 Distribución de los Estimadores
Partamos del supuesto general ya discutido que señala que ε
t
iid
˜ N (0, σ
2
) ∀t.
El procedimiento de determinación de las distribuciones de los estimadores
pasa por distorcionar o cambiar la forma de la distribución de los residuos
para así llegar finalmente a la distribución de β
0
y β
1
.
Entonces si modificamos la distribución por una constante β
0

1
x
t
(es
decir se traslada o "mueve" por una constante β
0

1
x
t
) se obtiene:
β
0

1
x
t

t
iid
˜ N
¡
β
0

1
x
t
, σ
2
¢
∀t
pero sabemos que y
t
= β
0
+ β
1
x
t
+ ε
t
lo cual indica que la distribución de
la variable endógena es equivalente a la distribución del residuo poblacional,
pero desplazada por una constante:
y
t
iid
˜ N
¡
β
0

1
x
t
, σ
2
¢
∀t
Esto indica que E [y
t
|X = x
t
] = β
0
+ β
1
x
t
pues el residuo tiene un valor
esperado de cero E[ε
t
] = 0.
Teniendo esto en cuenta recordemos que:
ˆ
β
1
=
P
t=T
t=1
(x
t
− ¯ x) (y
t
− ¯ y)
P
t=T
t=1
(x
t
− ¯ x)
2
=
P
t=T
t=1
(x
t
− ¯ x) y
t
P
t=T
t=1
(x
t
− ¯ x)
2
Si reemplazamos la definición de y
t
en el modelo y multiplicamos cada factor
se llega a:
ˆ
β
1
=
P
t=T
t=1
(x
t
− ¯ x) y
t
P
t=T
t=1
(x
t
− ¯ x)
2
=
P
t=T
t=1
(x
t
− ¯ x) (β
0

1
x
t

t
)
P
t=T
t=1
(x
t
− ¯ x)
2
=
= β
0
P
t=T
t=1
(x
t
− ¯ x)
P
t=T
t=1
(x
t
− ¯ x)
2

1
P
t=T
t=1
(x
t
− ¯ x) x
t
P
t=T
t=1
(x
t
− ¯ x)
2
+
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
Pero se puede demostrar que
P
t=T
t=1
(x
t
− ¯ x) = 0 y que
P
t=T
t=1
(x
t
− ¯ x) x
t
=
P
t=T
t=1
(x
t
− ¯ x)
2
, de manera que llegamos a que el estimador para
ˆ
β
1
se rep-
resenta por:
ˆ
β
1
= β
1
+
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
44CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
A partir de la expresión anterior es posible derivar los dos primeros mo-
mentos de este estimados, como una primera etapa antes de determinar es-
pecíficamente cuál es la función de distribución que la genera.
3.5.1 Sesgo
Sabemos que:
ˆ
β
1
= β
1
+
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
=⇒ E
h
ˆ
β
1
i
= E
"
β
1
+
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
#
=⇒ E
h
ˆ
β
1
i
= β
1
+E
"
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
#
=⇒ E
h
ˆ
β
1
i
= β
1
+
P
t=T
t=1
(x
t
− ¯ x) E[ε
t
]
P
t=T
t=1
(x
t
− ¯ x)
2
pues las covarianzas son nulas, entonces dado que el valor esperado del error
es cero se llega finalmente a que el estimador
ˆ
β
1
es un estimador insesgado
de β
1
:
E
h
ˆ
β
1
i
= β
1
3.5.2 Varianza
Al igual que en caso del sesgo, partimos de la ecuación fundamental que nos
señala que:
ˆ
β
1
= β
1
+
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
=⇒ V
h
ˆ
β
1
i
= V
"
β
1
+
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
#
=⇒ V
h
ˆ
β
1
i
= V [β
1
] +V
"
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
#
+ 2Cov
"
β
1
,
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
#
3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 45
sin embargo las covarianzas entre los errores y la variable exógena son nulas,
y además la varianza de una constante como β
1
también es nula, de manera
que:
V
h
ˆ
β
1
i
= V
"
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
#
=⇒ V
h
ˆ
β
1
i
=
V
h
P
t=T
t=1
(x
t
− ¯ x) ε
t
i
³
P
t=T
t=1
(x
t
− ¯ x)
2
´
2
=⇒ V
h
ˆ
β
1
i
=
P
t=T
t=1
(x
t
− ¯ x)
2
V [ε
t
]
³
P
t=T
t=1
(x
t
− ¯ x)
2
´
2
luego dado que por supuesto de homoscedasticidad V [ε
t
] = σ
2
entonces:
V
h
ˆ
β
1
i
=
P
t=T
t=1
(x
t
− ¯ x)
2
σ
2
³
P
t=T
t=1
(x
t
− ¯ x)
2
´
2
= σ
2
P
t=T
t=1
(x
t
− ¯ x)
2
³
P
t=T
t=1
(x
t
− ¯ x)
2
´
2
V
h
ˆ
β
1
i
= σ
2
1
P
t=T
t=1
(x
t
− ¯ x)
2
Con este procedimiento se ha demostrado entonces que:
ˆ
β
1
˜
Ã
β
1
, σ
2
1
P
t=T
t=1
(x
t
− ¯ x)
2
!
de igual manera para el estadístico
ˆ
β
0
:
ˆ
β
0
˜
Ã
β
0
, σ
2
"
1
T
+
¯ x
2
P
t=T
t=1
(x
t
− ¯ x)
2
#!
3.5.3 Gauss-Markov
Bajo las condiciones de Gauss-Markov, que indican ∀t:
(i) E[ε
t
] = 0,
(ii) V [ε
t
] = σ
2
,
(iii) Cov [ε
t
, ε
t+k
] = 0, ∀k 6= 0,
46CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
(iv) Cov [x
t
, ε
t+k
] = E[x
t
ε
t
] − ¯ xE[ε
t
] = E[x
t
ε
t
] = 0, ∀k = 0,
entonces los estimadores mínimo cuadrados, serán los mejores estimadores
lineales insesgados, es decir los estimadores que son una función lineal a la
data, insesgados y de menor varianza.
La demostración consiste en demostrar que un estimador que cumple con
estas condiciones, efectivamente es el estimador de mínimos cuadrados.
Demostración Teorema Gauss-Markov para
ˆ
β
1
Sabemos que el estimador de mínimos cuadrados para β
1
es:
ˆ
β
1
=
P
t=T
t=1
(x
t
− ¯ x) y
t
P
t=T
t=1
(x
t
− ¯ x)
2
=
t=T
X
t=1
˜ a
t
y
t
donde ˜ a
t
=
(xt−¯ x)
P
t=T
t=1
(x
t
−¯ x)
2
.
Supongamos que existe un estimador alternativo definido por:
ˆ
β
GM
1
=
t=T
X
t=1
a
t
y
t
La demostración consiste en encontrar a
t
y verificar que efectivamente
sea equivalente al ˜ a
t
definido en el estimador
ˆ
β
1
.
Que deba ser linela a la muestra significa que el potencial estimador debe
cumplir con la condición de que:
ˆ
β
GM
1
=
t=T
X
t=1
a
t
y
t
Utilizando la definición del modelo y
t
= β
0
+ β
1
x
t
+ ε
t
, podemos generar la
restricción de insesgamiento requerido:
ˆ
β
GM
1
=
t=T
X
t=1
a
t
y
t
=
t=T
X
t=1
a
t

0

1
x
t

t
)
ˆ
β
GM
1
= β
0
t=T
X
t=1
a
t

1
t=T
X
t=1
a
t
x
t
+
t=T
X
t=1
a
t
ε
t
E
h
ˆ
β
GM
1
i
= β
0
t=T
X
t=1
a
t

1
t=T
X
t=1
a
t
x
t
3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 47
pues
P
t=T
t=1
a
t
ε
t
=
P
t=T
t=1
a
t
E [ε
t
] = 0. Luego las condiciones de insesgamiento
serán que:
t=T
X
t=1
a
t
= 0
t=T
X
t=1
a
t
x
t
= 1
Ya hemos exigido a nuestro potencial estimador que sea lineal e insesgado,
y lo que queda ahora es exigir que sea el ”mejor”, es decir el de menor varianza
disponible. Para esto definamos la varianza del estimador
ˆ
β
GM
1
:
V
h
ˆ
β
GM
1
i
= V
"
β
0
t=T
X
t=1
a
t

1
t=T
X
t=1
a
t
x
t
+
t=T
X
t=1
a
t
ε
t
#
=
t=T
X
t=1
a
2
t
V [ε
t
]
= σ
2
t=T
X
t=1
a
2
t
Luego el problema se reduce a encontrar el parámetro a
t
que cumpla
con las condiciones de insesgamiento y de mínima varianza, problema que
podemos representar por:
Min
t=T
X
t=1
a
2
t
s.a.
t=T
X
t=1
a
t
= 0
t=T
X
t=1
a
t
x
t
= 1
El lagrangeano asociado a este problema será:
$
{a
t
,λ,µ}
=
t=T
X
t=1
a
2
t

t=T
X
t=1
a
t

Ã
1 −
t=T
X
t=1
a
t
x
t
!
48CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
Las condiciones necesarias de primer orden (CNPO) son:
∂$
∂a
t
= 2a
t
+λ −µx
t
= 0
∂$
∂λ
=
t=T
X
t=1
a
t
= 0
∂$
∂µ
= 1 −
t=T
X
t=1
a
t
x
t
= 0
De la primera CNPO podemos decir que:
2a
t
x
t
+λx
t
−µx
2
t
= 0
=⇒ 2
t=T
X
t=1
a
t
x
t

t=T
X
t=1
x
t
−µ
t=T
X
t=1
x
2
t
= 0
=⇒ 2 +λ
t=T
X
t=1
x
t
−µ
t=T
X
t=1
x
2
t
= 0
Además sumando directamente sobre la primera CNPO se tiene:
2
t=T
X
t=1
a
t
+Tλ −µ
t=T
X
t=1
x
t
= 0
pero como
P
t=T
t=1
a
t
= 0, entonces:
λ = µ¯ x
Reemplazando esta última expresión en:
2 +λ
t=T
X
t=1
x
t
−µ
t=T
X
t=1
x
2
t
= 0
2 +µ¯ x
t=T
X
t=1
x
t
−µ
t=T
X
t=1
x
2
t
= 0
=⇒ µ =
2
P
t=T
t=1
x
2
t
−T ¯ x
2
3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 49
luego dado que 2a
t
+λ −µx
t
= 0 entonces reemplazando para µ llegamos a:
a
t
=
µx
t
−λ
2
=
µ
2
(x
t
− ¯ x)
a
t
=
(x
t
− ¯ x)
P
t=T
t=1
x
2
t
−T ¯ x
2
=
(x
t
− ¯ x)
P
t=T
t=1
(x
t
− ¯ x)
2
Queda así demostrado que el estimador que cumple con las condiciones de
Gauss-Markov es el estimador de mínimos cuadrados ordinarios.¥
3.5.4 Normalidad
A partir del supuesto de normalidad de los residuos es posible determinar la
distribución que adoptan los estimadores mínimo cuadrado. Sabemos que:
ε
t
˜N
¡
0, σ
2
¢
/ (x
t
− ¯ x)
(x
t
− ¯ x) ε
t
˜N
¡
0, (x
t
− ¯ x)
2
σ
2
¢
/
t=T
X
t=1
t=T
X
t=1
(x
t
− ¯ x) ε
t
˜N
Ã
0,
t=T
X
t=1
(x
t
− ¯ x)
2
σ
2
!
/
1
P
t=T
t=1
(x
t
− ¯ x)
2
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
˜N

¸
0, σ
2
"
1
P
t=T
t=1
(x
t
− ¯ x)
2
#
2
t=T
X
t=1
(x
t
− ¯ x)
2
¸

P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
˜N
Ã
0,
σ
2
P
t=T
t=1
(x
t
− ¯ x)
2
!
/ +β
1
β
1
+
P
t=T
t=1
(x
t
− ¯ x) ε
t
P
t=T
t=1
(x
t
− ¯ x)
2
˜N
Ã
β,
σ
2
P
t=T
t=1
(x
t
− ¯ x)
2
!
ˆ
β
1
˜N
Ã
β
1
,
σ
2
P
t=T
t=1
(x
t
− ¯ x)
2
!
Siguiendo igual procedimiento para el estimador
ˆ
β
0
podemos resumir la
distribución multinormal del vector de estimadores del modelo de regresión
simple como:
µ
ˆ
β
0
ˆ
β
1

˜N

¸
·
β
0
β
1
¸
,

σ
2
h
1
T
+
¯ x
2
P
t=T
t=1
(xt−¯ x)
2
i

σ
2
¯ x
P
t=T
t=1
(xt−¯ x)
2

σ
2
¯ x
P
t=T
t=1
(x
t
−¯ x)
2
σ
2
P
t=T
t=1
(x
t
−¯ x)
2
¸
¸
¸

50CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
Pero aquí surge el primer problema al querer efectuar un análisis inferen-
cial. Se desconoce la varianza del error σ
2
.
Dado que el residuo tiene una distribución ε
t
˜N (0, σ
2
), entonces sabe-
mos que σ
2
= E [ε
2
t
] − (E[ε
t
])
2
= E[ε
2
t
]. Luego parecería natural que el
estimador de la varianza fuera ˆ σ
2
=
P
t=T
t=1
ε
2
t
T
. Sin embargo este estimador
no cumple con la condición de insesgamiento. Recordemos que el estadístico
(T −k)
s
2
σ
2
˜χ
2
(T −k). Entonces s
2
˜
σ
2
(T−k)
χ
2
(T −k), lo cual implicará que
dado que el valor esperado de una función de distribución chi-cuadrada es
equivalente a sus grados de libertad, entonces:
E
£
s
2
¤
= E
·
σ
2
(T −k)
χ
2
(T −k)
¸
E
£
s
2
¤
=
σ
2
(T −k)
E
£
χ
2
(T −k)
¤
E
£
s
2
¤
=
σ
2
(T −k)
(T −k)
E
£
s
2
¤
= σ
2
Luego el estadístico s
2
=
P
t=T
t=1
e
2
t
T−k
será un estimador insesgado de la varianza
poblacional σ
2
. El costo de utilizar un estimador para la varianza poblacional
consiste en que ya no es posible teóricamente utilizar la distribución normal
para hacer inferencia.
Recordemos que si tenemos dos variables aleatorias independientes z˜N (0, 1)
y V ∼ χ
2
(r), entonces la razón
z

V
r
tiene una distribución t de student con
r grados de libertad. Es decir en nuestro caso tenemos:
t
β
1
=
ˆ
β
1
−β
1
r
σ
2
P
t=T
t=1
(x
t
−¯ x)
2
r
(T−k)
s
2
σ
2
(T−k)
t
β
1
=
ˆ
β
1
−β
1
q
s
2
P
t=T
t=1
(x
t
−¯ x)
2
˜t (T −2)
De igual manera para
ˆ
β
0
:
3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 51
t
β
0
=
ˆ
β
0
−β
0
s
σ
2
·
1
T
+
¯ x
2
P
t=T
t=1
(x
t
−¯ x)
2
¸
r
(T−k)
s
2
σ
2
(T−k)
t
β
0
=
ˆ
β
0
−β
0
r
s
2
h
1
T
+
¯ x
2
P
t=T
t=1
(x
t
−¯ x)
2
i
˜t (T −2)
Este estadístico nos permite hacer inferencia respecto al valor que toma
el parámetro estimado
ˆ
β
0
y
ˆ
β
1
. Además podemos construir intervalos de
confianza para los parámetros a partir de un nivel de significancia subjetivo γ
y de las estimaciones de varianzas de los parámetros. Por ejemplo si definimos
como la desviación estándar estimada del parámetro estimado
ˆ
β
0
como ˆ σ
ˆ
β
0
,
entonces el intervalo de confianza para β
0
será:
β
0

ˆ
β
0
±|t
γ
| ˆ σ
ˆ
β
0
Es decir:
ˆ
β
0
−|t
γ
| ˆ σ
ˆ
β
0
≤ β
0

ˆ
β
0
+|t
γ
| ˆ σ
ˆ
β
0
De igual manera para el parámetro β
1
se tiene:
ˆ
β
1
−|t
γ
| ˆ σ
ˆ
β
1
≤ β
1

ˆ
β
1
+|t
γ
| ˆ σ
ˆ
β
1
3.5.5 Areas de Confianza
Dado que sabemos que
µ
ˆ
β
0
ˆ
β
1

˜N
µ·
β
0
β
1
¸
, σ
2
(x
0
x)
−1

donde C = (x
0
x)
−1
es una matriz simétrica y definida positiva, entonces
existe una matriz P que cumple con la condición C
−1
= P
0
P.
Definamos las variables z
1
y z
2
como:
·
z
0
z
1
¸
= P
·
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¸
52CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
entonces la varianza del vector será:
V
·
z
0
z
1
¸
= PV
·
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¸
P
0
V
·
z
0
z
1
¸
= Pσ
2
CP
0
como C
−1
= P
0
P =⇒C = P
−1
(P
0
)
−1
, entonces:
V
·
z
0
z
1
¸
= Pσ
2
CP
0
= Pσ
2
³
P
−1
(P
0
)
−1
´
P
0
= σ
2
I
lo que nos indica que
z
0
σ
˜N (0, 1) y
z
1
σ
˜N (0, 1). Es decir que z
0
˜N (0, σ
2
) y
z
1
˜N (0, σ
2
), de manera que los cuadrados de estos estadísticos obedecen a
una distribución chi-cuadrada con un grado de libertad:
½
z
2
0
˜σ
2
χ(1)
z
2
1
˜σ
2
χ(1)
¾
=⇒
¡
z
2
0
+z
2
1
¢
˜σ
2
χ(2)
Trabajando este concepto matricialmente llegamos a que:
h
z
0
z
1
i

z
0
z
1
¸
¸
=
·
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¸0
P
0
P
·
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¸
=
·
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¸0
C
−1
·
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¸
˜σ
2
χ(2)
Dado que desconocemos σ
2
la estimamos a través de s
2
, lo cual nos obliga a
utilizar una distribución alternativa para el test o creación del átrea de confi-
anza. Como (T −k) s
2
˜σ
2
χ
2
(T −k), entonces la razón de dos chi-cuadradas
ponderadas por sus grados de libertad genera una F de Fisher:
ϕ =
[
ˆ
β
0
−β
0
ˆ
β
1
−β
1
]
0
C
−1
[
ˆ
β
0
−β
0
ˆ
β
1
−β
1
]

2
(T−k)s
2
σ
2
(T−k)
=
£
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¤0
C
−1
£
ˆ
β
0
−β
0
ˆ
β
1
−β
1
¤
2s
2
˜F (2, T −k)
3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 53
La región o área de confianza es equivalente a:
P (ϕ < F
α
) = 1 −α
y estará definido por la siguiente ecuación de la elipse:
ϕ = a
00
³
ˆ
β
0
−β
0
´
2
+a
11
³
ˆ
β
1
−β
1
´
2
+ 2a
01
³
ˆ
β
0
−β
0
´³
ˆ
β
1
−β
1
´
con a
ij
=
C
−1
ij
2s
2
=
1
2s
2
(x
0
x)
−1
ij
.
Ejercicio. Consideremos un modelo que entrega los siguientes resulta-
dos como producto del proceso de estimación de una base de datos de 100
observaciones:

ˆ
β
0
ˆ
β
1
¸
¸

1.45
0.84
¸
¸
con una matriz de varianzas y covarianzas estimada para los parámetros de:
ˆ
Σ
ˆ
β
=

0.136 31 −0.171 48
−0.171 48 0.266 04
¸
¸
La inversa de la matriz de varianzas y covarianzas estimada de los parámet-
ros estimados obtenida será:
ˆ
Σ
−1
ˆ
β

ˆ
V

¸
ˆ
β
0
ˆ
β
1
¸

¸
¸
−1
=

38.8 25.01
25.01 19.88
¸
¸
Como sabemos que la expresión para calcular la región o área de confianza es
ϕ = a
00
³
ˆ
β
0
−β
0
´
2
+ a
11
³
ˆ
β
1
−β
1
´
2
+ 2a
01
³
ˆ
β
0
−β
0
´³
ˆ
β
1
−β
1
´
, entonces
reemplacemos los valores que se obtienen de los cálculos anteriores, con-
siderando un nivel de significancia del 95% y 99%, para T − k = 100 − 2
grados de libertad, es decir para F
0.95
(2, 98)

= 2.9 y F
0.99
(2, 98)

= 4.4.
1
2
£
38.8 (1.45 −β
0
)
2
+ 19.88 (0.84 −β
1
)
2
+ 2 · 25.01 (1.45 −β
0
) (0.84 −β
1
)
¤
= 2.9
1
2
£
38.8 (1.45 −β
0
)
2
+ 19.88 (0.84 −β
1
)
2
+ 2 · 25.01 (1.45 −β
0
) (0.84 −β
1
)
¤
= 4.4
54CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
Si desearamos evaluar la hipótesis puntual de que ambos estimadores sumaran
por ejemplo 2, es decir si H
0
: β
0

1
= 2, entonces podemos vizualizar dicha
hipótesis en el gráfico incorporando la ecuación β
0

1
= 2 en la figura sigu-
iente. Si esta pasa por la región de confianza entonces no rechazamos la
hipótesis. La elipse más grande representa el área de confianza del 99%
mientras que la elipse concentrica interior representa el área de 95%.
3 2.5 2 1.5 1 0.5 0
3
2
1
0
-1
Beta 0
Beta 1
Beta 0
Beta 1
Areas de 95 y 99% de Confianza para β
0
, β
1
.
Ejercicio. A partir de estimar el siguiente modelo de regresión Y =
Xβ +ε, y considerando la siguiente información:
e
0
e = 100
T = 70
x
0
x =

50 0
0 50
¸
¸
x
0
y =

0
300
¸
¸
Encuentre analítica y gráficamente el intervalo de confianza del 95% para
los coeficientes (β
0
, β
1
). A la luz de su figura, ¿rechazaría la hipótesis H
0
:
3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 55
β
0

1
= 0?
El área de confianza se obtiene de aplicar la fórmula:
F =
1
2
³
ˆ
β −β
´
0
h
ˆ
V
³
ˆ
β
´i
−1
³
ˆ
β −β
´
∼ F
95%
(2, T −k)
Para esto requerimos de los estimadores de los parámetros y de la matriz de
varianzas y covarianzas estimada de estos parámetros:
ˆ
β = (x
0
x)
−1
x
0
y =

¸
50 0
0 50
¸

−1

¸
0
300
¸

=

¸
0.0
6.0
¸

ˆ
V
³
ˆ
β
´
=
e
0
e
T −k
(x
0
x)
−1
=
140
72 −2

¸
50 0
0 50
¸

−1
=

¸
0.04 0.0
0.0 0.04
¸

Luego aplicamos la fórmula:
F =
1
2
³
ˆ
β −β
´
0
h
ˆ
V
³
ˆ
β
´i
−1
³
ˆ
β −β
´
∼ F
95%
(2, T −k)
F =
1
2
³
0 −β
1
6 −β
2
´

¸
0.04 0.0
0.0 0.04
¸

−1

¸
0 −β
1
6 −β
2
¸

F =
1
2
³
0 −β
1
6 −β
2
´

¸
25.0 0.0
0.0 25.0
¸

¸
0 −β
1
6 −β
2
¸

F = 12. 5β
2
1
+ 12.5(6 −β
2
)
2
= 3.13 = F
95%
(2, 70)
Esta es la ecuación de un circulo que está centrado en las ordenadas (0, 6).
Recordemos que la fórmula del círculo es:
(
ˆ
β
1
−β
1
)
2
+ (
ˆ
β
2
−β
2
)
2
= r
2
lo cual aplicado a nuestro problema será:
12.5β
2
1
+ 12.5(6 −β
2
)
2
= 3.13
β
2
1
+ (6 −β
2
)
2
=
3.13
12.5
= 0.250 4 = 0.5004
2
56CHAPTER3 MODELOCONUNAVARIABLEEXPLICATIVA
De manera que el radio de esta circunferencia será de 0.500 40 para una área
de confianza generada con 95%. El círculo concentrico exterior se generó con
un nivel de confianza del 99%:
F = 12. 5β
2
1
+ 12.5(6 −β
2
)
2
= 4.92 = F
99%
(2, 70)
1 0.5 0 -0.5 -1
7
6.5
6
5.5
5
x
y
x
y
Gráfico de la Elipse (Círculo)
5 2.5 0 -2.5 -5
5
2.5
0
-2.5
-5
x
y
x
y
Gráfico de la Restricción o Hipótesis Nula
Con respecto al análisis de la hipótesis nula, desde un punto de vista gráfico,
dado que la recta que representa a la hipótesis nula β
0
= β
1
no pasa cerca
del área de confianza calculado, locual nos haría rechazar la hipótesis nula.
Chapter 4
Modelo de Regresión Múltiple
El modelo de regresión múltiple permite estudiar la relación existente entre
una variable dependiente y y un conjunto k −1 de variables independientes
o exógenas, además de la constante. Su forma general se representa por:
y
t
= β
1

2
x
2t

3
x
3t
+... +β
k
x
kt

t
Los supuestos asociados a este modelo difieren levemente del caso simple,
y se presentan a continuación:
1. Los errores teóricos tienen un valor esperado cero:
E [ε
t
] = 0
E[ε] = E

ε
1
ε
2
...
ε
T
¸
¸
¸
¸
¸
¸
¸
¸
Tx1
=

E [ε
1
]
E [ε
2
]
...
E[ε
T
]
¸
¸
¸
¸
¸
¸
¸
¸
=

0
=⇒ E [Y ] = Xβ
2. Existe homoscedasticidad y no autocorrelación de los residuos teóricos,
de manera que la varianza de los errores poblacionales es similar V [ε
t
] = σ
2
,
Cov [ε
t
, ε
t±k
] = 0. Matricialmente recordemos que dado el supuesto (1),
57
58 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
entonces la matriz de varianzas y covarianzas puede representarse por:
E[εε
0
] = E

ε
1
ε
1
ε
1
ε
2
ε
1
ε
3
... ε
1
ε
T
ε
2
ε
1
ε
2
ε
2
... ... ε
2
ε
T
ε
3
ε
1
... ... ... ε
3
ε
T
... ... ... ... ...
ε
T
ε
1
... ... ... ε
T
ε
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

E[ε
1
ε
1
] E[ε
1
ε
2
] E[ε
1
ε
3
] ... E [ε
1
ε
T
]
E[ε
2
ε
1
] E[ε
2
ε
2
] ... ... E [ε
2
ε
T
]
E[ε
3
ε
1
] ... ... ... E [ε
3
ε
T
]
... ... ... ... ...
E [ε
T
ε
1
] ... ... ... E [ε
T
ε
T
]
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

σ
2
0 0 ... 0
0 σ
2
... ... 0
0 ... ... ... 0
... ... ... ... ...
0 ... ... ... σ
2
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
= σ
2
I
T
Una manera alternativa de analizar estos dos supuestos es utilizando la de-
scomposición matricial de la matriz de varianzas y covarianzas. Esta se
conforma de tres matrices:
E[εε
0
] = ΣΘΣ
59
donde cada matriz se define por:
Σ =

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Θ =

1 ρ
1,2
... ρ
1,T−1
ρ
1,T
ρ
2,1
1 ρ
2,T
... ... ...
ρ
T−1,1
... ...
ρ
T,1
ρ
T,2
... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Luego se puede escribir la anterior expresión como:
E [εε
0
] =

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

1 ρ
1,2
... ρ
1,T−1
ρ
1,T
ρ
2,1
1 ρ
2,T
... ... ...
ρ
T−1,1
... ...
ρ
T,1
ρ
T,2
... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Al asumir homoscedasticidad estamos diciendo que la matriz Σ es una matriz
escalar con σ en su diagonal, es decir la matriz identidad multiplicada por σ:
Σ =

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

σ 0 ... 0 0
0 σ 0
... ... ...
0 ... ...
0 0 ... σ
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
= σ

1 0 ... 0 0
0 1 0
... ... ...
0 ... ...
0 0 ... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Σ = σI
T
60 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
De igual forma si incorporamos el supesto de no autocorrelación de los
residuos estamos imponiendo la condición que la matriz Θ sea la identidad,
cuyos elementos fuera de la diagonal (unos) son nulos. Es decir entonces:
Θ =

1 0 ... 0 0
0 1 0
... ... ...
0 ... ...
0 0 ... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
= I
T
Con esto entonces podemos representar los dos supuestos de la siguiente
forma:
E[εε
0
] = ΣΘΣ = σI
T
· I
T
· σI
T
= σ
2
I
T
3. No hay correlación entre el residuo poblacional ε
t
y la variable exógena
x
t
:
Cov [x
t
, ε
t±k
] = 0 ∀t y ∀k
4. No existe multicolinealidad, es decir se garantiza que la matriz X
0
X es
no singular, es decir su inversa existe y es única, lo cual ayuda a determinar
con unicidad el vector de parámetros a estimar.
5. Finalmente el supuesto más importante para fines de inferencia se re-
fiere a la necesidad de que los residuos provengan de una distribución normal:
ε
t
˜N
Los anteriores supuestos pueden resumirse en que el vector de residuos
tiene distribución normal multivariada, idéntica e independiente, con media
cero y matriz de varianzas y covarianzas σ
2
I
T
, es decir ε˜IIDN (0, σ
2
I
T
).
A partir del modelo en su versión matricial y = x
ˆ
β + e, donde x es la
matriz de datos de las variables exógenas incluyendo una primera columna
de unos, podemos obtener los estimadores mínimo cuadrados optimizando la
siguiente función de pérdida:
min
{β}
$ =
³
y −x
ˆ
β
´
0
³
y −x
ˆ
β
´
= e
0
e
61
Tomando la gradiente o derivada vectorial sobre el vector β estimamos los
parámetros del modelo, es decir:
∂$
∂β
= x
0
x
ˆ
β −x
0
y = 0
lo cual puede representarse alternativamente por el siguiente sistema de ecua-
ciones normales, denominadas condiciones de ortogonalidad:
x
0
e = 0
Una representación ampliada y similar a la utilizada en el modelo de
regresión simple consiste en escribir este sistema de ecuaciones normales o
condiciones necesaria de primer orden como:
∂$
∂β
1
= −2
X
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
∂$
∂β
2
= −2
X
x
2t
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
∂$
∂β
3
= −2
X
x
3t
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
....
∂$
∂β
k
= −2
X
x
kt
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
lo que al simplificar por −2 nos deja un sistema de k ecuaciones con k incog-
nitas:
∂$
∂β
1
=
X
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
∂$
∂β
2
=
X
x
2t
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
∂$
∂β
3
=
X
x
3t
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
....
∂$
∂β
k
=
X
x
kt
³
y
t

ˆ
β
1

ˆ
β
2
x
2t

ˆ
β
3
x
3t
−... −
ˆ
β
k
x
kt
´
= 0
Al recordar que la expresión entre paréntesis no es más que el residuo mues-
62 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
tral, podemos simplificar aún más la última expresión:
∂$
∂β
1
=
X
e
t
= 0
∂$
∂β
2
=
X
x
2t
e
t
= 0
∂$
∂β
3
=
X
x
3t
e
t
= 0
....
∂$
∂β
k
=
X
x
kt
e
t
= 0
lo que en el fondo nos lleva a repetir la expresión de ortogonalidad men-
cionada más arriba:
x
0
e = 0
Asumiendo rango completo de la matriz x
0
x es decir que esta es invertible
(de aquí la importancia del supuesto de no multicolinealiad), entonces el
vector de estimadores se puede obtener de despejar el vector
ˆ
β del sistema
anterior llegando a:
ˆ
β = (x
0
x)
−1
x
0
y
Una forma alternativa de determinar la expresión anterior consiste en
partir del modelo estimado y = x
ˆ
β + e. Si a esta expresión se le multiplica
por x
0
(debe ser por la izquierda pues la multiplicación debe hacerse sobre
matrices conformables) nos queda:
x
0
y = x
0
x
ˆ
β +x
0
e
pero la expresión de la derecha x
0
e no es más que la representación matricial
del sistema de ecuaciones normales que es igual a cero, luego de aquí tambien
se deduce que
ˆ
β = (x
0
x)
−1
x
0
y.
Ejercicio. Un profesor de la Escuela de Economía desea evaluar si la playa
que está a minutos de la universidad, es una mala influencia en el desempeño
de los alumnos, medido por las notas finales promedio de cada alumno. Para
esto se toma una muestra de diez alumnos con el sigueinet resultado de la
encuesta:
Estime los parámetros de un modelo de regresión lineal simple. Obtenga
la matriz de varianzas y covarianzas y evalúe la hipótesis al 95% de que la
playa no tiene influencia en las notas obtenidas por los alumnos.
63
Promedio de Notas 5.5 6 4.8 5 5.1 6.1 6.2 4.2 5.5 4.9
Horas Semanales en Playa 2 3 1 4 3 2 1 5 1 2
Dada la información sabemos que:
x
0
=

1 1 1 1 1 1 1 1 1 1
2 3 1 4 3 2 1 5 1 2
¸
¸
y
0
=
h
5.5 6 4.8 5 5.1 6.1 6.2 4.2 5.5 4.9
i
De manera que el vector de estimadores se obtiene de resolver:
ˆ
β = (x
0
x)
−1
x
0
y
ˆ
β =

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

1 1 1 1 1 1 1 1 1 1
2 3 1 4 3 2 1 5 1 2
¸
¸

1 2
1 3
1 1
1 4
1 3
1 2
1 1
1 5
1 1
1 2
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

−1

¸
1 1 1 1 1 1 1 1 1 1
2 3 1 4 3 2 1 5 1 2
¸

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
5. 5
6
4. 8
5
5. 1
6. 1
6. 2
4. 2
5. 5
4. 9
¸

ˆ
β =

5. 932 9
−0.251 22
¸
¸
La matriz de varianzas y covarianzas se obtiene de resolver la siguiente ex-
64 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
presión:
ˆ
V (
ˆ
β) =
e
0
e
T −k
(x
0
x)
−1
=
y
0
y −y
0
x
ˆ
β
T −k
(x
0
x)
−1
como x
0
y =

53. 3
123. 8
¸
¸
, y
0
y =
X
y
2
= 287. 85
ˆ
V (
ˆ
β) =
y
0
y −y
0
x
ˆ
β
T −k
(x
0
x)
−1
=
287. 85 −
h
53.3 123.8
i

5. 932 9
−0.251 22
¸
¸
10 −2
·

0.451 22 −0.146 34
−0.146 34 6. 097 6 ×10
−2
¸
¸
= 0.340 93

0.451 22 −0.146 34
−0.146 34 6. 097 6 ×10
−2
¸
¸
=

0.153 83 −4. 989 2 ×10
−2
−4. 989 2 ×10
−2
2. 078 9 ×10
−2
¸
¸
Para testear H
0
: β
1
= 0 debemos efectuar un test t:
t
c
=
ˆ
β
1
−β
1
ˆ σ
ˆ
β
1
∼ t (T −k)
Reemplazando con los datos obtenidos se tiene:
t
c
=
−0.25122
2

2. 078 9 ×10
−2
= −1. 742 4
De manera que al comparar con un test t-Student al 95% para 8 grados de
libertad (test de dos colas) cuyo valor es t
0.975
(8) = 2.306 vemos que el test
calculado es inferior al t de tabla luego no rechazamos la hipótesis de que el
parámetro es cero, es decir la playa no tendría incidencia en el desempeño
académico de los alumnos.
4.1 TEST DE RESTRICCIONES 65
4.1 Test de Restricciones
Es común estar interesado en testear si combinaciones lineales de parámetros
obedecen a cierto valor en particular, o de manera general, si un conjunto de
combinaciones de parámetros obedece a valores específicos.
4.1.1 Testeo de Restricciones Escalares H
0
: r
0
β = q
Ejercicio. A partir de la siguiente información y considerando el modelo
y
t
= β
0

1
x
1t

2
x
2t

3
x
3t
+
t
evaluar la hipótesis nula H
0
: 3β
1
−β
2
= 5:

ˆ
β
1
ˆ
β
2
¸
¸
=

4.8
5.7
¸
¸
e
0
e = 60
T = 34
(x
0
x)
−1
=

¸
¸
¸
¸
¸
¸
¸
60 13 20 −100
5 3 −25
8 −15
9
¸

Para resolver esta pregunta debemos generar el estimador de la matriz de
66 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
varianzas y covarianzas de los parámetros estimados:
ˆ
V (
ˆ
β) =
e
0
e
T −k
(x
0
x)
−1
ˆ
V (
ˆ
β) =
60
34 −4

¸
¸
¸
¸
¸
¸
¸
60 13 20 −100
13 5 3 −25
20 3 8 −15
−100 −25 −15 9
¸

ˆ
V (
ˆ
β) =

¸
¸
¸
¸
¸
¸
¸
120.0 26.0 40.0 −200.0
26.0 10.0 6.0 −50.0
40.0 6.0 16.0 −30.0
−200.0 −50.0 −30.0 18.0
¸

De manera que el test corresponde a un t-Student pues tenemos una sola
restricción que evaluar:
t
c
=
3
ˆ
β
1

ˆ
β
2
−(3β
1
−β
2
)
2
r
ˆ
V
³
3
ˆ
β
1

ˆ
β
2
´
∼ t (T −k)
t
c
=
3 · 4.8 −5.7 −(5)
2
p
3
2
· (10) + (16) −2 · 3 · 6
= 0.442 23
Al comparar con un test t con 95% (de dos colas, es decir con 0.975) y con
T − k = 34 − 4 = 30 grados de libertad se tiene que t
0.975
(30) = 2.042 es
superior al nuestro t
c
= 0.442 23 de manera que no rechazamos la hipótesis
nula.
4.1.2 Testeo de Restricciones Vectoriales H
0
: Rβ = q
Ejercicio. Supongamos que hemos estimado la siguiente ecuación para una
muestra de 17 observaciones ( T = 17) utilizando la metodología de los mín-
imos cuadrados ordinarios (todas las variables están en logaritmos):
y
t
= β
0

1
x
1t

2
x
2t

t
4.1 TEST DE RESTRICCIONES 67
encontrándose los siguientes resultados:
ˆ
β =

1.37
1.14
−0.83
¸
¸
¸
¸
¸
y
0
³
I −x(x
0
x)
−1
x
0
´
y = 0.0028
(x
0
x)
−1
=

¸
¸
¸
¸
510.89 −254.35 0.42
132.7 −6.82
7.11
¸

Calcule las varianzas estimadas de los estimadores
ˆ
β
0
,
ˆ
β
1
,
ˆ
β
2
. Si la variable
x
1
aumenta en un 1% y la variable x
2
lo hace en un 2%, ¿cuál será el efecto
final sobre la variable dependiente y? Finalmente utilice el test F y evalúe
la hipótesis nula H
0
: β
1
= 1, β
2
= −1.
Para calcular las varianzas estimadas del vector de parámetros
ˆ
β debemos
calcular s
2
(x
0
x)
−1
:
ˆ
V (
ˆ
β) =
e
0
e
T −k
(x
0
x)
−1
=
0.0028
17 −3

¸
¸
¸
¸
510.89 −254.35 0.42
−254.35 132.7 −6.82
0.42 −6.82 7.11
¸

ˆ
V (
ˆ
β) =

¸
¸
¸
¸
0.102 18 −0.050 87 8. 4 ×10
−5
−0.050 87 0.026 54 −1. 364 ×10
−3
8. 4 ×10
−5
−1. 364 ×10
−3
1. 422 ×10
−3
¸

ˆ
V (
ˆ
β
0
)
ˆ
V (
ˆ
β
1
)
ˆ
V (
ˆ
β
2
)
¸
¸
¸
¸
¸
=

0.102 18
0.026 54
1. 422 ×10
−3
¸
¸
¸
¸
¸
Si la variable x
1
se incrementa en 1% y la variable x
2
lo hace en 2%, entonces
y lo hara en:
∆y = 1.14 · 1 −0.83 · 2 = −0.52%
68 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
Es decir la variable dependiente y cae −0.52%.
Para testear la hipótesis conjunta H
0
: β
1
= 1, β
2
= −1 hay que aplicar
la siguiente fórmula de test F:
F
c
=
³
R ·
ˆ
β −q
´
0 £
Rs
2
(x
0
x)
−1
R
0
¤
−1
³
R ·
ˆ
β −q
´
J
donde R =

0 1 0
0 0 1
¸
¸
y q =

1
−1
¸
¸
entonces reemplazando los resultados conseguidos anteriormente:
F
c
=

¸
¸
¸
¸

0 1 0
0 0 1
¸
¸
·

¸
¸
¸
¸
1.37
1.14
−0.83
¸

1
−1
¸
¸
¸

0

0 1 0
0 0 1
¸
¸

¸
¸
¸
¸
0.102 18 −0.050 87 8. 4 ×10
−5
−0.050 87 0.026 54 −1. 364 ×10
−3
8. 4 ×10
−5
−1. 364 ×10
−3
1. 422 ×10
−3
¸

0 1 0
0 0 1
¸
¸
0
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
−1

¸
¸
¸
¸

0 1 0
0 0 1
¸
¸
·

¸
¸
¸
¸
1.37
1.14
−0.83
¸

1
−1
¸
¸
¸

2
F
c
=
³
0.14 0.17
´

39. 633 38. 016
38. 016 739. 7
¸
¸

¸

0.14
0.17
¸
¸
¸

2
= 11. 982
Al comparar con un F
0.05
(2, 14) = 3.74 vemos que rechazamos la hipótesis
nula.
4.2 SIGNIFICANCIA DE LA REGRESIÓN 69
4.2 Significancia de la Regresión
Supongamos que tenemos elmodelo de regresión y = xβ +ε, modelo que en
su forma extendida se puede representar por:
y
t
= β
1

2
x
2t
+... +β
k
x
kt

t
Se sabe que si redefinimos a las variables en desviaciones de sus propias
medias, los estimadores mínimos cuadrados no se ven modificados y que
ahora la constante no debiera ser incluida en la estimación pues se obtiene
de las medias de las otras variables a través de
ˆ
β
1
= ¯ y −
ˆ
β
2
¯ x
2
− ... −
ˆ
β
k
¯ x
k
y que por supuesto en el caso hipotético de que los parámetros asociados
a las variables explicativas sean nulos, entonces este parámetro solamente
estará capturando la media de la variable dependiente. Este hecho hace
recomendable que el test no se contamine con el valor de la constante al
momento de evaluar la significancia del vector de parámetros.
En este caso entonces analicemos la hipótesis nula de que todos los parámet-
ros son cero (recordemos que la constante está fuera de este conjunto de
parámetros analizados), es decir testeemos H
0
: β
2
= β
3
= ... = β
k
= 0.
Paea testear esta hipótesis podemos utilizar nuestra expresión del test F
definido por (J = k −1):
F
c
=
³
R
ˆ
β −q
´
0 £
R(x
0
x)
−1
R
0
¤
−1
³
R
ˆ
β −q
´
/ (k −1)
e
0
e/(T −k)
70 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
Dado que en este caso es fácil verificar que:
R =

1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
... ... ... ... ...
0 0 0 0 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
= I
k−1
q =

0
0
0
...
0
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
k−1
entonces podemos reescribir el test F como:
F
c
=
ˆ
β
0
£
(x
0
x)
−1
¤
−1
ˆ
β/ (k −1)
e
0
e/(T −k)
F
c
=
ˆ
β
0
(x
0
x)
ˆ
β
e
0
e
T −k
k −1
pero sabemos que
ˆ
β = (x
0
x)
−1
x
0
y y ademas que a partir de y = x
ˆ
β + e es
posible deducir que:
e
0
e = y
0
y −y
0
x
ˆ
β
de manera que reemplazando estas dos representaciones en la expresión del
F
c
, y recordando que la expresión
ˆ
β
0
x
0
y es equivalente a y
0
x
ˆ
β pues ambas son
expresiones escalares, nos queda:
F
c
=
ˆ
β
0
(x
0
x) (x
0
x)
−1
x
0
y
y
0
y −y
0
x
ˆ
β
T −k
k −1
F
c
=
y
0
x
ˆ
β
y
0
y −y
0
x
ˆ
β
T −k
k −1
4.2 SIGNIFICANCIA DE LA REGRESIÓN 71
dividiendo por y
0
y que es equivalente a la suma de los cuadrados totales
(recordemos que las variables están en desviación de sus propias medias) y
recordando que el coeficiente de determinación R
2
= 1 −
e
0
e
y
0
My
:
F
c
=
y
0
x
ˆ
β
y
0
y
y
0
y−y
0
x
ˆ
β
y
0
y
T −k
k −1
F
c
=
µ
R
2
1 −R
2
¶µ
T −k
k −1

Esta última expresión nos indica que aquellas regresiones que tienen bajo
coeficiente de ajuste, es decir un bajo R
2
, tienen a su vez un test F también
muy bajo lo cual perimtiría decir que la probabilidad de aceptar la hipotesis
nula es muy alta, o lo que esw lo mismo, que la probabilidad de rechazar la
hipótesis es muy baja. Este concepto se conoce como el valor de la probabili-
dad (P-Value) y está definido para este test como la integral de la función de
densidad f(s) desde el valor del test calculado (F
c
) a infinito (∞), es decir:
PV alue =

Z
Fc
f (s) ds
Ejercicio. Supongamos que se dispone de la siguiente información pro-
ducto de estimar una regresión con T = 500 observaciones para el APT de
una acción i con un factor f asociado al volumen de actividad del sector
industrial asociado a la acción:
R
it
= α +βR
mt
+γf
t

t
= 0.03 + 1.14R
mt
+ 0.19f
t
(0.08) (0.28) (0.03)
R
2
= 0.67
El nivel de significancia de la regresión se puede evaluar analizando el test
F de esta ecuación bajo la hipótesis nula de que todos los parámetros son
cero en la regresión, a excepción de la constante. La hipótesis a testear es
H
0
: β = γ = 0 versus la alternativa de que al menos uno de estos parámetros
no es cero. Aplicamos la expresión F
c
=
³
R
2
1−R
2
´
¡
T−k
k−1
¢
considerando que
72 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
T = 500, k = 3 y que R
2
= 0.67:
F
c
=
µ
R
2
1 −R
2
¶µ
T −k
k −1

=
µ
0.67
1 −0.67
¶µ
500 −3
3 −1

= 504. 53
Si contrastamos este test F
c
= 504.53 con el valor respectivo de tabla a
un nivel de significancia del 5%, F
95%
(k −1, T −k) = F
95%
(2, 497) = 3,
entonces rechazamos la hipótesis nula de que ambos parámetros son estadís-
ticamente iguales a cero.
4.3 Modelo Restringido - No Restringido
Una plicación adicional del test F corresponde al analisis de modelos re-
stringidos versus no restringidos, entendiendo como que un modelo estará
restringido en la medida que un subconjunto de los parámetros tome valores
específicos asociados a una determinada hipótesis nula. Ejemplos podrían
ser estimar una función Cobb-Douglas asumiendo que la eslasticidad capital-
producto es igual a 0.5, o estimar una función de demanda por dinero con
un coeficiente de elasticidad producto igual a 1.
Representemos a ambos modelos no restringidos y restringidos (identifi-
cados con el sub-índice R) por:
y = x
ˆ
β +e
y = x
ˆ
β
R
+e
R
Partiendo de la definición del residuo restringido e
R
podemos decir:
e
R
= y −x
ˆ
β
R
e
R
= y −x
ˆ
β
R
+x
ˆ
β −x
ˆ
β
e
R
= y −x
ˆ
β −x
ˆ
β
R
+x
ˆ
β
e
R
= e −x
ˆ
β
R
+x
ˆ
β
e
R
= e +x
³
ˆ
β −
ˆ
β
R
´
de manera que el valor de e
0
R
será igual a:
e
0
R
= e
0
+
³
ˆ
β −
ˆ
β
R
´
0
x
0
4.3 MODELO RESTRINGIDO - NO RESTRINGIDO 73
Multiplicando estas dos últimas expresiones para generar una relación entre la
suma del cuadrado de los residuos entre modelos restringidos y no restringidos
llegamos a (note que las multiplicaciones cruzadas no aparecen pues sabemos
por condiciones de ortogonalidad que x
0
e = e
0
x = 0):
e
0
R
e
R
= e
0
e +
³
ˆ
β −
ˆ
β
R
´
0
x
0
x
³
ˆ
β −
ˆ
β
R
´
≥ e
0
e
Modelos Restringidos versus No Restringidos
Reordenando la expresión anterior podemos encontrar una relación entre
esta y el numerador del test F analizado en la sección anterior:
e
0
R
e
R
−e
0
e =
³
ˆ
β −
ˆ
β
R
´
0
x
0
x
³
ˆ
β −
ˆ
β
R
´
=
³
R
ˆ
β −R
ˆ
β
R
´
0
h
R(x
0
x)
−1
R
0
i
−1
³
R
ˆ
β −R
ˆ
β
R
´
De esta forma podemos ver la relación que existe entre el análisis de la difer-
encia de la suma de los residuos al cuadrado entre ambos modelos y el test
F analizado. El test para la hipótesis nula de que H
0
: β = β
R
se puede
representar entonces como (J es el número de parámetros involucrados en la
hipótesis nula):
F
c
=
(e
0
R
e
R
−e
0
e) /J
e
0
e/(T −k)
∼ F (J, T −k)
Considerando que la variable dependiente en ambos modelos es la misma,
entonces la suma de los cuadrados totales es también similar, de manera que
podemos dividir el numerador y el denominador por y
0
My para encontrar una
relación de esta expresión en términos de los coeficientes de determinación
74 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE
de ambos modelos:
F
c
=
³
e
0
R
e
R
y
0
My

e
0
e
y
0
My
´
/J
e
0
e
y
0
My
/(T −k)
F
c
=
(R
2
−R
2
R
) /J
(1 −R
2
) /(T −k)
∼ F (J, T −k)
Ejercicio. Una empresa de asesorías financieras y de marketing está es-
timando dos modelos de ventas de supermercado considerando dos modelos
alternativos:
v
t
= β
1

2
y
t

2
g
t

3
p
t

t
v
t
= β
1

2
y
t

2
g
t

t
donde v indica ventas del supermercado, y el nivel de actividad de la economía
(PIB), g representa el gasto en publicidad en medios como la TV, diarios y
revistas, y finalmente p mide el gasto en volantes distribuídos a residencias
vecinas y automóviles del sector.
Los resultados al estimar ambos modelos son los siguientes:
Modelo sin Restricciones
v
t
= 0.14 + 1.15y
t
+ 0.21g
t
+ 0.47p
t
e
0
e = 370.45
R
2
= 0.89
T = 670
Modelo con Restricciones (β
3
= 0)
v
t
= 0.29 + 1.42y
t
+ 0.35g
t
e
0
R
e
R
= 399.23
R
2
R
= 0.88154
T = 670
Con estos antecedentes podemos analizar el modelo no restringido (modelo 1)
versus el modelo restringido (modelo 2) al cual se le ha impuesto la condición
de que el parámetro asociado al gasto el volantes tiene un valor de cero.
Para este ejercicio compararemos los resultados de analizar el test en fun-
ciónde las diferencias de las sumas de los residuos al cuadrsdo entre modelos
4.3 MODELO RESTRINGIDO - NO RESTRINGIDO 75
restringidos versus no restringidos, con el del test basado en diferenciales de
R
2
entre ambos modelos. Si vemos primero la fórmula en función de las
sumas de los cuadrsdos de los residuos tendremos:
F
c
=
(e
0
R
e
R
−e
0
e) /J
e
0
e/(T −k)
∼ F (J, T −k)
F
c
=
(399.23 −370.45) /1
370.45/(670 −4)
∼ F (1, 670 −4)
F
c
= 51. 741
Como este valor es superior a F
95%
(1, 666) = 3.84 entonces rechazamos la
hipótesis de que le parámetro es cero, lo cual implica que la variable gastos
en volantes es relevante como variable explicativa de las ventas del superme-
rcado.
Alternativamente podemos testear esta hipótesis utilizando el test en fun-
ción de los R
2
:
F
c
=
(R
2
−R
2
R
) /J
(1 −R
2
) /(T −k)
F
c
=
(0.89 −0.881 45) /1
(1 −0.89) /(670 −4)
F
c
= 51.741
De igual manera que con el formato de test anterior podemos decir que rec-
hazamos la hipótesis de que la variable p sea no significativa, recomendando
su inclusión en la estimación.
Chapter 5
Evaluando Quiebres
Estructurales
5.1 Variables Mudas
Si es posible definir con certeza el momento del eventual quiebre estructural
ya sea en un parámetro como en una combinación de parámetros entonces
podemos aplicar lo que se conoce como variables mudas.
Una variable muda o ficticia generalmente se asocia a una función indi-
cadora de un evento determinado. Esta nueva variable artificial tomará valor
unitario si el evento está presente y cero si no es así. Ejemplos de este tipo
de funciones son innumerables, por ejemplo:
Guerra Paz
Hombre Mujer
Profesional Técnico
Gobierno A Gobierno B
Crisis Bancaria Normalidad
Tipo de Cambio Fijo Tipo de Cambio Flexible
Si estas variables no son directamente cuantificables entonces surge la
alternativa de utilizar variables dicotómicas mudas. Volvamos al modelo de
regresión simple para entender cómo testear cambios estructurales en algún
77
78 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES
t y
t
x
t
d
t
1 y
1
x
1
0
2 y
2
x
2
0
... ... ... ...
s y
s
x
s
0
s + 1 y
s+1
x
s+1
1
s + 2 y
s+2
x
s+1
1
... ... ... ...
T y
T
x
T
1
o algunos parámetros utilizando esta variable. Supongamos que el modelo a
estimar es:
y
t
= β
1

2
x
t

t
∀t = 1, 2, ..., s, s + 1, ..., T
donde hemos identificado el período s, s + 1 como el del eventual quiebre
estructural. Para incorporar este hecho econométricamente, creamos una
nueva serie artificial (muda) d
t
que tomará valores de cero antes del período
s y de uno desde s + 1 hasta T. Una tabla ayudará a comprender esta
representación:
Con esta nueva variable podemos testear cambio en el coeficiente de in-
tercepto β
1
y/o en el de pendiente β
2
.
5.1.1 Cambio Estructural de Intercepto
Para analizar esta hipótesis representada por:
H
0
: β
1
= β ∀t ≤ s
: β
1
6= β ∀t > s
5.1 VARIABLES MUDAS 79
podemos reescribir el modelo a estimar como:
y
t
= β
1

2
x
t

3
d
t

t
∀t = 1, 2, ..., T
y
t
=

β
1

2
x
t

t
d
t
= 0 ∀t = 1, 2, ..., s
β
1

2
x
t

3

t

1

3
) +β
2
x
t

t
d
t
= 1 ∀t = s + 1, s + 2, ..., T

El test consiste en evaluar si el parámetro β
3
es significativamente distinto
de cero o no. Para esto generamos un test t con la siguiente hipótesis nula:
H
0
: β
3
= 0
t
c
=
ˆ
β
3
−β
3
r
ˆ
V
³
ˆ
β
3
´
=
ˆ
β
3
ˆ σ
ˆ
β
3
Si t
c
(en valor absoluto) es menor a un test t
(
1−
α
2
)
(T −k) de tabla entonces
no rechazamos la hipótesis de que el parámetro es cero, no habiendo indicios
de quiebre estructural en el parámetro del intercepto.
5.1.2 Cambio Estructural de Pendiente
Para analizar esta hipótesis representada por:
H
0
: β
2
= β ∀t ≤ s
: β
2
6= β ∀t > s
podemos reescribir el modelo a estimar como:
y
t
= β
1

2
x
t

4
d
t
x
t

t
∀t = 1, 2, ..., T
y
t
=

β
1

2
x
t

t
d
t
= 0 ∀t = 1, 2, ..., s
β
1

2
x
t

4
x
t

t
β
1
+ (β
2

4
) x
t

t
d
t
= 1 ∀t = s + 1, s + 2, ..., T

80 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES
El test consiste en evaluar si el parámetro β
4
es significativamente distinto
de cero o no. Para esto generamos un test t con la siguiente hipótesis nula:
H
0
: β
4
= 0
t
c
=
ˆ
β
4
−β
4
r
ˆ
V
³
ˆ
β
4
´
=
ˆ
β
4
ˆ σ
ˆ
β
4
Si t
c
(en valor absoluto) es menor a un test t
(1−
α
2
)
(T −k) de tabla entonces
no rechazamos la hipótesis de que el parámetro es cero, no habiendo indicios
de quiebre estructural en el parámetro de la pendiente.
5.1.3 Cambio Estructural en Pendiente e Intercepto
Para analizar esta hipótesis representada por:
H
0
: β
1
= β, β
2
=
˜
β ∀t ≤ s
: β
1
6= β, β
2
6=
˜
β ∀t > s
podemos reescribir el modelo a estimar como:
y
t
= β
1

2
x
t

3
d
t

4
d
t
x
t

t
∀t = 1, 2, ..., T
y
t
=

β
1

2
x
t

t
d
t
= 0 ∀t = 1, 2, ..., s
β
1

2
x
t

3

4
x
t

t

1

3
) + (β
2

4
) x
t

t
d
t
= 1 ∀t = s + 1, s + 2, ..., T

El test consiste en evaluar si los parámetros β
3
y β
4
son en forma conjunta
significativamente distinto de cero o no. Para esto es necesario evaluar la
hipótesis a través de un test F de Fisher pues los test t no son capaces de
testear más de una restricción en la hipótesis nula
H
0
: β
3
= β
4
= 0
F
c
=
(Rβ −Rβ)
0
£
Rs
2
(x
0
x)
−1
R
0
¤
−1
(Rβ −Rβ)
J
∼ F (J, T −k)
F
c
=
(Rβ−Rβ)
0
[R(x
0
x)
−1
R
0
]
−1
(Rβ−Rβ)
J
e
0
e
T−k
∼ F (J, T −k)
5.2 SPLINES 81
lo cual aplicado a nuestro test implica:
F
c
=
(Rβ−Rβ)
0
[
R(x
0
x)
−1
R
0
]
−1
(Rβ−Rβ)
2
e
0
e
T−4
∼ F (2, T −4)
Si F
c
es menor a un test F
(
α
2
)
(2, T −4) de tabla entonces no rechaz-
amos la hipótesis de que ambos parámetros son cero, no habiendo indicios
de quiebre estructural en los parámetros de la pendiente y el intercepto.
5.2 SPLINEs
5.2.1 Regresión Spline
Los SPLINES son métodos de interpolación no-paramétrico de los cuales la
regresión spline es la más usual. Una regresión spline consiste en estimar
una regresión por segmentos discretos pero continuos de la muestra. Se es-
tima una regresión desde la observación 1 hasta la observación s
1
, después
se estima el modelo para el intervalo s
1
, s
2
, después se estima para el inter-
valo s
2
, s
3
, etc... hasta estimar un modelo con el intervalo final (hasta T).
Analíticamente para el caso de dos parámetros se representa por:
y
t
= β
s
1
1

s
1
2
x
t

t
si t = 1, 2, ..., s
1
y
t
= β
s
2
1

s
2
2
x
t

t
si t = s
1
+ 1, s
1
+ 2, ..., s
2
y
t
= β
s
3
1

s
3
2
x
t

t
si t = s
2
+ 1, s
2
+ 2, ..., s
3
...
y
t
= β
T
1

T
2
x
t

t
si t = ..., T
Esta discontinuidad de pendientes se logra con la introducción al modelo de
diferentes variables mudas asociadas a los vértices de la curva estimada. Es
así como definimos a cada variable muda en función del intervalo de tiempo
asociado tomando un valor cero si la condición del intervalo correspondiente
82 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES
no se cumple:
d
1
= 1 si t = s
1
+ 1, s
1
+ 2, ..., s
2
d
2
= 1 si t = s
2
+ 1, s
2
+ 2, ..., s
3
...
d
J
= 1 si t = ..., T
La expresión analítica de esta secuencia de curvas se representa por:
y
t
= β
1

2
x
t

1
d
1

1
d
1
x
t

2
d
2

2
d
2
x
t
+.... +λ
J
d
J

J
d
J
x
t

t
Lo cual en términos de segmentos muestrales se traduce en:
y
t
= β
1

2
x
t

t
∀d
i
= 0
y
t
= β
1

2
x
t

1
d
1

1
d
1
x
t

t
y
t
= (β
1

1
) + (β
2

1
) x
t

t
d
1
= 1
y
t
= β
1

2
x
t

1
d
1

1
d
1
x
t

2
d
2

2
d
2
x
t

t
y
t
= (β
1

1

2
) + (β
2

1

2
) x
t

t
d
2
= 1
... ...
y
t
= β
1

2
x
t

1
d
1

1
d
1
x
t
+... +λ
J
d
J

J
d
J
x
t

t
y
t
=
³
β
1
+
P
J
i=1
λ
i
´
+
³
β
2
+
P
J
i=1
θ
i
´
x
t

t
d
J
= 1
Esta expresión puede ser representada gráficamente por una secuencia
de líneas rectas que deben cumplir con la condición de ser contínuas para
tomar la connotación de una regresión spline. Analíticamente la continuidad
se representa por las siguientes condiciones:
β
1

2
x
s
1
= (β
1

1
) + (β
2

1
) x
s
1

1

1
) + (β
2

1
) x
s
2
= (β
1

1

2
) + (β
2

1

2
) x
s
2
etc...
Simplificando cada restricción llegamos a:
λ
i
= −θ
i
x
s
i
∀i = 1, 2, ..., J
5.2 SPLINES 83
Figure 5.1: Regresión por Segmentos o Spline
Incorporando estas condiciones en la expresión generalizada llegamos a:
y
t
= β
1

2
x
t

1
d
1

1
d
1
x
t

2
d
2

2
d
2
x
t
+.... +λ
J
d
J

J
d
J
x
t

t
y
t
= β
1

2
x
t

1
d
1
(x
t
−x
s
1
) +θ
2
d
2
(x
t
−x
s
2
) +.... +θ
J
d
J
(x
t
−x
s
J
) +ε
t
5.2.2 Cubic Spline y B-Splines
Un spline de orden n es una aproximación polinómica, con polinomios de
grado n y diferenciables n −1 veces en toda su extensión. Donde se juntan
los polinomios adyacentes se conocen como nudos (knots). Por ejemplo un
cubic-spline es una curva representada por un polinomio de grado 3 en cada
intervalo, y que es diferenciable dos veces en todo punto de la curva. Tiene la
característica de que en cada nudo las pendientes deben ser iguales y además
las curvaturas de cada lado de esots nudos debe coincidir.
Una representación general del cubic-spline es:
s (t) =
3
X
i=0
α
i
t
i
| {z }
Polinomio Cúbico
+
1
3!
n−1
X
p=1
β
p
¡
t −ξ
p
¢
3
+
| {z }
Diferenciable 2 veces en los nudos
donde
¡
t −ξ
p
¢
+
= max
¡
t −ξ
p
, 0
¢
. Es así como para un spline de n+1 nudos

0
, ξ
1
, ..., ξ
n
}, un spline cúbico tiene n+3 parámetros
©
α
0
, α
1
, α
2
, α
3
, β
1
, β
2
, ..., β
n−1
ª
.
84 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES
En general un δ−grado spline tiene un equivalente a n + δ parámetros que
estimar.
Sin embargo es común utilizar versiones generales de s(t) que se pueden
representar por combinaciones lineales de de splines generales, entre las cuales
se encuentran las B-Splines. Para un conjunto de n+1 nudos {ξ
0
, ξ
1
, ..., ξ
n
},
y para p = 0, 1, .., n −4 definimos un spline cúbico B
p
(t) por:
B
p
(t) =
p+4
X
i=p
Ã
p+4
Q
l=p,l6=i
1

l
−ξ
i
)
!
¡
t −ξ
p
¢
3
+
Aquí podemos ver que claramente la función B-Spline es nula o cero para
intervalos que esten fuera de
£
ξ
p
, ξ
p+4
¤
.
Ejercicio. Consideremos la siguiente estructura de tasas de interés nom-
inales:
Madurez Tasa
1 día 4.75
1 mes 4.52
3 meses 4.45
1 año 4.98
2 años 5.65
8 años 7.00
20 años 7.91
Aplicando la opción spline de MATLABa través del siguiente código podemos
estimar un cubic-spline con la siguiente estructura interpolada:
y=[4.75 4.52 4.45 4.98 5.65 7 7.91];
x=[1/365 30/365 90/365 1 2 8 20];
xx=0:.25:20;
yy = spline(x,y,xx);
5.3 TEST DE CHOW 85
plot(x,y,’o’,xx,yy);
0 2 4 6 8 10 12 14 16 18 20
4
4.5
5
5.5
6
6.5
7
7.5
8
Cubic-Spline de Estructura de Tasas
Ejercicio. Aplicaremos la interpolación cubic-spline para proyectar el
comportamiento de una variable en una muestra estimada. Utilizando la es-
timacion del ejercicio anterior podemos analizar cuál sería la tasa que un pa-
pel de 10 años debiera tener. Analizando la curva estimada esta tasa debiera
ser del orden de 6.896%, cifra obtenida con la instrucción spline(t,y,10)
en MATLAB.
5.3 Test de Chow
La idea de este estadístico es testear la hipótesis de que al menos un parámetro
de los coeficientes de la regresión no es igual para toda la muestra. La filosofía
86 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES
consiste en evaluar estadísticamente si el vector de parámetros estimado para
toda la muestra difiere de aquel que se calcula considerando dos o más sub-
muestras.
Un modelo sin restricciones para cada submuestra permite tener vectores
de parámetros que difieren entre estas submuestras. Por ejemplo considere-
mos un modelo aplicado a tres períodos que conformarán un tamaño muestral
total de T:
t = 1, ..., s
1
y
1
= x
1
β
1

1
t = s
1
+ 1, ..., s
2
y
2
= x
2
β
2

2
t = s
2
+ 1, ..., T y
3
= x
3
β
3

3
En términos matriciales este sistema se puede representar por:

y
1
y
2
y
3
¸
¸
¸
¸
¸
Tx1
=

x
1
0 0
0 x
2
0
0 0 x
3
¸
¸
¸
¸
¸
Tx3k

β
1
β
2
β
3
¸
¸
¸
¸
¸
3kx1
+

ε
1
ε
2
ε
3
¸
¸
¸
¸
¸
Tx1
Aplicando la fórmula de los mínimos cuadrados ordinarios
ˆ
β = (x
0
x)
−1
x
0
y
podemos estimar el vector de parámetros
ˆ
β:

ˆ
β
1
ˆ
β
2
ˆ
β
3
¸
¸
¸
¸
¸
=

x
0
1
x
1
0 0
0 x
0
2
x
2
0
0 0 x
0
3
x
3
¸
¸
¸
¸
¸
−1

x
0
1
y
1
x
0
2
y
2
x
0
3
y
3
¸
¸
¸
¸
¸
El Modelo restrtingido se obtine de estimar la ecuación y = xβ + ε sin
considerar ninguna subdivisión o partición muestral, es decir considerando
toda la base de datos:
y = xβ +ε t = 1, ..., T
de manera que el vector de parámetros estimados será
ˆ
β = (x
0
x)
−1
x
0
y orig-
inándose una suma del cuadrado de los residuos para el modelos restringido
e
0
R
e
R
.
Para testear la hipótesis nula de que los parámetros son iguales en cada
submuestra debemos aplicar el test F que se genera de comparar las sumas
5.4 TEST DE WALD 87
de los cuadrados de los residuos de cada sumuestra en relación con la del
modelo restringido (e
0
R
e
R
):
e
0
e = e
0
1
e
1
+e
0
2
e
2
+e
0
3
e
3
La ecuación del test F que aplicaremos en esta situación corresponde a:
F
c
=
(e
0
R
e
R
−e
0
e) / (T −k −(T −mk))
e
0
e/(T −mk)
∼ F (J, T −k)
⇒ F
c
=
(e
0
R
e
R
−e
0
e) / ((m−1) k)
e
0
e/(T −mk)
∼ F (J, T −k)
donde m corresponde al numero de submuestras consideradas (en nustro
ejemplo 3), T es el tamaño total de la muestra, y k es el número de parámetros
a estimar en cada modelo.
5.4 Test de Wald
Una manera alternativa de testear quiebres estructurales consiste en el test
de Wald. Este test analiza eventuales quiebres entre submuestras. Si recor-
damos el teorema que dice que el cuadrado de una distribución normal mul-
tivariada estandarizada de dimensión J tiene una distribución Chi-cuadrado
con J grados de libertad, entonces podemos parámetros estimados de pares
de regresiones de la siguiente manera:
ˆ
β
1
∼ N
k

1
, Σ
1
) Primera Regresión
ˆ
β
2
∼ N
k

2
, Σ
2
) Segunda Regresión
Al asumir la hipótesis nula de que ambos vectores de parámetros kx1 es-
timados son similares (H
0
: β
1
= β
2
) al calcular la diferencia entre ambos
vectores y estandarizando tenemos:
ˆ
β
1

ˆ
β
2
∼ N
k
(0, Σ
1

2
)
de manera que aplicando la defición de la Chi-cuadrado tendremos:
W =
³
ˆ
β
1

ˆ
β
2
´
0

1

2
]
−1
³
ˆ
β
1

ˆ
β
2
´
∼ χ
2
(k)
88 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES
La expresión muestral para calcular este test asume conocida las matrices de
varianzas y covarianzas Σ
1

2
, de manera que finalmente el test será:
W
c
=
³
ˆ
β
1

ˆ
β
2
´
0
h
ˆ
Σ
1
+
ˆ
Σ
2
i
−1
³
ˆ
β
1

ˆ
β
2
´
∼ χ
2
(k)
Si se observa que el valor W
c
es superior al valor de referencia obtenido de
tabla, entonces rechazamos la hipótesis nula de que los parámetros son los
mismos, es decir existiría evidencia de que hay cambio estructural en estas
submuestras. Alternativamente, al igual que lo que se hizo con el test F,
se puede analizar el valor de probabilidad (P − V alue) correspondiente al
test W
c
y si este es inferior a 0.05 entonces rechazamos la hipótesis al 5% de
significancia.
5.5 Tests CUSUM y CUSUMQ
Hasta ahora hemos asumido que conocemos el momento del eventual quiebre
estructural. es aquí donde se presenta la debilidad de los métodos de testeo
anteriores. Si el investigador no posee una claridad de cuando ocurrió el
quiebre (de existir) y a qué variable asociarlo, entonces es necesario aplicar
test que no requieran de esta información y más bien que entregen o anuncien
el momento eventual de quiebre (denuevo, de existir).
Los tests que se aplican actualmente son los conocidos como CUSUM
y CUSUMQ, siglas que se refieren a la suma de los residuos o los residuos
al cuadrado de una secuencia de modelos estimados. La hipótesis nula es la
estabilidad de los parámetros del modelo H
0
: β
t
= β, ∀t versus la alternativa
de que para todo o algún t esta relación se quiebra.
Conceptualmente estos tests se generan del análisis de los residuos esti-
mando recursivamente ecuaciones lineales incorporando cada vez una base de
datos más completa hasta que finalmente agotamos toda la muestra. Analíti-
camente se representan por:
cusum
t
=
j=t
P
j=k+1
c
j
s
cusumq
t
=
P
j=t
j=k+1
c
2
j
P
j=T
j=k+1
c
2
j
5.5 TESTS CUSUM Y CUSUMQ 89
donde:
c
j
=
y
j
−x
j
ˆ
β
[j−1]
s
³
1 +x
0
j
¡
X
0
j−1
X
j−1
¢
−1
x
0
j
´
| {z }
Varianza Predicha del Residuo (por σ
2
)
∼ N
¡
0, σ
2
¢
s
2
=
P
j=T
j=k+1
(c
j
−¯ c)
2
T −k −1
¯ c =
P
j=T
j=k+1
c
j
T −k
∼ N
µ
0,
σ
2
T −k

Los intervalos de confianza para el CUSUM se generan por la conexión
de dos líneas
¡
k, ±η

T −k
¢
y
¡
T, ±3η

T −k
¢
, donde el valor de η es 0.948
si se desea un intervalo del 95% y 1.143 si el intervalo es del 99%.
Para generar los intervalos de confianza del CUSUMQ hay que partir de
la distribución de la media de c:
¯ c ∼ N
µ
0,
σ
2
T −k

¯ c
q
σ
2
T−k
∼ N (0, 1)
Al aplicar la definición del test t −student a esta distribución sabremos cuál
es el intervalo que debemos agregar al coeficiente cusumq:
¯ c
q
σ
2
T−k
q
s
2
σ
2
(T −k −1) /(T −k −1)
=
¯ c
s

T−k
∼ t(T −k −1)
es decir el intervalo para CUSUMQ será:
P
j=t
j=k+1
c
2
j
P
j=T
j=k+1
c
2
j
−t
α
(T −k −1)
¯ c
s

T−k
≤ cusumq
t

P
j=t
j=k+1
c
2
j
P
j=T
j=k+1
c
2
j
+t
α
(T −k −1)
¯ c
s

T−k
Su popularidad se debe a que estos han sido incorporados el software
econométrico y que adicionalmente para su testeo no es necesario contrastar
el estadístico con ningun valor de tabla o P-Value. Es suficiente hacer una
90 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES
inspección visual a un par de figuras que presentan estos tests. Si los es-
tadísticos generados secuencialmente (CUSUM y CUSUMQ) se salen de los
intervalos de confianza predefinidos (por ejemplo la línea que se sale por el
límite superior de las figuras) entonces podemos decir que se rechaza la es-
tabilidad del modelo. Adicionalmente este test estaría indicando cuando se
produce el quiebre estructural.
Test CUSUM: Intervalos de Confianza
Test CUSUMQ: Intervalos de Confianza
Chapter 6
Distorsiones del Modelo de
Regresión
El modelo de regresión simple multivariado asume que los residuos se dis-
tribuyen en forma identica e independiante con valor esperado 0 y matriz de
varianzas y covarianzas σ
2
I. Este capítulo explora las implicancias y métodos
disponibles para corregir el procedimiento de estimación de mínimos cuadra-
dos cuando la matriz de varianzas y covarianzas no es σ
2
I.
6.1 Heteroscedasticidad
Una vez asumido que la matriz de varianzas y covarianzas de los residuos es
σ
2
I, podemos devolvernos a entender el por qué de este resultado. Recorde-
mos que una matriz de varianzas y covarianzas puede ser descompuesta en
tres matrices, dos de las cuales son idénticas:
E[εε
0
] = Λ = ΣΘΣ
91
92CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
donde cada matriz se define por:
Σ =

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Θ =

1 ρ
1,2
... ρ
1,T−1
ρ
1,T
ρ
2,1
1 ρ
2,T
... ... ...
ρ
T−1,1
... ...
ρ
T,1
ρ
T,2
... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Luego se puede escribir la anterior expresión como:
E [εε
0
] =

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

1 ρ
1,2
... ρ
1,T−1
ρ
1,T
ρ
2,1
1 ρ
2,T
... ... ...
ρ
T−1,1
... ...
ρ
T,1
ρ
T,2
... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Al asumir homoscedasticidad estamos imponiendo que las matrices Σ
sean σ-escalares es decir Σ = σI, y a su vez al imponer no autocorrelación
la matriz Θ corresponde a la identidad, Θ = I.
Al levantar el supuesto de homoscedasticidad ya no es posible definir a la
matriz de varianzas y covarianzas como σ
2
I, pues existirá una matriz Σ que
no es escalar, en donde los elementos de su diagonal no son constantes. Por
esta razón es que la matriz de varianzas y covarianzas se define ahora asum-
iendo solamente no autocorrelación pero si errores heteroscedásticos por:
E[εε
0
] = ΣΣ
6.1 HETEROSCEDASTICIDAD 93
Si factorizamos la matriz ΣΣ por σ
2
entonces podemos renombrar a la matriz
de varianzas y covarianzas como:
E[εε
0
] = Λ = ΣΣ = σ
2

donde la matriz Ω corresponde a una matriz diagonal definida por:
Ω =

ω
1
0 ... 0
0 ω
2
... 0
... ... ... ...
0 0 ... ω
T
¸
¸
¸
¸
¸
¸
¸
¸
Considerando la notación anterior entonces ahora analizaremos los efectos
que produce en los estimadores mínimos cuadrados el asumir heteroscedasti-
cidad en los residuos, es decir ahora asumiremos que:
ε ∼ N
¡
0, σ
2

¢
donde Ω no es la identidad.
6.1.1 Implicancias para Estimación
Para verificar si existe algún efecto sobre los estimadores mínimo cuadrados
consideremos el caso de un modelo general en su versión matricial como
y = xβ + ε, donde asumiremos que ε ∼ N (0, σ
2
Ω). lo más interesante es
verificar si los primeros momentos de este estimador se ven afectados, para lo
cual primero analizaremos el sesgo y segundo la varianza de los estimadores
bajo este nuevo escenario.
1. Sesgo. Si sabemos que
ˆ
β = (x
0
x)
−1
x
0
y entonces reemplacemos el mod-
elo en esta expresión:
ˆ
β = (x
0
x)
−1
x
0
y
= (x
0
x)
−1
x
0
(xβ +ε)
= (x
0
x)
−1
x
0
xβ + (x
0
x)
−1
x
0
ε
= β + (x
0
x)
−1
x
0
ε
94CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
Al aplicar el operador expectativa y considerando que E (ε) = 0, ten-
dremos que:
E
³
ˆ
β
´
= β + (x
0
x)
−1
x
0
E (ε)
E
³
ˆ
β
´
= β
de manera que aun bajo presencia de errores heteroscedásticos los es-
timadores mínimo cuadrados siguen siendo insesgados.
2. Varianza. Apartir de la expresión
ˆ
β = β+(x
0
x)
−1
x
0
ε podemos analizar
si los estimadores cumplen con la característica de ser los mejores esti-
madores, es decir aquellos que tienen la mínima varianza.
Al aplicar varianza sobre esta expresión, y recordando que V (ε) = Λ =
σ
2
Ω y que las x son variables determinísticas, llegamos a:
ˆ
β = β + (x
0
x)
−1
x
0
ε
V
³
ˆ
β
´
= V
³
β + (x
0
x)
−1
x
0
ε
´
V
³
ˆ
β
´
= (x
0
x)
−1
x
0
V (ε) x(x
0
x)
−1
V
³
ˆ
β
´
= (x
0
x)
−1
x
0
Λx(x
0
x)
−1
V
³
ˆ
β
´
= σ
2
(x
0
x)
−1
x
0
Ωx(x
0
x)
−1
Sabemos que de ser la matriz Ω = I, entonces los estimadores mínimo
cuadrados son eficientes (es decir de mínima varianza), de manera que
sabemos entonces que:
I < x
0
Ωx(x
0
x)
−1
, ∀Ω 6= I
La implicancia es que indudablemente los valores de las varianzas de los
estimadores serán mayores, de manera que si asumimos homoscedasti-
cidad y calculamos la varianza como σ
2
(x
0
x)
−1
claramente estaremos
subestimando la verdadera volatilidad de los estimadores, creyendolos
eficientes cuando en realidad no lo son, lo cual implica que al aplicar
tests t−student estemos rechazando hipótesis nulas cuando en realidad
estas son verdaderas (aumentando la probabilidad de error tipo I o er-
ror tipo α). En resumen, en presencia de errores heteroscedásticos los
estimadores mínimo cuadrados son ineficientes y los test estadísticos
pierden validez.
6.1 HETEROSCEDASTICIDAD 95
6.1.2 Tests de Heteroscedasticidad
Para iniciar el procedimiento de testeo de heteroscedasticidad es común en se-
ries de tiempo partir con el análisis visual de los residuos, puesto que al asumir
que su valor esperado es nulo entonces los cuadrados de estos pueden ser una
buena aproximación de la varianza residual, es decir, dado que E(ε) = 0,
entonces V (ε
t
) = σ
2
t
= E (ε
2
t
) −{E(ε
t
)}
2
= E (ε
2
t
).
Estadísticamente los tests de heteroscedasticidad se construyen con la
idea de encontrar alguna dependencia o relación de causalidad entre los resid-
uos (típicamente sus cuadrados o el logarítmo de ellos) y alguna otra variable
utilizando una ecuación auxiliar (típicamente lineal) a estimar. La hipótesis
nula se representa por:
H
0
: σ
2
t
= σ
2
, ∀t (Homocedasticidad)
versus la hipótesis alternativa de que para algun t esta relación no se cumple,
representada por la ecuación auxiliar siguiente:
H
a
: σ
2
t
= ω
0
+z
t
φ
donde z
t
es un vector fila de tamaño 1xm compuesto por m variables can-
didatas a explicar la heteroscedasticidad en el período t, φ es el vector de
tamaño mx1 constante para todo t, y ω
0
corresponde al escalar que repre-
sentaría el valor de la varianza (σ
2
) de existir homoscedasticidad, es decir si
no se rechaza la hipótesis de que φ = 0:
σ
2
t
= ω
0
+z
t
φ
σ
2
t
= ω
0
+z
t
0
σ
2
t
= ω
0
Empíricamente la batería de tests que se han diseñado se focalizan en
evaluar si este vector φ es estadisticamente cero, para lo cual se efectúa una
estimación por mínimos cuadrados de la ecuación auxiliar σ
2
t
= ω
0
+ z
t
φ
pero reemplazando la varianza por los cuadrados de los residuos del modelo
principal y = xβ+ε, es decir se reemplaza σ
2
t
= e
2
t
=
³
y
t
−x
t
ˆ
β
´
2
y se estima
alguna transformación de e
2
t
= ω
0
+z
t
φ.
A continuación se presentan los test más utilizados para verificar la exis-
tenia de errores heteroscedásticos:
96CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
1. Breusch-Pagan-Godfrey (BPG, 1978-1979). Se estima la siguiente re-
gresión:
e
2
t
= ω
0
+z
t
φ +ν
t
y se testea según el estadístico
ˆ
Ψ
BPG
= T·R
2
[a]
∼ χ
2
(m). T corresponde
al número de observaciones consideradas en la estimación del modelo
auxiliar y R
2
[a]
es el coeficiente de determinación de la ecuación auxiliar.
Si el test calculado
ˆ
Ψ supera el valor de tabla entonces rechazamos
homoscedasticidad.
2. Glejser (1969). Aquí la variable dependiente es el valor absoluto de los
residuos muestrales, de manera que se estima:
|e
t
| = ω
0
+z
t
φ +ν
t
y el test que se distribuye como chi-cuadrado con m grados de libertad
se representa por (ˆ ν es el vector de residuos estimados de la regresión
auxiliar):
ˆ
Ψ
G
=
SCT
[a]
− ˆ v
0
ˆ v
h
¡
1 −
2
π
¢
s
2
[a]
i
donde s
2
[a]
=
ˆ v
0
ˆ v
T−(m+1)
, y SCT
[a]
corresponden a la varianza residual
y la suma de los cuadrados totales
P
³
|e
t
| −
³ _
|e
t
|
´´
2
de la ecuación
auxiliar respectivamente. Luego si el estadístico
ˆ
Ψ
G
supera al χ
2
α
(m)
de tabla entonces rechazamos la hipótesis nula de homoscedasticidad
existiendo evidencia de errores heteroscedásticos.
3. Harvey (1976). Andrew Harvey en su artículo "Estimating Regression
Models with Miltiplicative Heteroskedasticity" (ECONOMETRICA,
Vol. 44, pag. 461-465) utiliza como variable explicativa el logaritmo de
los residuos al cuadrado, de manera que la ecuación a estimar es:
ln
¡
e
2
t
¢
= ω
0
+z
t
φ +ν
t
y el test que se distribuye chi-cuadrado con m grados de libertad es:
ˆ
Ψ
H
=
SCT
[a]
4.9348
Al igual que en los casos anteriores, si
ˆ
Ψ
H
es superior al respectivo
valor de tabla χ
2
α
(m) entonces existe evidencia de heteroscedasticidad
en los residuos.
6.1 HETEROSCEDASTICIDAD 97
4. Modelo Heteroscedástico con Media Condicional. En este caso se asume
que la variable explicativa es la variable dependiente estimada del mod-
elo principal (ˆ y
t
), de manera que el modelo a estimar es:
e
2
t
= ω
0
+φˆ y
t

t
Para este caso el test posee un grado de libertad, y φ corresponde
al parámetro que acompaña a ˆ y
t
. El test a aplicar aquí corresponde
aun chi-cuadrado pero con un grado de libertad y se contrasta con el
estadístico:
ˆ
Ψ
MC
= T · R
2
[a]
Si
ˆ
Ψ
MC
supera a χ
2
α
(1) entonces existe evidencia de heteroscedastici-
dad.
5. Modelo Heteroscedástico con Media-Cuadrada Condicional. En este
caso se asume que la variable explicativa es la variable dependiente es-
timada del modelo principal al cuadrado (ˆ y
2
t
), de manera que el modelo
a estimar es:
e
2
t
= ω
0
+φˆ y
2
t

t
Para este caso el test posee un grado de libertad, y φ corresponde
al parámetro que acompaña a ˆ y
2
t
. El test a aplicar aquí corresponde
aun chi-cuadrado pero con un grado de libertad y se contrasta con el
estadístico:
ˆ
Ψ
MCC
= T · R
2
[a]
Si
ˆ
Ψ
MCC
supera a χ
2
α
(1) entonces existe evidencia de heteroscedastici-
dad.
6. Modelo Heteroscedástico con log-Media-Cuadrada Condicional. En este
caso se asume que la variable explicativa es la variable dependiente
estimada del modelo principal al cuadrado y en logaritmo (ln(ˆ y
2
t
)), de
manera que el modelo a estimar es:
e
2
t
= ω
0
+φln
¡
ˆ y
2
t
¢

t
Para este caso el test posee un grado de libertad, y φ corresponde al
parámetro que acompaña a ln(ˆ y
2
t
). El test a aplicar aquí corresponde
aun chi-cuadrado con un grado de libertad y se contrasta con el es-
tadístico:
ˆ
Ψ
MLCC
= T · R
2
[a]
98CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
Si
ˆ
Ψ
MLCC
supera a χ
2
α
(1) entonces existe evidencia de heteroscedasti-
cidad.
7. Modelo Autoregresivo Heteroscedástico Condicional (ARCH). Este tests
está asociado a Robert Engle, quien en 1982 publica en el Journal
of Econometrics el artículo "A General Approach to Lagrange Mul-
tiplier Model Diagnostics". En este tipo de modelos la(s) variable(s)
explicativa(s) es el propio rezago de la variable dependiente, es decir
los cuadrados de los residuos rezagados q veces, representación que por
lo demás ha sido muy difundida para analizar retornos de precios de
activos (especialmente retornos accionarios).
La representación a estimar corresponde a:
e
2
t
= ω
0

1
e
2
t−1

2
e
2
t−2
+... +φ
q
e
2
t−q

t
El test evalúa si los coeficientes φ
j
son conjuntamente cero (homoscedas-
ticidad) para lo cual se compara el estadístico:
ˆ
Ψ
ARCH
= (T −q) R
2
[a]
Si
ˆ
Ψ
ARCH
supera al test chi-cuadrado con q grados de libertad, χ
2
α
(q),
entonces hay evidencia de errores heteroscedásticos.
8. White (1980). En su artículo "A Heteroskedastic-Consistent Covari-
ance Matrix and a Direct Test for Heteroskedasticity" (ECONOMET-
RICA Vol. 48, pag. 421-48) presenta un test que no requiere de an-
temano listar qué variable o variables son las candidatas a explicar
el comportamiento heteroscedastico de los errores. Simplemente con-
sidera como potenciales variables explicativas a todas las que están
involucradas en el modelo principal y = xβ + ε. Las introduce como
variables en la ecuación auxiliar de tres formas simultáneamente: en
niveles, al cuadrado y multiplicándose entre ellas.
La expresión a estimar será entonces:
e
2
t
= ω
0
+z
t
φ
z
+z
2
t
φ
z
2 +
P
z
it
z
jt
φ
ij

t
es decir si el modelo original y = xβ +ε posee k parámetros a estimar
(la constante y k −1 variables explicativas) entonces el modelo auxiliar
6.1 HETEROSCEDASTICIDAD 99
de White tendrá que estimar un total de k
0
=
³
(k+1)(k+2)
2
´
parámet-
ros considerando la constante, las variables en niveles, las variables
al cuadrado, y los efectos cruzados de las variables (multiplicación de
variables entre sí).
El test estadístico se distribuye chi-cuadrado con (k
0
−1) grados de
libertad y se obtiene de:
ˆ
Ψ
W
= T · R
2
[a]
Si
ˆ
Ψ
W
es superior al chi-cuadrado de tabla χ
2
α
(k
0
) entonces rechazamos
la hipótesis nula de homoscedasticidad.
6.1.3 Corrección
Existen básicamente dos formas de corregir bajo la presencia de heteroscedas-
ticidad. Una es el procedimiento de White o su versión más general conocida
como el Método de Mínimos Cuadrados Generalizados o Mínimos Cuadrados
Ponderados (MCG) y la segunda es estimación por máximo verosimilitud,
esta última se deja para una discusión posterior.
1. Mínimos Cuadrados Generalizados (MCG). Dado que sabemos que en
general la matriz de varianzas y covarianzas de los parámetros esti-
mados se representa por (x
0
x)
−1
x
0
Λx(x
0
x)
−1
y sabemos que los esti-
madores no son los de mínima varianza en este caso. Si conocieramos
la matriz Λ podríamos generar residuos cuya matriz sea escalar de man-
era que los estimadores generados a partir de ese modelo corregido si
entrege estimadores de mínima varianza. En esto consiste el método
de mínimos cuadrados ponderados: aplicar mínimos cuadrados a una
transformación del sistema original y = xβ +ε.
Para esto, dado que Λ es una matriz simétrica y definida positiva,
entonces podemos definir una matriz H que satisfaga la condición
HΛH
0
= I. En otras palabras vemos que Λ = H
−1
H
−10
de forma
que Λ
−1
= H
0
H.
Si nuestro modelo original es:
y = xβ +ε
ε ∼ N (0, Λ)
100CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
entonces el modelo transformado será:
Hy = Hxβ +Hε
Hy = Hxβ +η
η ∼ N (0, I)
pues V (Hε) = H
0
V (ε) H = H
0
ΛH = I. Luego en este sistema si se
sabemos que los estimadores mínimo cuadrados son eficientes (de mín-
ima varianza) de manera que podemos hacer inferencia con los errores
estandar estimados. Los estimadores MCG serán al igual que en el
caso de mínimos cuadrados ordinarios generados a partir de la fórmula
ˆ
β = (x
0
x)
−1
x
0
y, lo cual aplicado a nuestro sistema modificado será:
ˆ
β
MCG
= ((x
0
H
0
) (Hx))
−1
(x
0
H
0
) (Hy)
pero como hemos definido anteriormente que H
0
H = Λ
−1
, entonces
simplificamos la expresión anterior a:
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
y
Dado que ahora el nuevo residuo η tiene una varianza identidad, la
varianza de los estimadores MGC se deducirá de al expresión anterior:
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
y
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
(xβ +ε)
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
xβ +
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
ε
ˆ
β
MCG
= β +
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
ε
Al aplicar varianza a la expresión
³
ˆ
β
MCG
−β
´
y simplificando nos
queda (recordando que V (ε) = Λ):
Σ
ˆ
β
MCG
= V
h
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
ε
i
Σ
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
V (ε) Λ
−1
x
¡
x
0
Λ
−1
x
¢
−1
Σ
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
ΛΛ
−1
x
¡
x
0
Λ
−1
x
¢
−1
Σ
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
x
0
Λ
−1
x
¡
x
0
Λ
−1
x
¢
−1
Σ
ˆ
β
MCG
=
¡
x
0
Λ
−1
x
¢
−1
6.1 HETEROSCEDASTICIDAD 101
de manera que finalmente sabemos que la distribución de los esti-
madores MCG será insesgada y con matriz de varianzas y covarian-
zas (x
0
Λ
−1
x)
−1
. Dado que el estimador
ˆ
β
MCG
es de mínima varianza
en relación al estimador de mínimos cuadrados bajo presencia de het-
eroscedasticidad entonces podemos decir que:
Σ
ˆ
β
MCG
≤ Σ
ˆ
β
MCO
¡
x
0
Λ
−1
x
¢
−1
≤ (x
0
x)
−1
x
0
Λx(x
0
x)
−1
Naturalmente para hacer las estimaciones y la aplicación de este pro-
cedimiento debemos tener un estimador de Λ. Una vez que se encuentre
el estimador
ˆ
Λ generamos las representaciones muestrales (estimadas)
de las expresiones para los estimadores
ˆ
β
EMCG
y la matriz de varianzas
estimada
ˆ
Σ
ˆ
β
MCG
:
ˆ
β
EMCG
=
³
x
0
ˆ
Λ
−1
x
´
−1
x
0
ˆ
Λ
−1
y
ˆ
Σ
ˆ
β
MCG
=
³
x
0
ˆ
Λ
−1
x
´
−1
White entrega un estimador para
ˆ
Λ centrando su atención en corregir la
matriz de varianzas y covarianzas con el fin de hacer inferencia, dejando
inalterado los estimadores mínimos cuadrados.
2. White (1980). En su artículo se presenta cómo obtener consistencia
para la matriz de varianza y covarainzas y así poder calcular errores
estándar correctos de los estimadores y efectuar con confianza tests
t − student. Recordemos que en presencia de heteroscedasticidad la
matriz de varianzas y covarianzas se representa por:
Σ
ˆ
β
= (x
0
x)
−1
x
0
Λx(x
0
x)
−1
La proposición de White es reemplazar Λ por su expresión muestral de
manera que si ε
t
∼ N (0, σ
2
t
):
³
ˆ
β −β
´
= (x
0
x)
−1
x
0
ε
³
ˆ
β −β
´
= (x
0
x)
−1
T
P
t=1
x
0
t
ε
t
∀t
102CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
entonces al aplicar operador varianza:
Σ
ˆ
β
= (x
0
x)
−1
V
·
T
P
t=1
x
0
t
ε
t
¸
(x
0
x)
−1
Σ
ˆ
β
= (x
0
x)
−1
·
T
P
t=1
x
0
t
V [ε
t
] x
t
¸
(x
0
x)
−1
Σ
ˆ
β
= (x
0
x)
−1
·
T
P
t=1
x
0
t
σ
2
t
x
t
¸
(x
0
x)
−1
Σ
ˆ
β
= (x
0
x)
−1
·
T
P
t=1
x
0
t
x
t
σ
2
t
¸
(x
0
x)
−1
entonces la matriz de covarianzas consistente se obtiene de reemplazar
σ
2
t
= e
2
t
en la expresión anterior:
ˆ
Σ
ˆ
β
= (x
0
x)
−1
·
T
P
t=1
x
0
t
x
t
e
2
t
¸
(x
0
x)
−1
Esta matriz será consistente y puede ser utilizada para hacer inferencia
sobre los parámetros estimados.
6.2 Autocorrelación
La discusión de la autocorrelación sigue un procedimiento muy similar la caso
de la heteroscedasticidad y los problemas que causa sobre los estimadores
mínimo cuadrados también.
Recordemos nuevamente que una matriz de varianzas y covarianzas puede
ser descompuesta en tres matrices, dos de las cuales son idénticas:
E[εε
0
] = Λ = ΣΘΣ
donde al igual que en caso de la heteroscedasticidad cada matriz se define
6.2 AUTOCORRELACIÓN 103
por:
Σ =

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Θ =

1 ρ
1,2
... ρ
1,T−1
ρ
1,T
ρ
2,1
1 ρ
2,T
... ... ...
ρ
T−1,1
... ...
ρ
T,1
ρ
T,2
... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Luego se puede escribir la anterior expresión como:
E [εε
0
] =

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

1 ρ
1,2
... ρ
1,T−1
ρ
1,T
ρ
2,1
1 ρ
2,T
... ... ...
ρ
T−1,1
... ...
ρ
T,1
ρ
T,2
... 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

σ
1
0 ... 0 0
0 σ
2
0
... ... ...
0 ... ...
0 0 ... σ
T
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Al asumir no autocorrelación de los residuos estamos imponiendo que la
matriz Θ sea la matriz identiodad, Θ = I, y a su vez al imponer homoscedas-
ticidad la matrices Σ corresponden a matrices escalares σI.
Al levantar el supuesto de no autocorrelación ya no es posible definir
a la matriz de varianzas y covarianzas como σ
2
I, pues existirá una matriz
Θ que no es la identidad. Por esta razón es que la matriz de varianzas
y covarianzas se define ahora asumiendo homoscedasticidad pero si errores
autocorrelacionados:
E [εε
0
] = Λ = σ
2
Θ
Considerando la notación anterior analizaremos los efectos que produce en
los estimadores mínimos cuadrados el asumir autocorrelación en los residuos,
104CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
es decir asumiremos que:
ε ∼ N
¡
0, σ
2
Θ
¢
donde Θ no es la identidad.
6.2.1 Implicancias para Estimación
Para verificar si existe algún efecto sobre los estimadores mínimo cuadrados
consideremos el caso de un modelo general en su versión matricial como
y = xβ + ε, donde asumiremos que ε ∼ N (0, σ
2
Θ). lo más interesante es
verificar si los primeros momentos de este estimador se ven afectados, para lo
cual primero analizaremos el sesgo y segundo la varianza de los estimadores
bajo este nuevo escenario donde Θ 6= I.
1. Sesgo. Si sabemos que
ˆ
β = (x
0
x)
−1
x
0
y entonces reemplacemos el mod-
elo en esta expresión:
ˆ
β = (x
0
x)
−1
x
0
y
= (x
0
x)
−1
x
0
(xβ +ε)
= (x
0
x)
−1
x
0
xβ + (x
0
x)
−1
x
0
ε
= β + (x
0
x)
−1
x
0
ε
Al aplicar el operador expectativa y considerando que E (ε) = 0, ten-
dremos que:
E
³
ˆ
β
´
= β + (x
0
x)
−1
x
0
E (ε)
E
³
ˆ
β
´
= β
de manera que aun bajo presencia de errores autocorrelacionados los
estimadores mínimo cuadrados siguen siendo insesgados.
2. Varianza. Apartir de la expresión
ˆ
β = β+(x
0
x)
−1
x
0
ε podemos analizar
si los estimadores cumplen con la característica de ser los mejores esti-
madores, es decir aquellos que tienen la mínima varianza.
Al aplicar varianza sobre esta expresión, y recordando que V (ε) = Λ =
6.2 AUTOCORRELACIÓN 105
σ
2
Θ y que las x son variables determinísticas, llegamos a:
ˆ
β = β + (x
0
x)
−1
x
0
ε
V
³
ˆ
β
´
= V
³
β + (x
0
x)
−1
x
0
ε
´
V
³
ˆ
β
´
= (x
0
x)
−1
x
0
V (ε) x(x
0
x)
−1
V
³
ˆ
β
´
= (x
0
x)
−1
x
0
Λx(x
0
x)
−1
V
³
ˆ
β
´
= σ
2
(x
0
x)
−1
x
0
Θx(x
0
x)
−1
Sabemos que de ser la matriz Θ = I, entonces los estimadores mínimo
cuadrados son eficientes (es decir de mínima varianza), de manera que
sabemos entonces que:
I < x
0
Θx(x
0
x)
−1
, ∀Θ 6= I
La implicancia es que indudablemente los valores de las varianzas de
los estimadores serán mayores, de manera que si asumimos no autocor-
relación y calculamos la varianza como σ
2
(x
0
x)
−1
claramente estaremos
subestimando la verdadera volatilidad de los estimadores, creyéndolos
eficientes cuando en realidad no lo son, lo cual implica que al aplicar
tests t − student estemos rechazando hipótesis nulas cuando en real-
idad estas son verdaderas (aumentando la probabilidad de error tipo
I o error tipo α). En resumen, en presencia de autocorrelación de los
residuos, los estimadores mínimo cuadrados son ineficientes y los test
estadísticos pierden validez.
6.2.2 Tests de Autocorrelación
Para iniciar el procedimiento de testeo de autocorrelación de los residuos el
primer paso consiste en una inspección gráfica de los residuos en el tiempo.
Este procedimiento es estadíticamente muy débil y solamente si la autocor-
relación es muy fuerte entonces se observará algo en la gráfica, pero de ser
uns correlación débil es necesario la aplicación de una batería de tests espe-
cialmente diseñada para tal efecto.
Estadísticamente los tests de heteroscedasticidad se construyen con la
idea de encontrar alguna dependencia o relación de causalidad temporal entre
106CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
los residuos estimando una ecuación auxiliar al igual que con la heteroscedas-
ticidad. La hipótesis nula se representa por:
H
0
: ρ = 0 , ∀t (No Autocorrelación)
versus la hipótesis alternativa de que para algún t esta relación no se cumple.
La ecuación auxiliar general se puede representar por:
H
a
: ε
t
= ρ
1
ε
t−1

2
ε
t−2
+... +ρ
q
ε
t−q
donde ρ es un vector de tamaño qx1. De no existir autocorrelación de los
residuos el vector de parámetros compuesto por q residuos rezagados para
explicar la autocorrelación. De no existir autocorrelación residual de orden
q la hipótesis nula ρ = 0 no es rechazada.
Empíricamente la batería de tests que se han diseñado se focalizan en
evaluar si este vector ρ es estadisticamente cero, para lo cual se efectúa una
estimación por mínimos cuadrados de la ecuación auxiliar pero reemplazando
ε
t
por los residuos muestrales del modelo principal y = xβ + ε, es decir se
reemplaza ε
t
= e
t
=
³
y
t
−x
t
ˆ
β
´
y se estima e
t
= ρ
1
e
t−1

2
e
t−2
+...+ρ
q
e
t−q
+
ν
t
.
A continuación se presentan los test más utilizados para verificar la exis-
tenia de errores autocorrelacionados:
1. Durbin-Watson (1950, 1951). El estadístico de Durbin y Watson (d) es
uno de los test más tradicionales para evaluar autocorrelación residual
de primer orden (q = 1). A partir de la estimación de modelo principal
se generan los residuos muestrales e
t
. A partir de estos se calcula el
estadístico d como:
d =
P
T
t=2
(e
t
−e
t−1
)
2
P
T
t=1
e
2
t
Este estadístico tiene una estrecha relación con el coeficiente de au-
tocorrelación ρ de la regresión auxiliar. Si estimamos ρ utilizando
el método de los mínimos cuadrados aplicado a la ecuación auxiliar
e
t
= ρe
t−1

t
, el coeficiente estimado sería (recordemos que ¯ e →0):
ˆ ρ =
P
T
t=2
e
t−1
e
t
P
T
t=2
e
2
t−1
6.2 AUTOCORRELACIÓN 107
De la expresión para el test d se puede concluir que:
ˆ
d =
P
T
t=2
(e
t
−e
t−1
)
2
P
T
t=1
e
2
t
ˆ
d =
P
T
t=2
¡
e
2
t
+e
2
t−1
−2e
t
e
t−1
¢
P
T
t=1
e
2
t
ˆ
d =
P
T
t=2
e
2
t
P
T
t=1
e
2
t
+
P
T
t=2
e
2
t−1
P
T
t=1
e
2
t

P
T
t=2
2e
t
e
t−1
P
T
t=1
e
2
t
Dado que los dos primeros términos son bastante similares, y además
reemplazando
P
T
t=1
e
2
t

P
T
t=2
e
2
t−1
entonces podemos escribir esta úl-
tima expresión como:
ˆ
d ≈ 2 −
P
T
t=2
2e
t
e
t−1
P
T
t=2
e
2
t−1
ˆ
d ≈ 2
Ã
1 −
P
T
t=2
e
t
e
t−1
P
T
t=2
e
2
t−1
!
Note sin embargo que esta última expresión también se puede escribir
como:
ˆ
d ≈ 2
Ã
1 −
P
T
t=2
e
t
e
t−1
P
T
t=2
e
2
t
!
donde hemos utilizado la aproximación
P
T
t=2
e
2
t

P
T
t=2
e
2
t−1
de manera
que en la práctica el coeficiente ˆ ρ lo podemos extraer de una estimación
del tipo e
t
= ρe
t−1
+ ν
t
o una expresión auxiliar inversa como e
t−1
=
ρe
t

t−1
. Este punto es relevante para otros tests que se presentarán
más adelante.
Finalmente reemplazando por el coeficiente estimado del factor de au-
tocorrelación ˆ ρ llegamos a la expresión que relaciona el estadístico d
con el coeficiente de autocorrelación de primer orden ρ:
ˆ
d ≈ 2 (1 −ˆ ρ)
Claramente la hipótesis nula ρ = 0 indica implícitamente la hipótesis
H
0
: d = 0. Para verificar los extremos del estadístico d analicemos los
108CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
valores posibles del coeficiente de autocorrelación:
ˆ ρ = −1 =⇒
ˆ
d = 4 Autocorrelación Negativa
ˆ ρ = 0 =⇒
ˆ
d = 2 No Autocorrelación
ˆ ρ = 1 =⇒
ˆ
d = 0 Autocorrelación Positiva
Este test es uno de los pocos que se contrasta con dos valores de una
misma tabla. Considerando un nivel de significancia de α% se debe de-
terminar el número de parámetros estimados en la ecuación o modelo
principal y = xβ + ε sin considerar la constante (k − 1), y el número
de observaciones utilizadas en la estimación (T). Con esta información
la tabla entrega dos estadísticos d
l
, d
u
, donde d
l
< d
u
. Dado que el
estadístico d pertenece al intervalo [0, 4] los valores de tabla también
estarán acotados a ese mismo intervalo. Dependiendo del valor que
toma el estadístico d en relación a los valores de tabla, rechazaremos o
no la hipótesis nula de no autocorrelación de primer orden de los resid-
uos. La siguiente tabla entrega estas relaciones de la cual se concluye
que rechazamos la hipótesis nula de no autocorrelación si el estadístico
d cae duera del intervalo [d
l
, 4 −d
l
]:
d < d
l

Rechazo H
0
Autocorrelación Positiva

d
l
< d < d
u
Región Inconclusa
d
u
< d < 4 −d
u
No Rechazo H
0
4 −d
u
< d < 4 −d
l
Región Inconclusa
d > 4 −d
l

Rechazo H
0
Autocorrelación Negativa

Ejercicio. Supongamos que estimamos un modelo de demanda por
un producto q con dos variables explicativas: ingreso (y) y precio del
producto (p), con los siguientes resultados:
ˆ q
t
= 25.89 −1.12p
t
+ 0.89y
t
ˆ
d = 1.39
T = 85
6.2 AUTOCORRELACIÓN 109
Si observamos los valores de tabla de referencia al 5% para k −1 = 2
con 85 observaciones se obtiene:
d
l
= 1.600
d
u
= 1.696
Dado que el estadístico
ˆ
d = 1.39 < d
l
= 1.6 entonces rechazamos la
hipótesis nula que los residuos no están autocorrelacionados en favor
de que eventualmente existe autocorrelación positiva.
Asumamos que esa autocorrelación provendría del hecho de que de-
jamos fuera una variable relevante como es el precio del producto susti-
tuto (p
s
) y estimamos el modelo con esta variable incluída. Los resul-
tados son:
ˆ q
t
= 23.19 −1.01p
t
+ 0.94y
t
+ 0.43p
st
ˆ
d = 1.89
T = 230
Ahora el estadístico
ˆ
d = 1.89 con k − 1 = 3, y cae en el intervalo
[d
u
, 4 −d
u
] = [1.721, 2.279] de manera que ahora con el modelo cor-
regido e incorporando la variable causante de la autocorrelación, no
rechazamos la hipótesis nula de no autocorrelación de los residuos.
2. Durbin-h (1970). Este test se utiliza cuando la ecuación principal tiene
como variables explicativas rezagos de la variable endógena o dependi-
ente, es decir variables y
t−j
con j > 1. La hipótesis nula sigue siendo no
autocorrelación de primer orden y el sistema a estimar se representará
por:
y = xβ +y
−j
γ +ε
ε
t
= ρε
t−1

t
donde en este caso el parámetro γ posee una dimensión jx1 donde j es el
número de rezagos que presenta la variable y como variable explicativa.
Recordemos que el parámetro de autocorrelación ρ lo podemos también
calcular de la expresión auxiliar inversa ε
t−1
= ρε
t

t−1
En este caso el test h se distribuye asintóticamente como una normal
estandarizada definida por:
ˆ
h = ˆ ρ
"
T −j
1 −(T −j)
ˆ
V
¡
ˆ γ
[−1]
¢
#1
2
∼ N (0, 1)
110CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
donde j corresponde al número de rezagos utilizados de la variable
endógena como variable explicativa, ˆ γ
[−1]
es el parámetro asociado al
primer rezago de estas variables endógenas explicativas, y T − j cor-
responde al número de observaciones utilizadas en la estimación del
modelo principal.
Dado que
ˆ
h ∼ N (0, 1) entonces si este estadístico pertenece al intervalo
[−1.96, 1.96] al 5% (o al intervalo [−1.645, 1.645] con un nivel de sig-
nificancia del 10%) no rechazamos la hipótesis nula de que los residuos
no siguen un proceso de autocorrelación de primer orden.
Ejercicio. Supongamos que en una regresión para estudiar la inflación
se utilizan dos rezagos de la inflación como variables explicativas. El
resultado de las estimaciones es el siguiente (errores estándar entre
paréntesis):
ˆ π
t
= 2.21 + 0.65π
t−1
+ 0.12π
t−2
+ 0.89 · ˙ m
t
(0.04) (0.04) (0.06) (0.12)
ˆ
d = 0.87
T = 180
donde π es la inflación en t, y ˙ m es la tasa de crecimiento de la cantidad
de dinero en t.
A partir de estos resultados sabemos queno podemos aplicar el test
tradicional de Durbin-Watson. En este caso al existir variables de-
pendientes rezagadas en la ecuación entonces debemos aplicar el test
h-Durbin:
ˆ
h = ˆ ρ
"
T −j
1 −(T −j)
ˆ
V
¡
ˆ γ
[−1]
¢
#1
2
ˆ
h = 0.87
·
180 −2
1 −(180 −2) (0.04)
2
¸1
2
ˆ
h = 13.725
Claramente este valor supera los valores relevantes de una tabla estadís-
tica normal (1.645 ó 1.96), lo cual implica que rechazamos la hipótesis
de no autocorrelación de primer orden de los residuos.
6.2 AUTOCORRELACIÓN 111
3. Multiplicador de Lagrange para Correlación Serial. Este test es muy
utilizado para evaluar modelos con procesos autoregresivos de los resid-
uos superiores a uno. A diferencia de los test anteriores, la ecuación
auxiliar a estimar contiene el conjunto de variables explicativas del
modelo principal además de los rezagos de los residuos por analizar:
y = xβ +ε
ε
t
= xγ +ρ
1
ε
t−1

2
ε
t−2
+... +ρ
q
ε
t−q

t
Reemplazando los residuos poblacionales por los muestrales (ε
t
= e
t
)
implementamos el test como:
ˆ
Ψ
LM
= (T −q) R
2
[a]
∼ χ
2
(q)
Al igual que en los casos anteriores donde se aplicaron test de esta
clase, la hipótesis nula H
0
: ρ
1
= ρ
2
= ... = ρ
q
= 0 (no autocorrelación
de orden q de los residuos) será rechazada si es que el estadístico
ˆ
Ψ
LM
supera a su similar de tabla χ
2
α
(q).
4. Multiplicador de Lagrange para Correlación Serial con Rezagos de y.
La diferencia de este test con respecto al del punto anterior es que
es más general pues permite la existencia de variables rezagadas (y
−j
)
como variables explicativas de y. La ecuación auxiliar a estimar con-
tiene el conjunto de variables explicativas del modelo principal además
de los rezagos de los residuos por analizar:
y = xβ +y
−j
γ +ε
ε
t
= xβ +y
−j
γ +ρ
1
ε
t−1

2
ε
t−2
+... +ρ
q
ε
t−q

t
Reemplazando los residuos poblacionales por los muestrales (ε
t
= e
t
)
implementamos el test como:
ˆ
Ψ
LME
= (T −(j +q)) R
2
[a]
∼ χ
2
(q)
donde ahora restamos al número de observaciones T el número de ob-
servaciones perdidas en estimar el modelo original j y las del mod-
elo auxiliar q. Al igual que en el caso anterior, la hipótesis nula
H
0
: ρ
1
= ρ
2
= ... = ρ
q
= 0 (no autocorrelación de orden q de los
residuos) será rechazada si es que el estadístico
ˆ
Ψ
LME
supera a su sim-
ilar de tabla χ
2
α
(q).
112CHAPTER6 DISTORSIONES DEL MODELODEREGRESIÓN
5. Box-Pierce (1970) o test Q. Este test se basa en el análisis conjunto de
los coeficientes estimados de la ecuación auxiliar para verificar si son
estadísticamente ceros. Estos coeficientes son las correlaciones de los
residuos de manera que se analizan:
γ
ε
s
ε
t
=
Cov (ε
s
, ε
t
)
V ar (ε
t
)
=
E(ε
s
, ε
t
)
E(ε
2
t
)
Tal como sabemos este coeficiente es equivalente al parámetro de la
ecuación auxiliar inversa:
ε
t−s
= γ
s
ε
t

t−s
∀s = 1, 2, ..., q
donde el ˆ γ se calcula como la razón entre las covarianzas y la varianza
de la variable dependiente. Estimando la expresión anterior utilizando
los residuos e
t
en lugar de ε
t
estimamos un vector ˆ γ de dimensión qx1.
Los autores demuestran que el estadístico relevante para evaluar la
hipótesis nula de que no existe autocorrelación de residuos se define
por (expresiones equivalentes):
Q = T
q
P
s=1
γ
2
s
∼ χ
2
(q)
Q = Tˆ γ
0
ˆ γ ∼ χ
2
(q)
de manera que si este estadístico supera a su equivalente χ
2
α
(q) entonces
rechazamos la nula presentándose evidencia de autocorrelación de orden
q de los residuos.
6. Ljung-Box (1978) o test Q’. Una perfección de este test lo presentan
Ljung y Box. Utilizando la misma ecuación auxiliar del test Box-Pierce
definen al estadístico:
Q
0
= T (T + 2)
q
P
s=1
·
γ
2
s
(T −s)
¸
∼ χ
2
(q)
Si el estadístico Q
0
es mayor a su equivalente de tabla χ
2
α
(q), entonces
rechazamos la hipótesis nula H
0
: γ
1
= γ
2
= ... = γ
q
= 0.

4

CHAPTER 2 CONCEPTOS ESTADíSTICOS

Aquí se puede apreciar que las dos primeras condiciones se cumplen fácilmente. Para el caso de la segunda condición, si por ejemplo se define A = {2}, entonces su complemento Ac está en el conjunto S y esto se dá para todo conjunto potencial A. Cada uno de los ocho elementos que pertenecen a S pueden ser operados con el operador U ni´n para todo n, y siempre es posio ble verificar que dicha unión pertenece al conjunto S, el conjunto σ-algebra.¥ Ejercicio. S = {1, 2, 3, 4}. Evaluar si el conjunto S es σ-algebra: S = {∅, {1}, {2}, {2, 3, 4}, {1, 3, 4}, {1, 2, 3, 4}} Aquí se puede apreciar que las dos primeras condiciones se cumplen fácilmente. Para el caso de la segunda condición, si por ejemplo se define A = {2, 3, 4}, entonces su complemento Ac está en el conjunto S y esto se dá para todo conjunto potencial A. Cada uno de los seis elementos que pertenecen a S pueden ser operados con el operador Uni´n para todo n. En o este caso es posible verificar que dicha unión no siempre pertenece al conjunto S, por ejemplo {1, 2} ∈ S. Luego, el conjunto S no es σ-algebra.¥ / Definición. Un par (S, S), conformado por un conjunto S y su σ-algebra S de sus subconjuntos se denomina espacio medible. Cualquier conjunto A ∈ S se denomina conjunto medible. Definición. Sea A el conjunto de intervalos abiertos en < : (−∞, b), (a, b), (a, +∞), (−∞, +∞) Cada σ-algebra que contenga A debe también contener todos los intervalos cerrados (complementos). La menor σ-algebra que contenga todos los conjuntos o intervalos abiertos se denomina Borel-algebra, y se denota por B. Cualquier conjunto que pertenezca a B se denomina conjunto de Borel. Definición. Sea (S, S) un espacio medible. Una medida es una función ¯ real extendida µ : S → <, tal que se dan las siguientes tres condiciones ¯ (< ≡ < ∪ {−∞, +∞}): 1. µ(∅) = 0 2. µ(A) ≥ 0, ∀A ∈ S 3. Si {An }∞ es un conjunto de secuencias disjuntas numerables (contan=1 P bles) en S, entonces µ (∪∞ An ) = ∞ µ(An ). n=1 n=1

2.1 FUNCIONES ALEATORIAS

5

Definición. Un espacio medida es una tripleta (S, S, µ), donde S es un conjunto, S es el σ-algebra de sus subconjuntos, y µ es una medida definida en S. Definición. Si µ(S) = 1, entonces µ no se denomina medida sino que medida de probabilidad, y la tripleta (S, S, µ) se denomina espacio de probabilidad, en lugar de espacio de medida. Luego en este caso el conjunto medible A ∈ S se denomina evento, y µ(A) se denomina probabilidad del evento A. Aquí usualmente se cambia la notación a P(A), es decir la tripleta es (S, S, P). Definición. Dado un espacio medible (S, S), una función de valor real η es medible con respecto a S, es decir es S-medible, si: Si este espacio es un espacio de probabilidad, entonces η se denomina VARIABLE ALEATORIA. Ejemplo. Considere el conjunto S = {1, 2, 3, 4}, y el σ-algebra S = {∅, {1}, {2}, {2, 3, 4}, {1, 3, 4}, {1, 2}, {3, 4}, {1, 2, 3, 4}}. Sea η : S → <, donde: η (1) η (2) η (3) η (4) = = = = 20 5 6 7 {ω ∈ S|η(ω) < x} ∈ S, ∀x ∈ < (2.1)

Para verificar si η es una función medible, se debe analizar la condición representada en la definición de lo que es una función medible: Si x = 1 ⇒ {ω ∈ S|η(ω) < x} = ∅ ∈S Si x = 6.5 ⇒ {ω ∈ S|η(ω) < x} = {2, 3} ∈ S / Si x = 7.5 ⇒ {ω ∈ S|η(ω) < x} = {2, 3, 4} ∈ S Luego dado que para x = 6.5 la condición no se cumple, entonces η no es una función medible¥.1
S hubiese sido el caso que η(3) = η(4) = c, para alguna constante c, entonces la función η habría sido medible.
1

6

CHAPTER 2 CONCEPTOS ESTADíSTICOS

Finalmente, dado que {ω ∈ S|η(ω) < x} ∈ S, se le puede aplicar el ¯ operador µ, puesto que µ : S → <, es decir: ¯ µ ({ω ∈ S|η(ω) < x}) ∈ < en donde si µ es una medida de probabilidad, entonces: P ({ω ∈ S|η(ω) < x}) ∈ [0, 1]

2.2

Funciones de Distribución de Densidad

Toda variable aleatoria X puede ser representada a través de una función de probabilidad de conjuntos, la cual en su representación contínua se denota por: Z P (A) = f (x) dx
A

La función de probabilidades asociada a un evento se puede representar por la figura N◦ 2.1, donde el área sombreada denota la probabilidad de ocurrencia del evento A = {X = x|a < x < b}, asociada a que la variable aleatoria X tome un valor entre a y b. Considerando que A ∈ S, las funciones de probabilidad son no negativas, es decir f (x) ­ 0, y tienen la característica de que P(S) = 1, lo cual puede ser representado por: Z P (S) = f (x) dx = 1
S

o para el caso generalizado de un conjunto A con k = 1, 2, ..., K elementos: Z Z P (A) = ... f (x1, x2, x3, ...xK ) dx1 dx2 dx3 ...dxK
A

o para el caso generalizado de un conjunto S con n elementos: Z Z P (S) = ... f (x1, x2, x3, ...xn ) dx1 dx2 dx3 ...dxn = 1
S

Ejemplo. Considere el evento A = {x|0 < x < 1}. Si f (x) = e−x , entonces: Z Z 1 1 P (A) = f (x) dx = e−x dx = 1 − ¥ e 0 A

2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD

7

Figure 2.1: Función de Distribución Univariada    6x2 y si x ∈ (0, 1), y ∈ (0, 1)  . Ejercicio. Sea la función de densidad f (x, y) =  0  en otro caso © ª La probabilidad de que ocurra el evento A = (x, y)|0 < x < 3 , 1 < y < 2 4 3 R 3 R1 se denota por 04 1 6x2 ydxdy = 3 .¥ 8
3

2.2.1

Distribuciones Condicionales y Marginales

De igual manera podemos analizar funciones de distribución contínuas. Si por ejemplo x1 , x2 son v.a. con una función de distribución conjunta f (x1 , x2 ) entonces podemos definir a la función de distribución marginal de x1 y de x2

El teorema de Bayes que di existen dos eventos A y B, entonces P [A, B] = P [A] · P [B|A] = P [B] · P [A|B] y que para el caso en que A,B son eventos independientes, P [A, B] = P [A] · P [B].

8 respectivamente como:

CHAPTER 2 CONCEPTOS ESTADíSTICOS Z

f (x1 ) = f 0 (x2 ) =

0

f (x1 , x2 ) dx2 f (x1 , x2 ) dx1

Dado la definición de la función de distribución marginal y en conjunto con el teorema de Bayes, es posible definir la distribución para x1 condicional en x2 , y la distribución para x2 condicional en x1 respectivamente como: f (x1 , x2 ) f 0 (x2 ) f (x1 , x2 ) f (x2 |x1 ) = f 0 (x1 ) R∞ R∞ donde es posible verificar que −∞ f (x1 |x2 ) dx1 = −∞ f (x2 |x1 ) dx2 = 1: Z ∞ Z ∞ f (x1 , x2 ) dx1 f (x1 |x2 ) dx1 = 0 −∞ −∞ f (x2 ) Z ∞ 1 1 · f 0 (x2 ) = 0 f (x1 , x2 ) dx1 = 0 f (x2 ) −∞ f (x2 ) = 1    2, si 0 < x < x < 1  1 2 , entonces: Ejercicio. Si f (x1 , x2 ) =   0 en otro caso Z ∞ Z 1 0 f (x1 ) = f (x1 , x2 ) dx2 = 2dx2 = 2|1 1 = 2 (1 − x1 ) x Z−∞ Zx1 2 ∞ x f 0 (x2 ) = f (x1 , x2 ) dx2 = 2dx1 = 2|x2 = 2x2 0 f (x1 |x2 ) = f (x1 |x2 ) = Z f (x2 |x1 ) =

Z−∞ ∞
−∞

Z−∞ ∞
−∞

f (x1 |x2 ) dx1 = f (x2 |x1 ) dx2 =

f (x1 , x2 ) 1 2 = = 0 (x ) f 2 2x2 x2 2 1 f (x1 , x2 ) = = 0 (x ) f 2 (1 − x1 ) (1 − x1 ) Z ∞ 1 2 1 dx1 = (x2 − 0) = 1 x2 −∞ 2x2 Z ∞ 2 1 dx2 = (1 − x1 ) = 1¥ (1 − x1 ) −∞ 2 (1 − x1 )

−∞

0

.. Xn v..a.. X2 . .φn Xn ¤ £ = E eφ1 X1 eφ2 X2 .2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 9 2. Entonces serán estocásticamente independientes si se da que la función f (x1 ........ .. se obtiene: ∂M (0.. ... . .M (φn ) = Πn M (φi ) i=1 expresión válida si las v.. . xn ) = f 0 (x1 ) f 0 (x2 ) .. 0) = E Xi2 2 ∂φi de manera que la varianza de una v.2.2. 0. xn ) que se denomina de verosimilitud. x2 .. .E eφn Xn = M (φ1 ) M (φ2 ) .. Al deribar dos veces la función generadora de momentos con respecto al parámetro φi y evaluando tales deribadas en un vector de φi = 0....3 Independencia Estocástica Sean X1 . y dado que es única. 0.... . 0.... ..... podemos definir a la función generadora de momentos M como: £ ¤ M (φ1 ..eφn Xn ¤ £ ¤ £ ¤ £ = E eφ1 X1 E eφ2 X2 .. x2 ..a. son independientes entre sí. φ2 . X2 . 0) − = E Xi2 − [E [Xi ]]2 σ = ∂φi ∂φ2 i 2 2. φn ) = E eφ1 X1 +φ2 X2 +..a. 0) = E [Xi ] ∂φi £ ¤ ∂ 2 M (0. se puede expresar como multiplicaciones de densidades marginales de cada v.a. permite obtener todos los momentos de una distribución que sea factible generar...a.2. 0.. Para el caso en que tenemos X1 .f 0 (xn ) = Πn f 0 (xi ) i=1 . Xi se puede generar a partir de: ¸2 · £ ¤ ∂ 2 M (0... Xn v.... 0) ∂M (0...2 Función Generadora de Momentos La función generadora de momentos. si existe (condición de integrabilidad). es decir: f (x1 ..

¾ ½ ¾½ 1 ¾ ½ + x2 x1 + x2 si 0 < x1 < 1 y 0 < x2 < 1 ? x1 + 1 2 2 = 0 en otro caso 0 0 ¡ ¢¡ ¢ Claramente (x1 + x2 ) 6= x1 + 1 1 + x2 . presentando las principales características de cada una de ellas. luego X1 . dependiendo primordialmente de si es contínua o discreta. X2 son estocásticamente independientes. cuando la función de densidad conjunta está definida por: ¾ ½ x1 + x2 si 0 < x1 < 1 y 0 < x2 < 1 f (x1 . Verifiquemos si X1. x2 ) = f 0 (x1 ) f 0 (x2 ).4 Funciones de Distribución más Conocidas Existen diversas formas funcionales para describir una variable aleatoria. A continuación se detalla las principales funciones de probabilidades para variables aleatorias discretas y continuas.10 CHAPTER 2 CONCEPTOS ESTADíSTICOS Ejercicio. x2 ) = 0 en otro caso En este caso tenemos que las funciones marginales serán: ¾ (x1 + x2 ) dx2 = x1 + 1 si 0 < x1 < 1 2 f (x1 ) = 0 en otro caso ½R 1 ¾ (x1 + x2 ) dx1 = 1 + x2 si 0 < x2 < 1 0 2 0 f (x2 ) = 0 en otro caso 0 0 ½R 1 Luego es posible verificar si f (x1 . . X2 NO son estocásti2 2 camente independientes.2.¥ ? 2.

1. 2. y ∼ t (n.1: Funciones de Distribución Discretas Nombre Notación Función FGM Media-Varianza n! px (1 x!(n−x)! 1 B in o m ia l 11 x ∼ b (n. Esta estipulaba que no era permitido publicar el trabajo de los miembros de su equipo. y = 0. lo cual lo llevó a publicarla bajo el pseudónimo de Student. La siguiente figura presenta una gráfica entre la normal estandarizada y una t-Student de 4 grados de libertad. p) n! px py x!y!(n−x−y)! 1 2 [(1 − p1 ) + p1 et ] − p1 )n−x . 2. x! P o isso n x ∼ P (λ) x = 0.. x. Gossett fue quien descubrió esta distribución mientras trabajaba en la empresa de cervezas Guinness. . Como anécdota. . ... n np1 np1 (1 − p1 ) λx e−λ . n Trin o m ia l x. p2 ) [(1 − p1 − p2 ) + p1 et1 + p2 et2 ] E [X]= n p 1 E [Y ]= n p 2 σ 2 = n p 1 (1 − p1 ) σ 2 = n p 2 (1 − p2 ) x y (1 − p1 − p3 )n−x−y . S.2.. 1.. 2.. x = 0. t eλ(e −1) λ λ Una de las funciones más utilizadas en econometría con el fin de testear hipótesis sobre algun parámetro (o combinación lineal de parámetros) es la t-Student. p1 . 1..2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD Table 2. .. W..

  0 de otra manera La función generadora de momentos para esta Poisson es: ∞ X λx e−λ x=0 ∞ X (λet )x x=0 M (t) = x! e =e tx −λ x! . 1. Es decir.. entonces la suma de ellas también posee una distribución chi-cuadrada y posee los grados de libertad que resultan de sumar individualmente los grados de libertad de sus componentes.125 0 -4 -2 0 2 x 4 Función de Distribución N(0.5 0.a cada una generada por una distribución χ2 cada una con sus respectivos grados de libertad.P x1 ˜χ2 (r1 ).12 CHAPTER 2 CONCEPTOS ESTADíSTICOS y 0.. analíticamente.375 0. Teorema.a es generada por una función de distribución normal estandarizada. si Pn 2 2 . entonces el cuadrado de esa variable se distribuye según una chi-cuadrada con un grado de libertad. 1) y t-Student con λ = 5 (azul) Existen teoremas que permiten relacionar distintas funciones de distribución... 2. x3 ˜χ2 (r3 ).. Si una v. . Entre los más utilizados consideremos los siguientes: Teorema. si x˜N(0.. analíticamente. x2 ˜χ2 (r2 ). Es decir. y xn ˜χ (rn ). Considere una función de distribución Poisson definida por:    λx e−λ x! f (x) =  para x = 0.25 0. i=1 Ejercicio. 1) enronces x2 ˜χ2 (1). Si existe un vector de v... entonces i=1 xi ˜χ ( n ri ).

2.949 − 0. si asumimos que λ = 2.018 = 0. si ambas son variables estocásticamente independientes? £ ¤ £ ¤ £ ¤ £ ¤ My (t) = E etY = E et(X1 +X2 ) = E etX1 E etX2 = e ¡ ¢ =⇒ Y ˜N µ1 + µ2 .931¥ Ejercicio. σ 2 ) =⇒ Mx1 (t) = e 1 x2 ˜N (µ2 . σ 2 + σ 2 ¥ 1 2 = eà µ µ1 t+ σ 2 t2 1 2 (µ1 +µ2 e ! (σ2 +σ2 )t2 1 2 )t+ 2 ¶ µ µ2 t+ σ 2 t2 2 2 ¶ . entonces ¿ cuál es la probabilidad de que x ≥ 1? P [X ≥ 1] = 1 − P [X = 0] = 1 − f (0) 20 e−2 = 1− 0! = 1 − e−2 = 0. entonces: Dado lo anterior. excluyendo 0 y 8? P [0 < X < 8] = P [X ≤ 7] − P [X = 0] = 0.865 Siguiendo con la función de distribución Poisson. Si sabemos que: x1 ˜N (µ1 . σ 2 ) =⇒ Mx2 (t) = e 2 µ µ µ1 t+ µ2 t+ σ 2 t2 1 2 σ 2 t2 2 2 t t M (t) = e−λ eλe = eλ(e −1)    M 0 (0) = λ  =⇒ σ2 = λ =⇒ P  M 00 (0) = λ + λ2  ¶ ¶ entonces ¿cuál es la distribución de Y = X1 + X2 .2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD y se sabe que P∞ ϕx x=0 x! 13 → eϕ . ¿ cuál es la probabilidad de que X esté entre 0 y 8.

3 Momentos de una Distribución Sea x una v. La expectativa matemática de U(X) se representa por: . entonces T = √ V ˜t (r). con grados de libertad 1 y r.14 CHAPTER 2 CONCEPTOS ESTADíSTICOS Ejercicio. 1). ESto implica que la función t2 sigue una distribución Fisher. 1). Si X˜N (0. ¿cuál es la distribución de t2 ? 2 Sabemos que t2 = W donde en numerador es χ2 (1) y el numerador del V denominador sigue una χ2 (r). es decir t2 ˜F (1. Sabemos que si V ˜χ2 (r) y W ˜N (0. por lo tanto: z 2 = x2 (1 − 2t) √ dz = dx 1 − 2t Z ∞ es decir que: My (t) = pero como R∞ −∞ √1 e 2π 2 − z2 −∞ e− 2 1 √ √ dz 2π 1 − 2t z2 dz = 1. entonces ¿cuál es la distribución de Y = X 2 ? Para responder esta pregunta podemos partir de la función generadora de momentos de Y : h 2 i Z ∞ etx2 x2 £ tY ¤ √ e− 2 dx My (t) = E e = E etX = 2π −∞ Z ∞ 2 (1−2t)x 1 √ e− 2 dx = 2π −∞ p Mediante una transformación de variables z = x (1 − 2t). cuya pdf se representa por f (x). entonces: My (t) = (1 − 2t)− 2 1 Recordando que la función generadora de momentos para una chi-cuadrado es Mχ2 (t) = (1 − 2t)− 2 r entonces podemos decir que Y ˜χ2 (1) .¥ W Ejercicio. Dado lo anterior. r) .a.¥ r r 2. Definición.

a..3.. .3 MOMENTOS DE UNA DISTRIBUCIÓN Z ∞ 15 E [U (X)] = U (x) f (x) dx = −∞ X x U (x) f (x) Para el caso de un vector de eventos X1 . X3 . es posible demostrar que la expectativa matemática de una poderación de v.1 Media y Varianza Los primeros momentos más comunes en el análisis de cualquier serie es la media y la varianza (o desviación estándar). x2 ... es equivalente a la ponderación de las expectativas matemáticas. X2 . xn ) −∞ Ejercicio. x2 . Utilizando la nomenclatura anterior. Xn se tiene que: Z ∞ E [U (X1 . 1) / xf (x) = Z ∞ E [X] = Z 1 Z ∞ £ 2¤ 1 2 x f (x) = 2x (1 − x) dx = E X = 6 −∞ 0 £ 2 ¤ £ 2¤ E 6X + 3X = 6E X + 3E [X] = 2¥ −∞ Z 1  .. xn ) dx1 dx2 dx3 . x ∈ (0. X3 . Sea f (x) =    2 (1 − x) .. . E [X] = µ... X2 . x3 .. que indica que la varianza de una v. £ ¤ entonces la varianza poblacional se definirá por: E (X − µ)2 = σ2 .a es equivalente a la diferencia entre el valor esperado del cuadrado de la variable y el cuadrado del valor esperado .. Xn )] = . es posible decir que para el caso especial donde U (X) = x.... entonces la media poblacional se define por.2.. 1)   0. 0 2 (1 − x) dx = 1 3 2.. y si ahora U (X) = (X − µ)2 . x ∈ (0. f (x1 . . .. x3 . El cálculo de la varianza se simplifica al utilizar el siguiente resultado.. es decir: # " n n X X hi xi = hi E [xi ] E i=1 i=1 −∞ Z ∞ U (x1 .dxn Como tal...

especialmente cuando se trabaja con series de tiempo de alta frecuancia como pueden ser datos diarios. de manera que tal aproximación es válida. con media cero y varianza 6/T .16 de la variable. Es común asumir que el valor esperado de un activo utilizando datos diarios es nulo. centrada o desviada hacia la izquierda de la distribución. La distribución es una normal. Este indicador indica si la cola más larga de la distribución se encuentra desviada hacia la derecha.3. el coeficiente de skewness será negativo (positivo) y se dirá que la distribución es sesgada a la izquierda (derecha). Si la cola más larga se encuentra hacia la izquierda (derecha) de la distribución. y determina el grado de asimetría que posee una distribución. es decir: CHAPTER 2 CONCEPTOS ESTADíSTICOS De esta última expresión se verifica por qué en el campo de las finanzas es usual asumir que la varianza de los retornos de un activo son equivalentes al promedio de los retornos históricos del activo. este coeficiente es cero. £ ¤ £ ¤ σ 2 = E (X − µ)2 = E X 2 − 2Xµ + µ2 £ ¤ = E X 2 − 2µE [X] + µ2 £ ¤ = E X 2 − {E [X]}2 2. Para el caso de funciones simétricas como la normal o la t-student. lo cual rep- . el coeficiente tiene su propia distribución que se deriva asintóticamente. y que permite hacer inferencia con muestras finitas. En capítulos posteriores se analizan aplicaciones cuando la volatilidad de los retornos de un activo es variable y se modela a partir de los retornos históricos (véase modelos GARCH). y analíticamente se representa por: T 1 X Sk = (xi − µ)3 3 T σ t=1 donde T representa al tamaño muestral. Como todo estimador.2 Skewness El tercer momento de una pdf se denomina skewness.

50.5 1. 100 por la función de densidad: ³ 2 ´ s 1 −0. T y 1. 50. 100 La hipótesis nula H0 : Sk = 0 se evalúa a través de una tabla normal estandarizada con el siguiente estadístico: ˆ Sk zSk = q ˜N (0.25 0 -2 -1 0 1 x 2 17 Funciones de Distribución para el Coeficiente de Skewness: T = 20. entonces diremos que rechazamos la ˆ hipótesis nula con un α% de significancia.5 6/T f (s) = q ¡ ¢ e 6 2π T µ ¶ a 6 Sk ˜N 0.96 se dirá que rechazamos la hipótesis nula de que el coeficiente de skewness tiene un valor cero.5 0.3 MOMENTOS DE UNA DISTRIBUCIÓN resentamos para T = 20. Una alternativa es trabajar con los valores de probabilidad. . que entregan el área bajo la curva evaluada desde el valor del estadístico zSk y el infinito. ˆ Si esta probabilidad P [ψ > zSk ] > α%.2. 1) ˆ 6 T En la medida que este estadístico sea superior en valor absoluto a 1.75 0. es decir cumple con una de las características que posee una distribución normal.25 1 0.

a. de manera que si el estadístico es mayor que 3. entonces esta se denomina platykúrtica (K < 3). son generadas de una normal. T ¶ . mientras que si la distribución tiene un coeficiente menor a 3. o inferior a la de una distribución normal.5 · (x − 3)2 / (24/100)) µ (s−3)2 24/T −0. El coeficiente de Kurtosis adopta un valor de 3 si las v. p La función de distribución del coeficiente de kurtosis es 1/ 2 (2 · π · 24/100)· ¡ ¡ ¢¢ exp −0. y determina si las colas tienen una masa o altura superior.3 Kurtosis El cuarto momento se denomina kurtosis.5 1 f (s) = q ¡ ¢ e 2π 24 T ¶ µ a 24 K ˜N 3. igual. y analíticamente se representa por: T 1 X K= (xi − µ)4 4 T σ t=1 La medida de referencia de este coeficiente para una distribución normal es de 3 (mesokúrtica). entonces la función tiene características de leptokurtosis (K > 3).18 CHAPTER 2 CONCEPTOS ESTADíSTICOS 2.3.

teniendo los grados de libertad que resultan de sumar los grados de libertad de las funciones de densidad individuales. Con este antecedente Jarque y Bera desarrollaron un estadístico que evalúa en forma conjunta la hipótesis nula si el coeficiente de skewness y Kurtosis toman valores de 0 y 3 respectiva y conjuntamente. es decir cumple con una de las características que posee una distribución normal.4 Test de Normalidad de Jarque-Bera Tal como se menciona en la sección de funciones de distribución.5 0.3 MOMENTOS DE UNA DISTRIBUCIÓN 19 y 1 0.25 0 0 2 4 6 x Funciones de Distribución para el Coeficiente de Kurtosis: T = 20. si sumamos dos funciones de distribución chi-cuadradas. .96 se dirá que rechazamos la hipótesis nula de que el coeficiente de kurtosis tiene un valor de tres.75 0. 100 Para testear la hipótesis nula de que K = 3 debemos calcular el estadístico: ˆ K −3 zK = q ˜N (0.2. 1) ˆ 24 T En la medida que este estadístico sea superior en valor absoluto a 1.3. 50. la función resultante también obedece a una distribución chi-cuadrada. 2.

24 = −42. es decir que no puede ser inferior a cero. El coeficiente de skewness del −1. 2. analicemos las conclusiones que podemos obtener al analizar los cuatro primeros momentos de la distribución de los retornos de este índicador.5 Aplicación: Indice Accionario NASDAQ Utilizando datos diarios del índice NASDAQ desde el 5 de febrero de 1971 (fecha de su creación) al jueves 8 de marzo del año 2001. de manera que en la medida que se aleja de 0. La figura N◦ 2. .78%. elaborada entrega los estadísticos relevantes para este análisis. 674 zSk = q ˆ 6 7106 lo cual permite rechazar la hipótesis nula de que el coeficiente de skewness es cero.044518% de manera que el retorno anualizado (multiplicando por 240 días hábiles) corresponde a 10.20 CHAPTER 2 CONCEPTOS ESTADíSTICOS Para generar el estadístico requiero sumar el cuadrado de dos funciones de distribución estandarizadas como son zSk y zK : ˆ ˆ (zSk )2 + (zK )2 ˜χ2 (2) 2  2  ˆk ˆ −3 S K =⇒  q  +  q  ˜χ2 (2) 6 T 24 T · ´2 ¸ T ˆ2 1 ³ ˆ K−3 ˜χ2 (2) =⇒ JB = S + 6 k 4 Tal como se genera el estadístico cabe mencionar que este indicador tiene una cota inferior en cero. aumenta la probabilidad de rechazar la hipótesis nula de que la distribución generadora de los datos proviene de una distribución normal. del lo cual a tasa anualizada (multiplicando por 240 ) representa un 13.3. ya sea porque el coeficiente de skewness se aleja de 0 o porque el coeficiente de kurtosis difiere de 3.89%. De igual manera la desviación estándar diaria√ NASDAQ alcanza a 0. El retorno promedio diario es de 0.68% promedio.2.24 genera un estadístico z de: −1. junto con un histograma de los retornos accionarios del NASDAQ.

086021 -12.Marzo 2001 Observations 7106 Media Mediana Máximo Mínimo Dev.000000 21 -5.0 -2. genera un estadístico z de: zK = ˆ 17. 48 24 7106 es decir rechazamos con fuerza que los retornos puedan ser representados por una función con coeficiente de kurtosis de 3. .5 5.0 7.109189 7. lo cual claramente queda fuera del nivel crítico de una chi-cuadrado con dos grados de libertad.15. El test de Jarque-Bera viene a complementar este resultado.0 2. Las características de leptokurtosis son muy típicas de los retornor de precios de activos financieros.5 Figure 2. indicando en este caso que la probabilidad de que los retornos del NASDAQ provengan de una distribución normal es casi nula. La probabilidad que se reporta es cercana a cero. Skewness Kurtosis Jarque-Bera Probabilidad 0.097. El estadístico toma un valor de 61. St.889491 -1.15 0.5 0.04784 0.2.5 Serie: Retornos del NASDAQ Sample Febrero 1971 .0 -7.15 − 3 q = 243.15.2: Histograma y Estadísticos Básicos del NASDAQ De igual manera el coeficiente de kurtosis que alcanza a 17.5 -10.044518 0.3 MOMENTOS DE UNA DISTRIBUCIÓN 2500 2000 1500 1000 500 0 -12.14976 61097.238488 17. Gran presencia de retornos alejados del centro de la distribución (outliers) positivos y negativos hacen que esta sea muy concentrada en la media y además en los extremos de la distribución.

jb=rows(r)/6*(s^2+.. la econometría nos ayuda a obtener una aproximación de estos a través de los parámetros estimados con al muestra disponible. . ”La Kurtosis : ”. ”La Minc es : ”.cdfchic(jb. k=1/(rows(r)*stdc(r)^4)*sumc((r-meanc(r))^4).22 CHAPTER 2 CONCEPTOS ESTADíSTICOS Código GAUSS: Estadísticos Descriptivos Un código en GAUSS que se puede utilizar para generar el cálculo de estos estadísticos se presenta a continuación (utilizando los datos del NASDAQ): load p[7107.. 2.jb.. El punto consiste en tener una métrica para evaluar la exactitud de estos estimadores puntuales. ” El P-Value del Kurtosis es : ”.cdfnc(abs(s)).cdfnc(abs(k)). s=1/(rows(r)*stdc(r)^3)*sumc((r-meanc(r))^3)..k. ” El Jarque-Bera Statistic es : ”.minc(r).stdc(r)*sqrt((rows(r)-1)/rows(r)).1]=a:\nasdaq.. r=ln(p. ”La Skewness : ”. ”La Maxc es : ”.. ” El P-Value del JB es :”. ”La Media es : ”. r=r[2:rows(r)].2).s. ” El P-Value del Skewness es : ”.4 Inferencia Dado que no es posible conocer los valores de los parámetros poblacionales.stdc(r).25*(k-3)^2).txt...meanc(r).. Sesgo./lag1(p))*100. ”La STDC es : ”. eficiencia y error cuadrático medio son tres propiedades que se pueden estudiar para los estimadores.maxc(r)... ”La STDCs es : ”.

1 Sesgo ˆ Definición. si definimos sesgo como la diferencia entre el valor ˆ esparado y el valor poblacional de un parámetro. Demuestre que la definición para la varianza poblacional s2 es insesgada: Pt=T ¯2 2 t=1 (xt − x) s = T −1 Para demostrar esta proposición. Un estimador λ de un parámetro poblacional λ se dice insesgado si su media muestral es λ. Es decir: h i ˆ E λ =λ O alternativamente. es suficiente recordar que el siguiente estadístico tiene una distribución chi-cuadrado con (T −1) grados de libertad.4.2. entonces λ se dirá insesgado si su sesgo es cero. es decir que: s2 2 (T − 1) 2 ˜χ (T − 1) σ Como el valor esperado de una chi-cuadrado es equivalente a sus grados de libertad. 2(T − 1)). es decir: h i h i ˆ ˆ Sesgo λ|λ = E λ − λ = 0 Ejercicio. .4 INFERENCIA 23 2. es decir en este caso T − 1 (y la varianza es igual al doble de sus grados de libertad. entonces dado que: £ ¤ E χ2 (T − 1) = (T − 1) σ2 χ2 (T − 1) =⇒ s2 ˜ (T − 1) £ 2¤ σ2 =⇒ E s = (T − 1) (T − 1) £ ¤ =⇒ E s2 = σ2 ¥ es decir el valor esperado del estimador s2 es insesgado pues su esperanza matemática es igual al valor poblacional del parámetro analizado σ 2 .

uno de los cuales es insesgado pero de gran varianza. Idealmente si tenemos dos estimadores insesgados "es mejor" escoger aquel que es "más certero" en su estimación. mientras existe otro que está levemente sesgado pero es de menor varianza. λ1 es más eficiente que ˆ λ2 si: ³ ´ ³ ´ ˆ 1 < V λ2 ˆ V λ Sin embargo. Definición. de manera que uno puede descanzar en este criterio para escoger el estimador que posee menor ECM. es decir aquel que posee una distribución "más angosta" o centrada en su valor medio. el cual pondera de manera equivalente el sesgo (al cuadrado) y la varianza de los estimadores.4. Para solucionar tal ambiguedad se ha desarrollado el concepto de Error Cuadrático Medio (ECM). Los estimadores más conocidos para la varianza poblacional . Un concepto que está ligado a este segundo momento de la distribución es el de eficiencia. Un estimador insesgado λ1 es más eficiente que otro estimador ˆ 1 . existe la posibilidad de verse obligado a escoger entre dos estimadores. ˆ Definición.2 Eficiencia Puede darse el caso en que se tenga dos estimadores insesgados y sea necesario decidir cuál se utilizará para hacer la estimación del parámetro poblacional. El Error Cuadrático Medio (ECM) se define por: ·³ ³ ´ ´2 ¸ ˆ = E λ−λ ˆ ECM λ ·³ ³ ´ ³ ´ ´2 ¸ ˆ +E λ −λ ˆ ˆ = E λ−E λ ·³ h ³ ³ ´´ ³ ³ ´ ´i ³ ´´2 ¸ ˆ ˆ ˆ ˆ +E 2 λ−E λ E λ −λ + = E λ−E λ ·³ ³ ´ ´2 ¸ ˆ ˆ E E λ −λ ·³ ·³ ³ ´´2 ¸ ³ ´´2 ¸ ˆ ˆ ˆ +E λ−E λ = E λ−E λ h ³ ´i2 ³ ´ ˆ ˆ = Sesgo λ + V arianza λ Ejercicio. si la varianza muestral del primer estimador es inferior a la insesgado λ ˆ varianza muestral del segundo estimador. Es decir.24 CHAPTER 2 CONCEPTOS ESTADíSTICOS 2.

de manera que fácilmente podemos verificar el valor de las varianzas para ambos estimadores: h 2 i ³ 2 ´2 ³ 2 ´2 V [χ2 (T − 1)] = (Tσ 2 (T − 1) V [s2 ] = V (Tσ χ2 (T − 1) = (Tσ −1) −1) −1) ´2 i ³ ³ 4´ h 2 £ ¤ −1) σ V σ2 ˆ MLE = V σ χ2 (T − 1) = (T T V [s2 ] = T 2 2 (T − 1) T £ ¤ V σ2 ˆ MLE < V [s2 ] . sabemos que la varianza de una distribución chi-cuadrado es equivalente al doble de sus grados de libertad.2. Analice las caracˆ MLE terísticas de los ambos estimadores: Pt=T ¯2 2 t=1 (xt − x) s = T −1 Pt=T ¯2 t=1 (xt − x) σ2 ˆ MLE = T 2 s Es útil considerar que (T − 1) σ2 ˜χ2 (T − 1) de manera que analicemos primero las características de sesgo de ambos estimadores: Al aplicar operador expectativa podemos ver que el estimador σ 2 ˆ MLE es ses2 gado mientras que s es insesgado: h 2 i 2 E [s2 ] = E (Tσ χ2 (T − 1) = (Tσ E [χ2 (T − 1)] = σ 2 −1) −1) i h 2 £ ¤ −1) −1) E σ2 ˆ MLE = E σ χ2 (T − 1) = (T T E [s2 ] = (T T σ 2 < σ 2 T £ ¤ E σ2 ˆ MLE < σ 2 = E [s2 ] σ 2 ˜ σ χ2 (T − 1) = ˆ MLE T s2 ˜ (Tσ χ2 (T − 1) −1) 2 2 (T −1) 2 s T Esto nos indica que el sesgo de σ 2 ˆ MLE es distinto de cero: £ ¤ (T − 1) 2 σ − σ2 E σ2 ˆ MLE − σ 2 = T −1 2 σ <0 = T Con respecto a la varianza de ambos estimadores.4 INFERENCIA 25 son el s2 y el estimador de máxima verosimilitud σ 2 .

26 CHAPTER 2 CONCEPTOS ESTADíSTICOS podemos constatar que la varianza del estimador σ 2 ˆ MLE es menor a la 2 varianza del estimador insesgado s . de manera que para escoger procedamos a calcular el ECM de cada estimador.5 Generación de Números Aleatorios . vemos que el estimador sesˆ gado es más preciso pues la menor varianza de este más que compensa la ponderación que recibe el sesgo en la función ECM. y el criterio consistiría en escoger aquel estimador con menor ECM: h i ³ 4 ´ 2 ECM (s2 ) = (T σ 2 2 (T − 1) = σ 4 (T −1) −1) ¡ 2 ¢ σ4 ³ σ4 ´ £ ¤ ECM σ MLE = T 2 + T 2 2 (T − 1) = σ 4 2T −1 ˆ 2 T ¡ 2 ¢ Considerando que ECM σ MLE < ECM (s2 ).¥ 2.

σ 2 ) <x<∞ e µ σ2 T = T -S tu d ent t ∼ t(r) 0 F (r1 . λ 1 Γ( r 2 λe−λx .2: Funciones de Distribución Continuas Nombre Notación Función FGM Media-Varianza 1 xα−1 e Γ(α)β α G am m a x −x β ∼ Γ (α.5 GENERACIÓN DE NÚMEROS ALEATORIOS 27 Table 2. 0<x<∞ E x p o n en c ia l x ¡ 1¢ ∼ Γ 1. β) (1 − βt)−α αβ αβ 2 . −∞ 2πσ2 ³ ´ 2 2 µt+ σ 2t 2 N o rm a l x ∼ N (µ.2. r2 ) F = z∼N(0. θ) (1 − 2t)− 2 e (1−2t) r + θ 2r + 4θ 1 (x−µ) √ 1 e− 2 σ2 .1) q r r−2 u∼ χ2 (r1 ) r1 v∼ χ2 (r2 ) r2 V ∼ χ2 (r) r F -F ish e r . −∞ < x < ∞ r tθ C h i-C u ad ra d a x ∼ χ2 (r. 0 < x < ∞ ¡ ¢ t −1 1− λ 1 1 λ λ2 ) r 22 x 2 −1 e r −x 2 .

.

Part II Modelos de Regresión 29 .

.

. .. 2..1) Esta expresión se puede representar gráficamente considerando por ejemplo un modelo cuyo coeficiente de posición es 100 y cuya pendiente o coeficiente de sensibilidad (semielasticidad) es 0.9. T (3. es decir para el modelo teórico y = 100 + 0. 31 .9 · x.Chapter 3 Modelo con una Variable Explicativa 3.1 Modelo Simple El modelo de regresión simple con una variable explicativa la podemos representar por: yt = β 0 + β 1 xt + εt para todo t = 1..

5 x 5 Ecuación de la Lineal Recta: y = 100 + 0.9 · x Dado que E [yt |xt ] = β 0 + β 1 xt entonces se puede decir que: yt = E [yt |xt ] + εt En general toda variable puede descomponerse en una parte determinística y una estocástica ε. β 1 ) = = t=T X e2 t ˆ ˆ yt − β 0 − β 1 xt ´2 t=1 t=T ³ X t=1 .32CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA y 104 102 100 98 96 -5 -2. Una vez que estimamos el modelo poblacional con datos muestrales llegamos a que la variable dependiente o endógena yt se descompone en una parte estimada y un residuo muestral: ˆ ˆ yt = β 0 + β 1 xt + et ˆ ˆ yt = β 0 + β 1 xt ˆ yt = yt + et ˆ ˆ ˆ et = yt − β 0 + β 1 xt El método de los mínimos cuadrados ordinarios consiste en estimar los coeficientes a través de un proceso de minimización de la siguiente función de pérdida.5 0 2. conocida como la suma de los residuos al cuadrado (SRC ): $ (β 0 .

005. β 1 ) = 0 ∂β 1 Según nuestro modelo estas ecuaciones se denominan ecuaciones normales y se pueden escribir como: . β 1 ) = 0 ∂β 0 ∂$ (β 0 .1 MODELO SIMPLE 33 Analíticamente lo que el método de mínimos cuadrados hace es encontrar un punto mínimo en la superficie de una cierta función $ encontrando el par ˆ ˆ de coeficientes β 0 y β 1 a través restringir que el gradiente o las pendientes de esta función es cero en ambas dimensiones. 0. Graficamente se representa por la siguiente función correspondiente al sigueinet problema cuto mínimo se encuentra en el punto (0.4158): P P P xi = 6 yi = 3 yi xi = 15 P 2 P 2 xi = 36 yi = 10 T = 100 Vizualización del Método de los Mínimos Cuadrados Para esto se requiere de obtener las condiciones necesarias de primer orden (CNPO) que correspponden a las primeras derivadas las cuales se igualan a cero para generar un óptimo: ∂$ (β 0 .3.

estas se pueden escribir como: t=T t=T X X ˆ0 + β1 ˆ yt = T β xt t=1 t=T X t=1 t=1 t=1 t=T X t=1 xt et = 0 ˆ yt xt = β 0 lo cual implica que la solución (en representación recursiva) de este sistema es: Pt=T Pt=T t=1 yt ˆ 1 t=1 xt = y − β 1 x ˆ0 = −β ¯ ˆ ¯ β T T Pt=T Pt=T ¯ ¯ ¯ t=1 (xt − x) (yt − y ) t=1 (xt − x) yt ˆ1 = = Pt=T β Pt=T 2 ¯ ¯2 t=1 (xt − x) t=1 (xt − x) Ejercicio.34CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA −2 −2 o de manera equivalente y de más fácil recordación (al dividir por −2): t=T X t=1 t=T X t=1 t=T ´ X³ ˆ ˆ yt − β 0 − β 1 xt = 0 ³ ´ ˆ ˆ xt yt − β 0 − β 1 xt = 0 et = 0 El número de ecuaciones normales es equivalente al número de incógnitas del modelo. es decir el conjunto de parámetros a estimar.¥ t=T X t=1 ˆ xt + β 1 t=T X t=1 x2 t . A partir de la siguiente información para Y y X. determine los estimadores mínimo cuadrados para β 0 y β 1. Y 2 4 6 8 10 X 1 2 3 4 5 ˆ ˆ Claramente los valores estimados corresponden a β 0 = 0 y β 1 = 2. Utilizando una representación extensiva de las ecuaciones normales.

3.040995 1.2%. y RDJt es el retorno diario del Dow Jones en t. Esta característica hace que esta acción sea altamente riesgosa y deba tener una baja (alta) ponderación en un portafolio conservador (agresivo).115481 1.383609 0.. Microsoft. y ∀t. donde Rit corresponde al retorno en t de la acción i. General Electric.639781 Phillip Morris 0. entonces el valor de las acciones de Citigroup caerá en 3. ˆ El parámetro estimado β 1 representa el coeficiente ”beta” que representa la correlación que existe entre los retornos de una acción y el valor de mercado. ∀i = 1. Phillip Morris tiende a ser la acción más estable en relación al mercado.941912 0. y Phillip Morris). De igual manera si el Dow Jones sube en un 5% entonces la acción de Citigroup subirá en un 8% aproximadamente.1 Aplicación: Betas Financieros en Indice Dow Jones Consideremos los datos semanales (marzo 1994 a marzo 2001) del índice de precios de acciones americano Dow Jones y a seis de sus componentes (Citigroup. Analíticamente el modelo a estimar corresponde a: (Rit − Rf t ) = β 0 + β 1 (RDJt − Rf t ) + εt . por lo que su porcentaje debiera ser alto (bajo) en un portafolio conservador (agresivo).077849 0. 2. Activo Citigroup ˆ β0 ˆ β1 0.1 MODELO SIMPLE 35 3.6.61. Wal-Mart. es decir que si el Dow Jones cae en 2%. Rf t es la tasa libre de riesgo. . Exxon.205445 Wal-Mart Microsoft Exxon 0.1.609109 General Electric 0. es decir un 61% adicional.631160 La gran volatilidad relativa de la acción de Citigroup versus los retornos del mercado se deduce de que el parámetro beta asociado alcanza un valor de 1..150044 0.135131 1.110858 0. medida a través de la letra del tesoro americano a tres meses. .

indicará que la suma de los residuos muestrales es cero. introduce ciertas características a los residuos y estimaciones de la variable dependiente que son interesantes de destacar. Si el modelo de regresión posee una constante entonces la primera derivada parcial. Sin embargo si el modelo no posee una constante en su formulación.2. esta condición no necesariamente se cumplirá pues nunca surge como condición necesaria de primer orden al no tener nunca que derivar con respecto a este parámetro. lo cual implica que la suma de los residuos es igual a cero. Puede sin embargo darse el caso que la representación de la data haga que este parámetro sea efectivamente cero. o primera expresión de ecuación normal.1 Suma de residuos muestrales es nulo La primera tiene que ver con que el valor medio de los residuos es nulo. X se entregan en forma de desviación de sus propias medias. 3. la cual impone a través de su primera ecuación normal que esta suma sea cero. lo cual implicaría que la suma de estos residuos también lo será.2 Características del Modelo de Regresión La metodología de la estimación de mínimos cuadrados.2. t=T X t=1 et = 0 Esta característica es bastante trivial pues se deduce de la misma metodología de los mínimos cuadrados. por ejemplo si las series Y. 3.2 Las series actuales y estimadas tienen igual media Esta característica se deduce de la noción que el valor actual de la variable dependiente se puede descomponer en lo que estima el modelo y el residuo .36CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA 3.

3. 3. bastaría con demostrar que la covarianza entre ellos es nula tambien.2.2 CARACTERíSTICAS DEL MODELO DE REGRESIÓN (lo que no estima el modelo): yt = yt + et ˆ t=T t=T t=T X X X =⇒ yt = yt + ˆ et 1 =⇒ T t=1 t=T X t=1 t=1 t=1 37 1 yt = T pero como sabemos los residuos muestrales tienen una media de cero. Es así coo trabajando numéricamente con el numerador se tiene: t=T X t=1 Sabemos que el coeficiente de correlación entre es Pt=T ¯ ¯ t=1 (et − e) (xt − x) qP ρeX = qP t=T t=T ¯2 ¯2 t=1 (et − e) t=1 (xt − x) Pt=T ¯ t=1 et (xt − x) qP = qP t=T t=T ¯2 ¯2 t=1 (et − e) t=1 (xt − x) et (xt − x) = ¯ t=T X t=1 et xt − x ¯ t=T X t=1 et . es decir su sumatoria es nula.3 Los residuos no se correlacionan con la variable independiente Luego para verificar si el coeficiente de correlación muestral entre el residuo y la variable independiente es nulo. luego: t=T t=T 1X 1X yt = yt ˆ T t=1 T t=1 _ t=T X t=1 t=T 1X yt + ˆ et T t=1 =⇒ y = y ¯ ˆ Una implicania de esta condición es que la metodología de los mínimos cuadrados hace que la curva de regresión que pasa a través de la nube de puntos pase justo por el punto que representa a la media de X y la media de Y.

entonces podemos decir que: ˆ Dado que yt = β ˆ t=T X t=1 et yt − y ˆ ¯ t=T X t=1 et = t=T X et yt = ˆ ˆ = β0 = 0 t=1 t=T X t=1 t=T X t=1 ˆ et + β 1 t=T X t=1 ³ ´ ˆ ˆ et β 0 + β 1 xt et xt Esta última igualdad proviene de las dos ecuaciones normales arriba menP P cionadas: t=T et = 0 y t=T et xt = 0.2.38CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA Pero como sabemos de las condiciones de ortogonalidad. las ecuaciones ˆ ˆ normales para β 0 y β 1 nos indican que los residuos ponderados por unos y por la variable independiente x suman cero. t=1 t=1 . y ¯ t=1 ˆ 0 + β 1 xt . t=1 t=T X t=1 xt et = 0 3.4 Los residuos no se correlacionan con la variable dependiente estimada Al igual que para el caso anterior. es suficiente analizar que el numerador de la definición sea nulo. es decir: Pt=T ¯ y ¯ t=1 (et − e) (ˆt − y ) qP ρeX = qP t=T t=T ¯2 y ¯2 t=1 (et − e) t=1 (ˆt − y ) Pt=T y ¯ t=1 et (ˆt − y ) qP = qP t=T t=T ¯2 y ¯2 t=1 (et − e) t=1 (ˆt − y ) P luego debemos analizar si t=T et (ˆt − y ) = 0. de manera que el coefi¯ t=1 ciente de correlación es también cero: ρeX = 0. es decir: t=T X et = 0 P luego podemos decir que t=T et (xt − x) = 0.

entonces reemplazando esta expresión 2 t=1 =⇒ SCT = SCE + SCR Pt=T 2 e SCR SCE 2 =⇒ R = =1− = 1 − Pt=T t=1 t 2 SCT SCT ¯ t=1 (yt − y ) t=T X t=1 (xt − x) + ¯ 2 e2 t (xt −¯) x . luego: =⇒ t=T X t=1 Pt=T t=1 t=T X t=1 t=T X t=1 (xt − x) et ¯ (xt − x) et es igual a ¯ ˆ2 (yt − y ) = β 1 ¯ 2 en la definición de R2 llegamos a: De esta última expresión se puede concluir que el método de los mínimos cuadrados lo que hace indirectamente es maximizar el R2 de un modelo. Adicionalmente n o es difícil demostrar que existe una equivalencia entre el coeficiente de determinación y el coeficiente de correlación entre Y y X. ˆ2 P ¯ Para esto.3 Evaluación del Ajuste: R2 Qué tan buen ajuste efectúa el modelo a los datos es la pregunta que contesta el coeficiente de determinación R2 . pues el denominador no es modificable ni dependiente del vector de parámetros ˆ β.3 EVALUACIÓN DEL AJUSTE: R2 39 3. recordemos que SCE = β 1 t=T (xt − x)2 y que el parámetro de t=1 P t=T (xt −¯)(yt −¯) x y ˆ P semielasticidad β 1 = t=1t=T . de manera que exiete una dualidad en ambos objetivos.3. Este explica que porcentaje de la volatilidad de la variable dependiente es explicada por el modelo. Para llegar a tal representación es necesario recordar que: ˆ yt = yt + et ˆ ˆ =⇒ yt = β 0 + β 1 xt + et z }| { =⇒ yt = y − β 1 x +β 1 xt + et ¯ ˆ ¯ ˆ =⇒ yt − y = β 1 (xt − x) + et ¯ ˆ ¯ 2 ˆ ˆ =⇒ (yt − y )2 = β (xt − x)2 + e2 + 2β 1 (xt − x) et ¯ ¯ ¯ 1 t =⇒ t=T X t=1 ˆ (yt − y ) = β 1 ¯ 2 t=T 2X t=1 (xt − x) + ¯ 2 t=T X t=1 e2 t ˆ + 2β 1 pero sabemos que el término de la derecha cero. es decir Min Pt=T 2 2 t=1 et ⇐⇒ Max R .

40CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA Pt=T ¯2 SCE ˆ 2 Pt=1 (xt − x) = R = = β 1 t=T SCT ¯2 t=1 (yt − y ) #2 P "P t=T t=T (xt − x) (yt − y ) ¯ ¯ (xt − x)2 ¯ t=1 =⇒ R2 = Pt=T Pt=1 2 t=T ¯ ¯2 t=1 (xt − x) t=1 (yt − y ) i2 hP t=T ¯ ¯ t=1 (xt − x) (yt − y ) =⇒ R2 = Pt=T Pt=T ¯ 2 t=1 (yt − y )2 ¯ t=1 (xt − x) 2  Pt=T ¯ ¯ t=1 (xt − x) (yt − y )  qP =⇒ R2 =  qP t=T 2 t=T 2 ¯ ¯ t=1 (xt − x) t=1 (yt − y ) 2 =⇒ R2 = [ρY X ]2 Ejercicio.. Considere la siguiente información generada de una base de datos de coeficiente intelectual (variable y) y horas promedio de ver televisión (variable exógena x) de un grupo de n = 50 adolecentes: y = 30 ¯ P ¯ (yi − y )2 = 200 P x = 15 ¯ (xi − x)2 = 80 ¯ P n = 1. 438 . Adicionalmente obtenga el R2 de la regresión estimada.562 5 80 ˆ Reemplazando en la función que determina el coeficiente de posición β 0 : ˆ ¯ ˆ ¯ β 0 = y − β 1x ˆ ⇒ β 0 = 30 − (−0.562 5) · 15 = 38.. 50 (xi − x) (yi − y ) = −45 ¯ ¯ Se le pide computar el valor de los coeficientes considerando un modelo de regresión lineal del tipo yi = β 0 + β 1 xi + i . Para primero determinar el valor de los coeficientes debemos recordar las fórmulas de ambos estimadores y de allí comenzar a reemplazar los datos que se nos entregan en la matriz anterior: Pi=N Pi=50 ¯ ¯ (xi − x) (yi − y ) ¯ ¯ i=1 (xi − x) (yi − y ) ˆ β1 = = i=1 i=50 P Pi=N ¯2 ¯2 i=1 (xi − x) i=1 (xi − x) −45 ˆ ⇒ β1 = = −0.. .

656% de la volatilidad de la variable endógena o dependiente y. y la relación encontrada y = 38.75 37.562 5 · x. Consideremos el modelo yt = β 0 + β 1 xt + εt .4 Supuestos Básicos sobre los Residuos Poblacionales Un paso absolutamente necesario para hacer inferencia consiste en imponer ciertos supuestos sobre los residuos poblacionales del modelo de regresión lineal. 438 ˆ −0.5 x 5 Representación Gráfica del Modelo Estimado 3. SCT Pi=50 (xi − x)2 ¯ SCE 80 2 ˆ2 = β 1 Pi=1 = 0.5 0 2.4 SUPUESTOS BÁSICOS SOBRE LOS RESIDUOS POBLACIONALES41 Ahora para calcular el coeficiente de deternminación R2 debemos calcular la razón de la suma de los cuadrados del modelo (o explicada) con la suma de los cuadrados totales. se puede representar por la siguiente gráfica: y 41.126 56 R2 = i=50 2 = (−0. Estos permitirán que las distribuciones resultantes nos permitan efectuar diferentes tests de hipótesis a partir de las estimaciones de los coeficientes.25 40 38.562 5) · SCT 200 (yi − y ) ¯ i=1 Es decir el modelo explica solamente un 12.25 -5 -2.3.5 36. es decir R2 = SCE .

es decir con esto se impone una condición de ortogonalidad de los residuos con la variable exógena: Cov [xt . No hay autocorrelación de los residuos. ella se asume centrada en cero: E [εt ] = 0 ∀t 2. Los errores teóricos tienen un valor esperado cero. Finalmente el supuesto más importante se refiere a la necesidad de que los residuos provengan de una distribución normal: εt ˜N Estas cinco condiciones se asumen presentes en un modelo de regresión simple y se pueden resumir notacionalmente al decir que el residuo tiene una distribución normal. εt±k ] = 0 ∀t y ∀k 5. Es decir: iid ¡ ¢ εt ˜ N 0. con valor esperado cero y varianza constante σ2 . σ 2 ∀t Estos supestos permitiran determinar cuál es la distribución de los estimadores mínimo cuadrados de manera de que podamos comenzar a evaluar hipótesis que involucren a los parámetros poblacionales β 0 y β 1 . de manera que la varianza de los errores poblacionales es similar e independientemente de t: V [εt ] = σ 2 ∀t 3. No hay correlación entre el residuo poblacional εt y la variable exógena xt . e independiente distribuida. Existe homoscedasticidad de los residuos teóricos. . y que permite tener estimadores insesgados y eficientes (consistentes): 1. esto indica que los residuos entre si son ortogonales: Cov [εt . idéntica. es decir que de existir una distribución para estos residuos.42CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA La siguiente lista conforma los supuestos estándares que permitirán hacer inferencia sin tener que correjir el modelo estimado. εt±k ] = 0 ∀t y ∀k 6= 0 4.

de manera que llegamos a que el estimador para β resenta por: Pt=T ¯ t=1 ˆ 1 = β 1 + P (xt − x) εt β t=T ¯2 t=1 (xt − x) . El procedimiento de determinación de las distribuciones de los estimadores pasa por distorcionar o cambiar la forma de la distribución de los residuos para así llegar finalmente a la distribución de β 0 y β 1 . σ 2 ∀t Esto indica que E [yt |X = xt ] = β 0 + β 1 xt pues el residuo tiene un valor esperado de cero E [εt ] = 0. σ 2 ) ∀t. σ 2 ∀t pero sabemos que yt = β 0 + β 1 xt + εt lo cual indica que la distribución de la variable endógena es equivalente a la distribución del residuo poblacional. Teniendo esto en cuenta recordemos que: Pt=T Pt=T ¯ ¯ ¯ t=1 (xt − x) (yt − y ) t=1 (xt − x) yt ˆ = Pt=T β1 = Pt=T ¯2 ¯2 t=1 (xt − x) t=1 (xt − x) Si reemplazamos la definición de yt en el modelo y multiplicamos cada factor se llega a: Pt=T (xt − x) yt ¯ (xt − x) (β 0 + β 1 xt + εt ) ¯ t=1 ˆ β 1 = Pt=T = t=1 Pt=T = 2 ¯ ¯2 t=1 (xt − x) t=1 (xt − x) Pt=T Pt=T Pt=T ¯ ¯ ¯ t=1 (xt − x) t=1 (xt − x) xt t=1 (xt − x) εt = β 0 Pt=T + β 1 Pt=T + Pt=T 2 2 ¯ ¯ ¯2 t=1 (xt − x) t=1 (xt − x) t=1 (xt − x) Pt=T P P Pero se puede demostrar que t=T (xt − x) = 0 y que t=T (xt − x) xt = ¯ ¯ t=1 t=1 Pt=T 2 ˆ 1 se rep¯ t=1 (xt − x) .3.5 Distribución de los Estimadores iid Partamos del supuesto general ya discutido que señala que εt ˜ N (0. pero desplazada por una constante: iid ¡ ¢ yt ˜ N β 0 + β 1 xt .5 DISTRIBUCIÓN DE LOS ESTIMADORES 43 3. Entonces si modificamos la distribución por una constante β 0 + β 1 xt (es decir se traslada o "mueve" por una constante β 0 + β 1 xt ) se obtiene: iid ¡ ¢ β 0 + β 1 xt + εt ˜ N β 0 + β 1 xt .

1 Sesgo Sabemos que: ¯ t=1 (xt − x) εt ˆ β 1 = β 1 + Pt=T ¯2 t=1 (xt − x) # " Pt=T h i (xt − x) εt ¯ t=1 ˆ =⇒ E β 1 = E β 1 + Pt=T ¯2 t=1 (xt − x) # "P t=T h i (xt − x) εt ¯ t=1 ˆ =⇒ E β 1 = β 1 + E Pt=T ¯2 t=1 (xt − x) Pt=T h i ¯ t=1 (xt − x) E [εt ] ˆ =⇒ E β 1 = β 1 + Pt=T ¯2 t=1 (xt − x) Pt=T pues las covarianzas son nulas.44CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA A partir de la expresión anterior es posible derivar los dos primeros momentos de este estimados. Pt=T =⇒ V β 1 = V [β 1 ] + V Pt=T (xt − x)2 ¯ ¯2 t=1 t=1 (xt − x) . 3.5. como una primera etapa antes de determinar específicamente cuál es la función de distribución que la genera. entonces dado que el valor esperado del error ˆ es cero se llega finalmente a que el estimador β 1 es un estimador insesgado de β 1 : h i ˆ E β1 = β1 3.5. partimos de la ecuación fundamental que nos señala que: Pt=T ¯ t=1 ˆ 1 = β 1 + P (xt − x) εt β t=T ¯2 t=1 (xt − x) # " Pt=T h i (xt − x) εt ¯ t=1 ˆ =⇒ V β 1 = V β 1 + Pt=T ¯2 t=1 (xt − x) # " # "P Pt=T t=T h i (xt − x) εt ¯ (xt − x) εt ¯ t=1 t=1 ˆ + 2Cov β 1 .2 Varianza Al igual que en caso del sesgo.

5.5 DISTRIBUCIÓN DE LOS ESTIMADORES 45 sin embargo las covarianzas entre los errores y la variable exógena son nulas. que indican ∀t: (i) E [εt ] = 0.3 Gauss-Markov Bajo las condiciones de Gauss-Markov. . (iii) Cov [εt . σ Pt=T ¯2 t=1 (xt − x) ˆ de igual manera para el estadístico β 0 : " #! Ã 1 x2 ¯ ˆ + Pt=T β 0˜ β 0.3. de manera que: h i ˆ V β1 = V "P t=T ¯ t=1 (xt − x) εt Pt=T ¯2 t=1 (xt − x) luego dado que por supuesto de homoscedasticidad V [εt ] = σ 2 entonces: Pt=T Pt=T h i (xt − x)2 σ 2 ¯ ¯2 2 t=1 (xt − x) ˆ 1 = ³ t=1 V β ´2 = σ ³P ´2 Pt=T t=T (xt − x)2 ¯ (xt − x)2 ¯ t=1 t=1 h i 1 ˆ V β 1 = σ 2 Pt=T ¯2 t=1 (xt − x) Con este procedimiento se ha demostrado entonces que: ! Ã 1 2 ˆ β 1 ˜ β 1 . ∀k 6= 0. σ2 T ¯2 t=1 (xt − x) i hP t=T h i V ¯ t=1 (xt − x) εt ˆ =⇒ V β 1 = ³P ´2 t=T (xt − x)2 ¯ t=1 Pt=T h i ¯2 t=1 (xt − x) V [εt ] ˆ =⇒ V β 1 = ³P ´2 t=T 2 ¯ t=1 (xt − x) # 3. (ii) V [εt ] = σ 2 . εt+k ] = 0. y además la varianza de una constante como β 1 también es nula.

efectivamente es el estimador de mínimos cuadrados. ˜ t x t=1 Supongamos que existe un estimador alternativo definido por: ˆ GM β1 = t=T X t=1 at yt La demostración consiste en encontrar at y verificar que efectivamente ˆ sea equivalente al at definido en el estimador β 1 . es decir los estimadores que son una función lineal a la data. ˆ Demostración Teorema Gauss-Markov para β 1 Sabemos que el estimador de mínimos cuadrados para β 1 es: Pt=T t=T X ¯ t=1 ˆ 1 = P (xt − x) yt = β at yt ˜ t=T ¯2 t=1 (xt − x) t=1 (x −¯) donde at = P t=Tt(xx−¯)2 . ∀k = 0. εt+k ] = E [xt εt ] − xE [εt ] = E [xt εt ] = 0. ˜ Que deba ser linela a la muestra significa que el potencial estimador debe cumplir con la condición de que: ˆ GM β1 = t=T X t=1 at yt Utilizando la definición del modelo yt = β 0 + β 1 xt + εt . La demostración consiste en demostrar que un estimador que cumple con estas condiciones. podemos generar la restricción de insesgamiento requerido: ˆ GM β1 = t=T X ˆ GM β1 = β0 h GM i ˆ = β0 E β1 at yt t=1 t=T X t=1 t=T X t=1 = t=T X t=1 at (β 0 + β 1 xt + εt ) at xt + at xt t=T X t=1 at + β 1 at + β 1 t=T X t=1 t=T X t=1 at εt . ¯ entonces los estimadores mínimo cuadrados. serán los mejores estimadores lineales insesgados.46CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA (iv) Cov [xt . insesgados y de menor varianza.

Luego las condiciones de insesgamiento t=1 t=1 serán que: t=1 t=T X t=1 t=T X at = 0 at xt = 1 Ya hemos exigido a nuestro potencial estimador que sea lineal e insesgado.a. problema que podemos representar por: Min s. y lo que queda ahora es exigir que sea el ”mejor”.3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 47 P P pues t=T at εt = t=T at E [εt ] = 0.λ. es decir el de menor varianza ˆ GM disponible.µ} t=1 t=1 t=1 . Para esto definamos la varianza del estimador β 1 : # " t=T t=T t=T h GM i X X X ˆ = V β0 at + β 1 at xt + at εt V β 1 t=1 t=1 t=1 = = t=T X a2 V [εt ] t t=1 t=T X 2 σ a2 t t=1 Luego el problema se reduce a encontrar el parámetro at que cumpla con las condiciones de insesgamiento y de mínima varianza. t=T X t=T X t=1 a2 t at = 0 t=1 t=T X t=1 at xt = 1 El lagrangeano asociado a este problema será: ! Ã t=T t=T t=T X X X $ = a2 + λ at + µ 1 − at xt t {at .

48CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA Las condiciones necesarias de primer orden (CNPO) son: ∂$ = 2at + λ − µxt = 0 ∂at t=T X ∂$ = at = 0 ∂λ t=1 X ∂$ at xt = 0 = 1− ∂µ t=1 t=T De la primera CNPO podemos decir que: 2at xt + λxt − µx2 = 0 t =⇒ 2 t=T X t=1 at xt + λ t=T X t=1 t=T X =⇒ 2 + λ xt − µ t=1 t=T X t=1 xt − µ t=T X t=1 x2 = 0 t x2 = 0 t Además sumando directamente sobre la primera CNPO se tiene: 2 pero como Pt=T t=1 t=T X t=1 at + T λ − µ t=T X t=1 xt = 0 at = 0. entonces: λ = µ¯ x Reemplazando esta última expresión en: 2+λ 2 + µ¯ x t=T X t=1 t=T X t=1 xt − µ xt − µ t=T X t=1 t=T X t=1 x2 = 0 t x2 = 0 t =⇒ µ = Pt=T t=1 2 x2 − T x2 ¯ t .

σ 2 ¯ / (xt − x) t=T X ¡ ¢ ¯ ¯ (xt − x) εt ˜N 0. σ 2 Pt=T (xt − x)2  ¯ Pt=T 2 2 ¯ ¯ t=1 (xt − x) t=1 (xt − x) t=1 ! à Pt=T (xt − x) εt ¯ σ2 t=1 / + β1 ˜N 0. t=T X / t=T X t=1 ˆ Siguiendo igual procedimiento para el estimador β 0 podemos resumir la distribución multinormal del vector de estimadores del modelo de regresión simple como: i   h  · ¸ µˆ ¶ x2 ¯ σ2 x ¯ 2 1 β0 β 0  σ T + P t=T (xt −¯)2 − P t=T (xt −¯)2  x x t=1 t=1  . Pt=T Pt=T (xt − x)2 ¯ (xt − x)2 ¯ t=1 ! Ãt=1 Pt=T (xt − x) εt ¯ σ2 t=1 β 1 + Pt=T ˜N β.3. ˆ 1 ˜N σ2 x ¯ σ2 β1 β P t=T − P t=T (x −¯)2 x (x −¯)2 x t=1 t t=1 t t=1 t=1 t=1 " #2 t=T Pt=T X ¯ 1 t=1 (xt − x) εt ˜N 0. Pt=T (xt − x)2 ¯ ¯2 t=1 t=1 (xt − x) ! à σ2 ˆ β 1 ˜N β 1 .¥ 3.5.5 DISTRIBUCIÓN DE LOS ESTIMADORES 49 luego dado que 2at + λ − µxt = 0 entonces reemplazando para µ llegamos a: µxt − λ µ = (xt − x) ¯ at = 2 2 ¯ ¯ (xt − x) (xt − x) = Pt=T at = Pt=T 2 ¯2 ¯2 t=1 xt − T x t=1 (xt − x) Queda así demostrado que el estimador que cumple con las condiciones de Gauss-Markov es el estimador de mínimos cuadrados ordinarios.4 Normalidad A partir del supuesto de normalidad de los residuos es posible determinar la distribución que adoptan los estimadores mínimo cuadrado. Pt=T ¯2 t=1 (xt − x) (xt − x) σ 2 ¯ 2 ! / Pt=T 1 (xt − x)2 ¯  . (xt − x)2 σ 2 (xt − x) εt ˜N ¯ à 0. Sabemos que: ¡ ¢ εt ˜N 0.

Sin embargo este estimador ˆ T no cumple con la condición de insesgamiento. El costo de utilizar un estimador para la varianza poblacional consiste en que ya no es posible teóricamente utilizar la distribución normal para hacer inferencia. Se desconoce la varianza del error σ 2 . 1) z y V ∼ χ2 (r). entonces sabe[εt mos que σ 2 = E [ε2 ] − (E [εt ])2 = E P2 ]. Es decir en nuestro caso tenemos: ˆ β 1 −β 1 tβ 1 = r r σ2 P t=T x 2 t=1 (xt −¯) (T −k) s 2 σ (T −k) 2 ˆ De igual manera para β 0 : tβ 1 = q P t=T s x 2 t=1 (xt −¯) ˆ β1 − β1 2 ˜t (T − 2) .50CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA Pero aquí surge el primer problema al querer efectuar un análisis inferencial. Luego parecería natural que el t t=T 2 ε estimador de la varianza fuera σ 2 = t=1 t . Recordemos que el estadístico 2 s2 (T − k) σ2 ˜χ2 (T − k). entonces: · ¸ £ 2¤ σ2 2 E s = E χ (T − k) (T − k) ¤ £ £ ¤ σ2 E χ2 (T − k) E s2 = (T − k) £ ¤ σ2 E s2 = (T − k) (T − k) £ ¤ E s2 = σ 2 P t=T e2 t=1 Luego el estadístico s2 = T −k t será un estimador insesgado de la varianza poblacional σ 2 . Recordemos que si tenemos dos variables aleatorias independientes z˜N (0. σ 2 ). Dado que el residuo tiene una distribución εt ˜N (0. entonces la razón √ V tiene una distribución t de student con r r grados de libertad. Entonces s2 ˜ (Tσ χ2 (T − k). lo cual implicará que −k) dado que el valor esperado de una función de distribución chi-cuadrada es equivalente a sus grados de libertad.

5. σ (x x) ˆ ˜N β1 β1 Dado que sabemos que donde C = (x0 x)−1 es una matriz simétrica y definida positiva. Por ejemplo si definimos ˆ como la desviación estándar estimada del parámetro estimado β 0 como σ β 0 . Definamos las variables z1 y z2 como: · ¸ ·ˆ ¸ β0 − β0 z0 =P ˆ z1 β1 − β1 . Además podemos construir intervalos de confianza para los parámetros a partir de un nivel de significancia subjetivo γ y de las estimaciones de varianzas de los parámetros.5 DISTRIBUCIÓN DE LOS ESTIMADORES 51 tβ 0 = s σ2 · ˆ β 0 −β 0 1 T ¯ + P t=Tx 2 x 2 t=1 (xt −¯) 2 Este estadístico nos permite hacer inferencia respecto al valor que toma ˆ ˆ el parámetro estimado β 0 y β 1 . ˆˆ entonces el intervalo de confianza para β 0 será: ˆ β 0 ∈ β 0 ± |tγ | σ β 0 ˆˆ Es decir: ˆ ˆ β 0 − |tγ | σ β 0 ≤ β 0 ≤ β 0 + |tγ | σ β 0 ˆˆ ˆˆ De igual manera para el parámetro β 1 se tiene: ˆ ˆ β 1 − |tγ | σ β 1 ≤ β 1 ≤ β 1 + |tγ | σ β 1 ˆˆ ˆˆ ˆ β − β0 tβ 0 = r h 0 i ˜t (T − 2) 1 x2 ¯ s2 T + P t=T (x −¯)2 x t=1 t r ¸ (T −k) s 2 σ (T −k) 3.3.5 Areas de Confianza µ· ¸ ¶ µˆ ¶ β0 β0 2 0 −1 . entonces existe una matriz P que cumple con la condición C −1 = P 0 P .

de manera que los cuadrados de estos estadísticos obedecen a una distribución chi-cuadrada con un grado de libertad: ½ 2 2 ¾ ¡ 2 ¢ z0 ˜σ χ (1) 2 =⇒ z0 + z1 ˜σ 2 χ (2) 2 z1 ˜σ 2 χ (1) Trabajando este concepto matricialmente llegamos a que: h i    ¸0 ¸ ·ˆ ·ˆ β0 − β0 β0 − β0 0 PP ˆ ˆ β1 − β1 β1 − β1 z0 z1 z0 z1  = ¸0 ·ˆ ¸ ·ˆ β0 − β0 −1 β 0 − β 0 ˜σ 2 χ (2) C = ˆ ˆ β1 − β1 β1 − β1 Dado que desconocemos σ 2 la estimamos a través de s2 . entonces: · ¸ z0 V = P σ 2 CP 0 z1 ³ ´ −1 P0 = P σ 2 P −1 (P 0 ) = σ2I lo que nos indica que z0 ˜N (0. Como (T − k) s2 ˜σ 2 χ2 (T − k).52CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA entonces la varianza del vector será: ·ˆ ¸ · ¸ β0 − β0 0 z0 = PV ˆ P V z1 β1 − β1 · ¸ z0 = P σ 2 CP 0 V z1 como C −1 = P 0 P =⇒ C = P −1 (P 0 )−1 . 1). lo cual nos obliga a utilizar una distribución alternativa para el test o creación del átrea de confianza. σ 2 ) y σ σ z1 ˜N (0. T − k) . Es decir que z0 ˜N (0. entonces la razón de dos chi-cuadradas ponderadas por sus grados de libertad genera una F de Fisher: [β0 −β0 ] C −1 [β0 −β0 ] ˆ ˆ β 1 −β 1 β 1 −β 1 ϕ= 2σ2 (T −k)s2 σ2 (T −k) ˆ 0 ˆ = £β 0 −β 0 ¤0 ˆ ˆ β 1 −β 1 C −1 2s2 £β 0 −β 0 ¤ ˆ ˆ β 1 −β 1 ˜F (2. σ 2 ). 1) y z1 ˜N (0.

98) ∼ 4. 98) ∼ 2.84 β1 con una matriz de varianzas y covarianzas estimada para los parámetros de:   0.01 (1. entonces La inversa de la matriz de varianzas y covarianzas estimada de los parámetros estimados obtenida será:   −1   ˆ0 38. para T − k = 100 − 2 grados de libertad.88 (0.8 (1. 2s2 (x0 x)−1 ij Ejercicio.45 β     ˆ 0.01 β ˆ ˆ  Σ−1 ≡ V   =  ˆ β ˆ1 β 25.45 − β 0 )2 + 19.88 (0.45 − β 0 )2 + 19.95 (2.88 ¤ 1£ 38.01 (1.136 31 −0.84 − β 1 )2 + 2 · 25.84 − β 1 ) = 4.84 − β 1 )2 + 2 · 25.171 48 0. Consideremos un modelo que entrega los siguientes resultados como producto del proceso de estimación de una base de datos de 100 observaciones:     ˆ0 1.8 (1.171 48 ˆˆ  Σβ =  −0.45 − β 0 ) (0.84 − β 1 ) = 2.99 (2.8 25. considerando un nivel de significancia del 95% y 99%. es decir para F0.3.45 − β 0 ) (0.9 y F0.4.266 04 reemplacemos los valores que se obtienen de los cálculos anteriores.5 DISTRIBUCIÓN DE LOS ESTIMADORES La región o área de confianza es equivalente a: P (ϕ < Fα ) = 1 − α y estará definido por la siguiente ecuación de la elipse: ³ ´2 ³ ´2 ³ ´³ ´ ˆ ˆ ˆ ˆ ϕ = a00 β 0 − β 0 + a11 β 1 − β 1 + 2a01 β 0 − β 0 β 1 − β 1 con aij = −1 Cij 2s2 53 = 1 . = = Como sabemos que la expresión para calcular³ región´ ³ la o área de confianza es ³ ´2 ³ ´2 ´ ˆ ˆ ˆ ˆ ϕ = a00 β 0 − β 0 + a11 β 1 − β 1 + 2a01 β 0 − β 0 β 1 − β 1 .01 19.9 2 ¤ 1£ 38.4 2 .

Ejercicio. β 1 ). Beta 1 3 2 1 0 0 0. A partir de estimar el siguiente modelo de regresión Y = Xβ + ε. β 1 .54CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA Si desearamos evaluar la hipótesis puntual de que ambos estimadores sumaran por ejemplo 2.5 1 1.5 Beta 0 3 -1 Areas de 95 y 99% de Confianza para β 0 . Si esta pasa por la región de confianza entonces no rechazamos la hipótesis. ¿rechazaría la hipótesis H0 : . es decir si H0 : β 0 +β 1 = 2.5 2 2. y considerando la siguiente información: e0 e = 100 T = 70   50 0  x0 x =  0 50   0  x0 y =  300 Encuentre analítica y gráficamente el intervalo de confianza del 95% para los coeficientes (β 0 . A la luz de su figura. La elipse más grande representa el área de confianza del 99% mientras que la elipse concentrica interior representa el área de 95%. entonces podemos vizualizar dicha hipótesis en el gráfico incorporando la ecuación β 0 + β 1 = 2 en la figura siguiente.

50042 1 12.0 0. 5β 2 1 + 12.13 = F95% (2.5(6 − β 2 )2 = 3.250 4 = 0. 70) Esta es la ecuación de un circulo que está centrado en las ordenadas (0.0 140  50 0   = = 72 − 2 0.5β 2 + 12.5 DISTRIBUCIÓN DE LOS ESTIMADORES β 0 + β 1 = 0? El área de confianza se obtiene de aplicar la fórmula: F = ´0 h ³ ´i−1 ³ ´ 1 ³ˆ ˆ ˆ ˆ β−β V β β − β ∼ F95% (2.0 0.04    ´ 25.04 0.0 0 − β1 1    F = 0 − β1 6 − β2  2 6 − β2 0.0 0.0 25. T − k) 2   −1  ³ ´ 0.0 0 − β1 1³   F = 0 − β1 6 − β2  2 6−β 0.5(6 − β 2 )2 = 3.0 F = 2 F = 12.04 0 50  −1    0  =  0.5 .13 1 3. Recordemos que la fórmula del círculo es: ˆ ˆ (β 1 − β 1 )2 + (β 2 − β 2 )2 = r2 lo cual aplicado a nuestro problema será: 12. 6).13 β 2 + (6 − β 2 )2 = = 0.0  −1  0.04 0.3. T − k) 2 55 Para esto requerimos de los estimadores de los parámetros y de la matriz de varianzas y covarianzas estimada de estos parámetros: −1 ˆ β = (x0 x) x0 y =   50 0 0 50 ³ ´ ˆ ˆ V β = e0 e −1 (x0 x) T −k 300 6.0   Luego aplicamos la fórmula: ´0 h ³ ´i−1 ³ ´ 1 ³ˆ ˆ ˆ ˆ β−β V β β − β ∼ F95% (2.

500 40 para una área de confianza generada con 95%. 70) 1 y 7 6.5 0 2.5 5 x -5 Gráfico de la Restricción o Hipótesis Nula Con respecto al análisis de la hipótesis nula.5 -1 -0.92 = F99% (2.56CHAPTER 3 MODELO CON UNA VARIABLE EXPLICATIVA De manera que el radio de esta circunferencia será de 0.5 0 -5 -2. dado que la recta que representa a la hipótesis nula β 0 = β 1 no pasa cerca del área de confianza calculado.5(6 − β 2 )2 = 4.5 5 0 0. 5β 2 + 12.5 x 1 Gráfico de la Elipse (Círculo) y 5 2. El círculo concentrico exterior se generó con un nivel de confianza del 99%: F = 12. desde un punto de vista gráfico. locual nos haría rechazar la hipótesis nula.5 -2.5 6 5. .

. además de la constante. y se presentan a continuación: 1... Los errores teóricos tienen un valor esperado cero: E [εt ] = 0      ε2  E [ε] = E      . Su forma general se representa por: yt = β 1 + β 2 x2t + β 3 x3t + . εt±k ] = 0..    εT  ε1  T x1 =⇒ E [Y ] = Xβ      E [ε2 ]  =0  =   . 57 . Existe homoscedasticidad y no autocorrelación de los residuos teóricos.Chapter 4 Modelo de Regresión Múltiple El modelo de regresión múltiple permite estudiar la relación existente entre una variable dependiente y y un conjunto k − 1 de variables independientes o exógenas.. Cov [εt . de manera que la varianza de los errores poblacionales es similar V [εt ] = σ 2 .    E [εT ]  E [ε1 ]  2. Matricialmente recordemos que dado el supuesto (1).. + β k xkt + εt Los supuestos asociados a este modelo difieren levemente del caso simple.

.. ...... σ  ε1 ε1 ε1 ε2 ε1 ε3 . Esta se conforma de tres matrices: E [εε0 ] = ΣΘΣ .  E [εT ε1 ] . ...... .. .58 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE entonces la matriz de varianzas y covarianzas puede representarse por:    ε2 ε1 ε2 ε2 . 0     2  0 σ ...... . . ... 0      =  0 .. E [ε1 εT ] . . ... 0  = σ 2 IT      .  εT ε1 ...    2 0 ... ......... ...  E [εT εT ]  Una manera alternativa de analizar estos dos supuestos es utilizando la descomposición matricial de la matriz de varianzas y covarianzas... .   =  E [ε3 ε1 ] . ε1 εT            .. .. ...... .. . ...........    . . .... ε2 εT   0 E [εε ] = E  ε3 ε1 ...   σ 2 0 0 .... ..... ε3 εT    . εT εT  E [ε1 ε1 ] E [ε1 ε2 ] E [ε1 ε3 ]    E [ε2 ε1 ] E [ε2 ε2 ] . .. ...... . ....... ..   E [ε2 εT ]    E [ε3 εT ]     ...

. σ 0 0 ..T    .... . ... 1 0 0 ..T   0 σ 2 0   ..1   0    .    ρT −1.. Luego se puede escribir  σ 0 .....    0 .. . .... ... σ T Σ = σIT la anterior expresión como:  1 ρ1.. ρT..... .....1 1   ...59 donde cada matriz se define por:  σ 0  1   0 σ2   Σ =  ... es decir la matriz identidad multiplicada por σ:       1 0 . .2 .1 .... . 0 0 σ 0 . 0 0  1  ρ2....    0  0 0  1    ρ2.2 ... .T              ......  0 0 ...   ........   1 σ 0 ..1  ρT.. ........  = σ  ... ....  .   0       0 0 .. .             0  0 ..  .   ..... .   . 0 0 σ 0 ... 0 0     1         0 1  0 σ2 0 0 0  0 σ             Σ =  .... . . . 0 0  ρ1..2 ..  ..  σT ρT... ρ1....    . σ T 1 .   ρ2... .. ρ1..1   Θ =  .  =  ...T −1 ρ1.1 ρT.. σ T 1 ρ1.. Al asumir homoscedasticidad estamos diciendo que la matriz Σ es una matriz escalar con σ en su diagonal....   0  0 0 ..   .. 0  1   0 σ2   E [εε0 ] =  .....   ρT −1...   ..T .T −1 0   0   ρ2..2 ....    .

lo cual ayuda a determinar con unicidad el vector de parámetros a estimar. Finalmente el supuesto más importante para fines de inferencia se refiere a la necesidad de que los residuos provengan de una distribución normal: εt ˜N Los anteriores supuestos pueden resumirse en que el vector de residuos tiene distribución normal multivariada. No existe multicolinealidad. es decir su inversa existe y es única. ˆ A partir del modelo en su versión matricial y = xβ + e.. 5.. idéntica e independiente. εt±k ] = 0 ∀t y ∀k 4. σ 2 IT )..60 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE De igual forma si incorporamos el supesto de no autocorrelación de los residuos estamos imponiendo la condición que la matriz Θ sea la identidad.  = IT     0 . ..    0 0 . . es decir se garantiza que la matriz X 0 X es no singular. 1 Con esto entonces podemos representar los dos supuestos de la siguiente forma: E [εε0 ] = ΣΘΣ = σIT · IT · σIT = σ 2 IT 3... donde x es la matriz de datos de las variables exógenas incluyendo una primera columna de unos... . es decir ε˜IIDN (0.. podemos obtener los estimadores mínimo cuadrados optimizando la siguiente función de pérdida: ³ ´0 ³ ´ ˆ ˆ = e0 e y − xβ min $ = y − xβ {β}   .. Es decir entonces: 1 0 . con media cero y matriz de varianzas y covarianzas σ 2 IT ... No hay correlación entre el residuo poblacional εt y la variable exógena xt : Cov [xt ... cuyos elementos fuera de la diagonal (unos) son nulos. 0 0     0 1 0     Θ =  .

... − β k xkt = 0 ∂β 3 .. denominadas condiciones de ortogonalidad: x0 e = 0 Una representación ampliada y similar a la utilizada en el modelo de regresión simple consiste en escribir este sistema de ecuaciones normales o condiciones necesaria de primer orden como: ´ X³ ∂$ ˆ ˆ ˆ ˆ = −2 yt − β 1 − β 2 x2t − β 3 x3t − . − β k xkt = 0 ∂β 1 ³ ´ X ∂$ ˆ 1 − β 2 x2t − β 3 x3t − ....... − β k xkt = 0 ∂β 1 ³ ´ X ∂$ ˆ ˆ ˆ ˆ = x2t yt − β 1 − β 2 x2t − β 3 x3t − .. es decir: ∂$ ˆ = x0 xβ − x0 y = 0 ∂β lo cual puede representarse alternativamente por el siguiente sistema de ecuaciones normales... ³ ´ X ∂$ ˆ ˆ ˆ ˆ = xkt yt − β 1 − β 2 x2t − β 3 x3t − .... ³ ´ X ∂$ ˆ ˆ ˆ ˆ = −2 xkt yt − β 1 − β 2 x2t − β 3 x3t − .... − β k xkt = 0 ∂β k lo que al simplificar por −2 nos deja un sistema de k ecuaciones con k incognitas: ´ X³ ∂$ ˆ ˆ ˆ ˆ = yt − β 1 − β 2 x2t − β 3 x3t − ..61 Tomando la gradiente o derivada vectorial sobre el vector β estimamos los parámetros del modelo. − β k xkt = 0 ∂β k Al recordar que la expresión entre paréntesis no es más que el residuo mues- . − β k xkt = 0 ˆ ˆ ˆ = −2 x3t yt − β ∂β 3 . − β k xkt = 0 ˆ ˆ ˆ = −2 x2t yt − β ∂β 2 ³ ´ X ∂$ ˆ 1 − β 2 x2t − β 3 x3t − .. − β k xkt = 0 ∂β 2 ³ ´ X ∂$ ˆ ˆ ˆ ˆ = x3t yt − β 1 − β 2 x2t − β 3 x3t − ..

Obtenga la matriz de varianzas y covarianzas y evalúe la hipótesis al 95% de que la playa no tiene influencia en las notas obtenidas por los alumnos.62 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE tral.. luego de aquí tambien ˆ se deduce que β = (x0 x)−1 x0 y. Un profesor de la Escuela de Economía desea evaluar si la playa que está a minutos de la universidad. entonces el ˆ vector de estimadores se puede obtener de despejar el vector β del sistema anterior llegando a: −1 ˆ β = (x0 x) x0 y Una forma alternativa de determinar la expresión anterior consiste en ˆ partir del modelo estimado y = xβ + e.. podemos simplificar aún más la última expresión: X ∂$ = et = 0 ∂β 1 X ∂$ = x2t et = 0 ∂β 2 X ∂$ = x3t et = 0 ∂β 3 . es una mala influencia en el desempeño de los alumnos. Si a esta expresión se le multiplica 0 por x (debe ser por la izquierda pues la multiplicación debe hacerse sobre matrices conformables) nos queda: ˆ x0 y = x0 xβ + x0 e pero la expresión de la derecha x0 e no es más que la representación matricial del sistema de ecuaciones normales que es igual a cero. Para esto se toma una muestra de diez alumnos con el sigueinet resultado de la encuesta: Estime los parámetros de un modelo de regresión lineal simple. medido por las notas finales promedio de cada alumno. Ejercicio. .. X ∂$ = xkt et = 0 ∂β k lo que en el fondo nos lleva a repetir la expresión de ortogonalidad mencionada más arriba: x0 e = 0 Asumiendo rango completo de la matriz x0 x es decir que esta es invertible (de aquí la importancia del supuesto de no multicolinealiad).

8 1 5 4 5. 8       5       1 1 1 1 1 1 1 1 1 1  5.2 1 4.5 2 6 3 4.9 De manera que el vector de estimadores se obtiene de resolver: −1 ˆ β = (x0 x) x0 y         1 3          1 1          1 4          1 1 1 1 1 1 1 1 1 1  1 3  ˆ =     β     2 3 1 4 3 2 1 5 1 2  1 2         1 1          1 5          1 1      1 2   5. 2       4. 1        2 3 1 4 3 2 1 5 1 2  6.5 1 4.1 6.2 4.2 5 5.5 4.251 22  1 2 −1      6       4.5 6 4.1 2 6. 5  La matriz de varianzas y covarianzas se obtiene de resolver la siguiente ex- . 2       5.63 Promedio de Notas Horas Semanales en Playa 5. 5    4. 932 9 ˆ  β =  −0. 1       6.1 3 6. 9  5.2 5.8 5 5.9 2 Dada la información sabemos que:  h 1 1 1 1 1 1 1 1 1 1 2 3 1 4 3 2 1 5 1 2   i x0 =  y0 = 5.1 6.

742 4 2 2.340 93  −2 −0.3 123.251 22 = · 10 − 2   0.146 34  = 0. 3 123. 85 Para testear H0 : β 1 = 0 debemos efectuar un test t: tc = ˆ β1 − β1 ∼ t (T − k) σβ1 ˆˆ ˆ y 0 y − y 0 xβ 0 −1 ˆ ˆ (x x) V (β) = T −k   h i 5. 8  .8  −0. y0 y = X y 2 = 287.25122 tc = √ = −1. 078 9 × 10−2 De manera que al comparar con un test t-Student al 95% para 8 grados de libertad (test de dos colas) cuyo valor es t0. 097 6 × 10   −2 0.146 34   −2 −0.146 34 6.451 22 −0. 85 − 53. 097 6 × 10   0. 989 2 × 10−2 2.64 presión: CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE ˆ ˆ V (β) = como x0 y =  ˆ e0 e y 0 y − y 0 xβ 0 −1 −1 (x0 x) = (x x) T T −k  −k  53. 989 2 × 10  =  −4.975 (8) = 2. 932 9  287.306 vemos que el test calculado es inferior al t de tabla luego no rechazamos la hipótesis de que el parámetro es cero.153 83 −4.146 34 6. 078 9 × 10−2 Reemplazando con los datos obtenidos se tiene: −0. es decir la playa no tendría incidencia en el desempeño académico de los alumnos. .451 22 −0.

4. o de manera general.1.1 Test de Restricciones Es común estar interesado en testear si combinaciones lineales de parámetros obedecen a cierto valor en particular.1 TEST DE RESTRICCIONES 65 4. A partir de la siguiente información y considerando el modelo yt = β 0 + β 1 x1t + β 2 x2t + β 3 x3t + t evaluar la hipótesis nula H0 : 3β 1 − β 2 = 5:   ˆ β1 ˆ β2  0 (x0 x) e e = 60 T = 34  −1  =   4. si un conjunto de combinaciones de parámetros obedece a valores específicos.4.1 Testeo de Restricciones Escalares H0 : r0 β = q Ejercicio.8 5.7       =     60 13 20 −100   5 3 −25    8 −15   9 Para resolver esta pregunta debemos generar el estimador de la matriz de .

0      26. es decir con 0.0 −30.0 6.0 16.66 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE varianzas y covarianzas de los parámetros estimados: ˆ ˆ V (β) = e0 e −1 (x0 x) T −k  De manera que el test corresponde a un t-Student pues tenemos una sola restricción que evaluar: tc = ˆ ˆ 3β 1 − β 2 − (3β 1 − β 2 ) r ³ ∼ t (T − k) ´ 2 ˆ ˆ ˆ1 − β2 V 3β 60 13 20 −100     5 3 −25  60  13 ˆ ˆ   V (β) =  34 − 4  20  3 8 −15    −100 −25 −15 9   120.442 23 de manera que no rechazamos la hipótesis nula.0 −50.2 Testeo de Restricciones Vectoriales H0 : Rβ = q Ejercicio.0 18.0 26.0    −200.0  Al comparar con un test t con 95% (de dos colas. 3 · 4.0 −50.0 40.0 −30.0  ˆ ˆ (β) =   V    40.975 (30) = 2.0 6.442 23 2 32 · (10) + (16) − 2 · 3 · 6 4.7 − (5) tc = p = 0.1.0 10. Supongamos que hemos estimado la siguiente ecuación para una muestra de 17 observaciones ( T = 17) utilizando la metodología de los mínimos cuadrados ordinarios (todas las variables están en logaritmos): yt = β 0 + β 1 x1t + β 2 x2t + εt .975) y con T − k = 34 − 4 = 30 grados de libertad se tiene que t0.0 −200.042 es superior al nuestro tc = 0.8 − 5.

β 2 = −1. Si la variable x1 aumenta en un 1% y la variable x2 lo hace en un 2%.7 −6.42 −6. β 2 .35 0.89 −254.0028  e0 e   −1 0 ˆ ˆ (β) = (x x) = V  −254. 4 × 10     ˆ ˆ V (β) =  −0.102 18 −0.42     −1 (x0 x) =  132.82 7.35 0.52% ³ ´ −1 y 0 I − x (x0 x) x0 y = 0.102 18 V (β 0 )     ˆ ˆ    =  0.026 54 −1. entonces y lo hara en: ∆y = 1.0028   510. 422 × 10 V Si la variable x1 se incrementa en 1% y la variable x2 lo hace en 2%.82    7.1 TEST DE RESTRICCIONES encontrándose los siguientes resultados:  67 ˆ ˆ ˆ Calcule las varianzas estimadas de los estimadores β 0 .026 54   V (β 1 )      −3 ˆ ˆ (β 2 ) 1. 364 × 10 1.050 87 8.37    ˆ =  1.89 −254. 422 × 10     ˆ ˆ 0.14  β    −0.14 · 1 − 0.050 87 0.82  T −k 17 − 3   0. 364 × 10−3    −5 −3 −3 8. 4 × 10 −1.4.83  . ˆ Para calcular las varianzas estimadas del vector de parámetros β debemos 2 0 −1 calcular s (x x) :   510.7 −6.83 · 2 = −0. ¿cuál será el efecto final sobre la variable dependiente y? Finalmente utilice el test F y evalúe la hipótesis nula H0 : β 1 = 1.42  0.11 1.35 132. β 1 .11   −5 0.

14    0. 364 × 10−3          8. 364 × 10−3 1.14  −       0 0 1  −1  −0.050 87 8. 4 × 10−5 −1.17  38. 7 0.05 (2.17 = 11. 633 38. 4 × 10−5           −0.026 54 −1.83    −1 0 1 0       0 0 1        0. 14) = 3. 422 × 10−3    0     0 1 0     0 0 1         1.050 87 0.14  −       0 0 1  −1  −0.68 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE Es decir la variable dependiente y cae −0.102 18 −0.52%. Para testear la hipótesis conjunta H0 : β 1 = 1. β 2 = −1 hay que aplicar la siguiente fórmula de test F: ³ ´0 £ ´ ¤ ³ ˆ − q Rs2 (x0 x)−1 R0 −1 R · β − q ˆ R·β Fc =    J 0 1 0 1   yq= donde R =  0 0 1 −1 entonces reemplazando los resultados conseguidos anteriormente:  0       1. 016 0. 982 Fc = 2 Al comparar con un F0. 016 739.83 Fc = 2     ³ ´ 39.14 0.74 vemos que rechazamos la hipótesis nula.37   0 1 0  1      ·  1.37   0 1 0  1      ·  1. .

entonces este parámetro solamente estará capturando la media de la variable dependiente. es decir testeemos H0 : β 2 = β 3 = . Este hecho hace recomendable que el test no se contamine con el valor de la constante al momento de evaluar la significancia del vector de parámetros. = β k = 0. + β k xkt + εt Se sabe que si redefinimos a las variables en desviaciones de sus propias medias. − β k xk ¯ ˆ ¯ y que por supuesto en el caso hipotético de que los parámetros asociados a las variables explicativas sean nulos.2 SIGNIFICANCIA DE LA REGRESIÓN 69 4.. Paea testear esta hipótesis podemos utilizar nuestra expresión del test F definido por (J = k − 1): Fc = ³ ´0 £ ´ ¤ ³ ˆ − q R (x0 x)−1 R0 −1 Rβ − q / (k − 1) ˆ Rβ e0 e/(T − k) . los estimadores mínimos cuadrados no se ven modificados y que ahora la constante no debiera ser incluida en la estimación pues se obtiene ˆ ˆ ¯ de las medias de las otras variables a través de β 1 = y − β 2 x2 − .2 Significancia de la Regresión Supongamos que tenemos elmodelo de regresión y = xβ + ε... modelo que en su forma extendida se puede representar por: yt = β 1 + β 2 x2t + ..4.. En este caso entonces analicemos la hipótesis nula de que todos los parámetros son cero (recordemos que la constante está fuera de este conjunto de parámetros analizados)..

nos queda: ˆ0 β (x0 x) (x0 x)−1 x0 y T − k Fc = ˆ k−1 y 0 y − y 0 xβ ˆ y 0 xβ T − k Fc = ˆ y 0 y − y 0 xβ k − 1 ..  0 0 0   0     0     q = 0      ... .. y recordando que la expresión β x0 y es equivalente a y 0 xβ pues ambas son expresiones escalares.. 0   0   0  = Ik−1   .   1  Dado que en este caso es fácil verificar  1 0 0   0 1 0   R = 0 0 1    ..70 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE que: 0 0 0 0 .... .    0 k−1 entonces podemos reescribir el test F como: £ ¤−1 ˆ ˆ0 β/ (k − 1) β (x0 x)−1 Fc = e0 e/(T − k) 0 ˆ ˆ β (x0 x) β T − k Fc = e0 e k−1 ˆ ˆ pero sabemos que β = (x0 x)−1 x0 y y ademas que a partir de y = xβ + e es posible deducir que: ˆ e0 e = y 0 y − y 0 xβ de manera que reemplazando estas dos representaciones en la expresión del ˆ0 ˆ Fc ....

es decir un bajo R2 .67 El nivel de significancia de la regresión se puede evaluar analizando el test F de esta ecuación bajo la hipótesis nula de que todos los parámetros son cero en la regresión.2 SIGNIFICANCIA DE LA REGRESIÓN 71 dividiendo por y 0 y que es equivalente a la suma de los cuadrados totales (recordemos que las variables están en desviación de sus propias medias) y 0e recordando que el coeficiente de determinación R2 = 1 − y0eMy : Fc = Fc = T −k k−1 ¶µ ¶ T −k R 1 − R2 k−1 ˆ y0 xβ y0 y ˆ y0 y−y 0 xβ y0 y µ 2 Esta última expresión nos indica que aquellas regresiones que tienen bajo coeficiente de ajuste. tienen a su vez un test F también muy bajo lo cual perimtiría decir que la probabilidad de aceptar la hipotesis nula es muy alta. o lo que esw lo mismo.03) 2 R = 0. que la probabilidad de rechazar la hipótesis es muy baja.03 + 1.14Rmt + 0.19ft (0.08) (0. es decir: P V alue = Z∞ f (s) ds Fc Ejercicio. La hipótesis a testear es H0 : β = γ = 0 versus la alternativa de que al menos uno de estos parámetros ³ 2 ´¡ ¢ R no es cero.28) (0. Este concepto se conoce como el valor de la probabilidad (P-Value) y está definido para este test como la integral de la función de densidad f (s) desde el valor del test calculado (Fc ) a infinito (∞). a excepción de la constante.4. Aplicamos la expresión Fc = 1−R2 T −k considerando que k−1 . Supongamos que se dispone de la siguiente información producto de estimar una regresión con T = 500 observaciones para el APT de una acción i con un factor f asociado al volumen de actividad del sector industrial asociado a la acción: Rit = α + βRmt + γft + εt = 0.

Ejemplos podrían ser estimar una función Cobb-Douglas asumiendo que la eslasticidad capitalproducto es igual a 0. entonces rechazamos la hipótesis nula de que ambos parámetros son estadísticamente iguales a cero.67: ¶µ µ ¶ T −k R2 Fc = 1 − R2 k−1 ¶µ ¶ µ 500 − 3 0. o estimar una función de demanda por dinero con un coeficiente de elasticidad producto igual a 1. 53 Si contrastamos este test Fc = 504.3 Modelo Restringido .67 = 1 − 0.72 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE T = 500. k = 3 y que R2 = 0. F95% (k − 1. Representemos a ambos modelos no restringidos y restringidos (identificados con el sub-índice R) por: ˆ y = xβ + e ˆ y = xβ R + eR Partiendo de la definición del residuo restringido eR podemos decir: ˆ eR = y − xβ R ˆ ˆ ˆ eR = y − xβ R + xβ − xβ ˆ ˆ ˆ eR = y − xβ − xβ R + xβ ˆ ˆ eR = e − xβ R + xβ ´ ³ ˆ ˆ eR = e + x β − β R de manera que el valor de e0R será igual a: ´0 ³ 0 0 ˆ − β R x0 ˆ eR = e + β . 4. entendiendo como que un modelo estará restringido en la medida que un subconjunto de los parámetros tome valores específicos asociados a una determinada hipótesis nula. 497) = 3.5.67 3−1 = 504. T − k) = F95% (2.53 con el valor respectivo de tabla a un nivel de significancia del 5%.No Restringido Una plicación adicional del test F corresponde al analisis de modelos restringidos versus no restringidos.

entonces la suma de los cuadrados totales es también similar. de manera que podemos dividir el numerador y el denominador por y 0 My para encontrar una relación de esta expresión en términos de los coeficientes de determinación De esta forma podemos ver la relación que existe entre el análisis de la diferencia de la suma de los residuos al cuadrado entre ambos modelos y el test F analizado.4. El test para la hipótesis nula de que H0 : β = β R se puede representar entonces como (J es el número de parámetros involucrados en la hipótesis nula): (e0 eR − e0 e) /J Fc = R0 ∼ F (J.NO RESTRINGIDO 73 Multiplicando estas dos últimas expresiones para generar una relación entre la suma del cuadrado de los residuos entre modelos restringidos y no restringidos llegamos a (note que las multiplicaciones cruzadas no aparecen pues sabemos por condiciones de ortogonalidad que x0 e = e0 x = 0): ´0 ´ ³ ³ ˆ ˆ ˆ ˆ e0R eR = e0 e + β − β R x0 x β − β R ≥ e0 e Modelos Restringidos versus No Restringidos Reordenando la expresión anterior podemos encontrar una relación entre esta y el numerador del test F analizado en la sección anterior: e0R eR ´0 ´ ³ ³ ˆ − β R x0 x β − β R ˆ ˆ ˆ −ee = β ³ ´0 h i−1 ³ ´ 0 −1 0 ˆ − Rβ R ˆ ˆ − Rβ R ˆ = Rβ R (x x) R Rβ 0 Considerando que la variable dependiente en ambos modelos es la misma. T − k) e e/(T − k) .3 MODELO RESTRINGIDO .

Los resultados al estimar ambos modelos son los siguientes: Modelo sin Restricciones vt e0 e R2 T vt 0 eR eR 2 RR = = = = = = = T = 0.74 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE de ambos modelos: Fc = Fc = ³ e0 eR R y 0 My e0 e /(T − k) y0 My 2 2 (R − RR ) /J (1 − R2 ) /(T − k) − e0 e y 0 My ´ /J ∼ F (J. y finalmente p mide el gasto en volantes distribuídos a residencias vecinas y automóviles del sector.21gt + 0.42yt + 0.29 + 1.47pt 370. g representa el gasto en publicidad en medios como la TV.88154 670 Con estos antecedentes podemos analizar el modelo no restringido (modelo 1) versus el modelo restringido (modelo 2) al cual se le ha impuesto la condición de que el parámetro asociado al gasto el volantes tiene un valor de cero. Una empresa de asesorías financieras y de marketing está estimando dos modelos de ventas de supermercado considerando dos modelos alternativos: vt = β 1 + β 2 yt + β 2 gt + β 3 pt + εt vt = β 1 + β 2 yt + β 2 gt + εt donde v indica ventas del supermercado.23 0.15yt + 0. T − k) Ejercicio.89 670 Modelo con Restricciones (β 3 = 0) 0.45 0. y el nivel de actividad de la economía (P IB).35gt 399. Para este ejercicio compararemos los resultados de analizar el test en funciónde las diferencias de las sumas de los residuos al cuadrsdo entre modelos . diarios y revistas.14 + 1.

recomendando su inclusión en la estimación. 666) = 3.741 De igual manera que con el formato de test anterior podemos decir que rechazamos la hipótesis de que la variable p sea no significativa.89) /(670 − 4) Fc = 51. Alternativamente podemos testear esta hipótesis utilizando el test en función de los R2 : Fc = 2 (R2 − RR ) /J (1 − R2 ) /(T − k) (0. . Si vemos primero la fórmula en función de las sumas de los cuadrsdos de los residuos tendremos: (e0R eR − e0 e) /J ∼ F (J.23 − 370. 670 − 4) 370.NO RESTRINGIDO 75 restringidos versus no restringidos.4.3 MODELO RESTRINGIDO .45) /1 Fc = ∼ F (1.84 entonces rechazamos la hipótesis de que le parámetro es cero. lo cual implica que la variable gastos en volantes es relevante como variable explicativa de las ventas del supermercado.89 − 0. con el del test basado en diferenciales de R2 entre ambos modelos. T − k) e0 e/(T − k) (399.45/(670 − 4) Fc = 51. 741 Fc = Como este valor es superior a F95% (1.881 45) /1 Fc = (1 − 0.

.

Esta nueva variable artificial tomará valor unitario si el evento está presente y cero si no es así. por ejemplo: Guerra Hombre Profesional Gobierno A Crisis Bancaria Paz Mujer Técnico Gobierno B Normalidad Tipo de Cambio Fijo Tipo de Cambio Flexible Si estas variables no son directamente cuantificables entonces surge la alternativa de utilizar variables dicotómicas mudas.1 Variables Mudas Si es posible definir con certeza el momento del eventual quiebre estructural ya sea en un parámetro como en una combinación de parámetros entonces podemos aplicar lo que se conoce como variables mudas.Chapter 5 Evaluando Quiebres Estructurales 5. Ejemplos de este tipo de funciones son innumerables. Una variable muda o ficticia generalmente se asocia a una función indicadora de un evento determinado. Volvamos al modelo de regresión simple para entender cómo testear cambios estructurales en algún 77 .

. s + 1... Una tabla ayudará a comprender esta representación: Con esta nueva variable podemos testear cambio en el coeficiente de intercepto β 1 y/o en el de pendiente β 2 .... 2.. s... s + 1 como el del eventual quiebre estructural.. yT o algunos parámetros utilizando esta variable. T donde hemos identificado el período s.1.1 Cambio Estructural de Intercepto Para analizar esta hipótesis representada por: H0 : β 1 = β : β 1 6= β ∀t ≤ s ∀t > s .. Para incorporar este hecho econométricamente.... xT dt 0 0 . 1 s + 1 ys+1 s + 2 ys+2 . T . creamos una nueva serie artificial (muda) dt que tomará valores de cero antes del período s y de uno desde s + 1 hasta T .. s yt y1 y2 .. xs xs+1 xs+1 . ... 5....78 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES t 1 2 . ys xt x1 x2 . 0 1 1 ... Supongamos que el modelo a estimar es: yt = β 1 + β 2 xt + εt ∀t = 1.

. T    (β + β ) + β x + ε t 1 3 2 t          79 El test consiste en evaluar si el parámetro β 3 es significativamente distinto de cero o no. no habiendo indicios de quiebre estructural en el parámetro del intercepto. T    β 1 + β 2 xt + εt dt = 0 ∀t = 1.. . s   yt = β + β 2 xt + β 4 xt + εt  1 dt = 1 ∀t = s + 1.. .. T    β + (β + β ) x + ε 1 2 4 t t          .1..1 VARIABLES MUDAS podemos reescribir el modelo a estimar como: yt = β 1 + β 2 xt + β 3 dt + εt ∀t = 1. s + 2. 2.... . 2. 5. . s   yt = β + β 2 xt + β 3 + εt  1 dt = 1 ∀t = s + 1. Para esto generamos un test t con la siguiente hipótesis nula: H0 : β 3 = 0 ˆ ˆ β −β β tc = r 3 ³ 3´ = 3 σβ3 ˆˆ ˆ ˆ V β3 Si tc (en valor absoluto) es menor a un test t(1− α ) (T − k) de tabla entonces 2 no rechazamos la hipótesis de que el parámetro es cero.2 Cambio Estructural de Pendiente Para analizar esta hipótesis representada por: H0 : β 2 = β : β 2 6= β ∀t ≤ s ∀t > s podemos reescribir el modelo a estimar como: yt = β 1 + β 2 xt + β 4 dt xt + εt ∀t = 1.. 2. 2.... T    β 1 + β 2 xt + εt dt = 0 ∀t = 1.5. ..... ... s + 2.

. 2. s + 2.. T    (β + β ) + (β + β ) x + ε 1 3 2 4 t t          El test consiste en evaluar si los parámetros β 3 y β 4 son en forma conjunta significativamente distinto de cero o no. no habiendo indicios de quiebre estructural en el parámetro de la pendiente.1. s   yt = β + β 2 xt + β 3 + β 4 xt + εt  1 dt = 1 ∀t = s + 1.3 Cambio Estructural en Pendiente e Intercepto ˜ H0 : β 1 = β. Para esto generamos un test t con la siguiente hipótesis nula: H0 : β 4 = 0 ˆ ˆ β −β β tc = r 4 ³ 4´ = 4 σβ4 ˆˆ ˆ ˆ V β4 Si tc (en valor absoluto) es menor a un test t(1− α ) (T − k) de tabla entonces 2 no rechazamos la hipótesis de que el parámetro es cero.... 5.. 2. β 2 6= β Para analizar esta hipótesis representada por: ∀t ≤ s ∀t > s podemos reescribir el modelo a estimar como: yt = β 1 + β 2 xt + β 3 dt + β 4 dt xt + εt ∀t = 1. β 2 = β ˜ : β 1 6= β. T    β 1 + β 2 xt + εt dt = 0 ∀t = 1... T − k) J −1 (Rβ−Rβ)0 [R(x0 x)−1 R0 ] (Rβ−Rβ) J ∼ F (J. . .. Para esto es necesario evaluar la hipótesis a través de un test F de Fisher pues los test t no son capaces de testear más de una restricción en la hipótesis nula H0 : β 3 = β 4 = 0 £ ¤−1 (Rβ − Rβ) (Rβ − Rβ)0 Rs2 (x0 x)−1 R0 Fc = ∼ F (J.80 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES El test consiste en evaluar si el parámetro β 4 es significativamente distinto de cero o no. . T − k) Fc = e0 e T −k .

s3 .. s2 + 2.. T − 4) de tabla entonces no rechaz2 amos la hipótesis de que ambos parámetros son cero.....2 SPLINES lo cual aplicado a nuestro test implica: (Rβ−Rβ)0 [R(x0 x)−1 R0 ] 2 e0 e T −4 −1 81 (Rβ−Rβ) Fc = ∼ F (2.. 5.. . s2 1 2 yt = β s3 + β s3 xt + εt si t = s2 + 1.2 5. s1 1 2 yt = β s2 + β s2 xt + εt si t = s1 + 1.2. Una regresión spline consiste en estimar una regresión por segmentos discretos pero continuos de la muestra.. . después se estima para el intervalo s2 . s2 ..5. Se estima una regresión desde la observación 1 hasta la observación s1 ..1 SPLINEs Regresión Spline Los SPLINES son métodos de interpolación no-paramétrico de los cuales la regresión spline es la más usual. .. T 1 2 Esta discontinuidad de pendientes se logra con la introducción al modelo de diferentes variables mudas asociadas a los vértices de la curva estimada.. después se estima el modelo para el intervalo s1 .. Es así como definimos a cada variable muda en función del intervalo de tiempo asociado tomando un valor cero si la condición del intervalo correspondiente . etc. s3 1 2 . hasta estimar un modelo con el intervalo final (hasta T ).. yt = β T + β T xt + εt si t = . T − 4) Si Fc es menor a un test F( α ) (2. Analíticamente para el caso de dos parámetros se representa por: yt = β s1 + β s1 xt + εt si t = 1.. 2. no habiendo indicios de quiebre estructural en los parámetros de la pendiente y el intercepto. s1 + 2.

s1 + 2. J yt = β 1 + β 2 xt + λ1 d1 + θ1 d1 xt + .... T La expresión analítica de esta secuencia de curvas se representa por: yt = β 1 + β 2 xt + λ1 d1 + θ1 d1 xt + λ2 d2 + θ2 d2 xt + . s2 + 2.. .. + λJ dJ + θJ dJ xt + εt ´ ³ ´ ³ dJ = 1 P P yt = β 1 + J λi + β 2 + J θi xt + εt i=1 i=1 .. dJ = 1 si t = . s2 d2 = 1 si t = s2 + 1.82 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES no se cumple: d1 = 1 si t = s1 + 1. 2........ d2 = 1 ∀di = 0 d1 = 1 Esta expresión puede ser representada gráficamente por una secuencia de líneas rectas que deben cumplir con la condición de ser contínuas para tomar la connotación de una regresión spline. s3 . Analíticamente la continuidad se representa por las siguientes condiciones: β 1 + β 2 xs1 = (β 1 + λ1 ) + (β 2 + θ1 ) xs1 (β 1 + λ1 ) + (β 2 + θ1 ) xs2 = (β 1 + λ1 + λ2 ) + (β 2 + θ1 + θ2 ) xs2 etc.. . .. ..... + λJ dJ + θJ dJ xt + εt Lo cual en términos de segmentos muestrales se traduce en: yt = β 1 + β 2 xt + εt yt = β 1 + β 2 xt + λ1 d1 + θ1 d1 xt + εt yt = (β 1 + λ1 ) + (β 2 + θ1 ) xt + εt yt = β 1 + β 2 xt + λ1 d1 + θ1 d1 xt + λ2 d2 + θ2 d2 xt + εt yt = (β 1 + λ1 + λ2 ) + (β 2 + θ1 + θ2 ) xt + εt ....... Simplificando cada restricción llegamos a: λi = −θi xsi ∀i = 1.

β 2 . + θJ dJ (xt − xsJ ) + εt 5.. ξ n }. + λJ dJ + θJ dJ xt + εt yt = β 1 + β 2 xt + θ1 d1 (xt − xs1 ) + θ2 d2 (xt − xs2 ) + ... ξ 1 . α3 .5.. . con polinomios de grado n y diferenciables n − 1 veces en toda su extensión. β n−1 . y que es diferenciable dos veces en todo punto de la curva... α1 . Por ejemplo un cubic-spline es una curva representada por un polinomio de grado 3 en cada intervalo.2 Cubic Spline y B-Splines Un spline de orden n es una aproximación polinómica. Donde se juntan los polinomios adyacentes se conocen como nudos (knots). α2 ..2 SPLINES 83 Figure 5. Una representación general del cubic-spline es: s (t) = 3 X i=0 αi t i + Polinomio Cúbico ¡ ¡ ¢ ¢ donde t − ξ p + = max t − ξ p . β 1 .. 0 .. | {z } Diferenciable 2 veces en los nudos ¢3 1X ¡ β p t − ξp + 3! p=1 | {z } n−1 . .2.. un spline cúbico tiene n+3 parámetros α0 . Es así como para un spline de n+1 nudos © ª {ξ 0 .1: Regresión por Segmentos o Spline Incorporando estas condiciones en la expresión generalizada llegamos a: yt = β 1 + β 2 xt + λ1 d1 + θ1 d1 xt + λ2 d2 + θ2 d2 xt + ... Tiene la característica de que en cada nudo las pendientes deben ser iguales y además las curvaturas de cada lado de esots nudos debe coincidir.

98 5.y. .. entre las cuales se encuentran las B-Splines.84 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES En general un δ−grado spline tiene un equivalente a n + δ parámetros que estimar.45 4.52 4. ξ p+4 .98 5. . 1.75 4.45 4.65 7 7.52 4. xx=0:. yy = spline(x. x=[1/365 30/365 90/365 1 2 8 20]... y para p = 0.65 7.00 7.l6=i (ξ l − ξ i ) p+4 Q ! ¡ ¢3 t − ξp + Ejercicio.75 4.25:20. Aplicando la opción spline de MATLAB a través del siguiente código podemos estimar un cubic-spline con la siguiente estructura interpolada: y=[4. .xx). n − 4 definimos un spline cúbico Bp (t) por: p+4 X i=p Bp (t) = Ã 1 l=p. Consideremos la siguiente estructura de tasas de interés nominales: Madurez Tasa 1 día 1 mes 3 meses 1 año 2 años 8 años 20 años 4.91 Aquí podemos ver que claramente la¤ función B-Spline es nula o cero para £ intervalos que esten fuera de ξ p . ξ n }. Sin embargo es común utilizar versiones generales de s(t) que se pueden representar por combinaciones lineales de de splines generales. ξ 1 . Para un conjunto de n + 1 nudos {ξ 0 ..91]..

La filosofía .y. Aplicaremos la interpolación cubic-spline para proyectar el comportamiento de una variable en una muestra estimada.yy).10) en MATLAB.5 4 0 2 4 6 8 10 12 14 16 18 20 Cubic-Spline de Estructura de Tasas Ejercicio.5. 5. 85 8 7. cifra obtenida con la instrucción spline(t.5 5 4.’o’.3 TEST DE CHOW plot(x.896%.5 7 6. Analizando la curva estimada esta tasa debiera ser del orden de 6.3 Test de Chow La idea de este estadístico es testear la hipótesis de que al menos un parámetro de los coeficientes de la regresión no es igual para toda la muestra. Utilizando la estimacion del ejercicio anterior podemos analizar cuál sería la tasa que un papel de 10 años debiera tener.y.xx.5 6 5.

.. . T ˆ de manera que el vector de parámetros estimados será β = (x0 x)−1 x0 y originándose una suma del cuadrado de los residuos para el modelos restringido e0R eR . Para testear la hipótesis nula de que los parámetros son iguales en cada submuestra debemos aplicar el test F que se genera de comparar las sumas ˆ Aplicando la fórmula de los mínimos cuadrados ordinarios β = (x0 x)−1 x0 y ˆ podemos estimar el vector de parámetros β:    −1   ˆ x01 x1 0 β1 x01 y1 0       ˆ       β 2  =  0 x02 x2 0   x02 y2        0 0 ˆ3 x3 y3 0 0 x3 x3 β ... s2 y2 = x2 β 2 + ε2 t = s2 + 1... Un modelo sin restricciones para cada submuestra permite tener vectores de parámetros que difieren entre estas submuestras.. . . es decir considerando toda la base de datos: y = xβ + ε t = 1. Por ejemplo consideremos un modelo aplicado a tres períodos que conformarán un tamaño muestral total de T : t = 1. T y3 = x3 β 3 + ε3 En términos matriciales este sistema se puede representar por:         y x 0 0 ε β  1  1  1   1         =  0 x2 0  +  ε2   y2   β2          0 0 x3 y3 β3 ε3 T x1 T x3k 3kx1 T x1 El Modelo restrtingido se obtine de estimar la ecuación y = xβ + ε sin considerar ninguna subdivisión o partición muestral. s1 y1 = x1 β 1 + ε1 t = s1 + 1.... ..86 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES consiste en evaluar estadísticamente si el vector de parámetros estimado para toda la muestra difiere de aquel que se calcula considerando dos o más submuestras..

Si recordamos el teorema que dice que el cuadrado de una distribución normal multivariada estandarizada de dimensión J tiene una distribución Chi-cuadrado con J grados de libertad. Σ2 ) Segunda Regresión Al asumir la hipótesis nula de que ambos vectores de parámetros kx1 estimados son similares (H0 : β 1 = β 2 ) al calcular la diferencia entre ambos vectores y estandarizando tenemos: ˆ ˆ β 1 − β 2 ∼ Nk (0. 5. Σ1 ) Primera Regresión ˆ β 2 ∼ Nk (β 2 .5.4 TEST DE WALD 87 de los cuadrados de los residuos de cada sumuestra en relación con la del modelo restringido (e0R eR ): e0 e = e01 e1 + e02 e2 + e03 e3 La ecuación del test F que aplicaremos en esta situación corresponde a: Fc = (e0R eR − e0 e) / (T − k − (T − mk)) ∼ F (J. y k es el número de parámetros a estimar en cada modelo. T es el tamaño total de la muestra. Este test analiza eventuales quiebres entre submuestras.4 Test de Wald Una manera alternativa de testear quiebres estructurales consiste en el test de Wald. T − k) e0 e/(T − mk) (e0 eR − e0 e) / ((m − 1) k) ⇒ Fc = R ∼ F (J. T − k) e0 e/(T − mk) donde m corresponde al numero de submuestras consideradas (en nustro ejemplo 3). Σ1 + Σ2 ) de manera que aplicando la defición de la Chi-cuadrado tendremos: ´0 ³ ´ ³ ˆ ˆ ˆ ˆ 1 − β 2 [Σ1 + Σ2 ]−1 β 1 − β 2 ∼ χ2 (k) W = β . entonces podemos parámetros estimados de pares de regresiones de la siguiente manera: ˆ β 1 ∼ Nk (β 1 .

La hipótesis nula es la estabilidad de los parámetros del modelo H0 : β t = β. al igual que lo que se hizo con el test F . de existir). ∀t versus la alternativa de que para todo o algún t esta relación se quiebra. Los tests que se aplican actualmente son los conocidos como CUSUM y CUSUMQ. de manera que finalmente el test será: ³ ´0 h i−1 ³ ´ ˆ 1 − β 2 Σ1 + Σ2 ˆ ˆ ˆ 1 − β 2 ∼ χ2 (k) ˆ ˆ Wc = β β Si se observa que el valor Wc es superior al valor de referencia obtenido de tabla.05 entonces rechazamos la hipótesis al 5% de significancia. entonces rechazamos la hipótesis nula de que los parámetros son los mismos. 5. entonces es necesario aplicar test que no requieran de esta información y más bien que entregen o anuncien el momento eventual de quiebre (denuevo. se puede analizar el valor de probabilidad (P − V alue) correspondiente al test Wc y si este es inferior a 0. es aquí donde se presenta la debilidad de los métodos de testeo anteriores. siglas que se refieren a la suma de los residuos o los residuos al cuadrado de una secuencia de modelos estimados. Analíticamente se representan por: cusumt = cusumqt = cj j=k+1 s Pj=t j=t P 2 j=k+1 cj Pj=T 2 j=k+1 cj .5 Tests CUSUM y CUSUMQ Hasta ahora hemos asumido que conocemos el momento del eventual quiebre estructural. Si el investigador no posee una claridad de cuando ocurrió el quiebre (de existir) y a qué variable asociarlo. Alternativamente. es decir existiría evidencia de que hay cambio estructural en estas submuestras.88 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES La expresión muestral para calcular este test asume conocida las matrices de varianzas y covarianzas Σ1 + Σ2 . Conceptualmente estos tests se generan del análisis de los residuos estimando recursivamente ecuaciones lineales incorporando cada vez una base de datos más completa hasta que finalmente agotamos toda la muestra.

143 si el intervalo es del 99%. Es suficiente hacer una es decir el intervalo para CUSUMQ será: Pj=t Pj=t 2 2 c ¯ j=k+1 cj j=k+1 cj Pj=T 2 −tα (T − k − 1) √ s ≤ cusumqt ≤ Pj=T 2 +tα (T − k − 1) T −k j=k+1 cj j=k+1 cj c ¯ √s T −k . c = ¯ T −k T −k Los intervalos de confianza ¡para el √ CUSUM se generan por la conexión ¡ √ ¢ ¢ de dos líneas k. Para generar los intervalos de confianza del CUSUMQ hay que partir de la distribución de la media de c: µ ¶ σ2 c ∼ N 0. donde el valor de η es 0. ¯ T −k c ¯ q ∼ N (0. ±3η T − k .5 TESTS CUSUM Y CUSUMQ donde: cj = ˆ yj − xj β [j−1] s³ ¡ 0 ¢−1 0 ´ 1 + x0j Xj−1 Xj−1 xj | {z } ¡ ¢ ∼ N 0. σ 2 89 Varianza Predicha del Residuo (por σ 2 ) Pj=T ¯2 j=k+1 (cj − c) 2 s = T −k−1 Pj=T µ ¶ σ2 j=k+1 cj ∼ N 0. ±η T − k y T.5. 1) σ2 T −k Al aplicar la definición del test t − student a esta distribución sabremos cuál es el intervalo que debemos agregar al coeficiente cusumq: q ¯ qc σ2 T −k = c ¯ √s T −k s2 σ2 (T − k − 1) /(T − k − 1) ∼ t(T − k − 1) Su popularidad se debe a que estos han sido incorporados el software econométrico y que adicionalmente para su testeo no es necesario contrastar el estadístico con ningun valor de tabla o P-Value.948 si se desea un intervalo del 95% y 1.

Si los estadísticos generados secuencialmente (CUSUM y CUSUMQ) se salen de los intervalos de confianza predefinidos (por ejemplo la línea que se sale por el límite superior de las figuras) entonces podemos decir que se rechaza la estabilidad del modelo. Adicionalmente este test estaría indicando cuando se produce el quiebre estructural. Test CUSUM: Intervalos de Confianza Test CUSUMQ: Intervalos de Confianza .90 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES inspección visual a un par de figuras que presentan estos tests.

Este capítulo explora las implicancias y métodos disponibles para corregir el procedimiento de estimación de mínimos cuadrados cuando la matriz de varianzas y covarianzas no es σ 2 I.Chapter 6 Distorsiones del Modelo de Regresión El modelo de regresión simple multivariado asume que los residuos se distribuyen en forma identica e independiante con valor esperado 0 y matriz de varianzas y covarianzas σ 2 I. dos de las cuales son idénticas: E [εε0 ] = Λ = ΣΘΣ 91 . 6. Recordemos que una matriz de varianzas y covarianzas puede ser descompuesta en tres matrices. podemos devolvernos a entender el por qué de este resultado.1 Heteroscedasticidad Una vez asumido que la matriz de varianzas y covarianzas de los residuos es σ 2 I.

T    ......T .T   0 σ 2 0   ...T −1 ρ1.  σT ...    ρT −1...2 . 0 0  ρ1. . .... pues existirá una matriz Σ que no es escalar..   1              σ 0 ...   .2 .. en donde los elementos de su diagonal no son constantes.    0 . ρT.....1   0    . .2   ρ2..   . .   . ..1 ρT. .1 1   ... .....   . 0 0  1  ρ2..92CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN donde cada matriz se define por:  σ 0  1   0 σ2   Σ =  .... ρ1..... 0  1   0 σ2   E [εε0 ] =  . σ T 1 ρ1.  0 0 .. ρ1... Al asumir homoscedasticidad estamos imponiendo que las matrices Σ sean σ-escalares es decir Σ = σI.....T ... Al levantar el supuesto de homoscedasticidad ya no es posible definir a la matriz de varianzas y covarianzas como σ2 I.1 ..    ..    0  0 0  1    ρ2.. ... Luego se puede escribir  σ 0 .....   0  0 0 . σ T 1 .1  ρT.. . y a su vez al imponer no autocorrelación la matriz Θ corresponde a la identidad.....T −1 0   0   ρ2. Θ = I... Por esta razón es que la matriz de varianzas y covarianzas se define ahora asumiendo solamente no autocorrelación pero si errores heteroscedásticos por: E [εε0 ] = ΣΣ la anterior expresión como:  1 ρ1.1   Θ =  .   ...... ρT...   ρT −1.2 .    .

... para lo cual primero analizaremos el sesgo y segundo la varianza de los estimadores bajo este nuevo escenario.    0 0 .1 HETEROSCEDASTICIDAD 93 Si factorizamos la matriz ΣΣ por σ 2 entonces podemos renombrar a la matriz de varianzas y covarianzas como: E [εε0 ] = Λ = ΣΣ = σ2 Ω donde la matriz Ω corresponde a una matriz diagonal definida por:   ω 0 . σ 2 Ω donde Ω no es la identidad. 0   Ω=    .. 0  1     0 ω 2 . lo más interesante es verificar si los primeros momentos de este estimador se ven afectados.. . .... ˆ 1.. 6. ω T Considerando la notación anterior entonces ahora analizaremos los efectos que produce en los estimadores mínimos cuadrados el asumir heteroscedasticidad en los residuos.... Sesgo. σ 2 Ω).6.1 Implicancias para Estimación Para verificar si existe algún efecto sobre los estimadores mínimo cuadrados consideremos el caso de un modelo general en su versión matricial como y = xβ + ε. donde asumiremos que ε ∼ N (0. es decir ahora asumiremos que: ¡ ¢ ε ∼ N 0..1. .. Si sabemos que β = (x0 x)−1 x0 y entonces reemplacemos el modelo en esta expresión: ˆ β = = = = (x0 x) x0 y −1 (x0 x) x0 (xβ + ε) −1 −1 (x0 x) x0 xβ + (x0 x) x0 ε −1 β + (x0 x) x0 ε −1 .

llegamos a: ˆ β = ³ ´ ˆ β = ³ ´ ˆ β = ³ ´ ˆ β = ³ ´ ˆ β = β + (x0 x) x0 ε ³ ´ −1 V β + (x0 x) x0 ε −1 −1 −1 V V V V (x0 x) (x0 x) x0 V (ε) x (x0 x) x0 Λx (x0 x) −1 −1 −1 σ 2 (x0 x) x0 Ωx (x0 x) −1 Sabemos que de ser la matriz Ω = I. ∀Ω 6= I La implicancia es que indudablemente los valores de las varianzas de los estimadores serán mayores. . En resumen. ˆ 2. creyendolos eficientes cuando en realidad no lo son. y recordando que V (ε) = Λ = σ2 Ω y que las x son variables determinísticas. entonces los estimadores mínimo cuadrados son eficientes (es decir de mínima varianza).94CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN Al aplicar el operador expectativa y considerando que E (ε) = 0. Varianza. es decir aquellos que tienen la mínima varianza. lo cual implica que al aplicar tests t−student estemos rechazando hipótesis nulas cuando en realidad estas son verdaderas (aumentando la probabilidad de error tipo I o error tipo α). de manera que sabemos entonces que: I < x0 Ωx (x0 x) −1 . en presencia de errores heteroscedásticos los estimadores mínimo cuadrados son ineficientes y los test estadísticos pierden validez. tendremos que: ³ ´ −1 ˆ E β = β + (x0 x) x0 E (ε) ³ ´ ˆ E β = β de manera que aun bajo presencia de errores heteroscedásticos los estimadores mínimo cuadrados siguen siendo insesgados. de manera que si asumimos homoscedasticidad y calculamos la varianza como σ 2 (x0 x)−1 claramente estaremos subestimando la verdadera volatilidad de los estimadores. A partir de la expresión β = β+(x0 x)−1 x0 ε podemos analizar si los estimadores cumplen con la característica de ser los mejores estimadores. Al aplicar varianza sobre esta expresión.

es decir si no se rechaza la hipótesis de que φ = 0: σ 2 = ω 0 + zt φ t σ 2 = ω 0 + zt 0 t σ2 = ω0 t Empíricamente la batería de tests que se han diseñado se focalizan en evaluar si este vector φ es estadisticamente cero. es decir se reemplaza σ 2 = e2 = yt − xt β y se estima t t alguna transformación de = ω 0 + zt φ. puesto que al asumir que su valor esperado es nulo entonces los cuadrados de estos pueden ser una buena aproximación de la varianza residual. ∀t (Homocedasticidad) versus la hipótesis alternativa de que para algun t esta relación no se cumple.1. y ω0 corresponde al escalar que representaría el valor de la varianza (σ 2 ) de existir homoscedasticidad.6. t t t Estadísticamente los tests de heteroscedasticidad se construyen con la idea de encontrar alguna dependencia o relación de causalidad entre los residuos (típicamente sus cuadrados o el logarítmo de ellos) y alguna otra variable utilizando una ecuación auxiliar (típicamente lineal) a estimar.2 Tests de Heteroscedasticidad Para iniciar el procedimiento de testeo de heteroscedasticidad es común en series de tiempo partir con el análisis visual de los residuos. La hipótesis nula se representa por: H0 : σ 2 = σ 2 t .1 HETEROSCEDASTICIDAD 95 6. representada por la ecuación auxiliar siguiente: Ha : σ 2 = ω 0 + zt φ t donde zt es un vector fila de tamaño 1xm compuesto por m variables candidatas a explicar la heteroscedasticidad en el período t. para lo cual se efectúa una estimación por mínimos cuadrados de la ecuación auxiliar σ 2 = ω 0 + zt φ t pero reemplazando la varianza por los cuadrados de ³ residuos del modelo los ´2 ˆ principal y = xβ +ε. A continuación se presentan los test más utilizados para verificar la existenia de errores heteroscedásticos: e2 t . entonces V (εt ) = σ 2 = E (ε2 ) − {E (εt )}2 = E (ε2 ). es decir. φ es el vector de tamaño mx1 constante para todo t. dado que E (ε) = 0.

si ΨH es superior al respectivo 2 valor de tabla χα (m) entonces existe evidencia de heteroscedasticidad en los residuos. Aquí la variable dependiente es el valor absoluto de los residuos muestrales. Harvey (1976). de manera que la ecuación a estimar es: ¡ ¢ ln e2 = ω 0 + zt φ + ν t t y el test que se distribuye chi-cuadrado con m grados de libertad es: SCT[a] ˆ ΨH = 4. Se estima la siguiente regresión: e2 = ω 0 + zt φ + ν t t 2 ˆ y se testea según el estadístico ΨBP G = T ·R[a] ∼ χ2 (m). Breusch-Pagan-Godfrey (BPG. Andrew Harvey en su artículo "Estimating Regression Models with Miltiplicative Heteroskedasticity" (ECONOMETRICA. Glejser (1969). 2. de manera que se estima: |et | = ω0 + zt φ + ν t y el test que se distribuye como chi-cuadrado con m grados de libertad se representa por (ˆ es el vector de residuos estimados de la regresión ν auxiliar): SCT[a] − v 0 v ˆˆ ˆ ΨG = h¡ ¢ 2 i 2 1 − π s[a] donde s2 = [a] v0 v ˆˆ .96CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN 1. Luego si el estadístico ΨG supera al χ2 (m) α de tabla entonces rechazamos la hipótesis nula de homoscedasticidad existiendo evidencia de errores heteroscedásticos.9348 ˆ Al igual que en los casos anteriores. pag. 461-465) utiliza como variable explicativa el logaritmo de los residuos al cuadrado. 1978-1979). T −(m+1) y SCT[a] corresponden a la varianza residual ³ _ ´´2 P³ y la suma de los cuadrados totales |et | − |et | de la ecuación ˆ auxiliar respectivamente. . 3. T corresponde al número de observaciones consideradas en la estimación del modelo 2 auxiliar y R[a] es el coeficiente de determinación de la ecuación auxiliar. ˆ Si el test calculado Ψ supera el valor de tabla entonces rechazamos homoscedasticidad. Vol. 44.

6. 5. En este caso se asume que la variable explicativa es la variable dependiente estimada del modelo principal (ˆt ). y φ corresponde al parámetro que acompaña a yt .6. de manera que el modelo a estimar es: y y e2 = ω0 + φˆt + ν t t Para este caso el test posee un grado de libertad. El test a aplicar aquí corresponde ˆ2 aun chi-cuadrado pero con un grado de libertad y se contrasta con el estadístico: 2 ˆ ΨMCC = T · R[a] ˆ Si ΨMCC supera a χ2 (1) entonces existe evidencia de heteroscedasticiα dad.1 HETEROSCEDASTICIDAD 97 4. El test a aplicar aquí corresponde y2 aun chi-cuadrado con un grado de libertad y se contrasta con el estadístico: 2 ˆ ΨMLCC = T · R[a] . Modelo Heteroscedástico con Media-Cuadrada Condicional. y φ corresponde al parámetro que acompaña a yt . En este caso se asume que la variable explicativa es la variable dependiente estimada del modelo principal al cuadrado (ˆt ). El test a aplicar aquí corresponde ˆ aun chi-cuadrado pero con un grado de libertad y se contrasta con el estadístico: 2 ˆ ΨMC = T · R[a] ˆ Si ΨMC supera a χ2 (1) entonces existe evidencia de heteroscedasticiα dad. de y2 manera que el modelo a estimar es: ¡ 2¢ e2 = ω0 + φ ln yt + ν t ˆ t Para este caso el test posee un grado de libertad. Modelo Heteroscedástico con log-Media-Cuadrada Condicional. Modelo Heteroscedástico con Media Condicional. En este caso se asume que la variable explicativa es la variable dependiente estimada del modelo principal al cuadrado y en logaritmo (ln (ˆt )). de manera que el modelo y2 a estimar es: e2 = ω 0 + φˆt + ν t y2 t Para este caso el test posee un grado de libertad. y φ corresponde al parámetro que acompaña a ln (ˆt ).

quien en 1982 publica en el Journal of Econometrics el artículo "A General Approach to Lagrange Multiplier Model Diagnostics".. es decir los cuadrados de los residuos rezagados q veces. α entonces hay evidencia de errores heteroscedásticos. 48. Simplemente considera como potenciales variables explicativas a todas las que están involucradas en el modelo principal y = xβ + ε. En este tipo de modelos la(s) variable(s) explicativa(s) es el propio rezago de la variable dependiente. 7. White (1980). representación que por lo demás ha sido muy difundida para analizar retornos de precios de activos (especialmente retornos accionarios). 8. χ2 (q).. Este tests está asociado a Robert Engle. La expresión a estimar será entonces: 2 e2 = ω 0 + zt φz + zt φz2 + t es decir si el modelo original y = xβ + ε posee k parámetros a estimar (la constante y k − 1 variables explicativas) entonces el modelo auxiliar P zit zjt φij + ν t . pag. Las introduce como variables en la ecuación auxiliar de tres formas simultáneamente: en niveles. + φq e2 + ν t t t−1 t−2 t−q El test evalúa si los coeficientes φj son conjuntamente cero (homoscedasticidad) para lo cual se compara el estadístico: 2 ˆ ΨARCH = (T − q) R[a] ˆ Si ΨARCH supera al test chi-cuadrado con q grados de libertad. Modelo Autoregresivo Heteroscedástico Condicional (ARCH).98CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN ˆ Si ΨMLCC supera a χ2 (1) entonces existe evidencia de heteroscedastiα cidad. al cuadrado y multiplicándose entre ellas. La representación a estimar corresponde a: e2 = ω 0 + φ1 e2 + φ2 e2 + . En su artículo "A Heteroskedastic-Consistent Covariance Matrix and a Direct Test for Heteroskedasticity" (ECONOMETRICA Vol. 421-48) presenta un test que no requiere de antemano listar qué variable o variables son las candidatas a explicar el comportamiento heteroscedastico de los errores.

entonces podemos definir una matriz H que satisfaga la condición HΛH 0 = I. 6. Si conocieramos la matriz Λ podríamos generar residuos cuya matriz sea escalar de manera que los estimadores generados a partir de ese modelo corregido si entrege estimadores de mínima varianza. En esto consiste el método de mínimos cuadrados ponderados: aplicar mínimos cuadrados a una transformación del sistema original y = xβ + ε. Si nuestro modelo original es: y = xβ + ε ε ∼ N (0. esta última se deja para una discusión posterior.1 HETEROSCEDASTICIDAD 99 ´ ³ de White tendrá que estimar un total de k0 = (k+1)(k+2) parámet2 ros considerando la constante.1.6. Para esto. las variables en niveles.3 Corrección Existen básicamente dos formas de corregir bajo la presencia de heteroscedasticidad. Dado que sabemos que en general la matriz de varianzas y covarianzas de los parámetros estimados se representa por (x0 x)−1 x0 Λx (x0 x)−1 y sabemos que los estimadores no son los de mínima varianza en este caso. las variables al cuadrado. Λ) . En otras palabras vemos que Λ = H −1 H −10 de forma que Λ−1 = H 0 H. Mínimos Cuadrados Generalizados (MCG). 1. Una es el procedimiento de White o su versión más general conocida como el Método de Mínimos Cuadrados Generalizados o Mínimos Cuadrados Ponderados (MCG) y la segunda es estimación por máximo verosimilitud. dado que Λ es una matriz simétrica y definida positiva. El test estadístico se distribuye chi-cuadrado con (k0 − 1) grados de libertad y se obtiene de: 2 ˆ ΨW = T · R[a] ˆ Si ΨW es superior al chi-cuadrado de tabla χ2 (k0 ) entonces rechazamos α la hipótesis nula de homoscedasticidad. y los efectos cruzados de las variables (multiplicación de variables entre sí).

Luego en este sistema si se sabemos que los estimadores mínimo cuadrados son eficientes (de mínima varianza) de manera que podemos hacer inferencia con los errores estandar estimados.100CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN entonces el modelo transformado será: Hy = Hxβ + Hε Hy = Hxβ + η η ∼ N (0. I) pues V (Hε) = H 0 V (ε) H = H 0 ΛH = I. la varianza de los estimadores MGC se deducirá de al expresión anterior: ¡ ¢−1 0 −1 ˆ β MCG = x0 Λ−1 x xΛ y ¡ 0 −1 ¢−1 0 −1 ˆ x Λ (xβ + ε) β MCG = x Λ x ¡ 0 −1 ¢−1 0 −1 ¡ ¢−1 0 −1 ˆ x Λ xβ + x0 Λ−1 x xΛ ε β MCG = x Λ x ¡ 0 −1 ¢−1 0 −1 ˆ xΛ ε β MCG = β + x Λ x . entonces simplificamos la expresión anterior a: ¡ ¢−1 0 −1 ˆ β MCG = x0 Λ−1 x xΛ y ³ ´ ˆ MCG − β y simplificando nos Al aplicar varianza a la expresión β queda (recordando que V (ε) = Λ): h¡ ¢−1 0 −1 i 0 −1 xΛ ε Σβ MCG = V x Λ x ˆ ¡ 0 −1 ¢−1 0 −1 ¡ ¢−1 x Λ V (ε) Λ−1 x x0 Λ−1 x Σβ MCG = x Λ x ˆ ¡ ¢−1 0 −1 −1 ¡ 0 −1 ¢−1 Σβ MCG = x0 Λ−1 x x Λ ΛΛ x x Λ x ˆ ¡ 0 −1 ¢−1 0 −1 ¡ 0 −1 ¢−1 Σβ MCG = x Λ x xΛ x xΛ x ˆ ¡ 0 −1 ¢−1 Σβ MCG = x Λ x ˆ Dado que ahora el nuevo residuo η tiene una varianza identidad. lo cual aplicado a nuestro sistema modificado será: −1 ˆ β MCG = ((x0 H 0 ) (Hx)) (x0 H 0 ) (Hy) pero como hemos definido anteriormente que H 0 H = Λ−1 . Los estimadores MCG serán al igual que en el caso de mínimos cuadrados ordinarios generados a partir de la fórmula ˆ β = (x0 x)−1 x0 y.

Una vez que se encuentre ˆ el estimador Λ generamos las representaciones muestrales (estimadas) ˆ de las expresiones para los estimadores β EMCG y la matriz de varianzas ˆˆ estimada Σβ MCG : ˆ β EMCG = ˆˆ Σβ MCG ³ ´−1 ˆ ˆ x0 Λ−1 x x0 Λ−1 y ³ ´−1 ˆ = x0 Λ−1 x ˆ White entrega un estimador para Λ centrando su atención en corregir la matriz de varianzas y covarianzas con el fin de hacer inferencia. En su artículo se presenta cómo obtener consistencia para la matriz de varianza y covarainzas y así poder calcular errores estándar correctos de los estimadores y efectuar con confianza tests t − student. Recordemos que en presencia de heteroscedasticidad la matriz de varianzas y covarianzas se representa por: Σβ = (x0 x) ˆ −1 x0 Λx (x0 x) −1 La proposición de White es reemplazar Λ por su expresión muestral de manera que si εt ∼ N (0.6. 2.1 HETEROSCEDASTICIDAD 101 de manera que finalmente sabemos que la distribución de los estimadores MCG será insesgada y con matriz de varianzas y covarian−1 ˆ zas (x0 Λ−1 x) . Dado que el estimador β MCG es de mínima varianza en relación al estimador de mínimos cuadrados bajo presencia de heteroscedasticidad entonces podemos decir que: Σβ M CG ≤ Σβ MCO ˆ ˆ ¡ 0 −1 ¢−1 −1 −1 ≤ (x0 x) x0 Λx (x0 x) xΛ x Naturalmente para hacer las estimaciones y la aplicación de este procedimiento debemos tener un estimador de Λ. dejando inalterado los estimadores mínimos cuadrados. σ 2 ): t ³ ´ −1 ˆ β − β = (x0 x) x0 ε ³ ´ T ˆ − β = (x0 x)−1 P x0 εt ∀t β t t=1 . White (1980).

Recordemos nuevamente que una matriz de varianzas y covarianzas puede ser descompuesta en tres matrices.2 Autocorrelación La discusión de la autocorrelación sigue un procedimiento muy similar la caso de la heteroscedasticidad y los problemas que causa sobre los estimadores mínimo cuadrados también. dos de las cuales son idénticas: E [εε0 ] = Λ = ΣΘΣ donde al igual que en caso de la heteroscedasticidad cada matriz se define . 6.102CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN entonces al aplicar operador varianza: −1 Σβ = (x x) ˆ (x0 x) V t=1 ·T ¸ P 0 −1 0 −1 Σβ = (x x) xt V [εt ] xt (x0 x) ˆ t=1 ·T ¸ −1 0 −1 P 0 2 Σβ = (x x) xt σ t xt (x0 x) ˆ t=1 ·T ¸ −1 0 −1 P 0 2 Σβ = (x x) xt xt σ t (x0 x) ˆ t=1 0 · T P x0t εt ¸ −1 entonces la matriz de covarianzas consistente se obtiene de reemplazar σ 2 = e2 en la expresión anterior: t t ·T ¸ ˆ ˆ = (x0 x)−1 P x0t xt e2 (x0 x)−1 Σβ t t=1 Esta matriz será consistente y puede ser utilizada para hacer inferencia sobre los parámetros estimados.

Θ = I.   1   ρ2.   0  0 0 .. .... ρT..    0 .......    .2 .. 0  1   0 σ2   0 E [εε ] =  .1 ρT... ... 0 0   1    0 σ2 0      Σ =  .T −1 0   0   ρ2. ....1 1   Θ =  . ...T −1    ρ2.... y a su vez al imponer homoscedasticidad la matrices Σ corresponden a matrices escalares σI.1 1   . ρ1. σ T  1 ρ1.1 .2   103 Luego se puede escribir  σ 0 .T   0 σ 2 0   . ...   .. ... pues existirá una matriz Θ que no es la identidad.2 AUTOCORRELACIÓN por: σ 0 .T  σ 1 0 ... .. 0 0            ρ1...   ..   ..T  .. σ T 1 ρ1.. Al levantar el supuesto de no autocorrelación ya no es posible definir a la matriz de varianzas y covarianzas como σ2 I.. la anterior expresión como:  1 ρ1.  σT . ρT...1 ρT....1 .. Por esta razón es que la matriz de varianzas y covarianzas se define ahora asumiendo homoscedasticidad pero si errores autocorrelacionados: E [εε0 ] = Λ = σ 2 Θ Considerando la notación anterior analizaremos los efectos que produce en los estimadores mínimos cuadrados el asumir autocorrelación en los residuos...       0 .... .. ...... ρ1. Al asumir no autocorrelación de los residuos estamos imponiendo que la matriz Θ sea la matriz identiodad.6... ..   ρT −1....    0 0 .  .  0 0 .   .T    ......2   ρ2....2 .    ρT −1.

6. A partir de la expresión β = β+(x0 x)−1 x0 ε podemos analizar si los estimadores cumplen con la característica de ser los mejores estimadores.1 Implicancias para Estimación Para verificar si existe algún efecto sobre los estimadores mínimo cuadrados consideremos el caso de un modelo general en su versión matricial como y = xβ + ε. Al aplicar varianza sobre esta expresión. tendremos que: ³ ´ −1 ˆ E β = β + (x0 x) x0 E (ε) ³ ´ ˆ E β = β de manera que aun bajo presencia de errores autocorrelacionados los estimadores mínimo cuadrados siguen siendo insesgados.2. ˆ 2.104CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN es decir asumiremos que: ¡ ¢ ε ∼ N 0. Varianza. lo más interesante es verificar si los primeros momentos de este estimador se ven afectados. Sesgo. Si sabemos que β = (x0 x)−1 x0 y entonces reemplacemos el modelo en esta expresión: ˆ β = = = = (x0 x) x0 y −1 (x0 x) x0 (xβ + ε) −1 −1 (x0 x) x0 xβ + (x0 x) x0 ε −1 β + (x0 x) x0 ε −1 Al aplicar el operador expectativa y considerando que E (ε) = 0. σ 2 Θ donde Θ no es la identidad. y recordando que V (ε) = Λ = . ˆ 1. donde asumiremos que ε ∼ N (0. es decir aquellos que tienen la mínima varianza. σ 2 Θ). para lo cual primero analizaremos el sesgo y segundo la varianza de los estimadores bajo este nuevo escenario donde Θ 6= I.

6.2 AUTOCORRELACIÓN σ 2 Θ y que las x son variables determinísticas, llegamos a: ˆ β ³ ´ ˆ β ³ ´ ˆ β ³ ´ ˆ β ³ ´ ˆ β = β + (x0 x) x0 ε ³ ´ 0 −1 0 = V β + (x x) x ε = (x0 x) = (x0 x)
−1 −1 −1

105

V V V V

x0 V (ε) x (x0 x) x0 Λx (x0 x)
−1 −1

−1

= σ 2 (x0 x)

x0 Θx (x0 x)

−1

Sabemos que de ser la matriz Θ = I, entonces los estimadores mínimo cuadrados son eficientes (es decir de mínima varianza), de manera que sabemos entonces que: I < x0 Θx (x0 x)
−1

, ∀Θ 6= I

La implicancia es que indudablemente los valores de las varianzas de los estimadores serán mayores, de manera que si asumimos no autocorrelación y calculamos la varianza como σ2 (x0 x)−1 claramente estaremos subestimando la verdadera volatilidad de los estimadores, creyéndolos eficientes cuando en realidad no lo son, lo cual implica que al aplicar tests t − student estemos rechazando hipótesis nulas cuando en realidad estas son verdaderas (aumentando la probabilidad de error tipo I o error tipo α). En resumen, en presencia de autocorrelación de los residuos, los estimadores mínimo cuadrados son ineficientes y los test estadísticos pierden validez.

6.2.2

Tests de Autocorrelación

Para iniciar el procedimiento de testeo de autocorrelación de los residuos el primer paso consiste en una inspección gráfica de los residuos en el tiempo. Este procedimiento es estadíticamente muy débil y solamente si la autocorrelación es muy fuerte entonces se observará algo en la gráfica, pero de ser uns correlación débil es necesario la aplicación de una batería de tests especialmente diseñada para tal efecto. Estadísticamente los tests de heteroscedasticidad se construyen con la idea de encontrar alguna dependencia o relación de causalidad temporal entre

106CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN los residuos estimando una ecuación auxiliar al igual que con la heteroscedasticidad. La hipótesis nula se representa por: H0 : ρ = 0 , ∀t (No Autocorrelación)

versus la hipótesis alternativa de que para algún t esta relación no se cumple. La ecuación auxiliar general se puede representar por: Ha : εt = ρ1 εt−1 + ρ2 εt−2 + ... + ρq εt−q donde ρ es un vector de tamaño qx1. De no existir autocorrelación de los residuos el vector de parámetros compuesto por q residuos rezagados para explicar la autocorrelación. De no existir autocorrelación residual de orden q la hipótesis nula ρ = 0 no es rechazada. Empíricamente la batería de tests que se han diseñado se focalizan en evaluar si este vector ρ es estadisticamente cero, para lo cual se efectúa una estimación por mínimos cuadrados de la ecuación auxiliar pero reemplazando εt por los residuos muestrales´del modelo principal y = xβ + ε, es decir se ³ ˆ reemplaza εt = et = yt − xt β y se estima et = ρ1 et−1 +ρ2 et−2 +...+ρq et−q + ν t. A continuación se presentan los test más utilizados para verificar la existenia de errores autocorrelacionados: 1. Durbin-Watson (1950, 1951). El estadístico de Durbin y Watson (d) es uno de los test más tradicionales para evaluar autocorrelación residual de primer orden (q = 1). A partir de la estimación de modelo principal se generan los residuos muestrales et . A partir de estos se calcula el estadístico d como: PT (et − et−1 )2 d = t=2 T 2 P t=1 et

Este estadístico tiene una estrecha relación con el coeficiente de autocorrelación ρ de la regresión auxiliar. Si estimamos ρ utilizando el método de los mínimos cuadrados aplicado a la ecuación auxiliar et = ρet−1 + ν t , el coeficiente estimado sería (recordemos que e → 0): ¯ PT t=2 et−1 et ρ = PT 2 ˆ t=2 et−1

6.2 AUTOCORRELACIÓN De la expresión para el test d se puede concluir que: PT 2 t=2 (et − et−1 ) ˆ= d PT 2 t=1 et ¢ PT ¡ 2 2 t=2 et + et−1 − 2et et−1 ˆ d = PT 2 t=1 et PT 2 PT 2 PT t=2 t=2 ˆ = Pt=2 et + P et−1 − P 2et et−1 d T T T 2 e2 e2 t=1 t t=1 t t=1 et

107

Dado que los dos primeros términos son bastante similares, y además P P reemplazando T e2 ≈ T e2 entonces podemos escribir esta últ=1 t t=2 t−1 tima expresión como: PT t=2 2et et−1 ˆ d ≈ 2 − PT 2 t=2 et−1 ! Ã PT et et−1 t=2 ˆ d ≈ 2 1 − PT 2 t=2 et−1

Note sin embargo que esta última expresión también se puede escribir como: ! Ã PT t=2 et et−1 ˆ d ≈ 2 1 − PT 2 t=2 et P P donde hemos utilizado la aproximación T e2 ≈ T e2 de manera t=2 t t=2 t−1 que en la práctica el coeficiente ρ lo podemos extraer de una estimación ˆ del tipo et = ρet−1 + ν t o una expresión auxiliar inversa como et−1 = ρet + ν t−1 . Este punto es relevante para otros tests que se presentarán más adelante. Finalmente reemplazando por el coeficiente estimado del factor de autocorrelación ρ llegamos a la expresión que relaciona el estadístico d ˆ con el coeficiente de autocorrelación de primer orden ρ: ˆ d ≈ 2 (1 − ρ) ˆ Claramente la hipótesis nula ρ = 0 indica implícitamente la hipótesis H0 : d = 0. Para verificar los extremos del estadístico d analicemos los

du .39 T = 85  Autocorrelación Negativa  . 4 − dl ]:     Rechazo H0 d < dl  Autocorrelación Positiva  dl < d < du Región Inconclusa No Rechazo H0   Región Inconclusa Rechazo H0   du < d < 4 − du 4 − du < d < 4 − dl d > 4 − dl Ejercicio. Supongamos que estimamos un modelo de demanda por un producto q con dos variables explicativas: ingreso (y) y precio del producto (p). con los siguientes resultados: qt = 25. Considerando un nivel de significancia de α% se debe determinar el número de parámetros estimados en la ecuación o modelo principal y = xβ + ε sin considerar la constante (k − 1). La siguiente tabla entrega estas relaciones de la cual se concluye que rechazamos la hipótesis nula de no autocorrelación si el estadístico d cae duera del intervalo [dl .89yt ˆ ˆ d = 1.108CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN valores posibles del coeficiente de autocorrelación: ˆ ρ = −1 =⇒ d = 4 Autocorrelación Negativa ˆ ˆ ρ = 0 =⇒ d = 2 ˆ ˆ ˆ ρ = 1 =⇒ d = 0 No Autocorrelación Autocorrelación Positiva Este test es uno de los pocos que se contrasta con dos valores de una misma tabla. Con esta información la tabla entrega dos estadísticos dl . donde dl < du .12pt + 0. Dado que el estadístico d pertenece al intervalo [0. rechazaremos o no la hipótesis nula de no autocorrelación de primer orden de los residuos. Dependiendo del valor que toma el estadístico d en relación a los valores de tabla. y el número de observaciones utilizadas en la estimación (T ). 4] los valores de tabla también estarán acotados a ese mismo intervalo.89 − 1.

no rechazamos la hipótesis nula de no autocorrelación de los residuos.89 con k − 1 = 3. Recordemos que el parámetro de autocorrelación ρ lo podemos también calcular de la expresión auxiliar inversa εt−1 = ρεt + ν t−1 En este caso el test h se distribuye asintóticamente como una normal estandarizada definida por: #1 " 2 T −j ˆ=ρ h ˆ ¡ ¢ ∼ N (0. es decir variables yt−j con j > 1.01pt + 0.19 − 1. Asumamos que esa autocorrelación provendría del hecho de que dejamos fuera una variable relevante como es el precio del producto sustituto (ps ) y estimamos el modelo con esta variable incluída. La hipótesis nula sigue siendo no autocorrelación de primer orden y el sistema a estimar se representará por: y = xβ + y−j γ + ε εt = ρεt−1 + ν t donde en este caso el parámetro γ posee una dimensión jx1 donde j es el número de rezagos que presenta la variable y como variable explicativa. 2. Este test se utiliza cuando la ecuación principal tiene como variables explicativas rezagos de la variable endógena o dependiente.39 < dl = 1.94yt + 0.2 AUTOCORRELACIÓN 109 Si observamos los valores de tabla de referencia al 5% para k − 1 = 2 con 85 observaciones se obtiene: dl = 1.43pst ˆ ˆ d = 1.89 T = 230 ˆ Ahora el estadístico d = 1. 1) ˆ ˆ 1 − (T − j) V γ [−1] .279] de manera que ahora con el modelo corregido e incorporando la variable causante de la autocorrelación. Los resultados son: qt = 23.6 entonces rechazamos la hipótesis nula que los residuos no están autocorrelacionados en favor de que eventualmente existe autocorrelación positiva. 4 − du ] = [1.696 ˆ Dado que el estadístico d = 1.600 du = 1. y cae en el intervalo [du . 2.721. Durbin-h (1970).6.

12) ˆ d = 0.96] al 5% (o al intervalo [−1. Supongamos que en una regresión para estudiar la inflación se utilizan dos rezagos de la inflación como variables explicativas.87 T = 180 donde π es la inflación en t. y T − j corresponde al número de observaciones utilizadas en la estimación del modelo principal.21 + 0.645.96).04) (0.725 " Claramente este valor supera los valores relevantes de una tabla estadística normal (1. En este caso al existir variables dependientes rezagadas en la ecuación entonces debemos aplicar el test h-Durbin: #1 2 T −j ˆ = ρ h ˆ ¡ ¢ ˆ ˆ 1 − (T − j) V γ [−1] ¸1 · 2 180 − 2 ˆ = 0. y m es la tasa de crecimiento de la cantidad ˙ de dinero en t. El resultado de las estimaciones es el siguiente (errores estándar entre paréntesis): ˙ π t = 2.12π t−2 + 0.645] con un nivel de significancia del 10%) no rechazamos la hipótesis nula de que los residuos no siguen un proceso de autocorrelación de primer orden.110CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN donde j corresponde al número de rezagos utilizados de la variable endógena como variable explicativa. Ejercicio. 1. ˆ Dado que h ∼ N (0. A partir de estos resultados sabemos queno podemos aplicar el test tradicional de Durbin-Watson.06) (0.89 · mt ˆ (0. γ [−1] es el parámetro asociado al ˆ primer rezago de estas variables endógenas explicativas.645 ó 1.96.65πt−1 + 0.87 h 1 − (180 − 2) (0.04) (0. 1) entonces si este estadístico pertenece al intervalo [−1.04)2 ˆ h = 13. 1. . lo cual implica que rechazamos la hipótesis de no autocorrelación de primer orden de los residuos.

2 AUTOCORRELACIÓN 111 3. + ρq εt−q + ν t Reemplazando los residuos poblacionales por los muestrales (εt = et ) implementamos el test como: 2 ˆ ΨLME = (T − (j + q)) R[a] ∼ χ2 (q) donde ahora restamos al número de observaciones T el número de observaciones perdidas en estimar el modelo original j y las del modelo auxiliar q.. α 4.. = ρq = 0 (no autocorrelación ˆ de orden q de los residuos) será rechazada si es que el estadístico ΨLM supera a su similar de tabla χ2 (q). la hipótesis nula H0 : ρ1 = ρ2 = . la ecuación auxiliar a estimar contiene el conjunto de variables explicativas del modelo principal además de los rezagos de los residuos por analizar: y = xβ + ε εt = xγ + ρ1 εt−1 + ρ2 εt−2 + . A diferencia de los test anteriores. La ecuación auxiliar a estimar contiene el conjunto de variables explicativas del modelo principal además de los rezagos de los residuos por analizar: y = xβ + y−j γ + ε εt = xβ + y−j γ + ρ1 εt−1 + ρ2 εt−2 + .. Al igual que en el caso anterior. = ρq = 0 (no autocorrelación de orden q de los ˆ residuos) será rechazada si es que el estadístico ΨLME supera a su sim2 ilar de tabla χα (q)... Multiplicador de Lagrange para Correlación Serial...6. + ρq εt−q + ν t Reemplazando los residuos poblacionales por los muestrales (εt = et ) implementamos el test como: 2 ˆ ΨLM = (T − q) R[a] ∼ χ2 (q) Al igual que en los casos anteriores donde se aplicaron test de esta clase. Multiplicador de Lagrange para Correlación Serial con Rezagos de y.. La diferencia de este test con respecto al del punto anterior es que es más general pues permite la existencia de variables rezagadas (y−j ) como variables explicativas de y. la hipótesis nula H0 : ρ1 = ρ2 = . . Este test es muy utilizado para evaluar modelos con procesos autoregresivos de los residuos superiores a uno.

Este test se basa en el análisis conjunto de los coeficientes estimados de la ecuación auxiliar para verificar si son estadísticamente ceros. Utilizando la misma ecuación auxiliar del test Box-Pierce definen al estadístico: · ¸ q P γ2 s 0 Q = T (T + 2) ∼ χ2 (q) s=1 (T − s) Si el estadístico Q0 es mayor a su equivalente de tabla χ2 (q).. εt ) = V ar (εt ) E (ε2 ) t Tal como sabemos este coeficiente es equivalente al parámetro de la ecuación auxiliar inversa: εt−s = γ s εt + ν t−s ∀s = 1. Box-Pierce (1970) o test Q. Estos coeficientes son las correlaciones de los residuos de manera que se analizan: γ εs εt = E (εs . Ljung-Box (1978) o test Q’. Estimando la expresión anterior utilizando ˆ los residuos et en lugar de εt estimamos un vector γ de dimensión qx1. εt ) Cov (εs .. s=1 0 γ 2 ∼ χ2 (q) s .. 6. .. Los autores demuestran que el estadístico relevante para evaluar la hipótesis nula de que no existe autocorrelación de residuos se define por (expresiones equivalentes): Q = T q P Q = T γ γ ∼ χ2 (q) ˆˆ de manera que si este estadístico supera a su equivalente χ2 (q) entonces α rechazamos la nula presentándose evidencia de autocorrelación de orden q de los residuos. 2. = γ q = 0.112CHAPTER 6 DISTORSIONES DEL MODELO DE REGRESIÓN 5.. q donde el γ se calcula como la razón entre las covarianzas y la varianza ˆ de la variable dependiente. Una perfección de este test lo presentan Ljung y Box. entonces α rechazamos la hipótesis nula H0 : γ 1 = γ 2 = .

Sign up to vote on this title
UsefulNot useful