Parte I Econometria

NOTAS DE CLASE ECONOMETRIA I
Economista. Andrés Mauricio Gómez Sánchez
Economista. Luisa María Santander – Monitor Fabián E. Salazar
TEMA 1: ANALISIS DE REGRESIÓN SIMPLE (MRLS)
1. INTRODUCCIÓN
E
l método de construcción teórica en economía en términos generales parte de
la observación, luego se hace teoría, y por ultimo, se observa de nuevo. Esta
metodología permite extraer de la realidad ciertos rasgos o características
relevantes del devenir económico. No obstante, dado que la realidad y los contextos
son diferentes, podemos encontrar que las teorías económicas presenten una
aplicabilidad alta, mediana o nula, diagnóstico que es llevado a cabo a través de la
Econometría. Negar la posibilidad de construir modelos económicos generales
implicaría construir una teoría para cada país o región, en diferentes momentos del
tiempo, lo que desencadenaría que seriamos economistas “regionales”; como esto
carece de sentido, pues somos economistas en cualquier lugar y momento, lo
recomendable es apropiar los lineamientos generales brindados por la teoría económica
a través de los modelos y adaptarlos a nuestro contexto, para verificar y enriquecer
dicho constructo.
Es por esta razón que uno de los principales objetivos de la Econometría es comprobar
de manera empírica las teorías propuestas por la economía. Desde este punto de vista,
la Econometría parte de los modelos, que son en términos generales ecuaciones
sustentadas con teoría, y luego les introduce propiedades y elementos estadísticos para
convertirlos en modelos econométricos.
1
La combinación de la matemática con la estadística se constituye en la forma de
“aterrizar” los modelos económicos, ya que como se sabe, éstos muestran relaciones
perfectas o exactas entre variables, cuando en la realidad dichas relaciones no son
estrictamente de este tipo y por el contrario dan cabida a fenómenos que quedan al libre
albedrío o al azar. Por ejemplo, es poco creíble que la Inversión Interna dependa única
y exclusivamente de la tasa de interés, cuando existen otros fenómenos como la
estabilidad política que pueden jugar en determinado momento un papel relevante.
A continuación se explicarán algunos conceptos básicos necesarios para exponer el

Modelo de Regresión Lineal Simple, una de las herramientas más utilizadas para
establecer relaciones entre variables económicas. El otro método existente para dicho
efecto es el de Máxima Verosimilitud, el cual queda por fuera del alcance de este texto
pues su complejidad solo permite que sea desarrollado en cursos avanzados de
Econometría.
1.1 Diferentes tipos de modelos
El estudio de la Econometría se realiza en términos generales, con base en dos tipos de

modelos fundamentales: los modelos multivariados y los univariados. En el primer caso
se muestra la relación funcional entre múltiples variables económicas (como mínimo
dos), es decir, se analiza cómo una variable se relaciona con otra u otras variables en
un periodo determinado, o en diferentes periodos. Para el segundo, se analiza cómo
una única variable se relaciona con ella misma en diferentes momentos en el tiempo
(análisis de series de tiempo).
Un ejemplo de modelo econométrico multivariado es el siguiente:
Yt  β1  β2 Pt  β3 Plt   t
2
Este modelo muestra que la oferta de un bien o servicio (Yt) depende únicamente de su
propio precio (Pt) y del precio de los insumos (PIt), más una variable  t . Observe que
este modelo omite o no da cuenta de otras variables que pueden afectar la oferta del
bien y que por teoría microeconómica son bien conocidas, tales como los impuestos o
subsidios, la tecnología, las expectativas o el número de oferentes.
La variable ε t conocida como término aleatorio de error o perturbación estocástica,
da cuenta de todas las variables que afectan directamente la oferta del bien y no han
sido tenidas en cuenta de manera explícita por el modelo planteado1. Así, la influencia
de esas variables “omitidas” se incluyen en esta variable, que por definición estocástica,
debe tener un peso cercano a cero en la determinación de Yt pues en el caso contrario,
conduciría a un sesgo de especificación y por tanto, el modelo no sería fiable.
Debe tenerse en cuenta que aún si se incluyeran de manera explícita en el modelo

aquellas variables consideradas por la teoría microeconómica de la oferta, no se estaría
dando cuenta por ejemplo, de la política económica, de una guerra, o de un periodo de
crisis económica, y que también afectarían de manera directa a Y t.. De esta forma, la
inclusión del término aleatorio de error (también denotado como Ut) se hace necesaria,
ya que en la realidad NO existe una relación perfecta o exacta entre variables, como lo
hacen ver los modelos matemáticos en economía. Entre más variables económicas se
introduzcan en un modelo, más preciso teóricamente puede ser, pero siempre se
dejarán por fuera variables relevantes al momento de contrastarlo empíricamente, por lo
que el papel del término  t es muy importante en tanto diferencia el modelo
econométrico del modelo matemático.
1
En el análisis de regresión interesa lo que se conoce como dependencia estadística entre variables, ya
que dichas variables, tienen distribuciones de probabilidad y por ende son esencialmente variables
aleatorias o estocásticas, esto es, procesos que permiten errores, a diferencia de la dependencia
funcional o determinista propia de la matemática convencional, donde se manejan variables que no son
aleatorias y por ende, no permiten errores de medición.
3
La variable  t cambia de contexto en contexto, depende del espacio y del tiempo, es
decir, del país donde se aplique el modelo, y del periodo de tiempo que se escoja, por
esta razón se caracteriza por ser estocástica y no observable de manera apriorística.
De otro lado, un ejemplo de modelo econométrico univariado es el siguiente:
Yt  β1  β2Yt 1  β3Yt 2  U t
Este modelo muestra que el valor de la variable Yt depende de sus mismos valores
pasados o rezagados en el tiempo (Yt-1 , Yt-2 ) más un término aleatorio de error Ut.
Dicho comportamiento es típico, por ejemplo, del variables como el PIB o la inflación,
donde sus valores actuales están en función de la inercia generada por la dinámica de
su comportamiento histórico. En el departamento del Cauca, por ejemplo, el sector
agrícola y el mismo PIB real presentan este tipo de comportamientos. El anterior tipo de
proceso se conoce como modelos ARIMA (Modelos Auto-Regresivos Integrados de
Promedios Móviles).
A su vez, los anteriores modelos pueden ser uniecuacionales o multiecuacionales.

Como es de suponerse, los primeros son aquellos que constan de una sola ecuación, y
los segundo aquellos que comprenden más de una ecuación. El análisis de los modelos
multivariados multiecuacionales, los univariados multiecuacionales y los univariados
uniecuacionales, se realizarán en una fase posterior. Por ahora, el análisis se centrará
en los modelos multivariados uniecuacionales.
Ahora bien, dentro de los modelos multivariados como se observó anteriormente, se

muestra una relación unidireccional entre por lo menos dos variables económicas a
través de una única ecuación. La curva de Phillips se constituye en otro claro ejemplo,
ya que postula la existencia de una relación inversa entre la inflación de los salarios y el
desempleo a corto plazo. Obsérvese que es el desempleo quien determina o explica la
inflación y no viceversa. Desde este punto de vista, los modelos multivariados
4
uniecuacionales serán simples, si involucran una variable explicativa (X) y una variable
explicada (Y), las cuales se relacionan a través de un único modelo econométrico2
De otro lado, si la variable Y está en función de un conjunto de variables explicativas, el

modelo será de regresión múltiple (como el caso de la oferta de un bien o servicio). Otro
ejemplo de este último, lo constituye la función de demanda, que no solo depende del
precio del bien o servicio, sino también de los ingresos, del precio de un bien o servicio
relacionado, de los gustos, de las expectativas y de la cantidad de demandantes.
En este orden de consideraciones, en términos generales, se tiene entonces que:
Y  f X ,  t  Modelo Multivariado Simple
Y  f  X 1 , X 2 , X 3 ..... X n ,  t  Modelo Multivariado Múltiple
MODELOS
MODELOS MULTIVARIADOS
UNIVARIADOS
 Velocidad de circulación del
MODELOS dinero.
 ARIMA
UNIECUACIONALES  Curva de Demanda u Oferta
 Curva de Phillips
MODELO  Modelo Oligopólico.
MULTIECUACIONALES  Modelo IS-LM
Cualquiera que sea el caso, la variable Y ó explicada, también se conoce con los
nombres de variable endógena, dependiente, regresada, de respuesta, o predicha.
La(s) variable(s) X ó explicativa(s), también se conoce(n) como variable(s) exógena(s),
independiente(s), predictora(s), regresor(as), de control o estímulo.
2
No necesariamente la relación entre variables es unidireccional, puede ser mutua (retroalimentación),
pero por ahora debe suponerse que es X quien determina o causa un efecto sobre Y. Existe una prueba
estadística llamada Test de Causalidad de Granger, la cual determina el sentido de esta relación. Esta
prueba será abordada más adelante.
5
1.2 Tipos de Información
Las relaciones que se acaban de mostrar provienen de la teoría económica, pero en la

práctica para corroborarlas, se requiere de un conjunto de información que muestre los
valores asumidos por las variables dentro del modelo. En el caso de la Curva de
Phillips, se requiere tener los valores que asumen la tasa de desempleo y la inflación
año a año en el periodo que el investigador o econometrista desee o pueda obtener3.
En términos generales, la información (que puede ser obtenida a través de fuentes

primarias o secundarias) se encuentra clasificada en tres tipos:
a. Información de Corte Transversal: Es aquella que es extraída de un punto en

el tiempo, y no tiene un orden apriorístico o determinado. Por ejemplo, las
encuestas o el dinero que trae usted en este momento. Generalmente cada
observación se denota con el subíndice i, donde i = 1, 2, 3, … , n
b. Información de Series de Tiempo: Es aquella que es extraída en diversos

puntos en el tiempo, donde generalmente dichos puntos están dentro de un
rango establecido y la información debe ser recopilada a intervalos regulares (en
forma diaria, semanal, etc.); de esta manera, a diferencia de la anterior, si tiene
un orden específico. Por ejemplo, el valor del PIB para en Cauca desde 1960
hasta el 2004. Generalmente cada observación se denota con el subíndice t,
donde t = 1, 2, 3, … , T
3
En econometría, la calidad de los datos es de vital importancia dado que el resultado de la investigación
y la credibilidad de la misma, depende en gran medida de la fuente y la clase de datos que se elijan para
la realización del modelo. Debido a múltiples problemas para la recolección de la información, puede que
la investigación no genere los resultados deseados.
6
c. Información Combinada, Datos de Panel o Longitudinal. Es una mixtura de
las dos anteriores. Es decir, muestra información tanto en un momento en el
tiempo, como a través del mismo. Por ejemplo, los consumos de las familias por
estrato en diciembre para Popayán en los últimos cuarenta años. Generalmente
cada observación se denota con los subíndices it.
2. FUNCIÓN DE REGRESIÓN POBLACIONAL (FRP)
Las relaciones planteadas en todos los modelos econométricos pueden darse a dos
niveles: a nivel poblacional y a nivel muestral. Es claro que los verdaderos valores tanto
de X como de Y difícilmente pueden ser conocidos, al igual que los de U t, y por tanto la
verdadera relación tampoco, es decir, no se pueden conocer los verdaderos valores de
β1 y β2. De esta forma la Función de Regresión Poblacional (FRP) es una función ideal
que muestra la relación verdadera entre por lo menos dos variables (X e Y), pero que es
inobservable o imposible de hallar, dado que el universo en términos generales, es
desconocido. A pesar de esto, se puede establecer su estructura y sus propiedades
estadísticas. Así, la FRP se denota como:
E(Y/X i )  1   2 X i (1)
Donde β1 es el intercepto poblacional y β2 la pendiente poblacional; estos a su vez son

considerados como los coeficientes de regresión poblacionales. Note adicionalmente,
que la relación funcional está planteada con información de corte transversal.
Gráficamente, la FRP se representa como:
7
Y E (Y ‫ ׀‬Xi)
A3
Y3
A2
Y2
A1
Y1
X1 X2 X3 X
Gráfico 1: Función de Regresión Poblacional

Ai=Pie de Pág 4
Los valores que asume Y en la FRP son estocásticos o aleatorios, ya que para cada
valor fijo de X poblacional, habrá diversos valores de Y poblacionales, y se supone que
todos tienen la misma probabilidad de salir en el muestreo aleatorio repetido. Así por
ejemplo, si X es la edad de los estudiantes de economía en Colombia, e Y el promedio
de notas del semestre en el que se encuentren, se puede afirmar con toda seguridad
que para lo(a)s estudiantes con una edad de 20 años, existirán miles de notas
promedio, es decir, que Y asume diferentes valores para un valor fijo de X. Esto mismo
sucederá para las demás edades. Se asume que Yi sigue una distribución normal.
Gráficamente se puede considerar el ejemplo anterior suponiendo que4:
Y= Notas de Econometría
X= Edad de los y las estudiantes
4
Para fines prácticos y dada la imposibilidad de conocer el universo de información, la consideración del
ejemplo se hace a partir de un conjunto de observaciones seleccionadas aleatoriamente, que son
consideradas como una población con el fin de una mayor compresión por parte de lo(a)s estudiantes, sin
embargo, es evidente que una población tendría muchos más datos.
8
1
Y P( x )  1
5 P( x ) 
4 P 1 1
3 P( x ) 
( x)
4.8 5.0
3
4.9
2 4.5 5.0
5.0 FRP
4.95
1
4.0
3.26
3.82
3.8
4.35
4.9 2
3 1
3.0 3.5 P( x ) 
2.5 1 2
2.0 2.3
X1=18
X2=19
X3=20
X4=21
X5=22
X
Gráfico 2: Ejemplo 1
En términos estadísticos, la función de regresión poblacional permite obtener el valor

esperado (que es el equivalente al valor promedio para una variable no estocástica o
fija) de la variable aleatoria Y, para cada nivel de X, ya que existen, como se dijo antes,
infinitos valores. Así entonces, siguiendo con el ejemplo anterior se tiene que para un
Xi=18, las notas de Econometría (Yi) son muchas y todas tienen la misma probabilidad
de salir en muestreo aleatorio repetido, para este caso específico, una probabilidad (P)
de (1/5). Por lo tanto:
1 1 1 1 1

E1 Yi / X i  18  2   2.5   3   4   4.8   3.26
5 5 5 5 5
De esta manera, se hallan los valores esperados hasta En. La línea que representa la
FRP en el Gráfico 2, une los valores esperados de todos los posibles resultados de Yi,
pero además muestra la existencia de linealidad entre las variables, donde se confirma
el supuesto sobre su función de distribución de probabilidad normal. Sin embargo,
obsérvese que los valores esperados por los que pasa la FRP están por debajo o por
encima de las observaciones, es decir hay errores en la estimación de la FRP; dichos
errores son las desviaciones de un Yi individual alrededor de su valor esperado, los
9
cuales son denotados como (  i ). Para el ejemplo anterior tenemos:
 1  2.5  3.26  0.76
Como se mencionó antes,  i se denomina perturbación estocástica o término de error
estocástico, y formalmente es denotada de la siguiente forma:
εi  Yi  E(Yi /X i ) (2)
Dado que la población es inobservable, o difícil de cuantificar, lo que se debe hacer es

tratar de alcanzar lo más cercano posible la FRP a través de una Función de Regresión
Muestral (FRM). Más adelante se comprobará que la (FRM), se acerca mucho, en sus
propiedades estadísticas, a la inobservable FRP y que por tanto la FRM se constituye
en la mejor función de todas las posibles que existan.
Desde este punto de vista todas las propiedades estadísticas de la FRM, son
heredadas de la FRP. Como en la realidad los estudios se realizan a partir de muestras,
lo mejor es hacer énfasis en la FRM. Esto no debe entenderse como dejar de lado la
FRP, pues a pesar de ser un ideal, siempre lo deseable es alcanzarla de manera muy
aproximada.
3. FUNCIÓN DE REGRESIÓN MUESTRAL (FRM)
Como es de suponerse, generalmente el investigador o econometrista cuenta con datos

muestrales y no con poblacionales, de tal forma que lo único que puede hacer es tratar
de construir una Función de Regresión Muestral (FRM), a partir de dichas
observaciones. Esto conduce a que las relaciones planteadas en los modelos
econométricos también pueden darse a nivel muestral.
10
La FRM como una función estimativa de la FRP, muestra la relación aproximada entre
por lo menos dos variables (X e Y), la cual sí es observable y posible de hallar a través
de una muestra. La estructura de su ecuación genera una línea o recta en el espacio de
datos muestrales XY, que trata de ajustarse linealmente lo más cerca posible a estas
observaciones. La FRM se puede escribir, como:
  
Yi  E(Yi /X i )  1   2 X i (3)
Donde:

Yi = Es el valor esperado o valor promedio dado cada Xi muestral.

 1 = Es el mejor estimador del verdadero  1 poblacional

 2  Es el mejor estimador del verdadero  2 poblacional
De igual forma que la FRP, los valores asumidos por Y son estocásticos o aleatorios5, y
también se supone que siguen una distribución normal. Esto se debe a que con
información de corte transversal, para cada valor de X muestral dado, habrá diversos
valores de Y muestrales, todos con igual probabilidad de salir en el muestreo aleatorio
repetido6.
Así por ejemplo, si se toma una muestra de X, la edad de lo(a)s estudiantes de

economía en Colombia, y otra de Y, el promedio de notas del semestre en el que se
encuentren, se puede afirmar con toda seguridad que para lo(a)s estudiantes con una
5
Si bien la FRP es diferente a la FRM; dado que, por una parte, esta última es función lineal de los
valores esperados y no de los Yi poblacionales, y por otra, en la estimación muestral también existen
errores que no han sido incluidos en la FRM, en el mejor de los casos la FRM es la mejor aproximación a
la FRP.
6
Con información de series de tiempo, la incertidumbre de los valores que asume en el tiempo Yt además
de los Ut, origina lo estocástico del modelo, siguiendo también estas variables distribuciones normales.
11
edad de 20 años, existirán varias notas promedio, es decir, que Y asume diferentes
valores para un valor fijo de X. Esto mismo sucederá para las demás edades7.
Dado que la regresión, ya sea poblacional o muestral, parte de minimizar las distancias

entre los valores que genera la FRM, Yi y los valores observados o datos Yi, los errores

muestrales que se denotan por u i , vendrán dados por la siguiente ecuación:
 
u i  (Yi  Yi ) (4)
Si se despeja Yi se tiene que:
 
Yi  (Yi  u i ) (5)
La ecuación (5) dice que una observación cualquiera, es igual a la suma del valor
originado por la regresión, más el error. En términos generales el valor de una
observación puede escribirse como:
   
Yi  E(Yi /X i )  ui  1   2 X i  ui (6)
La ecuación anterior dice que un dato u observación muestral, es el resultado de sumar

el valor esperado de Yi dado Xi con los errores. Estos errores son muestrales, y se
supone como con los demás parámetros, que es un buen estimador de los errores
poblacionales εi. Esta ecuación se conoce como la FRM en forma estocástica.
7
Tome el ejemplo de la Gráfica 1 como una muestra, proporcionara mayor comprensión al respecto.
12
4. EL MODELO DE REGRESIÓN LINEAL SIMPLE (MRLS)
El análisis de regresión lineal simple tiene como objetivo fundamental identificar y

cuantificar alguna relación funcional lineal entre dos variables económicas distintas.
Para lograrlo, se requiere de un conjunto de observaciones o datos muestrales (o
también poblacionales, aunque se sabe que es casi imposible) de las variables
relevantes, al igual que de un modelo econométrico basado en la teoría económica o
en la experiencia previa. Generalmente, esa relación funcional está dada por la
estructura de los Modelos Multivariados Simples.
En otras palabras, el MRLS es el planteamiento teórico de una ecuación estocástica

que muestra una relación lineal entre dos variables económicas8, la cual debe ser
estimada con datos poblacionales o muestrales. Si los datos son poblacionales, el
MRLS generará una FRP, pero como este no es el caso más frecuente, entonces el
MRLS generará una FRM.
A manera de ejemplo, supóngase que se desea establecer la relación existente entre el

PIB y el Valor Agregado de la Industria. La estructura del modelo multivariado simple en
términos generales será:
   
Y t   1   2 X t  u t (7)
Donde:

Y t = Producto Interno Bruto
X t = Producción Industrial

u t = Términos aleatorios de error
8
Como se vera más adelante, la relación lineal debe ser necesariamente con los parámetros y no
necesariamente con las variables.
13

 1 = Intercepto de la FRM

 2 = Pendiente de la FRM
Antes de continuar, obsérvese que los datos son de series de tiempo (denotados por el
subíndice t), y solo existen dos variables que se relacionan (regresión simple) de
manera lineal9
En términos particulares, la relación que existe entre el Producto Interno Bruto (PIB) y la
Producción Industrial (PIND), se puede sintetizar a través del siguiente modelo
econométrico:
  
PIBt   1   2 PINDt  u t
Este modelo, permite extraer la mejor línea o recta que relaciona las observaciones
conjuntas de X e Y, es decir, la FRM.
El diagrama de dispersión que se muestra en el Gráfico 3, relaciona los pares

ordenados de las observaciones del PIB del Cauca y el Valor Agregado de la Industria
Departamental en el periodo 1960 - 2004.
El diagrama de dispersión muestra que el PIB aumenta en el tiempo, en la medida en el

valor de la producción industrial también lo hace. Así, debe existir una relación directa
entre las variables X e Y.
El cuadro 1 muestra los valores de las series de tiempo para las variables en mención.
9
Si los datos fuesen de corte transversal, el modelo seria Yi = B1 + B2Xi + Ui.
14
Diagrama de dispersión PIB vs. PIND
900000
800000
700000
Producto Interno Bruto
600000
500000
400000
300000
200000
100000
0
0 1000000 2000000 3000000 4000000
Valor Agregado del Sector Industrial
Gráfico 3: Diagrama de dispersión PIB y V.A del Sector industrial en el Departamento del Cauca
1960 - 1974 1975 - 1989 1990 - 2004

PIB PIND PIB PIND PIB PIND
766898 118936 1277801 233808 2076381 335270
821912 124142 1371053 209225 2175092 331609
821724 117439 1382582 170530 2380317 313828
806282 103249 1476627 237045 2514860 303992
874235 108882 1394103 192771 2312424 342095
829279 116512 1546141 206083 2450558 351728
879619 128277 1575506 209591 2445079 373245
940772 141896 1554098 179508 2499519 360142
919805 144249 1564916 206466 2598483 367097
925803 154446 1714837 196150 2703438 410773
942944 152307 1707901 201311 2944033 561853
1046835 158582 1876839 193975 3098477 529809
1069360 170347 1863564 224143 3344327 612277
1132166 158582 2008695 257003 3407131 670598
1221842 231598 2009685 321217 3666474 796540
Cuadro 1: Series de tiempo PIB y V.A de la Industria en el Departamento del Cauca (1960 – 2004).
Fuente: DANE – INANDES – ICESI
15
La relación entre el PIB y la Producción Industrial puede “resumirse” de manera general
en una ecuación como la (3), es decir, a través de una FRM. Esta genera una línea o
recta que intenta recoger de la manera más precisa todas y cada una de las
observaciones. En el grafico 4 se muestra esta situación.
Diagrama de dispersión y FRM

Producto Interno Bruto

ut
FRM

ut
Valor Agregado del Sector Industrial
Gráfico 4: Diagrama de dispersión y línea de regresión
Los valores o datos que asume la variable PIB (Y), dada la producción industrial (X), se
encuentra en unos periodos por encima y en otros por debajo de la línea, lo que se
puede interpretar como que dichos valores tienden a “regresar” a esta línea. En este
sentido es que se habla de una recta de regresión, ya que los valores de Y tienden a
volver a la FRM, es decir a E (Yi I Xi), el valor esperado o promedio de la variable
aleatoria Y, dado X.
Como se dijo anteriormente, ésta línea de regresión se construye bajo un principio muy
simple, y es el de minimizar las distancias que existen entre los puntos que conforman
la recta y las observaciones muestrales, de tal forma que ella sea la mejor recta de
cualquiera que se pueda trazar en el diagrama de dispersión. A estas distancias se le
16
conoce como desviaciones, que son los mismos errores, tal como se puede ver en el
 
Gráfico 4. En otras palabras, la recta se construye hallando los valores de  1 y  2 de la
ecuación (3), partiendo de minimizar los errores.
La forma de calcular estos parámetros se abordará a continuación.
5. MÍNIMOS CUADRADOS ORDINARIOS (MCO)10
Una vez se tiene el panorama total acerca de la FRP, la FRM y del MRLS, lo único que
 
resta es mostrar cómo estimar los valores de  1 y  2 de la FRM, de tal forma que se
minimicen los errores. El método que permite realizar esta tarea es el de MCO. Este
intenta, como ya se había dicho, minimizar los errores o distancias entre los datos u
observaciones muestrales y la recta de regresión.11
Como algunos datos están por encima de la recta y otros por debajo, habrán errores
positivos y otros negativos, los cuales al sumarse serán iguales a cero12. Esta
propiedad estadística impedirá minimizar los errores correctamente. Así, para evitar que
esto suceda, el método MCO suma los errores al cuadrado y los minimiza, ya que de
esta forma la sumatoria no se hace igual a cero, y de otro lado, pondera menos a los
errores más grandes y más a los pequeños.
En términos formales, se puede partir de la siguiente ecuación:
10
Como se mencionó anteriormente existe otro método que se emplea en el análisis de regresión es el
de Máxima Verosimilitud, sin embargo, este corresponde a cursos avanzados de Econometría.
11
El método MCO es indiferente de ser desarrollado con datos de corte transversal o datos de series de
tiempo. Por esta razón en el desarrollo algebraico que sigue, los subíndices (i) pueden ser reemplazados
por (t), sin ninguna perdida de generalidad.

12
 u i  0 Dado que son distancias positivas y negativas al estar por encima o por debajo de la FRM, al
sumarse se contrarrestan y por ende son iguales a cero.
17
2
 i   i i 

2 
u   Y  Y
2
 ui  (Yi  E(Yi X i ))2
2
2
 

Min u i  Min Yi  Y i  (8)
 
Sustituyendo (3) en (8), se tiene que:
 
Min (Yi   1   2 X i ) 2 (9)
Teniendo en cuenta las condiciones del cálculo diferencial para hallar un valor mínimo,
la ecuación (9), ahora se descompone en:
2
 ui  

 2 (Yi   1   2 X i )  0 (10)
 1
2
 ui  

 2  X i (Yi   1   2 X i )  0 (11)
2
Manipulando matemáticamente (10), esta se puede expresar como:
 
(Yi   1   2 X i )  0
 
 Yi    1   2  X i  0
 
 Yi    1   2  X i
18
 
 Yi  n  1   2  X i (12) 13
 
n  1   Yi   2  X i
  Yi   X i
1  2
n n
 Yi  Xi
Como sabemos Y  y X  entonces:
n n
 
 1  Y   2 X (13)
La ecuación (13) muestra que el valor del intercepto en la regresión es igual al promedio
de las observaciones de Yi menos la multiplicación de la pendiente por el promedio de
las observaciones de Xi.
 
Para poder estimar el valor de  1 , es claro que debe conocerse el valor de  2 . Este
valor puede obtenerse a partir de la ecuación (11). Por tanto se tiene que:
 
 X i (Yi   1   2 X i )  0
 
 X i Yi   1  X i   2  X i2  0
 
 X i Yi   1  X i   2  X i2 (14) 14
Sustituyendo (13) en (14)
  
Por propiedades del operador de sumatoria, sabemos que   1  n  1 donde  1 es una constante.
13
14
Las ecuaciones (12) y (14) son también conocidas en la literatura econométrica como Ecuaciones
normales, como se verá a continuación, a partir de ellas se hallan los valores de los parámetros de la
FRM.
19
 
 X i Yi  (Y   2 X )  X i   2  X i2

 X i Yi  Y  X i   2 ( X i2  X  X i )
  X iYi  Y  X i
2  (15)
 X i2  X  X i
La ecuación (15) puede ser también reescrita de forma alterna como sigue:
 (Yi  Y )( X i  X )  Yi* X i*
2   (16) 15
( X i  X )  Xi
2 *2
Las ecuaciones (15) y (16) son iguales, ya que si se toma únicamente el numerador de
la ecuación (16), se tiene que:
(Yi  Y )( X i  X )
(Yi X i  X Yi  Y X i  Y X )
 Yi X i  X  Yi  Y  X i   Y X
Teniendo en cuenta las propiedades del operador de sumatoria y el hecho que Y y X

son constantes, entonces:
 Yi X i  X  Yi  Y  X i  nY X
 Yi
 Yi dado que Y 
 Yi X i  X  Yi  Y  X i  n X n
n
 Yi X i  Y  X i
15
Esta forma de presentar la ecuación se conoce como “en forma de desviación”, es decir contiene los
alejamientos de las variables respecto de sus medias, condición que se puede representar con un
asterisco que acompaña a la variable, y que será útil en adelante. La diferencia entre las ecuaciones (15)
y (16) es que la última se torna más práctica a la manipulación matemática.
20
Como se puede ver con la anterior demostración, los numeradores de las ecuaciones
(15) y (16) son iguales.
De igual forma, si se toma únicamente el denominador de la ecuación (16), se tiene:
( X i  X ) 2
2
( X i  2 X i X  X )
2
 Xi  2X  Xi   X X
2
 Xi
Como sabemos que X  entonces  X i  n X
n
 X i  2XnX  XnX
2
 X i  XnX
2
 Xi  X  Xi
2
Con lo anterior se termina de establecer la igualdad entre las ecuaciones (15) y (16).
Ahora bien, si dividimos el numerador y denominador de la ecuación (16) entre (n-1)

obtendremos que:
(Yi  Y )( X i  X )
 (n  1) Cov(Y , X )
2  
( X i  X ) 2 Var ( X ) (16.a)
(n  1)
La interpretación económica de la pendiente dependerá directamente de lo que intente

explicar el modelo econométrico, dado que puede representar desde una variación
absoluta hasta una elasticida
21
A modo de aplicación se continuará con el ejemplo del PIB y la Producción Industrial en
el Departamento del Cauca. Como se explicó anteriormente, se debe hallar en primer
 
lugar el valor de 2 y luego el de  1 . A continuación se muestra la tabla de datos que
permitirán calcular los parámetros.
PIB (Yt) PIND (Xt) Yt Xt ΣXt^2

1960 766898 118936 91212003525 14145845132
1961 821912 124142 102033485578 15411125204
1962 821724 117439 96502314679 13791896992
1963 806282 103249 83247991288 10660410546
1964 874235 108882 95188780369 11855363667
1965 829279 116512 96620931310 13575033529
1966 879619 128277 112835043863 16455047232
1967 940772 141896 133492214102 20134597828
1968 919805 144249 132681437594 20807915334
1969 925803 154446 142986561693 23853587851
1970 942944 152307 143616963610 23197399574
1971 1046835 158582 166008841883 25148169124
1972 1069360 170347 182162257148 29018108889
1973 1132166 158582 179540869007 25148169124
1974 1221842 231598 282975944748 53637539538
1975 1277801 233808 298760435252 54666294903
1976 1371053 209225 286858371820 43775049902
1977 1382582 170530 235771434994 29080408213
1978 1476627 237045 350026402255 56190109051
1979 1394103 192771 268742987681 37160762194
1980 1546141 206083 318633017367 42470132501
1981 1575506 209591 330211178307 43928211152
1982 1554098 179508 278973788255 32223281657
1983 1564916 206466 323101369485 42628034488
1984 1714837 196150 336364577046 38474642484
1985 1707901 201311 343819965722 40526288481
1986 1876839 193975 364059188125 37626181045
1987 1863564 224143 417704921721 50240092300
1988 2008695 257003 516240111318 66050383056
1989 2009685 321217 645545195102 103180441125
1990 2076381 335270 696148637676 112406133792
1991 2175092 331609 721281121143 109964801196
1992 2380317 313828 747010849738 98488163896
1993 2514860 303992 764496726388 92410969076
1994 2312424 342095 791067911732 117028744858
1995 2450558 351728 861930473269 123712764775
1996 2445079 373245 912612394456 139311499458
1997 2499519 360142 900180732732 129701963941
1998 2598483 367097 953896300411 134760538003
1999 2703438 410773 1110499676423 168734506094
22
2000 2944033 561853 1654113773149 315678793609
2001 3098477 529809 1641601000893 280697576481
2002 3344327 612277 2047654502579 374883124729
2003 3407131 670598 2284815234338 449701677604
2004 3666474 796540 2920493199960 634475971600
Sumatoria 78940418 12029126 26363721119733 4317017751229
Promedio 1754232 267314 585860469327 95933727805
Cuadro 2: Datos para la estimación de B1 y B2.
Así, de acuerdo a las ecuaciones (15) y (13) se tiene que:


 2 = 4,77713651

 1 = 477236,518
Por tanto, el modelo la FRM estimada para el ejemplo es:
E (PIB t I PIND t) = PIB t = 477.236,5 + 4,78 PIND t

Esta regresión genera la recta que se muestra en el Gráfico 4. El  1 o intercepto indica
que si la Producción industrial del Departamento del Cauca es nula, el valor esperado
del PIB es igual a 477.236,5 millones de pesos en promedio para el periodo muestral,
es decir que, independientemente del valor agregado por el sector industrial el valor
monetario promedio de la cantidad de bienes finales producidos durante este periodo es
de 477.236,5 millones.

Por otra parte, el  2 o la pendiente, muestra cómo cambia el valor esperado del PIB
(PIB promedio) cuando se modifica el valor de la producción industrial. Por tanto, si
dicho valor agregado se incrementa en $1, el PIB se incrementa $4.78 pesos en
promedio, para el periodo muestral. Si el signo que acompaña a la pendiente fuese
negativo, entonces existiría una relación inversa entre X e Y.
Generalmente, el intercepto no tiene ninguna interpretación económica, aunque existen

excepciones como en el ejemplo anterior y otros casos de la teoría micro y
macroeconómica. Sin embargo, el hecho que no se haga una definición práctica de este
23
parámetro en la mayoría de los modelos, no quiere decir necesariamente que no sea
estadísticamente significativo para el modelo como se verá en una sección posterior.

Igual que con la pendiente, el  1 puede ser positivo o negativo.
El paso a seguir es el cálculo de los errores muestrales (û i), los cuales se extraen una
vez obtenida la regresión, recordando que éstos muestran el alejamiento de las
observaciones muestrales de los valores estimados por la regresión. A partir de los
resultados del Cuadro 2, se pueden obtener los valores de û, algunos de ellos negativos
y otros positivos como se mostró en el Gráfico 4.
Y Ŷ Ui = (Yi - Ŷ) Y Ŷ Ui = (Yi - Ŷ)
1960 766898 1045411,5 -278513,6 1983 1564916 1463550,8 101365,6
1961 821912 1070277,7 -248365,2 1984 1714837 1414269,7 300567,8
1962 821724 1038258,2 -216534,7 1985 1707901 1438928,7 268972,3
1963 806282 970472,3 -164190,7 1986 1876839 1403880,1 472958,5
1964 874235 997382,3 -123147,0 1987 1863564 1547998,3 315566,0
1965 829279 1033830,0 -204550,8 1988 2008695 1704973,5 303721,9
1966 879619 1090034,3 -210415,7 1989 2009685 2011734,6 -2049,7
1967 940772 1155095,2 -214323,0 1990 2076381 2078868,2 -2487,6
1968 919805 1166336,0 -246530,8 1991 2175092 2061379,9 113712,5
1969 925803 1215046,5 -289243,9 1992 2380317 1976436,9 403880,6
1970 942944 1204827,5 -261883,1 1993 2514860 1929446,5 585413,8
1971 1046835 1234803,2 -187968,6 1994 2312424 2111469,3 200954,8
1972 1069360 1291007,5 -221647,7 1995 2450558 2157490,4 293067,6
1973 1132166 1234803,2 -102637,1 1996 2445079 2260276,7 184802,2
1974 1221842 1583610,8 -361768,7 1997 2499519 2197682,1 301836,9
1975 1277801 1594170,4 -316369,3 1998 2598483 2230911,2 367571,3
1976 1371053 1476732,3 -105679,4 1999 2703438 2439555,5 263882,9
1977 1382582 1291880,6 90701,5 2000 2944033 3161285,0 -217252,0
1978 1476627 1609630,6 -133003,4 2001 3098477 3008206,4 90270,6
1979 1394103 1398131,2 -4028,3 2002 3344327 3402167,3 -57840,3
1980 1546141 1461722,3 84418,2 2003 3407131 3680774,7 -273643,7
1981 1575506 1478479,3 97026,5 2004 3666474 4282416,8 -615942,8
1982 1554098 1334772,9 219325,5 Promedio Ŷ Suma errores
1754232 -9,0804E-09
Cuadro 3: Estimación de los Errores
24
Éstos se calculan de acuerdo a la ecuación (4), hallando en primer lugar los valores
estimados del PIB por medio de la FRM una vez se reemplacen los valores de la
producción industrial (Xi). A continuación, se resta el valor de cada observación del PIB
muestral con los arrojados por la regresión.
Los errores surgen porque el modelo de regresión especificado solo tiene en cuenta el
valor agregado industrial para explicar los valores observados del PIB, y por tanto deja
de lado otras variables que influyen de manera directa en el PIB. En otras palabras, los
errores muestran la influencia de otras variables que no han sido tenidas en cuenta por
el modelo de regresión.
Ejemplo 2:
Suponga de manera hipotética que se quiere mostrar la relación que existe entre la
demanda de carne (en Kg) y su precio en Popayán para el periodo muestral 1950-2004.
El modelo econométrico se plantea como:
 
DCi  1   2 PCi
Una vez realizados los cálculos necesarios, la FRM es la siguiente:
E(DCt /PCt )  12,34  0,34PCt
Donde DC es la demanda de carne, y PC es el precio de la carne. Los resultados

indican que si el precio de la carne es cero (el producto se ofrece de forma gratuita), la
demanda promedio de carne sería de –12,34 Kg, lo cual no tiene sentido económico, ya
que por teoría microeconómica sabemos que si el precio es cero, la demanda deberá
ser positiva e infinita y no negativa. En este caso, el intercepto no tiene interpretación.
De otro lado, la pendiente muestra que si el precio de la carne se incrementa en un
peso, la demanda promedio de carne se reduce en 0,34 Kg, para el periodo muestral.
25
5.1 Propiedades Numéricas de los Estimadores MCO y de la FRM
Debe tenerse en cuenta antes de iniciar, que las propiedades que a continuación se
enuncian, son propiedades muestrales. Más adelante se verá que algunas de ellas, son
heredadas de los supuestos estadísticos que se realizan sobre los parámetros
poblacionales.
5.1.1 La línea de regresión pasa por las medias muestrales de X e Y. Esto es evidente,
a partir de las ecuaciones (13) y (16). Sin embargo, formalmente se puede
demostrar considerando las ecuaciones (3) y (13) donde, gráficamente sabemos
que:
  
Yi  1   2 X i
FRM
Gráfico 5: FRM y las medias muestrales de X e Y
Así entonces:
  
Yi  1   2 X i
  
Yi  (Y   2 X )   2 X i
26
     
Yi  Y   2 X   2 X i Yi  Y   2 X   2 X i
    
Yi  Y   2 ( X  X i ) *
Yi  Y    2 X   2 X i
 
 0    2 X  2 X i
Yi  Y
 
 2 X  2 X i
X  Xi
* Si de todos los valores de Xi se elige el promedio, y lo introducimos en la FRM,

 
entonces se obtiene que  2 ( X  X i ) es cero, y luego Yi  Y .
En nuestro ejemplo numérico, si tomamos el promedio de la producción industrial ( X ) y

lo introducimos en la FRM se tiene: PIB t = 477.236,5 + 4,78 (267.314) = 1’754.232 que
corresponde al valor promedio del PIB en el Cauca, de acuerdo con el Cuadro 2.
5.1.2 Son estimadores puntuales, es decir, solo arrojan un único valor, y son los
mejores estimadores de los parámetros poblacionales. Se acepta por teoría.
5.1.3 El valor promedio de Y es decir el Y estimado por la FRM, es igual al promedio


de los Y muestrales. Tomando la ecuación (3) y reemplazando el valor de  1 , se
tiene que:
  
Yi   1   2 X i
  
Yi  (Y   2 X )   2 X i
  
Yi  Y   2 X   2 X i
 
Yi  Y   2 ( X i  X )
27
Aplicando sumatoria a los valores muestrales y dividiendo por n a ambos lados,
se obtiene:

 Yi nY  ( X i  X )
 2
n n n
  ( X i  X )
Yi Y   2
n

De acuerdo con la propiedad 5.1.1 X  X i , con lo cual se comprueba que Y i  Y
Este resultado es evidente si analizamos el Cuadro 3 y comparamos el promedio de los


Yi o valores estimados por la FRM para el PIB del Cauca, con el promedio de los
valores del PIB observado en el Cuadro 2. Ambos valores son iguales a 1’754.232
5.1.4 La sumatoria de los residuos o errores es cero.

 ui  0

(Yi  Yi )  0
 
 (Yi  1   2 X i )  0
 
 Yi  n1   2 X i  0
 
 Yi  n(Y   2 X )   2 X i  0
 
 Yi  nY  n X  2   2 X i  0
 
 Yi   Yi   2 X i   2 X i  0

Con lo anterior se demuestra que  u i  0
28
Como se muestra en el Cuadro 3, la suma de los errores de la regresión del PIB frente
a la Producción Industrial es igual a -9,0804E-09, un número que si bien no es cero en
sentido estricto, si está muy cercano a el.
5.1.5 El valor de la media de los residuos es cero, es decir, E(Ui I Xi) = 0 :

 
Dado que u i  (Yi  Yi ) , y aplicando sumatoria y dividiendo por (n) a ambos lados,
se obtiene:
 
 u i (Yi  Yi )

n n


Y  Y i
ui  i 
n n
 
ui  Y  Y

Por la propiedad 5.1.3 sabemos que Y i  Y entonces:

ui  0
Esta propiedad es de suma importancia, dado que comprueba que las variables que
afectan al modelo pero que no fueron incluidas de manera explicita en éste, no son de
relevancia, dado que los valores esperados de las variables dejadas por fuera no tienen

un comportamiento determinante en la explicación de las variaciones de Y i Si en el
modelo la media de los errores es diferente de cero existiría sesgo de especificación,
por tanto estaría mal planteado.
Esta propiedad es coherente con 5.1.4 ya que si se toma la suma de los errores del
ejemplo trabajado (-9,0804E-09) y se divide entre (n-1= 44) se tiene que el valor
promedio de los errores es de -2,06373E-10, un valor cercano a cero.
29
5.1.6 La FRM también puede ser expresada en forma de desviación.
Si a la ecuación (7) que muestra la función de regresión lineal simple, se le aplica

el operador de sumatoria a ambos lados, se obtiene:

Yi n  1  X ε i 0
  2 i

n n n n
 
Y   1   2 X (17)
Restando ahora (17) de (7), se tiene que:
   
(Yi  Y )  1   2 X i  ε i  1   2 X

(Yi  Y )   2 ( X i  X )   i

Yi*   2 X i*  ε i (18)
La ecuación (18) es el modelo de regresión lineal simple expresado en forma de

desviación, al cual se le puede aplicar valor esperado.

E (Yi  Y )   2 E ( X i  X )  E (ε i )

Considerando que E (Yi  Y )  Y i , y recordando que el valor esperado solo
*
afecta a variables aleatorias de manera que E ( X i )  X i , la ecuación anterior se
puede expresar de la siguiente forma:
 
Y i   2 X i* (19)
*
30
La ecuación (19) muestra la FRM en forma de desviación. Observe que esta forma no
posee intercepto, es decir que parte del origen, haciendo que la media tanto de X como
de Y se vuelvan cero, no obstante se conserva la misma pendiente de la regresión (3).
Gráficamente tendríamos:
Y
 
Y i   2 X i*
*
FRM
X
Gráfico 6: FRM en forma de desviación
Volviendo a nuestro ejemplo numérico, si tomáramos el valor de la producción industrial

para un año (2004) podríamos comprobar (18) de la siguiente forma:
Y04  Y  3’666.474 – 1,754.232 = 1’912.242
X 04  X  796.540 – 267.314 = 529.226
 0 4  - 615.943
Ya que

 2 = 4,77713651
Entonces: Yi*  4,77713651(529226)  615943  1912242

Esto se puede comprobar con cualquier t
31

5.1.7 Los residuos no están correlacionados con los Xi. Es decir,  u i X i  0 16 Esta
propiedad es importante ya que de existir relación entre los errores y la variable

explicativa no se podría discernir el verdadero grado de explicación de ésta sobre
la variación de Yi.

(u i X i )  0
 
 (Yi   1   2 X i ) X i  0
 
 ( X i Yi  1 X i   2 X i )  0
2
 
 X i Yi  1 X i   2 X i  0
2
 
 X i Yi  (Y   2 X )X i   2 X i  0
2
 
 X i Yi  Y X i   2 X X i   2 X i  0
2

 X i Yi  Y X i   2 ( X X i  X i )  0
2

Reemplazando  2 por la ecuación (15) obtenemos lo siguiente:
 
  X i Yi  Y  X i 
 X i Yi  Y X i   ( X X i  X i )  0
2
 Xi  X  Xi
2 
 
 X i Yi  Y X i   X i Yi  Y X i  0
En el ejemplo numérico, la covarianza entre Ui y Xi es igual a -1,08507E-0512,

indicando que su relación es casi nula.
16
Esta comprobación como la siguiente también pueden ser realizada a través de la formula de la
covarianza, que es igual a la sumatoria de dos variables, dividida entre (n-1) grados de libertad.
32
 
5.1.8 Los u i no están correlacionados con los Y i .
Se puede demostrar a partir de la ecuación (19) o FRM en forma de desviación,


aplicándole el operador sumatoria y multiplicándola por u i , obteniendo:
   
 Y i u i   2 X i* u i
*
Considerando ahora que Yi*   2 X i*  εi entonces:

  
 Y i u i   2 X i* (Yi*   2 X i* )
*
    2
 Y i u i   2 X Y   2 X i*
* * * 2
i i
     2
 Y i u i   2 X i* (  2 X i* )   2 X i*
* 2
   2  2
 Y i u i   2 X *2
  2 X i*
* 2
i
 
Y i ui  0
*
También se puede comprobar de la siguiente forma:
 
(u i Y i )  0
  
(u i ( 1   2 X i ))  0
   
1  u i   2  u i X i  0
Esta expresión es equivalente a cero por las propiedades 5.1.4 y 5.1.7 respectivamente.
Se demuestra así que los errores deben tener un peso nulo en la estimación de Y.
Una vez más, retomando la regresión del PIB del Cauca frente al valor agregado del
sector industrial, y calculando la covarianza entre los Ui y los valores estimados del PIB
se tiene un valor de -5,42535E-05, que indica una relación baja (casi nula) entre ellos.
33
6. Supuestos del Modelo MCO
Para que el modelo estimado goce de robustez estadística, se deben realizar algunos
supuestos poblacionales sobre las variables que en él se encuentran. De esta forma, se
debe hablar de las variables aleatorias Yi poblacionales, de la variable fija Xi poblacional
y del término aleatorio de error poblacional. Las propiedades poblacionales son
transmitidas a los estimadores muestrales, ya que generalmente los modelos son
estimados con datos muestrales y no poblacionales. Los supuestos son los siguientes:
6.1 Los valores de X son fijos en muestreo repetido
Para indagar por la naturaleza probabilística del modelo de regresión, se debe asumir,
como se había explicado anteriormente, que para cada valor fijo de X, existe una
población de Yi. Cada una de éstas tiene la misma probabilidad de ser seleccionada si
el experimento se realiza infinitas veces. Por tanto, el valor de X es no estocástico o fijo,
mientras que el de Y sí lo es, y sigue una distribución normal. El ejemplo de la edad de
lo(a)s estudiantes de economía y sus notas expuesto antes en el numeral 2 recoge la
esencia de este supuesto.
6.2 El valor esperado del termino aleatorio de error es cero
Dado que X es fijo, el promedio de los errores poblacionales que se generan entre la
FRP y los datos poblacionales son cero. Esto se manifiesta con la siguiente notación:
E (εt X t )  0 (20)
Este supuesto traduce como se había enunciado en otro momento que la influencia
promedio (valor esperado) que tienen las variables no consideradas de manera explicita
en el modelo, y que se encuentran condensadas en ε i , no afectan al valor esperado de
Yi . La distribución de probabilidad de dichos errores debe ser normal, con media cero y
varianza constante.
34
6.3 Igual varianza de εi para cada valor fijo de Xi. (HOMOCEDASTICIDAD)
Como para cada X fijo hay n errores, y estos siguen una distribución normal
representada por la campana gaussiana, para cada X, debe existir una campana con la
misma altura y el mismo ancho. Es decir, todas deben tener la misma varianza.17 En
términos formales la homocedasticidad se expresa como:
Var (εt X t )  E[εt  E (εt ) X t ]2
Var (εt X t )  E[εt  E (εt ) X t ][εt  E (εt ) X t ]
Dado que E (εt )  0 , entonces se tiene que:
Var (εt X t )  E (εt X t )(εt X t )
Var (εt X t )  E (εt X t ) 2
Y por ley de valores esperados, se sabe que E(.) solo se aplica a las variables
aleatorias, entonces:
Var (εt X t )  E (εt X t ) 2   2 (21)
La expresión anterior nos indica que los errores dado cada X tienen varianza constante
e igual a  2 . La varianza, como ya debe saberse, es el grado de dispersión de una
variable frente a su media. De tal forma, todas las campanas deben ser o platicúrticas, o
leptocúrticas o mesocúrticas, pero no una combinación de estas; deben ser todas
iguales tal como lo muestra el Gráfico 7.
17
En términos generales, la formula para una variable poblacional no estocástica o fija viene dada por:
( X i  X ) 2
Var ( X i )  Cuando es a nivel muestral, el denominador debe ser (n-1) porque se pierde un
n
grado de libertad.
35
Z
FRP
Yi  1   2 X i
X1
X2
X3
X4
Xk
X
Gráfica 7: Homocedasticidad
Así, no deben existir diferentes apuntalamientos (Kurtosis) o diferente sesgo

(Skewness). Si no se cumple este supuesto se dice que hay heterocedasticidad 18.
6.4 No hay Autocorrelación entre los términos aleatorios de error
La autocorrelación, o correlación serial, se define como la existencia de una relación

lineal (positiva o negativa) entre los términos aleatorios de error para cada observación
poblacional. De esta forma lo que se supone es que el modelo no tiene este
comportamiento. Es decir, en términos formales, que:
Cov( i ,  j X i , X j )  E[εi  E ( i ) X i ]E[ j  E ( j ) X j ]  0
Dado que E (εij )  0 , entonces:
18
El supuesto de Homocedasticidad no se cumple para datos de corte transversal dada la existencia de
datos atípicos a alejados de la FRP. Para saber si el modelo cumple o no con este supuesto, es
necesario hacer una prueba de hipótesis.
36
Cov( i ,  j X i , X j )  E ( i X i )( j X j )  0
Dado el supuesto (6.2) entonces:
Cov( i ,  j X i , X j )  0 (22)
Este supuesto indica que los errores poblacionales, asociados a cada valor fijo de X, no
pueden estar relacionados, es decir, no puede existir una combinación lineal entre ellos.
Esto es equivalente a decir que las desviaciones de dos valores cualquiera de Y de su
media no deben mostrar un patrón o tendencia positiva o negativa al ser seguido uno
por otro, ya que de ser así, la influencia de εj sobre εi se transmitirá sobre Yi, y por tanto
no se podrá determinar de donde proviene el efecto verdadero de los errores 19.
6.5 La Covarianza entre εi y Xi es cero (EXOGENEIDAD ESTRICTA)
Este supuesto implica la inexistencia de algún grado de asociación entre la variable

explicativa y los términos aleatorios de error, ya que como es de suponerse, estas dos
variables deben ser independientes para así conocer de donde proviene exactamente la
influencia sobre la variable explicada y evitar que los betas estimados sean sesgados.
En términos formales tenemos que:
Cov( i X i )  E[εi  E ( i )][ X i  E ( X i )]  0
Cov( i X i )  E{εi [ X i  E ( X i )]}  0

0
Cov( i X i )  E (εi X i )  E ( i ) E ( X i )  0
Como E ( X i )  X i y E ( i )  0 , entonces se tiene que:
19
Este supuesto se incumple generalmente en series de tiempo, donde los errores de un periodo se
trasladan a los siguientes.
37
Cov( i X i )  E (εi X i )  0
Cov( i X i )  E ( i ) E ( X i )  0
Cov( i X i )  0 (23)
6.6 No existe Multicolinealidad pura
Esto significa que entre las variables explicativas del modelo no puede existir ningún
tipo de relación. De no cumplirse este supuesto, no se podrá determinar de donde
proviene el verdadero efecto sobre la variable explicada. Este problema no se presenta
en los modelos simples, pues solo existe una sola variable explicativa en ellos, y es
típica de los modelos multivariados donde una variable es combinación lineal de otra,
de cuya asociación depende que la multicolinealidad sea pura e imperfecta. Este tema
se expondrá con mayor profundidad en una sección posterior.
6.7 La relación entre X e Y es lineal
La linealidad en Econometría es un concepto un poco diferente al de linealidad en el

algebra. La linealidad de la cual se trata aquí, es en los coeficientes del modelo de
regresión lineal y no en la(s) variable(s) explicativa(s). Es decir, si se toma el modelo de
regresión lineal dado por la ecuación (3)
   
Yi  1   2 X i  ui
Es claro que aquí hay una relación lineal entre X e Y, dado que Xi no está elevado a
una potencia mayor que uno. Esta es la linealidad que conocemos por el Álgebra. Pero
en Econometría puede darse el siguiente caso:
   
Yi  1   2 X i3  ui
38
Este modelo sigue siendo lineal, porque como se dijo antes la linealidad es en los
  
parámetros ( 1 ,  2 ,  k ), y no en la variable explicativa X. En otras palabras, son los
parámetros los que NO deben estar elevados a una potencia mayor o menor que uno.
   
Así, el modelo Yi  1   2 X i  ui no será un modelo lineal.
2 3
6.8 El termino aleatorio de error sigue una distribución normal
Este supuesto implica que la distribución de probabilidad es una normal con media cero
y varianza constante. Gráficamente:
- σ2 E(εi) =0 σ2
Gráfico 8: Distribución Normal de los Errores
εi ~ N [E(εi) = 0 ; E( εi2 I Xi ) = σ2 ]
El hecho que los errores se distribuyan de forma Normal con media cero y varianza
constante implica que εi es una variable aleatoria Ruido blanco (White Noise). La
aplicación de este supuesto permite mostrar que los estimadores del modelo de
regresión cumplan con características estadísticas deseables. Como X es fija en
muestreo repetido, entonces la variable Y dependerá estocásticamente de ε i. Es por
esta razón que Y también es aleatorio y sigue una distribución normal.
39
6.9 Los valores de X deben variar
El primer supuesto (6.1) dice que X debe ser fijo en muestreo repetido, entendiéndose
por ello que para cada valor de X hay muchos valores de Y, lo cual es diferente a decir
que los valores de X deban mantenerse invariables en el tiempo, pues la idea es que X
tome diferentes valores. Retomando el ejemplo 1 sobre las edades de lo(a)s
estudiantes (X) y sus notas (Y), X puede ser igual a 16 años, (X = 16), y se deben tomar
todas las notas de los estudiantes de este grupo. Pero también habrá otros valores de
X, que deben considerarse: X = 18, X=20, X=23, etc.

De no cumplirse este supuesto, la ecuación (16) con la cual se calcula  2 , se
indeterminaría, pues si X no varia, su media será exactamente igual a Xi, y por tanto el
denominador de dicha ecuación se haría igual a cero. No se debe olvidar que X es una
variable no estocástica, y por tanto debe asumir diferentes valores20
7. El TEOREMA DE GAUSS-MARKOV:
PROPIEDADES DE LOS ESTIMADORES MINIMO CUADRÁTICOS
 
Dados los supuestos anteriores, los valores de los estimadores  1 y  2 cumplen tres
propiedades básicas. Ellos son lineales (L), insesgados (I) y tiene varianza mínima, es
decir, son los mejores estimadores (ME). En la literatura econométrica se dice entonces
que los parámetros son MELI21. A continuación se desarrollarán estos supuestos.
20
En el caso que fueran los valores Yi los que no variaran, la mejor FRP para Yi sin importar el valor de Xi
sería el promedio de Yi, dado que el grado de dispersión seria nulo, es decir, que los errores no tendrían
influencia alguna sobre la determinación de Yi.
21
De acuerdo con Cramér-Rao los estimadores son MEI mas no necesariamente lineales, porque
cumplen con la Cota de Cramér-Rao. Si un estimador tiene una varianza que coincide con dicha cota se
dice que es un estimador eficiente. Si además es insesgado, se dice que es un estimador de
eficiencia absoluta o completa.
40
 
7.1 Linealidad: Significa que  1 y  2 pueden expresarse como combinaciones
lineales de Y.
Partiendo de la ecuación (16)
 (Yi  Y )( X i  X )
2 
( X i  X ) 2
 [(Yi X i  Yi X  Y X i  Y X )]
2 
( X i  X ) 2
 Yi X i  X Yi  Y X i  nY X )
2 
( X i  X ) 2
0
 Yi ( X i  X )  Y (X i  n X )
2 
( X i  X ) 2
Dado que  X i  n X , entonces:
 Yi ( X i  X )
2 
( X i  X ) 2
 Yi X i*
2  2
 X i*
(Xi  X )
Si se define k i  , se tiene que:
( X i  X ) 2

 2  Yi ki (24)
41

Con la ecuación (24) se comprueba que  2 puede ser expresado en forma lineal
respecto de Y.

Igual ocurre con  1 . Reemplazando (24) en la ecuación (13) se tiene que:

 1  Y  [(Yi k i ) X ]
 Yi
1   [(Yi k i ) X ]
n
Aplicando factor común:
 1 
 1     k i X Yi (25)
n 
Con las ecuaciones (24) y (25) se comprueba que los parámetros son lineales frente a
la variable aleatoria Y. Esto corrobora al tiempo que el modelo debe ser lineal en los
parámetros.
Antes de continuar con las otras dos propiedades es necesario determinar algunos
comportamientos de ki, útiles en demostraciones posteriores.
Propiedades de ki
a. k i  0
( X i  X )
0
( X i  X ) 2
1
b. k i2 
( X i  X ) 2
2
 ( X i  X )  ( X i  X ) 2 1
2

k     
i 2 
 ( X i  X )  ( X i  X ) ( X i  X ) ( X i  X ) 2
2 2
42
c. ki X i  1
*
( X i  X )( X i  X ) ( X i  X )2
 1
( X i  X ) 2 ( X i  X ) 2
Esta propiedad se cumple independientemente de si Xi está o no expresado en

forma de desviación, es decir que ki X i  1
( X i  X ) X i  X i2  X  X i  X i2  X  X i
 
( X i  X ) 2 ( X i  X ) 2 2
( X i2  2 X i X  X )
 X i2  X  X i  X i2  X  X i 2  Xi
  1 ya que n X  nX X  nX
X i2  2 X  X i  n X
2
 Xi  X  Xi
2
n
7.2 Insesgadez
Un estimador se considera insesgado (con sesgo nulo) o también denominado

centrado, si su valor esperado es igual al parámetro poblacional, sea cual sea éste. Es
 
decir que E(  1 ) =  1 y E(  2 ) =  2 .
Si utilizamos un estimador insesgado "acertamos" en media, esto es, el valor esperado

del estimador es la cantidad que queremos estimar.
Si se sustituye el valor de Yi en la ecuación (23) se tiene que:

 2  k i (1   2 X i   i )

 2  1ki   2 ki X i  ki  i

 2  1k i   2 k i X i  k i  i
43
Teniendo en cuenta las propiedades de ki, se tiene que:

 2   2  k i  i (26)
Tomando la esperanza matemática a ambos lados de (26):

E (  2 )  E (  2 )  E (k i  i )

E (  2 )   2  k i E ( i )

E (  2 )   2 (27)

De otro lado, con  1 sucede que si se toma la ecuación (25), y se sustituye el valor de
Yi, entonces se puede escribir esta ecuación como:
 1 
 1     k i X  ( 1   2 X i   i )
n 

1   1  1
 1  1n      2 X i    i  1 X ki   2 X ki X i  X ki i
n  n  n
Simplificando términos y aplicando tanto el supuesto 5.1.4 según el cual la sumatoria de

los errores es cero, como las propiedades de ki, se obtiene la siguiente expresión:

 1  1  X ki  i
Al colocar valor esperado a ambos lados de la ecuación, se obtiene:


E ( 1 )  E (1 )  X ki E ( i )
Por lo tanto,

E (  1 )  1 (28)
44
 
Con las ecuaciones (27) y (28) se ha demostrado que  2 y  1 son estimadores
muestrales insesgados de los  1 y  2 poblacionales, respectivamente. En términos

generales como lo muestra el Gráfico 9, el sesgo de cada estimador  k es nulo.

k k

Gráfico 9: k es un estimador insesgado
7.3 Varianza Mínima (mejores estimadores)
Un estimador se considera eficiente si el grado de dispersión de los datos frente a su

media (o error cuadrático medio) es mínimo comparado con el de otro estimador.
Debido a lo complejo de su demostración, solo se comprobará para  2 , yse aceptará
dicha propiedad de manera a priori para 1 .
En primer lugar, se debe hallar la varianza del estimador. Para este efecto,
reordenamos la ecuación (26)

 2   2  k i  i
Ahora, aplicando valor esperado y elevando al cuadrado para obtener la expresión de la

varianza, se sigue que:
45
 
Var ( 2 )  E ( 2   2 ) 2  E (ki εi ) 2

Var ( 2 )  E (ki εi ) 2  E (ki j εi j ) 2
El último término de la ecuación anterior 22 contiene elementos tanto de i como de j, que

pueden ser multiplicados por ellos mismos o ser productos cruzados. Así, esta ecuación
se puede reescribir de la siguiente forma:

Var (  2 )  E (ki εi ) 2  E (ki k j εi ε j ) 2 donde i  j

Var (  2 )  k i2 E (εi )  k i k j E (εi ε j )
2
Dado que E (εi ε j )  0 (no autocorrelación); E (εi )   (homocedasticidad), y por las

2 2
1
propiedades de ki sabemos que k i2  , entonces:
( X i  X ) 2
 1
Var (  2 )  2
( X i  X ) 2
 2
Var (  2 )  2
(29)
 X i*

El resultado de la varianza de  1 , será definido (sin demostración) igual a:
  X 2 
Var (  1 )   2  i  (30)
 n  X *2 
 i 
22
Esta expresión es conocida en la literatura como el Producto Cruzado de los errores por cada ki.
46

Ahora bien, ¿cómo saber si la varianza de  2 es mínima? Para confirmarlo se debe

comparar con la varianza de otro estimador alterno, al cual se le denominará  2 * Este
parámetro por definición será también lineal e insesgado y vendrá dado por la siguiente
expresión:

 2 *  Ci Yi , donde Ci  k i  d i siendo d i  0
Sustituyendo Yi se obtiene que:


 2 *  Ci (1*   2* X i   i )

 2 *  1*Ci   2*Ci X i  Ci  i (31)
Tomando ahora valor esperado a ambos lados, llegamos a la siguiente expresión:

E (  2 )  1*Ci   2* Ci X i
*
 
Dado que  2 * se supone insesgado, es decir, E (  2 * )   2* , esto implica que en la
ecuación anterior 1 Ci  0 y que Ci X i  1 . De esta forma la ecuación (31) se puede
*
transformar sin problema en:


 2 *   2 *  Ci  i
La varianza de este estimador alterno vendrá dada por:
 
Var (  2 )  E (  2   2 ) 2
* * *
 0
Var ( 2 )  E (Ci εi ) 2  E (Ci C j εi ε j ) 2
*

Var ( 2 )  Ci E (εi ) 2
* 2
Asumiendo homocedasticidad, la ecuación anterior se convierte en:

47

Var (  2 )   2 Ci2
*
Como Ci  k i  d i
0
Luego entonces Ci  (k i  d i )  k i  2k i d i  d i ya que k i  0

2 2 2 2
Al introducir esta expresión en la ecuación de la varianza tenemos:

Var (  2 )   2 (k i2  d i2 )
*

Var (  2 )   2 k i2   2 d i2 (32)
*
  1
Recordando que la varianza del  2 viene dada por, Var (  2 )   2  k i2 2
( X i  X ) 2
entonces:
 
Var (  2 )  Var (  2 )   2 d i2 (33)
*
 
Para todo d i  0 , Var (  2 *) > Var (  2 ) en  di . Solo en el caso que d i  0 , ambas
2 2 2

varianzas serían iguales. Con lo anterior se demuestra que  2 posee menor varianza
que cualquier otro estimador insesgado.
Gráficamente se tendría:
Distribución del
Estimador MCO
Distribución de otro
Estimador insesgado

 
Gráfico 10: Los Estimadores MCO poseen Varianza Mínima.
48
Es evidente en el Gráfico 10 que el mejor estimador es producido por el método MCO,

frente a otro estimador insesgado, ya que la varianza de  2 es mucho más baja (la

campana es más angosta) frente a la varianza de  2 *.
8. FIABILIDAD DE LOS ESTIMADORES MINIMOCUADRATICOS:

LA DESVIACIÓN ESTANDAR
A esta altura de la discusión debe ser claro ya, que los estimadores están en función
de los datos muestrales, es decir de Yi. Pero si se realiza un muestreo aleatorio
repetido, como es de suponerse, los estimadores también se modificaran, ya que los Y i,
no serán los mismos. En este sentido, se requiere una medida de precisión o fiabilidad
de los estimadores. Esta confiabilidad se mide a través de la desviación estándar.
Si se toma la raíz cuadrada de la varianza de los parámetros se obtiene su desviación

estándar. De las ecuaciones (29) y (30) se obtiene respectivamente que:
   1
De(  2 )  Var (  2 ) De(  2 )   2
(34)
 X i*
    X 2 
De(  1 )  Var (  1 ) De(  1 )    i  (35)
 n  X *2 
 i 
Todas las variables que se relacionan en esta ecuación pueden ser obtenidas de los
datos muestrales, excepto σ2 ya que es poblacional. ¿Cómo puede ser estimada la σ2
muestral?
49
Tomando la FRM en su forma estocástica, ecuación (7), y dividiéndola por n, y
aplicando sumatoria se puede escribir:
  
Y i   1   2 X i  u i (7)
 
Y i n  1  X i  u i
 2 
n n n n
 
Y   1   2 X  u (36)
Restando (36) de (7)

    
(Y i  Y )   1   2 X i  u i   1   2 X  u
 
Yi*   2 ( X i  X )  (u i  u )
 
Yi*   2 X i*  (u i  u ) (36a)
Dado que
 
u i  Yi*   2 X i* (36b)
*
Sustituyendo (36a) en (36b), se tiene que:

   
u i   2 X i*  (u i  u )   2 X i*
Factorizando X i* , se puede escribir:
   
u i  (u i  u )  X i* (  2   2 )
50
Aplicando sumatoria y elevando todo al cuadrado:
   
 u i  [(u i  u )  X i* (  2   2 )]2
2
      
 u i  (u i  u ) 2  2(u i  u )X i* (  2   2 )  X i* (  2   2 ) 2
2 2
Tomando valores esperados a ambos lados de la igualdad:

      
E ( u i ) 2  E[(u i  u ) 2 ]  2 E[( 2   2 )X i* (u i  u )]  E[X i* (  2   2 ) 2 ]
2
Si se denomina:

A  E[(u i  u ) 2 ]
  
B  2 E[(  2   2 )X i* (u i  u )]
 
C  E[X i* (  2   2 ) 2 ]
2
Entonces se tiene que:


E ( u i ) 2  A  B  C
Estos tres componentes se desarrollan a continuación:
   2   2
A  E[(u i  u ) 2 ]  E[(u i  2 u i u  u )  E[ u i  2u u i  nu ]
2 2
  

 _

 ui 
A  E[ u i  2un u  unu ]  E[ u i  unu ]  E   u i  n
2 2 2
u
 n 
 
  
 ui   

  E   u i 2   u i
2
  
 
A  E  u i   u i u   E  u i   u i
2 2 
   n   n 
   
51
  2  1  
2  1 n 1
A  E   u i 1     E (u i )1     2
  n   n n
n 1
A  n 2
n
A  (n  1) 2
Para la parte B, se tiene que:

  
B  2 E[( 2   2 )X i* (u i  u )]

Teniendo en cuenta que  2 es el mejor estimador del  2 , se puede reemplazar uno de
los estimadores en la primera parte de B por el parámetro poblacional, así:
 
B  2 E[( 2   2 )X i* (u i  u )]
Ahora bien, recordando la ecuación (26)


 2   2  k i  i

(  2   2 )  k i  i

B  2 E[(ki i )X i* (u i  u )]
Reemplazando el valor de ki, e introduciendo la sumatoria a los errores, se puede

expresar como:
 X i*  *  
B  2 E   X i u i  X i* u 
*2 i 
 X i  
Y dado que X i* u  0 , entonces:

52
 X i*  *  
B  2 E   X i u i 
*2 i 
 X i  
El numerador de la ecuación es un producto cruzado, y se resuelve adoptando el mismo

razonamiento aplicado en la prueba de varianza mínima. En este sentido:
 2 E (( X i* i ) 2 )  2 E (X i* X *j  i j ) 2

B
X i*2
 2X i*2 E ( i ) 2  2X i*2 X *j 2 E ( i  j ) 2

B
X i*2
Utilizando los supuestos de homocedasticidad E (εi ) 2   2 y no autocorrelación
E ( i ,  j )  0 , se tiene que:
 2X i*2 2
B
X i*2
B  2 2
Por ultimo, el término C es igual a:

 
C  E[X i* (  2   2 ) 2 ]
2
 
C  X i* E (  2   2 ) 2
2
 2
Dado que E (  2   2 ) 2
2
, entonces se puede escribir:
X i*
2 2
C  X i* 2
X i*
C 2
53

En síntesis sumando los resultados de A, B y C, E ( u i ) 2 puede expresarse como:

E ( u i ) 2  A  B  C

E ( u i ) 2  (n  1) 2  2 2   2

E ( u i ) 2  n 2   2  2 2   2

E ( u i ) 2  n 2  2 2

E ( u i ) 2   2 (n  2)

E ( u i ) 2
  2
(n  2)

E ( u i ) 2
 2
Si se define una varianza muestral   , y se obtiene su valor esperado:
(n  2)
 2 1 
E ( )  E ( u i ) 2
(n  2)

Dado que E ( u i ) 2   2 (n  2) , entonces:
 2 1
E ( )   2 (n  2)
(n  2)
 2
E ( )   2
 2
Con ello se comprueba que  es el mejor estimador insesgado del verdadero σ2. Por
tanto:

ui
2
 2
  (37)
(n  2)
54
Ahora, una vez hallada la expresión de la varianza de los errores poblacional, que es
 2
igual a la varianza de los errores a nivel de la muestra, ya que  es el mejor estimador
insesgado del verdadero σ2, se procede a reemplazar (37) en las ecuaciones (29) y (30)
 
que corresponden a la varianza de  2 y  1 respectivamente.
2
 
Var (  2 )  2
 X i*

ui
2
 (n  2)
Var (  2 ) 
X i*2

ui
 2
Var (  2 )  (38)
(n  2)X i*2
Donde:

 u i = Sumatoria de Residuos al Cuadrado (SRC)
2
(n-2)=Grados de libertad23.
  2  X 2 
Var (  1 )    i 
 n  X *2 
 i 
  2  X 2 

  u i   (39)
Var (  1 )   i
 (n  2)  n  X i* 2 

 
23
En forma general, debe colocarse (n-k) g de l, siendo k el número de Betas del modelo. Como es
evidente, para el caso se supone la existencia de solo dos betas es decir, un modelo de regresión
multivariado simple.
55
Como ya se sabe, entre menor sea el valor de la varianza, menor será el valor de la
desviación estándar y por ende, el modelo econométrico se hará más confiable. De esta
manera, las ecuaciones (38) y (39) presentan algunas propiedades importantes a saber:
1. Entre mayor sea el tamaño de la muestra (n), ceteris paribus; menor será la
varianza y la desviación estándar.
 
 n  Var (  )  De(  )
2. Entre más grande sea la variación los valores que asume Xi con respecto a su
media, ceteris paribus, la varianza y por tanto la desviación estándar se hacen
más pequeñas.
 
 X i*2  Var (  )  De(  )
De suceder lo contrario, es decir que la diferencia entre los Xi y su media sea


muy pequeña, entonces será muy cercana a cero y por ende, la Var (  ) tendería
a infinito (de allí la importancia del supuesto 6.9 enunciado con anterioridad)

3. La Var (  ) tiene una relación directa con la suma de residuos al cuadrado, por
ende, entre más pequeños se hagan estos, más pequeña se hará la varianza y la
desviación estándar de los parámetros.
  
  u i  Var (  )  De(  )
2
Recordando el ejemplo propuesto sobre la regresión del PIB del Cauca como variable
explicada por la Producción Industrial, las varianzas de los betas se pueden calcular de
la siguiente forma24:
24
Los resultados que se presentan son obtenidos a partir de la información de los Cuadros 2 y 3
56
Como SRC = 3,08 E+12; n-2 = 43 grados de libertad y X i*2 = 1101465266830.

Var (  2 )  0,064977293

Var(  1 )  6233513899
Y de acuerdo con (34) y (35)


De(  2 )  0,254906

De(  1 )  78952,6
Finalmente, se podría establecer la relación entre los estimadores mínimo cuadráticos,

por medio de la siguiente formulación:
 
    

Cov(  1 ,  2 )  E (  1  E (  1 ))( 2  E (  2 ))
 
Por la propiedad de insesgadez del Teorema Gauss-Markov se tiene que:
 
  

Cov(  1 ,  2 )  E (  1   1 )( 2   2 )
 
Reemplazando (13) en el primer componente de la ecuación se obtiene:
 
  

Cov(  1 ,  2 )  E (Y   2 X  Y   2 X )( 2   2 )
 
 
  

Cov(  1 ,  2 )  E  X (  2   2 )( 2   2 )
 
  
Cov( 1 ,  2 )   X E ( 2   2 ) 2
  
Cov(  1 ,  2 )   XVar (  2 )
57
Así, el grado de relación entre los estimadores es igual al promedio de la variable

explicativa multiplicada por la varianza del (  2 ) . En nuestro ejemplo dicha relación es
igual a 17369,3 es decir una relación bastante fuerte, lo cual es evidente por la misma
forma como se calculan los parámetros bajo M.C.O
9. MEDIDA DE BONDAD DE AJUSTE (R2)
Hasta aquí, se ha esbozado los conceptos fundamentales del modelo de regresión

como el cálculo de sus parámetros, sus errores estándar y sus propiedades. Sin
embargo, el cálculo correcto de dichos parámetros no garantiza por sí solo que la
regresión muestral sea efectivamente la representación más certera de la nube de
puntos que se forma con los datos, de hecho, es difícil encontrar un caso en que la
FRM se ajuste de manera “perfecta” a los datos, ya que como se mencionó

2
anteriormente, existen errores en el cálculo de la regresión ( u i ), aunque se espera de
antemano que dichos residuos alrededor de la regresión sean lo más pequeños
posibles.
La Medida de Bondad de Ajuste (R2) es un indicador de la forma como se “ajusta” la

FRM al conjunto de datos, es decir, explica en qué medida las variaciones en Y son
explicadas por las variaciones en X25. Para entender formalmente esta idea debemos
estudiar algunas definiciones.
25 2
Cada regresión tiene un R . El analizado ahora corresponde a la regresión donde Y es la variable
2
dependiente y X la explicativa (también expresado como R YX). Sin embargo, se puede plantear una
modelación diferente, donde la variable explicativa pase a ser dependiente y viceversa, y calcular su
2 2
respectivo R XY. La pendiente de esta última regresión servirá para una posterior demostración del R YX
58
FRM

2
SRC   (Yi  Y i )
2
 (Yi  Y )  STC

2
SEC   (Y i  Y )
Y
X
Gráfico 11: Bondad de ajuste – STC, SRC, SEC.
Como se observa en el Gráfico 11, la distancia entre un dato Yi y su media Y se puede


descomponer en dos partes: una explicada por la distancia entre Y y el valor de Yi
estimado por la FRM, y otra que viene dada por la distancia entre dicho valor estimado
y el Yi observado. Estas distancias (o desviaciones) al elevarse al cuadrado definen la
siguiente identidad:
STC  SEC  SRC (40)
Donde:
STC: Sumatoria Total de Cuadrados
SEC: Sumatoria Explicada de Cuadrados
SRC: Sumatoria de Residuales al Cuadrado
Su demostración es la siguiente:
Una forma de expresar la ecuación (18) que define la FRM en forma de desviación es
 
Yi*  Y i  U i
*
59
Introduciendo  y elevando al cuadrado se obtiene:
 
Yi*2  (Y i  U i ) 2
*
 *  
Yi*2  (Y *2i 2 Y i U i  U i )
2
 *  
Yi*2  Y *2i 2 Y i U i   U i
2
Por la propiedad 5.1.8, según la cual no hay relación entre los Yi y los errores, entonces
 
Yi*2  Y *2i  U i
2
(41)
Esta ecuación (41) puede descomponerse término a término, así:
Yi*2  (Y1  Y ) 2 (42)
El primer término definido por la ecuación (42) representa la STC, que como se
mencionó antes, muestra la variación total de los valores reales de Y con respecto a su
media.
 
Y *2i  (Y i  Y ) 2 (43)
Por otra parte, la ecuación (43) muestra la variación de los valores estimados de Y con
respecto a su media, expresión definida en la literatura econométrica como SEC.
 
 U i  (Yi  Y i ) 2 (44)
2
Por ultimo, la ecuación (44) indica la SRC, es decir la variación residual de los valores
de Y alrededor de la regresión.
60
En este orden de consideraciones, la medida de bondad y ajuste R2 muestra cuál es el
peso de la SEC sobre la STC, que como es de esperarse, debe ser alto para reducir el
porcentaje de los errores sobre la STC. Si obtenemos un R2 elevado al efectuar la
regresión, en primera instancia se estaría garantizando que el modelo estimado tiene un
buen ajuste, lo que es equivalente a decir que la(s) variable(s) exógena(s) explica(n)
bastante bien la variabilidad de Yi y que la influencia de los errores es mínima (siendo
este el objetivo del método MCO)
Ilustremos esta última idea con una herramienta gráfica conocida como Diagrama de
Venn, donde una mayor intersección entre cada círculo indica un mayor R2
Y X
YX 0
R2  0
En este caso, asumiendo que un círculo representa la variación en Y y el otro la

variación en X, al no existir ningún grado de intersección entre ellos se tiene que R 2  0
por lo tanto se puede afirmar que las variaciones en Y no son explicadas por las
respectivas variaciones en X sino más bien, explicadas por los errores (es decir, por las
variables omitidas en el modelo)
Si tenemos que:
Y X
YX 0
R2  0
61
El grado de intersección es parcial, las variaciones en Y son explicadas en su mayoría
por las variaciones en X, y por ende los errores tienen poco peso dentro de la
explicación de la regresión.
Finalmente si,
Y=X
YX 
R2  1
El grado de “ajuste” sería perfecto, por lo tanto el 100% de las variaciones en Y son
explicadas por X, siendo nulo el peso de los errores.
Así en términos generales, la medida de bondad y ajuste se encontrará entre 0 y 1.
0  R2  1 (45)
Este resultado era de esperarse, ya que como se mencionó antes el R2 es un indicador

de la participación (porcentaje) de la SEC sobre la STC, y como tal sus valores deben
estar entre dicho rango26.
9.1 Fórmulas para el R2
9.1.1 Como se planteó antes, el R2 se puede expresar como porcentaje así:
SEC
R2  (46)
STC
26 2
No obstante existe un caso especial en donde el R puede dar negativo que se analizará más adelante.
62
9.1.2 Tomando ahora la ecuación (40) y dividiendo cada término por STC se tiene:
STC SEC SRC

 
STC STC STC
SEC SRC
1 
STC STC
Reemplazando (46)
SRC
1  R2 
STC
Por lo tanto
SRC
R2  1 (47)
STC
Si R 2  0 entonces SEC  0 y SRC  STC . Dicha condición implica que toda la

variabilidad de Yi depende de la variabilidad de los errores y no de las variables
explicativas. Habría un evidente sesgo de especificación y el modelo econométrico
planteado no sería de utilidad.
Si R 2  1 entonces SRC=0 dado que SEC  STC . Este es un caso extremo donde la
FRM sería la misma FRP. Si se obtuviera un modelo con este comportamiento no sería
de tipo econométrico, sino una simple identidad matemática.
Si 0  R 2  1 entonces SEC  STC y SRC  0 . Es el caso más común ya que el R2 no

toma sus valores extremos. En esta situación si bien la FRM  FRP y la sumatoria de
errores al cuadrado no es nula, se espera que sea cercana a dicho valor.
63
9.1.3 Reemplazando en el numerador y denominador (46) las ecuaciones (43) y (42)
respectivamente tenemos que:
 
Y *2i (  2 X i* ) 2
R  2

Y *2i Y *2i
 2  X *2 
R 2   2  i
*2 
 (48)
 Y i 
Al dividir (48) por el tamaño de la muestra (n-1):

 ( X i  X ) 2 
 
 2  Var ( X ) 
 2
 (n  1) 
R   2
2
 R 2   2   (49)
 (Yi  Y )  Var (Y ) 
2

 (n  1) 
 

9.1.4 Si tomamos la ecuación (16) para reemplazar el valor de  2 en (48) obtenemos:
2
 ( Yi* X i* )   X i*2  (Y i*X i* ) 2
R  2
*2 
*  
 R2  (50)
  X i   Y i
*2
 X i*2 Y *2i
9.1.5 Reescribiendo la ecuación (50), dividiendo numerador y denominador entre (n-1)

se llega a que:
R2 
Cov(Y , X )2 Pero ya que según la ecuación (16.a)  2 
 Cov(Y , X )
Var ( x)Var (Y ) Var ( X )
  Cov (Y , X ) 
R2   2   (51) 27
 Var (Y ) 
La covarianza se calcula dividiendo Y iX i entre (n-1)

27 * *
64
9.1.6 El R2 se puede expresar de forma alternativa como sigue:
 
R   2YX *  2 XY (52)
2
Donde:
 
 2YX = Pendiente de la regresión de Y sobre X (antes solo denominada como  2 )

 2 XY = Pendiente de la regresión de X sobre Y (Ver explicación pie de pág. 24)

Para demostrar (52) en primer lugar se debe hallar la expresión de  2 XY . Siguiendo el
mismo procedimiento empleado en el numeral 5 para calcular los parámetros del

modelo de regresión simple por MCO, se puede demostrar que la pendiente o  2 de la

regresión de X sobre Y (  2 XY ) es igual a:
  X i Yi  X  Yi
 2 XY  Como se puede observar, sigue una estructura similar a (15)
 X i2  Y  Yi
Transformando ahora el numerador y denominador de la ecuación anterior, tal como se

hizo con (15) se obtiene:
 (Yi  Y )( X i  X )  Yi* X i*
 2 XY   (53)
(Yi  Y ) 2  Yi
*2
Así una vez hallada (53) se procede reemplazarla en (52)

 (Yi  Y )( X i  X )
 2YX *  R2
(Yi  Y ) 2
65
Sin introducir cambios a la igualdad anterior, se puede multiplicar a lado y lado por
( X i  X ) 2
de la siguiente forma:
( X i  X ) 2
 (Yi  Y )( X i  X ) ( X i  X ) 2 ( X i  X ) 2
 2YX * * R *
2
(Yi  Y ) 2 ( X i  X ) 2 ( X i  X ) 2
Recordando (16), la expresión anterior se puede simplificar así:
  ( X i  X ) 2
 2YX *  2YX *  R2
(Yi  Y ) 2
Lo cual es equivalente a:
2
  Var ( X )
  2YX  *  R2
  Var (Y )
Como este resultado es igual a (49) se demuestra que (52) es una formulación correcta
para calcular el R2
9.2 Propiedades de R 2
1) Es una cantidad positiva, ya que es un cociente de varianzas y éstas son

siempre positivas.
2) 0  R 2  1 porque indica qué proporción de la STC es explicada por la SEC.
Si R 2  0 no existe ningún tipo de relación entre la variable dependiente y la

variable explicativa, así entonces la recta de regresión será horizontal al eje X.
Si R 2  1 el ajuste es “perfecto”, caso que no se da.
66
9.3 Coeficiente de Correlación Lineal (r)
El Coeficiente de Correlación Lineal ( r ) muestra el grado de asociación lineal entre dos

variables, sin mostrar bajo ningún punto de vista, causalidad entre las mismas.
r   R 2 (54)
(Y i*X i* ) 2
R2  
X i*2 Y *2i
Y i*X i*
r
X i*2 Y *2i
Y i*X i* (Y *iY )( X i*  X )

r n  n
X Y*2
i
*2
i X *2
i Y *2
i
n *
n n
Cov ( X , Y ) Cov ( X , Y )
r 
X i*2 Y *2i Var ( X ) * Var (Y )
*
n n
Cov( X , Y )
r (55)
 XY
9.3.1 Propiedades del Coeficiente de Correlación Lineal ( r )
a) Puede ser positivo o negativo, dependiendo del signo de la Cov (X,Y) ya que
siempre  X  Y > 0
b) 1  r  1
67
Cuando:
r  1 Existe una relación lineal perfecta e inversa.
r  1 Las variables se relacionan perfectamente y de manera directa, la fuerza de
asociación es 
r 0 No existe ninguna relación lineal entre las variables.
c) El r es simétrico, es decir que puede interpretarse de Y a X o de X a Y.

d) Al estar normalizado por la desviación estándar, el r es independiente de la escala
de medición.
e) Si X e Y son estadísticamente independientes, es decir cuando R2  0

necesariamente r  0 . Sin embargo cuando se da un caso como el representado en
el Gráfico 12, si bien r  0 indicando que X e Y no están correlacionados
linealmente, nada garantiza que R  0 ya que existe alguna variabilidad de Y que

2
es explicada en algún porcentaje por la variabilidad de X.
X
2
Gráfico 12: Relación no lineal entre X e Y con R > 0
f) No existe relación de causalidad entre X e Y. Las relaciones de causalidad solo

pueden ser observadas con R 2 .
68
R 2 es una medida mucho más importante que r ya que nos muestra la proporción de
la variación en Y explicada por la(s) variable(s) exógena(s) es decir que constituye una
medida global del grado en que la variación en una variable determina la variación en la
otra.
Para mayor claridad, aplicaremos estas definiciones al ejemplo del PIB del Cauca
tomado como base a lo largo del texto.
Comprobamos que STC= SEC + SRC (40) así:
 
Yi *2 Y *2i U i
2
1960 9,74828E+11 5,02426E+11 77569823999

1961 8,69219E+11 4,67793E+11 61685289220
1962 8,69571E+11 5,12618E+11 46887264002
1963 8,98609E+11 6,14278E+11 26958571606
1964 7,74393E+11 5,72821E+11 15165195015
1965 8,55537E+11 5,18978E+11 41841031858
1966 7,64948E+11 4,41158E+11 44274760099
1967 6,61716E+11 3,58964E+11 45934344734
1968 6,96267E+11 3,45621E+11 60777423672
1969 6,86295E+11 2,90721E+11 83662049985
1970 6,58187E+11 3,01845E+11 68582750641
1971 5,00411E+11 2,69806E+11 35332207756
1972 4,69049E+11 2,14576E+11 49127716014
1973 3,86965E+11 2,69806E+11 10534369650
1974 2,83438E+11 29111425575 130876579853
1975 2,26986E+11 25619555704 100089533442
1976 1,46826E+11 77005800949 11168146000
1977 1,38123E+11 2,13768E+11 8226768492
1978 77064151490 20909426300 17689900845
1979 1,29693E+11 1,26807E+11 16226988
1980 43301853415 85561626566 7126435307
1981 31942874575 76039268686 9414139884
1982 40053260187 1,75946E+11 48103695932
1983 35840209617 84495299683 10274994086
1984 1551893217 1,15574E+11 90340995140
1985 2146522544 99415890990 72346085823
1986 15032495952 1,22746E+11 223689738629
69
1987 11953653865 42532135117 99581882886
1988 64751845533 2426356555 92246992631
1989 65256415649 66307823689 4201280
1990 1,0378E+11 1,05389E+11 6188033
1991 1,77124E+11 94340154774 12930531825
1992 3,91984E+11 49375214406 163119570209
1993 5,78556E+11 30700286421 342709349338
1994 3,11579E+11 1,27619E+11 40382837321
1995 4,84871E+11 1,62618E+11 85888593318
1996 4,7727E+11 2,56082E+11 34151848906
1997 5,55453E+11 1,96648E+11 91105525302
1998 7,1276E+11 2,27223E+11 135108696616
1999 9,00994E+11 4,69669E+11 69634205505
2000 1,41563E+12 1,9798E+12 47198430998
2001 1,807E+12 1,57245E+12 8148774651
2002 2,5284E+12 2,71569E+12 3345503817
2003 2,73208E+12 3,71157E+12 74880879446
2004 3,65667E+12 6,39172E+12 379385576815
SUMA 2,821410E+13 2,513658E+13 3,077525E+13
STC SEC SRC
Cuadro 4: Cálculo de STC, SEC y SRC
Las columnas del cuadro 4 se calcularon para cada año por medio de las ecuaciones
(42), (43) y (44) respectivamente, y el lector(a) puede comprobar que la suma de la
SEC y la SEC es igual a la STC.
Partiendo de estos resultados se puede calcular el R2 en sus diferentes expresiones:
SEC 2,513658E + 13
R2    0,8909
STC 2,821410E + 13
SRC 3,077525E + 13
R2  1  1  0,8909
STC 2,821410E + 13
70
Teniendo en cuenta la información del Cuadro 2 se puede calcular:
 2  Var ( X ) 
 2,5033E  11 
R 2   2    4,777 2    0,8909
 Var (Y )   6,4123E  11 
(Y i*X i* ) 2 (5,26185E  12) 2

R  2
  0,8909
X i*2 Y *2i (1,10146E  13)(2,82141E  13)
  Cov (Y , X ) 
 1,19587E  11 
R 2   2    4,777   0,8909
 Var (Y )   6,2698E  11 
Finalmente, a través de un paquete econométrico28 se puede estimar la regresión de


PIND por PIBC y obtener que  2 XY  0,186497 , por lo tanto:
R2  4,777 * 0,186497  0,8909
Con estas aplicaciones se muestra la igualdad entre las diferentes expresiones del R 2.
Para este caso concreto se tiene que aproximadamente 89,1% de la variabilidad del PIB
del Cauca (Variable dependiente) es explicada por la variabilidad del Valor Agregado
Industrial en el Departamento (variable explicativa) en el periodo de análisis.
Ahora, procedemos a calcular e interpretar el coeficiente r como sigue:
r   R 2   0,8909  0,9438 O de forma equivalente:
1,19587E  11
r  0,9438
158219,16 * 800768,11
Es decir, el grado de asociación lineal entre las variables PIBC y PIND es de 94,38%
28
Eviews 5.0 Quantitative Micro Software © 1994-2004
71
10. MODELO DE REGRESIÓN LINEAL CLÁSICO NORMAL (MRLC)
Hasta el momento solo se ha estudiado el tema de la estimación de los parámetros, sus

propiedades y medidas de bondad y ajuste. Sin embargo ello solo representa una
primera parte de la fundamentación econométrica, ya que se requiere efectuar algunas
pruebas de hipótesis para poder así realizar inferencias a cerca de la FRP.
Para ello se debe partir del supuesto de normalidad en la distribución de los errores.
a) Si los errores ε i se distribuye normalmente, tenemos que:
E (ε i )  0
E (ε i ) 2   2
E (ε i ε j )  0
Por lo anterior se les conoce como perturbaciones esféricas.
b) ε i es una variable ruido blanco
ε i ~ N (0,  2 )
c) Los ε i están normal e independientemente distribuidos
ε i ~ NIN (0,  2 )
d) Como ε i se distribuye normalmente29 entonces estas propiedades son heredadas
a Yi , por ende los parámetros al estar en función de esta última también se
encuentran distribuidos normalmente.
29
Una distribución normal por el Teorema del Limite Central se garantiza con muestras de n  30
72
  
10.1) PROPIEDADES ESTADÍSTICAS DE  1 ,  2 ,  2
1) Son insesgados:

E (  1 )  1

E ( 2 )   2

E ( 2 )   2
2) Tienen varianza mínima, es decir que el grado de dispersión es mínimo, frente a

la varianza de otro estimador. Es decir, son eficientes.

3) De acuerdo con Cramér-Rao los  k son MEI.
4) Son consistentes, ya que a medida que aumenta el número de la muestra

disminuye la varianza, haciendo que disminuya también la desviación estándar;
en otras palabras, en el límite los parámetros muestrales se acercan a los
parámetros poblacionales.

5)  1 esta normalmente distribuido.

E (  1 )  1
 X i2   2

 

  1 ~ N   1, 2 
Var (  1 )   2      1 
 n  X *2   i
 i 

 
Normalizando Z  1 1
 
1

 1 ~ N (0,1)
73

6)  2 se distribuye normalmente.

E ( 2 )   2

 

 2  2 ~ N   2,  2 
Var (  2 )  2
  2
 2 
 X i* 2

  2
Normalizando Z  2
 
2

 2 ~ N (0,1)
7) La varianza de los términos aleatorios de error siguen una distribución Chi-

cuadrado30

(n  2) 2
~ 2
 2
  
8)  1 ,  2 son independientes de  2 En otros términos:
 
Cov(  1 , 2 )  0
 
Cov(  2 ,  2 )  0
9) La varianza de los Yi es igual a la varianza de los términos aleatorios de error,
como se demuestra a continuación:
30
La distribución Chi cuadrado (de Pearson) denotada 2 N g. de l. parte de la suma de los cuadrados
de N variables aleatorias distribuidas independientemente en forma normal N ~ (0,1) y es utilizada como
prueba de independencia, de bondad de ajuste y, como se empleará más adelante, para probar hipótesis
relacionadas con varianzas de variables aleatorias.
74
Var (Yi )  E Yi  E (Yi )
2
 

Var (Yi )  E Yi  Y i 
 

Var (Yi )  E (U i ) 2

Var (Yi )   2 (56)
11. INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPOTESIS
A partir de las ecuaciones (13) y (15) pueden estimarse de manera puntual los
parámetros de la regresión, sin embargo, debe comprobarse su significancia estadística
para inferir sobre la relación entre la variable endógena y la dependiente. Una manera
de efectuarlo es a través de Intervalos de confianza y pruebas de hipótesis.
11.1 Intervalos de confianza: Su estructura es la siguiente:
 
IC : (  k     k     k )  1   (57)
  0;  0
Donde:
31
  Nivel de significancia
1   = Límite de confianza

 k   = Límite inferior

 k   = Limite superior
31
Se define así a la máxima probabilidad de cometer el Error de tipo I o también denominado Error tipo
Alfa, es decir, de rechazar una hipótesis nula (H 0) siendo esta verdadera (en la población). Su
complemento se denomina límite de confianza, e indica la probabilidad que el verdadero valor del
parámetro poblacional se sitúe en el intervalo de confianza obtenido.
75
Propiedades
 Dado que cada  k es aleatorio, el intervalo de confianza también lo es, y
existirán tantos intervalos de confianza como  k se consideren.
 En muestreo repetido los  k son de largo plazo.
 Una vez que es estimado el intervalo, éste deja de ser aleatorio.
11. 1.1 Intervalo de confianza para  2
El estadístico de prueba para  2 es una t-Student (t) 32

 
t  2 2 (57)
 
2
 
IC :  t 2  t  t 2  1  
 

  2  2 
IC :   t 2   t 2   1  
  
 2 
 

IC :   t 2    2   2  t 2    1  
  2  2 
  

IC :    2 (t 2  )   2  (t  2  )   2   1  
 2 2 
 

Multiplicando por (-1) IC :   2 (t 2  )   2   2 (t 2  )   1  
 2 2 
 

Reordenando IC :   2 (t 2  )   2   2 (t 2  )   1   (58)
 2 2 
32
Recuerde que trabajamos con la varianza muestral como un estimador muy cercano a la varianza
poblacional, en tanto que la población se desconoce o no es susceptible de medición en su totalidad. De
allí el uso de una distribución t-Student para un tamaño de muestra pequeño, que al incrementarse hace
converger la distribución t a la Normal.
76
11. 1.2 Intervalo de confianza para  1
El estadístico de prueba para  1 también es un t-student (t)

 
t  1 1 (59)
 
1
Siguiendo el mismo procedimiento que para  2
 

IC :   1 (t 2  )   1   1 (t 2  )   1   (60)
 1 1 
A manera de ejemplo, se calcularán los intervalos de confianza para los βk de la

regresión del PIB del Cauca y la producción Industrial, así:
Intervalo para β2

Reemplazando en (58) el valor de  2 y su desviación estándar antes calculados, y
considerando un estadístico tc α /2= 2,021 para 43 grados de libertad y un   0,05 se
tiene:
 
IC :  317673,3   1  636799,7  : 1  
 
De esta forma se puede afirmar que, en muestreo aleatorio repetido, es decir en el largo
plazo, 95 de 100 intervalos como el construido contienen el verdadero β1 poblacional.
Intervalo para β1

De forma análoga, reemplazando el valor de  1 y su desviación estándar, y trabajando
con el mismo tc y  se tiene:
77
 
IC :  4,26   1  5,29  : 1   Su interpretación es similar a la del intervalo para β2
 
11. 1.3 Intervalo de confianza para  2
La  sigue una distribución Chi-cuadrado:

2

(n  2) 2
 
2
(61)
2
 
IC :  2  2   2   21 2  1  
 

 2 (n  2) 2 
IC :   2    1 2   1  
2

  2

 

  2
2
1  21 2 
IC :     1
 (n  2) 2  2 (n  2) 2 
 
  

 (n  2) (n  2) 2 
2
IC :   
2
 1   (62)
  2 2  21 2 
 
En el ejemplo que se ha venido trabajando:
Intervalo para la varianza de los errores
Chi α/2 con 43 g. de l 59,34 Asumiendo   0,05

Chi (1-α/2) con 43 g. de l 24,43

Y teniendo en cuenta que (n  2) 2  SRC (ver resultado cuadro 4)

IC : 5,18625E  11   2  1,25973E  11  1   
78
En muestreo aleatorio repetido, es decir en el largo plazo, 95 de 100 intervalos como el
construido contienen la verdadera σ2 de los errores.
11.2 Pruebas de hipótesis
Las pruebas de hipótesis permiten comprobar si el valor de un parámetro previamente

especificado corresponde o no con la hipótesis planteada, es decir, se busca comprobar
la “compatibilidad” de los parámetros muestrales con las hipótesis planteadas sobre los
valores poblacionales. Las pruebas de hipótesis pueden realizar a partir de dos
métodos: intervalos de confianza y pruebas de significancia.
A) INTERVALOS DE CONFIANZA33
Primero: Deben establecerse las hipótesis: nula y alterna. La prueba será de dos
colas para el caso en que la hipótesis alterna se planteé 1  0 , de cola derecha si
1  0 y de cola izquierda cuando 1  0 34
Ho :  1  0
H 1 : 1  0
Segundo: Una vez planteadas las hipótesis, se consideran las ecuaciones de los
intervalos de confianza dadas anteriormente. Para este caso en particular
tomaremos la ecuación (60).
33
La generalización de la prueba de hipótesis a través de intervalo de confianza se realizará con fines
prácticos empleando la notación para  1 , y el lector(a) puede realizarla de manera similar para  2 y para
2
34
H1 se debe plantear atendiendo a un criterio teórico o a la evidencia empírica suministrada por trabajos
precedentes. Para esta notación se asumió la posibilidad de un intercepto mayor o menor a cero.
79
 

IC :   1 (t 2  )   1  (t 2  )   1   1  
  1  1 
Tercero: Ya calculado el intervalo de confianza, debe concluirse si hay o no

suficiente evidencia para rechazar la hipótesis nula.
Cuando se rechaza H 0 , es decir cuando el cero no se encuentra dentro del intervalo
de confianza, el estimador es estadísticamente significativo para el modelo,

mientras cuando el cero se incluye en el intervalo, o sea cuando no se rechaza H 0 ,
el estimador NO es estadísticamente significativo35.
De acuerdo con lo anterior, tanto el intercepto como la pendiente del modelo de

regresión del PIB del Cauca son significativos estadísticamente como lo muestran
sus intervalos de confianza calculados arriba, es decir, se pueden aceptar como
una buena aproximación a los valores poblacionales. Como se verá a continuación
la significancia así comprobada se puede corroborar con las pruebas para los
parámetros de forma individual y conjunta.
B) PRUEBAS DE SIGNIFICANCIA
Generalmente las pruebas de hipótesis se hacen a partir de las pruebas de

significancia y no de intervalos de confianza, ya que estas pruebas utilizan los
resultados obtenidos por la muestra para verificar la veracidad o falsedad de una
hipótesis nula.
35
Como es evidente siempre será deseable rechazar la hipótesis nula asociada a la no significancia
estadística de un parámetro. Sin embargo, hay pruebas cuyo planteamiento hace deseable que H o se
acepte, como sucede con la prueba para la normalidad de los errores, expuesta más adelante.
80
PRUEBAS DE SIGNIFICANCIA INDIVIDUAL PARA LOS PARAMETROS
1. LA PRUEBA t
Primero: Al igual que con los intervalos deben establecerse las hipótesis.
Ho :  1  0
H 1 : 1  0 36
Segundo: Se calcula el estadístico de prueba a partir de la ecuación (59) para este

caso.

 
tc  1 1
 
1
Tercero: Se obtiene un t de tabla37

t t ~ t 2;( n k ) gl
Cuarto: Regla de decisión
Hipótesis alterna Se rechaza Ho si
1  0 tc  tt
1  0 tc  tt
1  0 t c  t t
36
Nuevamente es necesario recalcar que la hipótesis alterna se formulará bajo criterios objetivos
derivados de la teoría económica o de resultados empíricos. Para ser más claros, si se estima
econométricamente un modelo como la curva de demanda en su versión más simple, por ejemplo, la
pendiente del modelo asociada a la variable Precio del bien o servicio, tendría que tomar el un valor
negativo ya que existe una relación inversa entre cantidades demandas y su propio precio. Por lo tanto se
tendría que efectuar una prueba de cola izquierda.
37
Al tratarse de una prueba de dos colas se trabaja con α/2, cuando es de 1 cola se toma α
81
Considerando los parámetros del modelo de regresión del PIB del Cauca tenemos:
Prueba para β1
1) Ho: β1 = 0
H1: β1 > 0
Es una prueba de cola derecha porque el PIB es una variable económica real
positiva así el valor agregado de un sector específico (en este caso el industrial) sea
nulo.
2) Considerando (59) se tiene que tc = 6,044594

3) tt ~ t α%, (n-k) g. de l → tt ~ t 0,05, (45-2) g. de l = 2,021
4) tc > tt Rechazamos Ho. β1 es estadísticamente significativo
Prueba para β2
1) Ho: β2 = 0
H1: β2 > 0 Se plantea una prueba de cola derecha por que el PIB es una función
creciente de la oferta (demanda) de cada sector de la economía.
2) Considerando (57) se tiene que tc = 18,74075

3) tt ~ t α%, (n-k) g. de l → tt ~ t 0,05, (45-2) g. de l = 2,021
4) tc> tt Rechazamos Ho. β2 es estadísticamente significativo
Las pruebas de significancia confirman la inferencia hecha a través de los intervalos de

confianza, y se aplican con mayor frecuencia. De su dinámica se ha podido establecer
una regla práctica, expuesta a continuación.
82
11.3 REGLA 2t
Un criterio de decisión muy práctico para determinar la significancia estadística de un

parámetro viene dado por la regla 2t, según la cual si t c  2 y adicionalmente n  k  20
grados de libertad (recordando que n es el tamaño de muestra y k el número de

parámetros del modelo) a un nivel de significancia del 5% el estimador analizado es
estadísticamente significativo.
Volviendo al ejemplo anterior, como ambos tc son mayores que 2 en valor absoluto

(6,044594 y 18,74075 respectivamente) y los grados de libertad son 43, tanto  1 como

 2 son significativos estadísticamente.
11.4 PRUEBA DE SIGNIFICANCIA PARA  2
Primero: Al igual que con los intervalos de confianza deben establecerse las hipótesis.
H 0 : 2  m donde m > 0
H1 :  m2
Segundo: Se calcula el estadístico de prueba a partir de la ecuación (56) para este

caso.
 
(n  2) 2 (n  2) 2
 c2  
2 m
Tercero: Se obtiene un Chi-Cuadrado de tabla
 2t ~  2 (1 
2 ) 2;( n k ) gl
83
Cuarto: Regla de decisión.
Si la prueba es de cola derecha, rechazar Ho si  2c   2  ;( n  k ) gl
Si la prueba es de cola izquierda, rechazar Ho si  2c   2 1 ;( n  k ) gl
Si la prueba es de dos colas, rechazar Ho si
 2c   2 1 ;( n  k ) gl o  2c   2  ;( n  k ) gl
Aplicando la prueba al ejemplo trabajado:
Prueba para la varianza de los errores
1) Ho: σ2 = 1 Suponiendo que los errores sean una variable Ruido Blanco (0,1)
H1: σ2 ≠ 1

(n  2) 2
2)  
2
 3077525627568
2
c
3) Trabajando con   0,05
 2t ~  2 (0,975);( 43) gl  24,4331

 2t ~  2 (0,05);( 43) gl  55,7585
4) Se rechaza Ho porque  2c   2  ;( n  k ) gl Los errores no tienen una varianza unitaria.
11.5 Formulación de hipótesis y selección de 
Como debe estar claro a esta instancia, la significancia estadística de un parámetro

depende de la probabilidad de cometer el “error tipo I” que se adopte a priori en el
estudio. Generalmente este  asume los valores de 1%, 5% ó 10%, pero cualquier
otro valor sería igualmente apropiado.
Para tener mayor claridad sobre el valor asignado a  se utiliza el valor P o P-value.
84
11.5.1 P- value o valor P
Es un valor ex - post que indica la verdadera probabilidad de cometer el error tipo I. Así,
siendo t c el estadístico de prueba, entonces el verdadero valor de  vendrá dada por la
probabilidad de encontrar un valor mayor o igual al estadístico de prueba calculado.
Tomando un tc = 6,044594 (estadístico para β1) el p valor sería Pr (t > 6,044594) = 0,00,
es decir que la probabilidad de equivocarnos rechazando la hipótesis nula es cero en el
límite. Como se muestra en el siguiente gráfico, para 40 grados de libertad (valores de
tabla) Pr (t > 2,021) = 0,05 por lo tanto la probabilidad de un encontrar un t como 6,0445
es casi cero en el límite.
0,05
2,021
Gráfico 13: Distribución t y p-valor
12. ANALISIS DE VARIANZA: LA TABLA ANOVA
La Tabla ANOVA realiza una descomposición de las varianzas de las observaciones

permitiendo su análisis junto con sus grados de libertad. Si tomamos las ecuaciones
(42), (43) y (44) sabemos que:
85
STC  Yi*2

SEC  Y *2i

SRC   U i
2
Recordando que STC = SEC + SRC, la tabla ANOVA hace lo propio con sus grados de
libertad, donde (k-1)+(n-k) = n-1
SUMA DE GRADOS DE SUMA PONDERADA DE

VARIACIÓN
CUADRADOS LIBERTAD CUADRADOS

 
 22 X i*2
Y i   X
*2
SEC 2
2
*2
i
k-1
k 1

U i  2

SRC U i
2 n-k  2
nk

 22 X i*2
  Fc  k 1
STC  22 X i*2   U i 2 n-1 
U 2
nk
La última casilla de la Tabla Anova servirá para realizar la prueba F que determina la
significancia conjunta de los estimadores de un modelo.
12.1 Prueba de Asociación Global del modelo o Prueba F
Intenta mostrar si en conjunto las variables explicativas del modelo son

estadísticamente significativas en su conjunto. Sus pasos son los siguientes:
86
Primero: se plantean las hipótesis
Ho :  1   2  ...   k  0
H 1 : Al menos un  k  0
Segundo: se calcula el F estadístico38 correspondiente a la última casilla de la tabla

ANOVA

 22 X i*2
Fc  k 1

U 2
nk
Ft ~ F((nkk1),) 5%
Tercero: se obtiene un F de tabla
Cuarto: Regla de decisión. Si Fc  Ft  RH 0 (39)
38
Recordando que F es un cociente de varianzas
39
La prueba F y la prueba t son sustitutas para modelos de regresión simple
87
13. PREDICCIÓN PUNTUAL Y MEDIA
PREDICCIÓN MEDIA
 
Yi es un estimador de E(Yi /X i ) , si suponemos que X i  X 0 entonces E(Yi /X i  X 0 )  Y i ,
esta es una predicción media ya que parte del valor esperada; así entonces:
    2
 1 (X  X )
Yi ~ N 1   2 X i ;     0 *2   (58)
 2
 X i  

Yi
n 
   

IC :  Y i (t 2 )(de(Y i )) Y i  (de(Y i ))(t 2 ) Y i   1   (59)
 
PREDICCIÓN PUNTUAL
 
Si Yip  Yi puntual entonces:
2
 1 (X  X )
Var (Yip )    0 *2  (60)
n X i 
PRUEBA JARQUE-BERA
Sirve para corroborar la distribución de los errores
H 0 Los errores provienen de una distribución normal

H1 Los errores NO provienen de una distribución normal
 A 2 (k  3) 2 
JBc  n   
 6 24 
JBt ~ X 22gl;
JBc  JBt  RH 0
A diferencia de las pruebas anteriores, en la Jarque – Bera se busca aceptar H 0
88
14. REGRESIÓN A TRAVÉS DEL ORIGEN
La regresión a trabes del origen se caracteriza por la ausencia de  1 en la regresión.
Y i   2 X i   i (61)
Si tomamos (8):

Min (Yi  Y i ) 2

Min (Yi   2 X i ) 2
2
 ui 

 2 (Yi   2 X i )( X i )  0
2
2
 ui 

 2  X i (Yi   2 X i )  0
2

 X i (Yi   2 X i )  0

 X i Yi   2  X i2  0
  X i Yi
2  (62)
 X i2

ui
2
 (n  1)
Var (  2 ) 
X i2

  2
Var (  2 )  (63)
X i2
(Y iX i ) 2
RS2  (64)
X i2 Y 2i
Donde:
89
2
RS2 = R simple: Se pueden generar valores negativos, ya que las sumas de los
cuadrados no están ajustadas por la media, así que no hay garantía de que STC>SRC.
 2
De hecho, SRC>STC si: (  2 X i ) 2  Y 2i haciendo que R S genere valores negativos.
15. ALGUNOS MODELOS ECONOMETRICOS
Los modelos estudiados hasta el momento, cumplen con los supuestos del modelo
MCO, sin embargo, en la economía la mayoría de modelos utilizados no cumplen con
algunos de esos supuestos, como por ejemplo la linealidad en los parámetros. Estos
casos se estudiaran a continuación.
MODELO LOG-LOG
Los modelos log-log se caracterizan por mostrar el cambio relativo en Y cuando cambia
relativamente X.
Q  1 P  2 eUt (65)
ln Qt  ln 1   2 ln Pt   t
Una vez que la función se ha linealizado (ln), puede aplicarse MCO para su estimación.
No obstante, esta claro que los parámetros al mostrar cambios relativos deben

interpretarse como elasticidades (a excepción de  1 ).
ln Qt 
  2   PX (66)
ln Pt
Q f  Qi
%Qt Qi
 PX  
% Pt Pf  Pi
Pi
90
Qi
Q Q P Q P
 PX  i  *  *
Pi P Q Q P
Pi
Q P  ln Q
 PX  * 
Q P  ln P
En síntesis, en los modelos log-log se miden cambios relativos a partir de variaciones

porcentuales (elasticidades).
MODELO LOG-LIN
Frecuentemente en la literatura económica se encuentran este tipo de modelos ya que

los coeficientes deben interpretarse como tasas de crecimiento.
Yt  Y0 (1  r ) t (67)
ln Yt  ln Y0 (1  r ) t
ln Yt  ln Y0  t ln(1  r )
 
 1  lnY 0  2  ln(1  r )
ln Yt  1   2 t  U t

 2 esta dado por:
  ln Yt
2 
t
Yt
 Yt
2 
t
 Y Y
2  t t
t
 (Yt 1  Yt ) Yt
2  (68)
t 1  t
91

Un  2 definido como en (65) es una tasa de crecimiento, ya que este parámetro
representa el monto porcentual en que se incrementa Yt cuando se pasa de un año a
otro, en los modelos log-lin, t representa los cambios absolutos y NO relativos.
MODELO LIN-LOG
Mide las modificaciones absolutas de Yt cuando se modifica en términos relativos X. En
estos casos, el logaritmo natural acompaña a la variable explicativa.
Yt  1   2 ln X t   t (69)
 Yt Yt
2  
 ln X t Yt
Yt
  X 
Yt   2  t
 (70)
 Xt 
MODELOS RECIPROCOS
Este tipo de modelo se usan cuando se sabe por teoría o experiencia que la relación
entre las variables es inversa (m<0), muestran la relación inversa entre Yt y X.
 1 
Yt  1   2     t (71)
 Xt 
92

Parte I Econometria

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Parte I Econometria

Uploaded by

Copyright:

Available Formats

NOTAS DE CLASE ECONOMETRIA I

Economista. Andrés Mauricio Gómez Sánchez

Economista. Luisa María Santander – Monitor Fabián E. Salazar

TEMA 1: ANALISIS DE REGRESIÓN SIMPLE (MRLS)

A continuación se explicarán algunos conceptos básicos necesarios para exponer el

1.1 Diferentes tipos de modelos

El estudio de la Econometría se realiza en términos generales, con base en dos tipos de

Un ejemplo de modelo econométrico multivariado es el siguiente:

La variable ε t conocida como término aleatorio de error o perturbación estocástica,

Debe tenerse en cuenta que aún si se incluyeran de manera explícita en el modelo

econométrico del modelo matemático.

De otro lado, un ejemplo de modelo econométrico univariado es el siguiente:

A su vez, los anteriores modelos pueden ser uniecuacionales o multiecuacionales.

Ahora bien, dentro de los modelos multivariados como se observó anteriormente, se

De otro lado, si la variable Y está en función de un conjunto de variables explicativas, el

En este orden de consideraciones, en términos generales, se tiene entonces que:

Y  f X ,  t  Modelo Multivariado Simple

Y  f  X 1 , X 2 , X 3 ..... X n ,  t  Modelo Multivariado Múltiple

Las relaciones que se acaban de mostrar provienen de la teoría económica, pero en la

En términos generales, la información (que puede ser obtenida a través de fuentes

a. Información de Corte Transversal: Es aquella que es extraída de un punto en

b. Información de Series de Tiempo: Es aquella que es extraída en diversos

2. FUNCIÓN DE REGRESIÓN POBLACIONAL (FRP)

Donde β1 es el intercepto poblacional y β2 la pendiente poblacional; estos a su vez son

Gráfico 1: Función de Regresión Poblacional

Gráficamente se puede considerar el ejemplo anterior suponiendo que4:

En términos estadísticos, la función de regresión poblacional permite obtener el valor

1 1 1 1 1

Como se mencionó antes,  i se denomina perturbación estocástica o término de error

estocástico, y formalmente es denotada de la siguiente forma:

Dado que la población es inobservable, o difícil de cuantificar, lo que se debe hacer es

3. FUNCIÓN DE REGRESIÓN MUESTRAL (FRM)

Como es de suponerse, generalmente el investigador o econometrista cuenta con datos

Así por ejemplo, si se toma una muestra de X, la edad de lo(a)s estudiantes de

Si se despeja Yi se tiene que:

La ecuación anterior dice que un dato u observación muestral, es el resultado de sumar

El análisis de regresión lineal simple tiene como objetivo fundamental identificar y

En otras palabras, el MRLS es el planteamiento teórico de una ecuación estocástica

A manera de ejemplo, supóngase que se desea establecer la relación existente entre el

El diagrama de dispersión que se muestra en el Gráfico 3, relaciona los pares

El diagrama de dispersión muestra que el PIB aumenta en el tiempo, en la medida en el

1960 - 1974 1975 - 1989 1990 - 2004

Diagrama de dispersión y FRM

Valor Agregado del Sector Industrial

Gráfico 4: Diagrama de dispersión y línea de regresión

La forma de calcular estos parámetros se abordará a continuación.

5. MÍNIMOS CUADRADOS ORDINARIOS (MCO)10

En términos formales, se puede partir de la siguiente ecuación:

Sustituyendo (3) en (8), se tiene que:

Manipulando matemáticamente (10), esta se puede expresar como:

Sustituyendo (13) en (14)

Teniendo en cuenta las propiedades del operador de sumatoria y el hecho que Y y X

De igual forma, si se toma únicamente el denominador de la ecuación (16), se tiene:

Ahora bien, si dividimos el numerador y denominador de la ecuación (16) entre (n-1)

La interpretación económica de la pendiente dependerá directamente de lo que intente

PIB (Yt) PIND (Xt) Yt Xt ΣXt^2

Así, de acuerdo a las ecuaciones (15) y (13) se tiene que:

Por tanto, el modelo la FRM estimada para el ejemplo es:

E (PIB t I PIND t) = PIB t = 477.236,5 + 4,78 PIND t

Generalmente, el intercepto no tiene ninguna interpretación económica, aunque existen

Cuadro 3: Estimación de los Errores

Una vez realizados los cálculos necesarios, la FRM es la siguiente:

E(DCt /PCt )  12,34  0,34PCt