Professional Documents
Culture Documents
1. INTRODUCCIÓN
E
l método de construcción teórica en economía en términos generales parte de
la observación, luego se hace teoría, y por ultimo, se observa de nuevo. Esta
metodología permite extraer de la realidad ciertos rasgos o características
relevantes del devenir económico. No obstante, dado que la realidad y los contextos
son diferentes, podemos encontrar que las teorías económicas presenten una
aplicabilidad alta, mediana o nula, diagnóstico que es llevado a cabo a través de la
Econometría. Negar la posibilidad de construir modelos económicos generales
implicaría construir una teoría para cada país o región, en diferentes momentos del
tiempo, lo que desencadenaría que seriamos economistas “regionales”; como esto
carece de sentido, pues somos economistas en cualquier lugar y momento, lo
recomendable es apropiar los lineamientos generales brindados por la teoría económica
a través de los modelos y adaptarlos a nuestro contexto, para verificar y enriquecer
dicho constructo.
Es por esta razón que uno de los principales objetivos de la Econometría es comprobar
de manera empírica las teorías propuestas por la economía. Desde este punto de vista,
la Econometría parte de los modelos, que son en términos generales ecuaciones
sustentadas con teoría, y luego les introduce propiedades y elementos estadísticos para
convertirlos en modelos econométricos.
1
La combinación de la matemática con la estadística se constituye en la forma de
“aterrizar” los modelos económicos, ya que como se sabe, éstos muestran relaciones
perfectas o exactas entre variables, cuando en la realidad dichas relaciones no son
estrictamente de este tipo y por el contrario dan cabida a fenómenos que quedan al libre
albedrío o al azar. Por ejemplo, es poco creíble que la Inversión Interna dependa única
y exclusivamente de la tasa de interés, cuando existen otros fenómenos como la
estabilidad política que pueden jugar en determinado momento un papel relevante.
Yt β1 β2 Pt β3 Plt t
2
Este modelo muestra que la oferta de un bien o servicio (Yt) depende únicamente de su
propio precio (Pt) y del precio de los insumos (PIt), más una variable t . Observe que
este modelo omite o no da cuenta de otras variables que pueden afectar la oferta del
bien y que por teoría microeconómica son bien conocidas, tales como los impuestos o
subsidios, la tecnología, las expectativas o el número de oferentes.
da cuenta de todas las variables que afectan directamente la oferta del bien y no han
sido tenidas en cuenta de manera explícita por el modelo planteado1. Así, la influencia
de esas variables “omitidas” se incluyen en esta variable, que por definición estocástica,
debe tener un peso cercano a cero en la determinación de Yt pues en el caso contrario,
conduciría a un sesgo de especificación y por tanto, el modelo no sería fiable.
1
En el análisis de regresión interesa lo que se conoce como dependencia estadística entre variables, ya
que dichas variables, tienen distribuciones de probabilidad y por ende son esencialmente variables
aleatorias o estocásticas, esto es, procesos que permiten errores, a diferencia de la dependencia
funcional o determinista propia de la matemática convencional, donde se manejan variables que no son
aleatorias y por ende, no permiten errores de medición.
3
La variable t cambia de contexto en contexto, depende del espacio y del tiempo, es
decir, del país donde se aplique el modelo, y del periodo de tiempo que se escoja, por
esta razón se caracteriza por ser estocástica y no observable de manera apriorística.
Yt β1 β2Yt 1 β3Yt 2 U t
Este modelo muestra que el valor de la variable Yt depende de sus mismos valores
pasados o rezagados en el tiempo (Yt-1 , Yt-2 ) más un término aleatorio de error Ut.
Dicho comportamiento es típico, por ejemplo, del variables como el PIB o la inflación,
donde sus valores actuales están en función de la inercia generada por la dinámica de
su comportamiento histórico. En el departamento del Cauca, por ejemplo, el sector
agrícola y el mismo PIB real presentan este tipo de comportamientos. El anterior tipo de
proceso se conoce como modelos ARIMA (Modelos Auto-Regresivos Integrados de
Promedios Móviles).
4
uniecuacionales serán simples, si involucran una variable explicativa (X) y una variable
explicada (Y), las cuales se relacionan a través de un único modelo econométrico2
MODELOS
MODELOS MULTIVARIADOS
UNIVARIADOS
Velocidad de circulación del
MODELOS dinero.
ARIMA
UNIECUACIONALES Curva de Demanda u Oferta
Curva de Phillips
MODELO Modelo Oligopólico.
MULTIECUACIONALES Modelo IS-LM
Cualquiera que sea el caso, la variable Y ó explicada, también se conoce con los
nombres de variable endógena, dependiente, regresada, de respuesta, o predicha.
La(s) variable(s) X ó explicativa(s), también se conoce(n) como variable(s) exógena(s),
independiente(s), predictora(s), regresor(as), de control o estímulo.
2
No necesariamente la relación entre variables es unidireccional, puede ser mutua (retroalimentación),
pero por ahora debe suponerse que es X quien determina o causa un efecto sobre Y. Existe una prueba
estadística llamada Test de Causalidad de Granger, la cual determina el sentido de esta relación. Esta
prueba será abordada más adelante.
5
1.2 Tipos de Información
3
En econometría, la calidad de los datos es de vital importancia dado que el resultado de la investigación
y la credibilidad de la misma, depende en gran medida de la fuente y la clase de datos que se elijan para
la realización del modelo. Debido a múltiples problemas para la recolección de la información, puede que
la investigación no genere los resultados deseados.
6
c. Información Combinada, Datos de Panel o Longitudinal. Es una mixtura de
las dos anteriores. Es decir, muestra información tanto en un momento en el
tiempo, como a través del mismo. Por ejemplo, los consumos de las familias por
estrato en diciembre para Popayán en los últimos cuarenta años. Generalmente
cada observación se denota con los subíndices it.
Las relaciones planteadas en todos los modelos econométricos pueden darse a dos
niveles: a nivel poblacional y a nivel muestral. Es claro que los verdaderos valores tanto
de X como de Y difícilmente pueden ser conocidos, al igual que los de U t, y por tanto la
verdadera relación tampoco, es decir, no se pueden conocer los verdaderos valores de
β1 y β2. De esta forma la Función de Regresión Poblacional (FRP) es una función ideal
que muestra la relación verdadera entre por lo menos dos variables (X e Y), pero que es
inobservable o imposible de hallar, dado que el universo en términos generales, es
desconocido. A pesar de esto, se puede establecer su estructura y sus propiedades
estadísticas. Así, la FRP se denota como:
E(Y/X i ) 1 2 X i (1)
7
Y E (Y ׀Xi)
A3
Y3
A2
Y2
A1
Y1
X1 X2 X3 X
Los valores que asume Y en la FRP son estocásticos o aleatorios, ya que para cada
valor fijo de X poblacional, habrá diversos valores de Y poblacionales, y se supone que
todos tienen la misma probabilidad de salir en el muestreo aleatorio repetido. Así por
ejemplo, si X es la edad de los estudiantes de economía en Colombia, e Y el promedio
de notas del semestre en el que se encuentren, se puede afirmar con toda seguridad
que para lo(a)s estudiantes con una edad de 20 años, existirán miles de notas
promedio, es decir, que Y asume diferentes valores para un valor fijo de X. Esto mismo
sucederá para las demás edades. Se asume que Yi sigue una distribución normal.
Y= Notas de Econometría
X= Edad de los y las estudiantes
4
Para fines prácticos y dada la imposibilidad de conocer el universo de información, la consideración del
ejemplo se hace a partir de un conjunto de observaciones seleccionadas aleatoriamente, que son
consideradas como una población con el fin de una mayor compresión por parte de lo(a)s estudiantes, sin
embargo, es evidente que una población tendría muchos más datos.
8
1
Y P( x ) 1
5 P( x )
4 P 1 1
3 P( x )
( x)
4.8 5.0
3
4.9
2 4.5 5.0
5.0 FRP
4.95
1
4.0
3.26
3.82
3.8
4.35
4.9 2
3 1
3.0 3.5 P( x )
2.5 1 2
2.0 2.3
X1=18
X2=19
X3=20
X4=21
X5=22
X
Gráfico 2: Ejemplo 1
De esta manera, se hallan los valores esperados hasta En. La línea que representa la
FRP en el Gráfico 2, une los valores esperados de todos los posibles resultados de Yi,
pero además muestra la existencia de linealidad entre las variables, donde se confirma
el supuesto sobre su función de distribución de probabilidad normal. Sin embargo,
obsérvese que los valores esperados por los que pasa la FRP están por debajo o por
encima de las observaciones, es decir hay errores en la estimación de la FRP; dichos
errores son las desviaciones de un Yi individual alrededor de su valor esperado, los
9
cuales son denotados como ( i ). Para el ejemplo anterior tenemos:
1 2.5 3.26 0.76
εi Yi E(Yi /X i ) (2)
Desde este punto de vista todas las propiedades estadísticas de la FRM, son
heredadas de la FRP. Como en la realidad los estudios se realizan a partir de muestras,
lo mejor es hacer énfasis en la FRM. Esto no debe entenderse como dejar de lado la
FRP, pues a pesar de ser un ideal, siempre lo deseable es alcanzarla de manera muy
aproximada.
10
La FRM como una función estimativa de la FRP, muestra la relación aproximada entre
por lo menos dos variables (X e Y), la cual sí es observable y posible de hallar a través
de una muestra. La estructura de su ecuación genera una línea o recta en el espacio de
datos muestrales XY, que trata de ajustarse linealmente lo más cerca posible a estas
observaciones. La FRM se puede escribir, como:
Yi E(Yi /X i ) 1 2 X i (3)
Donde:
Yi = Es el valor esperado o valor promedio dado cada Xi muestral.
1 = Es el mejor estimador del verdadero 1 poblacional
2 Es el mejor estimador del verdadero 2 poblacional
De igual forma que la FRP, los valores asumidos por Y son estocásticos o aleatorios5, y
también se supone que siguen una distribución normal. Esto se debe a que con
información de corte transversal, para cada valor de X muestral dado, habrá diversos
valores de Y muestrales, todos con igual probabilidad de salir en el muestreo aleatorio
repetido6.
5
Si bien la FRP es diferente a la FRM; dado que, por una parte, esta última es función lineal de los
valores esperados y no de los Yi poblacionales, y por otra, en la estimación muestral también existen
errores que no han sido incluidos en la FRM, en el mejor de los casos la FRM es la mejor aproximación a
la FRP.
6
Con información de series de tiempo, la incertidumbre de los valores que asume en el tiempo Yt además
de los Ut, origina lo estocástico del modelo, siguiendo también estas variables distribuciones normales.
11
edad de 20 años, existirán varias notas promedio, es decir, que Y asume diferentes
valores para un valor fijo de X. Esto mismo sucederá para las demás edades7.
Dado que la regresión, ya sea poblacional o muestral, parte de minimizar las distancias
entre los valores que genera la FRM, Yi y los valores observados o datos Yi, los errores
muestrales que se denotan por u i , vendrán dados por la siguiente ecuación:
u i (Yi Yi ) (4)
Yi (Yi u i ) (5)
La ecuación (5) dice que una observación cualquiera, es igual a la suma del valor
originado por la regresión, más el error. En términos generales el valor de una
observación puede escribirse como:
Yi E(Yi /X i ) ui 1 2 X i ui (6)
7
Tome el ejemplo de la Gráfica 1 como una muestra, proporcionara mayor comprensión al respecto.
12
4. EL MODELO DE REGRESIÓN LINEAL SIMPLE (MRLS)
Y t 1 2 X t u t (7)
Donde:
Y t = Producto Interno Bruto
X t = Producción Industrial
u t = Términos aleatorios de error
8
Como se vera más adelante, la relación lineal debe ser necesariamente con los parámetros y no
necesariamente con las variables.
13
1 = Intercepto de la FRM
2 = Pendiente de la FRM
Antes de continuar, obsérvese que los datos son de series de tiempo (denotados por el
subíndice t), y solo existen dos variables que se relacionan (regresión simple) de
manera lineal9
En términos particulares, la relación que existe entre el Producto Interno Bruto (PIB) y la
Producción Industrial (PIND), se puede sintetizar a través del siguiente modelo
econométrico:
PIBt 1 2 PINDt u t
Este modelo, permite extraer la mejor línea o recta que relaciona las observaciones
conjuntas de X e Y, es decir, la FRM.
El cuadro 1 muestra los valores de las series de tiempo para las variables en mención.
9
Si los datos fuesen de corte transversal, el modelo seria Yi = B1 + B2Xi + Ui.
14
Diagrama de dispersión PIB vs. PIND
900000
800000
700000
Producto Interno Bruto
600000
500000
400000
300000
200000
100000
0
0 1000000 2000000 3000000 4000000
Valor Agregado del Sector Industrial
Gráfico 3: Diagrama de dispersión PIB y V.A del Sector industrial en el Departamento del Cauca
Cuadro 1: Series de tiempo PIB y V.A de la Industria en el Departamento del Cauca (1960 – 2004).
Fuente: DANE – INANDES – ICESI
15
La relación entre el PIB y la Producción Industrial puede “resumirse” de manera general
en una ecuación como la (3), es decir, a través de una FRM. Esta genera una línea o
recta que intenta recoger de la manera más precisa todas y cada una de las
observaciones. En el grafico 4 se muestra esta situación.
ut
FRM
ut
Los valores o datos que asume la variable PIB (Y), dada la producción industrial (X), se
encuentra en unos periodos por encima y en otros por debajo de la línea, lo que se
puede interpretar como que dichos valores tienden a “regresar” a esta línea. En este
sentido es que se habla de una recta de regresión, ya que los valores de Y tienden a
volver a la FRM, es decir a E (Yi I Xi), el valor esperado o promedio de la variable
aleatoria Y, dado X.
Como se dijo anteriormente, ésta línea de regresión se construye bajo un principio muy
simple, y es el de minimizar las distancias que existen entre los puntos que conforman
la recta y las observaciones muestrales, de tal forma que ella sea la mejor recta de
cualquiera que se pueda trazar en el diagrama de dispersión. A estas distancias se le
16
conoce como desviaciones, que son los mismos errores, tal como se puede ver en el
Gráfico 4. En otras palabras, la recta se construye hallando los valores de 1 y 2 de la
ecuación (3), partiendo de minimizar los errores.
Una vez se tiene el panorama total acerca de la FRP, la FRM y del MRLS, lo único que
resta es mostrar cómo estimar los valores de 1 y 2 de la FRM, de tal forma que se
minimicen los errores. El método que permite realizar esta tarea es el de MCO. Este
intenta, como ya se había dicho, minimizar los errores o distancias entre los datos u
observaciones muestrales y la recta de regresión.11
Como algunos datos están por encima de la recta y otros por debajo, habrán errores
positivos y otros negativos, los cuales al sumarse serán iguales a cero12. Esta
propiedad estadística impedirá minimizar los errores correctamente. Así, para evitar que
esto suceda, el método MCO suma los errores al cuadrado y los minimiza, ya que de
esta forma la sumatoria no se hace igual a cero, y de otro lado, pondera menos a los
errores más grandes y más a los pequeños.
10
Como se mencionó anteriormente existe otro método que se emplea en el análisis de regresión es el
de Máxima Verosimilitud, sin embargo, este corresponde a cursos avanzados de Econometría.
11
El método MCO es indiferente de ser desarrollado con datos de corte transversal o datos de series de
tiempo. Por esta razón en el desarrollo algebraico que sigue, los subíndices (i) pueden ser reemplazados
por (t), sin ninguna perdida de generalidad.
12
u i 0 Dado que son distancias positivas y negativas al estar por encima o por debajo de la FRM, al
sumarse se contrarrestan y por ende son iguales a cero.
17
2
i i i
2
u Y Y
2
ui (Yi E(Yi X i ))2
2
2
Min u i Min Yi Y i (8)
Min (Yi 1 2 X i ) 2 (9)
Teniendo en cuenta las condiciones del cálculo diferencial para hallar un valor mínimo,
la ecuación (9), ahora se descompone en:
2
ui
2 (Yi 1 2 X i ) 0 (10)
1
2
ui
2 X i (Yi 1 2 X i ) 0 (11)
2
(Yi 1 2 X i ) 0
Yi 1 2 X i 0
Yi 1 2 X i
18
Yi n 1 2 X i (12) 13
n 1 Yi 2 X i
Yi X i
1 2
n n
Yi Xi
Como sabemos Y y X entonces:
n n
1 Y 2 X (13)
La ecuación (13) muestra que el valor del intercepto en la regresión es igual al promedio
de las observaciones de Yi menos la multiplicación de la pendiente por el promedio de
las observaciones de Xi.
Para poder estimar el valor de 1 , es claro que debe conocerse el valor de 2 . Este
valor puede obtenerse a partir de la ecuación (11). Por tanto se tiene que:
X i (Yi 1 2 X i ) 0
X i Yi 1 X i 2 X i2 0
X i Yi 1 X i 2 X i2 (14) 14
Por propiedades del operador de sumatoria, sabemos que 1 n 1 donde 1 es una constante.
13
14
Las ecuaciones (12) y (14) son también conocidas en la literatura econométrica como Ecuaciones
normales, como se verá a continuación, a partir de ellas se hallan los valores de los parámetros de la
FRM.
19
X i Yi (Y 2 X ) X i 2 X i2
X i Yi Y X i 2 ( X i2 X X i )
X iYi Y X i
2 (15)
X i2 X X i
La ecuación (15) puede ser también reescrita de forma alterna como sigue:
(Yi Y )( X i X ) Yi* X i*
2 (16) 15
( X i X ) Xi
2 *2
Las ecuaciones (15) y (16) son iguales, ya que si se toma únicamente el numerador de
la ecuación (16), se tiene que:
(Yi Y )( X i X )
(Yi X i X Yi Y X i Y X )
Yi X i X Yi Y X i Y X
Yi X i X Yi Y X i nY X
Yi
Yi dado que Y
Yi X i X Yi Y X i n X n
n
Yi X i Y X i
15
Esta forma de presentar la ecuación se conoce como “en forma de desviación”, es decir contiene los
alejamientos de las variables respecto de sus medias, condición que se puede representar con un
asterisco que acompaña a la variable, y que será útil en adelante. La diferencia entre las ecuaciones (15)
y (16) es que la última se torna más práctica a la manipulación matemática.
20
Como se puede ver con la anterior demostración, los numeradores de las ecuaciones
(15) y (16) son iguales.
( X i X ) 2
2
( X i 2 X i X X )
2
Xi 2X Xi X X
2
Xi
Como sabemos que X entonces X i n X
n
X i 2XnX XnX
2
X i XnX
2
Xi X Xi
2
Con lo anterior se termina de establecer la igualdad entre las ecuaciones (15) y (16).
(Yi Y )( X i X )
(n 1) Cov(Y , X )
2
( X i X ) 2 Var ( X ) (16.a)
(n 1)
22
2000 2944033 561853 1654113773149 315678793609
2001 3098477 529809 1641601000893 280697576481
2002 3344327 612277 2047654502579 374883124729
2003 3407131 670598 2284815234338 449701677604
2004 3666474 796540 2920493199960 634475971600
Sumatoria 78940418 12029126 26363721119733 4317017751229
Promedio 1754232 267314 585860469327 95933727805
Cuadro 2: Datos para la estimación de B1 y B2.
Esta regresión genera la recta que se muestra en el Gráfico 4. El 1 o intercepto indica
que si la Producción industrial del Departamento del Cauca es nula, el valor esperado
del PIB es igual a 477.236,5 millones de pesos en promedio para el periodo muestral,
es decir que, independientemente del valor agregado por el sector industrial el valor
monetario promedio de la cantidad de bienes finales producidos durante este periodo es
de 477.236,5 millones.
Por otra parte, el 2 o la pendiente, muestra cómo cambia el valor esperado del PIB
(PIB promedio) cuando se modifica el valor de la producción industrial. Por tanto, si
dicho valor agregado se incrementa en $1, el PIB se incrementa $4.78 pesos en
promedio, para el periodo muestral. Si el signo que acompaña a la pendiente fuese
negativo, entonces existiría una relación inversa entre X e Y.
El paso a seguir es el cálculo de los errores muestrales (û i), los cuales se extraen una
vez obtenida la regresión, recordando que éstos muestran el alejamiento de las
observaciones muestrales de los valores estimados por la regresión. A partir de los
resultados del Cuadro 2, se pueden obtener los valores de û, algunos de ellos negativos
y otros positivos como se mostró en el Gráfico 4.
Y Ŷ Ui = (Yi - Ŷ) Y Ŷ Ui = (Yi - Ŷ)
1960 766898 1045411,5 -278513,6 1983 1564916 1463550,8 101365,6
1961 821912 1070277,7 -248365,2 1984 1714837 1414269,7 300567,8
1962 821724 1038258,2 -216534,7 1985 1707901 1438928,7 268972,3
1963 806282 970472,3 -164190,7 1986 1876839 1403880,1 472958,5
1964 874235 997382,3 -123147,0 1987 1863564 1547998,3 315566,0
1965 829279 1033830,0 -204550,8 1988 2008695 1704973,5 303721,9
1966 879619 1090034,3 -210415,7 1989 2009685 2011734,6 -2049,7
1967 940772 1155095,2 -214323,0 1990 2076381 2078868,2 -2487,6
1968 919805 1166336,0 -246530,8 1991 2175092 2061379,9 113712,5
1969 925803 1215046,5 -289243,9 1992 2380317 1976436,9 403880,6
1970 942944 1204827,5 -261883,1 1993 2514860 1929446,5 585413,8
1971 1046835 1234803,2 -187968,6 1994 2312424 2111469,3 200954,8
1972 1069360 1291007,5 -221647,7 1995 2450558 2157490,4 293067,6
1973 1132166 1234803,2 -102637,1 1996 2445079 2260276,7 184802,2
1974 1221842 1583610,8 -361768,7 1997 2499519 2197682,1 301836,9
1975 1277801 1594170,4 -316369,3 1998 2598483 2230911,2 367571,3
1976 1371053 1476732,3 -105679,4 1999 2703438 2439555,5 263882,9
1977 1382582 1291880,6 90701,5 2000 2944033 3161285,0 -217252,0
1978 1476627 1609630,6 -133003,4 2001 3098477 3008206,4 90270,6
1979 1394103 1398131,2 -4028,3 2002 3344327 3402167,3 -57840,3
1980 1546141 1461722,3 84418,2 2003 3407131 3680774,7 -273643,7
1981 1575506 1478479,3 97026,5 2004 3666474 4282416,8 -615942,8
1982 1554098 1334772,9 219325,5 Promedio Ŷ Suma errores
1754232 -9,0804E-09
24
Éstos se calculan de acuerdo a la ecuación (4), hallando en primer lugar los valores
estimados del PIB por medio de la FRM una vez se reemplacen los valores de la
producción industrial (Xi). A continuación, se resta el valor de cada observación del PIB
muestral con los arrojados por la regresión.
Los errores surgen porque el modelo de regresión especificado solo tiene en cuenta el
valor agregado industrial para explicar los valores observados del PIB, y por tanto deja
de lado otras variables que influyen de manera directa en el PIB. En otras palabras, los
errores muestran la influencia de otras variables que no han sido tenidas en cuenta por
el modelo de regresión.
Ejemplo 2:
Suponga de manera hipotética que se quiere mostrar la relación que existe entre la
demanda de carne (en Kg) y su precio en Popayán para el periodo muestral 1950-2004.
El modelo econométrico se plantea como:
DCi 1 2 PCi
25
5.1 Propiedades Numéricas de los Estimadores MCO y de la FRM
Debe tenerse en cuenta antes de iniciar, que las propiedades que a continuación se
enuncian, son propiedades muestrales. Más adelante se verá que algunas de ellas, son
heredadas de los supuestos estadísticos que se realizan sobre los parámetros
poblacionales.
5.1.1 La línea de regresión pasa por las medias muestrales de X e Y. Esto es evidente,
a partir de las ecuaciones (13) y (16). Sin embargo, formalmente se puede
demostrar considerando las ecuaciones (3) y (13) donde, gráficamente sabemos
que:
Yi 1 2 X i
FRM
Así entonces:
Yi 1 2 X i
Yi (Y 2 X ) 2 X i
26
Yi Y 2 X 2 X i Yi Y 2 X 2 X i
Yi Y 2 ( X X i ) *
Yi Y 2 X 2 X i
0 2 X 2 X i
Yi Y
2 X 2 X i
X Xi
5.1.2 Son estimadores puntuales, es decir, solo arrojan un único valor, y son los
mejores estimadores de los parámetros poblacionales. Se acepta por teoría.
( X i X )
Yi Y 2
n
De acuerdo con la propiedad 5.1.1 X X i , con lo cual se comprueba que Y i Y
valores del PIB observado en el Cuadro 2. Ambos valores son iguales a 1’754.232
ui 0
(Yi Yi ) 0
(Yi 1 2 X i ) 0
Yi n1 2 X i 0
Yi n(Y 2 X ) 2 X i 0
Yi nY n X 2 2 X i 0
Yi Yi 2 X i 2 X i 0
Con lo anterior se demuestra que u i 0
28
Como se muestra en el Cuadro 3, la suma de los errores de la regresión del PIB frente
a la Producción Industrial es igual a -9,0804E-09, un número que si bien no es cero en
sentido estricto, si está muy cercano a el.
se obtiene:
u i (Yi Yi )
n n
Y Y i
ui i
n n
ui Y Y
Por la propiedad 5.1.3 sabemos que Y i Y entonces:
ui 0
Esta propiedad es de suma importancia, dado que comprueba que las variables que
afectan al modelo pero que no fueron incluidas de manera explicita en éste, no son de
relevancia, dado que los valores esperados de las variables dejadas por fuera no tienen
un comportamiento determinante en la explicación de las variaciones de Y i Si en el
modelo la media de los errores es diferente de cero existiría sesgo de especificación,
por tanto estaría mal planteado.
Esta propiedad es coherente con 5.1.4 ya que si se toma la suma de los errores del
ejemplo trabajado (-9,0804E-09) y se divide entre (n-1= 44) se tiene que el valor
promedio de los errores es de -2,06373E-10, un valor cercano a cero.
29
5.1.6 La FRM también puede ser expresada en forma de desviación.
Yi n 1 X ε i 0
2 i
n n n n
Y 1 2 X (17)
(Yi Y ) 1 2 X i ε i 1 2 X
(Yi Y ) 2 ( X i X ) i
Yi* 2 X i* ε i (18)
E (Yi Y ) 2 E ( X i X ) E (ε i )
Considerando que E (Yi Y ) Y i , y recordando que el valor esperado solo
*
Y i 2 X i* (19)
*
30
La ecuación (19) muestra la FRM en forma de desviación. Observe que esta forma no
posee intercepto, es decir que parte del origen, haciendo que la media tanto de X como
de Y se vuelvan cero, no obstante se conserva la misma pendiente de la regresión (3).
Gráficamente tendríamos:
Y
Y i 2 X i*
*
FRM
X
Gráfico 6: FRM en forma de desviación
0 4 - 615.943
Ya que
2 = 4,77713651
31
5.1.7 Los residuos no están correlacionados con los Xi. Es decir, u i X i 0 16 Esta
(u i X i ) 0
(Yi 1 2 X i ) X i 0
( X i Yi 1 X i 2 X i ) 0
2
X i Yi 1 X i 2 X i 0
2
X i Yi (Y 2 X )X i 2 X i 0
2
X i Yi Y X i 2 X X i 2 X i 0
2
X i Yi Y X i 2 ( X X i X i ) 0
2
Reemplazando 2 por la ecuación (15) obtenemos lo siguiente:
X i Yi Y X i
X i Yi Y X i ( X X i X i ) 0
2
Xi X Xi
2
X i Yi Y X i X i Yi Y X i 0
16
Esta comprobación como la siguiente también pueden ser realizada a través de la formula de la
covarianza, que es igual a la sumatoria de dos variables, dividida entre (n-1) grados de libertad.
32
5.1.8 Los u i no están correlacionados con los Y i .
Y i u i 2 X i* u i
*
2
Y i u i 2 X Y 2 X i*
* * * 2
i i
2
Y i u i 2 X i* ( 2 X i* ) 2 X i*
* 2
2 2
Y i u i 2 X *2
2 X i*
* 2
i
Y i ui 0
*
(u i Y i ) 0
(u i ( 1 2 X i )) 0
1 u i 2 u i X i 0
Esta expresión es equivalente a cero por las propiedades 5.1.4 y 5.1.7 respectivamente.
Se demuestra así que los errores deben tener un peso nulo en la estimación de Y.
Una vez más, retomando la regresión del PIB del Cauca frente al valor agregado del
sector industrial, y calculando la covarianza entre los Ui y los valores estimados del PIB
se tiene un valor de -5,42535E-05, que indica una relación baja (casi nula) entre ellos.
33
6. Supuestos del Modelo MCO
Para que el modelo estimado goce de robustez estadística, se deben realizar algunos
supuestos poblacionales sobre las variables que en él se encuentran. De esta forma, se
debe hablar de las variables aleatorias Yi poblacionales, de la variable fija Xi poblacional
y del término aleatorio de error poblacional. Las propiedades poblacionales son
transmitidas a los estimadores muestrales, ya que generalmente los modelos son
estimados con datos muestrales y no poblacionales. Los supuestos son los siguientes:
Para indagar por la naturaleza probabilística del modelo de regresión, se debe asumir,
como se había explicado anteriormente, que para cada valor fijo de X, existe una
población de Yi. Cada una de éstas tiene la misma probabilidad de ser seleccionada si
el experimento se realiza infinitas veces. Por tanto, el valor de X es no estocástico o fijo,
mientras que el de Y sí lo es, y sigue una distribución normal. El ejemplo de la edad de
lo(a)s estudiantes de economía y sus notas expuesto antes en el numeral 2 recoge la
esencia de este supuesto.
Dado que X es fijo, el promedio de los errores poblacionales que se generan entre la
FRP y los datos poblacionales son cero. Esto se manifiesta con la siguiente notación:
E (εt X t ) 0 (20)
Este supuesto traduce como se había enunciado en otro momento que la influencia
promedio (valor esperado) que tienen las variables no consideradas de manera explicita
en el modelo, y que se encuentran condensadas en ε i , no afectan al valor esperado de
Yi . La distribución de probabilidad de dichos errores debe ser normal, con media cero y
varianza constante.
34
6.3 Igual varianza de εi para cada valor fijo de Xi. (HOMOCEDASTICIDAD)
Como para cada X fijo hay n errores, y estos siguen una distribución normal
representada por la campana gaussiana, para cada X, debe existir una campana con la
misma altura y el mismo ancho. Es decir, todas deben tener la misma varianza.17 En
términos formales la homocedasticidad se expresa como:
Y por ley de valores esperados, se sabe que E(.) solo se aplica a las variables
aleatorias, entonces:
Var (εt X t ) E (εt X t ) 2 2 (21)
La expresión anterior nos indica que los errores dado cada X tienen varianza constante
e igual a 2 . La varianza, como ya debe saberse, es el grado de dispersión de una
variable frente a su media. De tal forma, todas las campanas deben ser o platicúrticas, o
leptocúrticas o mesocúrticas, pero no una combinación de estas; deben ser todas
iguales tal como lo muestra el Gráfico 7.
17
En términos generales, la formula para una variable poblacional no estocástica o fija viene dada por:
( X i X ) 2
Var ( X i ) Cuando es a nivel muestral, el denominador debe ser (n-1) porque se pierde un
n
grado de libertad.
35
Z
FRP
Yi 1 2 X i
X1
X2
X3
X4
Xk
X
Gráfica 7: Homocedasticidad
18
El supuesto de Homocedasticidad no se cumple para datos de corte transversal dada la existencia de
datos atípicos a alejados de la FRP. Para saber si el modelo cumple o no con este supuesto, es
necesario hacer una prueba de hipótesis.
36
Cov( i , j X i , X j ) E ( i X i )( j X j ) 0
Cov( i , j X i , X j ) 0 (22)
Este supuesto indica que los errores poblacionales, asociados a cada valor fijo de X, no
pueden estar relacionados, es decir, no puede existir una combinación lineal entre ellos.
Esto es equivalente a decir que las desviaciones de dos valores cualquiera de Y de su
media no deben mostrar un patrón o tendencia positiva o negativa al ser seguido uno
por otro, ya que de ser así, la influencia de εj sobre εi se transmitirá sobre Yi, y por tanto
no se podrá determinar de donde proviene el efecto verdadero de los errores 19.
19
Este supuesto se incumple generalmente en series de tiempo, donde los errores de un periodo se
trasladan a los siguientes.
37
Cov( i X i ) E (εi X i ) 0
Cov( i X i ) E ( i ) E ( X i ) 0
Cov( i X i ) 0 (23)
Esto significa que entre las variables explicativas del modelo no puede existir ningún
tipo de relación. De no cumplirse este supuesto, no se podrá determinar de donde
proviene el verdadero efecto sobre la variable explicada. Este problema no se presenta
en los modelos simples, pues solo existe una sola variable explicativa en ellos, y es
típica de los modelos multivariados donde una variable es combinación lineal de otra,
de cuya asociación depende que la multicolinealidad sea pura e imperfecta. Este tema
se expondrá con mayor profundidad en una sección posterior.
Yi 1 2 X i ui
Es claro que aquí hay una relación lineal entre X e Y, dado que Xi no está elevado a
una potencia mayor que uno. Esta es la linealidad que conocemos por el Álgebra. Pero
en Econometría puede darse el siguiente caso:
Yi 1 2 X i3 ui
38
Este modelo sigue siendo lineal, porque como se dijo antes la linealidad es en los
parámetros ( 1 , 2 , k ), y no en la variable explicativa X. En otras palabras, son los
parámetros los que NO deben estar elevados a una potencia mayor o menor que uno.
Así, el modelo Yi 1 2 X i ui no será un modelo lineal.
2 3
Este supuesto implica que la distribución de probabilidad es una normal con media cero
y varianza constante. Gráficamente:
- σ2 E(εi) =0 σ2
Gráfico 8: Distribución Normal de los Errores
εi ~ N [E(εi) = 0 ; E( εi2 I Xi ) = σ2 ]
El hecho que los errores se distribuyan de forma Normal con media cero y varianza
constante implica que εi es una variable aleatoria Ruido blanco (White Noise). La
aplicación de este supuesto permite mostrar que los estimadores del modelo de
regresión cumplan con características estadísticas deseables. Como X es fija en
muestreo repetido, entonces la variable Y dependerá estocásticamente de ε i. Es por
esta razón que Y también es aleatorio y sigue una distribución normal.
39
6.9 Los valores de X deben variar
El primer supuesto (6.1) dice que X debe ser fijo en muestreo repetido, entendiéndose
por ello que para cada valor de X hay muchos valores de Y, lo cual es diferente a decir
que los valores de X deban mantenerse invariables en el tiempo, pues la idea es que X
tome diferentes valores. Retomando el ejemplo 1 sobre las edades de lo(a)s
estudiantes (X) y sus notas (Y), X puede ser igual a 16 años, (X = 16), y se deben tomar
todas las notas de los estudiantes de este grupo. Pero también habrá otros valores de
X, que deben considerarse: X = 18, X=20, X=23, etc.
De no cumplirse este supuesto, la ecuación (16) con la cual se calcula 2 , se
indeterminaría, pues si X no varia, su media será exactamente igual a Xi, y por tanto el
denominador de dicha ecuación se haría igual a cero. No se debe olvidar que X es una
variable no estocástica, y por tanto debe asumir diferentes valores20
7. El TEOREMA DE GAUSS-MARKOV:
PROPIEDADES DE LOS ESTIMADORES MINIMO CUADRÁTICOS
Dados los supuestos anteriores, los valores de los estimadores 1 y 2 cumplen tres
propiedades básicas. Ellos son lineales (L), insesgados (I) y tiene varianza mínima, es
decir, son los mejores estimadores (ME). En la literatura econométrica se dice entonces
que los parámetros son MELI21. A continuación se desarrollarán estos supuestos.
20
En el caso que fueran los valores Yi los que no variaran, la mejor FRP para Yi sin importar el valor de Xi
sería el promedio de Yi, dado que el grado de dispersión seria nulo, es decir, que los errores no tendrían
influencia alguna sobre la determinación de Yi.
21
De acuerdo con Cramér-Rao los estimadores son MEI mas no necesariamente lineales, porque
cumplen con la Cota de Cramér-Rao. Si un estimador tiene una varianza que coincide con dicha cota se
dice que es un estimador eficiente. Si además es insesgado, se dice que es un estimador de
eficiencia absoluta o completa.
40
7.1 Linealidad: Significa que 1 y 2 pueden expresarse como combinaciones
lineales de Y.
(Yi Y )( X i X )
2
( X i X ) 2
[(Yi X i Yi X Y X i Y X )]
2
( X i X ) 2
Yi X i X Yi Y X i nY X )
2
( X i X ) 2
0
Yi ( X i X ) Y (X i n X )
2
( X i X ) 2
Yi ( X i X )
2
( X i X ) 2
Yi X i*
2 2
X i*
(Xi X )
Si se define k i , se tiene que:
( X i X ) 2
2 Yi ki (24)
41
Con la ecuación (24) se comprueba que 2 puede ser expresado en forma lineal
respecto de Y.
Igual ocurre con 1 . Reemplazando (24) en la ecuación (13) se tiene que:
1 Y [(Yi k i ) X ]
Yi
1 [(Yi k i ) X ]
n
Aplicando factor común:
1
1 k i X Yi (25)
n
Con las ecuaciones (24) y (25) se comprueba que los parámetros son lineales frente a
la variable aleatoria Y. Esto corrobora al tiempo que el modelo debe ser lineal en los
parámetros.
Antes de continuar con las otras dos propiedades es necesario determinar algunos
comportamientos de ki, útiles en demostraciones posteriores.
Propiedades de ki
a. k i 0
( X i X )
0
( X i X ) 2
1
b. k i2
( X i X ) 2
2
( X i X ) ( X i X ) 2 1
2
k
i 2
( X i X ) ( X i X ) ( X i X ) ( X i X ) 2
2 2
42
c. ki X i 1
*
( X i X )( X i X ) ( X i X )2
1
( X i X ) 2 ( X i X ) 2
( X i X ) X i X i2 X X i X i2 X X i
( X i X ) 2 ( X i X ) 2 2
( X i2 2 X i X X )
X i2 X X i X i2 X X i 2 Xi
1 ya que n X nX X nX
X i2 2 X X i n X
2
Xi X Xi
2
n
7.2 Insesgadez
2 k i (1 2 X i i )
2 1ki 2 ki X i ki i
2 1k i 2 k i X i k i i
43
Teniendo en cuenta las propiedades de ki, se tiene que:
2 2 k i i (26)
E ( 2 ) E ( 2 ) E (k i i )
E ( 2 ) 2 k i E ( i )
E ( 2 ) 2 (27)
De otro lado, con 1 sucede que si se toma la ecuación (25), y se sustituye el valor de
Yi, entonces se puede escribir esta ecuación como:
1
1 k i X ( 1 2 X i i )
n
1 1 1
1 1n 2 X i i 1 X ki 2 X ki X i X ki i
n n n
44
Con las ecuaciones (27) y (28) se ha demostrado que 2 y 1 son estimadores
muestrales insesgados de los 1 y 2 poblacionales, respectivamente. En términos
generales como lo muestra el Gráfico 9, el sesgo de cada estimador k es nulo.
k k
Gráfico 9: k es un estimador insesgado
En primer lugar, se debe hallar la varianza del estimador. Para este efecto,
reordenamos la ecuación (26)
2 2 k i i
45
Var ( 2 ) E ( 2 2 ) 2 E (ki εi ) 2
Var ( 2 ) E (ki εi ) 2 E (ki j εi j ) 2
Var ( 2 ) E (ki εi ) 2 E (ki k j εi ε j ) 2 donde i j
Var ( 2 ) k i2 E (εi ) k i k j E (εi ε j )
2
1
propiedades de ki sabemos que k i2 , entonces:
( X i X ) 2
1
Var ( 2 ) 2
( X i X ) 2
2
Var ( 2 ) 2
(29)
X i*
El resultado de la varianza de 1 , será definido (sin demostración) igual a:
X 2
Var ( 1 ) 2 i (30)
n X *2
i
22
Esta expresión es conocida en la literatura como el Producto Cruzado de los errores por cada ki.
46
Ahora bien, ¿cómo saber si la varianza de 2 es mínima? Para confirmarlo se debe
comparar con la varianza de otro estimador alterno, al cual se le denominará 2 * Este
parámetro por definición será también lineal e insesgado y vendrá dado por la siguiente
expresión:
2 * Ci Yi , donde Ci k i d i siendo d i 0
E ( 2 ) 1*Ci 2* Ci X i
*
Dado que 2 * se supone insesgado, es decir, E ( 2 * ) 2* , esto implica que en la
ecuación anterior 1 Ci 0 y que Ci X i 1 . De esta forma la ecuación (31) se puede
*
Var ( 2 ) E ( 2 2 ) 2
* * *
0
Var ( 2 ) E (Ci εi ) 2 E (Ci C j εi ε j ) 2
*
Var ( 2 ) Ci E (εi ) 2
* 2
Como Ci k i d i
0
Var ( 2 ) 2 (k i2 d i2 )
*
Var ( 2 ) 2 k i2 2 d i2 (32)
*
1
Recordando que la varianza del 2 viene dada por, Var ( 2 ) 2 k i2 2
( X i X ) 2
entonces:
Var ( 2 ) Var ( 2 ) 2 d i2 (33)
*
Para todo d i 0 , Var ( 2 *) > Var ( 2 ) en di . Solo en el caso que d i 0 , ambas
2 2 2
varianzas serían iguales. Con lo anterior se demuestra que 2 posee menor varianza
que cualquier otro estimador insesgado.
Gráficamente se tendría:
Distribución del
Estimador MCO
Distribución de otro
Estimador insesgado
Gráfico 10: Los Estimadores MCO poseen Varianza Mínima.
48
Es evidente en el Gráfico 10 que el mejor estimador es producido por el método MCO,
frente a otro estimador insesgado, ya que la varianza de 2 es mucho más baja (la
campana es más angosta) frente a la varianza de 2 *.
A esta altura de la discusión debe ser claro ya, que los estimadores están en función
de los datos muestrales, es decir de Yi. Pero si se realiza un muestreo aleatorio
repetido, como es de suponerse, los estimadores también se modificaran, ya que los Y i,
no serán los mismos. En este sentido, se requiere una medida de precisión o fiabilidad
de los estimadores. Esta confiabilidad se mide a través de la desviación estándar.
1
De( 2 ) Var ( 2 ) De( 2 ) 2
(34)
X i*
X 2
De( 1 ) Var ( 1 ) De( 1 ) i (35)
n X *2
i
Todas las variables que se relacionan en esta ecuación pueden ser obtenidas de los
datos muestrales, excepto σ2 ya que es poblacional. ¿Cómo puede ser estimada la σ2
muestral?
49
Tomando la FRM en su forma estocástica, ecuación (7), y dividiéndola por n, y
aplicando sumatoria se puede escribir:
Y i 1 2 X i u i (7)
Y i n 1 X i u i
2
n n n n
Y 1 2 X u (36)
Yi* 2 ( X i X ) (u i u )
Yi* 2 X i* (u i u ) (36a)
Dado que
u i Yi* 2 X i* (36b)
*
u i (u i u ) X i* ( 2 2 )
50
Aplicando sumatoria y elevando todo al cuadrado:
u i [(u i u ) X i* ( 2 2 )]2
2
u i (u i u ) 2 2(u i u )X i* ( 2 2 ) X i* ( 2 2 ) 2
2 2
Si se denomina:
A E[(u i u ) 2 ]
B 2 E[( 2 2 )X i* (u i u )]
C E[X i* ( 2 2 ) 2 ]
2
2 2
A E[(u i u ) 2 ] E[(u i 2 u i u u ) E[ u i 2u u i nu ]
2 2
_
ui
A E[ u i 2un u unu ] E[ u i unu ] E u i n
2 2 2
u
n
ui
E u i 2 u i
2
A E u i u i u E u i u i
2 2
n n
51
2 1
2 1 n 1
A E u i 1 E (u i )1 2
n n n
n 1
A n 2
n
A (n 1) 2
Teniendo en cuenta que 2 es el mejor estimador del 2 , se puede reemplazar uno de
los estimadores en la primera parte de B por el parámetro poblacional, así:
B 2 E[( 2 2 )X i* (u i u )]
E ( i , j ) 0 , se tiene que:
2X i*2 2
B
X i*2
B 2 2
C X i* E ( 2 2 ) 2
2
2
Dado que E ( 2 2 ) 2
2
, entonces se puede escribir:
X i*
2 2
C X i* 2
X i*
C 2
53
En síntesis sumando los resultados de A, B y C, E ( u i ) 2 puede expresarse como:
E ( u i ) 2 A B C
E ( u i ) 2 (n 1) 2 2 2 2
E ( u i ) 2 n 2 2 2 2 2
E ( u i ) 2 n 2 2 2
E ( u i ) 2 2 (n 2)
E ( u i ) 2
2
(n 2)
E ( u i ) 2
2
Si se define una varianza muestral , y se obtiene su valor esperado:
(n 2)
2 1
E ( ) E ( u i ) 2
(n 2)
Dado que E ( u i ) 2 2 (n 2) , entonces:
2 1
E ( ) 2 (n 2)
(n 2)
2
E ( ) 2
2
Con ello se comprueba que es el mejor estimador insesgado del verdadero σ2. Por
tanto:
ui
2
2
(37)
(n 2)
54
Ahora, una vez hallada la expresión de la varianza de los errores poblacional, que es
2
igual a la varianza de los errores a nivel de la muestra, ya que es el mejor estimador
insesgado del verdadero σ2, se procede a reemplazar (37) en las ecuaciones (29) y (30)
que corresponden a la varianza de 2 y 1 respectivamente.
2
Var ( 2 ) 2
X i*
ui
2
(n 2)
Var ( 2 )
X i*2
ui
2
Var ( 2 ) (38)
(n 2)X i*2
Donde:
u i = Sumatoria de Residuos al Cuadrado (SRC)
2
(n-2)=Grados de libertad23.
2 X 2
Var ( 1 ) i
n X *2
i
2 X 2
u i (39)
Var ( 1 ) i
(n 2) n X i* 2
23
En forma general, debe colocarse (n-k) g de l, siendo k el número de Betas del modelo. Como es
evidente, para el caso se supone la existencia de solo dos betas es decir, un modelo de regresión
multivariado simple.
55
Como ya se sabe, entre menor sea el valor de la varianza, menor será el valor de la
desviación estándar y por ende, el modelo econométrico se hará más confiable. De esta
manera, las ecuaciones (38) y (39) presentan algunas propiedades importantes a saber:
1. Entre mayor sea el tamaño de la muestra (n), ceteris paribus; menor será la
varianza y la desviación estándar.
n Var ( ) De( )
2. Entre más grande sea la variación los valores que asume Xi con respecto a su
media, ceteris paribus, la varianza y por tanto la desviación estándar se hacen
más pequeñas.
X i*2 Var ( ) De( )
3. La Var ( ) tiene una relación directa con la suma de residuos al cuadrado, por
ende, entre más pequeños se hagan estos, más pequeña se hará la varianza y la
desviación estándar de los parámetros.
u i Var ( ) De( )
2
Recordando el ejemplo propuesto sobre la regresión del PIB del Cauca como variable
explicada por la Producción Industrial, las varianzas de los betas se pueden calcular de
la siguiente forma24:
24
Los resultados que se presentan son obtenidos a partir de la información de los Cuadros 2 y 3
56
Como SRC = 3,08 E+12; n-2 = 43 grados de libertad y X i*2 = 1101465266830.
Var ( 2 ) 0,064977293
Var( 1 ) 6233513899
Cov( 1 , 2 ) E ( 1 E ( 1 ))( 2 E ( 2 ))
Cov( 1 , 2 ) E ( 1 1 )( 2 2 )
Cov( 1 , 2 ) E (Y 2 X Y 2 X )( 2 2 )
Cov( 1 , 2 ) E X ( 2 2 )( 2 2 )
Cov( 1 , 2 ) X E ( 2 2 ) 2
Cov( 1 , 2 ) XVar ( 2 )
57
Así, el grado de relación entre los estimadores es igual al promedio de la variable
explicativa multiplicada por la varianza del ( 2 ) . En nuestro ejemplo dicha relación es
igual a 17369,3 es decir una relación bastante fuerte, lo cual es evidente por la misma
forma como se calculan los parámetros bajo M.C.O
25 2
Cada regresión tiene un R . El analizado ahora corresponde a la regresión donde Y es la variable
2
dependiente y X la explicativa (también expresado como R YX). Sin embargo, se puede plantear una
modelación diferente, donde la variable explicativa pase a ser dependiente y viceversa, y calcular su
2 2
respectivo R XY. La pendiente de esta última regresión servirá para una posterior demostración del R YX
58
FRM
2
SRC (Yi Y i )
2
(Yi Y ) STC
2
SEC (Y i Y )
Y
X
Gráfico 11: Bondad de ajuste – STC, SRC, SEC.
estimado por la FRM, y otra que viene dada por la distancia entre dicho valor estimado
y el Yi observado. Estas distancias (o desviaciones) al elevarse al cuadrado definen la
siguiente identidad:
Donde:
STC: Sumatoria Total de Cuadrados
SEC: Sumatoria Explicada de Cuadrados
SRC: Sumatoria de Residuales al Cuadrado
Su demostración es la siguiente:
Una forma de expresar la ecuación (18) que define la FRM en forma de desviación es
Yi* Y i U i
*
59
Introduciendo y elevando al cuadrado se obtiene:
Yi*2 (Y i U i ) 2
*
*
Yi*2 (Y *2i 2 Y i U i U i )
2
*
Yi*2 Y *2i 2 Y i U i U i
2
Por la propiedad 5.1.8, según la cual no hay relación entre los Yi y los errores, entonces
Yi*2 Y *2i U i
2
(41)
El primer término definido por la ecuación (42) representa la STC, que como se
mencionó antes, muestra la variación total de los valores reales de Y con respecto a su
media.
Y *2i (Y i Y ) 2 (43)
Por otra parte, la ecuación (43) muestra la variación de los valores estimados de Y con
respecto a su media, expresión definida en la literatura econométrica como SEC.
U i (Yi Y i ) 2 (44)
2
Por ultimo, la ecuación (44) indica la SRC, es decir la variación residual de los valores
de Y alrededor de la regresión.
60
En este orden de consideraciones, la medida de bondad y ajuste R2 muestra cuál es el
peso de la SEC sobre la STC, que como es de esperarse, debe ser alto para reducir el
porcentaje de los errores sobre la STC. Si obtenemos un R2 elevado al efectuar la
regresión, en primera instancia se estaría garantizando que el modelo estimado tiene un
buen ajuste, lo que es equivalente a decir que la(s) variable(s) exógena(s) explica(n)
bastante bien la variabilidad de Yi y que la influencia de los errores es mínima (siendo
este el objetivo del método MCO)
Ilustremos esta última idea con una herramienta gráfica conocida como Diagrama de
Venn, donde una mayor intersección entre cada círculo indica un mayor R2
Y X
YX 0
R2 0
Si tenemos que:
Y X
YX 0
R2 0
61
El grado de intersección es parcial, las variaciones en Y son explicadas en su mayoría
por las variaciones en X, y por ende los errores tienen poco peso dentro de la
explicación de la regresión.
Finalmente si,
Y=X
YX
R2 1
El grado de “ajuste” sería perfecto, por lo tanto el 100% de las variaciones en Y son
explicadas por X, siendo nulo el peso de los errores.
0 R2 1 (45)
SEC
R2 (46)
STC
26 2
No obstante existe un caso especial en donde el R puede dar negativo que se analizará más adelante.
62
9.1.2 Tomando ahora la ecuación (40) y dividiendo cada término por STC se tiene:
SEC SRC
1
STC STC
Reemplazando (46)
SRC
1 R2
STC
Por lo tanto
SRC
R2 1 (47)
STC
Si R 2 1 entonces SRC=0 dado que SEC STC . Este es un caso extremo donde la
FRM sería la misma FRP. Si se obtuviera un modelo con este comportamiento no sería
de tipo econométrico, sino una simple identidad matemática.
63
9.1.3 Reemplazando en el numerador y denominador (46) las ecuaciones (43) y (42)
respectivamente tenemos que:
Y *2i ( 2 X i* ) 2
R 2
Y *2i Y *2i
2 X *2
R 2 2 i
*2
(48)
Y i
9.1.4 Si tomamos la ecuación (16) para reemplazar el valor de 2 en (48) obtenemos:
2
( Yi* X i* ) X i*2 (Y i*X i* ) 2
R 2
*2
*
R2 (50)
X i Y i
*2
X i*2 Y *2i
R2
Cov(Y , X )2 Pero ya que según la ecuación (16.a) 2
Cov(Y , X )
Var ( x)Var (Y ) Var ( X )
Cov (Y , X )
R2 2 (51) 27
Var (Y )
64
9.1.6 El R2 se puede expresar de forma alternativa como sigue:
R 2YX * 2 XY (52)
2
Donde:
2YX = Pendiente de la regresión de Y sobre X (antes solo denominada como 2 )
2 XY = Pendiente de la regresión de X sobre Y (Ver explicación pie de pág. 24)
Para demostrar (52) en primer lugar se debe hallar la expresión de 2 XY . Siguiendo el
mismo procedimiento empleado en el numeral 5 para calcular los parámetros del
modelo de regresión simple por MCO, se puede demostrar que la pendiente o 2 de la
regresión de X sobre Y ( 2 XY ) es igual a:
X i Yi X Yi
2 XY Como se puede observar, sigue una estructura similar a (15)
X i2 Y Yi
(Yi Y )( X i X ) Yi* X i*
2 XY (53)
(Yi Y ) 2 Yi
*2
65
Sin introducir cambios a la igualdad anterior, se puede multiplicar a lado y lado por
( X i X ) 2
de la siguiente forma:
( X i X ) 2
(Yi Y )( X i X ) ( X i X ) 2 ( X i X ) 2
2YX * * R *
2
(Yi Y ) 2 ( X i X ) 2 ( X i X ) 2
( X i X ) 2
2YX * 2YX * R2
(Yi Y ) 2
Lo cual es equivalente a:
2
Var ( X )
2YX * R2
Var (Y )
Como este resultado es igual a (49) se demuestra que (52) es una formulación correcta
para calcular el R2
9.2 Propiedades de R 2
66
9.3 Coeficiente de Correlación Lineal (r)
r R 2 (54)
(Y i*X i* ) 2
R2
X i*2 Y *2i
Y i*X i*
r
X i*2 Y *2i
Cov ( X , Y ) Cov ( X , Y )
r
X i*2 Y *2i Var ( X ) * Var (Y )
*
n n
Cov( X , Y )
r (55)
XY
a) Puede ser positivo o negativo, dependiendo del signo de la Cov (X,Y) ya que
siempre X Y > 0
b) 1 r 1
67
Cuando:
r 1 Existe una relación lineal perfecta e inversa.
r 1 Las variables se relacionan perfectamente y de manera directa, la fuerza de
asociación es
r 0 No existe ninguna relación lineal entre las variables.
X
2
Gráfico 12: Relación no lineal entre X e Y con R > 0
68
R 2 es una medida mucho más importante que r ya que nos muestra la proporción de
la variación en Y explicada por la(s) variable(s) exógena(s) es decir que constituye una
medida global del grado en que la variación en una variable determina la variación en la
otra.
Para mayor claridad, aplicaremos estas definiciones al ejemplo del PIB del Cauca
tomado como base a lo largo del texto.
Yi *2 Y *2i U i
2
Las columnas del cuadro 4 se calcularon para cada año por medio de las ecuaciones
(42), (43) y (44) respectivamente, y el lector(a) puede comprobar que la suma de la
SEC y la SEC es igual a la STC.
SEC 2,513658E + 13
R2 0,8909
STC 2,821410E + 13
SRC 3,077525E + 13
R2 1 1 0,8909
STC 2,821410E + 13
70
Teniendo en cuenta la información del Cuadro 2 se puede calcular:
2 Var ( X )
2,5033E 11
R 2 2 4,777 2 0,8909
Var (Y ) 6,4123E 11
Cov (Y , X )
1,19587E 11
R 2 2 4,777 0,8909
Var (Y ) 6,2698E 11
Con estas aplicaciones se muestra la igualdad entre las diferentes expresiones del R 2.
Para este caso concreto se tiene que aproximadamente 89,1% de la variabilidad del PIB
del Cauca (Variable dependiente) es explicada por la variabilidad del Valor Agregado
Industrial en el Departamento (variable explicativa) en el periodo de análisis.
1,19587E 11
r 0,9438
158219,16 * 800768,11
Es decir, el grado de asociación lineal entre las variables PIBC y PIND es de 94,38%
28
Eviews 5.0 Quantitative Micro Software © 1994-2004
71
10. MODELO DE REGRESIÓN LINEAL CLÁSICO NORMAL (MRLC)
Para ello se debe partir del supuesto de normalidad en la distribución de los errores.
E (ε i ) 0
E (ε i ) 2 2
E (ε i ε j ) 0
ε i ~ N (0, 2 )
ε i ~ NIN (0, 2 )
29
Una distribución normal por el Teorema del Limite Central se garantiza con muestras de n 30
72
10.1) PROPIEDADES ESTADÍSTICAS DE 1 , 2 , 2
1) Son insesgados:
E ( 1 ) 1
E ( 2 ) 2
E ( 2 ) 2
3) De acuerdo con Cramér-Rao los k son MEI.
5) 1 esta normalmente distribuido.
E ( 1 ) 1
X i2 2
1 ~ N 1, 2
Var ( 1 ) 2 1
n X *2 i
i
Normalizando Z 1 1
1
1 ~ N (0,1)
73
6) 2 se distribuye normalmente.
E ( 2 ) 2
2 2 ~ N 2, 2
Var ( 2 ) 2
2
2
X i* 2
2
Normalizando Z 2
2
2 ~ N (0,1)
8) 1 , 2 son independientes de 2 En otros términos:
Cov( 1 , 2 ) 0
Cov( 2 , 2 ) 0
30
La distribución Chi cuadrado (de Pearson) denotada 2 N g. de l. parte de la suma de los cuadrados
de N variables aleatorias distribuidas independientemente en forma normal N ~ (0,1) y es utilizada como
prueba de independencia, de bondad de ajuste y, como se empleará más adelante, para probar hipótesis
relacionadas con varianzas de variables aleatorias.
74
Var (Yi ) E Yi E (Yi )
2
Var (Yi ) E Yi Y i
Var (Yi ) E (U i ) 2
Var (Yi ) 2 (56)
A partir de las ecuaciones (13) y (15) pueden estimarse de manera puntual los
parámetros de la regresión, sin embargo, debe comprobarse su significancia estadística
para inferir sobre la relación entre la variable endógena y la dependiente. Una manera
de efectuarlo es a través de Intervalos de confianza y pruebas de hipótesis.
IC : ( k k k ) 1 (57)
0; 0
Donde:
31
Nivel de significancia
1 = Límite de confianza
k = Límite inferior
k = Limite superior
31
Se define así a la máxima probabilidad de cometer el Error de tipo I o también denominado Error tipo
Alfa, es decir, de rechazar una hipótesis nula (H 0) siendo esta verdadera (en la población). Su
complemento se denomina límite de confianza, e indica la probabilidad que el verdadero valor del
parámetro poblacional se sitúe en el intervalo de confianza obtenido.
75
Propiedades
t 2 2 (57)
2
IC : t 2 t t 2 1
2 2
IC : t 2 t 2 1
2
IC : t 2 2 2 t 2 1
2 2
IC : 2 (t 2 ) 2 (t 2 ) 2 1
2 2
Multiplicando por (-1) IC : 2 (t 2 ) 2 2 (t 2 ) 1
2 2
Reordenando IC : 2 (t 2 ) 2 2 (t 2 ) 1 (58)
2 2
32
Recuerde que trabajamos con la varianza muestral como un estimador muy cercano a la varianza
poblacional, en tanto que la población se desconoce o no es susceptible de medición en su totalidad. De
allí el uso de una distribución t-Student para un tamaño de muestra pequeño, que al incrementarse hace
converger la distribución t a la Normal.
76
11. 1.2 Intervalo de confianza para 1
t 1 1 (59)
1
IC : 1 (t 2 ) 1 1 (t 2 ) 1 (60)
1 1
Intervalo para β2
Reemplazando en (58) el valor de 2 y su desviación estándar antes calculados, y
considerando un estadístico tc α /2= 2,021 para 43 grados de libertad y un 0,05 se
tiene:
IC : 317673,3 1 636799,7 : 1
De esta forma se puede afirmar que, en muestreo aleatorio repetido, es decir en el largo
plazo, 95 de 100 intervalos como el construido contienen el verdadero β1 poblacional.
Intervalo para β1
De forma análoga, reemplazando el valor de 1 y su desviación estándar, y trabajando
con el mismo tc y se tiene:
77
IC : 4,26 1 5,29 : 1 Su interpretación es similar a la del intervalo para β2
(n 2) 2
2
(61)
2
IC : 2 2 2 21 2 1
2 (n 2) 2
IC : 2 1 2 1
2
2
2
2
1 21 2
IC : 1
(n 2) 2 2 (n 2) 2
(n 2) (n 2) 2
2
IC :
2
1 (62)
2 2 21 2
Y teniendo en cuenta que (n 2) 2 SRC (ver resultado cuadro 4)
IC : 5,18625E 11 2 1,25973E 11 1
78
En muestreo aleatorio repetido, es decir en el largo plazo, 95 de 100 intervalos como el
construido contienen la verdadera σ2 de los errores.
A) INTERVALOS DE CONFIANZA33
Primero: Deben establecerse las hipótesis: nula y alterna. La prueba será de dos
colas para el caso en que la hipótesis alterna se planteé 1 0 , de cola derecha si
Ho : 1 0
H 1 : 1 0
Segundo: Una vez planteadas las hipótesis, se consideran las ecuaciones de los
intervalos de confianza dadas anteriormente. Para este caso en particular
tomaremos la ecuación (60).
33
La generalización de la prueba de hipótesis a través de intervalo de confianza se realizará con fines
prácticos empleando la notación para 1 , y el lector(a) puede realizarla de manera similar para 2 y para
2
34
H1 se debe plantear atendiendo a un criterio teórico o a la evidencia empírica suministrada por trabajos
precedentes. Para esta notación se asumió la posibilidad de un intercepto mayor o menor a cero.
79
IC : 1 (t 2 ) 1 (t 2 ) 1 1
1 1
B) PRUEBAS DE SIGNIFICANCIA
35
Como es evidente siempre será deseable rechazar la hipótesis nula asociada a la no significancia
estadística de un parámetro. Sin embargo, hay pruebas cuyo planteamiento hace deseable que H o se
acepte, como sucede con la prueba para la normalidad de los errores, expuesta más adelante.
80
PRUEBAS DE SIGNIFICANCIA INDIVIDUAL PARA LOS PARAMETROS
1. LA PRUEBA t
Primero: Al igual que con los intervalos deben establecerse las hipótesis.
Ho : 1 0
H 1 : 1 0 36
1 0 tc tt
1 0 tc tt
1 0 t c t t
36
Nuevamente es necesario recalcar que la hipótesis alterna se formulará bajo criterios objetivos
derivados de la teoría económica o de resultados empíricos. Para ser más claros, si se estima
econométricamente un modelo como la curva de demanda en su versión más simple, por ejemplo, la
pendiente del modelo asociada a la variable Precio del bien o servicio, tendría que tomar el un valor
negativo ya que existe una relación inversa entre cantidades demandas y su propio precio. Por lo tanto se
tendría que efectuar una prueba de cola izquierda.
37
Al tratarse de una prueba de dos colas se trabaja con α/2, cuando es de 1 cola se toma α
81
Considerando los parámetros del modelo de regresión del PIB del Cauca tenemos:
Prueba para β1
1) Ho: β1 = 0
H1: β1 > 0
Es una prueba de cola derecha porque el PIB es una variable económica real
positiva así el valor agregado de un sector específico (en este caso el industrial) sea
nulo.
Prueba para β2
1) Ho: β2 = 0
H1: β2 > 0 Se plantea una prueba de cola derecha por que el PIB es una función
creciente de la oferta (demanda) de cada sector de la economía.
82
11.3 REGLA 2t
Volviendo al ejemplo anterior, como ambos tc son mayores que 2 en valor absoluto
(6,044594 y 18,74075 respectivamente) y los grados de libertad son 43, tanto 1 como
2 son significativos estadísticamente.
Primero: Al igual que con los intervalos de confianza deben establecerse las hipótesis.
H 0 : 2 m donde m > 0
H1 : m2
2t ~ 2 (1
2 ) 2;( n k ) gl
83
Cuarto: Regla de decisión.
2c 2 1 ;( n k ) gl o 2c 2 ;( n k ) gl
1) Ho: σ2 = 1 Suponiendo que los errores sean una variable Ruido Blanco (0,1)
H1: σ2 ≠ 1
(n 2) 2
2)
2
3077525627568
2
c
Para tener mayor claridad sobre el valor asignado a se utiliza el valor P o P-value.
84
11.5.1 P- value o valor P
Es un valor ex - post que indica la verdadera probabilidad de cometer el error tipo I. Así,
siendo t c el estadístico de prueba, entonces el verdadero valor de vendrá dada por la
Tomando un tc = 6,044594 (estadístico para β1) el p valor sería Pr (t > 6,044594) = 0,00,
tabla) Pr (t > 2,021) = 0,05 por lo tanto la probabilidad de un encontrar un t como 6,0445
0,05
2,021
85
STC Yi*2
SEC Y *2i
SRC U i
2
Recordando que STC = SEC + SRC, la tabla ANOVA hace lo propio con sus grados de
libertad, donde (k-1)+(n-k) = n-1
La última casilla de la Tabla Anova servirá para realizar la prueba F que determina la
significancia conjunta de los estimadores de un modelo.
86
Primero: se plantean las hipótesis
Ho : 1 2 ... k 0
H 1 : Al menos un k 0
22 X i*2
Fc k 1
U 2
nk
Ft ~ F((nkk1),) 5%
Tercero: se obtiene un F de tabla
38
Recordando que F es un cociente de varianzas
39
La prueba F y la prueba t son sustitutas para modelos de regresión simple
87
13. PREDICCIÓN PUNTUAL Y MEDIA
PREDICCIÓN MEDIA
Yi es un estimador de E(Yi /X i ) , si suponemos que X i X 0 entonces E(Yi /X i X 0 ) Y i ,
esta es una predicción media ya que parte del valor esperada; así entonces:
2
1 (X X )
Yi ~ N 1 2 X i ; 0 *2 (58)
2
X i
Yi
n
IC : Y i (t 2 )(de(Y i )) Y i (de(Y i ))(t 2 ) Y i 1 (59)
PREDICCIÓN PUNTUAL
Si Yip Yi puntual entonces:
2
1 (X X )
Var (Yip ) 0 *2 (60)
n X i
PRUEBA JARQUE-BERA
Sirve para corroborar la distribución de los errores
A 2 (k 3) 2
JBc n
6 24
JBt ~ X 22gl;
JBc JBt RH 0
88
14. REGRESIÓN A TRAVÉS DEL ORIGEN
Y i 2 X i i (61)
Si tomamos (8):
Min (Yi Y i ) 2
Min (Yi 2 X i ) 2
2
ui
2 (Yi 2 X i )( X i ) 0
2
2
ui
2 X i (Yi 2 X i ) 0
2
X i (Yi 2 X i ) 0
X i Yi 2 X i2 0
X i Yi
2 (62)
X i2
ui
2
(n 1)
Var ( 2 )
X i2
2
Var ( 2 ) (63)
X i2
(Y iX i ) 2
RS2 (64)
X i2 Y 2i
Donde:
89
2
RS2 = R simple: Se pueden generar valores negativos, ya que las sumas de los
cuadrados no están ajustadas por la media, así que no hay garantía de que STC>SRC.
2
De hecho, SRC>STC si: ( 2 X i ) 2 Y 2i haciendo que R S genere valores negativos.
Los modelos estudiados hasta el momento, cumplen con los supuestos del modelo
MCO, sin embargo, en la economía la mayoría de modelos utilizados no cumplen con
algunos de esos supuestos, como por ejemplo la linealidad en los parámetros. Estos
casos se estudiaran a continuación.
MODELO LOG-LOG
Los modelos log-log se caracterizan por mostrar el cambio relativo en Y cuando cambia
relativamente X.
Q 1 P 2 eUt (65)
ln Qt ln 1 2 ln Pt t
Una vez que la función se ha linealizado (ln), puede aplicarse MCO para su estimación.
No obstante, esta claro que los parámetros al mostrar cambios relativos deben
interpretarse como elasticidades (a excepción de 1 ).
ln Qt
2 PX (66)
ln Pt
Q f Qi
%Qt Qi
PX
% Pt Pf Pi
Pi
90
Qi
Q Q P Q P
PX i * *
Pi P Q Q P
Pi
Q P ln Q
PX *
Q P ln P
MODELO LOG-LIN
Yt Y0 (1 r ) t (67)
ln Yt ln Y0 (1 r ) t
ln Yt ln Y0 t ln(1 r )
1 lnY 0 2 ln(1 r )
ln Yt 1 2 t U t
2 esta dado por:
ln Yt
2
t
Yt
Yt
2
t
Y Y
2 t t
t
(Yt 1 Yt ) Yt
2 (68)
t 1 t
91
Un 2 definido como en (65) es una tasa de crecimiento, ya que este parámetro
MODELO LIN-LOG
Yt 1 2 ln X t t (69)
Yt Yt
2
ln X t Yt
Yt
X
Yt 2 t
(70)
Xt
MODELOS RECIPROCOS
Este tipo de modelo se usan cuando se sabe por teoría o experiencia que la relación
entre las variables es inversa (m<0), muestran la relación inversa entre Yt y X.
1
Yt 1 2 t (71)
Xt
92