Practica Stata 14

Entrenamiento Stata 14
Miguel Angel Bello

Instructor
Contenido del curso
Manejo Básico
1. Introducción: 4. Gráficos
•. ¿Qué es Stata? •. Línea
•. Versiones de Stata •. Torta
•. Ventajas y desventajas •. Scatter
•. Histogramas
2. Manejo de la interfaz 5. Análisis de datos
•. Ventanas y Menús •. Estadística básica
•. Tipos de Archivos •. Tablas (frecuencias, cruzadas, etc)
•. Sintaxis de los comandos
3. Manejo de Base de datos 6. Inferencia Estadística
•. Abrir, importar, exportar y guardar datos •. Pruebas sobre la media, varianza y proporciones
•. Creación, transformación, eliminación de variables y •. Intervalos de confianza.
observaciones
•. Filtros
•. Combinar bases de datos
•. Labels (variables y observaciones)
Manejo Intermedio
Regresión lineal Modelos de selección discreta (Logit-Probit)

¿Qué es Stata?
Stata es un paquete estadístico operado por líneas de comando por líneas de comando , por lo
cual se define como un lenguaje de programación, aunque también funciona bajo entorno
grafico (por la barra menú). Ofrece la flexibilidad como también múltiples herramientas para el
manejo de base de datos, y opciones de gráficos, lo cual facilita al principiante aprender a
manejarlo. Adicionalmente, desde el programa se puede acceder a actualizaciones y bases de
datos disponibles en internet.

Versiones de Stata
help limits
Small Stata Versión estudiantil de Stata
Intercooled Stata Versión estándar de Stata
Stata/SE Versión especial de Stata para manejo de

base de datos grandes.
Stata/MP Versión especial de Stata diseñada para

trabajar en equipos con más de un
procesador o núcleo (2 a 32 procesadores).
Ventajas y Desventajas
Ventajas Desventajas
1. Uso combinado de lenguaje de programación 1. Solo esta disponible en el idioma ingles

y ventanas. (programación).
2. Manuales disponibles con información
especializada.
3. Actualización permanente con solo tener
acceso a internet.
4. Libros técnicos especializados con
aplicaciones en Stata.
5. Es usado en las principales instituciones de
investigación, universidades, empresas
públicas y privadas alrededor del mundo.
6. Versiones para sistemas operativos Linux,
Windows y Mac.
7. Módulos especializados para análisis micro y
macro.
8. Programación Matrices
Manejo de la Interfaz de Stata
Ventana de
variables
Ventana de revisión
Ventana de resultados
Ventana de
propiedades
de variables
Ventana de comandos
Menús
Barra de
nombre
Barra de menús
Barra de herramientas
Tipos de archivos
Tipo de Archivo Extensión
Archivos de datos *.dta
Archivos gráficos *.gph
Bitácoras de salida *.smcl
Archivos de comandos *.do
Archivos de programación *.ado
Programación *.mata
Diccionarios *.dct
Sintaxis de los comandos
help syntax
help regress
Manejo de bases de datos
Abrir y exporta una base de datos
Creación de variables
help generate
Operadores lógicos y matemáticos
Tipo de operador Símbolo Descripción
+ Adición
- Substracción
Matemático * Multiplicación
/ División
^ Potencia
! No
Lógico | O
& Y
> Mayor
< Menor
>= Mayor o igual que
Relacionales
<= Menor o igual que
== Igual
!=;~= Diferente
Transformación de variables
help replace
Administrador de variables
Eliminar y conservar variables
Filtros
help browse; help list; help table
Combinar bases de datos
help append
Para combinar dos bases de datos de manera

vertical se debe tener EXACTAMENTE los
mismos nombres en ambas bases de datos
Combinar dos bases de datos
help merge
Labels (Variables & Values)
Gráficos
scatter
Gráficos
Tortas y Barras
Gráficos
Correlaciones
Análisis de datos: Manejo de tablas de datos
help summarize
Produce un cuadro de frecuencias para diferentes valores o categorías de una variable. También permite
generar cuadros de frecuencia de 2 vías, incluyendo la prueba Pearson, donde la hipótesis nula es que estas
dos variables son independientes.
Permite crear tablas de contingencia doble o

múltiple y a su vez definir el tipo de contenido
estadístico para los campos de una tabla
Introducción a la regresión
La regresión como técnica estadística analiza la • A pesar de que el análisis de regresión

¿Qué es? relación de una variable desconocidas a partir de tiene que ver con la dependencia de
una o mas variables conocidas.
una variable respecto a otras variables,
esto no implica causalidad
necesariamente.
• Las ideas de causalidad deben venir de
estadísticas externas y, en último
Estimar y/o predecir el valor promedio poblacional de
termino de una u otra teoría.
la variable dependiente en términos de los valores
¿Para qué •
sirve?
conocidos o fijos de las variables independientes. Para aducir causalidad se deben acudir
Objetivos: Predecir y evaluar su estructura. a consideraciones a priori o teóricas.
Introducción a la regresión
REGRESIÓN
• En el análisis de correlación el objetivo principal es
medir la fuerza o el grado de asociación lineal entre
dos variables. En el análisis de regresión se trata de
estimar o de predecir el valor promedio de una variable
sobre la base de valores fijos de otras variables.
• El análisis de regresión supone asimetría en los
valores, por un lado una variable dependiente aleatoria,
y por otro lado, una variable independiente con valores
CORRELACIÓN
fijos.
Fases del modelo de regresión
Pronóstico
Especificación Estimación Validación
Pruebas individuales.
Partiendo de una función lineal entre dos variables, se
Dependencia lineal
puede estimar una relación de tal manera que la variable
Se debe encontrar una recta que se ajuste a la nube R cuadrado y R cuadrado ajustado.
independiente explique de manera exclusiva el
de punto. Homocedasticidad
comportamiento de la variable dependiente, este modelo
A partir de esta recta podemos usar los valores de X No autocorrelación
de regresión es llamado determinístico
para predecir los de Y. No multioclinealidad
Normalmente se utiliza el método de los mínimos Independencia del error con las variables
Donde β0 y β1, representan respectivamente, el valor
cuadrados que minimiza la distancia de las independientes.
de corte con el eje de las ordenadas cuando la
observaciones a la recta. Modelo bien especificado
variable independiente toma el valor de cero y la
Estabilidad de los coeficientes.
pendiente de la recta de la regresión.
Análisis de regresión: Selección de variables
Analista
¿Qué sucede si no existe ninguna consideración a priori o

teoría para seleccionar las variables del modelo?
Mejor
bondad de
ajuste Mé
t
se odo
ió e
cc d le c s d
le os
n c ió e
se iteri
n
Cr
1. Valor del coeficiente de determinación. Existen diferentes métodos para seleccionar variables
2. Coeficiente de correlación parcial entre independiente.
cada variable independiente y la Los de mayor aceptación son los métodos de selección
dependiente. por pasos (stepwise)
3. El grado de reducción de error típico cada 1. Se selecciona la mejor variable de acuerdo algún
vez que se incorpora una variables. criterio estadístico.
2. A continuación, la mejor de las restantes.
3. Así sucesivamente hasta que no se encuentre
variables significativas.
Métodos de selección de la variables
1. Método hacia delante:
* Las variables se incorporan al modelo de regresión una a una.
* PRIMER PASO: se selecciona la variable independiente que, además de superar criterios de
entrada, presente un alto grado de correlación.
* SEGUNDO PASO: se van incorporando al modelo las variables que posean un coeficiente de
correlación parcial alto en valor absoluto. La selección de variables se detiene cuando no quedan
variables que superen el criterio de entrada.
2. Método hacia atrás

* Comienza incluyendo en el modelo todas la variables independientes, para luego proceder a
eliminarlas una a una.
* PRIMER PASO: se elimina aquella variable que, además de cumplir los criterios de salida,
posee el coeficiente de regresión mas bajo en valor absoluto.
* SIGUIENTES PASOS: se van eliminando las variables con coeficientes de regresión no
significativos. La eliminación de variables se detiene cuando no quedan variables que cumplan los
criterio de salida
3. Pasos sucesivos……es una mezcla de los dos métodos anteriores.

Formas Funcionales de los Modelos de Regresión
• Nota previa
–Supongamos que tenemos una variable y
–Esta variable puede transformarse a Logaritmo natural de y
–La derivada del ln(y) es equivalente a:
• Medir la elasticidad: Modelo Log-Lineal

–Consideremos un modelo de regresión exponencial
• Medir la elasticidad: Modelo Log-Lineal
–Consideremos un modelo de regresión exponencial
La principal característica de este modelo es que el coeficiente que acompaña las variables independientes mide la
elasticidad constante de Y respecto de X, es decir, el cambio porcentual en Y ante un pequeño cambio porcentual en
X . En la notación de cálculo, la elasticidad se define como:
• Medir tasas de crecimiento: Modelo Semilogarítmico Log-Lin
Si se multiplica por 100 , dará entonces el cambio porcentual o la tasa de crecimiento instantánea (en un momento
dado), en Y ocasionada por un cambio absoluto en X. Para estima la tasa de crecimiento compuesta se debe sacar
el antilogaritmo de y restarle uno
• Modelo Lin-Log:
En este caso debe ser divida entre 100 para mostrar un cambio absoluto en Y dado por un cambio en 1% en X.
• ¿Que forma funcional se debe elegir?
–Mirar la bondad de ajuste con un grafico de dispersión con ajuste lineal siempre y cuando sea regresión
simple.
–Sugerencias a partir de la teoría y consideraciones a priori (signos que se deben esperar).
–Comparación e interpretación de coeficientes modelos (tasa de cambio y elasticidad).
–Comparación de R cuadrados ajustados, sin embargo, se debe tener una mayor preferencia por: justificación
teórica, signos de los coeficientes estimados y su importancia estadística.
– En ocasiones no es fácil ponerse de acuerdo con una forma funcional u otra, en tal caso se puede usar las
transformaciones Box-Cox.
Modelos ANOVA
• Inclusión de variables de escala nominal que permiten analizar, manteniendo constantes variables de escala de
razón, el comportamiento de la variable dependiente. Esta variables toman valores artificiales dependiendo de la
presencia o ausencia de un atributo. Las variables que adquieren tales valores 0 y 1 se llaman variables
dicotómicas. Tales variables son, por tanto, en esencia, un recurso para clasificar datos en categorías mutuamente
excluyentes.
• El Modelo ANOVA, es un modelo de regresión que contienen variables explicativas exclusivamente dicótomas o
cualitativas. El modelo tiene la siguiente expresión:
Donde es la variable dependiente, es el valor medio de la categoría base y es el coeficiente de intercepto

diferencial.
Modelos ANOVA
• Para tener en cuenta:
1. No incluir todas las categorías que pueda tener una variables, esto generaría colinealidad perfecta, es decir una
relación lineal exacta entre variables. Es imposible estimar un modelo de este tipo (incluyendo la constante). De
esta manera, si una variable cualitativa tiene m categorías, sólo hay que agregar (m-1) variables dicótomas.
2. La categoría a la cual no se asigna variable dicótoma se conoce como categoría base, de comparación. Además,
todas las comparaciones se hacen respecto de la categoría de comparación.
3. El valor del intercepto representa el valor medio de la categoría de comparación.
4. Los coeficientes que acompañan las variables categóricas se conocen como coeficientes de intercepto
diferencial, debido a que indican la medida en que el valor de la categoría que recibe el valor de 1 difiere del
coeficiente del intercepto correspondiente a la categoría de comparación
Modelos ANOVA
• Interpretación de variables dicótomas en regresiones semilogarítimicas
El intercepto proporciona el logaritmo medio y el coeficiente de la pendiente, la diferencia entre el logaritmo entre las
dos categorías. Si se toma el antilogaritmo de , lo que ahora se tendría no es el valor medio de la variable
dependiente, sino la mediana. Y si se toma el antilogaritmo de (+, se obtiene la mediana de la variable categórica. El
antilogaritmo de es la semielasticidad de la variable dicotómica.
Resumen: Interpretaciones de coeficientes
Forma Funcional Interpretación
Elasticidad: es el cambio porcentual esperado de Y ante un

cambio porcentual en X.
Cambio esperado en nivel en Y ante un cambio porcentual en X.
se debe dividir entre 100 para su interpretación.
Semi-elasticidad: es el cambio porcentual esperado de Y ante un
cambio marginal en X. se debe multiplicar por 100 para su
interpretación.
Efecto marginal: cambio esperado en nivel en Y ante un cambio
marginal en X.
es la media de la categoría que esta como base. es el cambio
diferencial de la categoría que toma el valor de 1 con respecto a
la categoría base.
Exp( es la mediana de la categoría base. Exp(+) es la mediana
cuando la categoría de esta variable toma el valor de 1. Exp()-
1*100 es el cambio porcentual de estar en esa categoría con
respecto a la categoría base.
MODELOS DE SELECCIÓN DISCRETA
Modelos de regresión donde la variable dependiente es binaria o dummy. Por ejemplo:
Un modelo que trata de explicar los factores determinantes de que una familia sea propietaria de
una casa. En particular, cuantificar la relación ingreso y propiedad.
Determinar los factores que afectan a que una persona pague o no pague una deuda con una
institución financiera.
Para el caso de ser propietario de una casa, se selecciona una muestra de hogares y se registra el
ingreso y si la familia es propietaria o no de una casa. El modelo puede expresarse de la siguiente
manera:
Donde Yi=1 si el hogar es propietario de su casa y cero en caso contrario y Xi es el ingreso del hogar i.
Se puede aplicar el técnica de mínimos cuadrados ordinarios, modelo de probabilidad linela –MPL- pero
existen cinco inconvenientes.
1. Las predicciones del modelo no necesariamente estarán entre cero y uno.

2. No normalidad de los errores; considérese el termino de error, para un valor dado de Xi el término del
error solo puede tomar uno de los siguientes dos valores.
Cuando Yi=0 el error seria igual a
Cuando Yi=1 el erro seria igual a
De esta manera los errores no se distribuyen como una normal (Lo hacen como una distribución binomial.
3. Se puede demostrar que los errores son heterocedástico.
4. Coeficientes de determinación muy bajos.
5. Probabilidad marginal constante.
Restricciones del modelo
Solución
1. La probabilidad marginal constante de un cambio
en el ingreso sobre la probabilidad de ser
propietario (Beta). Se esperaría un efecto bajo para
Función de
ingresos muy altos y muy bajos, y un efecto mayor
Función distribución
para ingresos promedio. Esto implicaría una logística normal
acumulada
relación de este tipo: probabilidad de ser propietario
e ingreso.
2. La relación es no lineal.
3. La variable dependiente esta restringida entre cero
y uno.
MODELOS DE SELECCIÓN DISCRETA: Logit
Expresando el modelo explícitamente en Se define la razón de probabilidades (Odds Ratio) como:
términos de probabilidades tenemos
En el caso de la propiedad de las casas representa la
razón de la probabilidad de que una familia posea casa
1
respecto de la probabilidad que no la posea. Por ejemplo,
p si Pi=0.8 significa que las probabilidades son 4 a 1 a
0.8 favor de que la familia posea una casa.
0.6
Si se toma el logaritmo natural de la razón de
0.4 probabilidades se obtiene
0.2
0
X
De esta manera Li resulta lineal X y también en los
parámetros . L es llamado modelo Logit.
MODELOS DE SELECCIÓN DISCRETA: Probit
La aproximación al problema es similar al Logit pero supone una relación no lineal distinta (aunque
muy similar ente Xi y Pi. Se basa en la distribución normal acumulada.
Se supone que la decisión de poseer o no una casa depende de un índice I (Conocido como variable
latente).
El índice I está determinado por una o varias variables explicativas. Por ejemplo, el ingreso. Cuanto
mayor sea el índice, mayor será la probabilidad de tener una casa.
Se supone un umbral critico I* a partir del cuál, si I supera I* entonces una familia posee una casa. El
umbral I*, al igual que I no es observable. Si se supone que esta distribuido normalmente con la
misma media y varianza, es posible estimar los praemtr4os del índice y también alguna información
sobre el I*.
Donde Z es una variable estándar normal, con media cero y varianza constante. F es la
función de distribución de probabilidad acumulada.
De esta manera:
Pi = F(Ii)
1
p
0.8 Pr (I*i≤ Ii)
0.6
0.4
0.2
0
Ii =  + Xi X
Series de tiempo
Muchas de la series de tiempo se comportan en función del tiempo. La

econometría ha desarrollado métodos para el tratamiento de este tipo de datos.
Estos métodos consisten en descomponer la parte determinística y separarla
del componente aleatorio.
• Determinístico: supone que no existe aleatoriedad en la información de la variables,
por lo tanto, cuando se realiza un modelo, se tiene con “certeza toda la información”.
• Estocástico: no existe toda la información disponible, por lo tanto, existe
incertidumbre.
Componentes de una serie de tiempo
•
Es importante reconocer e identificar los patrones de
comportamiento que presenta la serie de tiempo a través de
los periodos, t. Este procedimiento de identificación se llama
descomposición. Una serie de tiempo presenta cuatro
componentes principales; la tendencia, el ciclo, la
estacionalidad y el componente irregular de la serie.
Descomposición: Tendencia
•
Tendencia, : son movimientos a lo largo de una serie de tiempo,
estos movimientos son de largo plazo. La tendencia es el
componente que representa el crecimiento (o la declinación)
subyacente en una serie de tiempo, durante un periodo extenso.
Para una serie de tiempo con tendencia, el nivel de la serie no
es contante, en otras palabras, es una serie no estacionaria
Descomposición: Ciclo
•
Ciclo, : son fluctuaciones en forma de onda alrededor de la tendencia y corresponde a un
componente de largo plazo, por tanto, tienen una duración de más de un año. Las
fluctuaciones indican aumentos y caídas que no tienen un periodo fijo; los ciclos se identifican
por lo general en cinco fases, para el ciclo de los negocio: auge, crisis, recesión, depresión y
recuperación; y para el ciclo de vida de un producto: introducción, crecimiento, madurez,
saturación y declive. Los patrones cíclicos son difíciles de modelar porque sus patrones
generalmente son inestables, al ser difíciles de identificar y complejos de separar de la serie
tendencial, con frecuencia el ciclo de la serie de tiempo se le atribuye como parte de la
tendencia, para formar así un componente , que contiene el componente tendencia-ciclo
Descomposición: Estacionalidad
•
Estacionalidad, : es una serie de tiempo con un patrón de cambio que se
repite a si mismo año tras año. Es un cambio más o menos estable que
aparece regularmente a lo largo del tiempo. En otras palabras es un
componente de corto plazo que se repite periódicamente en periodos
inferiores a un año (casa “S” periodos). Para datos anuales, la
estacionalidad no tendría sentido estimarla porque no existe la posibilidad
de modelar un patrón con datos que se recopilan una vez por año.
Descomposición: Irregular
•
Irregular, : es un componente de corto plazo que captura las
fluctuaciones impredecibles o aleatorias que se presentan por
sucesos inusuales y no corresponden a los tres componentes
antes mencionados, por lo tanto, su comportamiento es un efecto
residual de la serie de tiempo.
Modelos de predicción determinista
Promedio móvil simple: se utiliza para suavizar una series, es decir, elimina
los picos de una serie, en otras palabras elimina los componentes de corto
plazo para visualizar mejor los de largo plazo (tendencia y ciclo). También se
utiliza para pronosticar. El promedio móvil es un modelo de pronóstico cuyo
nuevo valor incorpora la información mas reciente y elimina la observación
mas antigua.
•
Promedio móvil doble: una manera de pronosticar los datos de las series de tiempo que
tienen una tendencia lineal es usar promedios móviles dobles.
, es un factor de ajuste adicional, es similar a la medida de cambio a lo largo de la serie.

•
Modelo de suavizamiento exponencial: es un modelo de pronóstico cuyo nuevo valor es un promedio
ponderado de los valores actuales y pasados. A diferencia del promedio móvil, el suavizamiento incluye toda
la información disponible y pondera mas las observaciones recientes.
La expresión anterior representa la fórmula del suavizamiento exponencial donde α corresponde a la
constante de suavizamiento o factor de ponderación, es decir, determina el grado de influencia sobre el
pronóstico de la observación mas reciente ; representa el valor de la serie en el periodo t. es el valor
pronosticado de la serie en el periodo t y es el valor a predecir de la serie en el periodo siguiente

•
Método de Holt: modelos de dos parámetros, este método
suaviza la estimación de la tendencia de la serie de tiempo.
•
Método de Holt-Winter: el método de suavización exponencial lineal y estacional de tres parámetros de Winters, es
una extensión del método de Holt que podría representar mejor los datos y reducir el error del pronóstico cuando
existe un patrón de estacionalidad. En el método de Winters se emplea una ecuación adicional para estimar la
estacionalidad
Resumen: Métodos de predicción determinista
NO ESTACIONALIDAD CON ESTACIONALIDAD
• PROMEDIO MÓVIL • ADITIVO ESTACIONAL.

SIMPLE.
• MULTIPLICATIVO
SIN TENDENCIA • SUAVIZAMIENTO EXPONENCIAL.
EXPONENCIAL SIMPLE
• PROMEDIO MÓVIL • ADITIVO HOLT-WINTERS.

DOBLE.
• MULTIPLICATIVO HOLT-
CON TENDENCIA • SUAVIZAMIENTO WINTERS.
EXPONENCIAL DOBLE.
¿Qué modelo evaluar?
• MAD “Desviación media absoluta”: Mide la exactitud

del pronóstico , promediando la magnitud de los
errores.
• MSE “Error cuadrático medio”: Sanciona errores

grandes en la elaboración de pronósticos.
• RMSE “Raiz cuadrada MSE”

¿Qué modelo evaluar?
• MAPE “Error porcentual absoluto medio”
• MPE “Error porcentual medio”: Mide el sesgo

del pronóstico.
• Coeficiente de desigualdad de Theil: Permite

analizar la bondad de ajuste del modelo. un
coeficiente cercano a cero, indica igualdad
entre el valor observado y el valor estimado.
Teoría económica de los modelos de series de tiempo
•
• Si el objetivo es explicar el valor que toma, en un momento determinado del
tiempo, un fenómeno económico que muestra dependencia temporal, un
procedimiento factible consiste en recoger información sobre su evolución a lo
largo del tiempo, y explotar el patrón de regularidad que muestran los datos.
• Para construir un modelo de series de tiempo, lo único que se necesita es la
información muestral de la variable a analizar.
• Si se desea explicar el comportamiento de una variable temporal Yt, un modelo
de series temporales puede plantearse como:
• AR(1) Modelo autorregresivo
• AR(1) Modelo autoregresivo
El coeficiente mide el grado de asociación lineal entre Yt y Yt-k, siendo k el orden del rezago. Ahora se
aplica varianzas a cada lado:
•
Algunas características de las series financieras
1. Fuertes tendencias.
2. Difícil de distinguir tendencias y ciclos.
3. Ciclos estocásticos, difíciles de predecir.
4. Comportamientos estacionales marcados
5. Oscilaciones muy erráticas, no hay tendencias ni ciclos obvios.
6. Covariaciones sugerentes.
7. Cambios estructurales.
Algunas características de las series financieras
La serie muestra: La serie muestra:

Un perfil creciente (tendencia). Una fluctuación estable en torno a una media
Fluctuaciones estacionales. nula.
Una variabilidad que crece a medida que Muestran periodos de alta y baja volatilidad.
aumenta el nivel de la serie
Los primeros y segundos momentos (media y varianza) de distintas series temporales pueden
comportarse de formas muy diferentes.
Las series temporales de naturaleza similar (por ejemplo, financieras) a menudo presentan rasgos
comunes que son de gran utilidad para analizarlas.
Conceptos básicos
• Proceso estocástico es un conjunto de variables aleatorias asociadas a distintos instantes de tiempo de

manera sucesiva. Una serie de tiempo es la realización particular de un proceso estocástico.
• Serie temporal es un conjunto de observaciones o medidas realizadas secuencialmente en intervalos

predeterminados y de igual, o aproximadamente igual, duración.
• El objetivo del análisis de series temporales es inferir la forma del proceso estocástico a partir de las
series temporales que genera.
• Proceso estocástico estacionario es cuando los parámetros como media y varianza son constantes en el
tiempo y los valores de la covarianza entre dos periodos no depende del tiempo sino de la distancia o
rezago que hay entre dos periodos.
Principales hipótesis
• Los supuestos más comunes son:
–Linealidad, el valor que toma hoy la serie (o el proceso) depende linealmente de sus valores pasados y los
valores presentes y pasados de otras series.
–Estacionariedad, la media y varianza incondicional de una serie (o proceso) son constantes, las
autocovarianzas entre dos valores solo dependen de la distancia temporal que los separa. Formalmente:
–Normalidad, el proceso estocástico generado sigue un modelo normal de distribución de probabilidad.

Procesos estocásticos elementales
•• Proceso puramente aleatorio o Ruido Blanco.

Es el proceso mas aleatorio que existe. Es por construcción estacionario. Es una colección de
variables aleatorias con media cero y no correlacionadas entre ellas.
Un proceso ruido blanco no es posible pronosticar utilizando modelos ARIMA. Un proceso Ruido
Blanco no tiene memoria, es decir, que el último dato conocido recoge toda la información histórica
disponible.
• Paseo aleatorio, un paseo aleatorio representa una variable cuyos cambios son ruido blanco y,
por tanto, imprevisibles. La característica fundamental de este proceso es la falta de afinidad de
las series a una media estable.
Procesos estocásticos elementales
•• Modelos de series de tiempo
Hasta el momento t-1 se tiene los valores pasados de la serie y las innovaciones pasadas.
Según la información disponible, hay tres tipos de modelos:
Modelos de medias móviles (MA)
Modelos autoregresivos (AR)
Modelos Mixtos (ARMA)

Modelos ARIMA
• SUPUESTOS:
1. Toda serie de tiempo ha sido generada por un proceso estocástico cuya naturaleza puede
ser caracterizada o descrita mediante un modelo.
2. Dicho modelo no se presenta en los términos tradicionales de una relación y de otras
variables sino en esta caso el valor de la serie depende de su pasado, es decir, de sus
propios rezagos.
3. Se requiere que la serie a modelar sea estacionaria.
•.FASES DEL MODELO:
1. Identificación
2. Estimación
3. Validación del modelo
4. Pronóstico
Fase de identificación
• Proceso estadístico que genero la serie, para identificar el proceso se requiere de
herramientas graficas y estadísticas.
–Grafico
–Correlograma: representación grafica del diagrama de dispersión entre los coeficientes de
correlación y el orden del rezago. A medida que aumenta el orden del rezago, el coeficiente de
autocorrelación tiende a cero.
-1 0 1
El área que esta entre las líneas punteadas corresponden

a los intervalos de confianza. .
Cuando esta dentro de la banda significa

estadísticamente que es cero.
•• Estadístico Q-Prueba conjunta
• Estadístico LB pero para muestras pequeñas- Ljung Box

• El correlograma sirve para:
• Saber si es Ruido Blanco
• Estacionaria->Converge a cero rápidamente después de que los

tres primeros rezagos son no significativos.
• Estacional -> presenta coeficientes de autocorrelación simple
significativos de forma periódica asociados al orden de la
estacionalidad.
•• Prueba de raíz unitaria o Test Dickey Fuller
–Este test sirve para probar si la serie es o no es estacionaria. La aplicación de la

metodología Box-Jenkins precisa la utilización de seres económicas estacionarias en
varianza y en media.
La presencia de una raíz unitaria en una serie de tiempo económica revela directamente
inestabilidad de la misma, siendo necesario transformarla para poder trabajar con ella.
Series estacionarias
• La serie debe ser estacionaria para la metodología de Box-Jenkins
1. Tendencia
1. Lineal->Primera diferencia
2. Tendencia cuadrática->Segunda diferencia
2. Varianza-> logaritmo
3. Tendencia y varianza no son constantes->diferencia logarítmica
4. Estacionalidad->Diferencia estacional
Una serie no es estacionaria cuando:

–.TendenciaMedia no constante TODO RUIDO BLANCO ES ESTACIONARIO.
–.Varianza explosiva-volátil-no constante UNA SERIE ESTACIONARIA NO SIEMPRE ES RUIDO BLANCO.
–.Estacional
Proceso estocástico que genero la serie
•
• Se requiere analizar simultáneamente las funciones FAS Y FAP
–FAS->conjunto de datos que representa una función de autocorrelación y su comportamiento
(rompe o no rompe la banda)
–FAP->mide el grado de asociación lineal entre Yt y Yt-k manteniendo constante las

correlaciones de rezagos intermedios.
–Modelos ARIMA
• Ar(p)->
• Ma(q)->-> en función de una constante y varios términos de error hasta el rezago q.
• ARMA(p,q)->
• ARIMA(p,d,q)-> d, es el número de veces que se tuvo que diferenciar la serie para que fuera estacionaria.
Modelos autorregresivos de orden 1: AR(1)
• Un proceso autorregresivo de primer orden, Ar(1), representa una variable cuyo valor actual esta relacionado con su
valor anterior mediante un modelo de regresión.
• El modelo incorpora la última observación, el proceso Ar(1) se reconoce por una ACF infinita y una PACF que se
anula a partir del segundo retardo. Si los datos tienen media, es necesario especificar un término constante
Modelos de Medias Móviles de orden q: MA(q)
•• El modelo incorpora la información de las últimas q innovaciones.
• Sus características básicas son:

–Siempre estacionario
–Solo q innovaciones pasadas entran en el modelo
–La función de autocorrelación se corta tras q retardos
–Las innovaciones persisten q periodos.
Un proceso de medias móviles de primer orden MA(1), representa una variable cuyo valor actual está
relacionado con el valor actual y anterior de las innovaciones mediante un modelo de regresión. El
modelo incorpora la innovación actual y anterior
Modelos de Medias Móviles de orden q: MA(q)
El proceso MA(1) se reconoce por una PACF

Infinita y una ACF que se anula a partir del
segundo retardo
Procesos Mixtos: ARMA (p,q)
•
Incluyen p retardos de la propia variable y q innovaciones pasadas.
Parte autorregresiva. Parte de medias móviles.

Responsable de la estacionariedad. Responsable de la invertibilidad.
Responsable de la estructura de la función de Responsable de la ausencia de estructura
autocorrelación. de la función de autocorrelación.
En resumen, sobre las funciones de autocorrelación
ACF
Finita Infinita
Finita Ruido Blanco AR

PACF
Infinita MA ARMA
Ajuste por Arch(p)
• Generalmente se supone que la varianza de una serie cronológica es constante, y el

serlo es una condición necesaria para que una serie de tiempo sea estacionaria. Sin
embargo, en ocasiones no es así; en particular tratándose de la volatilidad de las series
financieras se presenta el fenómeno de heterocedasticidad, es decir, la varianza de la
serie tiene cambios sistemáticos a través del tiempo. Para estos casos se diseñaron los
modelos ARCH (Autorregresivo condicional heterocedástico) y los modelos GARCH
(generalización de los modelos ARCH). Estos modelos permiten estimar una ecuación
de varianza que se supone deja de ser constante debido a choques o innovaciones
aleatorias.
Ajustes por Betas GARCH(p,q)
•• El precio de un activo se distribuye como una log normal, partiendo de este supuesto
se tiene:
+
Modelos ARCH (q), modelo de la varianza del error en función de los errores rezagados
Para garantizar que exista reversión a la media, la sumatoria de debe ser menor que
uno. Esta sumatoria se conoce como persistencia del modelo. Entre mas cerca a 1,
implica que los choques aleatorios que afectaron el modelo son más persistentes y
tardaran mucho tiempo en desaparecer.
Ajustes por Betas GARCH(p,q)
• El modelo GARCH (p, q), se describe de la siguiente manera:
Además de incluir en la especificación los errores rezagados tienen en cuenta las varianzas del modelo
Un modelo GARCH (1,1) se describe de la siguiente manera:
Existe homocedasticidad, es decir, no existe efecto ARCH ni GARCH
Volatilidad de ayer, la varianza de hoy es mayor si ayer se obtuvo grandes perturbaciones.
Varianza de la predicción de ayer, el efecto persiste por mucho tiempo.

Datos panel o longitudinales
Un conjunto de datos panel consta de una serie temporal para cada miembro del corte transversal en el
conjunto de datos.
La característica principal de los datos panel, que los distinguen de las combinaciones de cortes
transversales, es el hecho de que se da seguimiento a las mismas unidades transversales ya sean individuos,
países, regiones, entre otros durante cierto periodo de tiempo.
La ventaja es que al tener las mismas unidades es posible controlar ciertas características inobservables de
individuos. Otra ventaja es que permite estudiar la importancia de los rezagos en el comportamiento o el
resultado de tomar una decisión.
Usar estos comando
Xtdescribe
Xtsum
Xttab
Xttrans
Análisis de datos panel Xtline
xtdata
El principal objetivo de aplicar y estudiar los datos en panel, es capturar la heterogeneidad no observable,
ya sea entre individuos como en el tiempo, dado que esta heterogeneidad no se puede detectar ni con
series de tiempo ni tampoco con modelos de corte transversal.
La heterogeneidad no observable: puede partir de los efectos individuales específicos y los efectos
temporales.
Los efectos individuales específicos son aquellos que afectan de manera desigual a cada uno de los
individuos los cuales son invariables en el tiempo y que afecten de manera directa las decisiones que tomen
dichas unidades.
Los efectos temporales serian aquellos que afectan por igual a todas las unidades individuales del estudio
pero que no varían en el tiempo.
Combinación de corte transversales en el tiempo
Métodos simples
Combinación independiente de cortes transversales
Muchos estudios de personas, familias y empresas se repiten a intervalos regulares, a menudo cada año. Si se extrae
una muestra aleatoria en cada periodo, al combinar los resultados de cada muestra se obtiene una combinación
independiente de cortes transversales. Este es un aspecto clave también en el análisis de corte transversal
(independencia muestral) ya que excluye la correlación en los términos de error para distintas observaciones.
Una razón para utilizar una combinación independiente de cortes transversales es que el tamaño de muestra se
incremente. Al combinar muestras aleatorias extraídas de la misma población, pero en distintos puntos del tiempo, se
obtienen estimadores mas precisos y estadísticos con mayor potencia de prueba. Este tipo de combinación es útil a
este respecto sólo en la medida en que la relación entre la variable dependiente y al menos algunas de las variables
independientes permanece constante con el paso del tiempo.
Métodos simples
• reflejar el hecho de que es posible que la población tenga distintas distribuciones en diferentes periodos, se
Para
permite que el intercepto difiera a través de los periodos. Esto se consigue fácilmente si se incluyen variables binarias
para todos los años excepto una, la primera, que se elige como año base de la muestra. A veces resulta de interés el
patrón de coeficientes de la variables binarias temporales.
MIREMOS UN EJEMPLO: Fertilidad de las mujeres en el tiempo. Estime el siguiente modelo con la base de datos
llamada FERTIL 1. Encuesta nacional para los años pares desde 1972 hasta 1984. Se busca estimar un modelo que
explique el número total de hijos que tiene una mujer.
Métodos simples
Preguntas:
 ¿Qué variables no son estadísticamente significativas?
 ¿Qué ha ocurrido con la tasa de fertilidad respecto al tiempo?
 ¿Qué pasa con las mujeres que tienen un mayor número de años escolares?
 ¿Cuál es la edad en que la mayoría de las mujeres han dejado de tener hijos?
Métodos simples
•
También se puede interactuar una variable binaria anual con las variables explicativas que son clave para ver si el
efecto de esa variable ha cambiado a lo largo de un cierto periodo.
Ejemplo: CAMBIOS EN LA RENTABILIDAD DE LA EDUCACIÓN Y EN LA DIFERENCIA DE SALARIO POR GÉNERO)
Preguntas:
 ¿Qué es y ?-> Intercepto de 1978 e Intercepto de 1985.
 ¿Qué es y ?->Impacto de la Educación en 1978 e Impacto de la Educación en 1985.
 ¿Qué es y ?->Diferencia de Salario entre las mujeres y los hombre en 1978.

Métodos simples
Prueba de Chow para el cambio estructural en el tiempo
Es simplemente una prueba F, se utiliza para determinar si una función de regresión múltiple difiere en dos grupos.
Esta prueba también se puede aplicar a dos periodos diferentes. Para este caso, se puede interactuar cada variable
con una variable binaria anual para cada uno de los años y se prueba la significancia conjunta de la variable binaria
anual y de todos los términos de interacción. En caso de que se tengan mas periodos de análisis, por lo general es
mas interesante permitir que los interceptos cambien con el tiempo y luego probar si los coeficientes de las pendientes
han sufrido cambios en el tiempo, de esta manera se puede realizar el siguientes estadístico de prueba.
CORTE TRANSVERSAL COMBINACIÓN DE CORTES

Métodos simples
Análisis de Políticas con Combinación de Cortes Transversales
Contexto
El rumor de que se construiría un nuevo incinerador de Basura en North Andover comenzó después de 1978 y la
construcción inició en 1981. Se esperaba que el incinerador entrara en operación poco después del comienzo de su
construcción; en realidad comenzó a operar en 1985. Se utilizarán datos sobre los precios de las casas que se
vendieron en 1978 y otra muestra de aquellas que se vendieron en 1981. La hipótesis es que el costo de las casas
ubicadas cerca del incinerador estaría por debajo del precio de las viviendas mas lejanas. Se considera que una casa
está cerca del incinerador si se halla en un radio de 3 millas.
Métodos simples
•
Especificación del estimador DIF en DIF
Dado que es un modelo de regresión simple sobre una sola variable binaria, el intercepto es el precio de venta promedio
de las casas que no están cerca del incinerador y el coeficiente acompañado de la variable es la diferencia entre el precio
promedio de las casas cercanas y aquél de las casas lejanas.
 ¿Cómo distinguir entonces si el incinerador reduce el valor de la vivienda?
La clave es considerar la forma en que el coeficiente de nearin cambia entre 1978 y 1981
Métodos simples
 • ¿Cómo saber si es estadísticamente significativa?
Entonces es el precio promedio de una casa no cercana en 1978. El parámetro captura los cambio de valor de todas las
casas de 1978 a 1981. mide el efecto de la ubicación que no se debe a la presencia del incinerador y mide la
disminución en el valor de las casas debida al nuevo incinerador, siempre y cuando se suponga que las casas, tanto las
cercanas como las lejanas al incinerador, no se revalorizaron a tasas distintas por otras razones.
 Ahora incluya age y age2
 Ahora incluya age, age2, intst, land, área, romos y baths. ¿Qué sucede con nearinc? Esto indica que las
características incluidas capturan en buena medida las características de las casas que resultan más importantes para
determinar el precio de la vivienda.
 Ahora utilice logprice o logrprice para obtener el efecto de manera porcentual.

Métodos simples
La • metodología empleada en el ejemplo anterior cuenta con numerosas aplicaciones, en especial cuando los datos surgen de un
experimento natural (o de un cuasiexperimento). Un experimento natural tiene lugar cuando algún evento exógeno, a menudo un cambio
en las políticas gubernamentales, modifica el ambiente en que se desenvuelven los individuos. Un experimento de esta índole siempre
cuenta con un grupo de control, que no se ve afectado por el cambio de las políticas , y un grupo de tratamiento, que sí se ve afectado
por este cambio. A diferencia de un experimento verdadero, en el cual los grupos de control y de tratamiento se eligen de manera
aleatoria y explicita, en los experimentos naturales los grupos surgen a partir del cambio de una política en particular. Para controlar las
diferencias sistemáticas entre estos dos grupos, se necesitan datos de dos años, un año antes y otro después del cambio de la política.
Sea C el grupo de control y T el grupo de tratamiento, donde dT es igual a 1 para los miembros del grupo de tratamiento y 0 en caso
contrario. De esta manera, suponiendo que d2 indica una variable binaria para el segundo periodo (después del cambio de política), la
ecuación que nos interesa es:
mide el efecto de la política, sin otros factores en la regresión, será el estimador de diferencia en diferencias:
Métodos simples
Ejemplo de Estimador de Diferencia en Diferencias

Antes Después Antes-Después
Control
Tratamiento
Tratamiento-Control
El parámetro será el estimador de diferencia en diferencias, algunas veces llamado efecto promedio del tratamiento (debido a que
mide el efecto del “tratamiento” o la política sobre el resultado promedio de y), puede estimarse de dos maneras: i) calcular las
diferencias de los promedios entre los grupos de tratamiento y control para cada periodo, y luego obtener la diferencia de los
resultados respecto al tiempo y ii) calcular el cambio en los promedios respecto al tiempo para cada uno de los grupos de tratamiento y
de control, y después determinar la diferencia entre estos cambios, lo cual simplemente se escribe .
Métodos simples
•
Análisis de datos de panel para un periodo de dos años
Una manera de utilizar datos de panel es clasificar los factores no observables, que influyen en la variable
dependiente, en dos tipos: aquellos que son constantes y aquellos que varían con el tiempo. Considerando que i es la
unidad de corte transversal y t el tiempo, se puede escribir un modelo con una sola variable explicativa observada
como:
Modelo de efectos
inobservables
Modelo de efectos fijos
En la notación , i denota el individuo y t indica el periodo. La variable es una variable binaria que es igual a cero
cuando t=1 y a uno cuando t=2; no cambia en i, razón por la cual no tiene subíndice i. Por consiguiente, el intercepto
para t=1 es , y el intercepto para t=2 es . La variable captura todos los factores inobservables (heterogeneidad
individual), constantes en el tiempo, que influyen en . El error con frecuencia se llama error idiosincrático o error
variable en el tiempo.
Métodos simples
• ese caso como se estimaría ?: una posibilidad es tan solo combinar los dos años y utilizar MCO, sin embargo se
¿ en
pueden presentar dos inconvenientes, el más importante es que para hacer MCO genere un estimador consistente
de , tendría que suponer que el efecto inobservable , no se correlaciona con .
En la mayoría de las aplicaciones, la razón principal para reunir datos de panel es permitir que el efecto inobservable ,
se correlacione con las demás variables explicativas. Resulta que es muy fácil propiciar esto: como , es constante en
el tiempo se pueden diferenciar los datos a lo largo de los dos años. De manera más precisa, para la observación de
corte transversal i, se pueden denotar los dos años como:
Si se resta la segunda ecuación de la primera se obtiene:

Datos de Panel
Estimación de efectos fijos
•
Supuestos para los efectos fijos
1. Para cada i, el modelo es:
Donde los son los parámetros a estimar y es el efecto
2. Se tiene una muestra aleatoria en la dimensión de corte transversal.
3. Cada variable explicativa cambia con el tiempo (al menos para cada alguna i), y no existe una relación lineal perfecta entre las variables
explicativas.
4. Para cada t, el valor esperado del error idiosincrático, dadas las variables explicativas en todos los periodos y el efecto inobservable, es
cero:
Con base en los primeros cuatro supuestos, los cuales son idénticos a los supuestos del estimador de primeras diferencias, el estimador
de efectos fijos es insesgado. De nuevo, la clave es el supuesto de exogeneidad estricta, 4. Bajo estos mismo supuestos, el estimador de
EF es consistente con un T fijo conforme N
5. =
Datos de Panel
6. • Para todo ts , los errores idiosincráticos no están correlacionados (de manera condicional en todas las variables
explicativas y en ): Cov
Con base en estos seis supuestos, el estimador de efectos fijos de los es el mejor estimador lineal insesgado. El supuesto que hace
que EF sea mejor que PD es el último supuesto, lo que implica que los errores idiosincráticos no se correlacionan serialmente.
7. De manera condicional en y en los son independientes e idénticamente distribuidos como Normal (0, )
El supuesto 7 implica los supuestos 4,5 y 6, pero es más fuerte, ya que supone una distribución normal para los errores idiosincráticos. Si se
agrega 7, el estimador de EF se distribuye normalmente y los estadísticos t y F tienen distribuciones exactas t y F. Sin 7, se puede confiar en
las aproximaciones asintóticas. Pero, sin hacer suposiciones especiales, estas aproximaciones requieren una N grande y un T pequeño.
Datos de Panel
•
Transformación de efectos fijos
Ahora para cada i, se promedia la ecuación en el tiempo y se obtiene
La transformación de efectos fijos también se llama transformación intragrupal (within)
• Bajo el supuesto de exogeneidad estricta sobre las variables explicativas, el estimador de efectos fijos es insesgado: aproximadamente, el error
idiosincrático no debe correlacionarse serialmente con ninguna variables explicativa en todos los periodos. El estimador de efectos fijos permite la
correlación arbitraria de y las variables explicativas en cualquier periodo, al igual que las primeras diferencias.
• El otro supuesto necesario para que el estimador por MCO directo sea valido es que los errores , sean homocedasticos y no estén serialmente
correlacionados (en t)
• El R-Cuadrado within se interpreta como la cantidad en la variación temporal en que se explicar por la variación temporal en las variables explicativas.
Datos de Panel
•
Regresión de Variables Binarias
Un punto de vista tradicional respecto del modelo de efectos fijos es suponer que el efecto inobservable, , es un parámetro que debe
estimarse de cada i. Por tanto, en la ecuación, , , es el intercepto para el individuo i que debe estimarse junto con las .
La forma que se estima un intercepto para cada i es asignar una variable binaria para cada observación de corte transversal, junto con
las variables explicativas.
Algunos paquetes econométricos que soportan la estimación de efectos fijos reportan un “intercepto”, lo cual puede crear confusión en
vista de que el tiempo deducido elimina todas las variables constantes en el tiempo. Los reportes de un intercepto general en le
estimación de efectos fijos surgen de considerar como parámetros a estimar. El intercepto reportado es el promedio en i de las En
otras palabras, el intercepto generalmente es, en realidad, el promedio de los interceptos específicos individuales, el cual es un
estimador insesgado y consistente.
Datos de Panel
•
EFECTOS FIJOS O PRIMERAS DIFERENCIAS
 Cuando se tiene T=2, las estimaciones, así como todos los estadísticos de pruebas son idénticos.
 Cuando se tiene T3, los estimadores no son los mismos. En virtud de que ambos son insesgados, con base en los
supuestos 1 a 4, no es posible utilizar el insesgamiento como criterio. Para N grande y T pequeño, la elección entre
estimadores depende de su eficiencia relativa, y esto esta determinado por la correlación serial de los errores
idiosincráticos, .
 Cuando las no se correlacionan serialmente, los estimadores de efectos fijos son mas eficientes que los de primeras
diferencias.
 El hecho teórico importante es que en el estimador de PD el sesgo no depende de T, mientras que el sesgo en el
estimador de EF tiende a cero a razón de 1/T.
 Por lo general resulta difícil elegir entre estimadores de EF y PD cuando generan resultados sustancialmente distintos.
Datos de Panel
Estimación de efectos aleatorios
•
Supuestos para los efectos aleatorios:
Los supuestos ideales de efectos aleatorios comprenden los supuestos de efectos fijos (1,2,4,5,6 “7 se podría agregar a la lista, pero
es poco practico porque se debe estimar ). Como solo se esta restando una fracción de los promedios en el tiempo, ahora se puede
permitir variables explicativas constantes. Así el supuesto 3 se reemplaza con:
1. No existen relaciones lineales perfectas entre las variables explicativas
El costo de permitir regresores constantes en el tiempo es que se deben añadir supuestos acerca de cómo se relaciona el efecto inobservable, , con las
variables explicativas.
2. Además del supuesto 4, el valor esperado de dada todas las variables explicativas es constante: |
Este es el supuesto que rige la correlación entre el efecto inobservable y las variables explicativas, y es la distinción fundamental entre los EF y EA. Como se
supone que no se correlaciona con ninguno de los elementos es posible incluir variables explicativas constantes en el tiempo.
3. Además del supuesto 5, la varianza de dada todas las variables explicativas, es constante: |
 Con base en los seis supuestos de efectos aleatorios, el estimador de EA es consistente y se distribuye asintóticamente como normal.
 Para los coeficientes de las variables explicativas que cambian en el tiempo, el estimador de EA es mas eficiente que el de EF.
Datos de Panel
Se• comienza con el mismo modelo de efectos inobservables donde se incluye, de manera explicita, un intercepto de modo que se puede
suponer que el efecto inobservable, , tiene media cero.
Esta ecuación se estima cuando se da por sentado que el efecto inobservable no se correlaciona con ninguna variable explicativa.
Si se define el término de error compuesto como , entonces se tendría: Como esta en el error compuesto en cada periodo, las se
correlacionan serialmente en cada periodo de tiempo.
Para eliminar la correlación serial en los errores se requiere la transformación por MCG de la siguiente manera:
;
Datos de Panel
•
EFECTOS ALEATORIOS O EFECTOS FIJOS
 Dado que los efectos fijos permiten una correlación arbitraria entre y las , mientras que los efectos aleatorios no, se considera
ampliamente que los EF constituyen una herramienta más convincente para las estimación de los efectos ceteris paribus. No
obstante, los efectos aleatorios se aplican en ciertas situaciones. Evidentemente, si la variable explicativa clave es constante en el
tiempo. Desde luego, sólo se puede utilizar EA debido a que se esta dispuesto a suponer que no se correlacionas con .
 Sigue siendo común ver a investigadores que aplican tanto EF como EA, y luego prueban de manera formal las diferencias
estadísticas significativas en los coeficientes de las variables explicativas que cambian con el tiempo. Hausman propuso este tipo
de prueba, donde la Ho es aplicar EA o EF indistintamente y la Ha es aplicar EF. “se debe hacer una distinción entre una diferencia
significativa en la practica y una diferencia estadísticamente significativa”
Modelos econométricos para datos panel
El •modelo general viene determinado de la siguiente manera:
Error compuesto, efecto no observado y error idiosincrático.
Bajo supuestos distintos sobre el intercepto y los componentes de error, el modelo puede ser.
1. Modelo agrupado (Pooled): Si el intercepto es constante, y no hay heterogeneidad entre individuos. Exogeneidad
Cov(, )=0
2. Modelo de efectos fijos: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0
3. Modelo de efectos aleatorios: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0
Modelos econométricos para datos panel
La principal diferencia entre efectos fijos y

aleatorios es que el primero supone que las
variables explicativas se correlacionan con el
efecto no observado fijo en el tiempo (el que
denominamos ai) por lo que se transforma el
modelo para eliminar dicho efecto fijo.
Pero el modelo de efectos aleatorios supone

que no se correlaciona el efecto con la(s)
variable(s) explicativa(s) del modelo por lo que
no se elimina el efecto fijo, si no se elimina el
efecto fijo éste queda en el término de error.
Dado que el efecto fijo no varía en el tiempo
pero si por individuo, el error de cada individuo
en el periodo t está correlacionado con el error
del mismo individuo en el periodo t-1, t-2....
(dependiendo del número de periodos).
Regresión Pooled
La regresión agrupada se evalúa sin tener en cuenta de que los datos son datos de panel
agrupados.
Comandos:
*global
*sort (i) (t)
*reg, vce (ckuster id)
*predict, resid
*correlate
Comandos:
*xtreg, fe
*xttest3
*xtserial
*xtregar
Estimación del modelo de efectos fijos
Es• una estimación a través de la transformación within, tomando la desviación respecto a

la media en el tiempo para cada individuo con el propósito de eliminar .
Media temporal al interior de cada observación (Modelo intragrupos)

Comandos:
*xtreg, re
*xttest1
*xtserial
*xtregar
Estimación del modelo de efectos aleatorios
La estimación se puede realizar mediante tres métodos: el primero hace énfasis en

evaluarlo en primeras diferencias, el segundo por el método de mínimos cuadrados
generalizados y tercero con el método Between.
¿Qué modelo escoger?
Para elegir el mejor modelo a estimar se puede hacer una prueba con el comando
hausman FE RE, sigmamore.
La hipótesis nula de esta prueba es que la diferencia de los coeficientes no es sistemática,

de otra manera no existe diferencia entre los modelos fijos y aleatorios, se podría evaluar
cualquier de los dos modelos. Por otro lado, si se rechaza la hipótesis nula, la mejor
manera para estimar el modelo seria efectos fijos.
Análisis Multivariante: Análisis Discriminante
El análisis discriminante se usa para estimar la relación entre una variable dependiente categórica y un
conjunto de variables independientes en escala de intervalo.
Las técnicas de Análisis Discriminante se describen por el número de categorías contenidas en la

variable de estudio:
• 2 categorías: Análisis Discriminante de 2 grupos
• 3 o más categorías: Análisis Discriminante Múltiple
La diferencia principal entre AD de 2 grupos y AD múltiples es que con el primero sólo es posible
estimar una función discriminante mientras que con el segundo más de una función puede ser
computada.
FUNCIÓN DISCRIMINANTE: combinación lineal de variables independientes generadas por el

Análisis Discriminante que mejor segregue entre las categorías de la variable dependiente.
• Nominal: nombres o clasificaciones que se utilizan para datos en categorías distintas y separadas.
Distintas y separadas hace referencia a variables que pueden registrarse exclusivamente.
• Ordinal: son las que clasifican las observaciones en categorías con un orden significativo.
• Intervalo: medidas en una escala numérica en la cual el valor de cero es arbitrario pero la diferencia
entre valores es importante.
• Razón: medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia
entre valores es importante.
•
Modelo de análisis discriminante:
Donde:
D: valor discriminante (discriminant score)
b’s: coeficientes discriminantes (o pesos)
X: predictores (o variables independientes)
1. Formular el problema
2. Estimar los coeficientes de la función discriminante
3. Determinar la significancia de la función discriminante
4. Interpretar los resultados
5. Evaluar la validez del análisis discriminante

• Formulación del problema: objetivos, variables de interés y variables independientes.
NOTA IMPORTANTE: respecto a las variables independientes, recordar que su criterio de

selección debería fundamentarse en la teoría, investigación previa o en la experiencia del
investigador (en casi de análisis exploratorio).
• Dividir la muestra en dos parte: muestra de análisis y muestra de validación (validación cruzada)
Estimar Análisis Discriminantes (Canónico Lineal)
• Análisis discriminante lineal canónico (candisc)
candisc
Análisis: cómo sólo hay dos grupos, sólo una función discriminante es calculada.
Open
Describe o F2
Grafico de dispersión entre tamaño del lote e ingreso
Análisis Discriminante: tablas de confusión

Estimar los coeficientes
• Estimar análisis discriminante (canónico lineal)
Candisc if, group()
Análisis: cómo sólo hay dos grupos, sólo una función discriminante es calculada.
• Resumir media y desviación estándar de las variables según categoría visit para la muestra de análisis.
Estat grsummarize, n mean sd cv
Análisis: determinar la variable que ofrece una separación significativa entre grupos.
• Revisión matriz de correlación agrupada (within-group)

Estat correlations, within p
Análisis: la matriz de correlación indica la fuerza y nivel de significancia entre las predictoras.
• Realiza ANOVA para estimar la significancia individual
ANOVA: técnica estadística para examinar la diferencia entre las medias para dos o más poblaciones.
Estat anova
Análisis: la significancia estadística del estadístico F.

• Estimar función discriminante
Estat canontest
Análisis:
– eigen-valor(el valor propio asociado y la varianza explicada). para cada función discriminante, el valor
propio es la razón entre las sumas de cuadrados de los grupos between y within. Eigenvalores altos
implican funciones superiores)
– Correlación Canónica. Mide la extensión de la asociación entre los valores discriminantes y los grupos. Es
una medida de asociación entre la función discriminante y el set de variables dummy que definen la
pertenencia a un grupo.)
Determinar la significancia de la función discriminante.
Análisis: o Ho: Las medias de los grupos son iguales en la población son iguales para todas las
funciones discriminantes.
• SPSS -> Wilk’s (lambda) ->transformación chi2 -> valor p
• Stata -> Likelihood ratio -> transformación F -> valor p -> Valor p =.0001, Ho se rechaza, luego es
significativa la discriminación y por tanto puede procederse a interpretar los resultados.
Interpretación de resultados
Interpretación de los resultados Análisis: la interpretación de los coeficientes discriminantes es similar a la de los coeficientes de
regresión lineal múltiple.
• Coeficientes de la función canónica discriminante.

estat loadings, unstandardized
• Coeficientes estandarizados de la función canónica discriminante.

• Estructura canónica (o cargas canónicas, o cargas discriminantes)
• (Correlaciones estructurales: también conocidas como cargas discriminantes, representan las correlaciones simples entre las
predictoras y la función discriminante)
• Medias de grupo en las variables canónicas (o centroides)

• (Correlaciones estructurales: también conocidas como cargas discriminantes, representan las correlaciones simples entre las predictoras
y la función discriminante)
• (Centroide: es el valor medio de los valores discriminantes (D) para un grupo en particular
Validez Análisis Discriminante
Razón de éxito (hit ratio): el porcentaje de casos clasificados correctamente por el análisis discriminante.
• Tabla de clasificación (o matriz de confusión).

Original
Validación cruzada
(estat classtable, looclass)
Sobre base de validación (no de análisis):
(predict scores, classification -> hallar razón de éxito manualmente)
Miguel Angel Bello
miguel.bello@software-shop.com

Practica Stata 14

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Practica Stata 14

Uploaded by

Copyright:

Available Formats

Entrenamiento Stata 14

Miguel Angel Bello

Regresión lineal Modelos de selección discreta (Logit-Probit)

manejo de base de datos, y opciones de gráficos, lo cual facilita al principiante aprender a

manejarlo. Adicionalmente, desde el programa se puede acceder a actualizaciones y bases de

datos disponibles en internet.

Small Stata Versión estudiantil de Stata

Intercooled Stata Versión estándar de Stata

Stata/SE Versión especial de Stata para manejo de

Stata/MP Versión especial de Stata diseñada para

1. Uso combinado de lenguaje de programación 1. Solo esta disponible en el idioma ingles

Tipo de operador Símbolo Descripción

Para combinar dos bases de datos de manera

Permite crear tablas de contingencia doble o

La regresión como técnica estadística analiza la • A pesar de que el análisis de regresión

¿Qué sucede si no existe ninguna consideración a priori o

2. Método hacia atrás

3. Pasos sucesivos……es una mezcla de los dos métodos anteriores.

• Medir la elasticidad: Modelo Log-Lineal

Donde es la variable dependiente, es el valor medio de la categoría base y es el coeficiente de intercepto

3. El valor del intercepto representa el valor medio de la categoría de comparación.

Elasticidad: es el cambio porcentual esperado de Y ante un

1. Las predicciones del modelo no necesariamente estarán entre cero y uno.

Muchas de la series de tiempo se comportan en función del tiempo. La

, es un factor de ajuste adicional, es similar a la medida de cambio a lo largo de la serie.

la información disponible y pondera mas las observaciones recientes.

La expresión anterior representa la fórmula del suavizamiento exponencial donde α corresponde a la

constante de suavizamiento o factor de ponderación, es decir, determina el grado de influencia sobre el

pronóstico de la observación mas reciente ; representa el valor de la serie en el periodo t. es el valor

pronosticado de la serie en el periodo t y es el valor a predecir de la serie en el periodo siguiente

NO ESTACIONALIDAD CON ESTACIONALIDAD

• PROMEDIO MÓVIL • ADITIVO ESTACIONAL.

• PROMEDIO MÓVIL • ADITIVO HOLT-WINTERS.

• MAD “Desviación media absoluta”: Mide la exactitud

• MSE “Error cuadrático medio”: Sanciona errores

• RMSE “Raiz cuadrada MSE”

• MAPE “Error porcentual absoluto medio”

• MPE “Error porcentual medio”: Mide el sesgo

• Coeficiente de desigualdad de Theil: Permite

• AR(1) Modelo autoregresivo

La serie muestra: La serie muestra:

• Proceso estocástico es un conjunto de variables aleatorias asociadas a distintos instantes de tiempo de

• Serie temporal es un conjunto de observaciones o medidas realizadas secuencialmente en intervalos

• Los supuestos más comunes son:

–Normalidad, el proceso estocástico generado sigue un modelo normal de distribución de probabilidad.

•• Proceso puramente aleatorio o Ruido Blanco.

Modelos de medias móviles (MA)

Modelos autoregresivos (AR)

Modelos Mixtos (ARMA)

El área que esta entre las líneas punteadas corresponden

Cuando esta dentro de la banda significa

• Estadístico LB pero para muestras pequeñas- Ljung Box

• Saber si es Ruido Blanco

• Estacionaria->Converge a cero rápidamente después de que los

–Este test sirve para probar si la serie es o no es estacionaria. La aplicación de la

• La serie debe ser estacionaria para la metodología de Box-Jenkins

Una serie no es estacionaria cuando:

–FAP->mide el grado de asociación lineal entre Yt y Yt-k manteniendo constante las

• Ma(q)->-> en función de una constante y varios términos de error hasta el rezago q.

•• El modelo incorpora la información de las últimas q innovaciones.

• Sus características básicas son:

El proceso MA(1) se reconoce por una PACF

Parte autorregresiva. Parte de medias móviles.