You are on page 1of 26

GUIA DE STATA

En primer Lugar se debe adecuar la base de datos, para pasarla a STATA. Variables Dicotmicas Variables numricas sin separadores.

Para cargar los datos, cliqueamos el botn data Editor en la barra de herramientas. Inmediatamente despus se despliega una ventana con una cuadricula similar a Excel, en la que se proseguir a montar la base de datos.

Se seleccionan los datos de la hoja de datos en Excel. Situado en la celda ubicada en la parte superior izquierda del <<Data Editor>> en STATA, Clic derecho Paste, para pegar los datos. En forma similar situndose en la misma celda y usando la combinacin de teclas <<CTRL + v>> tiene el mismo efecto. En la ventana variables (parte inferior izquierda de la pantalla) aparecer las variables que se acaban de importar.

Para poder realizar en anlisis, es necesario cerrar el <<Data Editor>>. Recuerde Siempre cerrar el Editor de datos (data Editor)

Antes de realizar un anlisis estadstico, primero una breve referencia a como guardar y abrir los datos y los resultados. STATA utiliza dos tipos de archivos:

Archivos con extensin .dta que son los que utiliza para guardar los datos (las variables y sus valores. Archivos .do que se utilizan para guardar rutinas y para guardar los resultados obtenidos al hacer el tratamiento a los datos.

Para guardar los datos prosiga de la siguiente forma: Acceda al Menu File save as

Al hacer esto aparecer un cuadro de dialogo en el que se indicara el destino o lugar donde se van a guardar los datos. Luego de indicar el nombre y destino, se da clic en guardar.

Para recuperar los datos al iniciar a trabajar de nuevo, en la pantalla principal se utiliza el botn open (abrir) (botn amarillo) y se busca donde se guardaron los datos con anterioridad.

Por otro lado, para guardar los resultados, se prosigue as. En la barra de herramientas se da clic en el botn New Do file Editor, abriendo una nueva ventana con una hoja en blanco, con el titulo en la parte superior untitle.do.

En la ventana de resultados del STATA se seleccionan los resultados, y luego se copian. Posteriormente en el archivo do en blanco que se abri antes se da clic derecho paste.

Ahora en el men file save as. Se indica la ubicacin donde se desea guardar.

Para recuperar los resultados se prosigue de nuevo desde el botn New do file editor. Y se da clic en el botn abrir (botn amarillo) y se ubica donde se guardo el archivo.

Para estimar el modelo de regresin, se escribe el siguiente comando en la ventana comand de la pantalla principal de STATA: Reg Y X1 X2 X3 Xk Donde las palabras en Rojo son comandos de STATA, y las palabras en Azul son nombres de variables dadas por el usuario. A su vez, Y es la variable dependiente del modelo y x1 a xk son las variables independientes del mismo. En este caso particular se tiene: reg valormconstruccion puntaje edad tipo2 tipo3 tipo5 estrato2 estrato3 estrato5 localidad7 localidad8 localidad9 localidad11 localidad16 localidad19

Oprimimos la tecla Enter Para Ejecutar el comando. Inmediatamente aparecern los resultados del modelo estimado.

Ahora se prosigue a ejecutar el mismo comando, pero esta vez eliminando las variables dictomas que generaran problemas de multicolinealidad perfecta (aparecen con el texto dropped), haciendo imposible el calculo matemtico de modelo. Para hacerlo, se puede escribir el comando como en la instruccin anterior, o se puede cliquear en la lista de comandos en la venta review el ltimo comando ejecutado, y borrar en la ventana comand las variables con el texto dropped.

De esta forma, el modelo estimado seria:

En Forma similar se prosigue a eliminar las variables no significativas (que no sirven) del modelo. Para esto se estima la regresin borrando del comando a ejecutar las variables que tengan un Valor P mayor a 0.10 (el valor P se observa en la tabla de salida de la regresin en la columna P>|t|. Este procedimiento se ejecuta de mayor a menor, borrando una sola variable, la que tenga el valor P mas alto

En el ejemplo se elimina la variable Localidad8 por presentar el mayor valor P.

Se prosigue igual hasta que todas las variables tengan un Valor P inferior a 0.1.

Se prosigue entonces a hacer las pruebas de normalidad de los Errores. Para esto se deben calcular los errores (residuales) del modelo. En la ventana comand se digita el siguiente comando: predict erroresmodelo, resid

Donde el texto en azul, erroresmodelo es el nombre que el usuario asigna a la variable que esta calculando. No se puede asignar nombres que correspondan a comandos de STATA ni nombres con espacios. Al ejecutar el comando (oprimiendo la tecla enter) aparecer en la ventana de variables una nueva variable con el nombre que el usuario asigno (En este caso erroresmodelo) Luego de calcular los residuales se prosigue a efectuar las pruebas de normalidad.

Para efectuar la prueba de normalidad Shapiro-Wilk se utiliza la siguiente ruta en el men Summaries, tables, & Test Distributions Plots & test Shapiro-Wilk Normality test

Aparecer un cuadro de dialogo en el que se seleccionara la Variable sobre la que se realizara la prueba de normalidad.

En pantalla aparecern los resultados del Test. Tomando como criterio de decisin un valor de la columna Prob>z inferior a 0.05, que indicara ausencia de normalidad (no normalidad) de los errores del modelo. En este Caso el valor es superior a 0.44662 por lo que el supuesto de normalidad se cumple.

En forma anloga esta prueba puede realizarse utilizando el comando swilk erroresmodelo Con la palabra swilk como nombre de comando de STATA y erroresmodelo (en azul) como variable a la que se aplica el test.

En caso que la prueba indique la presencia de no normalidad se utilizan los residuales studinizados. Que sirven para eliminar los datos atpicos que generan el problema de no normalidad. Para esto se calculan los errores studinizados utilizando el siguiente comando: Predict errorestudinizados, rstudent Donde errorestudinizados (en azul) es el nombre (cualquiera) que el usuario le asigna a los residuos studinizados. En forma anloga desde la ruta Men Statistics Lineal Models and related postestimation Predictions, residuals, etc.

Aparece una ventana donde se indica en el campo New variable name el nombre de la nueva variable, y se cliquea OK. Aparecer en la ventana variables la nueva variable con el nombre que se le indico (errorestudinizados en este caso)

Para eliminar los Datos atpicos se prosigue ingresar al Data Editor. Se da clic en el rotulo (nombre) de la variable que corresponde los residuos studinizados y se da clic en el Botn Sort (esto con el

fin de ordenar la base de datos utilizando como referencia la variable studinizados previamente calculada)

Luego se prosigue a eliminar los registros que en la variable errorestudinizados este por fuera del intervalo (-2,2). Para eliminar un registro se selecciona con el indicador numero de registro en la parte izquierda de la pantalla en el ejemplo (aunque no es necesario realizar este procedimiento porque no existen problemas de normalidad) se selecciona el primer registro porque esta fuera del rango indicado. Luego se cliquea el botn Delete en la parte superior, apareciendo un cuadro de dialogo que pide al usuario confirme la accin a realizar. En este caso se selecciona la opcin <<Delete observation 1>>, porque se desea borrar la observacin 1 y finalmente clic en el botn OK.

Ahora se prosigue a calcular de nuevo los residuos del modelo sin la presencia de los datos atpicos que generaban el problema de no normalidad. Se calcula entonces de nuevo la regresin con el Comando reg: Ntese que es la ltima regresin que se haba calculado (con todas las variables significativas, es decir las que quedaron luego de eliminar todas las que tenan valor P superior a 0.1). Se vuelve a calcular la regresin porque los coeficientes tomaran un valor diferente porque cambiaron elementos de la muestra.

Ahora se calculan los residuos del nuevo modelo. Se utiliza de nuevo el comando predict, asignando ahora un nombre diferente a la variable. En este caso Erroresmodelo2.

Se calcula de nuevo la prueba shapiro-Wilk desde el men Statistics o utilizando el comando:

Se repite el mismo procedimiento (calcular los residuos studinizados, eliminar datos atipicos, calcular el nuevo modelo, calcular los errore del nuevo modelo y aplicar la prueba de normalidad shapiro-wilk) hasta que la prueba arroje un p Valor (prob<z) Mayor a 0.05)

Para determinar si se cumple el supuesto de Homocedasticidad se prosigue a la aplicacin de la prueba de white. Dicha prueba puede realizarse desde el men: Statistics Lineal Models and related regression Diagnostics Specification Test, etc

Se selecciona las opciones Information Matrix test (imtest) y <<Perform Whites Original Heteroskedsticity test) situados en la parte superior e inferior del cuadro de dialogo abierto. Clic en el botn OK.

A esta prueba tambin puede Accederse con el comando estat imtest, white. Obteniendo un resultado idntico.

El criterio de decisin ser nuevamente un valor p (Prob > chi2) superior o inferior a 0.05. Con un valor inferior que indicara la presencia de heteroscedasticidad (ausencia de homoscedasticidad) y un valor superior que indicara que se cumple el supuesto. Para el ejemplo el valor P es de 0.0459. En caso que la prueba indique la presencia de heterocesdasticidad puede utilizarse otro test para verificar el resultado. Puede utilizarse la prueba Breusch-Pagan. Para acceder a esta prueba se

puede utilizar el comando estat hettest; o acceder desde el men Statistics Lineal Models and related regression Diagnostics Specification Test, etc:

t Se selecciona la opcion test for Heteroskedasticity (hettest) y se da clic en OK, obteniendo un resultado similar a este:

De nuevo el criterio de decisin es que sea superior a 0.05. En el ejemplo es 0.51 lo que indica la ausencia de heteroscedasticidad (es decir se cumple el supuesto de homocesdasticidad). Si la nueva pruba corroborara la presencia de heteroscedasticidad, se pueden utilizar los errores estndar robustos, que se utilizaran para realizar las pruebas de significancia individual realizada en pasos anteriores. Para efectos de este ejercicio acadmico solo se calcularan pero no se realizaran dichas pruebas. Para calcular la regresin con errores estndar robustos se utiliza el comando de regresin que se ha utilizado hasta ahora, seguido de una coma y la palabra robust:

reg valormconstruccion puntaje localidad7 localidad9 localidad11 localidad19, robust

Ahora, para detectar problemas de multicolinealidad (violacin del supuesto de no multicolinealidad) se prosigue a Calcular El VIF (Variance Inflation Factors) que es una prueba utilizada para ese efecto (detectar multicolinealidad). La multicolinealidad es la correlacin (relacin estadstica) entre las variables exgenas o independientes del modelo. Para acceder a esta prueba desde el men: Statistics Lineal Models and related Diagnostics Specification Test, etc: regression

En forma anloga puede utilizarse el comando estat vif. Obteniendo los siguientes idnticos. En la pantalla de resultados del STATA se obtienen un resultado semejante. El criterio de decisin en este caso es que el valor del Mean vif sea superior a 10, indicando esto la presencia de multicolinealidad.

En caso que hubiese Multicolinealidad debe proseguirse a: Eliminar las variables que generan el problema (las que tienen el valor en la columna VIF mas alto) estimar el modelo con una forma funcional diferente.

Para estimar el modelo con una forma funcional diferente (por ejemplo log-log, log-lin, lin-log, etc) se deben calcular o generar nuevas variables con el comando: Gen nombredelanuevavaraible= Expresin Donde nombredelanuevavaraible (En azul) es el nombre que la persona quiera asignarle a la nueva variable. Generalmente este nombre indica la transformacion que se le hace a la variable original para generar la nueva (por ejemplo lnmetrocuadrado para indicar que la variable lnmetrocuadrado es igual al logaritmo natural de la variable (original) metrocuadrado). Por su parte Expresin (tambin en azul) indica la transformacin que se le hace a la variable original. Por ejemplo: Gen edadpor2= edad*2 Para indicar que la variable con nombre edadpor2 ser calculada tomando la variable edad y multiplicndola por la cosntante 2. Y, Gen lnmetrocuadrado= ln(metrocuadrado) Para indicar que la variable lnmetrocuadrado ser calculada como el logaritmo natural de la variable metro cuadrado. Al presionar la tecla enter luego del comando, aparecer en la ventana variables la variable generada.

Luego de generar las variables se estima el modelo como de costumbre con el comando reg explicado antes en este documento. Se deberan realizar de nuevo las pruebas de significancia individual, normalidad y heteroscedasticidad para el nuevo modelo. Entre las posibles transformaciones que generalmente se hacen se encuentran: Nombre del modelo Log-log Log-lin Lin-log Variable dependiente En logaritmo En logaritmo Sin transformar Variables independientes En logaritmo Sin transformar En logaritmo

Cabe sealar que con cada uno de estos modelos cambia la interpretacin de los coeficientes.

La auto correlacin esta definida como la relacin que tienen los errores del modelo entre si (los errores para una observacin estn relacionados con los errores de otra observacin). STATA no tiene definida una prueba para calcular la correlacin del modelo economtrico. Sin embargo puede hacerse uso de una variable ficticia para hacerle creer a STATA que los datos provienen de una muestra de datos de tipo series de tiempo (es decir una muestra que contiene valores en diferentes momentos del tiempo para la misma variable, como por ejemplo la inflacin calculada por el DANE una para cada mes). Para hacer esto primero se debe verificar el nmero de registros que se tienen en la base datos. Para esto accediendo al data editor se observa el nmero de registro (observacin, datos, etc.) con que se dispone.

Ahora en Excel, en una columna se crea una serie de datos que va desde el 1 hasta el nmero de registros que tiene en la base de STATA (en este caso 79). Para hacerlo se digitan algunos valores de la serie (en el ejemplo se digitaron de 1 a 4), se seleccionan y se sita el puntero del ratn en la esquina inferior izquierda de esa seleccin. Se debe notar como el puntero cambia de aspecto y toma la forma de una cruz negra. Se da clic sostenido (sin soltarlo) y se arrastran los datos hasta que se complete la serie con el nmero deseado (en este caso 79)

El resultado Seria:

Se prosigue entonces a pasar esta nueva variable a Excel. Se prosigue igual que al principio de este documento, se selecciona la variable t con todos sus datos (en el ejemplo del 1 al 79) se copia y se lleva al editor de datos (Data Editor) de STATA En el editor de Datos, se pueden observar todas las variables utilizadas a lo largo de la estimacin de modelo, las ultimas variables a la derecha muy seguramente ser las estimaciones de los residuales (errores) del modelo. Lo que se busca es situarse con el ratn al lado derecho de la ltima variable y en la fila correspondiente al primer registro. Tal como indica la grafica abajo. Situacin en dicha celda, se da clic derecho y se selecciona la opcin Paste (pegar). De esta forma se creo una nueva variable con el nombre t que posibilitara la realizacin de la prueba de auto correlacin Breusch-Godfrey. Recuerde Cerrar el Editor de Datos.

Ahora se le indicara a STATA que la nueva variable es el indicador de una serie de datos temporales (primer registro corresponde al primer periodo (por ejemplo enero), segundo registro al siguiente periodo (febrero) y as en toda la base). Esto se realiza con la instruccin: tsset t Donde t (en azul) es el nombre de la variable indicadora de la serie de tiempo (la que se acabo de agregar al editor de Datos).

Ahora el la ventana de comando se digita la siguiente instruccin para realizar el test:

Arrojando los siguientes resultados. De nuevo el criterio para decir la presencia o no presencia de auto correlacin es que el P valor sea superior o inferior a 0.05 indicado lo primero la ausencia de auto correlacin (cumplimiento del supuesto). En este caso el valor p es de 0.19 lo que indica un buen comportamiento del modelo.

Finalmente para probar la buena especificacin, o la capacidad explicadora del modelo, se prosigue a realizar una ltima prueba, la prueba RESET. Para hacerlo se utiliza el comando estat ovtest

Para que el modelo este bien especificado el Prob>f debe ser mayor a 0.05. Este caso el modelo esta bien especificado.

Preparado por: Jorge Rojas Est. Especializacin en Avalos Universidad Distrital Francisco Jos de Caldas Correo jorge_2317@yahoo.com.ar

You might also like