You are on page 1of 15

Introdução ao SAS

CE 731 – Econometria II
Prof. Alexandre Gori Maia
Instituto de Economia - UNICAMP

Ementa
Leitura de Arquivos
Manipulação de Arquivos
Análises Descritivas
Regressão Linear

Bibliografia
CENAPAD. 2012. SAS Programação I – Introdução ao SAS: DATA Step e
PROC Step. Disponível em
1
http://www.cenapad.unicamp.br/servicos/treinamentos/sas.shtml
SAS. 2012. SAS Product Documentation. Disponível em
http://support.sas.com/documentation/index.html
Estrutura de Análise - SAS
• O primeiro passo é obter um arquivo em formato de trabalho
do SAS (SAS Dataset). Este arquivo pode ser convertido a
partir de um arquivo externo (.TXT, .XLS, .DBF, .SAV, ...) ou
originado de outro Dataset (.SAS7BDAT);
• A partir de um Dataset de entrada, executamos rotinas com
procedimentos (PROC Step) para obtermos os resultados
estatísticos desejados;
Output
Tela

Arquivo DATA SAS PROC


Externo Step DataSet Step
Output
DataSet
2
Manipulação de dados
Procedimentos Estatísticos
Leitura de Arquivos – Datalines
• O comando DATA cria e/ou manipula um arquivo de dados no
SAS. O comando INPUT especifica o nome das variáveis a
serem lidas;
• Com a opção DATALINES, podemos criar um arquivo de dados
no SAS digitando os valores de suas variáveis na própria janela
de comandos;
Nesse exemplo, o arquivo
poluição conterá 4 variáveis
(Sigla, CO2, GDP e Setor2) e 6
observações. A variável Sigla é
alfanumérica (comando $) e
as demais são todas
numéricas. 3
Leitura de Arquivos – Colunado
• Quando os valores das variáveis estão dispostos em colunas
fixas, podemos especificar a coluna inicial e final de cada
variável no comando INPUT;

Por exemplo, o conteúdo da


variável GDP começará a ser
lido na 10ª coluna e terminará
na 16ª coluna.

4
Leitura de Arquivos – Textos
• Pode ser mais conveniente ler os dados diretamente de um
arquivo texto, especialmente quando temos muitas
observações. Para isso, incorporamos o comando INFILE, que
permite especificar o nome do arquivo texto onde estão os
dados;
O arquivo Dados_CO2.txt
contém todos os valores das
variáveis em formato texto.

No comando INFILE, precisamos especificar o


endereço físico onde consta o arquivo de
entrada. O comando RUN finaliza o comando 5
DATA. É necessário na ausência do comando
DATALINES;
Leitura de Arquivos – Textos
Colunados
• Caso os valores das variáveis estejam em colunas fixas em um
arquivo texto, devemos especificar a coluna inicial e final de
cada variável no comando INPUT;
O arquivo
Dados_CO2_Colunado.txt contém
os valores das variáveis dispostos
em colunas fixas.

Por exemplo, os valores da


variável Setor2 começarão a ser
lidos na 34ª coluna de cada linha
e terminarão na 38ª coluna; 6
Leitura de Arquivos – Excel
• Arquivos Excel (XLS) e em
outros formatos podem ser
lidos de duas formas.
Primeiramente, através do
módulo interativo;

Selecionando as
opções
File/Import
Data...,
entramos em
uma caixa de
diálogo que
permitirá
7
importar o
arquivo
Dados_CO2.xls
Leitura de Arquivos – Excel
• Arquivos Excel (XLS) e em outros formatos podem
também ser lido através do procedimento (PROC) de
importação de dados (IMPORT);
Observem que a primeira linha dos
dados do arquivo Dados_CO2.xls
contém o nome das variáveis.

A opção DBMS identifica o tipo de arquivo a ser importado.


A opção REPLACE sobrescreve o arquivo poluição caso ele já
exista. O comando SHEET especifica a planilha contendo os 8
valores das variáveis e GETNAME informa se os nomes das
variáveis estão presentes na linha (primeira) de valores.
Manipulando Arquivos - Dataset
• Um arquivos com o formato de leitura do SAS é
denominados DATASET;
• Para gerar um dataset a partir de outro dataset, utilizamos
a opção SET do comando DATA;

O dataset poluição2 será criado a


partir de uma cópia do dataset
poluição. Além das variáveis já
presentes no dataset poluição, serão
criadas três outras variáveis:
CO2dollar, poluido e grupo. Os
símbolos /* e */ delimitam,
respectivamente, o ínicio e fim de
qualquer comentário inserido nas
linhas de comando.
9
Manipulando Arquivos - Libname
• Arquivos dataset podem ser salvos fisicamente em qualquer
local de destino. Estes serão reconhecido pela extensão
.SAS7BDAT;
• Para especificarmos o local de destino (nome da bilbioteca)
onde será salvo um dataset, utilizamos o comando LIBNAME;
• Quando não especificamos o local de destino de um dataset,
o SAS os salva autmoaticamente em um local provisório
(libname WORK), que é limpo toda vez que se encerra o SAS;
O dataset poluição2 será salvo
na pasta C:\TEMP com o nome
POLUICAO2.SAS7BDAT. Toda vez
que nos referirmos ao libname
CE442 na programação, o SAS
procurará arquivos com a 10
extensão SAS7BDAT na pasta
C:\TEMP .
Estatísticas Descritivas - FREQ
• O procedimento FREQ gera frequências simples ou
combinadas para variáveis qualitativas (nominais ou ordinais);
Gera distribuição simples de frequências para a
variável poluido.

Gera distribuição combinada de frequências (tabela


cruzada para as variáveis grupo e poluido. A primeira
variável (grupo) aparecerá nas linhas e a segunda
(poluido) nas colunas.

11
Estatísticas Descritivas – ODS
GRAPHICS
• Gráficos associados a procedimentos estatísticos podem ser
facilmente criados utilizando o comando ODS GRAPHICS;
• Antes de iniciarmos o procedimento estatístico, devemos
habilitar a elaborações dos gráficos com o comando ODS
GRAPHICS ON. Após o término do procedimento , devemos
encerrar a elaboração com ODS GRAPHICS OFF;
• Adicionalmente, devemos também especificar o destino dos
gráficos (arquivo RTF, HTML, entre outros);
Será criado o arquivo FREQ_POLUICAO.RTF
contendo gráficos descritivos da distribuição
frequëncias para a variável poluído. É preciso
finalizar tanto a geração de gráficos (ODS
12
GRAPHICS OFF) como a geração do arquivo
rtf (ODS RTF CLOSE).
Estatísticas Descritivas – Univariate
• O procedimento UNIVARIATE gerá estatísticas descritivas
univariadas para variáveis quantitativas;
• O comando ODS GRAPHICS pode ser também aplicado para
gerar gráficos descritivos;
Serão geradas estatísticas descritivas
(média, variância, quantis, entre
outras) para as variáveis CO2, GDP e
Setor2. O comando HISTOGRAM
elaborará histogramas para as variáveis
CO2 e GDP. Adicionalmente, será criado
o arquivo UNIVARIATE_POLUICAO.RTF
contendo os resultados e gráficos das
análises.
13
Regressão Linear – REG
• O procedimento REG estima modelos de regressão linear por
mínimos quadrados
• Devemos especificar a variável dependente e as variáveis
independentes no comando MODEL;
• Caso deseje gerar gráficos para o ajuste, você pode utilizar a
opção ODS GRAPHICS;

O modelo a ser ajustado será definido


por CO2 =  +  GDP + e.
Adicionalmente, será criado o arquivo
REG_POLUICAO.RTF, contendo gráficos
para análise da qualidade do ajuste.

14
Exercícios
1) Leia as 5 primeiras linhas do arquivo Dados_mortalidade.txt nas
linhas de comando do SAS utilizando o comando DATALINES;
2) Leia o arquivo texto Dados _Mortalidade.txt no SAS;
3) Leia o arquivo excel Dados_Mortalidade.xls no SAS;
4) Crie uma cópia do arquivo lido em (3), salvando-o fisicamente
como um dataset em seu disco, com duas novas variáveis: i)
região (1=Norte; 2=Nordeste; 3=Sudeste; 4=Sul; 5=Centro-Oeste);
ii) muitodesigual (1 quando theil>0,7; 0 c.c.);
5) Elabore e analise estatísticas descritivas para as variáveis
mortalidade, educacao, pobres e theil . Elabore e analise uma
tabela cruzada para as variáveis regiao e muitodesigual;
6) Elabore histogramas para as variáveis mortalidade e educacao;
7) Analise as relações univariadas entre as variáveis mortalidade
(dependente) e as variáveis educacao, pobres e theil; 15