You are on page 1of 236

Uso profissional

do SPSS
Auto-aprendizagem por meio

de um estudo real

Miguel Martn Mateo

Albert Navarro Gin


Agradecimentos

Um agradecimento muito especial a Mercedes Sez Rambla, companheira da Unidade de


Bioestatstica, que realizou uma reviso exaustiva deste livro, melhorando seus contedos e
adaptando suas partes que sofreram alguma variao na verso 11 do programa SPSS.

Queramos expressar nossos agradecimentos aos estudantes da Diplomatura de Estatstica da


Universidade Autnoma de Barcelona, por sua colaborao na avaliao deste texto como
material de aprendizagem. Em especial aos alunos da matria Introduo aos Mtodos de
Investigao em Cincias da Sade, Inmaculada Prez Snchez, Laura Vila Silvestre, Tomz
Lpez Jimnez, M Angels Martos Rubio, Marisa Rullas Ledesma, Erika Sierra Gonzlez e
Silvia Lpez Aguil, tanto pela reviso dos programas descritos no livro, como pelos
comentrios e avaliaes sobre a compreenso do texto.

Um agradecimento especial devemos ao Dr. Hctor Javier Snchez Prez e ao Dr. Hctor
Ochoa do ECOSUR, em San Cristbal de las Casas, por terem permitido a utilizao dos
dados do estudo de desnutrio na populao infantil da regio La Fraylesca de Chiapas, como
exemplo condutor deste texto. Tambm ao professor Horcio Pereira de Faria, da Universidade
Federal de Minas Gerais, por nos ceder os dados com os quais o leitor pode realizar a prova de
auto-avaliao dos contedos aprendidos neste livro.
Captulo 1.

APRESENTAO
APRESENTAO
Em qualquer estudo em que seja necessria a anlise estatstica, existem diversas etapas que
definem a diferena entre a boa e a m qualidade dos resultados obtidos.

Em primeiro lugar, o objetivo ou objetivos do estudo devem estar definidos com clareza.
impossvel efetuar anlise estatstica de qualidade se, a priori, no se conhecem os objetivos
gerais e especficos da investigao proposta. As hipteses a serem contrastadas ficariam
indefinidas, e portanto s caberia realizar anlise descritiva simples.

Um segundo aspecto que influencia muito a qualidade de um trabalho o que contm a


definio das variveis e a coleta precisa da informao, para que sejam analisadas. Muitas
vezes, a definio imprecisa das variveis de um estudo decorrente da inexistncia de
objetivos claros.

De qualquer forma, devem estar bem definidos aspectos como o tipo e o nvel de medio das
variveis, isto , se a informao foi coletada de forma categrica, nominal ou ordinal, ou de
forma contnua.

Por exemplo, no o mesmo estudar a varivel categrica tabagismo, que pode ter trs
categorias: no fumante, ex-fumante ou fumante, que utilizar uma varivel quantitativa, definida
como o nmero de cigarros fumados diariamente, varivel da qual no seria possvel extrair, a
posteriori, se uma pessoa havia sido fumante.

Pensar previamente se a informao ser sistematizada em formato numrico ou alfanumrico


pode facilitar e reduzir consideravelmente o tempo de anlise. Isto, como ser visto no captulo
dedicado criao e transformao das variveis, se deve ao fato de que a maioria dos
pacotes estatsticos mais usados esto otimizados para o uso de variveis quantitativas ou
com definio numrica de suas categorias.

Todos estes aspectos exigem a presena do responsvel pela anlise, desde as fases iniciais
do desenho do estudo. Muitas vezes o estatstico responsvel intervm no estudo, aps a
coleta de dados, no tendo participado da definio da natureza das variveis, nem da
estrutura global da matriz de dados. Essa ltima pode ter diversas estruturas e, em muitas
ocasies, por no ser diretamente analisvel, exigir transformaes e manipulaes do ou dos
arquivos que contm a informao do estudo. Assim, pode-se ter informao de determinados
grupos de casos em um arquivo, das variveis de cada caso em outros arquivos e das
variveis adicionais em arquivos complementares.

Em geral, o estatstico no deve dar nenhum tipo de garantia da qualidade dos dados e, no
mnimo, deve efetuar anlise prvia da informao incompleta e da informao errnea
detectvel.

A anlise estatstica dever ser realizada apenas aps ter se estabelecido a estrutura definitiva
da matriz e realizado o controle de qualidade dos dados.

Para dar resposta a todos os aspectos enumerados, o analista deve recorrer ao uso de
programas ou pacotes estatsticos preferencialmente homologados e de ampla distribuio, de
forma que os resultados obtidos sejam sempre comprovveis e comparveis por qualquer outro
investigador.

Existem diversos programas ou pacotes estatsticos que permitem no s efetuar anlise,


como tambm manipular e gerenciar as matrizes de dados. Em suma, mostra-se neste livro
como utilizar o pacote SPSS em ambiente Windows, buscando aproximar-se de seu uso de
forma profissional, isto , no s explicando as aplicaes pr-programadas apresentadas nos
menus desdobrveis do programa, como tambm a sintaxe dessas instrues. Este esquema,
alm de permitir a utilizao consciente das anlises realizadas, permite diversas
possibilidades, que so precisamente as que distinguem um profissional de um conhecedor
superficial de pacotes estatsticos. Assim, trabalhar por meio de instrues de sintaxes permite,
entre outras possibilidades, a utilizao de recursos de anlises ou de descrio que no
existem de forma pr-programada ou tambm a criao de programas aplicveis em diversas
ocasies, sem necessidade de repetir o processo de gerao de anlises, assegurando-se,
portanto, de que a anlise seja sempre a mesma.

A QUEM DIRIGIDO O LIVRO?


O livro dirigido a diferentes categorias profissionais, especialmente quelas cujo centro de
atividade so as Cincias da Sade em seu conceito amplo, se bem que, tanto os contedos
quanto os exemplos so claramente exportveis e aplicveis em qualquer outro campo de
aplicao da Estatstica, como Cincias Sociais, Psicologia, Demografia e Geografia, dentre
outros.

Em primeiro lugar, deve ser dito que esta obra foi iniciada pensando em profissionais de
Estatstica que queiram ampliar suas atitudes na anlise real, longe dos exemplos acadmicos
e das bases de dados de tamanho reduzido que costumam ser utilizadas no ensino da
Estatstica em nosso meio. A experincia dos autores como professores do curso de
Estatstica, Medicina, mestrado e doutorado na rea de Medicina Preventiva e Sade Pblica
induziu-os necessidade de criar uma ferramenta docente, para apresentar aos alunos desses
cursos exemplos prticos, para ensinar como abordar a anlise de dados de estrutura
complexa no campo dos estudos em Cincias da Sade. Baseando no seguimento de um caso
real com todas as suas dificuldades, os autores consideram que o estudante e o leitor deste
livro podero adquirir os conhecimentos que sero teis no exerccio de sua profisso. Isto ,
os autores procuraram evitar ao mximo os exemplos acadmicos e didticos, que so
distantes da realidade com a qual o profissional vai se deparar no futuro.

Este mbito de aplicao gera a possibilidade de se deparar com problemas que o aluno
desconhece, muito freqentes na realidade, tanto na sua existncia como na sua resoluo,
por sua aprendizagem ter sido limitada a resolver prticas com arquivos de uso docente
restritos a poucos casos e poucas variveis.

Da mesma forma, este livro pode ser de grande utilidade a todos aqueles estudiosos e
profissionais das reas citadas que, havendo realizado algum curso de formao bsica de
anlise com algum pacote estatstico determinado, em especial com SPSS, queiram
aprofundar-se em seu uso. Neste meio profissional, tambm freqente que, ao tentar
manipular arquivos de dados clnicos ou epidemiolgicos, o profissional de sade encontre
uma complexidade muito superior dos arquivos com os quais usualmente efetua a docncia
de Estatstica e dos pacotes de anlises. A esses profissionais este livro mostrar, na prtica,
como so manipuladas diferentes bases de dados, tanto em estrutura como no tipo de suporte,
com a finalidade de alcanar uma base de dados nica, que reflita a informao necessria
para descrio e anlise de seu problema de estudo.

Os exemplos desenvolvidos ao longo deste estudo esto centrados no mbito da


epidemiologia, campo no qual os autores desenvolveram a maioria das suas atividades
profissionais. No obstante, a complexidade de situaes consideradas na hora de manipular
arquivos complexos faz com que o interesse seja imediato para qualquer profissional que
necessite da combinao de diferentes arquivos de dados.

Finalmente, apesar de esta obra ser dirigida a pessoas com perspectiva profissional e de
aprofundamento de conceitos, pode servir de incio para qualquer estudante que queira formar-
se de maneira slida no uso de pacote estatstico, como ferramenta de anlise de informao
estruturada em arquivos complexos e informao distribuda em diferentes arquivos. Isso
ocorre porque seu desenvolvimento parte do princpio bsico do desconhecimento do uso de
um pacote estatstico, sem supor conhecimento prvio da matria. Por esta mesma razo, os
autores consideram que pode ser de grande utilidade como guia de ensino para qualquer
docente implicado no tema de anlise de dados.
Estrutura do livro
O presente livro est estruturado de forma que o leitor v adquirindo os conhecimentos gerais
de uso de um pacote estatstico, a partir de um exemplo de anlise dos dados de um estudo
real.

No houve a pretenso de elaborar um manual simplificado ou o suprimento do sistema de


ajuda oferecido em qualquer pacote estatstico interativo, mas oferecer um guia de auto-
aprendizagem a partir de um caso concreto, o qual foi ligeiramente modificado, para que fosse
adequado ao objetivo acadmico do livro. O processo recomendado , portanto, o seguimento
ordenado dos captulos, se bem que podem ser feitos dois caminhos diferentes, de acordo com
o conhecimento e nvel de prtica do leitor.

O primeiro caminho, mais profissional, o que vai indicar as diferentes instrues de Sintaxe
de cada seo. A execuo adequada dessas instrues que permite ir avanando na
resoluo do exerccio prtico. Foram utilizados diferentes formatos de letra, quadros e
sombreados para facilitar a compreenso do leitor. No final de cada captulo apresentada a
soluo de sintaxes para a concluso dos objetivos descritos.

O segundo caminho, indicado pelo ttulo de Janelas, introduz o leitor ao uso dos menus
desdobrveis e ao trabalho clssico em ambiente Windows. Sendo assim, o leitor anima-se ao
saber que, utilizando a opo Colar (Paste), presente em quase todas as janelas descritas,
pode ir gerando as sintaxes sem necessidade de escrev-las, seja para uso posterior, seja
para compar-las com as que foram escritas na janela de sintaxes. Isto , o leitor pode fazer a
correo paralelamente, comparando em cada caso os termos de sintaxe que ele mesmo
deduz da explicao do texto e a que foi gerada automaticamente pela utilizao de janelas.

Seguindo este esquema duplo, em primeiro lugar descrevem-se as diferentes formas de definir
a matriz de dados e sua exportao e importao de outros sistemas de anlises.

Logo a seguir, descrevem-se os procedimentos para a definio de variveis.

Aps, so apresentados os passos necessrios para combinar casos e variveis de diferentes


arquivos, assim como para a seleo temporal ou definitiva de casos e as opes para fazer a
mesma anlise diversas vezes em funo de um fator.

Um quarto bloco faz referncia a como criar novas variveis e como modificar as j existentes.

O bloco seguinte consiste na explorao das anlises descritivas uni e bivariadas mais
freqentes, destacando tambm a fase prvia do controle de qualidade dos dados.

Por ltimo, se demonstra a importncia da criao de macros ou programas de aplicao


freqente.

Pretende-se que, com este esquema, a resoluo de todas as fases descritas no caso real,
utilizado como exemplo, mostre todos os problemas e dificuldades presentes no trabalho que
um analista de dados desenvolve cotidianamente.

O controle profissional das atividades que devem ser realizadas para resolver estes problemas
outro objetivo deste livro, motivo pelo qual em todos os exemplos mostrados, tal e como
comentado anteriormente, as aes devem ser realizadas sob dois pontos de vista: o
automtico, por meio do uso de janelas, e o que consiste na utilizao da sintaxe.
Enunciado do exemplo prtico
O exerccio prtico no qual este livro se baseou corresponde a um estudo derivado de uma
pesquisa de sade, realizada pelo Departamento de Salud del Colegio de la Frontera Sur
(ECOSUR), em San Cristbal de las Casas no estado mexicano de Chiapas.

A pesquisa abordava aspectos distintos que pudessem delimitar, de forma quantitativa, os


problemas de sade de uma regio do estado chiapenco, a Regio La Fraylesca, com a
finalidade de fornecer elementos objetivos para planejamento e melhoria dos servios de sade
na regio. De todos os aspectos investigados, neste exerccio trabalha-se com a informao
referente ao estado nutricional da populao infantil.

Problemas de desnutrio infantil na Regio La Fraylesca de Chiapas (Mxico). Anlise


da situao alimentar a partir da ingesto de protenas

A desnutrio continua sendo um dos principais problemas de sade pblica que afetam a
1,2
populao infantil do Mxico . Este problema, importante em si mesmo, agrava-se, ao levar-
se em conta que, de forma direta ou indireta, um dos fatores associados maioria das
mortes evitveis neste estrato de populao.

O fenmeno da desnutrio est associado, evidentemente, ao subdesenvolvimento


econmico, e, nos ltimos anos, nas regies pobres, so observados somente pequenos
decrscimos na desnutrio infantil. De fato, as regies que sempre tiveram uma maior
marginalizao socioeconmica so as que apresentam os mais altos ndices de desnutrio e
maior deteriorao das condies de vida. Dentro destas regies encontra-se o estado de
Chiapas1.

A mortalidade infantil por 1.000 nascimentos esperados de 30,6, taxa que corresponde ao
quarto pior posto daquele pas.

A taxa de mortalidade em menores de cinco anos das mais altas do Mxico: 5,4 por 1.000
habitantes.

A mortalidade associada a deficincias da nutrio no estado de Chiapas 45% superior do


resto do Mxico3.

Em todos os estudos realizados pela Pesquisa Nacional de Nutrio no Meio Rural e pelo
Instituto Nacional Indigenista, mostra-se uma evidncia considervel da relao entre
desnutrio e mortalidade em menores. Assim, considera-se que, a grosso modo, mais da
metade das mortes de menores de cinco anos na Amrica Latina so devidas a esta causa,
com a circunstncia agravante de que, para a maioria da populao afetada, a desnutrio no
considerada problema de sade.

Baseando-se nestes dados e em estudos prvios realizados no Mxico4, pretende-se analisar,


a partir dos resultados de pesquisa de sade realizada na regio La Fraylesca do estado
mexicano de Chiapas, a adequao alimentar em crianas de 12 a 59 meses de idade, a partir
da ingesto diria de protenas, e apontar os fatores socioeconmicos associados aos grupos
populacionais de maior risco de desnutrio.
Figura 1.1 Situao geogrfica do estado de Chiapas, Mxico.

Fonte: http://www.fortunecity.com/boozers/jerusalem/99/id16.htm

Caractersticas da regio La Fraylesca e da


amostra estudada
Como indicado anteriormente, La Fraylesca uma regio do estado de Chiapas, no sul do
Mxico, que est formada por quatro municpios, nos quais foram recenseados
aproximadamente 183.000 habitantes, no momento da realizao do estudo, em meados do
ano de 1994.

A economia baseia-se fundamentalmente na agricultura, e, em termos socioeconmicos, pode-


se dizer que trs dos quatro municpios esto catalogados pelo Conselho Nacional de
Populao (CONAPO) como municpios de alta marginalidade, e o outro, de mdia
marginalidade.

A pesquisa foi feita com os moradores de 1.100 residncias selecionadas em dois municpios,
Villaflores e Jaltenango, que, na classificao socioeconmica indicada, refletem a melhor e a
pior situao, respectivamente.

Das 1.100 residncias foi alcanado alto nvel de participao, j que foram obtidos dados em
1.046.
5-7
A pesquisa de sade compreendia mltiplas etapas , com o objetivo de ajudar no
planejamento dos servios de bem-estar e sade da regio. A informao obtida foi estruturada
em diferentes arquivos, em funo dos diversos objetivos, de maneira que os dados da
residncia pudessem ser atribudos, como: caractersticas fsicas da casa, nmero de
habitantes, informaes sobre o chefe da famlia, etc., informao comum a todos os
habitantes da residncia, por meio de um nmero de identificao (chave identificadora). Neste
caso, ser permitido atribuir esta informao s crianas com idades compreendidas entre 12 e
59 meses, assim como os dados sobre suas mes.

Nas 1.046 residncias onde foram obtidas as informaes, foram encontradas 644 crianas no
intervalo de idade estudado, se bem que, com a finalidade de alcanar uma amostra de dados
independentes entre si, s foram estudadas 472 crianas, evitando-se a presena de irmos no
estudo. No caso das residncias onde havia mais de uma criana no intervalo de idade
estudado, foi escolhida a mais nova delas.

Os dados sobre a ingesto de protenas de cada criana foram armazenados em um arquivo.


Esta varivel determinada tanto em sua quantidade quanto em sua origem, animal ou
vegetal. Em outro arquivo foram includos os dados antropomtricos necessrios para a
definio de seu estado de crescimento e nutrio.

Em todos os casos a pesquisa foi respondida pela me da criana.

Os dados sobre a ingesto de protenas referem-se, em todos os casos, ao dia anterior, por
meio de questionrio que utiliza utenslios e modelos de recipientes de cozinha, elaborados
para estimar, da forma mais precisa possvel, as quantidades de alimentos consumidas pelo
menor.

Alm destes dados, foram includos no arquivo final o sexo e a idade da criana, a idade da
me, as condies da residncia, a utilizao dos servios de sade pela criana no ltimo ano
e as caractersticas socioeconmicas da famlia.

Os arquivos de dados com a informao da pesquisa encontram-se no CD anexo ou em


http://servet.uab.es/graal/Materiales.htm e devem ser copiados em uma pasta de seu disco C:\
ou A:\.

Para efeitos didticos, durante a leitura de todo o livro, o diretrio ou a pasta de trabalho
referida C:\spss\chiapas\. O leitor dever substituir esta localizao pela que criou
pessoalmente no seu computador. Pelo mesmo motivo, os arquivos de dados foram
segmentados ou apresentam-se em formatos de base de dados diferentes dos originais, com
intuito de diversificar, ao mximo, o nmero de exemplos e de possveis situaes de anlises.

De qualquer maneira, foram mantidas as etiquetas das variveis e dos valores categricos
originais do estudo realizado pelo ECOSUR.

Bibliografia

1.-VILA-CURIEL, A.; CHVEZ-VILLASANA, A.; SHAMAH-LEVY, T.; MADRIGAL-FRITSCH, H. La


desnutricin en el medio rural mexicano: anlisis de las encuestas nacionales de alimentacin.
Salud Pblica Mx., 1993; 35: 658-666.

2.- RIVERA-DOMMARCO, J.; GONZLEZ-COSSIO, T.; FLORES, M.; HERNNDEZ-VILA, M.; LEZAMA,
M.A.; SEPLVEDA-AMOR, J. Dficit de talla y emaciacin en menores de cinco aos en distintas
regiones y estratos de Mxico. Salud Pblica Mx., 1995; 37:95-107.

3.- FUENTE, J.R. DE LA; LIMN-ROJAS, M.; FUENTES-ALCAL, M.L.; GUERRERO-VILLALOBOS, G.


Programa nacional de Accin en Favor de la Infancia. Secretara Tcnica. Serie Documentos
Tcnicos nm. 2, 1996.

4.- BOERMA, J. T.; SOMMERFELD, A.E.; BICEGO, G.T. Child Anthropometry in Cross-sectional
Surveys in Developing Countries: An assesment of the Survivor Bias. American Journal of
Epidemiology. 1992 ; 135:428-437.

5.- OCHOA DAZ, H.; SNCHEZ-PREZ, H.J.; RUIZ-FLORES, M.; FULLER, M. Social inequalities and
health in rural Chiapas, Mxico: Agricultural economy, nutrition and child health in the
Fraylesca Region. Cadernos Sade Pblica (Rio do Janeiro, Brasil) 1999; 15 (1): 789-798.
6.- SNCHEZ-PREZ, H.J.; OCHOA-DAZ, H.; GARCA, G.M.; MARTN, M.M. Bienestar social y
servicios de salud en la Regin Fraylesca de Chiapas: El uso de los servicios de atencin
prenatal. Salud Pblica Mx., 1997; 39:530-538.

7.- SNCHEZ-PREZ, H.J.; OCHOA-DAZ, H.; NAVARRO I GIN, A.; MARTN, M.M. La atencin al
parto en Chiapas, Mxico: dnde y quin los atiende?. Salud Pblica Mx., 1998;40:494-502.
Captulo 2.

O PACOTE ESTATSTICO SPSS


O QUE UM PACOTE ESTATSTICO?

Entende-se por pacote estatstico um programa modular ou uma Library (biblioteca) de programas de informtica, que
analisa a informao contida em um ou vrios arquivos de dados do ponto de vista estatstico e permite a manipulao e
exportao dos resultados em forma de tabelas, grficos, relatrios ou novas matrizes de dados para anlises posteriores.

A maior ou menor popularidade desses programas depende de sua versatilidade, facilidade de uso,
assim como do preo ou da cota anual de acesso licena de usurio. Em geral, a maioria tem
sido desenvolvida em ambiente Windows, com a finalidade de assegurar a compatibilidade e a
facilidade de compreenso dos processos de uso. No entanto, alm destas caractersticas, a maior
ou menor qualidade de um pacote estatstico, do ponto de vista profissional, est associada,
fundamentalmente, versatilidade e adequao no tratamento de arquivos de informao
complexos e qualidade e transparncia dos algoritmos de anlises.

Evidentemente, se essas caractersticas complementam-se com um bom sistema de exportao de


resultados, tanto em forma de tabelas como de grficos, esses pacotes estatsticos sero utilizados
com mais freqncia que outros.

Infelizmente, a facilidade de uso e o aumento da variedade de anlises disponveis produzem,


s vezes, efeitos indesejveis que so de difcil correo. Na realidade, a acessibilidade a
tcnicas estatsticas complexas no favorece o melhor uso e desenvolvimento da Estatstica em
todos os mbitos, o que possivelmente ocorre a m utilizao disfarada de apresentaes
mais ou menos espetaculares. freqente que o domnio aparente do meio tcnico de anlise,
o pacote estatstico e a falta de conhecimento dos conceitos necessrios para analisar
corretamente um estudo criam situaes de alto risco para o usurio entusiasmado. Portanto o
uso e a seleo de um pacote estatstico devem levar em considerao os conhecimentos de
Estatstica que o futuro usurio possui.

No mercado atual, existe um nmero aprecivel de pacotes estatsticos com qualidade profissional
avanada, sendo os mais conhecidos o SAS, BMDP, S-Plus e o Statistica. Apresenta-se, neste
manual, a utilizao de um pacote estatstico de uso muito difundido em todos os mbitos
cientficos e tcnicos, o SPSS (Statistical Package for Social Sciences). Sua ampla aceitao deve-
se ao fato de que, historicamente, os criadores do programa procediam de ambientes profissionais
muito variados, tanto do desenho experimental, quanto das Cincias Sociais e da Psicologia, e, por
isto, seu desenvolvimento foi seguindo sempre uma linha de aplicao de tcnicas estatsticas,
quase em demanda do que os profissionais da Estatstica Aplicada nestes campos necessitavam a
cada momento.

Sob esta perspectiva, a forma flexvel de tratar as matrizes de dados respondia a uma situao na
qual, na maioria dos casos, o profissional de estatstica deparava-se com arquivos de dados no
planejados no incio da anlise e tambm a comodidade do pesquisador ou responsvel pelo
projeto em estudo. Assim, era muito freqente que, nos arquivos de dados, a informao no se
encontrasse codificada, e as variveis estivessem definidas em formatos alfanumricos, em
registros de variveis longitudinais, com critrios confusos sobre o que significa o no sabe/no
responde frente ao no perguntado, as variveis surgiam tambm com nmero no fechado de
categorias, etc. Devido capacidade de resoluo de problemas deste tipo, o pacote SPSS
continua sendo um dos mais flexveis e fceis de usar na manipulao de matrizes de dados e
suas transformaes.

De qualquer forma, neste livro, pretende-se introduzir o uso deste pacote estatstico de maneira tal,
que a utilizao de outro programa ou outro pacote no represente nada mais que mudar a forma
de efetuar as anlises, mas no os conceitos de funcionamento de um pacote estatstico, em geral,
e, certamente, que a mudana de verso do SPSS, mudana lgica de evoluo de qualquer
produto de informtica, no signifique nenhum esforo aprecivel do usurio a quem dirigido o
livro. Por esta razo, como ser dada nfase ao longo dos captulos, pretende-se que o usurio
profissional entenda a importncia de conhecer as instrues de programao necessrias para
fazer determinado tipo de anlise, que vai alm da forma habitual de seleo de opes em menus
desdobrveis das janelas, to familiares pelos atuais usurios de informtica.

ESTRUTURA BSICA DE UM PACOTE ESTATSTICO

A maioria dos pacotes estatsticos est organizada de forma modular.

Em geral, existe um mdulo de comunicao com os arquivos de dados, de maneira que a


definio da estrutura deste mdulo seja possvel, e portanto que estes arquivos possam ser
importados de forma compilvel ou traduzida pelo pacote.

Assim, o mdulo de comunicao ter as opes de abrir arquivos, buscando no diretrio ou na


pasta adequada, ativando submdulos ou funes de leitura, dependendo da extenso do arquivo.
Por exemplo, se o arquivo de dados possui a extenso .xls, ser ativado um mdulo de importao
de arquivo em EXCEL. Desta forma, no sero importadas apenas a estrutura e a matriz de dados,
mas tambm a informao das variveis que se encontram neste arquivo.

Como ser visto mais adiante, a variedade de formatos e estruturas de arquivos de dados que o
mdulo de entrada pode acessar muito grande, existindo tambm a possibilidade de definir um
novo arquivo e entrar com os dados diretamente pela primeira vez.

Uma vez executada a ao de leitura, o programa gera um arquivo, inicialmente de natureza


temporal, com o contedo de todas as variveis e suas caractersticas, como a definio de seus
formatos. Tambm contm as etiquetas informativas que foram especificadas ou atribudas, tanto
diretamente como por importao de outro sistema. Outras informaes presentes neste arquivo
so o nmero de casas decimais, quando o caso, a existncia de valores perdidos, a largura da
coluna na janela que visualiza os dados, etc. Esta informao est traduzida em linguagem SPSS,
mesmo que na tela seja visualizada em ASCII.

Trabalhando de forma interativa, a este arquivo atribudo o nome de janela do editor de dados do
SPSS, em termos reais, conhecido como arquivo ativo. A extenso real deste arquivo temporal
visualizada em MS-DOS como *.sav; ao finalizar a sesso de trabalho, grava-se em um
determinado diretrio ou pasta. Desta forma, pode-se voltar a ler este arquivo diretamente em outra
sesso de trabalho, como se fosse a continuao da sesso anterior, isto , mantendo-se todas as
aes efetuadas com os dados at aquele momento.

Simultaneamente, alm de realizar as aes de forma interativa, por meio da seleo dos menus
desdobrveis nas diferentes opes da barra de ferramentas, possvel executar estas mesmas
aes a partir de um arquivo de instrues chamado Editor de Sintaxe SPSS, que possui a
extenso *.sps. Esta possibilidade inicialmente incmoda para aquele que est acostumado
resposta imediata da transmisso de uma ordem utilizando o cursor do mouse. As vantagens desta
forma de trabalhar compensam, sem dvida, o esforo de acostumar-se com uma rotina diferente.

Duas vantagens so as mais evidentes. Em primeiro lugar, ter escritos os comandos


executados permite conhecer se o que foi feito era realmente o que era pretendido. Este
aspecto pode parecer excessivamente rigoroso e aborrecido, mas facilita a deteco de erros
de instruo no caso de hav-los cometido. As opes que aparecem nas janelas de dilogo
so numerosas e muitas vezes pouco explicativas, porque pode-se, com facilidade, escolher
uma opo equivocada e posteriormente no recordar da escolha.
tambm a nica maneira adequada de comunicar a outro colega, de indicar em um relatrio ou
de lembrar de forma detalhada qual e como foi realizada a anlise.

A segunda vantagem refere-se economia de tempo. Ao longo de um estudo, so muitas as

anlises que devem ser efetuadas de forma repetitiva, as transformaes e recodificaes de

variveis que tambm so, s vezes, complexas e tediosas. Se estas esto salvas em um arquivo

de instrues, no precisam ser repetidas, podendo ser executadas sobre outro arquivo de dados

com mnimas modificaes, com a dupla economia que isto representa, de tempo e de possveis

erros, ao duplicar ou triplicar a ao das anlises.

Como exemplo, suponha que exista um arquivo que contenha todos os diagnsticos de doenas
observados em um hospital durante um ano. A classificao internacional de doenas feita com
cdigos alfanumricos compostos de uma letra e trs ou quatro nmeros. Suponha que no estudo
indica-se que deve ser realizada uma reclassificao dos mais de 10.000 diagnsticos possveis
em quinze grupos, segundo critrios especificados. Ter escrito o programa de recodificao e
classificao permite realizar esta ao em novos arquivos de dados, sem esforo e com a
segurana de estar sempre aplicando o mesmo critrio.

A criao desse arquivo de instrues em linguagem ou sintaxe SPSS pode ser feita
diretamente pelo usurio, abrindo um novo arquivo de sintaxe e escrevendo no editor as
instrues. Na prxima seo deste captulo, so indicadas as normas gerais que regem a
sintaxe em SPSS.

Outra maneira habitual de gerar a sintaxe ir adicionando ao editor de sintaxe todas as aes
efetuadas pela ativao dos menus desdobrveis nas janelas da barra de ferramentas. Em todos
eles existe a opo Paste, mediante a qual a seleo efetuada com o mouse transforma-se em
uma instruo de sintaxe no arquivo .sps.

Assim como a ativao do boto OK em um menu executa a ao selecionada, a seleo de uma


srie de instrues no arquivo .sps e sua execuo produz o mesmo efeito. Para isto, seleciona-
se com o cursor as instrues de interesse na janela do editor de sintaxe acompanhadas ao final
da instruo execute. Uma vez selecionadas, ativando o boto da barra instrues que aparece
na janela, ser obtido o mesmo resultado.

Da ao de executar um conjunto de instrues so produzidos resultados que, alm de


aparecerem na tela, gerando de forma automtica outra janela, cria-se um novo arquivo com
extenso .spo, o qual posteriormente pode ser editvel e exportvel a outros editores de texto e
grficos. Existe uma opo de que o arquivo de resultados seja do tipo rascunho, com extenso
*.rtf.

Finalmente, de acordo com a definio do funcionamento do programa SPSS em sua instalao,


gerado um arquivo chamado JOURNAL, que possui a extenso .log, no qual se acumula a
informao de todo o processo de anlise efetuado.
FIGURA 2.1. Esquema da relao entre o programa SPSS e os arquivos que
participam no processo de anlise.

Arquivo de dados original


*.dat, *.dbf, *.mdb, *.xls, etc.

SPSS

arquivo de instrues arquivo de dados ativo


*.sps *.sav

SPSS

arquivo de resultados
*.spo
*.rtf

A Figura 2.1 apresenta um esquema dos tipos de arquivos que foram enunciados at o momento. Na realidade, o nmero
de arquivos temporais utilizados pelo programa maior, mas no tem relevncia para o usurio.

Observa-se que o fluxo habitual de trabalho consiste, em primeiro lugar, na leitura


de um arquivo de dados, os quais podem ser de diversas origens, em ASCII (*.dat
ou *.txt), estruturados em uma base de dados ou planilha de clculo (*.dbf, *.xls,
*.mdb, etc) ou provenientes de uma anlise prvia em SPSS (*.sav).

Em segundo lugar, a execuo de um conjunto de instrues em linguagem


SPSS, quando se recomenda que essas instrues sejam sempre salvas em um
arquivo *.sps, mesmo que as anlises ou modificaes sejam feitas por meio de
janelas.

O efeito desta ao gera um arquivo de resultados, *.spo ou, se preferir *.rtf, que
pode ser posteriormente editado. Em muitos casos, o resultado de um processo
um novo ou novos arquivos de dados, de diversos tipos, como dados j
processados, *.sav, ou em forma de base de dados ou em ASCII, *.dat.
Na realidade, o nmero de arquivos que o pacote SPSS trabalha em cada
execuo muito mais variado, o que para o usurio no tem, em princpio, muita
importncia, j que esses arquivos possuem a caracterstica de ser temporais. De
qualquer forma, sua natureza e estrutura variam paulatinamente com a apario
de novas verses, e estas variaes relacionam-se mais com otimizao da
memria de trabalho, necessria em cada momento, e a minimizao do tempo de
leitura e acesso em grandes arquivos.

O ambiente de trabalho de todos estes arquivos possui caractersticas operativas


definidas ao instalar o programa, as quais se mantm padronizadas cada vez que
o SPSS executado. No entanto, por meio de instrues determinadas, seja por
sintaxe, seja por aes pr-programadas, podem ser modificadas.

necessrio definir previamente as caractersticas gerais que regem a sintaxe


das instrues em SPSS.

NORMAS GERAIS DAS SINTAXES

Como na maioria das linguagens de programao, as instrues do SPSS costumam ser


abreviaturas ou expresses de interpretao bvia na lngua inglesa.

Todas as instrues podem ser complementadas com subinstrues opcionais, tais como, o tipo de
subanlise a ser realizada, os tipos de estatsticas a serem calculadas, a apresentao dos
resultados, a repetio da anlise em outro conjunto de variveis ou de relao entre elas, etc. Por
meio do ndice do sistema de ajuda, presente na barra de ferramentas de todas as janelas do
sistema, indicado pelo smbolo ?, obtm-se acesso sintaxe das instrues SPSS (comand
syntax) e a uma descrio resumida de seu significado.

Existem normas de apresentao das instrues que facilitam a sntese na


explicao. Assim, em qualquer uma delas:

- Os parnteses, as apstrofes e os caracteres de repetio, /, devem ser


obrigatoriamente escritos.
- Quando algo est escrito entre colchetes, [ ], em uma instruo, significa que
opcional explicitar este contedo, e que portanto sua presena ou ausncia
no impede a execuo da instruo geral. Sua utilizao ser ou no
necessria em funo da ao que se pretende efetuar.

- As chaves, { }, indicam que as opes descritas entre elas so eletivas e


podem ser escolhidas, em algumas ocasies, mais de uma. Constar com a
marca de dois asteriscos aquela (ou aquelas) que o sistema opta como padro,
ou seja, aquela que ser realizada se o usurio no indicar nada a respeito.

- As opes colocadas aps uma barra inclinada, /, implicam que seu contedo
pode se repetir vrias vezes, ou que seja uma subinstruo que se diferencia
da mesma opo, quando no est precedida por este smbolo.

- Todas as instrues devem ser finalizadas com um ponto. Na ausncia do


ponto, o compilador a considerar com a instruo seguinte e portanto indicar
erro de sintaxe.

Por exemplo, a seguinte expresso de sintaxe uma forma simplificada de efetuar


uma anlise descritiva de uma ou muitas variveis categricas:

FREQ[UENCIES] [VARIABLES=]varlist
[/FORMAT=[{DVALUE}] [{NOTABLE }]]
{AFREQ } {LIMIT(n)}
{DFREQ }
[/MISSING=INCLUDE]
[/BARCHART=[MIN(n)][MAX(n)][{FREQ(n) }]]
{PERCENT(n)}
A instruo geral FRENQUENCIES poderia ser escrita como FREQ, j que o resto da palavra
est entre colchetes. A seguir so especificadas as variveis que se pretende descrever, e
opcional indicar VARIABLES=.

Como a expresso FORMAT est precedida do smbolo /, entende-se que uma


subinstruo de FREQ, diferente de outra instruo geral, que tambm se chama
FORMAT. Como est escrita entre colchetes, entende-se que no preciso definir
o formato de impresso dos resultados, o qual pode ser efetuado em funo do
valor decrescente das opes da varivel; interessa apenas se a varivel
categrica ordinal ou discreta, em funo da freqncia observada, ascendente ou
descendente. Adicionalmente podem ser suprimidas as tabelas de distribuio de
freqncias das variveis, cujo nmero de valores ou categorias superam o limite
especificado (n).

Tambm entre colchetes, portanto opcional, indica-se se so includos os valores


perdidos ou missing no clculo das freqncias relativas. Observa-se que
MISSING est precedido por uma barra /. Novamente este smbolo indica que esta
palavra deve ser interpretada como uma subinstruo de FREQ e no como uma
instruo que enunciada com a mesma sintaxe.
Por ltimo, a subinstruo BARCHART opcional e permite fazer os diagramas de
barras das variveis especificadas na lista de variveis, varlist, de FREQ.

O programa SPSS seguiria interpretando as linhas subseqentes como


subinstrues desta FREQUENCIES, a menos que fosse indicado um ponto ao
final da instruo.

evidente que este sistema de lembrana da sintaxe no supre em absoluto a


consulta aos manuais ou as ajudas especficas que esto presentes em cada
menu da barra de ferramentas.

Por exemplo, neste caso, a seqncia de aes: Analyse , Descriptive


Statistics , Frequencies , Help apresenta o texto que segue, o qual,
conjuntamente com a expresso da sintaxe e das opes mostradas na prpria
janela, permite entender em quase todas as situaes o sentido da expresso e a
forma adequada de realizar a anlise:

O procedimento Frequencies proporciona estatsticas e representaes grficas teis para


descrever muitos tipos de variveis. um bom procedimento para uma inspeo inicial dos
dados.
Para a distribuio de freqncias e grficos de barras, podem-se organizar os diferentes
valores em ordem ascendente ou descendente ou ordenar as categorias por suas freqncias.
possvel suprimir a distribuio de freqncias quando uma varivel possui muitos valores
diferentes. Os grficos podem ser etiquetados com as freqncias (opo padro) ou com as
porcentagens.

Exemplo. Qual a distribuio dos clientes de uma empresa por tipo de indstria? Nos
resultados poderia observar que 37,5% de seus clientes pertencem a agncias governamentais,
24,9% a corporaes, 28,1% a instituies acadmicas e 9,4% indstria sanitria. Com relao
aos dados contnuos, quantitativos, como os rendimentos por vendas, seria possvel
comprovar que a venda mdia de produtos de 3.576 dlares, com desvio padro de 1.078
dlares.

Estatsticas e grficos. Freqncias, porcentagens, porcentagens acumuladas, mdia, mediana,


moda, soma, desvio padro, varincia, amplitude, valores de mnimo e mximo, erro padro da
mdia, assimetria e curtose (ambos com seus erros padro), quartis, percentis especificados
pelo usurio, grfico de barras, grficos de setores e histogramas.

EXECUO DE UMA INSTRUO DE SINTAXE

As instrues do SPSS podem ser executadas de diferentes formas, em funo da


maneira de trabalhar.

A primeira forma de trabalho a de escrever as instrues diretamente na Janela


SPSS Syntax Editor, executando-as posteriormente. A segunda forma consiste
na ativao dos menus da barra de ferramentas.
O Editor de sintaxe uma janela que ativada pela ao File New Syntax.
Isto quer dizer que estas opes devem ser ativadas na barra de ferramentas, de
acordo com a ordem indicada. Neste livro, sempre representaremos com o
smbolo a ao de marcar uma opo com o cursor e apertar o boto esquerdo
do mouse.

Uma vez aberta a janela de sintaxes, selecionam-se as instrues que se


pretende executar e clica-se no boto da barra de ferramentas.

Em alguns casos especficos, a seleo escolhida necessita de uma instruo


adicional para que a ao seja realizada. A sintaxe desta instruo indicada a
seguir.

SINTAXE

A sintaxe que permite a execuo de um conjunto de instrues selecionado na


janela do Editor de Sintaxe

EXECUTE.

Deve ser escrita como a ltima instruo do conjunto selecionado que se pretende
executar, se bem que s necessrio em certas situaes, como aquelas em que
o resultado da ao implica uma mudana na matriz de dados, como a criao de
uma nova varivel, uma recodificao, uma seleo de dados que cumpram uma
determinada condio.

Da mesma forma, quando o que se pretende a manipulao de arquivos,


somando informaes de dois ou mais arquivos ou agregando informao a um
novo arquivo, a instruo EXECUTE deve ser explicitamente indicada no final.

JANELAS

Quando se trabalha com os menus desdobrveis ou janelas (como so


conhecidas coloquialmente esta forma de trabalho), observa-se que em todas elas
existe um boto com a palavra OK, o qual s poder ser ativado, quando a
informao solicitada pela janela aberta ou pelo menu desdobrado for a mnima
necessria para executar esta ao.
Por exemplo, na anlise de freqncias indicada no pargrafo anterior no ser
possvel ativar este boto, at que seja definida no mnimo uma varivel de
anlise.
Observa-se tambm a presena de outro boto que indica Paste. Neste caso, a
ao de execuo ser adiada, transferindo as instrues selecionadas pelo
cursor para a janela do Editor de sintaxe, para que sejam executadas como
instrues que tivessem sido escritas diretamente sobre ela. Neste caso, para
executar estas instrues, elas devem ser selecionadas e ativadas pelo boto da
barra de ferramentas desta janela.

Este ltimo procedimento o que permite ir guardando todos os passos efetuados


em uma anlise para grav-los em disco no final de uma sesso e poder execut-
los em outra ocasio ou repetir uma anlise.

Recomendamos que, em todos os casos em que uma anlise for realizada, a ao


Paste seja feita e posteriormente executada, com a finalidade de guardar as
instrues, para que seja obtida uma constncia das anlises efetuadas.

COMENTRIOS

Quando tentamos executar uma instruo sem EXECUTE e esta necessariamente


o exige, observa-se que, em princpio, no parece ocorrer nada: por um lado a
ao esperada como resultado desta instruo no foi produzida, e por outro lado
no aparece nenhuma mensagem de erro. Quando isto ocorre, o nico sinal
visvel para reconhecer o problema mostrado no lado direito da barra inferior do
programa, onde se l a mensagem Transformations pending, como pode ser
observado na figura 2.2.

FIGURA 2.2. Exemplo de tentativa de execuo de uma instruo de


sintaxe sem a incluso do EXECUTE correspondente.
INSTRUES DE CONTROLE (settings)

s instrues que regulam o controle da execuo de um pacote estatstico


costuma-se nomear com a palavra inglesa settings, as quais determinam-se de
forma automtica, ao instalar (set up) o programa.

Estas instrues, traduzidas na verso inglesa como Options, podem ser editadas
e modificados todos os aspectos relacionados com as diferentes vias de
impresso e suas caractersticas: os missings de sistema a priori ou caracteres
que o sistema considerar automaticamente como informao perdida ou no
conhecida; formato decimal e longitude do caractere alfanumrico das variveis de
nova criao; a natureza definitiva ou de rascunho do arquivo de resultados; o
nmero de caracteres por linha dos resultados, 80 ou 132, da apresentao na
tela ou o nmero mximo de interaes.

SINTAXES

A relao completa das possveis modificaes por meio da sintaxe pode ser
obtida no manual guia da sintaxe. Nesta seo, oferecemos uma amostra desta
relao.

SET
[BLANKS={SYSMIS**}]
{valor}
[COMPRESSION={ON**}]
{OFF }
[ERRORS={LISTING**}]
{NONE}
[FORMAT={F8.2**}]
{Fw.d }
[JOURNAL=[{ON**}] [{spss.jnl**}] ]
{OFF } {arquivo}
[LENGTH={59**}]
{n }
[MITERATE={1000**}]
{n }
[MXWARNS={10**}]
{n }
[SEED={2000000**}]
{n }
[WIDTH={80**}]
{n }

A instruo principal SET, que deve ser acompanhada de alguma das opes
possveis, seja as indicadas anteriormente, seja as descritas no manual de ajuda.

Concretamente, as especificadas nesta lista fazem referncia aos seguintes


aspectos:

[BLANKS={SYSMIS**}] Esta opo define como padro que qualquer valor


deixado em branco, em uma varivel numrica, seja interpretado como um valor
desconhecido ou perdido pelo sistema. Se for(em) indicado(s) outro(s) valor(es) a
todos os brancos das variveis numricas, estes sero transformados no valor
indicado.
[COMPRESSION={ON**}] Como padro, esta opo indica que todos os arquivos
temporais gerados pelo programa esto de forma comprimida. Para mudar esta
situao, dever ser indicado OFF, depois do sinal de igualdade, desativando
assim a compresso dos arquivos.

[ERRORS={LISTING**}] Em geral, interessante a descrio da lista de erros


que o programa detecta ao executar uma srie de instrues. No entanto, quando
se prefere no ter a lista dos erros que podem ser produzidos, pode-se indicar
NONE depois do sinal de igualdade.

[FORMAT={F8.2**}] Como padro, s novas variveis numricas criadas ao


longo da anlise dado um formato de oito caracteres com duas casas decimais,
F8.2. Se desejar, este formato pode ser modificado, indicando-se outro para
substituir.

[JOURNAL=[{ON**}] O arquivo onde gravada toda a informao do processo


de anlise e os resultados obtidos recebe o nome de spss.jnl. Este arquivo
reiniciado ao comear uma nova seo do SPSS. Se se pretende guardar esta
informao, um nome de arquivo deve ser indicado. Existe a opo de no se criar
nenhum arquivo *jnl, indicando na opo a palavra OFF.

[LENGTH={59**}] Esta opo refere-se ao nmero de linhas de cada pgina do


arquivo de resultados, nmero que pode ser modificado, indicando-o de forma
explcita.

[MITERATE={1000**}] Em grande nmero de anlises, a obteno dos


resultados requer a utilizao de mtodos iterativos. Neste caso, o nmero
mximo de iteraes est fixo como padro em 1000, podendo ser modificado,
indicando-se um determinado valor.

[MXWARNS={10**}]Opo que permite fixar o nmero mximo de avisos que


indicam problemas na execuo. Estes problemas no so, s vezes, erros fatais,
indicam uma indeterminao nas instrues ou nos dados. Quando o nmero
mximo alcanado, detm a execuo do programa.

[SEED={2000000**}]Indicando-se um nmero diferente de 200000, modifica-se


a semente geradora de nmeros aleatrios, quando for necessrio na anlise ou
na seleo de subamostras.

[WIDTH={80**}]Nesta opo, pode ser definida a largura em caracteres das


linhas do arquivo de resultados ou do Journal. O valor padro de 80 caracteres.
Isto , SET uma instruo que permite modificar as opes de funcionamento do
programa, se bem que a realidade que, na maioria das situaes, as definidas
como padro na instalao costumam ser as mais utilizadas.

Para executar uma srie de modificaes, a instruo Set dever ser escrita na
janela do editor de sintaxe e, uma vez selecionada com o cursor, deve ser
executada pela ativao da tecla da barra de ferramentas.

Por exemplo, na Figura 2.3 apresentada uma situao, na qual uma instruo que modifica
quatro condies de trabalho foi escrita na janela de sintaxe SPSS.

FIGURA 2.3. Exemplo de modificao das opes de trabalho ou settings.

A primeira faz referncia de como o compilador deve interpretar os espaos em


branco em uma varivel numrica. Com a opo escolhida, seria interpretado
como um valor igual a zero.
Na segunda, indica-se que em cada pgina de impresso sejam escritas somente
40 linhas, e, como indicado, na terceira instruo sero de 132 caracteres,
sendo por padro o nmero de linhas 59 e o de caracteres 80.

Na quarta, indica-se uma semente para iniciar uma srie de nmeros aleatrios e
poder gerar amostras aleatrias de dados.

As instrues sero executadas pela ativao do boto da barra de


ferramentas, uma vez selecionado o bloco de instrues, incluindo a sentena
EXECUTE.

Como pode ser observado no ndice de ajuda, a sintaxe do SET permite indicar
em uma s instruo as quatro opes anteriormente citadas:

SET blanks=0 /length=40 /width=132 /Seed=176303.


EXECUTE.

Como um ponto foi colocado depois do nmero correspondente a seed, outra


instruo pode ser escrita a seguir, mesmo que seja na mesma linha.

JANELAS

Ao efetuar a ao: Edit , Options , aparece a seguinte tela, Figura 2.4, na qual
so mostradas todas as condies do ambiente de trabalho, que podem ser
livremente modificadas por meio do uso do cursor.

FIGURA 2.4. Janela do menu aps ativao de Edit Options.


Todas as opes descritas nesta janela, que podem ser selecionadas pelos
menus, podem tambm ser modificadas por meio das instrues de sintaxe
escritas na janela do editor de sintaxe SPSS.

Como exerccio, o leitor poderia, em primeiro lugar, ativar o menu de edio e


opes, observar e anotar como est definido como padro o nmero de linhas e
caracteres das pginas de impresso, a interpretao de brancos e o nmero da
semente de aleatorizao.
Em segundo lugar, abrir um novo arquivo de sintaxe, escrever e executar as
instrues que foram indicadas no exemplo.

Em terceiro lugar, voltar a ativar o editor de Options e observar na tela as


mudanas produzidas.

Em princpio, seria recomendvel voltar aos settings ou opes padro iniciais, o


que pode ser feito modificando diretamente na janela aberta ou voltando a
executar as instrues SET pertinentes.
Captulo 3.

AES BSICAS COM A


MATRIZ DE DADOS
A matriz de dados

O arquivo onde se encontra a informao correspondente ao estudo costuma ter forma


matricial. Esta estrutura muito til, tanto porque facilita a nomenclatura das expresses
analticas, como a localizao no arquivo de um caso determinado ou de uma varivel
determinada.

Essa forma matricial define, geralmente, que cada linha da matriz corresponde a um
indivduo ou caso do estudo. Da mesma forma, as colunas referem-se s variveis ou
fatores, motivo pelo qual o elemento xij desta matriz interpretado como o valor da varivel j
para o indivduo ou caso i. Na atualidade, na maioria dos suportes de informtica, planilhas
de clculo e bases de dados, este conceito mantido e assim ser utilizado neste texto.

Existem dois tipos gerais de matrizes de dados, conforme a apresentao dos dados
individualizados ou agregados.

Matriz de dados individualizados


Os elementos que compem uma matriz de dados individualizados so os seguintes:

Caso: caso o elemento ou unidade observacional, seja amostral, seja populacional:


pessoa, residncia, pas, fbrica, unidade de produo, etc.

No estudo que analisaremos neste livro, o caso cada uma das crianas estudadas em
Jaltenango e Villaflores.

Cada caso deve possuir um identificador ou chave nica, que corresponde simbolicamente
linha da matriz de dados, podendo ser uma chave j incorporada inicialmente com esta
finalidade ou gerada a partir de outros indicadores presentes.

No estudo que utilizamos como exemplo, o identificador ser gerado, mais tarde, a partir do
nmero atribudo casa, coincidente com o nmero do questionrio, NCUEST, e do nmero
de ordem da criana como pessoa que habita essa casa, NOMPER.

Variveis: variveis o conjunto de informaes coletadas para cada caso.

No estudo da desnutrio infantil na regio de La Fraylesca, o nmero de variveis no


excessivamente elevado, mas existe um certo grau de complexidade, devido quelas
variveis que encontram-se em diferentes arquivos.

Em casos como o descrito, dever existir um vnculo de unio entre todas as variveis, para
assegurar que a informao refere-se a uma mesma criana. Em princpio a este vnculo,
damos o nome de nmero ou identificador de caso.

Um requisito imprescindvel que, seja qual for o arquivo, as variveis se encontrem na


mesma ordem para todos os casos. Esta caracterstica a que confere realmente a
qualificao de matricial.

Da mesma forma, para todos os casos, a informao de cada varivel deve manter
constante o formato ou a natureza da varivel. Por exemplo, deve ser previamente decidido
se as categorias da varivel sexo codificar-se-o como mulher e homem , como M e F,
como 1 e 2, etc. O que deve ficar bem claro o critrio nico de codificao.

Registros: O registro se corresponde com a linha fsica ou real da matriz de dados. Como
a viso pela tela est limitada a um nmero de caracteres, antes que existisse a
possibilidade da funo scroll, ou deslocamento lateral da tela, a visualizao de um caso
complexo, em nmero de variveis ou de variveis de longitude extensa, obrigava a
escrever o caso em vrias linhas de registros. Era, pois, de vital importncia indicar o
nmero de registros que compunham a informao de um caso.

Quando a informao das variveis de um caso necessita de uma nica fila da matriz, o
nmero de caso e de registro coincidente.

Na atualidade, a diferenciao entre registro e caso tende a desaparecer por facilidade de


visualizar a informao.

Nas verses atuais do SPSS, a opo de organizar a informao de um caso em distintos


registros j no existe como opo do editor de dados SPSS, esta aparece somente para
leitura de arquivos ou matrizes de dados externas.

Formato: De forma clssica, entende-se que uma matriz de dados possui formato quando
todas as variveis comeam e terminam nas mesmas colunas fsicas da matriz,
entendendo que cada caractere da longitude de uma varivel uma coluna. Neste caso, se
falaria de um formato fixo, formato no qual se definem a maioria dos arquivos.

Por exemplo, em nosso estudo analisaremos a varivel escolaridade da me. Esta varivel,
ao ser expressa em cursos escolares completos, pode oscilar entre 0 e 20 anos, motivo pelo
qual a longitude da varivel ter duas colunas fsicas, as dezenas e as unidades. Se a
matriz de dados estivesse em formato fixo, em todos os casos estudados a cifra das
dezenas do nmero de cursos superados comearia na mesma coluna, portanto as
unidades estariam, sempre, na coluna seguinte.

Existe a opo de ter as informaes das variveis organizadas sem estrutura de coluna
fixa, mesmo se separadas por algum smbolo que indique onde finaliza cada uma delas.
Neste caso, dizemos que a matriz de dados de formato varivel.

A Figura 3.1 apresenta um exemplo dessas duas situaes. Observe como apresentada a
mesma matriz em cada um dos formatos. Enquanto que na de formato fixo as variveis
distinguem-se claramente em colunas, na de formato livre o caractere ponto e vrgula realiza
a funo de separao entre as variveis.
Figura 3.1 Exemplo da mesma matriz expressa em formato fixo e livre.

Formato fixo Formato livre

1 15 98,0 16,6 1;15;98,0;16,6


1 17 101,5 15,9 1;17;101,5;15,9
1 18 86,0 12,8 1;18;86,0;12,8
4 3 84,3 12,2 4;3;84,3;12,2
6 4 91,0 12,0 6;4;91,0;12,0
10 6 77,5 10,0 10;6;77,5;10,0
12 10 104,8 18,9 12;10;104,8;18,9
12 11 78,0 9,7 12;11;78,0;9,7
17 3 100,7 18,7 17;3;100,7;18,7
17 4 85,8 11,7 17;4;85,8;11,7

Atualmente, cada vez menos freqente o uso de arquivos de dados ou matrizes de dados
que no procedem de uma planilha de clculo ou de uma base de dados, motivo pelo qual
estas caractersticas tambm tendem a perder sua importncia. Nas ltimas verses do
programa SPSS ainda mantida toda a potencialidade de leitura dos arquivos em ASCII,
*.txt ou *.dat, ficando muito clara a sintaxe de definio de arquivos deste tipo, tanto como
instruo de linguagem, quanto como sintaxe pelo menu de leitura de um arquivo nessas
caractersticas.

Matriz de dados agrupados ou agregados

A matriz de dados agrupados ou agregados apresenta a informao de forma


multidimensional, agrupando os dados por ndices.

Neste caso, o nmero de registros corresponde ao nmero de combinaes entre as


diversas opes das variveis categricas que definem a agrupao.

Imagine que, para as crianas do estudo, desejssemos obter um arquivo agregado por
sexo (i=1,2), idade categorizada em quatro grupos, (j=1,4),tipo de residncia em trs
grandes grupos, (k=1,3), e a idade da me em duas categorias, (l=1,2). Este arquivo
implicaria uma matriz, na qual o nmero de dados seria 48, correspondente s 48 situaes
geradas. Em cada uma destas seguintes situaes, (i,j,k,l), as variveis so resumos de
propriedades existentes em um arquivo de dados individual. Assim poderia existir a
informao do nmero de crianas com as caractersticas geradas pelos ndices ou
freqncia de observao, fijkl, as estatsticas amostrais de qualquer varivel quantitativa,
como a mdia de ingesto de protenas, xijkl, a proporo de protenas de origem vegetal,
pijkl, ou quantas crianas esto abaixo de um determinado nvel, nijkl, em uma varivel
concreta.

Na Figura 3.2 se apresenta um exemplo deste tipo de matriz de


dados. Esta matriz corresponde a uma agregao da apresentada na
Figura 3.1. Observe que para cada valor da primeira varivel so
detalhados o nmero de casos com este valor (coluna 2 da matriz da
Figura 3.2) e a mdia dos valores nas variveis 3 e 4.
Figura 3.2. Exemplo de uma matriz de dados agregada.

1 3 95,2 15,1
4 1 84,3 12,2
6 1 91,0 12,0
10 1 77,5 10,0
12 2 91,4 14,3
17 2 93,3 15,2

Observe que a matriz apresentada em formato fixo, podendo tambm ter sido feita em
formato livre.

Introduo dos dados


Em geral, a introduo ou coleta dos dados o aspecto ao qual se dedica menos tempo na
fase de planejamento do estudo e, com freqncia, o que pode gerar mais problemas na
hora de realizar uma determinada anlise.

A escolha de um ou outro tipo de matriz de dados tem a conseqncia de que a vantagem


de um determinado sistema, por exemplo: o de trabalhar com formato livre, quando no
estiver bem planejado, gere posteriormente problemas graves de interpretao de casos
com informao desconhecida ou incompleta.

A maneira pela qual a informao da varivel coletada, alfanumrico ou string, pode


significar rapidez na hora de introduzir a informao, j que no tipo alfanumrico qualquer
expresso que respeite a longitude da cadeia (o nmero mximo de caracteres) ser aceita
como valor da varivel. Esta facilidade aumenta o risco de posteriormente ter que se dedicar
muito tempo a revisar possveis erros.

O processo lgico, atualmente, o de programar a coleta da informao dentro de um


contexto de planilha de clculo ou de base de dados, sendo muito rentvel a programao
de planilhas de aquisio de dados com a presena de filtros. Estes filtros no so mais que
detectores de valores errneos, fora do intervalo ou a falta de informao por deixar campos
em branco.
Da mesma forma, a utilizao de uma base de dados permite reduzir muito os erros de
entrada de informao. Isto assim, j que, atualmente, muito simples programar janelas
de menus com opes desdobrveis que diminuem o tempo necessrio para informatizar os
dados. Estas possibilidades so de grande utilidade, especialmente quando as variveis
categricas possuem mltiplas opes.

No obstante, acreditamos que um bom profissional da Estatstica Aplicada deve distinguir-


se por saber resolver os problemas independentemente do formato ou da apresentao da
matriz de dados, seja esta mais ou menos antiga, seja esta mais ou menos freqente.

Por esta razo, no exemplo utilizado neste livro, a informao apresentada em diversos
arquivos de formatos diferentes, com a finalidade de conhecer como abordar uma anlise a
partir desta diversidade.

Os arquivos de trabalho que encontram-se disposio do leitor, no CD que acompanha


este livro e em http://servet.uab.es/graal/Materiales.htm, so detalhados a seguir. A
estrutura destes arquivos, tanto no que se refere s variveis, nome, tipo e descrio, como
s distintas opes no caso em que a varivel seja de natureza categrica, apresentada
nas tabelas descritas no pargrafo seguinte.

Em todos os casos foram mantidos a definio original da varivel.

Arquivos disponveis para realizar o estudo


NIN_VILL.DAT: Arquivo em formato ASCII. Contm os dados das crianas
selecionadas para o estudo residentes no municpio de Villaflores, com sua informao
demogrfica e nutricional, assim como a informao referente me. Na tabela 3.1 sua
estrutura pode ser detalhadamente observada.

Tabela 3.1. Estrutura das variveis do arquivo NIN_VILL.DAT.

VARIVEL DESCRIO VALORES

NCUEST N. do questionrio
NOMPER N. de identificao da pessoa na casa
SEXO
F_ENTR Data de realizao da entrevista
F_NACIM Data de nascimento da criana
ED_MADRE Idade da me (em anos) 77. NS, 88. NR.
Escolaridade da me (em cursos
MESCOLA 77. NS, 88. NR.
completos)
1. Trabalhos do lar, 2. Trabalhos
MOCUPA Ocupao da me
agropecurios, 7. NS, 8. NR.
Protenas de origem animal consumidas
PROTEA
no dia anterior entrevista
Protenas de origem vegetal consumidas
PROTEV
no dia anterior entrevista

NIN_JAL.DBF: Arquivo em formato dBase IV. A estrutura do arquivo (variveis, valores,


etc.) exatamente a mesma de NIN_VILL.DAT, mas a informao contida a das
crianas e mes do municpio Jaltenango.

ANTROP.XLS: Arquivo em formato de planilha de clculo Microsoft Excel,


verso 2.1. Contm a informao antropomtrica (altura e peso) de todas as
crianas (Villaflores e Jaltenango), com idade entre 12 e 59 meses. O total de
casos de 644, j que tambm constam os irmos mais velhos (os quais no
faro parte do estudo). Observe sua estrutura na tabela 3.2:

Tabela 3.2. Estrutura das variveis do arquivo ANTROP.XLS.


VARIVEL DESCRIO VALORES

NCUEST N. do questionrio
NOMPER N. de identificao da pessoa na casa
TALL_CMS Altura da criana (em centmetros)
PESO_KG Peso da criana (em quilos)

CASA.DBF: Arquivo em formato dBase IV. Contm a informao relativa s


caractersticas do lar. Para uma descrio mais detalhada, veja a tabela 3.3.

Tabela 3.3. Estrutura das variveis do arquivo CASA.DBF.

VARIVEL DESCRIO VALORES

NCUEST N. do questionrio
TOTAPE Total de pessoas na casa
TIP_LOC Tipo de localidade 1. Urbana, 2. Rural
NCUDOR N. de dormitrios
1.Completo, 2. Latrina, cova 3. No
SANIT Tipo de banheiro
tem banheiro, usa o solo
LUZ Possuem luz eltrica em casa? 0. No, 1. Sim
REFR Possuem geladeira? 0. No, 1. Sim
TV Possuem TV? 0. No, 1. Sim
1. Adobe, 2. Ladrilho, 3. Madeira,
4. Terra, 5. Cimento, 6. Mosaico, 7.
Gesso, 8. Lmina metlica,
PAREDES Material das paredes
9. Terra, 10. Pedra, 11. Palha, 12.
Barro, 13. Palha de trigo, 14. Palha
de milho
1. Adobe, 2. Ladrilho, 3. Madeira,
4. Terra, 5. Cimento, 6. Mosaico, 7.
Gesso, 8. Lmina metlica,
PISO Material do piso
9. Terra, 10. Pedra, 11. Palha, 12.
Barro, 13. Palha de trigo, 14. Palha
de milho

COM_COC Combustvel utilizado para cozinhar 1. Lenha ou carvo, 2. Gs


1. 1 vez no mnimo/3 dias, 2. 1 ou
2 vezes/semana, 3. 1 vez/15 dias,
CARNE Freqncia de ingesto de carne de boi 4. 1 vez/ms, 5. Menos de 1
vez/ms, 6. Quase nunca ou
nunca, 7. NS, 8. NR.
SEGSOC Possuem seguro social? 0: No, 1: Sim

JEFE.XLS: Arquivo em formato pasta de trabalho Microsoft Excel 97. Contm


duas planilhas de clculo diferentes: Car_jefe e Enf_jefe. A primeira planilha,
cuja estrutura mostrada na Tabela 3.4, a que nos interessa, ao passo que a
segunda no tem nenhum interesse para nossa anlise.
Tabela 3.4. Estrutura das variveis do arquivo JEFE.XLS.

VARIVEL DESCRIO VALORES

NCUEST N. do questionrio
SEX_JEFE Sexo do chefe da famlia 1. Masculino, 2. Feminino
ED_JEFE Idade do chefe da famlia (em anos) 777. NS, 888. NR.
Cursos escolares superados pelo chefe da
JESCOLA 77. NS, 88. NR.
famlia
1. Agricultor, 2. Outros, 7.
JOCUPA Ocupao do chefe da famlia
NS, 8. NR.

Inicialmente transportaremos os cinco arquivos de dados para uma pasta criada com esta
finalidade: C:\Spss\Chiapas. Uma vez efetuada a cpia, iniciaremos o processo de
transformao destes arquivos em formato SPSS. Desta forma, a qualquer momento,
poderemos acess-los sem problemas. Observe, no entanto, que um dos arquivos originais
est em formato ASCII, outros dois esto em verses diferentes de Excel e dois mais em
dbase IV.

Muito bem, agora j sabemos que arquivos temos e que informaes contm. Comecemos
a trabalhar. Imagino que podemos ver estes dados... O que fazer?

ABRIR ARQUIVOS EM ASCII (TEXTO)

Na poca em que foi lanado o pacote SPSS, a imensa maioria dos arquivos de dados
estava em ASCII, portanto a leitura e a interpretao do arquivo de dados constituam as
primeiras aes explicadas em qualquer curso de introduo ao programa.

Apesar de que hoje em dia, em ambiente Windows, seja pouco


freqente a existncia de arquivos de informao neste formato,
preciso pensar que ainda possvel deparar-se com estes tipos de
arquivos, portanto importante conhecer como abri-los e l-los.
Adicionalmente, a estrutura da instruo de leitura introduz diversos conceitos de grande
interesse, inclusive para aqueles usurios que, apesar da nossa insistncia em entender e
utilizar a sintaxe de forma profissional, usam exclusivamente a programao a partir das
funes pr-programadas dos menus desdobrveis (janelas).

SINTAXE

A instruo de sintaxe que permite a leitura e portanto o transporte


da informao de um arquivo em formato ASCII a outro em
formato SPSS conhecida pelo nome de Data List.
DATA LIST FILE=arquivo [{Tipo}] [RECORDS={n
registros}]
/{n registro} nome da varivel {colunas [(formato)]}
[nome da varivel...]
[/{n registro} ...] [/ ...]
EXECUTE.

Observa-se que a instruo completa possui uma parte determinante, que o DATA LIST
FILE = arquivo e outra opcional ou dependente da estrutura do prprio arquivo de dados.

DATA LIST
Esta instruo geral, DATA LIST, significa que, em seguida, sero dadas as instrues
necessrias para localizar um novo arquivo de dados, l-lo, traduzi-lo e criar, portanto, um
novo arquivo ativo.

importante realar que o SPSS no pode trabalhar simultaneamente com vrias matrizes
de dados ou arquivos ativos, se voc j tinha outro arquivo de dados aberto, dever fech-lo
previamente.

O contedo do resto da informao que fornecida na frase de sintaxe descrita


anteriormente :

FILE=arquivo
A primeira subinstruo, FILE, a indicao do nome e da localizao do arquivo de dados.
Como sempre ocorre em SPSS e na maioria dos programas, a especificao de um nome
de arquivo que em geral em alfanumrico, coloca-se entre aspas, simples ou duplas.

Entende-se por nome do arquivo o nome, a extenso do arquivo, assim como a


especificao inequvoca de sua localizao em uma determinada unidade de memria. No
exemplo que vamos desenvolver, um dos arquivos de dados, NIN_VILL.DAT, no est
totalmente especificado, se no indicado em que diretrio ou pasta est localizado.

Isto , o arquivo 'C:\Spss\Chiapas\nin_vill.dat' , para efeitos de anlise, diferente do


arquivo 'A:\nin_vill.dat', independentemente de que na realidade fosse uma cpia do
anterior ou, por outras razes, fosse um arquivo com mesmo nome e extenso, mesmo que
com informao diferente.

[{Tipo}] Por tipo entende-se a estrutura da matriz de dados, a qual, como havia sido
indicado no captulo anterior, geralmente, pode ser de duas classes, fixa ou varivel.

- Fixed **: Mostra que a matriz de dados indicada em FILE um arquivo, no qual
cada varivel est em uma determinada posio fixa em todos os registros. a
forma matricial clssica que foi indicada na primeira parte deste captulo. a
opo adotada como padro pelo programa, portanto, quando for fixo, no
preciso especificar.

- Free: Neste caso, a matriz corresponde a um arquivo, no qual cada varivel


separa-se da seguinte por meio de um separador, que pode ser qualquer sinal
(vrgula, barras, cifro, etc.), contanto que seja uniforme em todo o arquivo. Isto
implica que os valores de uma mesma varivel no tm motivo para estar na
mesma coluna em todos os registros, a ordem, sim, deve ser mantida.
Neste tipo de formato, os valores no existentes ou desconhecidos, missing,
implicam presena de dois caracteres separadores, seguidos no registro.
[RECORDS={n. registros}] Permite especificar quantos registros a informao
ocupa em cada unidade observacional. Pode ser, portanto, qualquer nmero inteiro positivo.
Normalmente 1 (como padro) e, neste caso, no necessita ser explcito na instruo.

/{n. registro} nome da varivel {colunas [(formato)]}


[nome da varivel ...] No caso em que existam dois ou mais registros por
caso ou unidade observacional, lgico que deve ser especificado de qual registro est
sendo dada a informao que aparece em seguida. Se no existe mais de um registro,
como ocorre na maioria das situaes, no necessria a especificao do nmero de
registro.

Assim, precedidos pelo separador /, so indicados de forma seriada: o nome das variveis
que se encontram neste registro, se o arquivo de tipo fixo, entre que colunas se
encontram. Da mesma forma indicado o formato da varivel. No captulo 4 sero descritos
todos os possveis formatos ou maneiras como cada varivel pode estar presente em um
arquivo.

Em nosso estudo, um dos arquivos nos quais foi originalmente armazenada a informao
do tipo ASCII. Assim devemos transform-lo em formato de dados SPSS, por meio da
instruo DATA LIST.

Para isto devemos levar em conta a informao sobre a natureza de cada varivel e seu
formato, dados que foram descritos para os arquivos NIN_VILL.DAT, na tabela 3.1.

A instruo necessria :

DATA LIST FILE='C:\Spss\Chiapas\nin_vill.dat'


/ ncuest 1-3 nomper 5-6 f_entr 10-19 (DATE) f_nacim 21-30
(DATE) sexo 31-39 (A) ed_madre 47-48 mescola 52-53 mocupa
56 protea 60-65 protev 69-74 .
EXECUTE .

Esta instruo indica que seu arquivo de dados NIN_VILL.DAT est localizado na unidade
C:\ de seu computador, em uma pasta ou subdiretrio Chiapas, que foi criado por voc em
outro subdiretrio chamado SPSS. Caso voc tenha instalado arquivos em outro diretrio,
deve modificar esta instruo, adequando-a ao seu prprio esquema.

Como nada foi indicado, o programa supe que o arquivo de dados de formato fixo, e que
a informao de cada caso, neste arquivo cada criana, encontra-se em somente um
registro. Por esta razo, depois no indicado o separador /.

Observa-se tambm que, como o tipo de arquivo fixo, para cada varivel especificada
em que coluna inicia e termina a informao, e que s a varivel SEXO, que de formato
alfanumrico, possui a informao (A), indicando isto. Nas demais variveis, como nada
indicado, aplica-se o formato padro, que o numrico.

Execute ento os seguintes passos, uma vez selecionado e ativado o SPSS:

1. Abra um novo arquivo de sintaxe, utilizando o cursor na seguinte seqncia: File


4New4Syntax.
2. Na janela que acaba de abrir, escreva a instruo de DATA LIST indicada
anteriormente.
3. Selecione todo o texto com o cursor e clique sobre a figura da barra de
ferramentas. Com esta ao est sendo indicado que o texto selecionado seja
executado.

Finalmente, a instruo EXECUTE provoca a execuo da instruo DATA LIST que o


programa tinha lido e carregado na memria.
Observa-se que, ao executar esta instruo, ser aberta outra janela, na qual sero
visualizados os dados especificados, em uma planilha com nome de Data View. Est
acessvel tambm outra planilha, Variable View, na qual consta a informao que se dispe,
at o momento, de cada varivel.

A qualquer momento pode-se voltar janela do Editor de Sintaxe, ativando Window do


menu de ferramentas, e ser observado que a instruo Data List que acabou de ser
executada mantida na mesma. Esta instruo pode ser guardada em um arquivo
permanente, indicando ou ativando a seqncia File Save As..., isto faz com que, no
futuro, possa voltar a execut-la ou lembrar as sintaxes que foram executadas e reproduzir
o estudo.

A sintaxe DATA LIST est desaparecendo atualmente. Nas ltimas verses do SPSS para
Windows, a tendncia a de unificar todas as instrues ligadas abertura e ao transporte
de arquivos, por meio de uma nica instruo geral, que recebe o nome de GET DATA. A
verso 10 do SPSS j a que gera todos os tipos de leitura ou abertura de arquivos, motivo
pelo qual em um futuro se prev que a instruo DATA LIST deixar de existir. Esta
situao pode ser observada ao abrir um arquivo de dados ASCII ou texto, nomenclatura
usada na atualidade pela utilizao de menus desdobrveis nas janelas disponveis na
barra de ferramentas.

JANELAS
Realizar a abertura e leitura de um arquivo ASCII por janelas significa ativar, mediante o
cursor, a opo File e, no menu que desdobra-se, selecionar Read Text Data. (Figura 3.3).
Por meio da janela do Explorer ativada, deve-se procurar e abrir o arquivo NIN_VILL.DAT
na pasta onde tenha sido copiado.
Com esta ao abre-se uma janela com o nome Text Import Wizard, na qual j
visualizada uma amostra do arquivo indicado. Esta janela, primeira das seis que configuram
o processo, permite buscar um arquivo em que se encontre definido o formato de leitura.

FIGURA 3.3. Assistente para a importao de arquivos em texto ou ASCII.


Em geral, quando se trabalha neste esquema, o habitual que o formato seja definido no
momento da importao. Assim, ignorando esta opo, ao ativar as janelas seguintes, gera-
se a sintaxe de leitura, sintaxe que na ltima janela pode ser guardada pela resposta
pergunta Would you like to paste the syntax?. Caso contrrio, ao ativar a tecla Concluir,
a sintaxe automaticamente executada, e uma nova matriz de dados criada na tela. Leia
minuciosamente todas as opes que aparecem em cada uma das janelas: pense, por
exemplo, que nosso arquivo tem as variveis determinadas em colunas fixas (passo 2 de 6)
e esteja atento s variveis que o programa determina automaticamente (passo 4 de 6),
posto que, s vezes, agrupa duas variveis diferentes em uma.

Evidentemente, se a informao fornecida nas janelas a correta, esta matriz de dados


deve ser igual gerada pela sintaxe do DATA LIST.

No caso em que fosse escolhida a opo de colar a sintaxe, o processo termina ao Concluir
e, neste caso, abre-se uma janela de sintaxes, para que as aes escritas na janela possam
ser executadas. Para isto, siga os seguintes passos:

1. Ative com o cursor a opo Window da barra de ferramentas.

2. Selecione SPSS Syntax Editor.

3. Selecione o texto com o cursor e clique sobre o boto da barra de ferramentas


desta janela. Voc observar que ser gerada uma nova janela de dados idntica
que havia sido criada anteriormente por meio da instruo DATA LIST.

Se no foram cometidos erros, volte janela de sintaxe e salve-a em um arquivo com o


nome que voc achar mais adequado. Observe que, como padro, a ao de Save As
atribui ao arquivo a extenso sps.
Voc vai notar que a sintaxe escrita pelo assistente de importao de texto no DATA
LIST, mas, sim, GET DATA. Esta sintaxe ser comentada no final do captulo.

No caso em que os arquivos tm uma estrutura muito complexa, o processo de leitura por
meio de janelas rduo, portanto suscetvel ao cometimento de erros ou imprecises ao
execut-lo. uma situao na qual guardar as sintaxes de leitura pode evitar muitos erros
no futuro e perdas desnecessrias de tempo. Da mesma forma, tente imaginar como
escrever um relatrio que defina com clareza o processo de leitura, sem escrever as
sintaxes. Seguramente, alm de imprecisa, a explicao mais extensa que anexar as
sintaxes.

COMENTRIOS
1. Uma vez carregado o arquivo NIN_VILL.DAT, observe atentamente o Editor de Dados.
Poderia acontecer que as colunas que representam as variveis PROTEA e PROTEV
no tivessem praticamente nenhum dado.

Observa-se, tambm, que existe uma janela nova, ao ativar Window na barra de
ferramentas, que corresponde a um arquivo de resultados. Neste arquivo pode aparecer
uma mensagem de aviso (Warning), informando que foi encontrado um campo numrico
no-vlido. Deve-se saber que, se isto aconteceu, porque no arquivo NIN_VILL.DAT o
separador decimal est representado pelo caractere da vrgula, enquanto que seu
computador, por padro, tem o ponto definido como smbolo do separador decimal.
Ocorrer somente neste caso. Para solucionar este problema, podem-se seguir dois
caminhos:

1.1. Trocar o ponto pela vrgula por meio de um editor/processador de texto:

Abra o arquivo NIN_VILL.DAT por qualquer editor ou processador de texto que


tenha em seu computador (Editor do MS-DOS, WordPad, Word...). Em todos estes
programas existe uma opo chamada Substituir. Encontre-a e pea para que
sejam substitudas todas as vrgulas por pontos. Por exemplo, no WordPad, que
pode ser executado no Windows, seguindo a seqncia Iniciar 4Programas
4Acessrios 4WordPad, selecionando o menu Editar 4 Substituir, seria obtida
a janela mostrada na figura a seguir, Figura 3.4:

FIGURA 3.4. Janela de busca e substituio de caracteres ou textos do


processador de textos WordPad.
Onde a vrgula deve ser especificada na opo Localizar e o ponto em Substituir
por. Uma vez realizada a mudana, salve o arquivo com o mesmo nome e volte a
executar DATA LIST ou a sintaxe que havia guardado, a partir da janela de Text
Import Wizard.

1.2. Trocar o ponto pela vrgula como smbolo separador decimal em seu sistema:

Isto deve ser feito fora do programa SPSS, pelo menu Iniciar4Configurao4
Painel de Controle4Configurao Regional, onde aparecer a seguinte tela,
(Figura 3.5):

FIGURA 3.5. Janela de configurao regional para sistemas Windows.


Nesta, a vrgula deve ser substituda pelo ponto em Smbolo decimal e tambm em
Smbolo de agrupamento de dgitos.

Esta mudana no surtir efeito at que o programa SPSS seja reiniciado. Assim,
se se deparou com o problema e escolheu este caminho para solucion-lo, o
programa deve ser fechado e novamente iniciado. Neste caso se faz mais
necessrio guardar a sintaxe para no ter que escrev-la ou desenvolv-la
novamente por janelas.

Finalmente, devemos ressaltar que esta mudana afetar no-somente o SPSS,


mas tambm todos os programas instalados em seu computador.

Uma vez importados os dados, necessrio salvar o arquivo ativo no disco, j que nestes
momentos o arquivo temporal. Isto , se sassemos do programa ou se acontecesse
algum problema com o computador que provocasse o desligamento deste, o arquivo ativo
seria perdido, e deveria ser repetida a instruo DATA LIST ou a importao do arquivo,
ativando as janelas de aquisio de dados.

A partir de agora, cada vez que queira trabalhar com o arquivo de dados das crianas de
Villaflores terei que repetir o DATA LIST?

COMO SALVAR OU GRAVAR O ARQUIVO


ATIVO.
Uma vez realizadas as operaes necessrias para a leitura do arquivo de dados,
recomendvel salvar o arquivo ativo de forma permanente. Desta forma, em qualquer
operao posterior com os dados, modificando-os por meio de transformao ou criao de
variveis ou efetuando diversos tipos de anlises, analisando-os em uma ou vrias sesses,
no ser necessrio executar todas as vezes a leitura da matriz de dados original.

Arriscando sermos muito insistentes, voltamos a repetir a importncia de ter guardado a


sintaxe de leitura, j que, medida que o tempo passa, mais difcil lembrar o processo
pelo qual o arquivo ativo foi gerado.

SINTAXE

A sintaxe para gerar um arquivo permanente de dados em formato


SPSS a seguinte:
SAVE OUTFILE=arquivo
[/UNSELECTED=[{manter ou no casos no selecionados}]
[/KEEP={lista de variveis}] [/DROP= lista de variveis]
[/RENAME=( lista de variveis antigas= lista de
variveis
novas)...]
[/MAP] [/{tipos de gravao}]

Nesta instruo, SAVE, que implica salvar ou gravar


permanentemente, complementam-se, com as seguintes indicaes
de nome e localizao do arquivo, as variveis que vo ser
guardadas e as que so ignoradas, os nomes das variveis, etc. O
contedo destas instrues :
OUTFILE=arquivo Possui o mesmo sentido que no DATA LIST FILE. Isto ,
devem-se indicar a unidade e o diretrio onde se pretende salvar o arquivo, assim como o
seu nome e a sua extenso. Em geral, o SPSS entende como padro que um arquivo com
estas caractersticas, dados SPSS, deve ter a extenso .sav.

[/UNSELECTED=[{manter ou no casos no selecionados}]


Em muitas anlises, trabalha-se somente com subconjuntos de
dados, definidos com a funo de cumprir ou no uma condio
lgica. Por exemplo, deseja-se trabalhar unicamente com as crianas
do sexo feminino. A forma de efetuar esta seleo explicada no
captulo 6, mas pode-se adiantar que o mecanismo de imposio de
uma condio a um conjunto de dados gera uma varivel chamada
FILTER, a qual tem como valores 0, se o caso no cumpre a
condio definida, ou 1, se a cumpre.
Em uma situao como esta, quando o arquivo gravado por meio da instruo SAVE,
preciso especificar se todos os casos foram guardados ou somente os selecionados.

Isto pode ser feito especificando entre as chaves as seguintes opes:

- Retain **: Salva todos os casos. a opo padro.


- Delete: Salva somente os casos que satisfazem a condio imposta em
FILTER.

[/KEEP={lista de variveis}]No caso em que se deseja manter no arquivo


permanente somente as variveis indicadas na lista. A opo padro /KEEP=ALL, isto ,
mantenha todas as variveis definidas at o momento anterior instruo SAVE.

[/DROP= lista de variveis] uma instruo que tambm tem como objetivo
limitar as variveis que so includas no arquivo permanente final, mas, neste caso,
indicando a lista de variveis que so excludas dele.

O valor padro /DROP= NONE, isto , nenhuma.

O uso de KEEP ou DROP depende do nmero de variveis que deseja-se excluir ou manter
no arquivo final, assim como do nmero de variveis na janela ativa.

[/RENAME=(lista de variveis antigas = lista de variveis


novas)...] Esta opo permite salvar o arquivo ativo, mudando o nome das variveis
especificadas na lista de variveis antigas, substituindo-o pelos nomes que figuram na lista
de novas variveis.

[/MAP] Esta instruo escreve no arquivo de resultados ou no JOURNAL qual a


estrutura do arquivo que foi salva: basicamente o nome e o formato das variveis, assim
como o nmero de casos que fazem parte do arquivo.
de grande importncia arquivar esta informao, j que, ativando posteriormente o
arquivo salvo, tem-se acesso a ela; com freqncia o nmero de arquivos muito
numeroso, e a tendncia de todo analista a de diferenciar muito pouco pelo nome os
arquivos.
Novamente, o passar do tempo torna difcil a memorizao do contedo exato dos arquivos.

[/{tipos de gravao} Especifica-se, neste caso, se a gravao ser realizada


de forma comprimida ou no, indicando entre os colchetes:

- Compressed **: O arquivo gravado de forma comprimida. Ocupa menos


espao no disco e , portanto, a forma de gravao recomendada, apesar de
que, teoricamente, demoramos mais tempo quando voltamos a abri-lo. Na
maioria das vezes a diferena imperceptvel. Esta a opo padro.

- Uncompressed: Salva o arquivo sem comprimir.

Assim, podemos salvar em disco o arquivo em que estamos trabalhando, por meio da
instruo:

SAVE OUTFILE='C:\Spss\Chiapas\nin_vill.sav' / COMPRESSED


/MAP.

A qual havamos escrito na janela do editor de sintaxe e executado


por meio do processo habitual, isto , selecionando a sintaxe
desejada com o cursor e clicando no boto da barra de
ferramentas.

JANELAS
A ao de salvar o arquivo, por meio da utilizao de menu por janelas, seria efetuada,
ativando File Save As..., tal e como apresentado na Figura 3.6.

FIGURA 3.6. Ao de Salvar o arquivo de dados em formato de dados SPSS, (*.sav).

Se, em vez de clicar na opo Salvar, se optasse pela de Paste (colar), na janela Editor de
Sintaxes SPSS, seriam escritas as ordens de sintaxe, as quais poderiam ser ativadas como
nos casos anteriores. Isto , selecionando com o cursor a instruo e clicando na tecla da
barra de ferramentas.

COMENTRIOS
1. No momento de executar esta instruo, o arquivo ativo ser salvo tal como est,
conservando todas as modificaes feitas desde a ltima vez em que foi aberto. Se o
salva com o mesmo nome, substituir o arquivo antigo e este no ser recupervel.

2. No se esquea de salvar o arquivo de forma comprimida, principalmente se for um


arquivo volumoso.

J temos, seja por ao de sintaxe, seja por menu, o primeiro arquivo em formato de dados
SPSS. Nos restam mais quatro arquivos para passar a este formato. No entanto estes no
so arquivos ASCII, mas, sim, arquivos dBase IV e EXCEL (um na verso 2.1 e outro na
verso 97).

Exato. Se tenho arquivos em formato ASCII, j sei o que fazer. Mas, se esto em outros
formatos, posso fazer o mesmo ou devo utilizar outras instrues?

COMO ABRIR ARQUIVOS EM FORMATO


DE PLANILHA OU DE BASE DE DADOS.
Na atualidade, a maior parte dos arquivos de dados encontra-se em
formatos j estruturados, seja em forma de planilha, seja em base de
dados.

Na realidade, a melhor das opes, j que, em princpio, adquirir a informao por meio
de uma base de dados, tal como foi dito anteriormente, pelo desenho de formulrios para
coleta de dados, evita muitos erros de digitao.

Praticamente todos os programas e pacotes estatsticos possuem


instrues de traduo das estruturas destes arquivos e para a
converso em arquivos utilizveis pela linguagem do pacote.

Neste aspecto, como foi indicado para a leitura de arquivos em ASCII, tambm est sendo
produzida uma evoluo muito rpida da sintaxe, tendendo a unific-la em uma mesma
instruo, GET DATA, introduzindo subinstrues que indicam o tipo de base de dados ou
de planilha que se pretende traduzir. Esta instruo descrita mais adiante.

No entanto ainda est vigente a instruo que, at a verso SPSS10, tem permitido a leitura
de arquivos nesses formatos, tal como descrito a seguir.

SINTAXE
A sintaxe necessria para a leitura de um arquivo desta natureza :

GET TRANSLATE FILE=arquivo


[/TYPE={formato do arquivo}]
[/FIELDNAMES]
[/RANGE={range name}]
{start..stop}
{start:stop}
[/KEEP={lista de variveis}] [/DROP= lista de
variveis]
[/MAP]

GET TRANSLATE a instruo geral que indica a ao de traduo de um arquivo


criado em uma estrutura externa do SPSS.
acompanhada das seguintes opes:

FILE=arquivo Tal como foi visto em instrues anteriores, preciso indicar o nome
completo do arquivo que se deseja ler ou abrir, incluindo no nome do arquivo o path ou localizao
das pastas onde ele se encontra.

[/TYPE={formato do arquivo}] Entre as chaves deve-se indicar em que tipo


de formato est o arquivo que se deseja ler. Deve-se escolher entre a seguinte lista de
formatos:
DBF **: Arquivos dBASE (todas as verses)
XLS: Arquivos Microsoft Excel (verso 4.0 ou
anteriores)
TAB: Arquivos ASCII limitados por tabuladores
SLK: Arquivos Multiplan em formato (symbolic link)
SYS: Arquivos Systat
WK: Arquivos Lotus 1-2-3 ou Symphony

WK1: 1-2-3 verso 2.0


WKS: 1-2-3 verso 1A
WR1: Symphony verso 2.0
WRK: Symphony verso 1.0

Os arquivos Excel em verses superiores a 4.0 devero ser lidos por meio da instruo GET
DATA.

[/FIELDNAMES] A opo FIELDNAMES indica ao programa que na primeira linha ou


no registro do arquivo original especificado o nome das variveis. Esta opo acessvel
a todos os formatos, exceto em dBase, o qual j armazena esta informao internamente e
a transporta diretamente.

[/RANGE={Clula incio:clula final}] Por meio desta opo, pode-se


selecionar um conjunto de clulas de um arquivo com estrutura de planilha, indicando o
incio e o fim, isto , o intervalo de clulas a serem traduzidas.

[/KEEP={lista}][/DROP={lista}][/MAP] Estas trs opes tm o mesmo


significado em todas as instrues em que aparecem, motivo pelo qual sua explicao a
mesma que foi indicada na instruo SAVE OUTFILE.

Em nosso caso, precisam-se traduzir os arquivos em dBase e criar os arquivos


correspondentes em estrutura SPSS.

Assim, com o primeiro deles, a instruo de sintaxe correspondente :

GET TRANSLATE FILE='C:\Spss\Chiapas\nin_jal.dbf


/MAP.
Ao executar a instruo (seleo com o cursor na janela do Editor de sintaxe e ativao por meio
do boto ), abrem-se duas janelas: a primeira a de resultados e nos oferece a informao da
estrutura da base de dados que foi encontrada, a segunda a nova janela de dados.

Uma vez efetuada esta operao, guarde o arquivo por meio da instruo SAVE e repita o
processo com o outro arquivo dBase, CASA.DBF.

JANELAS

Na Figura 3.7 mostrada a janela correspondente ao: File Open Data


Arquivos do tipo: (Selecionar o tipo).
Como sempre, se fosse selecionada a opo Paste (colar), o resultado seria a gerao da
sintaxe na janela Editor de Sintaxe SPSS, a qual teria que ser ativada pelo cursor clicando
em .

FIGURA 3.7. Leitura de um arquivo gerado em formato DBF.

Obviamente, uma vez transformado em arquivo ativo, deveramos salv-lo em disco, tal
como fizemos anteriormente. Para os outros arquivos que podem ser abertos por meio
desta instruo (CASA.DBF e ANTROP.XLS), deveremos repetir o mesmo procedimento
empregado com NIN_JAL.DBF.

COMENTRIOS

1. Observe que a importao de arquivos Excel s possvel se a verso 4.0 ou inferior.


No caso de ter um arquivo em uma verso superior, utilize a instruo GET DATA ou v
ao Excel e salve o arquivo na verso 4.0.

2. O nmero possvel de variveis que podem ser importadas depende do tipo de


programa original no qual a informao est armazenada: em dBase II possvel um
mximo de 32, em dBase III, 128, e em dBase IV, Multiplan 255, e no resto dos
programas, at 256.

Finalizado este processo, na rea de trabalho que voc selecionou, existiro quatro
arquivos com a extenso .sav, correspondentes a quatro arquivos traduzidos em formato
SPSS. Observe que vai faltar traduzir somente um (JEFE.XLS), que dever ser importado
por meio da instruo GET DATA explicada mais adiante.

A partir deste momento, a ativao de um dos arquivos de dados em formato SPSS pode
ser feita pelo Explorer do Windows. Esta ao implicar execuo do programa SPSS e
apario do arquivo correspondente na janela do editor de dados.

Para comprovar isto, saia do programa SPSS, por meio da opo Exit do menu File,
respondendo s perguntas de salvar as janelas de dados, de resultados e de sintaxe,
segundo seu prprio critrio.

Uma vez fechado o programa, busque no Explorer do Windows a pasta onde se encontram
seus arquivos e observe que so descritos quatro arquivos com a indicao SPSS. Ao ativar
um deles com o cursor, ser ativado o SPSS, e na janela aparecer a matriz de dados
selecionada.
J sei traduzir arquivos de diversos formatos para o formato de dados SPSS. Mas agora
que os tenho neste formato, preciso saber como posso abri-los para trabalhar com eles em
sesses posteriores.

COMO ABRIR UM ARQUIVO DE DADOS EM FORMATO DE DADOS


SPSS (*.sav).

O processo explicado no pargrafo anterior o resultado de ativar o programa SPSS para


Windows e executar uma instruo de abertura de um arquivo que j foi traduzido para um
formato diretamente manipulvel pelo SPSS.

Esta abertura de um arquivo .sav pode ser feita a qualquer momento do trabalho com o
SPSS, levando sempre em conta que somente um arquivo pode ser mantido ativo.

SINTAXE

A sintaxe que converte um arquivo de dados em formato SPSS (*.sav) em um arquivo ativo
a seguinte:

GET FILE=arquivo
[/KEEP={lista de variveis}] [/DROP= lista de
variveis] [/RENAME=(lista de variveis com nome
antigo = lista de variveis com nome novo)...]
[/MAP]

Suponhamos que o leitor j reconhea o significado de cada uma das


opes desta instruo, e que, ao ativ-la com o cursor, uma vez
escrita na janela do Editor de sintaxes SPSS, est indicando onde o
arquivo est localizado, com que nome est armazenado, que
variveis so mantidas no arquivo ativo e com que nome.
As opes padronizadas, isto , sem especificar mais que a instruo
GET FILE = Arquivo, implicam que todas as variveis so
mantidas com o mesmo nome.

Por exemplo, a ao de abrir o arquivo NIN_VILL.SAV seria


efetuada executando a instruo

GET FILE='C:\Spss\Chiapas\Nin_vill.sav' /MAP.


No caso em que esta instruo for executada com uma janela de
dados j aberta, o programa perguntaria se voc deseja salvar ou
no a que est ativa neste momento.

Deve-se levar em conta que a resposta afirmativa a esta pergunta faz


com que o arquivo original seja sobreposto pelo que est ativo
atualmente, perdendo-se o original. aconselhvel salvar
previamente o arquivo que j estava aberto antes de abrir um novo
arquivo, escolhendo entre as opes Save ou Save As e no
respondendo automaticamente pergunta: Save contents of data
editor to ARQUIVO?

JANELAS
O procedimento o habitual, File Open Data..., ao que abre a janela mostrada na
Figura 3.8.

FIGURA 3.8. Leitura de um arquivo de dados em formato de dados SPSS, (*.sav).

Apesar de no ser necessrio para o exemplo do estudo que estamos realizando, queremos
comentar a existncia de duas instrues que se encaixam neste contexto, que so SAVE
TRANSLATE e WRITE OUTFILE. A primeira permite salvar o arquivo em qualquer um dos
formatos citados em GET TRANSLATE, enquanto que a segunda escreve a matriz de
dados em formato ASCII, portanto tratvel a partir de um editor do MS-DOS. Se alguma
destas instrues lhe interessa, consulte os manuais ou o ndice da ajuda o programa.

Ainda me resta um arquivo para passar para o formato de dados SPSS. No existe
nenhuma instruo para traduzi-lo?

ABERTURA GERAL DE ARQUIVOS


Tal como j foi indicado em distintas ocasies, a evoluo da sintaxe nas novas verses
bastante rpida, e, muitas vezes, as novas expresses coexistem com as procedentes de
verses anteriores.

A tendncia clara e explcita, a partir da verso 10.0, a de resumir todas as expresses de


abertura de arquivos escritas em uma instruo geral, conhecida como GET DATA, se bem
que, como foi visto at o momento, no necessrio o conhecimento desta expresso
sinttica para o desenvolvimento do exemplo no qual este livro baseado, nem para a
aquisio dos conhecimentos de seu objetivo didtico.

SINTAXE

A sintaxe geral do GET DATA complexa, por isto apresenta-se a


seguir apenas o seu esquema geral, devendo o leitor consultar o
manual de instrues do SPSS.
A princpio a estrutura geral :

GET DATA /TYPE = {Formato}


/FILE = nome do arquivo
Esta forma geral resume desde o DATA LIST e o GET TRANSLATE, em funo do formato
que este indique. No entanto, em funo deste mesmo formato, as subinstrues e opes
variam.

/TYPE = {Formato}
De modo geral, podemos especificar trs tipos gerais de formato:

ODBC: Devem ser especificados os dois seguintes tipos de opes:

/CONNECT=caractere de conexo
/SQL 'ordens de seleo'

XLS: Nos formatos Excel 5.0 e superiores, dever ser indicada a informao sobre as
planilhas que sero utilizadas.

[/SHEET = {INDEX** n}
{name nome da planilha}]
[/CELLRANGE = {' ponto de incio:ponto final}]
[/READNAMES = {on** ou off }]

Por meio de SHEET, indica-se a planilha a ser selecionada.


Como padro, o programa escolhe a primeira. Se desejar
selecionar outra, isto pode ser feito pela subinstruo INDEX,
especificando o nmero da ordem da planilha ou detalhando
seu nome entre aspas depois da subinstruo NAME.
Com CELLRANGE, especifica-se a posio das clulas a
serem selecionadas para o estudo, como padro, todas.
READNAMES indica se o nome das variveis da planilha que
est sendo lida deve ser importado.
TXT: Indica que o arquivo ASCII possui as seguintes caractersticas:

[/ARRANGEMENT = {Tipo}]

O qual pode ser DELIMITED por algum caractere como a vrgula, espao em branco, ponto
e vrgula, etc., ou FIXED, isto , indica se o arquivo de formato varivel ou fixo.
No primeiro caso, devem ser indicados o nome das variveis e o seu formato:

/VARIABLES = varivel formato varivel formato...

Supondo que o arquivo tenha formato fixo, devem-se indicar as


colunas de incio e fim para cada varivel, assim como seu formato:

/VARIABLES [/nmero de registro] varivel coluna incio-


coluna fim formato

Devem-se especificar, adicionalmente, se os casos se iniciam ou no


na primeira linha do arquivo, o tipo de delimitador no caso do
arquivo ser de formato livre ou varivel, se todos os casos so
importados ou somente uma porcentagem deles, etc.

SPSS: Neste caso, no existe coerncia entre o texto do manual de


ajuda e a expresso de sintaxe que o descreve, motivo pelo qual o
GET FILE no pode ser substitudo por um GET
DATA/TYPE=SPSS, se bem que tudo parece indicar que em um
futuro prximo tambm estar includo este tipo de arquivo.

Uma expresso to geral e polivalente possui, logicamente, uma


sintaxe detalhada e muito complexa e que requer conhecimentos que
superam os objetivos deste livro.

JANELAS

Neste caso, a utilizao de janelas para a leitura e importao dos


arquivos permite, por meio da opo Paste ou colar a sintaxe, a
introduo nesta instruo to geral e portanto to complexa.

Assim, voltando ao caso da abertura de um arquivo ASCII ou de


formato TXT por janela, File Read Text Data ... gera, como
anteriormente indicado, (Figura 3.3), um processo de seis janelas em
cadeia, tendo como resultado a seguinte sintaxe:
GET DATA /TYPE = TXT
/FILE = 'C:\Pessoal\nin_vill.dat'
/FIXCASE = 1
/ARRANGEMENT = FIXED
/FIRSTCASE = 1
/IMPORTCASE = ALL
/VARIABLES =
/1 ncuest 0-2 F3.2
nomper 4-5 F2.1
f_entr 10-18 A9
f_nacim 21-29 A9
sexo 30-38 A9
ed_madre 46-47 F2.1
mescola 51-52 F2.1
mocupa 55-55 F1.0
protea 60-64 A5
protev 69-73 A5.
CACHE.
EXECUTE.

A sintaxe apresentada acima merece alguns esclarecimentos.


Realmente, a que apresentada resultado de vrias modificaes
sobre o que o programa elege como padro:

1. Passo 2 das 6 telas: No caso concreto de NIN_VILL.DAT,


devemos definir o arquivo como de largura fixa e no delimitado
por algum caractere, tal como o SPSS interpreta como padro.

2. Passo 4 das 6 telas: Definimos corretamente os campos que


delimitam as variveis. Observe que, como padro, o programa
no identifica algumas das variveis. Por exemplo, como padro,
o SPSS considera as variveis F_NACIM e SEXO como uma s.
Sucede da mesma maneira com ED_MADRE e MESCOLA. Por
meio do boto direito do mouse, deve-se marcar justamente onde
termina cada varivel. Aparecer uma linha vertical que indica
que neste ponto que uma acaba e inicia outra. No caso das
variveis que informam uma data, o incio do campo deve ser
indicado com preciso.

3. Passo 5 das 6 telas: Nome e tipo da varivel. Como padro, o


nome que o SPSS d a cada uma das variveis V1, V2, etc.
Observa-se que, ao delimitar a largura das variveis do tipo data,
so geradas automaticamente variveis inexistentes e que
correspondem unicamente s colunas em branco que separam as
datas.

4. Os formatos so atribudos por valores padro em funo da


longitude da varivel, os quais nem sempre condizem com a
realidade. Assim, o formato dado inicialmente a NCUEST
alfanumrico. O formato correto pode ser atribudo, se um
formato prvio for definido em um arquivo parte.

COMENTRIOS

1. muito importante conhecer a estrutura do arquivo de dados


para poder determinar onde cada varivel finalizada.
Especialmente se as variveis so datas, j que, neste caso, deve-
se fixar tambm o incio do campo da varivel. Se no for feito
desta forma, a largura da coluna no ser reconhecida como um
formato de leitura de datas, e ser atribudo um formato
numrico, produzindo uma leitura errnea, ou missing de
sistema, devido presena de caracteres no-numricos nas
variveis deste tipo.

2. Ao delimitar a largura das variveis com o cursor, foi fixado


tanto o incio como o final delas. Obrigatrio no caso de datas, o
processo gera variveis inexistentes, considerando as colunas em
branco entre as variveis reais como outras variveis. Podem-se
elimin-las, uma vez editada a sintaxe antes da execuo ou uma
vez gerada a janela de dados, marcando-as com o cursor e
posteriormente clicando na tecla Supr.

Estes inconvenientes e pequenos desajustes mostram exclusivamente


que esta sintaxe ainda no a definitiva e que est em plena
evoluo.

Isto ainda mais evidente no caso dos arquivos *.dbf.

Se a sintaxe utilizada a obtida ao colar as instrues clicadas por


meio da janela File Open Data... *.dbf, esta se corresponde com
a sintaxe clssica correspondente instruo GET TRANSLATE.

Quando se pretende abrir o arquivo por meio da seqncia File


Open Database New Query... e a seleo do esquema dBase Files...,
a situao diferente. No caso de ter a definio prvia das
diferentes localizaes dos arquivos DBF, poderia chegar a obter
uma sintaxe similar mostrada a seguir, para NIN_JAL.DBF:

GET DATA /TYPE=ODBC /CONNECT=


'DSN=dBASE Files;DefaultDir=C:\Spss\Chiapas;DriverId=533;'
'MaxBufferSize=2048;PageTimeout=5;'
/SQL =
'SELECT `T1`.`NCUEST` AS `NCUEST`, `T1`.`NOMPER` AS `NOMPER`, '
'`T1`.`F_ENTR`AS `F_ENTR`, `T1`.`F_NACIM` AS `F_NACIM`, `T1`.`SEXO`
AS '
'`SEXO`, `T1`.`ED_MADRE` AS `ED_MADRE`, `T1`.`MESCOLA` AS
`MESCOLA`, '
'`T1`.`MOCUPA` AS `MOCUPA`, `T1`.`PROTEA` AS `PROTEA`, `T1`.`PROTEV`
AS '
'`PROTEV` FROM `C:\Spss\Fitxers\Dat_orig`\`nin_jal` `T1`'.

VARIABLE LABELS NCUEST "NCUEST" NOMPER "NOMPER" F_ENTR "F_ENTR"


F_NACIM
"F_NACIM" SEXO "SEXO" ED_MADRE "ED_MADRE" MESCOLA "MESCOLA" MOCUPA
"MOCUPA" PROTEA "PROTEA" PROTEV "PROTEV".

Da mesma forma, no caso em que o arquivo for de formato Excel,


podem ser obtidas sintaxes diferentes em funo da utilizao de
uma ou outra janela.
Na figura 3.9, apresenta-se como no caso do arquivo JEFE.XLS (em formato de livro de
planilhas do Microsoft Excel), podemos utilizar a ao geral por meio da janela File Open
Data... (*.xls)

FIGURA 3.9. Janela de abertura de um livro de planilhas Excel 97.

sendo a sintaxe obtida ao Colar (Paste) as instrues:


GET DATA /TYPE=XLS
/FILE='C:\Spss\Chiapas\jefe.xls'
/SHEET= name 'car_jefe'
/CELLRANGE=full
/READNAMES=on .

Observe a diferena de sintaxe que obtida, utilizando a segunda opo File Open
Database New Query... e a seleo do esquema Excel Files. Neste caso, a sintaxe a
ser executada consiste nas seguintes instrues:

GET DATA /TYPE=ODBC /CONNECT=


'DSN=Excel Files;DBQ=C:\spss\chiapas\jefe.xls;'
'DefaultDir=C:\Spss\chiapas;DriverId=22;FIL=excel 5.0;'
'MaxBufferSize=2048;PageTimeout=5;'
/SQL =

'SELECT `T0`.`NCUEST` AS `NCUEST`, `T0`.`SEX_JEFE` AS `SEX_JEFE`,


'
'`T0`.`ED_JEFE` AS `ED_JEFE`, `T0`.`JESCOLA` AS `JESCOLA`,
`T0`.`JOCUPA`'
' AS `JOCUPA` FROM `C:\PESSOAL\ jefe`.`car_jefe$` `T0`' .

JANELA GERAL
A utilizao da janela ativada por File Open Database New Query ... abre a janela
geral, que corresponde ao GET DATA, tal como mostrado na Figura 3.10.
A partir deste instante, o nmero de telas que pode chegar a ser produzido, devido a grande
variedade de opes de fontes de dados, muito elevado. Em outras palavras, a grande
diversidade de seqncias de sintaxes que podem ser consideradas supera os objetivos
deste livro, j que entre outras situaes deveria ser definido um processo diferenciado, em
funo de se o programa est sendo executado por uma instalao no disco rgido do
computador ou se est sendo executado em rede local.

Unicamente, de maneira introdutria apresentado um processo imprescindvel, o qual a


definio de uma nova fonte de dados, para o caso de dBase e Excel.

A primeira janela obtida a do Assistente para base de dados:

FIGURA 3.10. Janela geral do Assistente para base de dados.


Neste assistente de gesto de base de dados deve-se ter definidas as
fontes de dados ou diretrios onde encontram-se as bases que se
deseja analisar, e a esta definio dado o nome de fonte de dados.

Estas fontes de dados definem-se para cada tipo de formato.

Assim, ao marcar dBase Files, ativa-se a tecla de Add Data Source; a tela que aparece, ao
escolher a opo Configurar, permite definir o diretrio onde encontram-se os arquivos de
dBase, assim como sua verso. Em nosso exemplo, seria indicado o diretrio
C:\Spss\Chiapas ou aquele cujo leitor tenha escolhido. Procederia da mesma forma se o
arquivo que se pretende ler em Excel. Uma vez definida a fonte de dados, esta informao
permanece inalterada nas prximas sesses, a no ser que seja desativada, e aparece
sempre que for indicado este tipo de fonte de dados.
No entanto o leitor interessado chegar sem dificuldade criao de perfis de fonte de
dados personalizadas.

COMENTRIOS

possvel que o leitor tenha se dado conta da existncia de duas


opes aqui no comentadas na janela desdobrvel que aparece,
quando utiliza-se do menu File Save As... (figura 3.6). A primeira
delas ativada somente quando se pretende salvar o arquivo ativo
em formato *.xls. Neste caso, ativa-se a opo de escrever os dados
em uma planilha de clculo, e, como opcional, tem-se a possibilidade
de salvar os dados com as etiquetas de valor correspondentes.

Figura 3.11. Ao de salvar o arquivo de dados em formato planilha de


clculo Excel 97 e posteriores.
A segunda opo permite salvar o arquivo em formato *.sas (figura
3.12). SAS, para o leitor que no sabe, um potente programa que,
entre outras coisas, pode ser utilizado como pacote estatstico.

Figura 3.12. Ao de salvar o arquivo em formato de dados SAS.


Sintaxes do Captulo 3.

************************************************
************************.
* Importamos o arquivo Nin_vill.dat e o armazenamos como arquivo de
*.
* dados SPSS
*.
************************************************
************************.
DATA LIST FILE='C:\Spss\Chiapas\nin_vill.dat'
/ ncuest 1-3 nomper 5-6 f_entr 10-19 (DATE) f_nacim 21-30
(DATE) sexo 31-39 (A) ed_madre 47-48 mescola 52-53 mocupa
56 protea 60-65 protev 69-74 .
EXECUTE .

SAVE OUTFILE='C:\Spss\Chiapas\nin_vill.sav' /COMPRESSED /MAP .

************************************************
************************.
* Importamos o arquivo Nin_jal.dbf e o
armazenamos como arquivo de *.
* dados SPSS
*.
************************************************
************************.

GET TRANSLATE FILE=


'C:\Spss\Chiapas\nin_jal.dbf' /MAP .
SAVE OUTFILE='C:\Spss\Chiapas\nin_jal.sav' / COMPRESSED /MAP .

*********************************************.
* Importemos o arquivo Antrop.xls *.
*********************************************.

GET TRANSLATE FILE='C:\Spss\Chiapas\antrop.xls'


/ TYPE=XLS
/ FIELDNAMES .

SAVE OUTFILE='C:\Spss\Chiapas\antrop.sav'
/COMPRESSED /MAP .

***************************************.
* Importemos o arquivo Casa.dbf *.
***************************************.

GET TRANSLATE FILE='C:\Spss\Chiapas\casa.dbf'.

SAVE OUTFILE='C:\Spss\Chiapas\casa.sav' /COMPRESSED /MAP .


***************************************.
* Importemos o arquivo jefe.xls *.
***************************************.

GET DATA /TYPE=XLS


/FILE='C:\Spss\Chiapas\jefe.xls'
/SHEET= name 'car_jefe'
/CELLRANGE=full
/READNAMES=on .

SAVE OUTFILE='C:\Spss\Chiapas\jefe.sav' /COMPRESSED /MAP .


Captulo 4.

DEFINIO DE VARIVEIS
INTRODUO
Antes de iniciar qualquer anlise, preciso definir com clareza cada uma das variveis que formam
a base de dados ou o arquivo original. A razo desta necessidade deve-se ao fato de que, ao
longo do processo de anlise, as variveis podem ser modificadas e inclusive outras podem ser
criadas a partir delas, mas, muitas vezes, com o problema da manuteno do nome da varivel de
origem. Se isto no for suficiente para justificar a definio clara e a documentao da gerao das
variveis, preciso levar em conta que um mesmo arquivo pode ser compartilhado e manipulado
por vrias pessoas. Se o contedo de cada varivel no fica bem claro, corre-se o risco do analista
se tornar totalmente desorientado, sem condies de interpretar a informao disponvel e, em
conseqncia, se sentir obrigado a refazer tarefas realizadas anteriormente. No pior dos casos,
pode-se chegar inclusive a realizar interpretaes errneas derivadas de uma caracterizao
incompleta ou incorreta de alguma das variveis.

Basicamente, as caractersticas de uma varivel que devem ser definidas resumem-se nos
seguintes aspectos: formato, medida ou natureza, definio da informao que ela registra,
definio dos possveis subgrupos ou valores especiais e, finalmente, que valores so
considerados perdidos ou desconhecidos.

Formato
O formato refere-se forma como uma varivel est expressa ou registrada na matriz de dados.
Ou seja, expressa-se pelo formato em que tipo de caractere esta varivel deve ser lida.

Inicialmente dois grandes tipos de formato devem ser considerados. Em primeiro lugar, os formatos
numricos, os quais so reconhecidos porque os valores ou opes da varivel so expressos por
meio de nmeros, mesmo que a varivel seja de natureza categrica. Em segundo lugar, os
formatos que so expressos com caracteres alfanumricos, isto , com qualquer caractere ASCII,
mesmo que estes incluam nmeros. Existem vrias possibilidades, na imensa maioria das vezes o
formato utilizado um dos que so apresentados na figura 4.1:

FIGURA 4.1. Tipos de formatos de registro de variveis.

Neste caso a varivel expressa unicamente por


Numrico
valores numricos.

Os valores possveis so qualquer tipo de


Formatos de registro de caractere, isto : letras, nmeros, smbolos, etc.,
variveis usados Alfanumrico todos tratados como texto. Em conseqncia, no
habitualmente possvel realizar nenhuma operao aritmtica
com variveis desse tipo.

Esta varivel pode ser definida em qualquer um


Data dos mltiplos formatos de data existentes como
ms.dia.ano, dia-ms-ano, ano/ms/dia, etc.

Assim, uma varivel como sexo pode ser registrada como alfanumrica (tal como est nas bases
de dados dos exemplos que vamos desenvolver, Masculino e Feminino) ou como numrica
(atribuindo, por exemplo, os valores arbitrrios 1 e 2 , 0 e 1ou qualquer outro par).
Esta escolha no insignificante; veremos posteriormente que ela tem conseqncias importantes.

Finalmente, como observado na figura, as variveis em qualquer formato do tipo data incluem
separadores que podem ser hfens, pontos ou barras.

Medida ou natureza

Alm de especificar corretamente o formato de uma varivel, a


informao de cada uma deve incluir a natureza delas. Desta informao
depende o tipo de anlise que pode ser realizada com esta varivel ou no
que pode participar. Portanto deixar expressa esta natureza tambm
importante, apesar de que, como veremos posteriormente, o programa
SPSS, na maioria das ocasies, no utiliza esta informao. Na figura
seguinte pode-se observar como se classificam as variveis, segundo a sua
natureza.

Fig. 4.2. Tipos de variveis segundo sua natureza.

Variveis nas quais o resultado da medida um nmero inteiro,


sendo impossvel precisar entre dois valores consecutivos, por ser
impossvel ou porque a escala de medida no permite outros
valores.

Discretas Exemplos: idade civil da me ou anos de escolaridade dela.


Nestes casos a escala em anos no permite precisar os meses.
Outro exemplo a idade da criana expressa em meses, na qual
no so indicados os dias. Por outro lado, o nmero de cmodos
de uma casa ou o nmero de habitantes de uma residncia um
Quantitativas valor discreto por definio, j que resultado de uma contagem.

Variveis nas quais possvel observar qualquer valor dentro do


Tipos de variveis segundo sua natureza

intervalo especificado pela prpria varivel. No entanto, na prtica,


inclusive as variveis contnuas so manipuladas com um certo
grau de discretizao, definido pela preciso com que foram
Contnuas determinadas. Em geral, esta preciso a que configura o
formato Fw.d em que a varivel est expressa.
Exemplos: Protenas animais ou protenas vegetais, as quais
expressam em gramas a quantidade de protenas ingeridas
diariamente pela criana.

Variveis que no so resultado de uma medida respondem somente


ao resultado de uma classificao, por meio da observao de uma
Nominais determinada caracterstica.
Exemplos: sexo, ocupao da me, material utilizado nas paredes
da casa.

Variveis nas quais os valores possveis so obtidos segundo uma


Categricas Ordinais escala ou ordem no- mtrica.
Exemplos: freqncia de ingesto de carne (com as categorias: No
mnimo 1 vez a cada 3 dias, 1 ou 2 vezes/semana, 1 vez/15 dias, 1
vez/ms, menos de 1 vez/ms, quase nunca/nunca).

Variveis cujas categorias so o resultado do agrupamento de


valores de outra varivel quantitativa prvia.
Exemplos: nos arquivos originais do exemplo que vamos
Por
desenvolver neste livro, no existe nenhuma, mas, para construir a
intervalo
varivel adequao nutricional, teremos de utilizar uma varivel
recodificada em intervalos: idade da criana em 4 grupos ([12,24),
[24-36), [36,48), [48,60)), estando a original expressa em meses.

COMENTRIOS

1. O leitor deveria, neste momento, refletir sobre as diferenas entre formato e


natureza das variveis.

2. O formato no mais do que a forma de expresso dos valores da varivel,


no existindo sempre uma correspondncia unvoca entre formato e natureza.
Assim, mesmo que uma varivel seja de natureza categrica qualitativa ou
nominal, pode ser expressa em formato numrico, o que se deve ter sempre
em mente na hora da anlise e no descrev-la como quantitativa. Que sentido
teria o clculo da mdia da varivel sexo, neste ou em qualquer caso de
estudo, mesmo que seja expressa como indicado anteriormente, Masculino=1
e Feminino =2?

3. De maneira simtrica, uma varivel quantitativa poderia, o que acontece com


muita freqncia, encontrar-se expressa em um formato alfanumrico ou
cadeia, o que no impede sua leitura ou certos tipos restritos de anlises, mas
seria impossvel a determinao de suas estatsticas naturais, como a mdia, a
varincia ou o coeficiente de correlao com outra varivel quantitativa.

Definio da informao registrada pela


varivel

Outro aspecto que deve ser considerado que, de forma ideal, o nome de
uma varivel deveria ser suficiente para identificar claramente seu
contedo. Em certos casos, este nome no admite confuso, por exemplo
sexo, mas, no entanto, somente com o nome no possvel a identificao
completa da informao contida. Em nossos arquivos encontramos
variveis como nomper ou mescola, das quais, somente com seus nomes,
difcil saber exatamente o que registram. Em situaes como esta de
grande utilidade poder definir uma etiqueta de varivel, isto , um
pequeno texto associado varivel para solucionar este problema. Este
texto aparecer no arquivo de resultados e nas janelas do programa,
sempre que julguemos necessrio, e chega inclusive a substituir o nome da
varivel pela etiqueta. De agora em diante nos referimos a esta
informao como Etiqueta ou Variable label, estando trabalhando por
janela ou por execuo de sintaxes.

Definio das categorias possveis ou valores


especiais
Tudo que foi dito anteriormente resume-se em dizer se a varivel que temos que
realizar uma descrio ou anlise de natureza categrica, (Figura 4.2) e a
definio de cada uma de suas categorias. Por exemplo, se a varivel sexo
estivesse expressa em formato numrico com dois valores possveis como 1 e 2,
teramos que definir, em algum momento, se o 1 representa Masculino e o 2
Feminino ou vice-versa. Para isto, existe a possibilidade de definir etiquetas de
valores, com a finalidade de eliminar a confuso. Neste caso, o nome com que
esta informao aparece na janela de Variable View do SPSS Data Editor,
aplicao do SPSS, o de Values, embora, em termos de sintaxe, seja conhecido
como Value labels.

interessante tambm aplicar etiquetas a valores especiais de variveis de natureza


no categrica. Por exemplo, para a varivel que registra os cursos escolares
superados pelo chefe da famlia, de natureza quantitativa e discreta, importante
especificar que os valores 77 e 88 no representam 77 e 88 cursos superados, mas, sim,
as respostas No sabe e No respondeu.

Valores perdidos ou desconhecidos


Um aspecto que tambm deve ser levado em conta so os valores que, por vrias razes, no
fazem parte da anlise. Assim, existem valores que significam a falta ou a perda da informao.
Isto , representam o desconhecimento do valor real da varivel em um caso ou indivduo concreto
da base de dados. Estes valores, que podem ser representados de vrias formas, recebem a
qualificao de missing. Quando o analista obtm desde o princpio um dado com estas
caractersticas, isto , sem informao, o dado recebe o nome de system missing ou valor
perdido de sistema.

s vezes, no entanto, observam-se determinados valores que, apesar de virem codificados ou


expressos na base original, correspondem a opes do tipo NS No Sabe ou NR No
respondeu. Habitualmente apresentam-se como opes vlidas de resposta a uma pergunta
formulada em uma pesquisa, porque no so valores que representam falta de informao, so
simplesmente opes que o entrevistado escolhe como resposta e que possivelmente no seja de
interesse analisar ou considerar em muitos casos. Estes valores tambm so chamados missing
ou valores perdidos, mas recebem a qualificao de missing de usurio ou valores perdidos pelo
usurio. A diferena deste com o missing de sistema que para este o valor da varivel
conhecido e, alm do mais, no interessa inclu-los em uma anlise geral, mesmo que
consideremos necessria uma anlise separada desses valores. Por exemplo, se conclussemos
que as respostas NS ou NR No Sabe ou No respondeu no deveriam ser analisadas
juntamente com o resto dos valores, talvez devssemos estud-las parte, para conhecer as
caractersticas dos indivduos que tendem por estas preferncias. Portanto h que se destacar que
os missings de usurio em qualquer momento podem ser recuperados pelo analista e includos em
anlise posterior, se julgar necessrio.

Finalmente, existem os valores claramente equivocados, correspondentes a erros na entrada, na


medida ou na classificao dos dados. No caso em que no seja possvel corrigir o erro cometido,
existem mecanismos para definir estes valores como missing ou perdidos.

Comearemos a aplicar estes conceitos com o primeiro dos arquivos de


dados que j temos em formato SPSS: NIN_VILL.SAV. O leitor dever
efetuar o mesmo processo para o resto dos arquivos, encontrando a
sintaxe necessria no final do captulo. recomendvel, no entanto,
efetuar as operaes necessrias sem consultar esta seo, recorrendo a
ela somente para comprovar o trabalho desenvolvido, assim como para
solucionar problemas de sintaxe que possam surgir, e sua resoluo no
seja possvel com o mdulo de ajuda do prprio SPSS.

DEFINIO DAS CARACTERSTICAS DE UMA VARIVEL

A seguir, apresentado o conjunto mnimo de instrues necessrias para definir


claramente os aspectos fundamentais de uma varivel. Existem disponveis mais
instrues, mas o objetivo deste livro apresentar, fundamentalmente, as que
realmente facilitam o trabalho posterior de anlise.

Uma vez aberta uma janela de dados, pela ao de File Open Data... ou por
alguma instruo GET ou DATA LIST, temos, como ocorrer na maioria das aes
que executamos, uma alternativa visual ao uso da sintaxe. Como se observa nesta
seo, os parmetros referentes ao formato, natureza da varivel e a outros
puramente visuais das variveis na tela podem ser modificados na janela do editor
de dados, na planilha Variable View.

Figura 4.3. Editor de dados em Variable View.


Pode-se observar, na figura anterior, que a primeira coluna, Name,
especifica os nomes das variveis da matriz de dados. O SPSS permite
que os nomes das variveis sejam compostos de, no mximo, oito
caracteres. No caso de a matriz de dados importada pelas instrues
comentadas no captulo 3 ser originada de programas que permitam mais
de oito caracteres para o nome das variveis (por exemplo o Excel), ao
passar os dados para o formato SPSS, pode-se observar como o programa
automaticamente trunca o nome no oitavo caractere.

Nota-se, alm disso, que, mesmo que os nomes sejam visualmente


expressos em letras minsculas, o programa no diferencia as maisculas
das minsculas, podendo, portanto, nomear a varivel como deseja no
editor de sintaxes. preciso destacar tambm que existem caracteres que
no podem ser utilizados como primeiro caractere do nome, por exemplo,
o $ ou _, existindo outros que no podem ser utilizados em nenhuma
posio do nome:%, (, ), /, \, etc.
Formato

A primeira caracterstica de uma varivel a ser considerada o formato no qual


encontra-se registrada na base de dados ou arquivo.

SINTAXE

A sintaxe de definio dos formatos, como em qualquer caso de ao por


sintaxes, dever ser escrita na janela SPSS Syntax Editor (File New Syntax)
e tem a seguinte expresso:

FOR[MATS] lista de variveis {formato}


[/lista de variveis {formato}...].

Assim, para cada varivel ou lista de variveis o formato dever ser indicado, o
qual, em termos SPSS, pode apresentar alguma das seguintes caractersticas:

{formato}:

Fw.d **: formato numrico com w caracteres (incluindo o separador decimal) e d casas
decimais.
A: formato alfanumrico. No necessrio definir sua extenso, j que o programa
escolhe automaticamente a mxima observada.
date: formato de data tipo europeu (dia-ms-ano).
adate: formato de data tipo americano (ms/dia/ano).

Em nosso caso, a definio dos formatos para as variveis do arquivo NIN_VILL.SAV seria feita da
seguinte maneira:

FOR ncuest (f4)


/ nomper ed_madre mescola (f2)
/ mocupa (f1)
/ protea protev (f6.2).

Observe como as variveis do tipo data e alfanumricas no esto especificadas na instruo


FORMATS. Isto se deve ao fato de que seu formato no pode ser pressuposto ou dado como
padro, portanto tiveram que ser definidas na instruo DATA LIST.
JANELAS

Os formatos podem ser modificados escrevendo-se diretamente sobre as clulas correspondentes


a Type, Width e Decimals na janela do editor de dados, na planilha Variable View (Figura 4.3).

Os formatos visualizados pela primeira vez so os que foram gerados como padro mediante a
instruo DATA LIST, com exceo das variveis alfanumricas, que, ao expressar as colunas que
se encontram entre elas e indicar que so alfanumricas, ajustam um formato deste tipo, cadeia,
com extenso mxima dada pelas duas colunas. No caso de utilizar outras instrues para
importar o arquivo de dados de outro programa (GET TRANSLATE ou GET DATA), os formatos
visualizados inicialmente sero os que estavam definidos pelos programas externos.

Sendo assim, em princpio, a prpria ao de abertura de um arquivo e de sua leitura ou


importao por qualquer um dos mecanismos explicados atribui automaticamente o formato s
variveis. Com esta instruo, podemos, contudo, adequar a nossos prprios propsitos.

O momento em que a definio do formato das variveis mais relevante na suposio de que
criaremos novas variveis, como ser visto no captulo seguinte. Neste caso, muito freqente que
o formato atribudo como padro pelo programa, por meio das Options ou Settings, no seja o
mais adequado a nossos interesses ou no esteja definido, como ser visto nas novas variveis de
natureza alfanumrica a serem criadas.

COMENTRIOS
1. Qualquer varivel que no seja numrica, como o caso do sexo, f_entr e f_nacim, j tem
definido o formato, sempre que se executar a instruo DATA LIST, anteriormente
FORMATS.

2. Observe que nos formatos numricos (Fw.d) o w o nmero total de caracteres, incluindo o
separador decimal. Isto , a largura total da varivel no o nmero total de valores inteiros. Por
exemplo, a ingesto de protenas, tanto de origem animal como vegetal, possui o formato F6.2,
o que indica que a medida ter no mximo trs inteiros e dois decimais. Estes cinco caracteres
mais o ponto decimal so os indicados pelo nmero 6 no formato.

3. No caso de variveis do tipo data, vale pena destacar que, internamente, a maioria delas
armazenam-se por uma correspondncia numrica. Esta correspondncia o nmero de
segundos transcorridos de 14 de outubro de 1582 at a data especificada pela varivel. Este
valor poder ser observado a partir da transformao da varivel em formato data para formato
numrico.

Medida
O SPSS entende por medida o conceito de natureza da varivel.

Ento, de acordo com os tipos de medida que foram definidos na Figura 4.2, para
especificar a natureza de cada varivel devemos utilizar a seguinte instruo:

SINTAXE
A expresso de sintaxe para este conceito :
VAR[IABLE] LEV[EL] lista de variveis ({natureza}) [/lista de variveis
({natureza })...].

Indicando a cada varivel ou lista de variveis a sua natureza.

{natureza}:
scale **: Varivel quantitativa.
nominal: Varivel categrica nominal.
ordinal: Varivel categrica ordinal.

Observe como o programa no distingue entre variveis quantitativas discretas e contnuas, nem
tampouco permite definir variveis de intervalo. Se o arquivo que se deseja analisar contm
alguma destas ltimas, defina-a como ordinal, j que as variveis por intervalos tambm so
ordinais.

Outro aspecto trata das variveis do tipo data. Como devemos defini-las? Diante das
possibilidades que o programa oferece, aconselhamos que seja definida como scale.

Em NIN_VILL.SAV devemos definir:

VAR LEV ncuest nomper protea protev ed_madre mescola


(SCALE)
/ sexo mocupa (NOMINAL) .

JANELAS

Como no caso anterior, podemos definir a natureza das variveis a partir da janela
do editor de dados com o tipo de visualizao Variable View (Figura 4.3). Neste
caso, as modificaes sero feitas nas clulas correspondentes coluna
Medida, indicando se uma varivel de escala, ordinal ou nominal.

COMENTRIOS

1. realmente necessrio que a natureza da varivel seja indicada


apenas nos seguintes casos: grficos criados a partir da instruo
IGRAPH (nas janelas Graphs 4 Interactive) e em arquivos de dados em
formato SPSS usados no mdulo AnswerTree (rvores de deciso).
Nos demais, o programa atuar automaticamente sem distinguir entre
naturezas diferentes, colocando nas mos do analista o uso correto das
variveis selecionadas. No entanto, refletir sobre a verdadeira
natureza da varivel no um grande esforo e s pode ser positivo,
motivo pelo qual recomendamos que sejam dedicados alguns instantes
para defini-la.

2. Note que nem sempre existe uma relao direta entre o formato de
uma varivel e sua natureza ou medida. Assim, possvel que duas
variveis de natureza idntica sejam expressas com formatos
diferentes (por exemplo, sexo e mocupa), e, da mesma forma, duas
variveis de natureza diferente poderiam ter o mesmo formato.

J tenho os dados diante dos meus olhos. O que ser nomper? Que informao deve conter?
Imagino que mescola seja a escolaridade da me... Expressa em que unidades? Em anos de
estudo, em cursos superados?

Etiquetas das variveis


Em muitas ocasies, como j foi indicado no incio deste captulo, o nome da varivel no reflete
suficientemente o contedo dela. O mximo de oito caracteres para dar um nome a uma varivel
limita as possibilidades de deixar clara a informao do seu contedo.

Para resolver este problema, existem as etiquetas das variveis. Por meio desta
instruo, pode-se adicionar um pequeno texto (etiqueta) associado ao nome da
varivel, de maneira que seja claramente identificada a informao contida.

SINTAXE
VAR[IABLE] LAB[ELS] nome da varivel etiqueta
[/nome da varivel etiqueta...]

Cada etiqueta, escrita sempre entre apstrofos, pode chegar a ter uma extenso
de at 255 caracteres, sendo que nas anlises e descritivas s aparecem os 60
primeiros no mximo.

Se a etiqueta necessita que seja utilizada mais de uma linha de texto, antes de
cortar o texto deve-se fechar com apstrofo, e, na linha seguinte, antes de abrir
novamente para continuar, deve ser includo o smbolo +.

No nosso caso, poderamos colocar as seguintes etiquetas para identificar claramente o contedo
da varivel:
VAR LAB ncuest 'N do questionrio'
/ nomper'N de identificao da pessoa na casa'
/ f_entr 'Data de realizao da entrevista'
/ f_nacim 'Data de nascimento da criana'
/ ed_madre 'Idade da me (em anos)'
/ mescola 'Cursos escolares completos pela me'
/ mocupa 'Ocupao da me'
/ protea 'Protenas animais consumidas no dia
anterior' + ' entrevista'
/ protev 'Protenas vegetais consumidas no dia
anterior'
+ ' entrevista'.

JANELAS

Podem ser introduzidas na coluna Labels em Variable View na janela do editor de dados (Figura
4.3).

COMENTRIOS

1. Logicamente, naquelas variveis nas quais a informao contida est perfeitamente definida
pelo seu nome (por exemplo, sexo) no necessrio colocar etiqueta. No teria sentido, seria
redundante.

2. Mesmo que a etiqueta da varivel substitua aparentemente o nome dela,


preciso saber que o que o programa reconhece internamente o nome da
varivel, e, conseqentemente, nas instrues escritas que o usurio deseja
executar deve constar o nome, nunca a etiqueta.

3. impossvel o uso do apstrofo na etiqueta. Por exemplo, em idiomas como o catalo ou o


francs, habitual o uso do apstrofo para realizar contraes de palavras. Devido ao fato de
o apstrofo ser o sinal utilizado para identificar onde comea e acaba a etiqueta, seu uso como
parte integrante do texto enganaria o programa, assumindo que a etiqueta finalizaria no
apstrofo utilizado como parte do texto. Este problema no existe, se a entrada da etiqueta
realizada pelo editor de dados.

Agora j conhecemos com exatido que informao contm cada varivel. Mas o que significa os
valores 1 ou 2, 7 ou 8 na varivel ocupao da me? Ser o nmero de ocupaes?
Etiquetas de valores ou categorias

No caso de trabalhar com variveis categricas ou de natureza nominal,


conveniente indicar o significado de cada categoria, especialmente
quando valores numricos so usados como valores categricos. Como foi
visto na introduo deste captulo, para valores especficos de variveis
no categricas, s vezes, interessante associar etiquetas aos valores.

SINTAXE

A expresso que atribui este texto a cada valor de cada varivel :

VAL[UE] LAB[ELS] varivel valor etiqueta valor etiqueta ...


[/lista de variveis valor etiqueta valor etiqueta ...].

Adiciona um pequeno texto (etiqueta) associado aos valores das


categorias da varivel. Assim pode-se identificar que categoria representa
cada valor resultado da codificao da varivel. Tem sentido, portanto,
unicamente para variveis categricas ou outras que apresentem algum
valor especial que merea ser etiquetado.

No arquivo NIN_VILL.SAV, em princpio, falta apenas se definirem as etiquetas de valor para


ocupao da me (mocupa), j que a nica varivel categrica registrada em formato numrico
disponvel no arquivo de dados. Opcionalmente, tambm podem ser etiquetados os valores
missing de usurio das variveis no categricas, como o caso da varivel ed_madre. (Ver seo
mostrada a seguir Missing Values.)

VAL LAB mocupa 1 'Trabalhos de casa' 2 'Trabalha fora


de casa' 7 'NS' 8 'NR'
/ ed_madre mescola 77 'NS' 88 'NR' .

JANELAS

Podemos colocar as etiquetas, clicando na coluna Values em Variable View na janela do editor de
dados (Figura 4.3). Aparecer o seguinte quadro:

FIGURA 4.4. Janela Variable View para atribuir etiquetas aos valores.

Devem-se especificar o valor e a etiqueta correspondente a ele, em seguida clicar em Add,


repetindo o processo para cada valor.

Mesmo que a figura no esteja ativada, observa-se que existe uma tecla que permite a mudana
de etiquetas j existentes. Assim, seria indicado o valor, a nova etiqueta e clicaria em Change.
Da mesma forma, se existe a pretenso de eliminar uma etiqueta, depois de selecionar o valor,
clique na tecla Remove e ser eliminada.

COMENTRIOS

1. No obrigatrio colocar etiquetas nos valores ou categorias, podemos tambm etiquetar


alguns valores ou categorias e no etiquetar outros da mesma varivel. Mesmo assim,
aconselhamos que isto seja feito. O analista deve impedir que chegue um momento no qual
no possa reconhecer perfeitamente todos os dados que manipula, e etiquetar os valores
uma boa ajuda.

2. Leve em conta que a etiqueta de valor ou categoria substitui o valor de forma visual, isto , o
que o programa utiliza para realizar qualquer operao so os valores e no as etiquetas.
Portanto, quando o analista est programando por sintaxe, deve referir-se determinada
categoria da varivel pelo seu valor e no pela sua etiqueta.

3. Os valores de uma varivel alfanumrica so expressos entre aspas simples


ou duplas. Esta notao no existe somente para o caso destas instrues,
Variable e Value labels; sempre que for expresso um determinado valor
alfanumrico, este dever estar entre aspas. Por exemplo, quando tivermos
que indicar o valor feminino em alguma instruo escreveremos: FEMENINO
ou FEMENINO. Observe que, devido ao formato desta varivel, FEMENINO,
FEMENINO ou FEMININO no o mesmo, j que os caracteres em branco
tm uma representao prpria em alfanumrico. Tampouco o mesmo
FEMENINO e Femenino, pois uma mesma letra em maisculo ou minsculo
representa um caractere diferente.

4. Nesta ocasio o nmero mximo de caracteres 60, ainda que sejam visualizados apenas os
20 primeiros.

5. Quando um conjunto de variveis possui as mesmas etiquetas para suas categorias, por
sintaxe pode ser enunciada a lista de variveis e, em seguida, indicar as etiquetas de valores
comuns. Por exemplo, poderiam existir muitas variveis nas quais as categorias possveis
fossem 0 e 1, e que em todos os casos 1 significasse SIM e 0 NO. Neste caso, poderia ser
indicado por sintaxe:

VALUE LABELS {lista de variveis} 0 NO 1 SIM

Conheo perfeitamente o que cada varivel e o que significam seus valores. Mas tenho um
problema. No momento de estudar a ocupao da me, no quero escrever os valores NS e NR
juntamente com os demais. Mas tambm no quero perder a informao de quais so NS e NR,
j que acredito que depois ser interessante estudar especificamente estes casos. O que devo
fazer?
Valores perdidos ou desconhecidos.
Como mencionado nos captulos de introduo, existem dois tipos de indicadores para assinalar aqueles
casos nos quais o valor concreto de uma varivel desconhecido. Os missing de sistema so identificados
desde o princpio e normalmente so expressos deixando em branco as variveis numricas. Geralmente so
visualizados na janela do editor de dados como um ponto. Evidentemente, se a varivel alfanumrica, o
branco tem representao de valor como qualquer outro caractere, e o programa no o reconheceria como
tal.

Uma questo diferente so os missings definidos pelo prprio usurio. Ele pode
decidir a excluso ou no destes valores, nas anlises posteriores.

Muito bem, no segundo caso necessrio executar a seguinte instruo, para


converter os valores a valores missings de usurio:

SINTAXE

MIS[SING] VAL[UES] lista de variveis (lista de valores) [/lista de variveis


(lista de valores)...].

Entre os parnteses indicada a lista de caracteres ou valores considerados como missing pelo
usurio.

Lista de valores:

- Cada valor separado do anterior por uma vrgula.

- Podem ser especificados no mximo trs valores missing de usurio discretos ou um


intervalo de valores e um valor discreto.

- Tratando-se de valores discretos, devemos somente escrev-los.

- Tratando-se de um intervalo de valores, podemos usar os operadores THRU, LOWEST,


HIGHEST:

THRU: situado entre dois nmeros discretos, indica que os valores missing de
usurio so todos aqueles situados entre o primeiro e o segundo nmero, ambos
includos.

Exemplo: MIS VAL ed_madre (77 thru 88) .


Seriam declarados missing de usurio os valores 77, 78, 79, ..., 87 e 88.
Na verso 10, esta mesma operao poderia ser realizada da seguinte forma:

MIS VAL ed_madre (77-88) .

O uso desta instruo na verso 11 daria como resultado a declarao de


missing dos valores 77 e 88.

LO[WEST]: antes de um THRU e um nmero discreto, indica que os valores


missing vo desde o menor nmero observado (Lowest) at o nmero discreto
especificado.

Exemplo: MIS VAL ed_madre (Lo thru 88) .

Evidentemente, esta ao vlida somente como exemplo, pois, na realidade,


seria infeliz. Qual seria o resultado? Declararia missing de usurio desde o menor
valor observado at 88. Como na base de dados NIN_VILL.SAV a me mais
jovem tem 17 anos, os valores missing de usurio seriam declarados desde 17
at 88. Em outras palavras, neste caso a varivel idade da me estaria fora de
qualquer anlise futura.

HI[GHEST]: depois de um nmero discreto e um THRU, indica que os valores


missing vo do nmero discreto at o valor mximo observado na varivel.

Exemplo: MIS VAL ed_madre (77 thru Hi) .

Declararia missing de usurio os valores compreendidos entre 77 e o mximo


observado.

Na base de dados que estamos trabalhando neste momento, os missing de usurio devem ser
definidos somente para trs variveis. Devido ao fato de que nos trs casos os missing de usurios
so valores discretos e no um intervalo de valores, o faremos da seguinte forma:

MIS VAL ed_madre mescola (77,88)


/ mocupa (7,8) .
JANELAS

Podem ser definidas clicando na coluna Missing em Variable View na janela do editor de dados
(Figura 4.3). Aparecer o seguinte quadro:

FIGURA 4.5. Quadro de definio de valores missing ou perdidos pelo usurio.

Os valores devem ser colocados no quadro em funo da varivel ser discreta ou contnua. No
primeiro caso, escolheramos Discrete missing values, e, no segundo, marcaramos Range plus
one optional discrete missing value.

Se em um alarde de entusiasmo houvesse definido como missing todos os valores da varivel


ed_madre, poderia desfazer o engano com rapidez?
Observe que existe a possibilidade de desfazer a definio de missing de usurio, ativando a
janela e declarando No missing values, possibilidade muito importante que diferencia
fundamentalmente o valor perdido pelo sistema do valor perdido por definio do usurio. Isto , o
valor perdido pelo usurio uma propriedade que se atribui a um conjunto de valores de uma
varivel de forma reversvel, quando o analista acha oportuno ou necessrio.

Uma vez realizadas todas as definies explicadas, j temos preparado o arquivo NIN_VILL.SAV,
podendo salv-lo em disco (File Save), neste caso, com o mesmo nome.

No entanto a informao est dividida em vrias bases de dados. Ser realmente necessrio
terminar o processo de definio em todas elas? At que ponto vale pena perder tempo com
estas aes?

Depois de chegar neste ponto, devemos caracterizar totalmente as variveis das outras bases de
dados do estudo. No deixe de faz-lo, pode parecer insignificante, mas, na realidade, o analista
de dados depara-se diariamente com mais de um arquivo de uma vez, com arquivos previamente
manipulados por outro analista, arquivos com os quais esteve trabalhando tempos atrs. Uma boa
caracterizao das variveis imprescindvel para controlar o trabalho, ganhar tempo e assegurar
a qualidade dos resultados obtidos.

No caso do estudo que estamos analisando, uma forma de economizar tempo seria guardando a
sintaxe, utilizando a opo Paste das janelas para escrev-las.

Esteja atento que, para caracterizar as variveis do arquivo NIN_JAL.SAV, deve-se somente
utilizar a instruo FORMATS para a varivel sexo e mudar o nome do arquivo de dados nas
instrues GET FILE e SAVE OUTFILE do arquivo de sintaxes utilizado para NIN_VILL.SAV.
Assim feito, as demais instrues so as mesmas quando os arquivos tm estrutura idntica.

Uma vantagem adicional , alm de ganho de tempo, ter a segurana de que a definio das
variveis seguir o mesmo critrio nos dois arquivos, os quais contm a mesma informao; a
nica diferena a cidade onde moram as crianas.
Sintaxe do Captulo 4.

*************************************************************
******.
* Definio das variveis do arquivo NIN_VILL.SAV
*.
*************************************************************
******.

* Primeiro abrimos o arquivo *.

GET FILE='C:\Spss\Chiapas\nin_vill.sav'.

* Caracterizamos as variveis *.

* Para SEXO, F_ENTR e F_NACIM no necessrio executar *.


* j que o formato j foi definido no DATA LIST *.

FOR ncuest (f4)


/ nomper ed_madre mescola (f2)
/ mocupa (f1)
/ protea protev (f6.2) .
VAR LEV ncuest nomper protea protev ed_madre mescola
(SCALE)
/ sexo mocupa (NOMINAL) .
VAR LAB ncuest 'N do questionrio'
/ nomper 'N de identificao da pessoa na casa'
/ f_entr 'Data de realizao da entrevista'
/ f_nacim 'Data de nascimento da criana'
/ ed_madre 'Idade da me (em anos)'
/ mescola 'Cursos escolares completos pela me'
/ mocupa 'Ocupao da me'
/ protea 'Protenas animais consumidas no dia '
+ ' anterior entrevista'
/ protev 'Protenas vegetais consumidas no dia '
+ ' anterior entrevista' .
VAL LAB mocupa 1 'Trabalha em casa' 2 'Trabalha fora de
casa'
7 'NS' 8 'NR'
/ ed_madre mescola 77 'NS' 88 'NR' .
MIS VAL ed_madre mescola (77,88)
/ mocupa (7,8) .

* Guardamos as mudanas*.
SAVE OUTFILE='C:\Spss\Chiapas\nin_vill.sav' /COMPRESSED /MAP
.

*************************************************************
******.
* Definio das variveis do arquivo NIN_JAL.SAV
*.
*************************************************************
******.

GET TRANSLATE FILE= 'C:\Spss\Chiapas\nin_jal.dbf' .

FOR ncuest (f4) /


nomper ed_madre mescola (f2) /
sexo (A9) /
mocupa (f1) /
protea protev (f6.2) .
VAR LEV ncuest nomper protea protev ed_madre mescola
(SCALE)
/ sexo mocupa (NOMINAL) .
VAR LAB ncuest 'N do questionrio'
/ nomper 'N de identificao da pessoa na casa'
/ f_entr 'Data de realizao da entrevista'
/ f_nacim 'Data de nascimento da criana'
/ ed_madre 'Idade da me (em anos)'
/ mescola 'Cursos escolares completos pela me'
/ mocupa 'Ocupao da me'
/ protea 'Protenas animais consumidas no dia
anterior' + ' entrevista'
/ protev 'Protenas vegetais consumidas no dia
anterior' + ' entrevista' .
VAL LAB mocupa 1 'Trabalha em casa' 2 'Trabalha fora de
casa'
7 'NS' 8 'NR'
/ ed_madre mescola 77 'NS' 88 'NR' .
MIS VAL ed_madre mescola (77,88)
/ mocupa (7,8) .

SAVE OUTFILE='C:\Spss\Chiapas\nin_jal.sav' / COMPRESSED .

*************************************************************
******.
* Definio das variveis do arquivo ANTROP.SAV
*.
*************************************************************
******.

GET TRANSLATE FILE='C:\Spss\Chiapas\antrop.xls'


/ TYPE=XLS
/ FIELDNAMES .

FOR ncuest (f3.0)


/ nomper (f2.0)
/ tall_cms (f5.1)
/ peso_kg (f4.1) .
VAR LEV ncuest tall_cms peso_kg (SCALE) .
VAR LAB ncuest 'N do questionrio'
/ tall_cms 'Altura da criana (em centmetros)'
/ peso_kg 'Peso da criana (em quilos)' .

SAVE OUTFILE='C:\Spss\Chiapas\antrop.sav' / COMPRESSED / MAP


.

*************************************************************
******.
* Definio das variveis do arquivo CASA.SAV
*.
*************************************************************
******.

GET FILE='C:\Spss\Chiapas\casa.sav'.

* observe como s foram anotados os formatos que devem mudar*.

FORMATS tip_loc luz (f1)


/ carne (A2) .
VAR LEV ncuest totape ncudor (SCALE)
/ tip_loc paredes piso sanit luz refr tv com_coc
segsoc (NOMINAL)
/ carne (ORDINAL) .
VAR LAB ncuest 'N de identificao da casa'
/ totape 'Total de pessoas na casa '
/ tip_loc 'Tipo de localidade'
/ ncudor 'N de dormitrios'
/
sanit 'Tipo de banheiro'
/
luz 'Possuem luz eltrica?'
/
refr 'Possuem geladeira?'
/
tv 'Possuem TV?'
/ paredes 'Material utilizado nas paredes'
/ piso 'Material utilizado no piso'
/ com_coc 'Combustvel utilizado para cozinhar'
/ carne 'Freqncia de ingesto de carne de boi'
/ segsoc 'Possuem seguro social?' .
VAL LAB tip_loc 1 'Urbana' 2 'Rural'
/ sanit 1 'Completo' 2 'Latrina, fossa' 3 'Nenhum,
usa o solo'
/ luz refr tv segsoc 0 'No' 1 'Sim'
/ paredes piso 1 'Adobe' 2 'Ladrilho' 3 'Madeira' 4
'Terra' 5 'Cimento' 6 ' Mosaico' 7
'Gesso' 8 'Lmina metlica' 9 'Terra'
10 'Pedra' 11 'Palha' 12 'Barro' 13
'Palha de trigo' 14 'Palha de milho'
/ com_coc 1 'Lenha ou carvo' 2 'Gs' .

SAVE OUTFILE='C:\Spss\Chiapas\casa.sav' /COMPRESSED /MAP .

*************************************************************
******.
* Definio das variveis do arquivo JEFE.SAV
*.
*************************************************************
******.

GET FILE='C:\Spss\Chiapas\jefe.sav'.

FOR jocupa (f1) ed_jefe (f3) .


VAR LEV ncuest ed_jefe jescola (SCALE)
/ sex_jefe jocupa (NOMINAL) .
VAR LAB ncuest ' N de identificao da casa '
ed_jefe 'Idade do chefe da famlia (em anos)'
/ jescola 'Cursos escolares completados pelo chefe da'
+'famlia'
/ jocupa 'Ocupao do chefe da famlia' .
VAL LAB sex_jefe 1 'Masculino' 2 'Feminino'
/ ed_jefe 777 'NS' 888 'NR'
/ jescola 77 'NS' 88 'NR'
/ jocupa 1 'Agropecurio' 2 'Outros' 7 'NS' 8 'NR'
.
MIS VAL ed_jefe (777,888)
/ jescola (77,88)
/ jocupa (7,8).

SAVE OUTFILE='C:\Spss\Chiapas\jefe.sav' /COMPRESSED /MAP .


Captulo 5.

MANIPULAO DE ARQUIVOS
INTRODUO

Como j foi visto at este ponto, a informao gerada em um estudo pode encontrar-se
coletada de forma fragmentada em diversos arquivos. A informao definitiva necessria para a
anlise final encontra-se dividida em diversos arquivos, que, por sua vez, podem possuir
estruturas diferentes e ser gerados em suportes de natureza diferente. Vejamos, ento, como
abordar uma situao deste tipo, to freqente na vida real.

No estudo que estamos desenvolvendo, a informao necessria para analisar


o estado nutricional, por meio da ingesto protica das crianas, encontra-se
em cinco arquivos.

Dois deles possuem a mesma estrutura de variveis, com os mesmos campos


e formatos, com as mesmas definies de valores perdidos e categorias. So,
portanto, arquivos com dados de dois grupos de crianas diferentes, mas a
natureza da informao a mesma. O primeiro, NIN_VILL.sav, refere-se s
crianas residentes na populao de Villaflores, e o segundo, NIN_JAL.sav, s
de Jaltenango.

Cada registro, isto , cada criana, est representada por duas chaves
identificadoras. A primeira, ncuest, o nmero que identifica a casa onde vive
a criana. A cada casa ou lar foi atribudo um nmero de questionrio, para que
esta fosse diferenciada das demais casas nas quais foi feita a entrevista, e a
segunda, nomper, identifica a criana da casa, isto , ela diferenciada das
demais pessoas que vivem no mesmo lar.

No arquivo que contm os dados antropomtricos das crianas, elas esto


identificadas exclusivamente pelo nmero da casa (ncuest) e no por nomper.
Isto porque selecionada somente uma criana por famlia, e, no caso de
haver irmos na casa, o mais novo foi selecionado, por isto a identificao
confivel.

Por outro lado, em outro arquivo temos informaes sobre o chefe da famlia.
Observe como neste arquivo tambm consta a varivel ncuest, que a chave
identificadora que permite relacionar a informao de cada chefe de famlia
com a da criana do mesmo lar.

Da mesma forma acontece com o arquivo que contm as caractersticas do lar


e o referente ao tipo e qualidade da construo e aos aspectos
socioeconmicos da famlia.

Em todos os casos, o nico vnculo de identificao o nmero de


identificao da casa, que o nmero do questionrio.

Aproveitando este estudo, vamos explicar quais so os mecanismos de


manipulao de arquivos, de maneira que, ao final, tenhamos a informao
necessria em somente um, e que a anlise da informao contida nele possa
ser realizada.
ORDENAO DE CASOS

Na maioria das operaes e manipulaes de arquivos explicadas neste


captulo, existe a necessidade de que os casos estejam ordenados por algum
critrio, que facilite a conexo da informao entre os diferentes arquivos.

Em geral, ao falar de critrio de ordenao, nos referimos a dois aspectos


fundamentais. O primeiro a chave (ou as chaves) que nos servir de ndice
de conexo entre os registros dos diferentes arquivos. O segundo refere-se
sempre a se este ou estes ndices encontram-se ordenados de forma
ascendente ou descendente, sendo ndices numricos ou alfanumricos.
Este processo executado por meio da instruo SORT CASES, que define os
dois critrios citados anteriormente.

SINTAXE

SORT CAS[ES] [BY] lista de variveis[({ordem})] [lista de variveis...]

Como indicado na expresso de sintaxe, podem ser utilizadas diversas chaves


ou variveis para ordenar os registros do arquivo.

A lista de variveis e a ordem em que aparecem so importantes para o


resultado final. Assim, no o mesmo ordenar por municpio (Villaflores,
Jaltenango) e depois por sexo (feminino, masculino), que ao contrrio.
Utilizando a primeira ordenao, apareceriam os meninos e as meninas de
Villaflores, ordenados de maneira que primeiro viriam os casos do sexo
feminino e depois os do sexo masculino. Se fizssemos da segunda forma,
primeiro estariam todas as meninas ordenadas por municpio (primeiro as de
Villaflores e depois as de Jaltenango) e, depois, todos os meninos agrupados
tambm pelo municpio em que residem.

{ordem}: Para cada varivel deve ser indicado o sentido da ordem.


- A**: Ascendente. Ordena os casos, colocando, no incio, os que tm menor valor na
varivel especificada, e, por ltimo, os registros que apresentam maior valor.

- D: Descendente. Ordena os casos do maior para o menor.

Aconselhamos que voc faa o seguinte exerccio:

Abra o arquivo NIN_VILL.sav, utilizando a instruo GET FILE. A execuo desta instruo,
como visto vrias vezes, equivale a ativar com o cursor o cone do arquivo NIL_VILL.sav, que
est na pasta ou no diretrio onde voc o salvou.

O resultado de qualquer uma dessas aes abre a janela do Editor de Dados. Preste ateno
aos primeiros valores de ncuest e agora execute a instruo SORT CASES, usando duas
variveis, por exemplo, sexo e protea. Que modificaes so observadas na Janela Data
View?
Repita a instruo, mudando a ordem das duas variveis. Notou a diferena na ordenao dos
registros?

Agora ordene os casos somente pela varivel ncuest e salve o arquivo resultante com o
mesmo nome.

Execute a mesma ao para todos os arquivos *.sav que foram gerados. O resultado final ser
que todos os arquivos estaro ordenados pelo nmero do questionrio ou residncia.

JANELAS
O uso de janelas muito simples.

Em primeiro lugar, deve-se ter a janela do SPSS Data Editor aberta no arquivo que se deseja
ordenar.

A seguir, na barra de ferramentas, deve ser ativada a opo Data Sort Cases... aparecer o
seguinte:
Figura 5.1. Janela de ordenao de casos.

Nesta janela, devem ser selecionadas as variveis que sero utilizadas como chave de
ordenao, assim como, para cada uma delas, se for considerada mais de uma, o critrio de
ordenao desejado, ascendente ou descendente.

Como exerccio, abra os arquivos *.sav, um a um, criados at o momento e ordene cada um
deles, segundo a varivel ncuest de forma ascendente. Observe como os casos reordenaram-
se na janela Data View do SPSS Data Editor.

Uma vez ordenado cada arquivo, salve o resultado com o mesmo nome. No caso de no
efetuar a ao de Save As... ou Save, o arquivo continuaria desordenado.

Se tenho a informao das crianas de Villaflores em um arquivo e a das crianas de


Jaltenango em outro, devo analis-las separadamente? Acredito que seria mais interessante
descrever os resultados de todas as crianas conjuntamente... Mas, se for conveniente, fao
separado.
COMO ADICIONAR CASOS A UM ARQUIVO
J EXISTENTE?
Uma das aes de manipulao mais comuns e freqentes a de adicionar casos a um
arquivo j existente.

Geralmente, os motivos so que a informao foi gerada em lugares ou tempos diferentes e


que deseja-se fazer uma anlise global. Em nosso exemplo temos um caso muito evidente. Um
arquivo possui a informao coletada em Villaflores e o outro em Jaltenango. No obstante, o
objetivo do estudo no a descrio das crianas em funo do municpio, mas, sim, a
descrio conjunta.

ento um caso tpico de adicionar a informao de um arquivo a outro.

SINTAXE

A sintaxe necessita que j exista um arquivo ativo na janela do SPSS Data Editor. A instruo
adiciona aos casos do arquivo ativo um ou vrios arquivos externos, obrigatoriamente de
extenso *.sav. A estrutura destes ltimos, em princpio, deve ser idntica do arquivo que
est ativo.

ADD FILES FILE={arquivo} [/RENAME=(nomes variveis


antigas=nomes variveis novas)...]
[/IN=varivel]
/FILE=... [/RENAME=...] [/IN=...]
[/KEEP={lista de variveis}] [/DROP=lista de variveis]
[/MAP]

Esta instruo pode empilhar mais de dois arquivos, e, para cada um deles,
dever ser indicada a seguinte informao:

FILE={arquivo}: Indica, cada vez que aparece, a qual arquivo que vai ser
adicionado estamos nos referindo. Deve ser indicado o path ou nome
completo da pasta onde o arquivo foi salvo, e s podem ser utilizados arquivos
de extenso *.SAV. A especificao, como em outras ocasies quando foi feita
referncia a um arquivo externo, deve ser escrita entre aspas.

No primeiro indicado na instruo no preciso iniciar a sentena com o


smbolo /, sendo obrigatrio para os demais arquivos que sejam indicados.

No arquivo resultante, sero mostrados, no incio, os casos do primeiro arquivo


especificado na instruo (isto , o nomeado no primeiro FILE), seguidos dos
casos do arquivo seguinte (identificado no segundo FILE) e, assim,
sucessivamente. Se algum dos arquivos citados na instruo for o arquivo
ativo, este pode ser especificado por meio de um *.

[/RENAME= Como j foi visto em outras instrues, esta opo permite


renomear as variveis de cada arquivo adicionado. Pode ser til, se houver
interesse que estas se casem ou no com outras variveis do arquivo ativo, j
que pode acontecer da mesma varivel estar nomeada de maneira diferente
em dois arquivos distintos.
No caso de as mesmas variveis estarem com nomes diferentes, a instruo
as consideraria diferentes e as definiria como valores perdidos em cada um dos
arquivos adicionados com a varivel definida com outro nome.

[/IN=variable] Cria uma nova varivel no arquivo resultante com valores 0


e 1. O valor 0 indica que o registro em questo pertencia originalmente ao
arquivo ativo, enquanto que o valor 1 ser registrado para os casos
provenientes do arquivo externo.

As opes restantes, MAP, KEEP e DROP, so interpretadas da mesma


maneira em todas as instrues descritas at o momento.

Vamos gerar um arquivo que contenha a informao de todas as crianas


estudadas, isto , um arquivo no qual estejam registradas conjuntamente as
crianas de Villaflores e Jaltenango. Mas ateno! Lembre-se de que nos
arquivos originais no existe uma varivel que identifique o municpio onde a
criana reside, conhecemos esta informao, ao saber em qual dos arquivos a
criana est registrada.
Este aspecto importante, j que, ao juntar os dois arquivos em um, esta informao
desaparecer, e seremos incapazes de diferenciar qual o municpio de residncia de cada
criana. Ento, lgico pensar que mais cmodo juntar a informao, de maneira que seja
possvel conhecer de que populao cada criana ou de que arquivo provm cada caso.

Para fazer isto podemos seguir dois caminhos:

1. Abrir um dos arquivos (por exemplo, NIN_VILL.sav), que passa a ser o arquivo ativo, e
acrescentar, a seguir, os dados do outro.

GET FILE='C:\Spss\Chiapas\nin_vill.sav' .
ADD FILES FILE=*
/FILE='C:\Spss\Chiapas\nin_jal.sav'
/IN=municipi
/DROP=d_r.
EXECUTE.

2. Sem que nenhum dos arquivos seja o ativo.

ADD FILES FILE='C:\Spss\Chiapas\nin_vill.sav'


/FILE='C:\Spss\Chiapas\nin_jal.sav'
/IN=municipi
/DROP=d_r.
EXECUTE.

Observe como utilizamos a opo IN para identificar de qual arquivo ou de qual


municpio resulta cada criana. Tambm utilizamos DROP para indicar que no
nos interessa que a varivel D_R esteja no arquivo resultante.
Utilizando a primeira ou a segunda possibilidade, no se esquea de que possui um novo arquivo
com uma nova varivel, portanto:

VAL LAB municipi 0 'Villaflores' 1 'Jaltenango' .

SAVE OUTFILE='C:\Spss\Chiapas\ninhos.sav' .
JANELAS
O processo de acrescentar casos a um arquivo ativo, isto , a um arquivo de estrutura SPSS
aberto na janela do Editor de Dados, implica desdobrar o menu implcito em Data Merge
Files Add Cases, encontrado na barra de ferramentas. Esta ao abre uma nova janela
Add Cases: Read File, mostrada na Figura 5.2.

Uma vez selecionado o arquivo que se deseja acrescentar ao que est ativo, clicando a opo
Abrir, abre-se uma nova janela Add Cases from..., na qual so descritas as variveis
desemparelhadas em ambos os arquivos, no caso de existirem, assim como as que estaro
presentes no arquivo resultante.

A ao de OK conduz a um arquivo resultante da fuso dos dois arquivos, mantendo o nome


do ativo que estava aberto primeiro.

Se no for indicado o contrrio, ao salvar o arquivo resultante, este ter o nome do arquivo
ativo.

Em teoria, acrescentar mais casos implica que os dois arquivos possuem a mesma informao,
mas podem acontecer diferentes situaes:
1. Os dois arquivos, o ativo e o que acaba de ser aberto, possuem as mesmas variveis,
mas com nomes diferentes.

Neste caso, todas as variveis cujos nomes no coincidem aparecero na subjanela de


variveis desemparelhadas. Todas tm uma marca (*) ou (+), conforme pertenam a
um ou a outro arquivo.
Essas variveis desemparelhadas podem ser renomeadas, utilizando a tecla Rename
ou por meio da opo Pair, que, sem mudar o nome, indica qual varivel de um arquivo
corresponde varivel do outro arquivo.
Colocando o cursor sobre estas teclas e apertando o boto direito do mouse, ser
obtida a informao de como renomear ou casar as variveis.

2. Os arquivos no possuem informao em comum.

Neste caso, sempre que tiver certeza de que esta situao no devida a diferenas
na nomenclatura das variveis, ao executar a ao de OK, as variveis
desemparelhadas no sero adicionadas ao arquivo definitivo. Em uma situao deste
estilo, deveramos revisar se os arquivos so realmente os que pretendamos juntar.

Figura 5.2. Janelas do processo de adio de casos.


COMENTRIOS
1. Insistimos para que todos os arquivos envolvidos em um ADD FILES estejam no formato
de dados SPSS (.SAV).

2. Ao arquivo ativo podem ser adicionados at 49 arquivos externos, em uma mesma


instruo ADD FILLES.

3. O arquivo resultante ir manter o nome do arquivo especificado imediatamente depois da


instruo ADD FILES. Se desejar, poder salv-lo com outro nome, opo que a mais
recomendvel.

Acho que seria muito interessante observar como varia a nutrio da criana em funo do
combustvel utilizado para cozinhar, imagino que esta varivel deve ser um indicador
socioeconmico confivel. Essas variveis, no entanto, esto registradas em arquivos
separados Como esta anlise poderia ser realizada? Como posso analisar variveis que se
encontram em arquivos diferentes?

COMO ACRESCENTAR VARIVEIS AOS


REGISTROS DE UM ARQUIVO J
EXISTENTE?
Outra situao que acontece com freqncia a de ter informao distribuda em arquivos
diferentes. um caso comum em recenseamentos ou em pesquisas, como a que gerou o
estudo que estamos analisando.

A informao possui diversos nveis, e os elementos de cada subnvel relacionam-se com o


anterior ou imediatamente superior, por meio de uma ou vrias chaves ou ndices de relao.

No nosso caso, o ndice implcito no nmero do questionrio, ncuest, permite localizar e


emparelhar os pais e as mes com as crianas, apesar de a informao se encontrar em
arquivos diferentes.

Teramos, nesse caso, uma informao em que, por exemplo, poderiam existir diversas
crianas que fossem irms, mesmo que no seja o caso do nosso estudo, na qual seria
possvel acrescentar informaes sobre os pais, por meio de um ndice. Neste caso, no arquivo
de crianas existiriam ndices repetidos, todos os que correspondessem aos irmos, e, no
arquivo de pais ou mes, este ndice apareceria somente uma vez. O segundo arquivo, o do
pai ou da me, recebe o nome de Tabela ou TABLE.

Aconteceria a mesma coisa, se existisse um arquivo com a informao da residncia. Por meio
de um ndice, que seria nico para cada casa, a informao desta e de seus habitantes poderia
ser acrescentada, e os habitantes, pais ou filhos, teriam ndices em comum e portanto
repetidos. O arquivo da residncia tambm seria um arquivo TABLE.

Uma segunda situao, diferente das anteriores, a que acontece quando, para cada caso, o
indivduo possui uma informao adicional e no compartilhada por mais ningum.

Neste caso, o ndice de conexo o identificador do indivduo, e os arquivos deveriam possuir


a mesma extenso ou nmero de registros, se a nova informao existe para todos os
indivduos. No caso dos indivduos desemparelhados, a informao de um ou de outro arquivo
atribui-se como missing ou desconhecida, mas o indivduo estar no arquivo final.

SINTAXE

A sintaxe apresenta as duas situaes descritas:

MATCH FILES FILE={arquivo} [TABLE={arquivo}]


[/RENAME=(nomes variveis antigas=nomes variveis
novas)...]
[/IN=variable]
/FILE=... [TABLE= ...]
[/BY lista de variveis]
[/MAP]
[/KEEP={lista de variveis}] [/DROP=lista de variveis]

MATCH FILES a instruo genrica, que deve acompanhar a informao de cada um dos
arquivos que fornecem variveis ao arquivo definitivo.
FILE={arquivo} [TABLE={arquivo}]
Especificam quais so os arquivos que vo ser combinados, um a um. O
arquivo resultante mostrar, em primeiro lugar (isto , esquerda), as variveis
do primeiro arquivo especificado na instruo (isto , o nomeado no primeiro
FILE ou no primeiro TABLE), seguidas das variveis do arquivo seguinte
(identificado na segunda especificao FILE/TABLE) e, assim, sucessivamente.
Se algum dos arquivos envolvidos na instruo for o arquivo ativo, este pode
ser especificado por um *.

Neste ponto fundamental fazer uma diferenciao clara entre FILE e TABLE.

FILE indica um arquivo que, alm de fornecer novas variveis, pode


acrescentar novos casos ao arquivo resultante. o segundo caso que foi
indicado na apresentao desta seo. Em nosso exemplo, acrescentar a
informao antropomtrica aos dados de ingesto protica de cada criana
fornecer novas variveis s j existentes em NINHOS.SAV. Poderia acontecer
de existirem casos desemparelhados, ou seja, a presena de informao
antropomtrica de alguma criana, da qual o consumo de protenas fosse
desconhecido, o MATCH FILE forneceria um novo caso ao arquivo final, isto ,
uma criana a mais, atribuindo um valor missing ou desconhecido a todas as
variveis do arquivo inicial NINHOS.SAV.

Da mesma forma, um caso conhecido no qual constam as protenas


consumidas e no existe no arquivo de dados antropomtricos gera, nas
variveis fornecidas por este ltimo arquivo, o valor de missing ou valor
desconhecido.

TABLE especifica um arquivo que fornece variveis ao arquivo resultante, mas


jamais casos.

Podem ser diferenciadas duas situaes, nas quais o uso de TABLE


necessrio:

1. Acrescentar variveis dentro de um mesmo nvel, mas unicamente aos


casos definidos no arquivo FILE prvio.

um caso especial do descrito anteriormente. A diferena que no se


acumulam os casos desemparelhados. utilizado quando se deseja
somente adicionar variveis ao conjunto de casos que est sendo
estudado, no a todo o conjunto disponvel.

2. Acrescentar variveis de um nvel superior de informao aos indivduos


ou casos de um nvel inferior.

Todos os casos esto no arquivo definido como FILE, e somente para


estes casos so atribudas novas variveis existentes no arquivo
definido como TABLE.

[/BY lista de variveis]

Especifica a(as) varivel(eis) que identifica(m) a correspondncia entre os


casos do arquivo ativo e seus respectivos casos no arquivo externo. Se a
opo BY no usada, o programa une a informao de forma seqencial, isto
, o primeiro caso do arquivo ativo com o primeiro do arquivo externo, o
segundo com o segundo, etc.
O uso da opo BY implica ter arquivos ordenados, por meio da instruo
SORT, pelos mesmos critrios especificados na lista de variveis e na mesma
seqncia.

O resto das opes possui o mesmo significado que foi visto em instrues
anteriores.

No nosso exemplo, para acrescentar a informao antropomtrica da criana


nutricional, faramos:

MATCH FILES FILE='C:\Spss\Chiapas\ninhos.sav'


/TABLE=C:\Spss\Chiapas\antrop.sav
/BY ncuest nomper .
EXECUTE.

No arquivo resultante poderamos acrescentar a informao da casa e do chefe


da famlia, por meio da seguinte expresso:

MATCH FILES FILE=* /TABLE='C:\Spss\Chiapas\Casa.sav'


/TABLE='C:\Spss\Chiapas\jefe.sav'
/BY ncuest .
EXECUTE.

Observe que os trs arquivos acrescentados (ANTROP.SAV, CASA.SAV e


JEFE.SAV) so declarados como TABLE, j que nos interessa somente a
informao dos casos presentes no arquivo NINHOS.SAV, e, nestes arquivos,
existem crianas, lares e chefes de famlia que no correspondem aos casos
includos no nosso estudo.

No entanto nota-se que, para acrescentar a informao encontrada em


ANTROP.SAV, necessria a incluso de duas variveis chave (ncuest e
nomper). Isto devido ao fato de que nesta base existem casos procedentes
da mesma casa, isto , irmos. Lembre-se de que o estudo nutricional foi
realizado exclusivamente nos irmos mais novos. Como tm, ento, o mesmo
nmero de identificao da casa, devemos diferenci-los pelo seu nmero
particular dentro da casa. Assim, conseguimos decifrar qual das crianas de
uma mesma casa a estudada.

Ao unir os outros arquivos, necessria somente a especificao de ncuest,


visto que, em NINHOS.SAV, existe somente uma criana para cada casa, e,
em CASA.SAV e JEFE.SAV, tambm existe somente um registro por lar.

Lembre-se de que, ao acrescentar variveis de um arquivo a outro, ambos


devem estar ordenados pela mesma varivel e da mesma forma. Se no editor
de resultados aparecer algum erro, possvel que seja devido ao fato de que
os arquivos no estejam todos ordenados ou que pelo menos a ordenao no
foi realizada da mesma forma.
Finalmente, podemos salvar o arquivo resultante com um novo nome:

SAVE OUTFILE='C:\Spss\Chiapas\nutricio.sav' .

JANELAS
Semelhante ao caso de ADD FILES, no possvel realizar a ao de MATCH FILES sem um
arquivo aberto ou ativo na janela do Editor de Dados. Assim, uma vez aberto um arquivo, para
efetuar a adio de variveis que encontram-se em outro arquivo, em primeiro lugar deve-se
selecionar o referido arquivo. Para isto, pela ao Data Merge Files Add Variables, ao
abrir o arquivo selecionado, desdobra-se uma nova janela, Figura 5.3, similar descrita na
seo de acrescentar casos.
Assim, em uma subjanela aparecem as variveis que constaro no novo arquivo de trabalho,
marcadas com (*) ou (+), conforme sejam do arquivo ativo ou do segundo. Em outra janela so
descritas as variveis excludas, dado que se encontrem repetidas nos dois arquivos.
A princpio, nesta janela, deveriam constar as variveis utilizadas como ndice ou chave de
conexo entre os dois arquivos e que so as que, mediante sintaxe, constariam na opo BY.

Pode acontecer tambm da varivel ou das variveis de conexo possurem nome diferente
nos dois arquivos, motivo pelo qual no apareceriam na janela de variveis excludas. Pela
possibilidade de Rename, possvel resolver esta dificuldade. Para isto, seleciona-se a
varivel chave na janela New Working Data File e adicione-a janela de Excluded Variables,
clicando sobre a opo .

Uma vez deslocada, pode ter o nome trocado.

Em seguida, devemos selecionar se o processo por meio de FILE ou TABLE.

Na primeira, FILE, seria marcada a opo: Match Cases on key variables in sorted files
(emparelhar os casos nas variveis chave para os arquivos ordenados) e, em seguida, a
opo: "Both files provide cases" (ambos os arquivos fornecem casos).

Como lgico, as variveis chave devero ser indicadas a seguir. Para isto, as variveis da
lista presente na janela de Excluded Variables devem ser selecionadas e transferidas que
indica Key Variables, por meio da tecla .

No caso de o contexto exigir o uso de TABLE, ao marcar Match Cases on key variables in
sorted files, dever ser marcado qual dos arquivos o de chaves. Posteriormente, devero ser
novamente explcitas quais so as variveis utilizadas como chave.
Qualquer que seja a opo escolhida, pode-se especificar a origem de cada varivel, dizer de
qual arquivo ela procede, marcando a opo Indicate case source as variable.

Figura 5.3. Janelas que possibilitam a adio de variveis de um arquivo a outro.


COMENTRIOS
1. Todos os arquivos envolvidos em um MATCH FILES devem ter formato de dados SPSS
(.SAV).

2. Ao realizar um MATCH FILES com a opo BY, ambos os arquivos devem estar ordenados
de forma ascendente pela varivel indicada em BY.

3. Ao arquivo ativo podem ser acrescentados at 49 arquivos externos em uma mesma


instruo MATCH FILES. No entanto, por meio da utilizao de janelas, esta operao s
pode ser realizada entre dois arquivos.

4. O arquivo resultante preservar o nome do arquivo especificado imediatamente depois do


MATCH FILES. Se desejar, poder salv-lo com outro nome.

O mesmo procedimento ao descrito na Figura 5.3 permitir adicionar, agora, a informao das
variveis referentes casa e ao chefe da famlia.

Com estas ltimas instrues, j seria possvel ter todas as variveis do estudo em um nico
arquivo. Tente imaginar qual seria a melhor estratgia para fazer isto. No existe uma nica
forma, j que poderiam ser adicionadas, primeiro, a informao do chefe da famlia e, em
seguida, a da residncia, mas tambm seria vlido executar estas aes na ordem contrria.

No entanto, antes de executar esta ao, considere o seguinte: Ao fundir arquivos, esses
tornam-se cada vez maiores e mais complexos. Como posso trabalhar somente com os dados
de um grupo de casos? J posso deduzir um arquivo com somente um grupo restrito de
variveis. Claro! Criando um arquivo por meio da ao SAVE e eliminando variveis pela
subinstruo KEEP ou DROP.
Se se deseja trabalhar somente com os meninos e meninas de Jaltenango, cuja me
analfabeta e no completou ainda 19 anos, existe alguma ao programada?

SELEO DE SUBGRUPOS DE CASOS


At este momento, todas as instrues propostas consistiram na adio de informao de uns
arquivos a outros, o resultado sendo sempre um arquivo com mais casos ou com mais
variveis.

No entanto surge uma situao, na qual se necessita de uma anlise para um grupo reduzido
de casos, que se caracteriza por um conjunto de propriedades comuns. No nosso exemplo,
poderamos imaginar uma srie de anlises no grupo formado pelas meninas menores de dois
anos, cuja me seja menor de dezoito anos.

O mais prtico em casos como o descrito consistir em selecionar permanentemente os dados


que cumprem estas condies e trabalhar independentemente do resto dos dados.

Outra situao, no to freqente, a que consiste em selecionar uma amostra aleatria dos
dados, seja para uma orientao para descrio quando o arquivo tem um grande volume de
dados, seja para uma amostra de validao posterior obteno de modelos estatsticos
obtidos com o restante dos dados.

A seguir, so descritos os dois tipos de aes correspondentes s situaes indicadas.

SINTAXE

Com a primeira instruo, so selecionados, de forma permanente, aqueles casos que


cumprem uma condio lgica determinada. Isto , a execuo de um SELECT IF produz um
arquivo de dados, no qual constam os casos especificados, desaparecendo os que no
satisfazem a condio.

SELECT IF [(]condio lgica[)]

A especificao da condio lgica realizada exatamente da mesma forma que na instruo


IF.

Este procedimento tem o inconveniente de que, se a condio equivocadamente expressa,


no possvel corrigir sem voltar a abrir o arquivo, que era tido como ativo.
Quando se pretende gerar um subgrupo com a condio de ser uma amostra do conjunto de
dados disponvel, a instruo a seguinte:

SAMPLE {mtodo de seleo}

Na qual

{mtodo de seleo}: especifica o tamanho e critrio utilizado da amostra aleatria:

- Proporo: permite especificar a proporo de casos que desejamos selecionar do


arquivo ativo.

Por exemplo, se queremos configurar uma amostra que represente 20% do total de
casos, a instruo seria: SAMPLE 0.2.

- n FROM m: indica que so selecionados n dos m primeiros casos do arquivo ativo.

Por exemplo, se nos interessasse selecionar 35 dos primeiros 150 casos do arquivo,
a instruo seria: SAMPLE 35 FROM 150.
A seleo realizada por meio de uma rotina pseudo-aleatria, que se inicia com uma semente
de aleatoriedade concreta, (como padro 2000000), que se repete a cada vez que executada
uma nova seo do programa.

Esta semente pode ser alterada por meio da instruo j definida no primeiro captulo, SET
SEED=N, na qual N deve ser um inteiro inferior a 2000000000.

Na prtica, o conhecimento do valor da semente s til, se nos interessa repetir exatamente


uma mesma seleo de casos.

Por exemplo, na questo apresentada no incio da explicao desta instruo, para trabalhar
somente com os meninos e meninas de Jaltenango, cuja me analfabeta e tem menos de 19
anos, faramos o seguinte:

JANELAS
Na Figura 5.4 so mostradas as janelas correspondentes s instrues de seleo de casos.
Para se obterem essas janelas, seleciona-se Data Select Cases. Para que a seleo seja
realmente permanente e no temporal, a opo Deleted deve ser ativada em Unselected
Cases Are da primeira janela que aparece em Select Cases.

FIGURA 5.4. Janelas de seleo permanente de subgrupos de casos.


A criao de um arquivo que contenha somente um subgrupo de casos interessante. De
qualquer forma, seria muito cmodo poder analisar um conjunto de dados, sem que a seleo
seja permanente, isto , sem perder a informao global do arquivo original.

SINTAXE
A seleo temporria de casos realizada estritamente pela instruo FILTER.

FILTER BY varivel filtro

Esta instruo seleciona aqueles casos nos quais a varivel filtro assume valores diferentes de
0 ou missing. No entanto, normalmente no temos uma varivel cujos valores estejam
dispostos de tal forma que 0 e missing correspondam aos casos que no queremos que sejam
os selecionados. Logo, antes de utilizar FILTER, devemos construir uma varivel auxiliar
(chamada varivel filtro), pela qual os casos sero selecionados. Esta varivel pode ser
facilmente criada por meio de um simples COMPUTE.

COMPUTE varivel filtro = (mtodo de seleo)

Devendo ser explcito o critrio ou mtodo de seleo:

- segundo uma das condies lgicas explicadas na instruo IF.

- Como amostra aleatria indicando a proporo desejada, indicando como mtodo de


seleo uniform(semente) <= proporo .

Por exemplo, deseja-se selecionar temporariamente 30% dos casos, seria indicado
como uniform (23577) <= 0.3 , sendo 23577 o nmero gerador da rotina aleatria
que associa a cada caso do arquivo uma probabilidade, segundo uma distribuio
uniforme gerada por uma semente igual a 23577.

Esta instruo criar, ento, a varivel filtro, cujos valores sero 0, se a condio no for
cumprida, 1 , se a condio for cumprida, e missing de sistema, se no for possvel avaliar a
condio.

Portanto, as instrues necessrias para selecionar um subgrupo de casos de forma


temporria podem ser escritas da seguinte maneira:

COMPUTE varivel filtro = (mtodo de seleo)


FILTER BY varivel filtro

Uma vez que a seleo de casos j no tem mais interesse e deseja-se voltar a trabalhar com
todos os casos, preciso executar:

FILTER OFF.

Isto no significa o desaparecimento do filtro, mas somente a sua desativao, podendo-se


voltar a efetuar a seleo executando o FILTER BY FILTER.

Assim, o exemplo dado anteriormente poderia, agora, ser executado de forma temporal da
seguinte maneira:

COMPUTE selecao = (ed_madre<19 and mescola=0 and


municipi=1).
EXECUTE .
FILTER by selecao .

Sendo SELEO a nova varivel que serve para filtrar aqueles casos no selecionados.

JANELAS
Podem ser obtidas, seguindo a seqncia Data Select Cases... Observe que so
exatamente as mesmas do caso de realizar uma seleo permanente, s que a opo ativada
agora deve ser Filtered em Unselected Cases Are.

FIGURA 5.5. Janela de seleo temporal de subgrupos de casos.


COMENTRIOS

1. Veja como a varivel filtro se mantm no arquivo, mesmo como uma outra varivel
qualquer, sem determinar nenhum outro tipo de seleo. A varivel pode ser mantida no
arquivo, para que, nas prximas aes de seleo, seja usado o mesmo nome.

2. Em verses anteriores do programa, existia a possibilidade de selecionar temporariamente


um subgrupo de dados, indicando antes de um SELECT IF a instruo TEMPORARY.
Aparentemente era mais simples que na verso atual, o inconveniente era que a
temporalidade durava somente a execuo de uma determinada anlise, devendo-se
repetir a seqncia TEMPORARY. SELECT IF, tantas vezes quantas fossem o nmero de
anlises que desejssemos efetuar.

Os arquivos de dados com os quais trabalhamos at o momento apresentam a informao


detalhada para cada criana. Desejaria ter outro arquivo, menos volumoso, no qual a mesma
informao se apresentasse resumida para cada municpio, em funo do sexo da criana e da
ocupao do chefe da famlia. Posso construir rapidamente um arquivo deste tipo?

AGREGAO DE DADOS EM TABELAS


INDEXADAS
Uma vez analisados os dados primrios, freqente que se deseje efetuar a anlise da
informao agregada. Por exemplo, no nosso estudo, no analisar a situao para cada caso
individual, mas, sim, considerando unicamente certas caractersticas de agrupamento dos
dados, como o municpio e o sexo ou a profisso do pai, tambm uma combinao de todas
elas.

Isto , pretende-se organizar a informao agregada, em funo de ndices correspondentes a


algumas variveis categricas, o que significa estruturar a matriz de dados em forma de uma
tabela multidimensional. Pensemos na descrio de nossos dados na forma de uma tabela de
trs dimenses, sendo as dimenses o municpio, o sexo e a profisso do chefe da famlia.

As oito clulas desta tabela tridimensional (2 x 2 x 2) descrevem uma situao comum a um


determinado nmero de casos. Em uma clula concreta, como a que define a situao
especfica Villaflores * Feminino * Agropecurio, possvel agregar, alm da freqncia de
casos com estas caractersticas, informao de outras variveis. Por exemplo, podemos
agregar caractersticas da varivel peso, tanto em forma de mdia estatstica amostral,
mediana ou medidas de disperso, como de porcentagem ou frao de indivduos pertencentes
a essa categoria mltipla, que esto acima, abaixo ou igual a um determinado peso.

Esta nova estrutura poder ser salva como um novo arquivo para uma manipulao posterior e
anlise.

SINTAXE
A sintaxe de criao da agregao da informao em tabelas de mltiplas dimenses a
seguinte:

AGG[REGATE] OUTFILE=arquivo
[/MISSING=COLUMNWISE]
[/DOCUMENT]
[/PRESORTED]
/BREAK=lista de variveis[({Ordem})][lista de variveis...]
/aggvar['etiqueta']aggvar['etiqueta']...=funo(argumento)
[/aggvar ...].
Esta instruo no necessita da ordenao prvia dos dados, j que a efetua automaticamente,
a no ser que se indique de forma explcita que a ordenao foi realizada previamente. Esta
ordenao prvia recomendvel quando as variveis categricas que geram o agrupamento
possuem muitas categorias; sempre deve ser seguida a ordem que ser utilizada ao agrupar.

Uma vez especificado o arquivo de partida cuja informao deseja-se agregar, as trs opes
seguintes, quando utilizadas, devem ser especificadas antes de /BREAK.

[/MISSING=COLUMNWISE]
Indica que, se em uma classificao proposta, por meio das variveis categricas especificadas
em BREAK, existem casos com informao perdida ou desconhecida nos ndices, mantm-se a
clula indicando o seu componente missing.

[/DOCUMENT]
Inclui documentao do arquivo original. Como padro, o ignora.

[/PRESORTED]
Indica que o arquivo est ordenado a partir das variveis classificadoras descritas em BREAK.
Como padro, cada vez que a agregao efetuada, a instruo realiza um SORT.

/BREAK=lista de variveis [({Ordem})][lista de


variveis...]
a lista de variveis que geram a tabela multidimensional. Como foi indicado na expresso
SORT, a ordem em que so enumeradas muito importante, j que a apresentao e o
contedo do que se agrega variam em funo da ordem de classificao.

/aggvar['etiqueta']aggvar['etiqueta']...=funo(argumento)
Nesta subinstruo indicam-se as variveis que so resumidas nas clulas multidimensionais e
a informao que se deseja delas. Isto , que resumo obtido de cada varivel agregada em
cada clula definida em BREAK. A opo permite atribuir uma etiqueta para a nova varivel
agregada.

As funes disponveis so:

SUM Soma MEAN Mdia


SD Desvio Padro
MAX Mximo MIN Mnimo
FIRST Primeiro valor no missing LAST ltimo valor no missing
PGT % casos > que um valor PLT % casos < valor
PIN % casos em um intervalo POUT % casos fora de um intervalo
FGT Frao > que um valor FLT Frao < valor
FIN Frao em um intervalo FOUT Frao fora de um intervalo
N Nmero de casos ponderados NU Nmero de casos no
ponderados
NUMISS Nmero de casos missing no ponderados
N_BREAK Nmero de casos em cada nvel de agregao

Observa-se que todas as funes esto previstas para agregar variveis numricas, no
entanto, tambm apresentam certas utilidades para variveis alfanumricas. Por exemplo, as
funes lgicas ou de classificao.
De qualquer forma, apesar de ser possvel fazer uma agregao, na qual alguma varivel de
agrupamento seja do tipo alfanumrica, esta possibilidade no especificada com clareza nos
manuais, devido aos problemas que a ordenao de variveis desta natureza podem
apresentar, quando possuem uma grande longitude de caracteres. Assim, a ordenao
alfabtica do nome e dos sobrenomes de um arquivo de indivduos pode necessitar uma
memria de trabalho em muitos casos no acessvel, motivo pelo qual seu uso no indicado.

No nosso exemplo, poderamos agregar o nmero de crianas por municpio e sexo, idade,
peso e altura mdia dos mesmos.

AGGREGATE OUTFILE='C:\Spss\Chiapas\base_agr.SAV'
/BREAK=municipi sexo jocupa
/med_alt 'Altura mdia' = MEAN(tall_cms)
/med_pes 'Peso mdio' = MEAN(peso_kg)
/freq=N.

JANELAS
A janela de agregao de variveis ativada por meio de Data Aggregate.
Nesta janela, aparecem todas as variveis contidas no arquivo, como mostrado na Figura 5.6.

As variveis que formam a classificao mltipla so selecionadas com o cursor e


transportadas subjanela de nome: Break Variables (variveis de segmentao) ativando a
tecla .

As variveis cuja informao se resume ou se agrega nas clulas multidimensionais criadas


so selecionadas com o cursor e passadas janela de Aggregate Variable(s) (variveis de
agregao).

No momento em que uma varivel transladada lista de Aggregate Variable(s), clicando na


tecla Function..., pode-se definir a funo ou informao que se deseja manter.

S permitida a introduo de uma funo por varivel. Mas, se quiser agregar mais de uma
funo por varivel, voltando a selecion-la e mudando a funo, ser obtido o resultado
desejado.

Por exemplo, se para uma varivel quantitativa deseja-se agregar a mdia e o desvio padro,
selecione a varivel e atribua-lhe a funo Mean ( a funo padro). A seguir, volte a
selecion-la e atribua-lhe a funo Standard deviation.

Os nomes com que as variveis agregadas aparecero no arquivo resultante referem-se


sempre varivel de origem terminada com _1. No entanto, ativando a tecla Name & Label... o
nome pode ser variado, uma vez que pode ser adicionada uma etiqueta.
Figura 5.6. Janelas de agregao de dados.
Ativando a opo Save number of cases in break group as variable, para cada clula gerada
pelas variveis de segmentao ser criada, no arquivo resultante, uma nova varivel, que ser
o nmero de casos pertencentes a este nvel. A esta varivel, como padro, dado o nome de
N_BREAK, o qual pode ser mudado, escrevendo-se diretamente na janelinha.

Tambm como padro, supe-se que o arquivo resultante da ao seja salvo com um nome
diferente do de origem da agregao. O nome suposto Agr.sav, que tambm pode ser
modificado, juntamente com a pasta onde o arquivo ser salvo.

Se a opo Replace working data file escolhida, o arquivo resultante se sobrepe ao ativo,
perdendo-se a informao original.
Neste caso, como em todos os anteriores, recomendamos Colar (Paste) a sintaxe gerada por
suas aes feitas na janela. Alm de se ter constncia escrita das aes efetuadas, poder-se-
entender melhor a sintaxe e os processos automatizados, por meio do desdobramento e da
ativao dos menus pr-programados.

COMENTRIOS

1. Se uma das variveis de agregao de natureza alfanumrica, isto , de tipo string, o


AGGREGATE ter que ser feito obrigatoriamente por sintaxe.

2. No caso de encontrar-se na situao anterior, mas agora com as variveis alfanumricas


sendo as de segmentao, totalmente recomendvel executar o SORT previamente
agregao. Em geral, os problemas com variveis desta natureza provm da limitao de
memria disponvel para efetuar a ordenao, por isto, se o SORT realizado, com certeza
o processo de agregao tambm ser realizado.

3. sempre recomendvel salvar o resultado em um arquivo diferente do ativo e mudar o


nome que o programa atribui como padro. Depois de um tempo, difcil lembrar o que foi
armazenado em arquivos com nome Agr.sav, Agr2.sav etc. Se se tiver pacincia ou
experincia e souber a importncia de se ter a informao bem organizada no disco,
recomendvel gerar em cada pasta uma outra pasta para os arquivos resultantes de
agregaes.

4. Gerar arquivos de agregao por grupos de idade e sexo uma ferramenta muito til, no
caso de estar realizando um estudo que necessita do clculo de taxas e sua posterior
padronizao.

A seguir mostrado o arquivo resultante da instruo AGGREGATE executada.


Figura 5.7. Arquivo resultante da agregao realizada.

Observe como, teoricamente, o arquivo deveria ser composto de oito casos (as oito possveis
combinaes geradas pelos dois valores de municipi, os dois de sexo e os dois de jocupa) e,
na verdade, composto de dezoito. Pode-se comprovar que isto se deve ao fato de que a
varivel sexo tem, alm dos valores esperados, outros que contm erros de digitao ou so
escritos de forma diferente.

Este um problema tpico, quando se trabalha com variveis alfanumricas. Nestas, por
permitirem qualquer caractere, os possveis erros so de difcil controle, e, por isto, sempre
aconselhvel trabalhar com variveis numricas, mesmo que a natureza delas seja de tipo
categrico. Uma vez que o analista recebe os dados, deve tentar solucionar este tipo de
problema, convertendo as variveis alfanumricas em numricas. No entanto, para atacar o
problema de forma eficaz, ele deve ser previsto no momento em que o programa de captao
dos dados preparado. Quando o desenho da coleta de dados leva em conta esta preveno,
um sintoma da qualidade desses dados, e evita a perda desnecessria de tempo.
Infelizmente, muitas vezes, o analista no intervm no estudo, at o momento em que os dados
j estejam registrados...

Desejo realizar a descrio de todas as variveis para Villaflores e Jaltenango separadamente.


Posso fazer isto de maneira rpida e simples sem ter de criar novos arquivos?

SEGMENTAR UM ARQUIVO
A segmentao de um arquivo tem certas semelhanas com a agregao.

Consiste em organizar a estrutura de um arquivo, ordenando-a por uma ou vrias variveis de


tipo categrico, de forma que, com uma instruo, seja indicado que, a partir deste ponto,
qualquer anlise que seja efetuada se repetir para cada uma das clulas ou mltiplas
categorias, at que no seja dito o contrrio.

SINTAXE
A expresso produzida pela segmentao do arquivo :

SPLIT FILE [{forma de apresentao}] BY lista de variveis.

{ANLISES VARIADAS}

SPLIT FILE OFF.

Ao executar a instruo SPLIT FILE, as anlises subseqentes, que forem indicadas antes da
execuo de SPLIT FILE OFF, segmentam o arquivo em estratos correspondentes
combinao das categorias das variveis indicadas na lista.

[{forma de apresentao}]
Nesta opo deve ser indicado se a apresentao dos dados deve ser efetuada em uma s
tabela estruturada nos estratos, forma de apresentao = LAYERED, ou de forma separada
para cada estrato ou combinao de categorias das variveis que definem o SPLIT. Neste
caso, a forma de apresentao = SEPARATE.

A primeira opo a que est padronizada.


BY lista de variveis.
a lista de variveis pelas quais o arquivo segmentado. As variveis devem estar na mesma
ordem que na instruo SORT previamente realizada, a qual obrigatria.

{ANLISES VARIADAS}
Embora no seja indicado o contrrio, a segmentao est vigente e qualquer anlise indicada
ser efetuada para cada estrato definido.

SPLIT FILE OFF.


Com esta instruo complementar, indica-se que, a partir deste instante, as anlises j no so
efetuadas por estratos.

Um exemplo com nossos arquivos seria:

SORT CASES BY municipi jocupa .


SPLIT FILE BY municipi jocupa .
DESCRIPTIVES VAR=tall_cms peso_kg /STATISTICS=MEAN STDDEV
.
SPLIT FILE OFF.
Esta sintaxe geraria uma anlise da altura e do peso das crianas do estudo, estratificada por
municpio e ocupao do chefe da famlia. Isto , para as quatro possveis combinaes
geradas por municipi e jocupa (Villaflores/Agropecurio, Villaflores/Outros,
Jaltenango/Agropecurio e Jaltenango/Outros), para as variveis indicadas, seria calculado o
valor da mdia e do desvio padro.

JANELAS
A ativao de Data Split File na barra de ferramentas da janela do SPSS Data Editor abre
uma nova janela, na qual observa-se que a opo padro a de Analyze all cases, do not
create groups , equivalente a SPLIT FILE OFF.

Uma vez indicado que se deseja segmentar o arquivo, deve-se indicar tambm se se pretende
Compare groups (comparar os grupos) ou Organize output by groups (organizar as sadas
por grupos), opes que correspondem a LAYERED ou SEPARATE respectivamente

Uma subjanela automaticamente ativada. Para ela podem ser transportadas as variveis que
definem os estratos ou os grupos de anlises. Selecionadas com o cursor e transportadas a
esta janelinha, falta somente indicar se os dados j se encontram ordenados, ou devem ser
ordenados em funo das variveis selecionadas.

Figura 5.8. Janela que permite a anlise de um arquivo por segmentos ou estratos.
Sintaxes do Captulo 5
GET FILE='C:\Spss\Chiapas\nin_vill.sav' .

***********************************************************
*************.
* Adicionamos casos
*.
***********************************************************
*************.

*** Colocamos todas as crianas em um mesmo arquivo ***.

* No caso em que NIN_VILL.SAV o arquivo ativo, se a


seqncia*.
* do livro foi seguida deve ser*.

ADD FILES FILE=*


/FILE='C:\Spss\Chiapas\nin_jal.sav'
/IN=municipi
/DROP=d_r.
EXECUTE.

* No caso de NIN_VILL.SAV no ser o arquivo ativo *.

ADD FILES FILE='C:\Spss\Chiapas\nin_vill.sav'


/FILE='C:\Spss\Chiapas\nin_jal.sav'
/IN=municipi
/DROP=d_r.
EXECUTE.

VAL LAB municipi 0 'Villaflores' 1 'Jaltenango' .


SAVE OUTFILE='C:\Spss\Chiapas\ninhos.sav' .

***********************************************************
*************.
* Adicionamos variveis
*.
***********************************************************
*************.

*** Adicionamos variveis dos outros arquivos ao arquivo


que rene***.
*** todas as crianas ***.

* Primeiro nos asseguramos de que todos os arquivos estejam


igualmente*.
* ordenados*.
SORT CASES BY ncuest.
SAVE OUTFILE='C:\Spss\Chiapas\ninhos.sav' .

GET FILE='C:\Spss\Chiapas\antrop.sav' .
SORT CASES BY ncuest nomper.
SAVE OUTFILE='C:\Spss\Chiapas\antrop.sav' .

GET FILE='C:\Spss\Chiapas\casa.sav' .
SORT CASES BY ncuest.
SAVE OUTFILE='C:\Spss\Chiapas\casa.sav' .

GET FILE='C:\Spss\Chiapas\jefe.sav' .
SORT CASES BY ncuest.
SAVE OUTFILE='C:\Spss\Chiapas\jefe.sav' .

* Juntamos as variveis de ANTROP.SAV *.

MATCH FILES FILE='C:\Spss\Chiapas\ninhos.sav'


/TABLE='C:\Spss\Chiapas\antrop.sav'
/BY ncuest nomper .
EXECUTE.

* Agora as dos demais arquivos *.

MATCH FILES FILE=* /TABLE='C:\Spss\Chiapas\Casa.sav'


/TABLE='C:\Spss\Chiapas\jefe.sav'
/BY ncuest .
EXECUTE.

* Salvamos o arquivo resultante *.

SAVE OUTFILE='C:\Spss\Chiapas\nutricio.sav' .
Captulo 6.

CRIAO E
TRANSFORMAO DE
VARIVEIS.
INTRODUO
Ao longo do processo de trabalho com um arquivo de dados, surge, quase
sempre, a necessidade de transformar as variveis j existentes ou criar novas
variveis a partir das j conhecidas.

Variveis registradas no arquivo de dados so transformadas, para que seja


obtido o mximo de informao, sendo que possivelmente sua descrio, uma
vez transformada, mais relevante que a originalmente coletada.

Um exemplo clssico desta situao a idade do indivduo. Habitualmente, os


estudos registram esta varivel em anos, mesmo que, possivelmente, a
posteriori, esta seja descrita em funo de determinados grupos de idade de
interesse para o investigador. Devemos notar, neste ponto, que o fato da
descrio ser realizada em funo de determinados grupos de idade no
significa que, no desenho da planilha de coleta de dados, o lgico fosse
estabelecer diretamente a que grupo etrio pertence o indivduo. Pelo contrrio,
a coleta de dados da idade em anos mais interessante, dado que permitir a
fcil obteno de uma varivel que expresse a mesma informao (a
distribuio dos grupos desejados), mas com outra informao complementar,
a partir da varivel original, que tambm pode ser relevante. Alm disso, o
conhecimento da idade em anos permitir configurar os grupos de idade de
vrias formas diferentes, no exclusivamente como foi pensado inicialmente.

Em outros casos, tambm muito freqentes, a idade em anos que os indivduos


possuam no momento do estudo no seria nem sequer interessante, j que
trata-se de um estudo de seguimento ou longitudinal. O que nos interessa,
nesse caso, a data de nascimento do indivduo, assim como a de entrada no
estudo. Neste caso, teramos a possibilidade permanente de considerar a idade
do indivduo no incio do estudo, assim como no momento da anlise, se fosse
de interesse.

Em geral, seja qual for a varivel, existe uma regra no escrita aplicvel
coleta de dados que poderia ser resumida em: sempre tente obter a informao
o mais desagregada possvel. De qualquer forma, deve-se valorizar a priori o
esforo que isto implica e, finalmente, buscar o equilbrio desejvel entre o
detalhe com que a informao descrita, o esforo para que este nvel de
detalhe seja obtido e a necessidade para a anlise que pretende-se realizar.

Por outro lado, a possibilidade de se criarem novas variveis a partir de outra


ou outras j existentes na base outro recurso valioso para descrever o mais
detalhadamente possvel os dados observados.

Outro exemplo clssico em estudos de identificao de fatores de risco sobre


um problema em sade pblica encontramos nas variveis Nmero de quartos
da casa e Total de pessoas que vivem na casa. A informao que
poderamos extrair de cada uma delas, individualmente, pouco relevante,
mas com um indicador do tipo Nmero de pessoas que vivem na casa por
dormitrio, como medida de aglomerao, proporciona uma informao muito
mais interessante.
Assim, a partir do registro de duas variveis nas bases de dados originais, ser
criada uma terceira, cujo estudo pode fornecer ainda mais informao. Neste
caso, cabe indicar que o registro desta terceira varivel nos arquivos originais
significaria uma redundncia e um trabalho adicional desnecessrio.

Poderia ser considerada a possibilidade de coletar diretamente a varivel


aglomerao, mas isto no liberaria de ter que recolher no estudo a informao
sobre o nmero de pessoas ou o de quartos, j que so indicadores utilizados
na criao ou no ajuste de outras variveis.

Neste captulo, veremos a maioria das instrues utilizadas na criao de uma varivel ou na
modificao de uma j existente. Uma questo deve ser previamente considerada:

Com que formato?


No caso em que se deseja criar uma nova varivel, como no foi definido no DATA LIST ou por
meio da leitura de uma base de dados, antes da criao deve-se pensar em que formato esta
nova varivel vai ser definida.

Como padro, o formato das novas variveis sempre de natureza numrica e, como pode ser
observado nos settings ou condies de instalao (Edit Options da barra de ferramentas),
o formato F8.2. Assim, se o resultado de alguma destas instrues uma nova varivel
numrica, ser necessrio somente executar a instruo e, automaticamente, ser atribudo
este formato. Por outro lado, quando se deseja criar uma varivel de natureza alfanumrica,
obrigatria a execuo prvia da declarao de alfanumrica.

SINTAXE
Este passo realizado mediante a instruo:

STRING nome da varivel (An)

Onde n indica a extenso da cadeia alfanumrica.

Nos demais casos, o formato numrico F8.2 pode ser modificado pela janela
Variable View, uma vez criada a nova varivel.

Nos arquivos que estivemos manipulando, NIN_VILL.SAV e NIN_JAL.SAV, no consta em


nenhuma varivel o que indicado como objetivo do estudo considerado, isto , o estado
nutricional da amostra de crianas de Chiapas. Falta-nos algum arquivo com esta informao
ou podemos definir esta varivel a partir das existentes nos outros arquivos?

CRIAO DE VARIVEIS
Em nosso estudo, a definio do estado nutricional de cada criana ser realizada, baseando-
se nas protenas habitualmente consumidas em funo da idade dela. No foram obtidos
resultados a partir de uma busca detalhada de critrios externos para classificar as crianas
como bem ou malnutridas, pois as classificaes encontradas na literatura eram
excessivamente amplas e no se ajustavam especificidade dos grupos de idade estudados.
Finalmente, optou-se por considerar quatro grupos de idade ([12,24) meses, [24,36) meses,
[36-48) meses e [48-60) meses, e, dentro de cada um, foram classificadas como malnutridas
aquelas crianas no primeiro tercil do nmero de protenas consumidas. Ou seja, determinou-
se que 33% das crianas com o consumo de protenas inferior em cada grupo seriam
consideradas como aquelas que no cumpriam o padro de adequao alimentar. Observe a
Tabela 6.1. Nela est detalhado o critrio de classificao da adequao alimentar que ser
utilizado na continuao do exemplo. (Uma vez lido o prximo captulo, o leitor estar em
condies, sem dificuldade, de resolver como foram obtidas estas cifras.)

Tabela 6.1. Critrio de adequao


alimentar em funo das gramas de
protenas consumidas, segundo o grupo
de idade.

Adequao
Idade*
alimentar
correta+

[12,24) 22,1

[24,36) 27,6

[36,48) 27,9

[48,60) 30,4
* Expressa em meses.
+ Total de protenas (animais + vegetais)

Seria lgico pensar que, medida que a idade da criana aumenta, a quantidade diria de
protenas necessrias para ela ser classificada no estado nutricional adequado tambm
aumentaria.

Agora que conheo o critrio a ser aplicado para considerar uma criana bem
ou malnutrida, devo somente construir a varivel que o calcule para cada uma.
Necessito do total de protenas... e no arquivo constam os animais e vegetais
separadamente. Existe alguma forma do programa para som-las diretamente?

Para se criar uma varivel, existe uma nica instruo, com a qual, devido sua grande
flexibilidade, pode-se efetu-la, utilizando operaes especficas entre variveis j existentes
no arquivo ou modificar uma varivel do arquivo por meio de operaes matemticas definidas.

SINTAXE
A instruo geral :

COMPUTE nome da varivel = expresso.

Na qual a expresso que cria a nova varivel deve ser especificada.

Expresso:

Pode indicar qualquer operao que envolva constantes ou variveis do arquivo, mediante as
operaes descritas na Tabela 6.2. Alm destas operaes, existe uma srie de funes
predeterminadas disponvel aos usurios. Algumas destas funes, que a experincia nos
indica que so as mais utilizadas, so descritas a seguir.

T b l 62 O
OPERAES DESCRIO
Aritmticas
+ Soma
- Subtrao
* Multiplicao
/ Diviso
** Exponencial
Relacionais
EQ (Equal) = Igual
NE (Non Equal) <> ou ~= Diferente
LT (Less Than) < Menor que
LE (Less than or Equal <= Menor ou igual que
GT (Greater Than) > Maior que
GE (Greater than or >= Maior ou igual que
Lgicos
AND & As duas condies so certas
OR Alguma condio certa
NOT ~ Condio falsa ou excludente

Alm das operaes desta tabela, existe uma grande diversidade de funes programadas
para realizar as transformaes mais usuais.
Em princpio, existem, entre outras funes de natureza aritmtica para a criao ou
transformao de variveis numricas, funes para a manipulao de variveis string ou
alfanumricas, de variveis data ou de clculo de propriedades estatsticas simples.

Na tabela 6.3 so apresentados exemplos das funes de uso mais freqente.


Tabela 6.3. Algumas funes utilizadas habitualmente.
Funo Resultado Descrio Exemplos
Determina o valor absoluto de numexpr (expresso
ABS(numexpr) Numrico V= - 3 ; ABS(V)=3
numrica), o qual deve ser um valor numrico.
Valor da exponencial de numexpr. Ateno: se numexpr
EXP(numexpr)
Numrico muito grande, os resultados podem exceder a capacidade V= 1; EXP(V)=2,7183
mxima da memria.
LN(numexpr) Numrico
Calcula o logaritmo na base e da expresso numrica
V= 2,7183; LN(V)=1
numexpr.
LG10(numexpr) Numrico Calcula o logaritmo na base 10 da numexpr. V= 10; LG10(V)=1
SQRT(numexpr) Numrico Funo que determina a raiz quadrada positiva do nmero. V= 9; SQRT(V)=3
TRUNC(numexpr) Numrico Devolve a parte inteira do valor de numexpr. V= 7,86; TRUNC(V)=7
Devolve o valor da varivel do caso que est situado ncasos V LAG(V) LAG(V,2)
antes no arquivo. Ateno: Para os n primeiros casos do 6 , ,
LAG(variable,ncasos) Numrico ou
arquivo, o resultado missing de sistema (se V varivel 8 6 ,
alfanumrico.
numrica) ou espaos em branco (se V varivel 3 8 6
alfanumrica). Como padro ncasos=1. 5 3 8
Gera uma cadeia alfanumrica, que a concatenao de V1 V2 CONCAT(V1,V2)
CONCAT(strexpr,strexpr[,...]) Alfanumrico
todos os argumentos strexpr (alfanumricos) indicados. a b ab
Cria um indicador inteiro, segundo a posio do caractere
V1 INDEX(V1,+) V1 INDEX(V1,+)
inicial na subcadeia procurada na cadeia alfanumrica
-+- 2 +-+ 1
INDEX(haystack,needle) Numrico analisada. S mostra a primeira apario, isto , se a
++- 1 +++ 1
subcadeia aparece outras vezes ignorada. Retorna 0, se a
--- 0 -++ 2
subcadeia no aparece na cadeia alfanumrica.
Suprime da strexpr os espaos em branco nos caracteres da V1 LTRIM(V1)
LTRIM(strexpr) Alfanumrico
esquerda. Devolve o resultado sem eles. -+- -+-
Suprime da strexpr os brancos no final da cadeia e devolve o
RTRIM(strexpr) Alfanumrico
resultado sem eles.
SUBSTR(strexpr,pos,lengt Cria uma varivel alfanumrica com os length caracteres que V1 SUBSTR(V1,4,3)
Alfanumrico
h) se encontram a partir da posio pos da strexpr. Abcdefgh def
Para cada uma das datas includas, calcula os dias V1=21-12-2000; V2=10-12-2000;
CTIME.DAYS(timevalue) Numrico
transcorridos desde 15 de outubro de 1582. Logo, efetua as CTIME.DAYS(V1-V2)=11
operaes indicadas e retorna nmero de dias resultantes. til
para registrar os dias entre duas datas.
Tabela 6.3. Algumas funes utilizadas habitualmente (Continuao).
Retorna data especificada dia, ms e ano, dados que devem
existir em trs variveis diferenciadas. Assim, coloca em uma
VD=18; VM=6; VA=1974;
DATE.DMY(day,month,year) Data nica varivel uma data que estava expressa em trs variveis
DATE.DMY(VD,VM,VA)=18-6-1974
distintas. Para visualizar corretamente a nova varivel, o
formato DATE deve ser anteriormente atribudo a ela.
Refaz a data correspondente ao ano e nmero do dia do ano
existente em duas variveis previamente definidas. Neste VD=27; VA=2002;
DATE.YRDAY(year,daynum) Data
caso, a nova varivel deve tambm ser previamente definida DATE.YRDAY(VA,VD)=27-01-2002
em formato DATE.
Calcula o nmero de dias desde 15 de outubro de 1582 at a VD=16; VM=10; VA=1582;
YRMODA(year,month,day) Numrico
data representada pelos argumentos ano, ms e dia. YRMODA(VA,VM,VD)=2.
Reconta quantos missings de sistema e de usurios existem V1 V2 V3 NMISS(V1,V2,V3)
NMISS(variable[,...]) Numrico
entre as variveis descritas no argumento. 10 , 55 1
COMENTRIOS

1. Se o nome atribudo varivel j existe, os valores que possua antes sero substitudos pelo
resultado obtido ao aplicar a expresso.
2. Cada nova varivel ou cada nova modificao requer uma instruo COMPUTE
diferente.

Voltemos ao nosso estudo. Observe que, como j havamos notado anteriormente, nos arquivos de
dados no existe nenhuma varivel que responda diretamente medida do objetivo principal, isto
, o estado de desnutrio das crianas dessas duas populaes.

Esta varivel que indica se uma criana deve ou no ser considerada bem-nutrida deve ser
construda a partir das pautas ou critrios, sobre a base dos quais o analista poder definir a
expresso relacional do COMPUTE.

Segundo os critrios indicados na Tabela 6.1, devemos conhecer, em primeiro lugar, o total de
protenas consumidas por dia, independentemente de sua origem. O total de protenas : protenas
animais + protenas vegetais:

COMPUTE protot = protea+protev .


EXECUTE .

Visto que criamos uma nova varivel, devemos caracteriz-la. Por ser uma
varivel quantitativa (por padro), sem nenhum valor a etiquetar e nem missings
de usurios, s devemos especificar a etiqueta de varivel.

VAR LAB protot 'Total de protenas consumidas no dia anterior


entrevista'.

Uma vez calculadas as protenas totais, devemos realizar a classificao,


baseando-nos no grupo de idade, operao que ser explicada mais adiante.

No entanto, esta no a nica varivel que poderamos criar ou necessitar mais


adiante. Dentre os fatores ou variveis descritos na literatura que podem associar-
se a este tipo de problemas, est a varivel aglomerao, isto , nmero de
pessoas por dormitrio. Efetivamente esta uma varivel utilizada habitualmente,
j que permite conhecer a concentrao de pessoas em uma casa e que pode ser
um bom indicador socioeconmico dela. Vamos cri-la, j que no est coletada
diretamente nos arquivos.

COMPUTE dens_dom = totape/ncudor .


EXECUTE .
FOR DENS_DOM (F4.1) .
VAR LAB dens_dom 'N de pessoas por dormitrio (densidade
domiciliar)' .

JANELAS
As janelas que permitem a criao de novas variveis ou a sua modificao so abertas, depois de
se clicar na seqncia Transform Compute... da barra de ferramentas do Editor de dados.

Figura 6.1. Janela de criao de uma nova varivel.

Observe como abaixo da caixa, na qual deve ser colocado o nome da varivel
resultante, podem-se definir o formato e a etiqueta da varivel.

Por meio da opo If..., pode ser assinalado que a ao do COMPUTE seja
executada em um subgrupo especfico de casos que cumpram uma condio
indicada. No caso em que a expresso afeta todos os casos sem distino, nada
deve ser especificado.

Na caixa da direita podem ser visualizadas todas as funes disponveis, e,


apertando o boto direito do mouse, abre-se uma caixa com um resumo da ao
associada funo assinalada pelo cursor.

Entende-se facilmente que esta opo s tem sentido, se a instruo implica na


modificao de uma varivel j definida e no na criao de uma nova varivel.
Neste ltimo caso, seria atribudo a todos os valores que no cumprem a condio
o valor de missing de sistema.

Depois de clicar em OK para a expresso, observa-se que, na planilha Data View,


do SPSS Data Editor, foi includa uma nova coluna, com uma varivel de nome
protot, enquanto que a planilha correspondente Variable View indica que esta
nova varivel do tipo numrico, com 8 caracteres de largura e duas casas
decimais, isto , em formato F8.2.

RECODIFICAO DE VALORES
Uma das modificaes mais freqentes de variveis a recodificao de valores, com base em
uma lista de valores que podem ser pontuais ou por intervalo. Esta ao poderia ser feita a partir
da expresso COMPUTE, mas, dada a freqncia com que realizada, existe uma expresso
geral que facilita a ao.

SINTAXE

A instruo geral :

RECODE lista de variveis (lista valores originais = novo


valor)...(lista valores originais = novo valor) [(CONVERT)]
[INTO lista de variveis]
[/lista de variveis...].

Transforma os valores especificados na lista de valores de uma ou mais variveis, substituindo-os


pelos que especificam o novo valor.

[INTO lista de variables]

Se a transformao dos valores especificados realizada sobre a mesma varivel,


a informao original desaparece. Esta a situao padro se, ao executar a
instruo RECODE, nada mais for indicado. Por outro lado, se uma nova varivel
criada para guardar a nova informao recodificada, poderemos sempre acessar
a informao original sem perd-la. Esta segunda opo efetuada, por meio do
uso da subinstruo INTO. A varivel descrita nesta opo ser criada neste
instante e ser a destinatria das transformaes indicadas.

Como j vimos, a adequao da dieta protica deve ser analisada em funo da


idade das crianas estudadas, mais especificamente em funo de pertencerem a
um dos grupos etrios determinados. , ento, necessrio dispor da idade
categorizada em quatro grupos. De qualquer forma, ao ser a idade uma varivel
muito importante, seria desejvel tambm t-la registrada como idade em meses.
No existe, no entanto, nenhuma varivel que nos informe diretamente a idade da
criana, mas evidente que, por meio da data de nascimento e da data da
realizao da entrevista, pode-se perfeitamente calcular a idade exata que a
criana tinha ao ser examinada. Observe como isto pode ser feito:
* Calculamos a idade da criana em meses *.

COMPUTE idadmes = trunc(ctime.days(f_entr-f_nacim) / 30.41) .


EXECUTE .
VAR LAB idadmes 'Idade da criana(em meses)' .
FOR idadmes (F2.0).

Esta instruo pode parecer muito complexa, mas, na realidade, muito simples. Um exemplo:
imagine que uma criana nasceu no dia 1-7-1992 e foi examinada no dia 2-7-1994. Deve-se
analisar primeiro o que est dentro do parntesis:

1. A instruo ctime.days (ver Tabela 6.3) calcula o total de dias transcorridos entre a data da
entrevista e a de nascimento. Observe como, no exemplo, transcorreram 731 dias entre
ambas as datas.
2. Ento, dividimos esta cifra por 30,41 (365/12) para passar de dias a meses. Em nosso
exemplo 731/30,41=24,04.
3. Finalmente, por meio de TRUNC (ver Tabela 6.3), arredondamos a cifra ao nmero inteiro
abaixo, isto 24.
4. Observe como realmente a criana do exemplo, no momento do preenchimento do
questionrio, tinha 24 meses.

* Criamos uma nova varivel que agrupe as crianas nos quatro


grupos*.
* de idade desejados*.

RECODE idadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru
59=4)
INTO idad4 .
EXECUTE .

VAR LEV idad4 (ORDINAL) .


VAR LAB idad4 'Idade da criana em grupos'.
VAL LAB idad4 1 '[12-24)' 2 '[24-36)' 3 '[36-48)' 4 '[48-
60)' .
FORMATS idad4 (f1) .

Voc pode ter observado que existe uma maneira muito mais simples de construir a varivel idade
nos quatro grupos desejados:

COMPUTE idadmes = trunc(ctime.days(f_entr-f_nacim) / 365) .


EXECUTE .

Mas, devido ao fato de estarmos tratando de indivduos com idade muito baixa, considerou-se
interessante tambm ter a idade expressa em meses, para realizar, no momento da descrio dos
dados registrados, uma descrio mais detalhada e ajustada.
Observe, tambm, as variveis que se referem ao material em que o piso e as paredes do lar esto
construdos. Ambas apresentam muitas categorias e muitas delas com poucas observaes. Isto
dificultar, evidentemente, sua descrio conjunta com outra varivel, visto que criar situaes
observacionais sem nenhum caso. Talvez voc pense na possibilidade de agrupar categorias em
funo de determinadas caractersticas. Pois bem, uma destas possveis agrupaes seria
considerar ambas variveis com somente duas categorias: 1 terra, 2 com cobertura. Propomos
que voc crie duas novas variveis que categorizem desta forma. Os valores que corresponderiam
categoria terra seriam o 1, 4 e de 11 a 14. Os demais corresponderiam categoria com
cobertura.

RECODE
piso paredes (1=1) (4=1) (11 thru 14=1) (ELSE=2)
INTO piso2 paredes2 .
EXECUTE .
FOR piso2 paredes2 (F1.0) .
VAR LAB piso2 'Material do piso'
/ paredes2 'Material das paredes' .
VAL LAB piso2 paredes2 1 'terra' 2 'com cobertura' .

[(CONVERT)]

Com freqncia, ao recodificar em outra varivel, a partir da subinstruo INTO, so feitas


modificaes do tipo de formato com respeito varivel original. Estas modificaes devem ser
levadas em conta, j que devem ser especificadas em funo do tipo de transformao que forem
efetuadas. Podem ser consideradas as seguintes situaes:

1. Varivel original alfanumrica e varivel destino (INTO) numrica:

1.1. Se desejamos transformar os valores de uma varivel alfanumrica, os


quais so um texto qualquer, em valores numricos, devemos somente
indicar as correspondncias desejadas, lembrando que os valores
alfanumricos devem ser indicados entre aspas.

1.2. Se os valores da varivel original so a representao alfanumrica dos


valores a serem tratados como numricos (isto , os valores originais
so nmeros mas em formato alfanumrico), deve-se especificar
CONVERT. Esta instruo indica que aqueles valores alfanumricos
que so nmero se transformem na sua representao numrica, sem
a necessidade de escrever a correspondncia, fazendo explcitos,
exclusivamente, aqueles valores originais que no tenham uma
representao numrica definida. Por exemplo, a varivel carne est
em formato alfanumrico. A maioria de seus valores so nmeros
expressos como caracteres, so: 1, 2, 3, 4, 5, 6, NS e NC. A
transformao de carne em outra varivel de natureza numrica
poderia ser feita por meio de:
RECODE carne (CONVERT) ('NS'=7) ('NC'=8) INTO
fr_carne .
EXECUTE .
VAR LEV fr_carne (NOMINAL) .
VAR LAB fr_carne 'Freqncia de ingesto de carne' .
VAL LAB fr_carne 1 '1 vez no mnimo / 3 dias' 2 '1
ou 2 vezes/ semana' 3 '1 vez / 15 dias' 4 '1 vez /
ms' 5 'Menos de 1 vez/ ms'
6 'Quase nunca ou nunca' 7 'NS' 8 'NC'.

Observe como os valores de 1 a 6 no so especificados na instruo,


dado que, ao utilizar CONVERT, transformam-se diretamente em
numricos. Isto , de um formato tipo A a um formato tipo F.

2. Varivel original numrica e varivel destino (INTO) alfanumrica:


Neste caso, temos que criar a varivel alfanumrica antes da execuo da instruo
RECODE, por meio de:

STRING nome da varivel (An).


Se esta instruo no for executada previamente, ao executar RECODE-INTO, aparecer
uma mensagem de erro, j que a criao da nova varivel implcita nesta instruo
gerada, por padro, em formato F ou numrico.

(lista de valores originais = novo valor)

No momento de se especificarem os valores a serem agrupados ou recodificados,


podem ser utilizadas funes de relao lgica:

LO[WEST]: Transforma o intervalo que vai do valor mnimo da varivel at


o valor indicado em um novo valor.

THRU: Neste caso, corresponde a um intervalo especificado por dois


valores concretos ligados pela expresso ou operador THRU. Isto , desde
o primeiro valor includo at o segundo indicado depois do operador.

HI[GHEST]: Transforma o intervalo que vai de um valor concreto at o valor


mximo da varivel.

MIS[SING]: Os valores originais so os valores que o usurio definiu como


missings.
SYS[MIS]: Os valores originais a serem transformados so os missings de
sistema.

ELSE: Transformar todos os valores da varivel original que no foram


especificados de forma explcita na instruo.

Quanto aos novos valores, alm da correspondncia especfica de um novo valor,


pode-se atribuir:

SYS[MIS]: Converte a operao efetuada com os valores originais em


missings de sistema.

COPY: Copiar os valores originais no definidos em operaes ou


transformaes anteriores. (Esta opo s tem sentido, se uma nova
varivel recodificada, j que, se a recodificao efetuada sobre a
varivel original, os valores originais no mencionados mantm seu valor
intacto.)
COMENTRIOS

1. Recodifique sobre a mesma varivel somente quanto estiver absolutamente


seguro de que no necessitar mais da informao original. (De qualquer
forma, recomendvel guardar sempre as bases de dados originais para
poder recuperar a informao a qualquer momento.)

2. Criando uma nova varivel, evitamos a possibilidade de perder informao


necessria, mas, pense que, quanto maior for um arquivo e quanto mais
variveis contenha, mais incmodo de trabalhar e manipular.

JANELAS

Para escolher se a recodificao dos valores originais feita sobre a mesma


varivel ou em uma nova, deve-se clicar em: Transform Recode, ao que
pode ser observada na seguinte figura:

Figura 6.2. Menu para a escolha do tipo de recodificao: na mesma varivel


ou em uma nova.
Se a escolha for recodificar os valores criando uma nova varivel, sero obtidas as
seguintes janelas:

Figura 6.3. Janelas da recodificao de valores em uma nova varivel.


Na primeira caixa devemos selecionar a varivel original que queremos recodificar
da lista de variveis da esquerda. Uma vez selecionada, temos que dar nome
varivel a ser criada e, se nos interessa, etiquet-la. Isto podemos fazer na parte
direita do quadro. Uma vez colocado o nome da nova varivel, clique Change.

Pela opo If..., pode ser selecionado um subgrupo especfico de casos, para os
quais sero realizadas as transformaes indicadas.

Para selecionar as transformaes dos valores originais pelos novos, clique em


Old and New Values... e aparecer a segunda caixa. Na parte esquerda, defina
os valores originais e, na parte direita, seus correspondentes novos valores.
Atente que, alm disso, neste caso, selecionamos Convert numeric strings to
numbers (CONVERT em sintaxe).

Pare um segundo e verifique o seguinte: Que mudanas observo na janela do


Data Editor depois de OK? Como definida a varivel recodificada na planilha
Variable View? Posso estar seguro de que as etiquetas correspondem s que
indiquei?
Se em vez de clicar na opo OK, tivesse selecionado Paste, a sintaxe gerada na
janela do Syntax Editor corresponde que voc escreveria diretamente?

TRANSFORMAO CONDICIONADA

Executa a transformao dos valores de uma varivel sempre que for cumprida a
condio lgica previamente indicada, isto , na parte esquerda da expresso que
tem como sintaxe:

SINTAXE

A transformao pode ser realizada sobre uma varivel destino j existente no


arquivo ativo ou pode ser criada uma nova. Na prtica, uma instruo
COMPUTE condicionada.

IF [(]condio lgica[)] varivel destino = expresso

[(]condio lgica[)]

Graas aos operadores relacionais e lgicos mostrados na tabela, possvel


construir mais de uma varivel a partir de relaes ou condies lgicas
combinadas.

A funo de atribuio da sintaxe da instruo IF idntica sintaxe de


COMPUTE. Portanto a varivel destino, mediante os operadores aritmticos, pode
ser funo de mais de uma varivel e constante, assim como tambm pode ser o
resultado do uso de funes como as mostradas na Tabela 6.3.

COMENTRIOS
1. Como sempre, a atribuio realizada efetuada sobre uma nova varivel, e
esta deve ser alfanumrica; h necessidade de que seja criada previamente
pela expresso STRING.

2. Podem ser relacionadas diversas funes IF para realizar transformaes,


segundo diversas condies. Desta maneira, pode-se efetuar um RECODE, j
explicado, encadeamentos de DO IF, que so explicados no pargrafo
seguinte de instrues.

Por exemplo, a varivel IDAD4, criada, anteriormente, mediante um RECODE, tambm poderia ter
sido construda por meio de quatro instrues IF:

IF (idadmes>=12 AND idadmes <24) idad4 = 1 .


IF (idadmes>=24 AND idadmes <36) idad4 = 2 .
IF (idadmes>=36 AND idadmes <48) idad4 = 3 .
IF (idadmes>=48 AND idadmes <60) idad4 = 4 .
EXECUTE .

JANELAS

Como havamos mencionado, um IF no mais que um COMPUTE executado,


quando uma condio lgica indicada previamente cumprida. Logo, a ao por
janelas ser efetuada clicando:

Transform Compute... If...

Tal como mostrado na figura 6.1.

Figura 6.4. Janelas correspondentes instruo IF.


ENCADEAMENTO DE TRANSFORMAES CONDICIONADAS

Executa transformaes nos valores de uma varivel, distinguindo, no entanto,


subconjuntos de casos baseados no cumprimento de uma ou mais condies
lgicas. Isto , no mais que o encadeamento de uma srie de instrues IF
sobre uma mesma varivel, nas quais, fundamentalmente, variam as expresses
lgicas.

SINTAXE

DO IF [(]condies lgicas[)]
transformaes
[ELSE IF [(]condio lgica[)]]
transformaes
[ELSE IF] [(]condio lgica[)]

[ELSE]
transformaes.
END IF.
A expresso das condies lgicas indicadas segue as mesmas normas
explicadas em IF.

Transformaes

Por transformaes, entende-se qualquer instruo do tipo COMPUTE, RECODE


ou COUNT (ver instruo seguinte) e podem ser combinadas entre si em um
mesmo DO IF END IF.
[ELSE IF]:

Especifica uma condio concreta que ser avaliada somente no caso em que as condies
explcitas do DO IF ou dos ELSE IF anteriores no se cumpram, se estes existissem. O programa
executar a transformao ou operao que consta na transformao correspondente somente no
caso em que seja certa esta condio avaliada.

[ELSE]:

Mostra que ser realizada a transformao indicada a seguir, se nenhuma das


condies lgicas especificadas anteriormente, no DO IF ou nos ELSE IF, for
cumprida. Seria equivalente dizer que, em qualquer outro caso no especificado
nos condicionantes anteriores, seja executada a instruo que este indica a
seguir. Se for especificado, ser sempre a ltima condio de um DO IF END IF.

END IF:

sempre uma instruo obrigatria para finalizar o encadeamento de


transformaes condicionadas.

COMENTRIOS
Podemos considerar situaes nas quais o encadeamento DO IF END IF no inclua situaes
ELSE IF, mas sim indique uma subinstruo ELSE. Por outro lado, se so especificados um ou
mais ELSE IF, pode no constar a expresso ELSE final. O que no tem sentido um DO IF
END IF sem nenhuma das possibilidades especificadas, j que, neste caso, seria uma instruo IF
simples. Por ltimo, insiste-se em que, se esto presentes as duas opes, ELSE IF e ELSE, esta
ltima obrigatoriamente a ltima de todas as expresses de condio.

Voltando ao estudo que nos permite ilustrar estas instrues, o momento de criar uma varivel
que reflita a adequao alimentar, segundo as protenas consumidas e a idade, seguindo os
critrios da tabela 6.1.
Chamaremos esta nova varivel indicadora do estado nutricional de NUT, e a
definiremos de maneira dicotmica, em funo de cumprir ou no os critrios
citados nesta tabela.

DO IF (idad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1)
INTO nut .
ELSE IF (idad4=2).
RECODE protot (Lowest thru 27.59=0) (27.6 thru Highest=1)
INTO nut .
ELSE IF (idad4=3).
RECODE protot (Lowest thru 27.89=0) (27.9 thru Highest=1)
INTO nut .
ELSE IF (idad4=4).
RECODE protot (Lowest thru 30.39=0) (30.4 thru Highest=1)
INTO nut .
END IF .
EXECUTE .

FOR nut (f1) .


VAR LEV nut (NOMINAL) .
VAR LAB nut 'Cumpre o padro de ingesto de protenas?' .
VAL LAB nut 0 'No' 1 'Sim' .

Observe como, neste caso, o ltimo ELSE IF poderia ter sido um ELSE. No entanto, preciso ter
cautela, j que no sempre assim. Se a varivel ou as variveis expressas na condio lgica
apresentam missings, com o uso de ELSE estes casos tomariam o ltimo novo valor especificado
na instruo. Por outro lado, com ELSE IF seguiriam sendo missing na nova varivel.

Da mesma forma, se a nova varivel tivesse sido pensada em formato alfanumrico, teria que ter
sido definida antes do anel DO IF END IF a expresso STRING NUT (A2) e definindo nas
expresses lgicas = No ou = Sim em vez dos valores numricos 0 ou 1.

JANELAS

No existe uma janela que represente estritamente a instruo DO IF END IF. De fato, uma
instruo deste tipo abarcaria operaes com as janelas COMPUTE, RECODE e COUNT, sempre
especificando subgrupos de casos por meio de If...

DETERMINAO DA FREQNCIA DE
APARIO DE UM DETERMINADO VALOR
EM UM GRUPO DE VARIVEIS.
Geralmente, deseja-se conhecer ou calcular o nmero de vezes que aparece um conjunto de
valores em diferentes variveis. Esta ao, que poderia ter sido efetuada por meio das instrues
indicadas anteriormente, pode ser executada com facilidade pela instruo COUNT.

Esta opo de grande utilidade no caso de entrevistas ou questionrios, nos quais um grande
nmero de variveis possui o mesmo tipo de resposta. Assim, poderamos saber, com facilidade,
em quantas perguntas dada a resposta SIM ou a resposta NO, ou se deixaram sem resposta.

Esta instruo gera uma nova varivel, cujos valores so , portanto, o resultado da contagem das
vezes em que um valor ou um conjunto de valores aparece em uma determinada lista de variveis.

SINTAXE

COUNT nome da varivel =lista de variveis(lista de valores) [/nome da varivel =...].


Como ocorre na maioria das instrues deste captulo, esta instruo gera uma nova varivel no
formato numrico. Neste caso, a varivel uma contagem, motivo pelo qual no tem sentido cri-la
com formato alfanumrico.

(lista de valores)
Deve-se indicar, de forma explcita, se o valor ou grupo de valores que sero observados esto ou
no presentes na lista de variveis. Se existe mais de um valor na lista de valores a serem
contados, estes so separados por uma vrgula ou espao em branco. Podem ser utilizadas como
definidoras de valores as expresses MISSING, SYSMIS, LO(WEST), HI(GHEST) e THRU.

Podem ser includas na contagem, tanto variveis numricas quanto


alfanumricas.
Imagine que o investigador do estudo acredita que as variveis que se referem s condies do lar
(sanit, luz, refr, tv com_coc, piso2, paredes2) so todas indicadoras do poder socioeconmico da
famlia. Alm disso, quer consider-las conjuntamente, pois no o mesmo uma famlia que
apresenta em cada uma destas variveis a pior caracterstica, e outra que s apresenta pior
caracterstica em algumas variveis. Seria, ento, interessante saber quantas caractersticas
desfavorveis por famlia. Logo, parece lgica a criao de um ndice que seria um indicador que
se aproximasse da condio socioeconmica da famlia estudada. Uma maneira de faz-lo seria
contar o nmero de caractersticas desfavorveis que cada casa apresenta nas variveis
mencionadas:

COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2
(1)
paredes2 (1) .
EXECUTE .

O resultado desta instruo ser a criao de uma nova varivel, cse, com um intervalo de valores
vlidos entre 0 e 7, no qual o 7 significa que esta famlia teve respostas consideradas como mais
desfavorveis em todas estas 7 variveis que avaliam a condio socioeconmica.

JANELAS

A ativao das janelas, Figura 6.5, obtida clicando na seqncia: Transform


Count ...
Figura 6.5. Determinao do nmero de aparies de um valor.

Ateno! Se a varivel cse construda pela utilizao das janelas


correspondentes instruo COUNT, ser observada a impossibilidade de definir
valores diferentes para cada varivel. Isto , no podemos definir que para sanit
os valores a contar so 2 e 3, enquanto que para com_coc 1. Todos os valores
especificados foram usados para todas as variveis. Este problema, como j
vimos, no existe, se a instruo criada pelo uso de sintaxes.

COMENTRIOS
1. O resultado de um COUNT sempre uma varivel que apresenta valores em um intervalo
compreendido entre 0, isto , na lista de variveis no aparece nenhuma vez o conjunto de
valores definido na lista de valores, e N, o nmero de variveis que constam na lista de
variveis. Neste ltimo caso, em todas as variveis definidas na lista de variveis apareceria
algum dos valores especificados.

2. A especificao de determinados valores para algumas variveis e outros valores diferentes


para outras variveis na instruo COUNT impossvel de ser realizada, quando se trabalha
diretamente com as janelas. Este problema no existe, quando se trabalha utilizando sintaxes.
Sintaxe do Captulo 6.
*************************************************************
********.
* CRIAO E TRANSFORMAO DE VARIVEIS
*.
*************************************************************
********.

GET FILE='C:\Spss\Chiapas\Nutricio.sav '.

* Criamos a varivel densidade domiciliar * .

COMPUTE dens_dom = totape/ncudor .


EXECUTE .
FOR DENS_DOM (F4.1) .
VAR LAB DENS_DOM 'N de pessoas por dormitrio (densidade
domiciliar)' .

* Convertemos a varivel carne em outra que seja realmente


numrica *.

RECODE carne
(CONVERT) ('NS'=7) ('NC'=8) INTO fr_carne .
EXECUTE .
VAR LEV fr_carne (NOMINAL) .
VAR LAB fr_carne 'Freqncia de ingesto de carne' .
VAL LAB fr_carne 1 '1 vez no mnimo / 3 dias' 2 '1 ou 2
vezes / semana' 3 '1 vez / 15 dias' 4 '1 vez / ms'
5 'Menos de 1 vez / ms' 6 'Quase nunca ou nunca' 7
'NS' 8 'NC' .
MIS VAL fr_carne (7,8) .

* Transformamos a idade em uma varivel com quatro categorias


*.

COMPUTE idadmes = trunc(ctime.days(f_entr-f_nacim) / 30.41) .


EXECUTE .

RECODE
idadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru
59=4) INTO idad4 .
EXECUTE .

VAR LEV idad4 (ORDINAL) .


VAR LAB idad4 'Idade da criana em grupos'.
VAL LAB idad4 1 '[12-24)' 2 '[24-36)' 3 '[36-48)' 4 '[48-
60)' .
FORMATS idad4 (f1) .

* de outra maneira, poderia ser como se segue *.

IF (idadmes>=12 AND idadmes <24) id4 = 1 .


IF (idadmes>=24 AND idadmes <36) id4 = 2 .
IF (idadmes>=36 AND idadmes <48) id4 = 3 .
IF (idadmes>=48 AND idadmes <60) id4 = 4 .
EXECUTE .

* Criao da varivel que determina o estado nutricional *.

COMPUTE protot = protea+protev .


EXECUTE .
VAR LAB protot 'Total de protenas consumidas no dia
anterior entrevista' .

DO IF (idad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1)
INTO nut .
ELSE IF (idad4=2).
RECODE protot (Lowest thru 27.59=0) (27.6 thru Highest=1)
INTO nut .
ELSE IF (idad4=3).
RECODE protot (Lowest thru 27.89=0) (27.9 thru Highest=1)
INTO nut .
ELSE IF (idad4=4).
RECODE protot (Lowest thru 30.39=0) (30.4 thru Highest=1)
INTO nut .
END IF .
EXECUTE .

FORMATS nut (f1) .


VAR LEV nut (NOMINAL) .
VAR LAB nut 'Cumpre o padro de ingesto protica?' .
VAL LAB nut 0 'No' 1 'Sim' .

* Agrupamos categorias das variveis PISO e PAREDES *.


RECODE
piso paredes (1=1) (4=1) (11 thru 14=1) (ELSE=2)
INTO piso2 paredes2 .
EXECUTE .
FOR piso2 paredes2 (F1.0) .
VAR LAB piso2 'Material do piso'
/ paredes2 'Material das paredes' .
VAL LAB piso2 paredes2 1 'terra' 2 'com cobertura' .

* Construo do ndice socioeconmico da famlia *.

COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2
(1)
paredes2 (1) .
EXECUTE .
FOR cse (F1.0) .
VAR LAB cse 'Classificao socioeconmica'

SAVE OUTFILE='C:\Spss\Chiapas\Nutricio.sav ' / COMPRESSED.


Captulo 7.

CONTROLE DE QUALIDADE E
DESCRIO DOS DADOS.
INTRODUO

Ao longo dos captulos anteriores, foi mostrada a utilizao de um conjunto de recursos disponveis
no SPSS, com a finalidade de preparar a matriz de dados mais adequada anlise que o
investigador pretende fazer.

Todas as aes descritas, importao de arquivos, definio das variveis, sua modificao e
criao, assim como a manipulao de arquivos, so opes que esto presentes na maioria dos
pacotes estatsticos do mercado. Evidentemente que a sintaxe diferente, j que cada um deles
est programado em uma linguagem distinta. No entanto, os conceitos bsicos que regem estas
aes so praticamente os mesmos.

Neste captulo, vamos supor que o leitor manipule, com certa facilidade, tanto a execuo da
sintaxe explcita na janela do Syntax Editor, como o trabalho por seleo de opes nos menus
desdobrveis (janelas). Tambm no acreditamos que seja necessrio insistir ainda mais na
necessidade de ir guardando a sintaxe utilizada, medida que gerada por um ou outro sistema.

De acordo com essas suposies, pretendemos introduzir tanto as instrues bsicas de anlise
descritiva, como tambm um estilo de trabalhar um arquivo de dados, visto que sua estrutura
esteja completamente definida.

Isto , uma vez superado o processo de definio, criao e modificao de variveis e depois de
haver manipulado todos os arquivos de dados disponveis (adio dos casos de NIN_JAL.DBF ao
primeiro arquivo, NIN_VILL.DAT, e unir as variveis presentes no arquivo resultante com as
provenientes de ANTROP.XLS, CASA.DBF e JEFE.XLS), o leitor poderia pensar que o momento
de comear a descrever a informao que temos armazenada no arquivo resultante,
NUTRICIO.SAV. No entanto, no assim, j que devemos estudar previamente se todos os dados
disponveis so, ao menos aparentemente, corretos. Devemos avaliar qual a qualidade da
informao coletada no estudo, por alguma tcnica descritiva que permita o controle dela.

Controle de qualidade dos dados registrados

A primeira ao que o analista deve realizar, uma vez definida por completo a
matriz ou base, o controle de qualidade dos dados disponveis. Esquecida, s
vezes, esta fase deve ser considerada indispensvel para assegurar a qualidade
dos resultados obtidos, assim como para a mxima economia de tempo de
anlise. Neste ponto, as etapas do controle de qualidade so:

1) Definio de missings:

Em primeiro lugar, devemos observar que os valores das variveis numricas


que aparecem com o caractere da vrgula ou do ponto, no editor de dados,
efetivamente so missing de sistema e no zeros ou outro valor (s vezes, ao
se introduzirem os dados, por comodidade, deixa-se a varivel em branco, em
vez de colocar um 0).

Em seguida, examinaremos se existem variveis com uma quantidade


importante de falta de informao. bvio que a qualidade da informao
registrada depende da quantidade de missings observados. Mesmo que no
exista um critrio definitivo, alguns autores situam em 5% o nmero mximo
desejvel de casos sem informao.
Tambm devemos controlar se todos os valores missing de usurio esto
definidos, e se a definio foi feita de forma adequada.

2) Deteco de valores errneos:

Devemos nos assegurar de que no existem valores errneos no arquivo de


dados. Basicamente, quatro situaes devem ser controladas:

2.1) Valores impossveis: Valores que no tm sentido para a varivel


estudada. Por exemplo, uma idade do chefe da famlia igual a 953 anos,
valores negativos no peso ou altura da criana, etc.

2.2) Valores fora de intervalo: Os valores fora de intervalo so aqueles que


mesmo sendo possveis, em geral, no o so em nossa investigao. Isto se
deve a que, na varivel estudada, foi definido um intervalo de valores vlidos,
e, complementarmente, so definidos os valores no-vlidos.
Por exemplo, em nossa base devemos estar seguros de que no existem
valores inferiores a 12 meses e nem superiores a 59 na idade das crianas (j
que o intervalo de valores vlidos est, por definio do objetivo do estudo,
entre 12 e 59 meses).

2.3) No-cumprimento de zeros estruturais:

Como j foi comentado anteriormente, os zeros estruturais so aquelas


situaes geradas pelo cruzamento de duas variveis categricas, nas quais,
forosamente, existem caselas ou situaes, nas quais no possvel
observar nenhum caso. Por exemplo, se temos a varivel sexo e a varivel uso
de contraceptivos orais, o cruzamento de ambas gera situaes (clulas de
uma tabela bidimensional) como Homem/Sim toma contraceptivos orais,
nas quais a freqncia observada de casos deve ser sempre zero. Pois bem,
devemos examinar que, efetivamente, em situaes deste tipo, no
encontramos freqncias maiores que zero.

2.4) Variveis alfanumricas: As variveis registradas neste formato


merecem ser examinadas com ateno especial. Como j foi mencionado
anteriormente, na hora da definio de variveis e seus formatos, com
freqncia se abusa deste tipo de variveis para evitar aviso de erro na
entrada de dados. Esta suposta vantagem para o digitador fonte de mltiplos
erros no detectados na gerao do arquivo, motivo pelo qual a anlise destas
variveis deve ser realizada sempre de forma exaustiva.

3) Possvel recuperao de valores errneos:

Quando so detectados erros, outra fase do controle de qualidade consiste em


tentar solucion-los. Para isto, devemos identificar claramente o erro e o caso
ou registro no qual produzido. Esta informao dada aos responsveis pela
digitao dos dados e ao investigador responsvel pelo estudo. Comparando a
planilha de coleta manual de dados e a base informatizada, pode-se observar:

3.1) Que os erros so devidos digitao, isto , introduzir um nmero em vez


de outro na entrada informatizada. Ou um caractere alfanumrico por
outro. Se isto acontece, podemos substituir o valor da base de dados pelo
registrado na planilha de registro manual.

3.2) Que o erro j existia na informao anotada na planilha de coleta manual


de dados.
No caso de existir uma quantidade significativa desses erros, teramos
uma alternativa. Se considerssemos necessrio o conhecimento destes
dados, deveria ser realizada uma nova medio deles, se for vivel. Leve
em conta que, dentro das condies de viabilidade, este processo de re-
coleta de dados um incremento, de forma direta ou indireta, nos gastos
do estudo.

Em uma segunda situao, na qual se considera que solucionar o erro no


relevante ou no vivel, simplesmente converte-se o valor errneo em
missing de sistema.

Em todo caso, vale a pena citar que, nesta fase, deve-se produzir a
interao entre o analista e o investigador. O primeiro no pode modificar
valores que so, ou acredita ser, errneos, sem consultar o segundo. Para
o segundo, este processo deve mostrar-lhe a importncia do desenho
prvio de uma planilha de coleta da informao, assim como o de uma
base de dados com as condies necessrias para reduzir, ao mnimo, a
possibilidade de erros. Definitivamente, o lgico que a colaborao entre
analista e investigador no se inicie neste ponto, e sim no momento em
que se desenha o estudo.

4) Contato inicial com os dados:

O controle de qualidade tambm deve servir para que o analista comece a


conhecer os dados com os quais vai trabalhar. nesta fase que iniciada a
explorao mais geral dos dados, sem entrar com excessivo detalhe na
descrio deles.
Poder observar como o nvel de explicao das instrues utilizadas para o
controle de qualidade, mesmo que suficiente, mnimo. Isto se deve a que as
mesmas instrues sero explicadas mais detalhadamente nos diferentes
pargrafos da descrio de variveis.

SINTAXE

Uma vez aberto o arquivo de interesse, para se localizarem os valores


impossveis, existe a escala prtica dos procedimentos. A escolha de qual utilizar
depende se a natureza da varivel contnua ou categrica, tanto nominal como
quantitativa discreta.

Se contnua, utilize DESCRIPTIVES:

DESCRIPTIVES protea protev protot tall_cms peso_kg


/STATISTICS=MIN MAX .

Neste caso, a instruo descreve as cinco variveis contnuas presentes no arquivo, e a


informao fornecida o valor mximo e mnimo de cada varivel. Ativa-se o menu da janela:
Analyse Descriptive Statistics Descriptives..., e o leitor observar que esta instruo
permite a realizao da anlise descritiva completa de uma varivel contnua.

No caso de variveis categricas ou quantitativas discretas com poucos valores, a instruo


adequada a que se relaciona com a anlise de freqncia das categorias.

FREQ sexo idadmes ed_madre mescola mocupa municipi totape tip_loc


ncudor sanit luz refr tv paredes piso com_coc segsoc sex_jefe
ed jefe jescola jocupa fr carne idad4 nut piso2 paredes2 cse .

Tambm, neste caso, pelo menu ativa-se a janela Analyse Descriptive Statistics
Frequencies, o leitor poder perceber a grande variedade de estatsticas amostrais para variveis
quantitativas discretas, assim como os grficos disponveis.

Outra questo a ser levada em conta, quando se trabalha com variveis do tipo data, que se
existem duas ou mais que determinam perodos entre elas, que isto se cumpra. Por exemplo, em
nosso caso, a data de nascimento sempre tem que ser, obviamente, anterior data da entrevista.
Para examinar esta questo, podemos utilizar a seguinte instruo:

COMPUTE dif = ctime.days(f_entr-f_nasc) .


EXECUTE .
FREQ dif .

Agora, por meio de FREQ, deveramos nos assegurar que no existe nenhum
caso com valor negativo ou zero, j que, se isto acontecesse, significaria que uma
das duas datas (ou ambas) estaria incorreta. Observe, no entanto, que, em nosso
estudo, essas datas nos serviro para criar a varivel idade, e portanto, ao
descrever esta, j no faria falta criar a varivel dif. No entanto, pensamos que
importante realar esta possibilidade, visto que, em muitos outros estudos, pode-
se deparar com casos como o descrito: imagine, por exemplo, que se analisa o
tempo transcorrido entre a data de uma determinada leso e o xito, ou tempo
entre a hospitalizao e a alta de um paciente.

RESULTADOS

Na lista de resultados obtidos, isto , na janela SPSS Viewer ou na janela Draft


Viewer document (dependendo em qual delas se est trabalhando), observamos
os seguintes erros:

1. Na varivel sexo, registram-se nove categorias diferentes, Tabela 7.1, mesmo


que teoricamente deveria possuir somente duas. Observe como o branco
considerado como uma categoria vlida, trs das categorias so claramente
devidas a erros de digitao, e as outras so a distinta considerao que um
caractere alfabtico possui, em funo de estar escrito em maisculas ou
minsculas.
Em geral, estas situaes acontecem, porque o responsvel pela digitao
dos dados, com a finalidade de ganhar tempo, define a varivel como
alfanumrica ou string. Desta maneira, qualquer valor possvel. Em outras
palavras, escreva o que escrever no campo correspondente varivel sexo,
ser aceito pelo programa. Este comentrio no vem em detrimento do uso de
variveis alfanumricas, mas h necessidade de se porem filtros e controles
na entrada de dados, principalmente neste tipo de variveis.

Tabela 7.1. Descrio da varivel sexo.


2. Na varivel idade da me existe um valor igual a 95, e ele, levando em conta
que o estudo o estado nutricional de crianas, impossvel. Alm disto,
devemos notar a alta porcentagem de missings na varivel idade da me:
9,7% dos valores so desconhecidos.

3. Existe um caso cujo valor na ocupao da me 4, o qual impossvel, j


que um valor que no corresponde a nenhuma das categorias previstas na
codificao original.

4. Observe a informao referente idade do chefe da famlia. O mais velho tem


510 anos!

Ao identificar um erro, pense que em nenhum caso deve-se interpretar ou


adivinhar seu verdadeiro valor para corrigi-lo. O que deve ser feito remeter o
caso ao investigador principal ou responsvel pela informao do estudo. Este
comprovar nas planilhas de coleta de dados originais o valor verdadeiro, e, se o
erro foi somente de digitao, comunicar para poder corrigi-lo. Do contrrio, ter
que declarar este valor errneo como valor desconhecido ou missing.

No nos cansaremos de dizer que, tambm nestes casos, os erros no teriam sido
cometidos, se os filtros tivessem sido definidos no programa de entrada de dados.

Como j havamos indicado anteriormente, chegando neste ponto, devemos


recuperar o nmero do questionrio dos casos com erros ou carncia de
informao, para pass-lo aos responsveis pela coleta de dados. Desta forma,
veremos se a informao errnea ou perdida pode ser recuperada. Fazemos isto
seguindo as seguintes instrues:

COMPUTE filtro=(sexo=' ') .


FILTER BY filtro .
EXECUTE .
FREQ ncuest .

Tabela 7.2 Identificao do caso em que o valor sexo est em branco.


Nmero de identificao da casa

Cumulative
Frequency Percent Valid Percent Percent
Valid 426 1 100,0 100,0 100,0

COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest.
Tabela 7.3. Identificao do caso em que o valor da idade da me est fora
do intervalo.
Nmero de identificao da casa

Cumulative
Frequency Percent Valid Percent Percent
Valid 397 1 100,0 100,0 100,0

COMPUTE filtro=(mocupa=4).
FILTER BY filtro .
EXECUTE .
FREQ ncuest .

Tabela 7.4. Identificao do caso em que o valor da ocupao da me


errneo.
Nmero de identificao da casa

Cumulative
Frequency Percent Valid Percent Percent
Valid 305 1 100,0 100,0 100,0

COMPUTE filtro=(ed_jefe=510).
FILTER BY filtro .
EXECUTE .
FREQ ncuest .

Tabela 7.5. Identificao do caso em que o valor da idade do chefe da famlia errneo.
Nmero de identificao da casa

Cumulative
Frequency Percent Valid Percent Percent
Valid 382 1 100,0 100,0 100,0

Nas tabelas, so mostrados os resultados de cada ao, correspondentes aos


resultados gerados em cada uma das aes indicadas. Assim, os erros foram
localizados nos questionrios de nmero 305 (valor 4 para ocupao da me), 382
(idade do chefe da famlia, 510 anos), 397 (idade da me igual a 95) e 426 (sexo
em branco).

Depois de consultar os responsveis pela coleta de dados e o investigador do


estudo, o nico erro possvel de ser recuperado foi o caso 426, no qual o sexo
estava em branco. Foi-nos informado que esta criana, realmente, era um
indivduo de sexo masculino.

A correo dos erros detectados feita por meio das seguintes instrues:

RECODE
ed_madre (95=SYSMIS) .
EXECUTE .

RECODE
mocupa (4=SYSMIS) .
EXECUTE .

RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .

COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .
RECODE
sexo (" "="MASCULINO") ("FEMENU9"="FEMENINO")
("FEMENINP"="FEMENINO") ("MASCLINO"="MASCULINO") .
EXECUTE .

Talvez a instruo para que a varivel sexo apresente exclusivamente duas


categorias necessite de uma ligeira explicao: observe como duas instrues so
utilizadas (um COMPUTE e um RECODE). Pela primeira, obtemos uma varivel
na qual cada um de seus valores alinham-se esquerda (LTRIM), e cujos valores
esto expressos em maisculas (UPCAS). Pelo RECODE, corrigimos os erros de
digitao e o valor em branco que sabemos que realmente MASCULINO.
Observe como, por exemplo, no se especifica Masculino, dado que este valor
se transformou todo em maisculas, ao utilizar UPCAS.
Finalmente, transformamos a varivel sexo em um formato numrico, dando um
valor de etiqueta a cada um dos valores resultantes.

RECODE sexo
("MASCULINO"=1) ("FEMENINO"=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 'Masculino' 2 'Feminino' .

A execuo da instruo seguinte nos mostra a distribuio de freqncias das


variveis, nas quais foram localizados erros, de maneira que observemos as
correes realizadas:

FREQ sex ed_madre mocupa ed_jefe .


Evidentemente esses passos de controle realizados, mesmo permitindo a
deteco de alguns erros e incongruncias, no podem detectar outros tipos de
erros, nos quais os valores errneos se encontram dentro do intervalo definido ou
previsto. Isto , este processo seria o ltimo passo de controle de qualidade,
sendo os mais importantes os que devem ser efetuados nas fases prvias:
medio, codificao dos dados e sua digitao.

Finalmente, j temos o arquivo de dados preparado para realizar a sua descrio.


Salvemos ento o arquivo no diretrio de trabalho. A este novo arquivo
chamaremos NUT_FIN.SAV.

SAVE OUTFILE='C:\Spss\Chiapas\Nut_fin.sav ' /COMPRESSED


/DROP= f_entr f_nacim totape ncudor carne sexo .

Observe como no arquivo NUT_FIN.SAV no esto todas as variveis. Isto


porque algumas delas foram recodificadas ou usadas para criar outras variveis
novas, e, especificamente, estas j no nos interessam para realizar a descrio.

DESCRIO DE VARIVEIS
Como uma varivel descrita?

A descrio estatstica tem como funo principal explicar os dados observados sem ter que
especific-los um a um. Trata-se, ento, de obter valores que representem um resumo adequado
de todos os que foram observados na varivel estudada. A cada um destes valores dado o nome
de estatstica.

Possivelmente, inconscientes disto, todos ns, em algum momento, utilizamos alguma estatstica
para resolver questes cotidianas. Por exemplo, o produto interno bruto de um pas, a taxa de
alfabetizao de uma populao, a esperana de vida ao nascer ou a renda per capita dos
cidados de uma comunidade.

De forma geral, podemos dizer que a maneira de descrever uma varivel est relacionada com sua
natureza. Isto , para cada tipo de varivel existem estatsticas que permitem descrev-la melhor
que outras, e, por outro lado, estatsticas que no tm sentido para a varivel estudada.

Assim, se a varivel estudada categrica, ser descrita pela sua distribuio de freqncias, e,
em algumas ocasies, poderemos proporcionar alguma estatstica para detalh-la melhor. Por
outro lado, se a varivel que estudamos quantitativa, a mera descrio de sua distribuio de
freqncias geralmente fornece pouca informao e, inclusive, s vezes, pode ser um fator de
confuso, se realizada de forma equivocada. prefervel sempre detalhar um ou vrios valores
que nos permitam descrever as propriedades da distribuio observada desta varivel.

De todas as formas destaca-se que a descrio de uma varivel deve ser realizada em funo dos
interesses da investigao, e, mesmo que o exposto anteriormente seja o mais habitual, podem
existir outros interesses concretos que determinem uma descrio diferente. A ttulo de exemplo,
coloquemos dois casos diferentes:
a) Em nosso estudo, coloca-se a hiptese de que a idade da me tem certo efeito na presena
de desnutrio no filho. No momento de examinar se existe uma associao entre a idade e a
incidncia desta doena, a comparao da mdia de idade das mes cujos filhos esto sos,
com a mdia de idade da me das crianas desnutridas pode nos orientar sobre a possvel
associao.

b) No caso em que se desejasse analisar a associao entre a desnutrio e a ocupao do


chefe de famlia, no teria sentido analisar a mdia da varivel ocupao; se a ao fosse
executada, teria um resultado, devido ao fato de a varivel estar codificada de forma
numrica. O que significaria a mdia da ocupao do chefe da famlia, por exemplo, 1,3?
Nada. O lgico seria comparar a distribuio das diferentes categorias de ocupao entre as
crianas desnutridas e bem-nutridas.

Assim, devemos considerar a natureza da varivel e como est expressa no arquivo para poder
planejar corretamente sua descrio.

Em uma primeira fase, podemos descrever as variveis categricas, incluindo, neste pargrafo,
tanto as de natureza qualitativa ou nominal, como as quantitativas discretas ou resultado de uma
contagem.
Em segundo lugar, descreveremos as variveis quantitativas que sejam contnuas.

Descrio de variveis categricas ou quantitativas


discretas: a distribuio de freqncias.
INTRODUO
As variveis categricas ou discretas com poucos valores observados so descritas,
fundamentalmente, pela sua distribuio de freqncias. Isto , calculam-se as freqncias
observadas, relativas (ou porcentagens) e acumuladas (ou porcentagem acumulada) para cada um
dos valores que esta varivel assume. Por exemplo, a tabela seguinte:

Tabela 7.6 Distribuio de freqncias de uma varivel nominal.


Material do piso

Cumulative
Frequency Percent Valid Percent Percent
Valid Ladrilho 7 1,5 1,5 1,5
Terra 187 39,6 39,6 41,1
Cimento 274 58,1 58,1 99,2
Mosaico 2 ,4 ,4 99,6
Gesso 1 ,2 ,2 99,8
Pedra 1 ,2 ,2 100,0
Total 472 100,0 100,0

Fornece informao sobre o tipo de material em que est construdo o piso ou solo da casa da
criana. Na primeira coluna, procure o valor Terra. A interpretao a seguinte:

A segunda coluna (Frequency) nos informa que em 187 casas o solo de terra.
Na terceira (Percent), que estas 187 casas representam 39,6% do total de casas
registradas no arquivo de dados (187/472).
A quarta (Valid Percent) apresenta a porcentagem em referncia, exclusivamente, aos
registros com valores vlidos (sem missings). J que, neste caso, no existem missings, as
porcentagens da terceira e quarta colunas so idnticas.
A quinta coluna (Cumulative Percent) indica que as casas com piso de terra e as casas
dos valores observados anteriormente (neste caso, piso de ladrilho) somam 41,1% do total
(1,5% + 39,6%).

Voc acha que a informao obtida pela coluna Cumulative Percent interessa, se as categorias
no indicam uma ordem de magnitude?

Observe agora os resultados da seguinte tabela:

Tabela 7.7. Distribuio de freqncias de uma varivel ordinal.

Freqncia de ingesto de carne

Cumulative
Frequency Percent Valid Percent Percent
Valid 1 vez no mnimo / 3 das 68 14,4 14,5 14,5
1 ou 2 vezes/ semana 207 43,9 44,0 58,5
1 vez / 15 dias 96 20,3 20,4 78,9
1 vez / ms 70 14,8 14,9 93,8
Menos de 1 vez/ ms 25 5,3 5,3 99,1
Quase nunca ou nunca 4 ,8 ,9 100,0
Total 470 99,6 100,0
Missing NS 1 ,2
NC 1 ,2
Total 2 ,4
Total 472 100,0

Estudemos, por exemplo, o valor 1 vez/15 dias. Um total de 96 crianas comem carne uma vez a
cada quinze dias, o que representa, sobre o total de crianas registradas, 20,3% (coluna 3). Por
outro lado, se nos referimos somente s crianas para as quais existe informao para esta
varivel, esta porcentagem representa 20,4% (coluna 4). Observe como a diferena entre as
porcentagens das colunas 3 e 4 muito pequena, devido a que s existem dois casos missing.
Estas porcentagens podem ser muito diferentes, se o nmero de valores no vlidos muito
elevado. Mesmo que a terceira coluna fornea informao, habitualmente a distribuio de
freqncias realizada sobre os valores vlidos, e, por isto, utiliza-se a quarta coluna.
Finalmente, a quinta coluna nos informa que 78,9% do total de crianas, com valor vlido para esta
varivel, comem carne 1 vez /15 dias ou 1 ou 2 vezes/semana ou 1 vez mnimo/3 dias. De
outra forma, 78,9% das crianas comem carne no mnimo uma vez a cada quinze dias.

E agora, a quinta coluna, Cumulative Percent, nos fornece informao de interesse?

evidente que, no exemplo do material do piso, a porcentagem acumulada no nos til,


enquanto que, no caso da ingesto de carne, . Ambas so variveis categricas. Ento, que
diferena existe entre as duas descries?
que a primeira uma varivel categrica nominal, e portanto no precisa de uma ordem lgica
para suas categorias. Logo, o acmulo de porcentagens arbitrrio, e, em conseqncia, a
porcentagem acumulada variar de acordo com a maneira em que foi ordenada.
No caso de uma varivel categrica ordinal, como a ingesto de carne, a porcentagem acumulada
interessante, porque permite conhecer valores importantes como os percentis. Por exemplo,
podemos determinar que a mediana desta varivel est situada na categoria 1 ou 2
vezes/semana, dado que este valor supere os 50%.

Observe que, ao existir uma ordem lgica, um valor concreto forosamente deve preceder outro
valor concreto (por exemplo 1 vez/15 dias sempre preceder 1 vez/ms) ou, se a ordenao foi
feita na ordem inversa, ento seria 1 vez/ms antes de 1 vez/15 dias, e portanto nunca
podemos colocar entre ambos outros valores (por exemplo, entre os dois valores citados no
podemos intercalar Quase nunca ou nunca, visto que quebraria a ordenao). A existncia de
uma ordenao lgica de magnitude implica que os percentis sempre tenham sentido, j que esta
estatstica, o percentil, define-se como o valor da varivel abaixo do qual existe uma porcentagem
determinada de casos.
Isto , mesmo que ordene a varivel freqncia de ingesto de carne de forma descendente, ao
contrrio do exemplo mostrado, observar como a mediana segue sendo a mesma categoria, isto
, 1 ou 2 vezes/semana e que os percentis ou valores que aparecem na quarta coluna seguem
tendo sentido.

A distribuio de freqncias

Em uma varivel de natureza categrica, independentemente de ser representada


de forma grfica ou no, preciso descrever a distribuio de freqncia de
apario de cada uma de suas categorias. Esta ao executada por meio da
instruo FREQUENCIES.

SINTAXE

Realiza a distribuio de freqncias para as variveis especificadas e fornece algumas


estatsticas. Esta instruo especialmente til, no apenas para descrever variveis categricas,
como tambm para descrio de variveis quantitativas discretas com poucos valores possveis.

FRE[QUENCIES] [VARIABLES=]lista de variveis


[/FORMAT= [{visualizao da tabela}] [{ordem}] ]
[/BARCHART=[MIN[IMUM](n)] [MAX[IMUM](n)] [{valor
representado}]]
[/PIECHART=[MIN[IMUM](n)] [MAX[IMUM](n)] [{valor
representado}]]
[/HISTOGRAM=[MIN[IMUM](n)] [MAX[IMUM](n)] [{valor representado}]]
[/NTILES=n]
[/PERCENTIS=lista]
[/STATISTICS=[estatsticas]]

As subinstrues cujo significado no apareceu at o momento so:

/FORMAT: Permite especificar como ser a visualizao da distribuio de


freqncias de resultados. Podem-se controlar os seguintes aspectos:

[{visualizao da tabela}]
- Se nada especificado, todos os valores aparecero com sua
correspondente distribuio de freqncias.
- NOTABLE: No aparecer a tabela de distribuio de freqncias no
arquivo de resultados, somente as estatsticas solicitadas.
- LIMIT(n): Aponta que as distribuies de freqncias com mais de n
categorias no sejam visualizadas, e somente sejam mostradas as
estatsticas que foram indicadas de forma explcita. Em geral, esta opo
utilizada quando a varivel quantitativa discreta e tem um intervalo de
valores muito amplo, motivo pelo qual a tabela poderia ocupar um grande
nmero de pginas e no ser interpretvel.

[{ordem}] ]

- AVALUE**: Visualiza a tabela de distribuio de freqncias, em


funo do valor da varivel e, de maneira ascendente, se esta
discreta, ou em ordem alfabtica crescente, se uma varivel definida
em formato string.

- DVALUE: Em funo do valor da varivel de maneira descendente.

- AFREQ: Em funo da freqncia observada do valor ou categoria mais freqente


at menos freqente.

- DFREQ: Em funo da freqncia observada do menor ao maior.

[/BARCHART= Produz um grfico de barras em um esquema mais simples que o descrito na


instruo GRAPH. muito til na descrio prvia e no rascunho de freqncias.

- [MIN[IMUM](n)]: Pela especificao de n, indica-se o menor valor


visualizado no eixo X.

- [MAX[IMUM](n)]: Indica o maior valor representado no eixo X.

{valor representado}:
- FREQ**: Cada barra representa a freqncia observada em um
determinado valor da varivel estudada.

- PERCENT: Cada barra representa a porcentagem observada.

[/PIECHART= Gera um grfico de setores, no qual as especificaes possuem o mesmo


significado que no caso da especificao anterior /BARCHART.

[/HISTOGRAM= Gera um diagrama de freqncias. Se adicionarmos depois de HISTOGRAM a


palavra NORMAL, ser desenhada a curva de Gauss (Normal), sobreposta ao grfico com mdia e
desvio padro igual ao que possui a amostra de valores desta varivel quantitativa discreta. O
significado de MIN[IMUM](n) MAX[IMUM](n) e {valor representado} o mesmo que nas
subinstrues anteriores.

[/PERCENTILES=lista] Indique os percentis desejados (do 0 ao 100), e sero


mostrados os valores correspondentes.

[/NTILES=n]: Indique um nmero n (de 1 a 100), e sero obtidos os valores que


dividem a distribuio de freqncias em n intervalos com porcentagem igual.

[/STATISTICS=[estatsticas]]: As estatsticas que podem ser calculadas so:


MEAN, STDDEV, MINIMUM, MAXIMUM, SEMEAN, VARIANCE, SKEWNESS, SESKEW, RANGE,
MODE, KURTOSIS, SEKURT, MEDIAN, SUM. Para saber o que cada uma, observe a Tabela
7.8.
DEFAULT: especificando esta opo, o resultado oferece as estatsticas MEAN, STDDEV, MIN e
MAX.

Tabela 7.8. Estatsticas e suas descries

Estatstica Descrio
COUNT Freqncia observada
FIRST Primeiro valor observado (depende, portanto, da
GEOMETRI o den o)
Mdia geomtrica
Mediana calculada pelo mtodo de agrupar os valores
GMEDIAN
observados em intervalos.
HARMONI Mdia harmnica
KURT Curtose
LAST ltimo valor observado (portanto depende da ordenao)
MAX Valor mximo observado
MAXIMUM Valor mximo observado
MEAN Mdia
MEDIAN Mediana
MIN Valor mnimo observado
MINIMUM Valor mnimo observado
MODE Moda
NPCT Porcentagem sobre o total de casos
NPCT(var) Idem, mas dentro de uma varivel de controle, se esta
RANGE Intervalo (Valor mximo observado Valor mnimo
SEKURT Erro padro da curtose
SEMEAN Erro padro da mdia
SESKEW Erro padro da assimetria
SKEW assimetria
SPCT Porcentagem sobre a soma de valores observados
SPCT(var) Idem, mas dentro de uma varivel de controle se esta
STDDEV Desvio padro
SUM Soma dos valores observados
VARIANCE Varincia

Pode ser especificada a opo ALL, com a qual seriam obtidas todas as estatsticas descritas
anteriormente, ou ento NONE, neste caso no seria calculada nenhuma.

COMENTRIOS
O uso de FREQUENCIES para examinar uma varivel quantitativa contnua s tem sentido quando
se pretende calcular um histograma simples ou o clculo de alguma estatstica. Pense que a
distribuio de freqncias, alm de no ter sentido, seria muito grande. Se se decidir utilizar a
instruo para uma varivel contnua, execute-a com a opo NOTABLE. Alm disto, existe a
possibilidade de analisar a varivel, agrupando-a por intervalos a partir da opo/GROUPED.

/GROUPED=(lista de variveis) Especifica que as variveis indicadas na lista so


quantitativas, mas foram agrupadas em intervalos por uma instruo RECODE feita anteriormente.
Com esta informao, o clculo de PERCENTILES e NTILES realizado por frmulas para dados
agrupados, isto , introduzindo correes que diminuem o efeito do agrupamento na determinao
destas estatsticas.

Esta instruo permite tambm efetuar o agrupamento no momento da anlise. Remetemos o leitor
ao manual de ajuda, j que, na prtica, mais simples recodificar anteriormente e efetuar a
descrio posteriormente.

Voltando ao nosso exemplo, realizaremos a descritiva univariada das variveis categricas e de


algumas quantitativas, por meio das instrues indicadas a seguir.

No caso de variveis categricas:

FREQ sex mocupa municipi sex_jefe jocupa tip_loc sanit luz


refr tv paredes piso com_coc fr_carne idad4 nut piso2
paredes2 .

Um exemplo do uso desta instruo em variveis quantitativas discretas seria:

FREQ ed_madre mescola ed_jefe jescola idadmes cse


/STATISTICS=MEAN MEDIAN SKEWNESS SESKEW KURTOSIS SEKURT .
No caso desta instruo, a utilizao dos menus desdobrveis por janelas muito simples de realizar.
JANELAS

O menu desdobrvel obtido ao efetuar a ao Analyze Descriptives


Statistics Frequencies, tal como mostrado nas janelas descritas na Figura
7.1.

Figura 7.1. Janelas do processo FREQUENCIES.

COMENTRIOS
1. FREQUENCIES permite descrever variveis de formato numrico e alfanumrico.

2. Em uma mesma instruo FREQUENCIES podem ser especificadas at 500 variveis.

RESULTADOS
Para cada uma das cinco variveis selecionadas nas janelas anteriores, no
arquivo de resultados aparecero dois quadros. Vejamos sua interpretao,
tomando como exemplo a idade da me.
Tabela 7.9. Exemplo de resultado da instruo Frequencies.
Statistics

Idade da me (em anos)


N Valid 425
Missing 47
Mean 28,88
Median 28,00
Skewness ,654
Std. Error of Skewness ,118
Kurtosis -,134
Std. Error of Kurtosis ,236

Idade da me (em anos)

Cumulative
Frequency Percent Valid Percent Percent
Valid 17 1 ,2 ,2 ,2
18 7 1,5 1,6 1,9
19 11 2,3 2,6 4,5
20 15 3,2 3,5 8,0
21 17 3,6 4,0 12,0
22 23 4,9 5,4 17,4
23 21 4,4 4,9 22,4
24 31 6,6 7,3 29,6
25 27 5,7 6,4 36,0
26 26 5,5 6,1 42,1
27 30 6,4 7,1 49,2
28 26 5,5 6,1 55,3
29 21 4,4 4,9 60,2
30 25 5,3 5,9 66,1
31 9 1,9 2,1 68,2
32 24 5,1 5,6 73,9
33 8 1,7 1,9 75,8
34 9 1,9 2,1 77,9
35 16 3,4 3,8 81,6
36 13 2,8 3,1 84,7
37 11 2,3 2,6 87,3
38 8 1,7 1,9 89,2
39 12 2,5 2,8 92,0
40 11 2,3 2,6 94,6
41 4 ,8 ,9 95,5
42 3 ,6 ,7 96,2
43 2 ,4 ,5 96,7
44 2 ,4 ,5 97,2
45 6 1,3 1,4 98,6
46 1 ,2 ,2 98,8
47 3 ,6 ,7 99,5
49 2 ,4 ,5 100,0
Total 425 90,0 100,0
Missing NS 3 ,6
System 44 9,3
Total 47 10,0
Total 472 100,0
O primeiro quadro apresenta as estatsticas que solicitamos e alguma outra que
aparece como padro, como a informao do nmero de casos vlidos e no-
vlidos, mdia, mediana, assimetria e curtose, com seus respectivos erros padro.

O segundo quadro representa a distribuio de freqncias da varivel. Na


primeira coluna, aparecem os valores da varivel, na segunda, a freqncia
observada para cada um deles, a terceira e quarta colunas apresentam
porcentagens. A diferena entre ambas que a terceira calcula a porcentagem
sobre o total de valores, enquanto que a quarta o faz sobre o total de valores
vlidos, sem levar em conta, portanto, os valores missing de sistema ou de
usurio.
A ltima coluna mostra a porcentagem acumulada (sobre os valores vlidos).

Para a varivel idade da me, destacaramos:


O total de casos com valores vlidos para esta varivel de 90%,enquanto que os
no-vlidos so divididos da seguinte maneira: 3 mulheres, que representam 0,6%
do total, responderam no saber qual era sua idade, e, em 44 casos, a idade ou
era um valor claramente errneo e se converteu em missing de sistema ou o dado
estava em branco na planilha de coleta de dados. Observa-se que a mdia e
mediana so similares 28,88 e 28 anos, respectivamente, sem ser observada uma
assimetria importante na distribuio. Uma de cada trs mes estudadas tinha 25
anos ou menos e quase 70% tinham menos que 32 anos.

Como descrever uma varivel categrica em funo de outra varivel


categrica: a tabela de contingncia

INTRODUO

Com freqncia, inclusive no nvel bsico descritivo que mostrado neste livro,
interessante estudar a distribuio de freqncias de uma varivel categrica, em
funo de outra da mesma natureza. O resultado uma tabela em que so
mostradas as distribuies da primeira varivel como categorias da segunda
varivel e vice-versa. Esta tabela recebe o nome de tabela de contingncia.

Em uma estrutura to simples como a de uma tabela de contingncia, se fornece


uma grande quantidade de informao que, em mltiplas ocasies, no
analisada em toda sua riqueza, ignorando que nela so mostradas ou esto
implcitas trs tipos de distribuies:
Distribuio Conjunta: Indica a freqncia de apario da interseo das
categorias das duas variveis que geram a tabela. Referida como porcentagem
com relao ao total de casos descritos na tabela, constitui um estimador
pontual da propriedade P(LC).

Em nosso exemplo, se estudssemos a tabela formada pelas variveis


categricas: Estado de desnutrio, como linha, e a idade das crianas
categorizada em quatro grupos de idade, como coluna, a anlise das
freqncias de cada clula, com referncia ao total de crianas estudadas, nos
forneceria uma estimativa da probabilidade de uma criana ser de um
determinado grupo de idade e estar ou no desnutrida.
Isto , a distribuio conjunta daria informao da P( Li Cj), sendo Li a
categoria i da varivel Linha da tabela e Cj a categoria j da varivel que define
as colunas.

Distribuies marginais: So duas e correspondem, separadamente,


distribuio de freqncias das categorias que compem a varivel linha e
das freqncias das categorias das variveis coluna.

Em outras palavras, descreve a informao de P(Li) e de P(Cj), a partir da


estimao pontual das porcentagens observadas.

Em nosso caso, no lado direito da tabela, observaramos a proporo ou


porcentagem de crianas desnutridas e no desnutridas, ou seja, o total das
linhas dividido pelo nmero de total de crianas descritas na tabela, enquanto
que, na base de cada coluna, observaramos os dados de proporo de
crianas que pertencem a cada grupo de idade.

A simples visualizao desta distribuio bivariada, assim como a distribuio


conjunta das duas variveis, permite analisar visualmente se possvel existir
uma associao ou no entre as categorias de ambas variveis. Assim, quanto
maior for a diferena entre P (LC) e P(L)*P(C), o que equivalente a
comparar a freqncia de uma determinada clula com a obtida a partir de
(freqncia total da linha da clula* freqncia total de sua coluna)/N casos
totais, maior ser a dependncia ou associao entre as duas variveis.

Distribuies condicionais ou parciais: So equivalentes s distribuies


descritas no pargrafo anterior, mas em lugar de referir-se ao total de
indivduos, fazem referncia aos totais de uma linha ou coluna concreta.

No exemplo de tabela que indicamos, teramos quatro distribuies de crianas


nutridas e desnutridas, cada uma correspondente a um dos quatro grupos de
idade considerados. Da mesma forma teramos duas distribuies de grupos
de idades diferentes: a primeira para as crianas desnutridas e a segunda para
as crianas no desnutridas.
Em outras palavras descrevem, em termos de proporo com referncia ao
total de uma linha ou ao total de uma coluna, os estimadores pontuais de P (Cj
Li) e de P (Li Cj).

A instruo geral que facilita esta anlise descritiva, CROSSTABS, permite


contrastar uma grande diversidade de hipteses nulas, no s a independncia ou
a falta de associao indicada anteriormente, sendo cada uma delas adequada
somente ao tipo de estudo e desenho que se est analisando em um determinado
caso.

Neste ponto, queremos alertar do perigo que representa obter, sem nenhum
critrio, todos os indicadores possveis que permitem esta ou outras instrues.
Somente devem ser calculadas ou obtidas aquelas estatsticas que correspondam
ao desenho do estudo que est sendo analisado, e que o analista conhea com
segurana.

SINTAXE

Proporciona a distribuio conjunta, produto do cruzamento de duas ou mais variveis categricas.


Alm disto, se assim especificado, mostra as distribuies condicionais e permite a realizao de
provas e medidas para confirmar a associao entre as variveis.

CRO[SSTABS] [TABLES=]lista de variveis BY lista de variveis


[BY...] [/lista de variveis...]
[/MISSING={casos missing}]
[/WRITE[={NONE**}]]
[/FORMAT={visualizao} {ordem}]
[/CELLS=[{valores}]]
[/STATISTICS=[CHISQ] [LAMBDA] [BTAU ] [GAMMA ] [ETA ]]
[PHI ] [UC ] [CTAU ] [D ] [CORR ]
[CC ] [RISK ] [KAPPA] [MCNEMAR] [CMH(1*)]
[ALL ] [NONE ]
[/METHOD={MC [CIN({99.0 })] [SAMPLES({10000})]}]
{value} {value}
{EXACT [TIMER({5 })] }
{value}
[/BARCHART]
[TABLES= Define o conjunto de variveis, lista de variveis, que se deseja descrever em
funo da varivel, ou lista de variveis, que consta depois de BY.
As variveis especificadas antes de BY sero as que definiro as linhas na tabela, enquanto que
as seguintes definiro as colunas.

Se so especificadas mais opes BY, as variveis que se encontram na lista a seguir implicam
subanlises, (nas Janelas so chamadas de Layer), isto , para cada uma das categorias destas
variveis, sero descritas as tabelas das relaes definidas pelo primeiro BY.

Exemplo:

CROSSTABS sex BY idad4 BY municipi .

Descreveria-nos a distribuio conjunta dos grupos de idade por sexo para cada um dos
municpios.

Resultado diferente seria obtido no caso de especificar sex BY municipi BY idad4, ao que
descreveria a distribuio de sexos por municpio para cada grupo de idade.

[/CELLS=[{valores}]]

Permite especificar o que deseja descrever nas clulas geradas pelo cruzamento das duas
variveis que definem a tabela. Pode indicar um ou mais valores que so mostrados a seguir:

- COUNT**: Freqncia observada em cada clula.

- ROW: Porcentagem com relao ao total de casos pertencentes linha


definida para esta categoria. a distribuio das categorias da varivel
coluna condicionada varivel linha. Tal como foi indicado na introduo
desta seo, os valores de ROW indicam os termos da distribuio P (Cj
Li).

- COLUMN: Porcentagem com relao ao total de casos pertencentes coluna


definida por esta categoria. a distribuio das categorias da varivel
linha condicionada varivel coluna. P (Li|Cj). (Igual ao caso anterior,
descreve as distribuies das categorias da varivel linha, os casos de uma
clula com relao ao total de casos observados e classificados na tabela.
Oferece, em porcentagem, a distribuio conjunta das duas variveis).

- EXPECTED: Oferece a freqncia esperada da clula, se for cumprida a


hiptese de independncia entre as duas variveis.

- TOTAL : Mostra os valores da distribuio conjunta, isto , a proporo da


freqncia de cada clula com relao ao total: P(Li Cj).
- RESID: Mostra os resduos, isto , a diferena entre os casos observados e
esperados em cada clula, segundo as hipteses de independncia.

- SRESID: Mostra os resduos padronizados, conhecidos tambm como os


resduos de Pearson. o resduo dividido por uma estimao de seu erro
padro e, em conseqncia, apresenta mdia 0 e desvio padro 1.

- ASRESID: Expressa os resduos corrigidos, isto , o resduo padronizado,


dividido pela estimao de seu erro padro. Os resduos corrigidos so
assintoticamente normais padronizados.

- ALL: Todos os anteriores.

[/MISSING={casos missing}]

Escolha entre TABLE** e INCLUDE. Isto , por padro exclui da anlise aqueles valores nos quais
se desconhece ou foi declarado missing o valor de uma ou das duas variveis. No caso de indicar
INCLUDE, considera os missings definidos pelo usurio.

[/WRITE[={X}]]

Permite descrever em um arquivo de resultados (de tipo ASCII) a matriz de dados correspondente
ao CROSSTABS realizado. Em X, escolha:

- NONE**: No gera nenhum arquivo, sendo a opo padro.

- CELLS: Gera um arquivo com a matriz para aquelas tabelas nas quais se observa, no
mnimo, um caso.

- ALL: Escreve a matriz para todos os grupos especificados por VARIABLES e TABLES,
independentemente se foram ou no observados casos.

Se lhe interessa utilizar CELLS ou ALL, deve definir um arquivo no qual ser criada a matriz
resultante. Isto deve ser feito previamente ao CROSSTABS pela seguinte instruo:

PROC[EDURE] OUT[PUT] OUT[FILE]=arquivo .

[/FORMAT={visualizao} {ordem}]

Controla como ser vista a tabela de contingncia no arquivo de resultados.

Em {visualizao} escolha entre TABLES**/NOTABLES. O primeiro indica


que a tabela de contingncia visualizada, enquanto que o segundo indica
o contrrio. Este ltimo utilizado quando o interesse no examinar a
tabela, mas sim escrever arquivos com matrizes para serem usados
posteriormente como base de dados, e equivalente a especificar NONE
em CELLS.

Em {ordem}, pode-se escolher que sejam mostrados os valores da varivel


que define as linhas da tabela de forma ascendente (AVALUE**) ou
descendente (DVALUE). Em geral, a ordem ser a de aparecimento na
definio inicial dos valores da varivel.

[/STATISTICS=[CHISQ]] Nesta fase da anlise, nos interessa apenas se existe


algum tipo de associao entre as duas variveis que definem cada tabela de
contingncia. No obstante, o nmero de estatsticas possveis, assim como sua
forma de clculo, muito amplo. Devero ser utilizadas somente aquelas medidas
de associao que respondam aos objetivos e desenho do estudo.

No SPSS coexiste outra forma de definir a instruo CROSSTABS um pouco mais


completa:

CRO[SSTABS] VAR[IABLES]=lista de variveis(mn,mx)


/TABLES=lista de variveis BY lista de variveis [BY...] [/lista de variveis...]

Neste caso, obrigatoriamente, deve ser indicado VAR[IABLES], no qual devem ser especificadas
que variveis deseja-se analisar. Em (mn,mx), indique o intervalo de valores que devem ser
levados em conta para cada varivel.

/TABLES= Nesta opo, pode ser especificada a tabela de contingncia desejada.


de grande utilidade quando no queremos cruzar todas as variveis de um
subgrupo ou linhas com todas as variveis de outro subgrupo ou variveis coluna,
como era no caso anterior.

Em nosso exemplo, podemos criar tabelas de contingncia que envolvam as variveis categricas,
que consideramos estarem possivelmente associadas ao estado nutricional da criana (NUT). Se
h interesse em examinar a possvel associao ocupao do chefe da famlia, faremos:

CROSS jocupa BY nut


/CELLS= COUNT ROW .

Esta instruo criar a tabela de contingncia entre o estado nutricional e a


ocupao do chefe da famlia. Assim, observaremos sua distribuio conjunta em
forma de freqncias (COUNT) e uma de suas distribuies condicionadas
(ROW), especificamente a distribuio do estado nutricional, em funo da
ocupao. Ao ser o estado nutricional a varivel de interesse do estudo, esta a
distribuio condicionada que nos fornece mais informao.
JANELAS
As janelas para efetuar a descrio bivariada de duas variveis categricas so ativadas pela
seqncia Analyze Descriptives Statistics Crosstabs, ao cujo resultado mostrado na
Figura 7.2.

Figura 7.2. Janelas correspondentes ao processo descritivo das tabelas de contingncia.

RESULTADOS
O resultado da tabela de contingncia entre o estado nutricional e a ocupao do chefe da famlia
representado a seguir:
Tabela 7.10. Resultado da descrio de uma tabela de contingncia.
Ocupao do chefe da famlia * Cumpre o padro de ingesto protica? Crosstabulation

Cumpre o padro de
ingesto protica?
No Sim Total
Ocupao do chefe Agropecurio Count 120 204 324
da famlia % within Ocupao
37,0% 63,0% 100,0%
do chefe da famlia
Outros Count 34 114 148
% within Ocupao
23,0% 77,0% 100,0%
do chefe da famlia
Total Count 154 318 472
% within Ocupao
32,6% 67,4% 100,0%
do chefe da famlia

A interpretao da tabela obtida simples: do total de crianas cujo chefe da famlia se ocupa de
trabalhos agropecurios (324), 37% consumiram uma quantidade de protenas considerada abaixo
do critrio utilizado para classificar a criana, segundo sua adequao alimentar. Esta
porcentagem inferior naquelas crianas cujo chefe da famlia no se dedica a trabalhos
agropecurios. Especificamente, esta porcentagem diminui at 23%. Parece claro que esta
diferena de 14% notvel (mesmo que esta certificao devesse ser feita pelo investigador,
obviamente). Ento podemos considerar que existe uma associao entre a ocupao do chefe da
famlia e o estado nutricional da criana, sendo aquelas menos nutridas as que tm um chefe de
famlia que se dedica aos trabalhos agropecurios.

Neste ponto, voc deveria valorizar as possveis associaes entre o estado nutricional da criana
e o resto das variveis categricas disponveis no arquivo NUT_FIN.SAV. Desta maneira, podero
observar quais so as variveis que parecem ter um efeito sobre a nutrio da criana.

COMENTRIOS
Se voc decide realizar algum tipo de contraste, por meio das mltiplas medidas de associao
disponveis na instruo CROSSTABS, muito importante que esteja consciente de dois perigos
resultantes do uso indiscriminado desta instruo:

1. A tentao de descrever e observar a estatstica de contraste de todas as tabelas de duas


dimenses possveis muito alta. Nunca demais refletir sobre a probabilidade de se obterem
relaes estatisticamente significativas, devido estritamente ao azar. Em outras palavras,
lembre-se de que a probabilidade de rejeitar alguma das hipteses nulas, isto , no mnimo,
uma, devido ao azar, igual a 1 (1 )n, sendo geralmente igual a 0,05 e n o nmero de
contrastes de hipteses realizados, neste caso, nmero de tabelas analisadas.

2. A apresentao dos resultados em forma de tabela bidimensional no nos diz praticamente


nada sobre o tipo de estudo ou de desenho que estamos analisando. Se estamos em uma
anlise de amostras dependentes ou independentes, a tabela no mostra claramente diante de
qual dos dois casos nos encontramos. Tambm no indica se o resultado expresso na tabela
corresponde a um estudo que mostra os casos de uma forma ou outra um estudo
transversal, de coortes ou caso-controle. Em todos estes casos, o resultado poderia ser
expresso como uma tabela bidimensional. Da uma grande variedade de estatsticas possveis
de serem calculadas por esta instruo e da tambm o perigo de calcular todas e apenas se
fixar nas estatisticamente significativas, mesmo que no correspondam ao tipo de estudo que
estamos realizando.
Como descrever uma varivel quantitativa: Estatsticas
de tendncia central e disperso.
INTRODUO

Como falamos anteriormente, descrever a distribuio de freqncias para variveis quantitativas


pode ser pouco interessante, sobretudo se esta varivel contnua ou discreta com um alto
intervalo de valores observados. Nestas circunstncias, o lgico proporcionar alguns valores,
resumo desta distribuio. Habitualmente, so expressas uma estatstica de tendncia central (ao
redor de que valor se distribui o restante dos valores obtidos na amostra estudada) e outra de
disperso (em quanto se distanciam em mdia do valor central anterior).

Estatsticas de tendncia central

Mdia: a mdia dos valores observados. Isto , a soma de todos os valores dividida pelo nmero
total de valores observados.

Mediana: o valor que divide a distribuio observada ao meio. De outra forma, o valor que deixa
50% dos valores observados abaixo e 50% acima.

Moda: o valor observado que mais se repete, ou seja, que tem uma maior freqncia observada.
Esta estatstica utilizada com pouca freqncia por duas razes fundamentais. A primeira delas
que uma propriedade muito dependente da agrupao em intervalos da varivel. Em outras
palavras, uma distribuio bimodal, com modas muito prximas, pode converter-se em unimodal,
mudando a agrupao dos dados. A segunda razo de maior importncia, e deve-se ao fato de
que no existe uma funo de probabilidade que nos descreva a distribuio de modas amostrais
de uma populao, razo pela qual dificilmente podero ser efetuadas comparaes entre
amostras e muito menos contraste de hipteses, a partir desta propriedade, ou descrever os
intervalos de confiana delas.

Vamos ilustrar o uso das estatsticas de tendncia central pela descrio de duas variveis
quantitativas. A primeira a altura da criana. Observe a Tabela 7.11.

Tabela 7.11. Estatsticas descritivas de uma varivel quantitativa contnua.


Descriptives

Statistic Std. Error


Altura da criana Mean 85,351 ,422
(em centmetros) 95% Confidence Lower Bound 84,523
Interval for Mean Upper Bound
86,180

5% Trimmed Mean 85,158


Median 84,000
Variance 83,728
Std. Deviation 9,150
Minimum 61,0
Maximum 110,1
Range 49,1
Interquartile Range 13,000
Skewness ,360 ,113
Kurtosis -,331 ,225
O valor mdio da altura das crianas estudadas 85,35 cm, enquanto que a mediana 84 cm. A
diferena de somente 1,35 cm, podendo-se considerar esta como muito pequena.

Na figura 7.3 mostrada a representao grfica da distribuio estudada.

Figura 7.3. Descrio grfica de uma varivel contnua: Histograma.

60

50

40
Freqncia

30

20

10

0
62

66

70

74

78

82

86

90

94

98

10

10

11
,0

,0

,0

,0

,0

,0

,0

,0

,0

,0

2,

6,

0,
0

0
Altura da criana (em centmetros)

Observe como a altura das crianas se distribui ao redor dos 84 cm e que, alm disto, o valor
mais freqente (a moda) e de forma bastante simtrica.

Quando a mdia e a mediana so semelhantes, no existe assimetria (vis). Se voc observar a


tabela de estatsticas (Tabela 11), ver como o valor de Assimetria (Skewness) prximo de
zero. Isto significa que ambas estatsticas so adequadas para realizar a descrio desta
distribuio. Por questes histricas que no vm ao caso, quando isto acontece, habitualmente,
escolhida a mdia como estatstica de tendncia central, e proporciona-se o desvio padro como
medida de disperso.

Se tivssemos que escrever um relatrio dos resultados, poderamos indic-lo da seguinte forma:
A altura mdia das crianas estudadas foi de 85,35 cm (DP=9,15 cm).

O segundo exemplo que nos serve para ilustrar o uso das estatsticas de tendncia central a
descrio dos cursos escolares superados pelo chefe da famlia. Esta descrio mostrada na
Tabela 7.12.
Tabela 7.12. Exemplo de descrio de uma varivel quantitativa discreta.
Descriptives

Statistic Std. Error


Cursos escolares Mean 3,79 ,19
completados pelo 95% Confidence Lower Bound 3,41
chefe dafamlia Interval for Mean Upper Bound
4,17

5% Trimmed Mean 3,33


Median 2,00
Variance 17,740
Std. Deviation 4,21
Minimum 0
Maximum 20
Range 20
Interquartile Range 6,00
Skewness 1,493 ,112
Kurtosis 1,885 ,224

Observe que, em mdia, os chefes de famlia dos lares registrados completaram 3,8 cursos
escolares, com a preciso dos dados originais 3,79 cursos. No entanto, a mediana de 2 cursos
completos. A diferena de 1,8 cursos. A mdia praticamente o dobro da mediana, sendo esta
diferena considervel. O valor da assimetria 1,493, claramente diferente de zero.

Na figura 7.4, observamos graficamente a distribuio obtida. Observe como a


moda 0, e os valores se distribuem claramente de forma assimtrica e com
alguns picos, que correspondem aos cursos que significam um final de etapa
escolar, segundo os ciclos escolares oficiais do Mxico: seis a sexta srie do
primeiro grau, nove corresponde ao final completo do primeiro grau, doze significa
a ltima srie do segundo grau e dezessete, o ltimo ano do curso universitrio.

Figura 7.4. Distribuio de freqncias de uma varivel quantitativa discreta.

140

120

100
Freqncia

80

60

40

20

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16 17 20

Cursos escolares completados pelo chefe da famlia


Quando existe assimetria, significa que a mdia e a mediana so claramente
diferentes. Nestes casos, a mdia est afetada por casos extremos, isto , existem
valores distantes do centro da distribuio, que fazem com que a mdia se
distancie em excesso da mediana. Por outro lado, uma das propriedades mais
destacveis da mediana a de ser insensvel a estes valores, e, por isto, em
situaes como esta, considera-se a mediana como melhor estatstica que a
mdia para descrever a distribuio observada.

Para acompanhar a mediana, como medidas de disperso podem ser utilizadas


algumas das seguintes: o valor mnimo e o mximo, o intervalo (mximo-mnimo),
os quartis (percentil 25 e 75), alguns percentis (por exemplo o percentil 10 e o 90)
ou a amplitude interquartlica (percentil 75 percentil 25).

Em nosso caso, indicaramos no relatrio: a mediana de cursos escolares


completados pelo chefe de famlia dos lares registrados foi de 2 cursos (percentil
25=0 e percentil 75=6).

Em geral, note que, se o nmero de casos de um estudo pequeno, a


possibilidade de que os valores extremos afetem a mdia aumenta, visto que so
necessrios muito poucos valores distantes do centro para que isto acontea. Por
isto, quando o nmero de casos pequeno (segundo alguns autores, menor que
30), utiliza-se diretamente a mediana como estatstica e no a mdia.
A descrio de uma varivel quantitativa pode ser feita pelo procedimento FREQUENCIES,
procurando eliminar a opo de apresentao da tabela de freqncias; o procedimento descrito a
seguir o mais simples, no caso em que se pretende somente conhecer as estatsticas amostrais.

SINTAXE

DES[CRIPTIVES] [VARIABLES=] nome da varivel[(nome da


varivel z)] [nome da varivel...]
[/MISSING={casos missing}]
[/SAVE]
[/STATISTICS={estatsticas}]
[/SORT=[{segundo}] [{(ordem)}]]

(nome da varivel z): Somente no caso em que se pensa utilizar a


opo/SAVE. Especifica o nome da varivel onde sero armazenadas as
pontuaes z. Se no atribui nenhum nome mas indica SAVE, ser gerada uma
varivel com um nome parecido com Z + o nome original.
/SAVE: Gera uma nova varivel com mdia 0 e desvio padro 1, na matriz de
dados. o resultado de padronizar a varivel estudada. No jargo estatstico,
estas variveis devem ser chamadas de pontuaes z.

As pontuaes z mostram, portanto, a quantas unidades de desvio padro est


cada observao com respeito mdia da distribuio observada. A converso de
qualquer unidade de medida em desvios padres til para comparar, de maneira
independente das unidades de medida, que varivel possui dados mais dispersos.

/MISSING: Define que casos, {casos missing}, devem ser excludos da anlise.

- VARIABLE**: Exclui da anlise os casos que apresentam um missing (de


sistema ou de usurio) no valor especfico da varivel estudada, sem
importar o valor que possam assumir as demais variveis especificadas na
instruo.

- LISTWISE: Exclui, para a anlise de cada varivel especificada na


instruo, aqueles casos que apresentam algum missing em qualquer das
variveis estudadas no conjunto definido. Isto , utiliza somente aqueles
casos nos quais no so observados missings no conjunto de todas as
variveis analisadas.

/STATISTICS: Podem ser indicadas as seguintes estatsticas: MEAN**, STDDEV**,


MINIMUM**, MAXIMUM**, SEMEAN, VARIANCE, SKEWNESS, RANGE, KURTOSIS, SUM.
Como foi visto na instruo FREQUENCIES, existem outras possibilidades, como no indicar nada
ou DEFAULT e ALL, para que sejam calculados todos os indicados anteriormente. O significado de
cada estatstica pode ser comprovado na Tabela 7.8.

/SORT: Permite obter um arquivo de resultados em que as variveis envolvidas


em um mesmo DESCRIPTIVES aparecero ordenadas como indicado em
{segundo} e {ordem}.

{segundo}:

- Se nada especificado, as variveis aparecero no arquivo de resultados


com a ordem em que as indicamos na instruo.

- NAME: Sero ordenadas alfabeticamente.

- Marcando qualquer estatstica utilizada na opo STATISTICS, obter uma


sada ordenada em funo do valor da estatstica especificada.

{ordem}:
- A**: De maneira ascendente.
- D: Descendente.

Como exemplo desta instruo, calcule a estatstica descritiva das variveis


contnuas do arquivo. A instruo de sintaxe neste caso :

DESCRIPTIVES protea protev protot tall_cms peso_kg dens_dom


protot
/ STATISTICS=MEAN STDDEV MIN MAX SKEWNESS .
Comprove a variao nos resultados incluindo na instruo a opo /SAVE .

JANELAS

A janela de aplicao, Figura 7.5, aberta, ao selecionarmos a seqncia


Analyze Descriptives Statistics Descriptives...

Figura 7.5. Janelas de execuo da instruo Descriptives.


COMENTRIOS
Uma varivel alfanumrica nunca pode ser analisada por DESCRIPTIVES. Observe como na
janela da instruo, no quadro no qual colocada a lista de variveis que podem ser selecionadas,
no aparece nenhuma alfanumrica.

RESULTADOS
Uma vez executada a instruo, no arquivo de resultados aparecer uma tabela com todas as
estatsticas desejadas para cada uma das variveis. Alm disso, por padro, se especifica o total
de casos vlidos utilizados para calcular estas estatsticas em cada uma das variveis.

Tabela 7.13. Resumo da anlise descritiva de um conjunto de variveis quantitativas.

Descriptive Statistics

N Minimum Maximum Mean Std. Skewness


Statistic Statistic Statistic Statistic Statistic Statistic Std. Error
Protenas animais
consumidas no dia 472 ,00 122,15 16,8662 17,49127 2,129 ,112
anterior entrevista
Protenas vegetais
consumidas no dia 472 ,00 76,14 19,0633 12,47908 1,286 ,112
anterior entrevista
Altura da criana (em
471 61,0 110,1 85,351 9,1503 ,360 ,113
centmetros)
Peso da criana (em
471 6,1 22,5 11,909 2,6790 ,552 ,113
quilos)
N de pessoas /
472 1 2 1,55 ,498 -,214 ,112
dormitrio
Total de protenas
consumidas no dia 472 3,45 130,28 35,9295 18,08493 1,316 ,112
anterior entrevista
Valid N (listwise) 471
Como descrever uma varivel quantitativa em
funo de uma varivel categrica
INTRODUO
Tambm no caso de variveis quantitativas, interessa com freqncia a descrio de uma varivel
quantitativa, em funo de outra ou outras categricas. Isto , pode ser interessante descrever a
varivel quantitativa para cada subgrupo de casos gerado pela combinao de categorias de um
conjunto de variveis categricas.

Existem duas instrues que permitem esta ao. A primeira MEANS similar aplicao da
instruo DESCRIPTIVE nas subamostras que definem uma ou um conjunto de variveis
categricas, e a segunda, EXAMINE, mais completa, equivalente a calcular uma estatstica
descritiva pela opo FREQUENCIES.

SINTAXE

Na primeira das opes de anlises, o objetivo fundamental descrever as


estatsticas amostrais mnimas para cada uma das subamostras indicadas. No
entanto, devemos voltar a insistir nas precaues que o analista deve tomar, ao
utilizar as opes de contraste de hipteses oferecidas pela instruo.

MEANS [TABLES=]{lista de variveis} BY lista de variveis


[BY...] [/lista de variveis...]
[/CELLS= {estatsticas}]
[/MISSING={casos missing}]

/CELLS: Pode especificar as estatsticas desejadas para cada subgrupo de


casos: MEAN**, COUNT**, STDDEV**, MEDIAN, GMEDIAN, SEMEAN,
SUM,MIN, MAX, RANGE, VARIANCE, KURT, SEKURT, SKEW, SESKEW,
FIRST, LAST, NPCT, SPCT, NPCT(var), SPCT(var), HARMONIC,
GEOMETRIC.

Veja o significado de cada uma destas opes na Tabela 7.8. Como nos casos
anteriores, existe tambm a opo de remeter-se opo padro ou indicar o
clculo de todos os ndices explicitando ALL.

/MISSING: Determina os casos excludos da anlise. Deve ser indicada alguma das seguintes
opes:

- TABLE: Exclui da anlise aqueles casos que apresentam um missing (de usurio ou
de sistema) em qualquer das variveis envolvidas em um processo de descrio.
- INCLUDE: Trata os valores missing de usurio de todas as variveis especificadas
na instruo como valores vlidos.

- DEPENDENT: Se a varivel quantitativa apresenta algum valor definido como missing,


este excludo da anlise. No obstante, os valores missing da varivel controle so
considerados como uma categoria a mais, no sendo ignorados. Em outras palavras,
analisa a varivel quantitativa tambm para aqueles casos indefinidos da varivel
categrica.

Como exemplo da instruo, vamos execut-la com a finalidade de analisar se a mdia das
variveis quantitativas que nos interessa diferente em funo da adequao nutricional da
criana.

MEANS ed_madre mescola ed_jefe jescola dens_dom BY nut


/CELLS= MEAN COUNT STDDEV SEMEAN .

JANELAS

A execuo por menus, Figura 7.6, efetuada, ativando a seqncia: Analyze Compare Means
Means:

Figura 7.6. Janelas correspondentes descrio de uma varivel quantitativa em funo de


grupos gerados por uma varivel categrica ou independente.
COMENTRIOS
1. Com a instruo MEANS, pode ser realizada a descrio univariada de uma varivel
simplesmente no especificando nenhum BY.

2. Se a varivel quantitativa apresenta missings de usurio codificados, por meio de um


determinado valor, (veja captulo 4), utilize MISSING=DEPENDENT. Se utilizasse
MISSING=INCLUDE, este valor formaria parte da anlise e viciaria os resultados.
RESULTADOS

Observemos na Tabela 7.14 os resultados obtidos.

Tabela 7.14. Resultado obtido pela instruo MEANS.


Report

Cursos
escolares Idade do Escolaridade Nmero de
Cumpre o padro de Idade da me completos chefe da do chefe da pessoas por
ingesto protica? (em anos) pela me famlia famlia dormitrio
No Mean 29,79 2,31 43,69 2,68 5,458
N 135 150 154 154 154
Std. Deviation 8,826 2,680 60,959 3,105 2,1527
Std. Error of Mean ,760 ,219 4,912 ,250 ,1735
Sim Mean 28,68 3,97 39,09 4,32 5,135
N 291 312 318 318 318
Std. Deviation 6,673 4,099 29,443 4,563 2,3102
Std. Error of Mean ,391 ,232 1,651 ,256 ,1296
Total Mean 29,03 3,43 40,59 3,79 5,241
N 426 462 472 472 472
Std. Deviation 7,431 3,776 42,370 4,212 2,2628
Std. Error of Mean ,360 ,176 1,950 ,194 ,1042

Gera-se uma tabela com a informao solicitada para cada uma das variveis especificadas. A
ttulo de exemplo, para realizar a interpretao, observemos a ltima varivel. Os resultados
obtidos mostram que a mdia de pessoas por dormitrios ligeiramente superior nos lares com
crianas malnutridas em comparao com os lares de crianas bem-nutridas: 5,46 contra 5,14
pessoas por quarto. Se quiser ser mais preciso, poderia calcular o intervalo de confiana para as
mdias. Para um nvel de 95% de confiana, faramos:

Media 1,96 * Erro padro da mdia

Efetuando os clculos obteramos:

A mdia de dens_dom para os lares com crianas malnutridas :


5,46 pessoas/quarto; (IC(95%)=5,12-5,80))

Enquanto que para os lares sem crianas malnutridas:


5,14 pessoas/quarto; (IC(95%)=4,88-5,39)).

Observe que se ambas as mdias so ligeiramente diferentes, os intervalos de


confiana calculados se sobrepem. Quando isto acontece, pode-se afirmar que,
estatisticamente, no existe diferena significativa.

A interpretao das demais variveis seria efetuada da mesma forma.

COMENTRIOS
Ateno! Mesmo que uma diferena no seja estatisticamente significativa, no
implica que no possa ser importante para o investigador. A significncia no
depende exclusivamente de critrios estatsticos (dependentes, alm disso, de
questes como o nmero de indivduos analisados, etc.), mas tambm da prpria
importncia que o investigador observe nesta diferena.

SINTAXE

A outra instruo que permite a descritiva de uma varivel quantitativa, em funo


das categorias de uma ou mais variveis categricas, descrita a seguir:

EXAMINE VARIABLES = lista de variveis [[BY lista de


variveis]
[nome da varivel BY nome da varivel]]
[/COMPARE={tipo}]
[/{visualizar total}]
[/ID={varivel}]
[/PERCENTILES [({lista de valores})=[{mtodo}]]]
[/PLOT={grficos}]
[/STATISTICS=[estatsticas]]
[/CINTERVAL {nvel}]
[/MESTIMATOR=[{mtodo}]]
[/MISSING=[{casos missing}]

BY: Especifique a varivel ou variveis para os valores das quais deseja-se


realizar a descrio da varivel quantitativa. Tambm podem se enlaar vrios BY,
descrevendo assim a varivel quantitativa para o cruzamento dos fatores.

Por exemplo, se fizssemos:

EXAMINE protot BY municipi idad4

o resultado sairia em duas tabelas: a primeira com a descrio das protenas totais
em funo do municpio e, na segunda, a descrio seria em funo dos valores
de IDAD4. Por outro lado, se a instruo fosse:

EXAMINE protot BY municipi BY idad4

obteramos somente uma tabela com a descrio das protenas totais para oito
situaes diferentes. Estas situaes corresponderiam a todas as possveis
combinaes entre os valores de ambos fatores: [12-24)-Villaflores, [12-24)-
Jaltenango, ... , [48-60)-Jaltenango.

/COMPARE {tipo}: Define que tipo de comparao efetuada nos grficos solicitados.
Deve ser indicada alguma das seguintes opes:
- GROUPS**: Representao grfica de uma varivel quantitativa, em funo das
categorias de cada varivel categrica especificada (Veja as Figuras 7.7 e 7.8).

Exemplo: EXAMINE protea protev BY idad4.


/COMPARE=GROUPS /PLOT=BOXPLOT .

Figura 7.7. e 7.8. Grficos que comparam grupos (COMPARE=GROUPS)

140 100
Protenas animais cons. dia anterior entrevista

Protenas vegetais cons. dia ant. entrevista

29
120
80
169 150 213
222
272
100 265 206

8
60 309 317
80 283
35
133
353 28
170
130
60 31 40
139 3
88
34 92
107
186
397
40 148
20

20

0
0

-20 -20
N= 151 159 88 74 N= 151 159 88 74

[12-24) [24-36) [36-48) [48-60) [12-24) [24-36) [36-48) [48-60)

Idade da criana em grupos Idade da criana em grupos

- VARIVEIS: Representao grfica conjunta das variveis quantitativas, em funo


dos valores de cada varivel categrica (figura 7.9).

Exemplo: EXAMINE protea protev BY idad4.


/COMPARE=VARIABLES /PLOT=BOXPLOT .

Figura 7.9. Grfico que compara variveis (COMPARE=VARIABLES)


140

29
120
169 150
100 265
8

80
35 213
222
133
353 28
170 272
206
130
60 31
309 139 317 3
283 92
88
34 107
186
397
40 148

20

0 Protenas animais

-20 Protenas vegetais


N= 151 151 159 159 88 88 74 74

[12-24) [24-36) [36-48) [48-60)

Idade da criana em grupos

/{visualizar total}: Ao descrever uma varivel quantitativa, em funo dos valores


de um fator, permite visualizar as estatsticas escolhidas tambm para o total. S tem duas opes:

- TOTAL**: So visualizadas.
- NOTOTAL: No so visualizadas.

/ID: Se uma varivel especificada nesta opo, seus valores serviro como etiqueta dos
casos em determinados grficos. Se nenhuma varivel selecionada, ser utilizado o nmero do
caso na base de dados, isto , a posio do caso dentro do conjunto de dados.

/PERCENTILES: Permite calcular o valor de qualquer percentil por diferentes mtodos.

- {lista de valores}: Especificando os percentis de interesse. Se for utilizado


PERCENTILES, mas no for indicado nenhum valor, por padro sero calculados os
seguintes: 5, 10, 25, 50, 75, 90 e 95.

- {mtodo}: HAVERAGE**, WAVERAGE, ROUND, EMPIRICAL,


AEMPIRICAL. Consulte os manuais para maiores especificaes. Na realidade, estas
opes no refletem mais do que tcnicas diferentes para a determinao dos percentis
em amostras de tamanho pequeno ou mediano. Por ltimo, existe a possibilidade de
especificar como opo: NONE. Esta ltima suprime os percentis no arquivo de resultados.

/PLOT{grficos}: Especifica o tipo de grfico que se pretende representar. Entre diversas


opes, as mais freqentes so:

- BOXPLOT**: Grfico no qual so representados a mediana, o primeiro e


terceiro quartil, os casos cujo valor considerado atpico e os casos
denominados extremos. Observe a figura 7.10. As linhas das extremidades
inferior e superior da caixa indicam o primeiro e o terceiro quartil,
respectivamente, enquanto que a linha do meio representa a mediana. Nos
extremos da caixa traada uma linha perpendicular: Ao longo da linha
vertical, esto representados os pontos situados do primeiro ao terceiro
quartil (dependendo do extremo da caixa) at 1,5 vez a longitude da caixa
(que coincide com a amplitude interquartlica). Deste ponto at 3 vezes a
amplitude interquartlica, desenha-se com o smbolo O os valores atpicos.
Finalmente, no mais longe e com um * so assinalados os casos que esto
alm de 3 longitudes, ou seja, os extremos. Observe que nos valores
atpicos e extremos identificado o nmero do caso que se trata: como
padro, sero colocados em cada caso os nmeros em cor cinza que
aparecem mais esquerda no editor de dados (em sintaxes $CASENUM) e
se foi definida na instruo a opo ID, estes casos sero etiquetados, de
acordo com o que determine a varivel especificada em ID.

Figura 7.10. Significado dos termos que aparecem em um grfico BOXPLOT.


140
29 Q3 + 3 * Amplitude
169 Interquartlica = 42.88 + 3 *
120 24.31 = 115.81

265
Q3 + 1,5 * Amplitude
100 Interquartlica = 42.88 + 1,5
8
* 24.31 = 79,35

80

60

Q3 Q1 = 24,31
Q3 =Terceiro quartil = 42,88

Interquartlica
40
Amplitude Q2 =Mediana = 30,56

20 Q1 =Primeiro quartil = 18,57

Q1 1,5 * Amplitude Interquartlica


0 = 18,57+ 1,5 * 24.31 = -17,90

-20
N=151

Total de Protenas - Crianas de [12-24) meses

Observe que na parte inferior da caixa, a linha corta com o 0 e no chega


ao -17.90, como seria esperado. Isto devido a que o 0 o valor mnimo
possvel.

- NPPLOT: Constri dois grficos para comprovar a normalidade de uma


varivel. Alm disso, fornece as estatsticas Kolmogorov-Smirnov e
Shapiro-Wilk, com a mesma finalidade. Shapiro-Wilk s mostrado para
dados com 50 ou menos observaes.

- HISTOGRAM: Desenha o histograma solicitado.

- ALL: Imprime todos os grficos possveis.

- NONE: No so gerados grficos no arquivo de resultados.

/STATISTICS (estatsticas): Podem ser solicitadas as estatsticas clssicas e, alm


disso, uma lista dos maiores e menores valores observados na varivel.

- DESCRIPTIVES**: Oferece as principais estatsticas descritivas. Destaca,


j que as outras instrues no o facilitam, o clculo do intervalo de
confiana para a mdia (com 95% de confiana como padro, este nvel
pode ser mudado pela opo CINTERVAL), assim como a mdia recortada
em 5% (clculo da mdia sem 5% dos valores mais extremos. Opo
interessante para valorizar a influncia destes valores sobre a mdia geral).
- EXTREME({n}): Listar os valores mais extremos (maiores e menores) observados na
varivel estudada. Indique, por meio de n, o nmero de valores que deseja obter, tanto de
maiores como de menores.

- ALL: DESCRIPTIVES e EXTREME.

- NONE: Nenhum.

/CINTERVAL: Permite modificar o nvel do intervalo de confiana. Como padro, calcula com
95% de confiana. Pode ser escolhido um nvel entre 50% e 99,99%.

/MESTIMATOR: Por esta opo ser conseguida a lista de estimadores robustos de posio
obtidos por mxima verossimilhana. O mtodo de clculo especificado, escolhendo entre os
propostos por HUBER, ANDREW, HAMPEL, TUKEY. Alm do mais, pode ser indicado ALL (listar
os estimadores segundo quatro mtodos destacados) e NONE**. Consulte os manuais para obter
mais informao sobre cada mtodo.

/MISSING: Determina quais casos sero excludos da anlise.

Deve ser escolhida uma opo de cada par:

- LISTWISE** / PAIRWISE: A primeira exclui, em cada varivel especificada na


instruo, aqueles casos que apresentam algum missing em qualquer das variveis
estudadas. Isto , utiliza somente aqueles casos nos quais no so observados missings
em todas as variveis analisadas. PAIRWISE exclui da descrio somente o caso da
varivel que apresenta o missing, no das demais.

- EXCLUDE** / INCLUDE: EXCLUDE trata os valores missing de usurio (no os de


sistema) como valores que no fazem parte da anlise, enquanto que INCLUDE os leva
em conta.

- NOREPORT** / REPORT: A primeira opo no utiliza nem os missing de usurio


nem os de sistema na descrio, ao contrrio de REPORT, que usa tanto uns como outros.

Como exemplo da descrio das variveis quantitativas discretas de nosso estudo, em funo do
estado nutricional das crianas, execute a instruo que apresentada a seguir. Planeje a
interpretao dos resultados como orientao sobre quais as possveis caractersticas associadas
com a presena ou ausncia deste problema.

EXAMINE VAR= ed_madre mescola ed_jefe jescola dens_dom cse BY


nut
/PLOT NONE
/MISSING PAIRWISE .

JANELAS

Com a finalidade de efetuar esta anlise descritiva, as janelas so ativadas ao seguir os passos da
seqncia: Analyze Descriptive Statistics Explore:
Figura 7.11. Janelas associadas instruo Explore.

COMENTRIOS
1. Com a instruo EXAMINE, pode ser realizada a descrio univariada de uma varivel
simplesmente no especificando um BY.

2. A instruo EXAMINE muito interessante para a descrio de variveis quantitativas (em


nvel uni e bivariado). Isto devido a que proporciona, alm de estatsticas que tambm
facilitam outras instrues, o intervalo de confiana para mdia com a possibilidade de
modificar o nvel de confiana e outras estatsticas complementares como a mdia recortada a
5%.

3. Mesmo sua utilizao sendo muito interessante, tambm muito perigosa, quando em uma
mesma instruo executamos a descrio de mais de uma varivel quantitativa. Observe que,
como padro, os casos que apresentam algum missing em qualquer das variveis
quantitativas sero eliminados da descrio, no somente desta, mas de todas as variveis
especificadas na instruo (MISSING= LISTWISE). O desconhecimento deste fato pode fazer
com que no sejam levados em conta casos que deveriam fazer parte da descrio.

4. Pode descrever uma varivel quantitativa pelo cruzamento de, no mximo, oito fatores (isto ,
pode-se utilizar de no mximo 8 BY). Quando so especificados mais de oito, a instruo no
ser executada.
5. A utilizao de mais de um BY e a conseguinte descrio em cada grupo gerado por muitas
variveis categricas podem ser feitas somente por sintaxe. No existe a possibilidade de
faz-las por janelas.

RESULTADOS

Na tabela 7.15 apresentado o resultado de EXAMINE para a varivel jescola, em


funo dos dois grupos de crianas, nutridas e desnutridas.

Tabela 7.15. Resultado da instruo EXAMINE.


Descriptives

Cumpre o padro de Statistic Std. Error


Escolaridade do No Mean 2,68 ,250
chefe da famlia 95% Confidence Lower Bound 2,19
Interval for Mean Upper Bound
3,18

5% Trimmed Mean 2,35


Median 2,00
Variance 9,643
Std. Deviation 3,105
Minimum 0
Maximum 16
Range 16
Interquartile Range 4,00
Skewness 1,444 ,195
Kurtosis 2,318 ,389
Sim Mean 4,32 ,256
95% Confidence Lower Bound 3,82
Interval for Mean Upper Bound
4,82

5% Trimmed Mean 3,85


Median 3,00
Variance 20,824
Std. Deviation 4,563
Minimum 0
Maximum 20
Range 20
Interquartile Range 5,00
Skewness 1,344 ,137
Kurtosis 1,156 ,273

Para os dois grupos, observa-se um desvio padro alto, comparado com a mdia.
Tambm claramente observada a existncia de assimetria. Isto nos indica que a
mediana ser a melhor estatstica de tendncia central para explicar os dados
observados.

Assim, observamos que os chefes de famlia das crianas bem-nutridas tm trs


cursos escolares completos, enquanto que os das crianas malnutridas tm dois.
Esta diferena pode levar a pensar que a escolaridade do chefe de famlia pode
estar associada ao estado nutricional da criana.

Consideraes sobre a anlise


Foi seguida a ordem lgica do livro, neste ponto voc ter avaliado o possvel efeito de todas as
variveis presentes no arquivo NUT_FIN.SAV sobre a desnutrio da criana. Possivelmente,
tambm ter visto que a valorizao da associao de certas variveis com a adequao alimentar
poderia ser realizada de forma mais ajustada a seus interesses ou ao menos de outra forma.

Por exemplo, da mesma forma que fizemos anteriormente com as variveis piso e paredes, onde
agrupamos categorias, concentre-se agora na varivel freqncia de ingesto de carne, que tem
seis categorias. Imagine que lhe interessasse descrev-la somente com duas. Que ponto de corte
utilizaria para criar estas duas categorias? Se examinar os resultados, ver que uma possibilidade
seria usar os seguintes: 1 1 vez ou mais/15 dias, 2 menos de 1 vez/15 dias. Porque este ponto
de corte? Veja que at a categoria 1 vez/15 dias a porcentagem de desnutrio est abaixo de
30%, enquanto que a partir de 1 vez/ms esta porcentagem sempre supera 40%.
Crie uma nova varivel utilizando este critrio e descreva sua distribuio conjunta com a
adequao alimentar.

Outra possibilidade categorizar as variveis quantitativas descritas anteriormente por alguma


estatstica de tendncia central e de disperso. Esta possibilidade interessante, porque, s
vezes, difcil interpretar a informao derivada, por exemplo, da comparao entre duas mdias.

Anteriormente, comparamos o nmero mdio de pessoas por dormitrio em funo dos lares com
crianas bem ou malnutridas. A diferena entre estas mdias (5,46 em lares com crianas
malnutridas e 5,14 em lares com crianas bem-nutridas) foi de 0,32 pessoas/dormitrio. Realmente
difcil valorizar a intensidade desta diferena. muito ou pouco? Enfim, no despreze a
possibilidade de categorizar esta varivel e observar sua distribuio condicionada adequao
alimentar. O nico problema est na definio das categorias a serem utilizadas. Este problema
habitualmente solucionado, buscando critrios externos, seja por literatura sobre o tema, seja por
deciso do investigador do estudo. Mesmo assim, se esses critrios no existem, cabe a
possibilidade de utilizar algum percentil da distribuio observada, para realizar uma recodificao
que nos fornea informao.

Por exemplo, no caso de dens_dom, propomos que recodifique esta varivel em outra a partir da
mediana obtida:

RECODE
dens_dom (Lowest thru 4.99=1) (5 thru Highest=2) INTO
dens_do2 .
EXECUTE .
FOR dens_do2 (F1.0) .
VAR LAB dens_do2 'N pessoas / dormitrio ' .
VAL LAB dens_do2 1 '< 5' 2 '>= 5' .
VAR LEV dens_do2 (NOMINAL) .

Construa agora a tabela de contingncia entre ambas variveis e observe sua descrio. Acredita
que a informao obtida mais interpretvel que antes?

Da mesma forma que com dens_dom, poderamos recodificar as seguintes variveis: mescola e
jescola. Neste caso, entretanto, existe um critrio externo que pode ser utilizado. Crie duas novas
variveis (mestud e cestud) com as seguintes categorias: 0 cursos completos, de 1 a 3 cursos
completos, mais de 3 cursos completos. Recodifique-as, utilizando os valores e etiquetas que so
apresentadas a seguir: 0 Analfabeto, 1 da 1 a 3 srie primria, 2 4 srie primria. Faa
agora a descrio conjunta com a adequao alimentar.

Poderamos categorizar tambm a varivel cse em uma nova, cse3. Esta nova varivel poderia ter
trs categorias definidas pelos tercis: isto , categorize como 1 os casos entre 0 caractersticas
desfavorveis at o valor de cse, que supera 33,3% dos casos observados, 2 aos casos com
valores compreendidos entre o seguinte e o que supera 66,7% dos valores de cse e 3 os casos
com valores do seguinte at o mximo. Defina a varivel, descreva-a e realize a descrio
conjunta com a adequao alimentar.

Apresentao os resultados em forma de tabela


Na maioria dos estudos, uma vez analisada a distribuio e as caractersticas amostrais das
variveis estudadas, tende-se a resumir as informaes obtidas em forma de Tabelas. Quase
sempre costumam ser tabelas formadas pelo cruzamento das variveis categricas que, de alguma
maneira, poderiam ser catalogadas como fatores ou variveis desenhadas. Nas clulas que
correspondem interseo das categorias destas variveis, poderamos introduzir parmetros
estatsticos das variveis do estudo, sejam estas ltimas categricas ou contnuas.

Existem diversas formas de gerar tabelas resumo, e, nestes casos, tambm devemos chamar a
ateno para a rpida evoluo que estas instrues sofrem com as mudanas das verses do
programa.

De maneira geral, a instruo bsica TABLES, a qual segue vigente e pode ser gerada pela
ativao de janelas, j que a sintaxe, ao pretender descrever o maior nmero de tipos de tabelas
possveis, bastante complexa. No obstante, nem sequer est descrita no manual de ajuda do
pacote. Isto , como vimos em outras ocasies, uma instruo que tende a ser substituda por
outras no futuro.

SINTAXE
As instrues mais simples para gerar tabelas so as mostradas na verso simplificada a seguir.

SUMMARIZE [TABLES=] {lista de variveis} [BY lista de var.]


[BY...][/lista de variveis...]
[/TITLE =texto...][FOOTNOTE= texto...]
[FORMAT=[{NOLIST** }] [{CASENUM }] [{TOTAL**}][LIMIT=n]
{LIST } {NOCASENUM} {NOTOTAL}
{VALIDLIST}
[/CELLS= [MEAN] [COUNT**] [STDDEV] [MEDIAN] [GMEDIAN]
[SEMEAN] [SUM ] [MIN] [MAX]
[RANGE] [VARIANCE] [KURT] [SEKURT] [SKEW] [SESKEW]
[FIRST] [LAST] [NPCT] [SPCT] [NPCT(var)][SPCT(var)]
[HARMONIC] [GEOMETRIC] [DEFAULT] [ALL] [NONE]
[/MISSING=[{EXCLUDE**}][{VARIABLE**}]
[/STATISTICS=[ANOVA] [{LINEARITY}] [NONE**] ]

Pode-se entender, com facilidade, que gerado um resumo da informao das variveis indicadas
na lista de variveis, nas diferentes clulas de uma ou vrias tabelas, geradas pelo cruzamento
das categorias das variveis definidas nas duas listas de variveis de cada BY.
O ttulo e o rodap deste resumo so opcionais. Em nenhum dos casos, TITLE ou FOOTNOTE, o
texto pode superar 255 caracteres. Sempre devero constar entre aspas.

[/FORMAT = A instruo pode fazer resumos de um nmero de casos, indicando caso a caso ou
no, (NOLIST), nos n primeiros, LIMIT=n, ou de todos, incluindo os valores missing ou somente os
casos vlidos, isto , aqueles que tm valores no missing em todas as variveis implicadas.

[/CELLS= O nmero de estatsticas descritivas que podem ser resumidas maior inclusive do que
o que pode ser obtido com uma instruo DESCRIPTIVES, EXAMINE ou MEANS, podendo-se
solicitar todos eles com a opo ALL. Se nada indicado como padro, resume-se em cada clula
da tabela gerada o nmero de casos que pertencem a ela.

[/STATISTICS= Com esta subinstruo, pode-se efetuar, sempre que a varivel descrita
quantitativa, uma anlise de ajuste de um modelo ANOVA de comparao das mdias observadas
em cada clula, assim como se a variao dentre elas de natureza linear ou no. Como padro e
a ttulo de resumo, esta opo no executada.

COMENTRIOS

1. Certas opes da subinstruo FORMAT devem ser consideradas com cautela pelo analista, j
que os valores ou opes por padro no so iguais ao trabalhar com janelas. Assim, como
padro na Sintaxe, o resumo efetuado com todos os dados, enquanto que, por janelas, como
ser visto adiante, efetuado somente o resumo dos 100 primeiros casos.

2. Da mesma forma, a execuo por sintaxe pressupe que o resumo no imprime a informao
de cada caso, somente o resumo. A execuo por janelas mostra a relao dos casos das
categorias geradas na anlise.

Uma instruo mais simples para descrever variveis contnuas, em funo de


uma lista de variveis categricas, a seguinte:

OLAP CUBES {lista de var.} BY lista de var. [BY...]


[/CELLS= [MEAN**] [COUNT**] [STDDEV**]
[NPCT**] [SPCT**] [SUM** ]
[MEDIAN] [GMEDIAN] [SEMEAN]
[MIN] [MAX] [RANGE]
[VARIANCE] [KURT] [SEKURT]
[SKEW] [SESKEW] [FIRST] [LAST]
[NPCT(var)][SPCT(var)]
[HARMONIC] [GEOMETRIC]
[DEFAULT]
[ALL] [NONE] ]
[/CREATE [{'catname'}...] = {GAC } (gvarname {(gvarvalue
gvarvalue) }
{DEFAULT } {GPC } [{(gvarvalue
gvarvalue)...}])]
{GAC GPC}
--or--
{VAC } {(svarname svarname)}
{VPC } {(svarname svarname)...}
{VAC VPC}
[/TITLE ='string'][FOOTNOTE= 'string']

Neste caso, na primeira lista de variveis so indicadas as variveis contnuas que


se deseja analisar, em funo das que esto depois de BY, estas ltimas devem
ser categricas. Entretanto, pode-se observar a equivalncia com a instruo
anterior. As mudanas so observadas na forma de expressar os resultados, pois,
embora em SUMMARIZE, a expresso dos resultados de relatrio resumo; em
OLAP CUBES, os resultados so mostrados para cada estrato separadamente.

COMENTRIO

1. Na verso 10.0 do programa SPSS, se produz um pequeno erro ao executar


esta instruo. Especificamente, se se est trabalhando com a janela de
Resultados Draft Viewer Document, so descritas todas as categorias na
tabela gerada pela instruo BY Lista de Variveis BY Lista de variveis...,
assim como de todas as tabelas marginais associadas possvel tabela
mutidimensional. No ocorre o mesmo se se trabalha com a opo de escrever
os resultados na janela SPSS Viewer, em que apenas se apresentam as
tabelas de cada uma das variveis, no mostrando as demais.

2. Este fenmeno se repete ainda que se trabalhe executando a instruo por


janelas.

JANELAS
A ao de resumir informao em forma de relatrio ou mltiplas tabelas pode ser
realizada de diversas maneiras:

Por Analyze Reports Cases Summaries executada a instruo


SUMMARIZE.

Figura 7.12. Janela de execuo da instruo SUMMARIZE.


A segunda opo descrita obtida pela ao: Analyze Reports OLAP
Cubes.

Figura 7.13.Janela de execuo a instruo OLAP Cubes.


Na nova verso do SPSS, verso 11.5, existe a possibilidade de resumir a
informao de diferentes variveis, como j era feito anteriormente, e, como
novidade, pode-se resumir a informao das diferenas entre variveis estudadas,
assim como as diferenas entre grupos.

Este procedimento realizado por meio da opo de sintaxe: /CREATE


DEFAULT, indicando o que queira fazer, ou por meio do menu desdobrvel:
Analyze Reports OLAP Cubes Differences... , que, como padro, marca
None (Nenhuma).

RESULTADOS

Suponha que tivssemos solicitado o resumo das variveis tall_cms e peso_Kg,


por meio das estatsticas mdia e desvio padro das crianas do estudo, em
funo do sexo e grupo de idade. As instrues que deveramos ter escrito seriam:

SUMMARIZE
/TABLES=tall_cms peso_kg BY sex BY idad4
/TITLE='Altura e peso em funo do sexo e grupo e idade' .
Observe o resultado desta ao na Tabela 7.16.

Tabela 7.16. Resultado de uma instruo SUMMARIZE.


Altura e peso em funo do sexo e do grupo de idade

Idade da criana Altura em Peso em


Sexo em grupos centmetros quilogramas
Masculino [12-24) N 78 78
Mean 78,088 9,958
Std. Deviation 6,1749 1,6264
[24-36) N 74 74
Mean 84,935 12,015
Std. Deviation 4,6904 1,6091
[36-48) N 48 48
Mean 91,038 13,598
Std. Deviation 5,1372 1,6539
[48-60) N 37 37
Mean 98,414 15,305
Std. Deviation 6,7705 2,3053
Total N 237 237
Mean 86,022 12,172
Std. Deviation 9,0475 2,5691
Feminino [12-24) N 72 72
Mean 76,753 9,233
Std. Deviation 4,6881 1,3836
[24-36) N 85 85
Mean 82,998 11,326
Std. Deviation 5,7010 1,6973
[36-48) N 40 40
Mean 89,025 13,158
Std. Deviation 5,6377 2,0555
[48-60) N 36 36
Mean 99,064 15,333
Std. Deviation 5,0934 2,2859
Total N 233 233
Mean 84,585 11,613
Std. Deviation 9,1455 2,7339
Total [12-24) N 150 150
Mean 77,447 9,610
Std. Deviation 5,5341 1,5527
[24-36) N 159 159
Mean 83,899 11,647
Std. Deviation 5,3277 1,6872
[36-48) N 88 88
Mean 90,123 13,398
Std. Deviation 5,4333 1,8494
[48-60) N 73 73
Mean 98,734 15,319
Std. Deviation 5,9697 2,2798
Total N 470 470
Mean 85,310 11,895
Std. Deviation 9,1149 2,6640
Outras formas de resumo por tabelas.

A generalizao deste tipo de resumo pode ser visualizada, ativando-se a


seqncia Analyze Reports Case Summaries... Observa-se que o nmero
de opes muito maior, e que a construo do resumo muito mais flexvel.
Esta mesma flexibilidade indica que a instruo de sintaxe efetuada, REPORT,
muito extensa e complexa, motivo pelo qual remetemos o leitor ao mdulo de
ajuda spssbase.pdf para sua descrio.

Existem outras formas de resumir e apresentar dados em forma de tabelas, as


quais utilizam a instruo TABLES que, como indicado anteriormente, no consta
no mdulo de ajuda distribudo com a verso 10.0, mesmo que conste no ndice
de instrues.
Podem ser gerados, portanto, outros tipos de tabelas, ativando:

Analyze Tables Basic Tables (ou General)

Como sempre, a sintaxe pode ser visualizada, executando uma das duas aes
indicadas, em vez de clicar em OK, o que executa a ao. Clique na tecla Paste e
observe o texto na janela de sintaxes.

Figura 7.14. Exemplo e resumo por Basic Tables.


COMENTRIO

Se voc trabalha com a verso Demo do SPSS 11.5, provavelmente no ir


encontrar esta opo e sim Custom Tables, portanto as janelas sero as
seguintes:

Figura 7.14b. Tabelas personalizadas (Demo SPSS 11.5)


O leitor vai comprovar que na verso completa do SPSS 11.5 esta opo tambm
aparece, representando uma alternativa opo de Basic Tables, mesmo o
resultado sendo igual. Esta opo no encontrada nas verses anteriores do
programa.

RESULTADOS

Os resultados obtidos ao aplicar o contedo das janelas indicadas e executando


as sintaxes associadas a elas conduzem aos outros seguintes resultados:

Tabela 7.19. Resultado da janela Basic Tables para as combinaes


aninhadas.
Cumpre o padro de ingesto protica?
No Sim
Count Row % Count Row %
Tipo de Urbana Condio Alta 23 20,7% 88 79,3%
localidade socioeconmica a Media 19 31,7% 41 68,3%
famlia em 3 grupos Baixa 2 16,7% 10 83,3%
Rural Condio Alta 17 35,4% 31 64,6%
socioeconmica a Media 56 37,6% 93 62,4%
famlia em 3 grupos Baixa 37 40,2% 55 59,8%

Agora imagine que se deseja apresentar, em uma nica tabela, todos os


resultados obtidos com as instrues CROSSTABS que cruzavam cada uma das
variveis categricas com a adequao alimentar. Pois bem, pela ativao das
janelas Basic Tables (veja a Figura 7.14), selecione todas as variveis que
acredita serem oportunas para descrever conjuntamente com nut e, alm disso,
em vez de escolher a opo All combinations (nested), escolha Each
separately (stacked). Desta forma, ser obtida uma tabela resumo com a
descritiva bivariada de cada varivel categrica com a adequao alimentar.
Pode-se observ-la na seguinte tabela:

Tabela 7.20. Resultado da janela Basic Tables para as variveis


separadamente.
Cumpre o padro de ingesto protica?
No Sim
Count Row % Count Row %
Ocupao da me Trabalha em casa 144 34,0% 280 66,0%
Trabalha fora de casa 6 15,8% 32 84,2%
Municipio Jaltenango 87 32,6% 180 67,4%
Villaflores 67 32,7% 138 67,3%
Tipo de localidade Urbana 44 24,0% 139 76,0%
Rural 110 38,1% 179 61,9%
Tipo de banheiro Completo 48 25,5% 140 74,5%
Latrina, fossa 47 34,8% 88 65,2%
Nenhum, usa o solo 59 39,6% 90 60,4%
Possuem luz No 24 40,7% 35 59,3%
eltrica? Sim 130 31,5% 283 68,5%
Possuem geladeira? No 114 34,8% 214 65,2%
Sim 40 27,8% 104 72,2%
Possuem TV? No 72 36,9% 123 63,1%
Sim 82 29,6% 195 70,4%
Combustvel utilizado Lenha ou carvo 99 37,2% 167 62,8%
para cozinhar Gs 55 26,7% 151 73,3%
Possuem seguro No 145 34,0% 282 66,0%
social? Sim 9 20,0% 36 80,0%
Sexo do chefe da Masculino 145 32,8% 297 67,2%
famlia Feminino 9 30,0% 21 70,0%
Ocupao do chefe Agropecurio 120 37,0% 204 63,0%
da famlia Outros 34 23,0% 114 77,0%
Sexo Masculino 71 29,8% 167 70,2%
Feminino 83 35,5% 151 64,5%
Material do piso terra 70 37,4% 117 62,6%
com cobertura 84 29,5% 201 70,5%
Material das paredes terra 125 33,5% 248 66,5%
com cobertura 29 29,3% 70 70,7%
Freqncia de 1 vez ou mais / 15 dias 111 29,9% 260 70,1%
ingesto de carne Menos de uma vez / 15
43 42,6% 58 57,4%
dias
N de pessoas / <5 57 27,0% 154 73,0%
dormitrio >= 5 97 37,2% 164 62,8%
Escolaridade da me Analfabeto 59 40,1% 88 59,9%
da 1 a 3 srie primria 50 34,5% 95 65,5%
> 3 srie primria 41 24,1% 129 75,9%
Escolaridade do Analfabeto 57 45,6% 68 54,4%
chefe da famlia da 1 a 3 srie primria 53 29,6% 126 70,4%
> 3 srie primria 44 26,2% 124 73,8%
Condio Alta 40 25,2% 119 74,8%
socioeconmica da Media 75 35,9% 134 64,1%
famlia em 3 grupos Baixa 39 37,5% 65 62,5%

Representao grfica
INTRODUO

Mesmo que uma tabela resumo numrica quase sempre fornea mais informao que uma
representao grfica, existem ocasies nas quais o uso de um grfico til para realar uma descrio
simples e amena dos dados para o receptor da informao.

A instruo principal para realizar grficos com o SPSS a instruo GRAPH.


Como sempre que se constri um grfico, as instrues de sintaxe, em qualquer
sistema ou pacote estatstico, costumam ser muito numerosas, aumentando
quanto maior for a qualidade do grfico que se deseja apresentar.

SINTAXE

mostrada somente a sintaxe para que o grfico fique apresentvel. Para obter
uma viso mais completa consulte os manuais.

GRAPH
[/TITLE=linha 1 [linha 2]]
[/SUBTITLE=linha 1]
[/FOOTNOTE=linha 1 [linha 2]]
{/BAR [{(Tipo)}]=funo/varivel}
{/LINE [{(Tipo)}]= funo/varivel}
{/PIE }
{/HISTOGRAM [(NORMAL)]=var }
{/SCATTERPLOT[{(bi/tridimensional)}]=especificao varivel}
{/ERRORBAR[{(CI[{95}])}]={var [var var ...][BY var]} }
[/MISSING=[{casos missing}]]

O significado das subinstrues o seguinte:

Em primeiro lugar, a identificao do contedo grfico para o leitor:

/TITLE: Permite inserir um ttulo para o grfico. Pode especificar at duas linhas
para este.
/SUBTITLE: Especifica um subttulo.
/FOOTNOTE: Especifica uma nota no rodap do grfico.

Em segundo lugar o tipo de grfico:


/BAR: Cria um grfico de barras. Este tipo de grfico habitualmente utilizado
para descrever a distribuio de freqncias de uma varivel categrica. Tambm
pode ser utilizado para representar variveis discretas com poucos valores
observados.
A seguir, so apresentados alguns exemplos desta subinstruo.

GRAPH
/BAR(SIMPLE)=COUNT BY idad4
/TITLE= 'Distribuio das crianas estudadas em funo a
idade.'.

Neste caso o resultado seria o descrito na Figura 7.15:

Figura 7.15. Exemplo de grfico de barras em GRAPH.

Distribuio das crianas em funo da idade


180

160

140
Freqncia

120

100

80

60
[12-24) [24-36) [36-48) [48-60)

Idade da criana em grupos

Tambm poderamos representar em um mesmo grfico a descrio por diagrama


de barras de subgrupos gerados por uma varivel categrica, por meio do uso de
BY.

GRAPH
/BAR(GROUPED)=PCT BY mescola BY tip_loc
/TITLE= 'Distribuio dos anos de estudo da me por tipo de
localidade.'.

Figura 7.16. Exemplo do uso da opo BY em um grfico e barras.


Distribuio dos anos de estudo

da me por tipo de localidade.


40

30

Porcentagem
20

10 Tipo de localidade

Urbana

0 Rural
0 1 2 3 4 5 6 7 8 9 10 12 13 15 17

Cursos escolares completos pela me

/LINE: Indica-se, nesta subinstruo, se no grfico so especificadas curvas, nas


quais cada ponto representa um valor de freqncia ou de porcentagem ou de
mdia de uma varivel com valores repetidos, ou se o que representam so reas
abaixo da curva ou diferena de reas ou de ordenadas entre curvas. Como
padro, entende-se que o grfico representa uma ou vrias curvas individuais.

GRAPH
/LINE(SIMPLE)=MEAN(peso_kg) BY idadmes
/TITLE= 'Peso da criana em funo da idade.'.

Figura 7.17. Exemplo de grfico de linha.

Peso da criana em funo da idade.


22
Mdia do peso da criana (em quilos)

20

18

16

14

12

10

8
12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57

Idade da criana(em meses)

/PIE: Constri um grfico de setores, que utilizado para descrever a


distribuio das porcentagens de cada categoria de uma varivel categrica.

GRAPH
/PIE=PCT BY sanit
/TITLE= 'Tipo de banheiro das casas estudadas.'.

Na figura 7.18 est a representao obtida com a instruo PIE.

Figura 7.18. Exemplo e grfico de setores.

Tipo de banheiro das casas estudadas.

Completo

Latrina, fossa

Nenhum, usa o solo

/HISTOGRAM: Gera um histograma tal e como mostrado na Figura 7.19. Este


um dos grficos mais usados para descrever uma varivel quantitativa. Observe
como o programa agrupa diretamente os valores em intervalos iguais e pela barra
representa a freqncia de valores observados neste intervalo. Quando
especificado NORMAL, uma curva normal sobreposta e ajuda a julgar se os
dados esto distribudos, segundo uma Normal, com mdia e desvio padro iguais
aos da amostra de dados do estudo.
GRAPH
/HISTOGRAM(NORMAL)=protot
/TITLE= 'Distribuio das protenas consumidas.'.

Figura 7.19. Exemplo de histograma com curva normal sobreposta.

Distribuio das protenas consumidas.


70

60

50

40

30

20

Std. Dev = 18,08


10
Mean = 35,9
0 N = 472,00
65

75

85

95

10

11

12
5,

15

25

35

45

55
0

,0

,0

,0

,0

5,

5,

5,
,0

,0

,0

,0

,0

Total de protenas consumidas

/SCATTERPLOT: Gera um grfico bi ou tridimensional til para examinar a relao


entre duas ou trs variveis quantitativas. Por exemplo, no arquivo de trabalho, a
aplicao das seguintes instrues permite visualizar os grficos mostrados a
seguir nas Figuras 7.20 e 7.21.

GRAPH
/SCATTERPLOT(BIVAR)=peso_kg WITH tall_cms
/TITLE= 'Relao entre o peso e a altura das crianas
estudadas.'.

Figura 7.20. Exemplo de diagrama de disperso bidimensional.


Relao entre o peso e a altura das crianas .
120

110

Altura da criana (em centmetros)


100

90

80

70

60
0 10 20 30

Peso da criana (em quilos)

GRAPH
/SCATTERPLOT(XYZ)=peso_kg WITH tall_cms WITH protot
/TITLE= 'Total de protenas consumidas por peso e altura.'.

Figura 7.21. Exemplo de diagrama de disperso tridimensional.

Total de protenas consumidas por peso e altura.

120

110

A 100
l
t
90
u
r
a 80

70

60

30 140
20 100 120
60 80
10
0 20 40
Peso(em quilos) Total de protenas

/ERRORBAR: Permite descrever a mdia e medidas de disperso obtidas de


certa varivel, em funo dos valores de outra categrica.

O ponto mdio representa a mdia observada, enquanto que os intervalos


assinalam o que o analista especificar. Entre parntesis e depois de ERRORBAR
indique:

- CI n**: Os intervalos representaro o intervalo de confiana ao nvel n de


confiana. Como padro, n=95.
- STERROR n: Os intervalos representaro n unidades de erro padro. Para
n=1.96 obteria o IC com 95%.

- STDDEV n: Os intervalos representaro n unidades de desvio padro.

Por exemplo, a instruo seguinte produz como resultado o grfico da figura 7.22.:

GRAPH
/ERRORBAR( CI 95 )=protot BY idad4
/TITLE= 'Total de protenas consumidas em funo da idade
da criana.'.

Figura 7.22. Intervalos de confiana das mdias da varivel Total de


protenas nos diferentes grupos de idade das crianas estudadas.

Total de protenas consumidas

em funo da idade da criana.


44

42
95% CI Total de Protenas

40

38

36

34

32

30

28
N= 151 159 88 74

[12-24) [24-36) [36-48) [48-60)

Idade da criana em grupos

/MISSING: Determina quais casos sero excludos da anlise e portanto no


estaro presentes no grfico. Deve ser escolhida uma opo de cada par:

- LISTWISE** / VARIABLE: A primeira exclui, da anlise de cada varivel


especificada na instruo, aqueles casos que apresentam algum missing em qualquer das
variveis estudadas. Isto , utiliza somente aqueles casos em que no so observados
missings em todas as variveis analisadas. VARIABLE exclui somente o caso da varivel que
apresenta o missing, no as demais.

- EXCLUDE** / INCLUDE: EXCLUDE trata os valores missing de usurio e no os de


sistema, como valores que no fazem parte da anlise, enquanto que INCLUDE os leva em
conta.
- NOREPORT** / REPORT: A primeira no utiliza nem os missings de usurio nem os de
sistema na descrio, ao contrrio de REPORT, que usa tanto uns quanto outros.

JANELAS

Tal como mostrado na figura 7.23 a seguir, ao ativar o menu Graphs da barra de
ferramentas, oferecida no somente a gama de grficos anunciados, mas
tambm muitos mais. Recomendamos a leitura detalhada do manual de ajuda
para poder elaborar, sem muita perda de tempo, o grfico mais adequado.

Figura 7.23. Menu desdobrvel que mostra as diferentes opes grficas do


programa.
Sintaxes do Captulo 7

*************************************************************
**********.
* CONTROLE DE QUALIDADE
*.
*************************************************************
**********.

GET FILE='C:\Spss\Chiapas\Nutricio.sav '.

* Busca por valores fora do intervalo e impossveis *.

DESCRIPTIVES protea protev protot tall_cms peso_kg


/STATISTICS=MIN MAX .

FREQUENCIES sexo ed_madre mescola mocupa municipi totape


tip_loc ncudor
sanit luz refr tv paredes piso com_coc segsoc
sex_jefe ed_jefe jescola jocupa fr_carne idadmes
idad4 nut piso2 paredes2 cse .

************************* Comentrios
****************************.
*
*.
* A destacar: *.
* *.
* SEXO: escrito de oito formas diferentes e um caso em branco
*.
* 9.7% de valores missing na idade da me. *.
* 1 idade da me = 95. *.
* 1 ocupao da me = 4. *.
* 1 idade do chefe da famlia = 510. *.
* *.
*************************************************************
******.

* Recuperamos o nmero de questionrio dos casos com erros *.


* para repass-los aos responsveis pela coleta dos dados *.
* com a finalidade de verificar se algum pode ser conferido
*.

COMPUTE filtro=(sexo=' ') .


FILTER BY filtro .
EXECUTE .
FREQ ncuest .

COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .

COMPUTE filtro=(mocupa=4) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .

COMPUTE filtro=(ed_jefe=510) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .

FILTER OFF .

* ateno, sabemos que: ncuest=426 MASCULINO *.

* Corrigimos erros *

RECODE
ed_madre (95=SYSMIS) .
EXECUTE .

RECODE
mocupa (4=SYSMIS) .
EXECUTE .

RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .

COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .

RECODE
sexo ' '='MASCULINO') ('FEMENU9'='FEMENINO')
('FEMENINP'='FEMENINO')
('MASCLINO'='MASCULINO') .
EXECUTE .
* Transformamos a varivel SEXO em numrica *.

RECODE sexo
('MASCULINO'=1) ('FEMENINO'=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 'Masculino' 2 'Feminino' .

FREQ sexo ed_madre mocupa ed_jefe .

* Salvamos o arquivo depurado com o nome de NUT_FIN.SAV *.


* Alm disso, para este arquivo no mantemos as variveis que
*.
* no vamos analisar mesmo que as tenhamos transformado ou
tenham *.
* servido para criar novas variveis *.

SAVE OUTFILE='C:\Spss\Chiapas\Nut_fin.sav ' /COMPRESSED


/DROP= f_entr f_nacim totape ncudor carne sexo .

*************************************************************
***********.
* DESCRIO OS DADOS
*.
*************************************************************
***********.

GET FILE='C:\Spss\Chiapas\Nut_fin.sav' .

************** DESCRIO UNIVARIADA *****************.

* Variveis categricas *.

FREQ mocupa municipi tip_loc sanit luz refr tv paredes piso


com_coc
segsoc sex_jefe jocupa fr_carne idad4 nut piso2 paredes2 .

* Variveis quantitativas discretas *.

FREQ ed_madre mescola ed_jefe jescola idadmes cse


/STATISTICS=MEAN MEDIAN SKEWNESS SESKEW KURTOSIS SEKURT .

* Variveis contnuas *.

DESCRIPTIVES protea protev protot tall_cms peso_kg dens_dom


/STATISTICS=ALL .

*************** DESCRIO BIVARIADA ****************.

* Variveis categricas e adequao alimentar *.

CROSSTABS
mocupa tip_loc sanit luz refr tv paredes piso com_coc
segsoc
sex_jefe jocupa fr_carne sex piso2 paredes2 BY nut
/CELLS= COUNT ROW .

* Variveis quantitativas e adequao alimentar *.

EXAMINE VAR=ed_madre mescola ed_jefe jescola dens_dom cse BY


nut
/PLOT NONE
/MISSING PAIRWISE .

*** Calculados os resultados,recodificamos algumas variveis


***.

RECODE fr_carne
(1 thru 3=1) (4 thru hi=2) INTO carne2 .
EXECUTE .
FOR carne2 (F1.0) .
VAR LAB carne2 'Freqncia de ingesto de carne' .
VAL LAB carne2 1 '1 vez ou mais / 15 dias' 2 'Menos de uma
vez / 15 dias' .
VAR LEV carne2 (NOMINAL) .

RECODE
dens_dom (Lowest thru 4.99=1) (5 thru Highest=2) INTO
dens_do2
EXECUTE .
FOR (F1.0) .
VAR LAB dens_do2 'N de pessoas / dormitrio' .
VAL LAB dens_do2 1 '< 5' 2 '>= 5' .
VAR LEV dens_do2 (NOMINAL) .
RECODE mescola jescola
(0=0) (1 thru 3=1) (4 thru hi=2) INTO mestud cestud .
EXECUTE .
FOR mestud cestud (F1.0) .
VAR LAB mestud 'Escolaridade da me'
/ cestud 'Escolaridade do chefe da famlia' .
VAL LAB mestud cestud 0 'Analfabeto' 1 'da 1 a 3 srie
primria' 2 '> 3 srie primria' .
VAR LEV mestud cestud (ORDINAL) .

RECODE cse (0 thru 2=1) (3 thru 5=2) (6 thru Hi=3) INTO


cse3.
EXECUTE .
FOR cse3 (F1.0) .
VAR LAB cse3 'Condio socioeconmica da famlia em 3
grupos' .
VAL LAB cse3 1 'Alta' 2 'Mdia' 3 'Baixa' .
VAR LEV cse3 (ORDINAL) .

FREQ mestud cestud carne2 dens_do2 cse3 .

SAVE OUTFILE='D:\Spss\Chiapas\Nut_fin.sav' / COMPRESSED .

* Realizamos a descritiva bivariada com estas variveis *.

CROSSTABS
mestud cestud carne2 dens_do2 cse3 BY nut
/CELLS= COUNT ROW .
Captulo 8.

MACROS OU PROGRAMAS E
USO FREQENTE.
INTRODUO

medida que um analista de dados adquire experincia no trabalho, observa


que muitas das aes que realiza em um estudo so iguais, ou quase
repetidas, s que realizou em outros estudos. Alm do mais, cada pessoa
sistematiza essas aes de maneira particular, em funo de sua forma de
desenvolver a anlise. Assim, escrever novamente uma mesma sintaxe ou
executar as mesmas janelas, mudando somente as variveis objeto de estudo,
implica em acentuada perda de tempo. Uma opo ter cada uma destas
instrues armazenadas em um arquivo de sintaxes, mudando exclusivamente
o nome das variveis por meio do editor, uma vez aberto o programa, j
armazenado, na janela de sintaxes.

Outra opo, muito mais interessante, consiste na criao de macros ou


programas de uso freqente, que permitem o trabalho sistematizado de
determinadas aes. Por exemplo, por que escrever (ou reescrever)
constantemente uma instruo CROSSTABS, que mostre a distribuio
conjunta e uma das condicionadas, se pode obt-la por apenas uma linha de
texto, na qual se especifica exclusivamente as variveis sobre as quais se
deseja realizar a descrio?

Neste captulo, vamos introduzir o conceito de macro ou programa de uso


freqente e como trabalhar com ele.

Devemos indicar ao leitor que as possibilidades de criao de programas de


uso freqente ou macros so muito amplas. Aqui, de forma introdutria, lhe
mostramos a filosofia desses programas e como so criados e executados. Ao
leitor interessado em se aprofundar no tema, aconselhamos que o faa pelos
manuais do programa.

SINTAXE

A instruo que permite definir aes de uso freqente descrita a seguir:

DEFINE nome
([{argumento=} {!TOKENS (n) }]
{!POSITIONAL= } {!CHAREND(char)}
[/{nome argumento=} ...])
{!POSITIONAL= }
corpo da macro
!ENDDEFINE

DEFINE nome: a instruo geral que define um programa macro. Todas as


macros devem comear com DEFINE. A seguir da indicao de incio de uma
macro (DEFINE), devemos especificar o nome que daremos a esta instruo
de agora em diante.
Se voc fizer uma reviso das instrues que escrevemos neste livro, em
especial nas de estatstica descritiva, observar que, na maioria delas, as
variveis envolvidas esto agrupadas em dois conjuntos que se relacionam.
Em geral, a relao indicada pela palavra ou instruo BY. Em uma instruo
macro, cada um destes subgrupos pode receber um nome ou argumento a
critrio do analista, podem-se tambm definir, da lista de variveis que so
especificadas na macro, as ordens ou posies correspondentes a um grupo e
que posies ou ordem, dentro da lista, no outro.

Esta informao indicada com a subinstruo nome do argumento ou com a


correspondente POSITIONAL.

nome do argumento: Os argumentos ou palavras chaves especificam


nomes dados arbitrariamente pelo analista na definio da macro. No corpo ou
texto da macro, estes argumentos devem ser precedidos pelo sinal de
exclamao (!).

!POSITIONAL= Depois desta subinstruo, podemos definir os argumentos,


segundo sua posio relativa na lista de variveis definidas na macro.

Isto , em POSITIONAL=1 sero indicadas, a seguir, quantas variveis


compem este primeiro subconjunto na lista de variveis, com que caractere
este subconjunto finalizado na lista.

Isto , uma vez escolhida uma das duas opes para definir os conjuntos que
se relacionam na instruo ou instrues que compem a macro, devem-se
indicar, de alguma maneira, quantas variveis compem cada argumento ou
POSITION. Em princpio, existem duas formas para indicar esta informao.

!TOKENS (n): Atribuindo um valor a n, entre parntesis, indica-se


que este argumento ou POSITION est constitudo por n variveis,
as quais sero indicadas na instruo de sintaxes a ser executada.

!CHAREND (char): Ao especificar um determinado caractere,


char entre parntesis, est sendo indicado o final da lista de
variveis que pertencem a este argumento ou position.

Nota-se que ambas as opes tm como objetivo exclusivamente especificar


as variveis correspondentes a cada argumento.

corpo da macro: O corpo da macro basicamente um conjunto qualquer


de instrues SPSS que o leitor j conhece. a macro em si, o que foi
explicado anteriormente como se far referncia a ela na sintaxe de agora
em diante.
Na prtica, a nica diferena plausvel com uma instruo executada de forma
normal que, se na macro foram utilizados argumentos, estes devem ser
precedidos pelo sinal de exclamao. Uma vez escrita a macro desejada, dois
passos devem ser seguidos, para que sejam executadas as instrues que
vm incorporadas:

1. Executar a macro como qualquer instruo de sintaxes do SPSS:

Com esta ao, a macro fica carregada de tal forma que o nome da
macro associa-se s instrues definidas. Aparentemente no acontece
nada, a macro fica pronta para ser utilizada.

2. Chamar a macro:

Esta ao realizada pela incluso do nome da macro [argumento(s)]


no programa de sintaxe.
Assim, as instrues contidas na macro so executadas sobre o (os)
argumento (s) que se especifica(m), sempre que esta macro necessite
de tal ou tais argumentos.

A seguir, criaremos uma macro que nos permita sistematizar a descrio de


duas variveis categricas conjuntamente. Tal e qual vimos no captulo 7, ao
existir uma varivel de interesse ou resposta, apresentaremos esta descrio
pela distribuio conjunta das duas variveis e uma das distribuies
condicionadas. Alm do mais, antes disso listaremos as distribuies de
freqncias de todas as variveis que participam da anlise.

A definio desta macro poderia ser:

DEFINE cruz (int=!TOKENS(1) /exp=!TOKENS(20)).


FREQ !int !exp .
CROSS
/TABLES= !exp BY !int
/CELLS= COUNT ROW .
!ENDDEFINE .

Observaes:

Cruz o nome que a partir de agora chamaremos esta macro. Possui


dois conjuntos de variveis definidos por argumentos de nomes int e
exp. Os objetivos da macro so o de cruzar e o de descrever as
variveis indicadas em cada argumento.

Int o argumento que faz referncia varivel resposta ou de interesse.


O nome do argumento Int totalmente arbitrrio. J que em nosso
estudo s temos uma, a adequao alimentar, especificamos
!TOKENS(1).

Exp permite assinalar as variveis explicativas. Este nome, como no


caso anterior, tambm arbitrrio. No estudo que realizamos existem
muitas variveis explicativas. Suponhamos que em uma s chamada da
macro desejamos realizar a descrio para, no mximo, vinte variveis,
da: !TOKENS(20).

O corpo da macro formado por uma instruo FREQUENCIES e um


CROSSTABS. Neles so especificados os argumentos em DEFINE.

Uma vez definida uma macro, como j havamos dito, sua ativao realizada
pela sua execuo no arquivo de sintaxes, (selecionando com o cursor o texto
que define a macro e clicando na tecla da barra de ferramentas do editor de
sintaxes), como mostrado na Fig. 8.1.

Figura 8.1. Execuo de uma macro. Primeiro passo.


Mesmo que aparentemente no acontea nada, a macro j est carregada e a
ponto de ser executada ao ser chamada.

Para chamar e executar macro, deve-se somente especificar seu nome e que
variveis compem cada argumento ou subgrupo de variveis. Por exemplo:

cruz int=nut exp=municipi mocupa mestud .

Obviamente esta instruo executada da forma habitual no arquivo de


sintaxes. Observe a Fig. 8.2.:

Figura 8.2. Execuo de uma macro. Segundo passo.


Uma vez executado o anterior, dirija-se ao arquivo de resultados e observe o
que aparece.

A seguir ou em qualquer outro momento, poderamos novamente executar a


macro, obviamente com outras variveis nos argumentos. Por exemplo:

cruz int=municipi exp=sex idad4 cestud .

Neste caso, a anlise desejada seria a mesma que no caso anterior, mas
referente varivel municipi, em funo de sex, idad4 e cestud.

Criemos agora outra macro:

DEFINE cruz2 (!POSITIONAL !TOKENS(1) /!POSITIONAL


!TOKENS(20)).
FREQ !1 !2 .
CROSS
/TABLES=!2 BY !1
/CELLS= COUNT ROW .
!ENDDEFINE .

a executamos e, a seguir a chamamos pela expresso:

cruz2 nut municipi mocupa mestud.


Compare os resultados obtidos nesta segunda macro com os obtidos
anteriormente.

COMENTRIOS

1. Note que ao chamar as macros no programa, depois do nome que as identificam, os


argumentos no so precedidos pelo sinal de exclamao.

2. Observe que as duas macros (CRUZ e CRUZ2) executam as mesmas aes: no arquivo
de resultados aparecem as distribuies de freqncias de nut, municipi, mocupa e mestud
e, posteriormente, os cruzamentos de nut com as outras variveis.

3. A nica diferena entre as macros como so definidos os argumentos: se feito segundo


um nome especificado pelo prprio usurio ou segundo a ordem estabelecida na definio
da macro.

Outra macro interessante poderia ser a que permitisse efetuar a descrio de


uma varivel quantitativa em funo de outra categrica. Poderia ter a seguinte
forma:

DEFINE conbycat (ttulo=!TOKENS(1) / con=!TOKENS(1)


/cat=!TOKENS(20)).
SUMMARIZE
/TABLES=!con BY !cat
/CELLS=COUNT MEAN SEMEAN MIN MEDIAN MAX
/TITLE=!ttulo .
!ENDDEFINE .

chamaramos esta macro assim:

conbycat ttulo='Descrio do total de protenas em funo


das caractersticas da casa' con=protot cat= sanit
luz refr tv paredes2 piso2 com_coc .

Mas as macros no permitem somente sistematizar aes de anlise ou


descrio, permitem tambm a manipulao de arquivos e a criao ou
transformao de variveis. Na macro a seguir, por exemplo, criada uma
varivel que o nmero de dias transcorridos entre duas datas, a nova varivel
ser etiquetada e ser realizada uma descrio dela. Por exemplo, com as
datas de nascimento e entrevista presentes nos arquivos NIN_VILL.SAV e
NIN_JAL.SAV (ou NINHOS.SAV). Observe:

DEFINE dias (d_fin=!TOKENS(1) /data1=!TOKENS(1)


/data2=!TOKENS(1) /et_var=!TOKENS(1)).
COMPUTE !d_fin = ctime.days(!data1 - !data2) .
EXECUTE .
VAR LAB !d_fin !et_var .
EXAMINE VAR=!d_fin
/PLOT NONE.
!ENDDEFINE .

A chamada desta macro em nosso exemplo teria a seguinte expresso:

dias d_fin=id_dias data1=f_entr data2=f_nacim et_var='Dias transcorridos


entre o nascimento
+ da criana e a entrevista.'
COMENTRIOS
Uma opo interessante para render o tempo das anlises, que so repetitivas, consiste na
criao de um arquivo de macros. Este no mais do que um arquivo normal de instrues
SPSS, no qual existem todas as macros que voc deseja e que, ao ser executado, carrega
todas as macros de uma vez, de forma que qualquer uma delas possa ser utilizada. Com isto,
quando criar uma nova macro, esta poder ser adicionada a este arquivo, sabendo que ele tem
armazenadas todas as macros utilizadas, no estando estas dispersas no disco.

Por exemplo, se quisssemos criar um arquivo de macros com as que especificamos at


agora, deveramos somente abrir o editor de sintaxes e escrever cada macro em seguida
da outra:

DEFINE cruz (int=!TOKENS(1) /exp=!TOKENS(20)).


FREQ !int !exp .
CROSS
/TABLES=!exp BY !int
/CELLS= COUNT ROW .
!ENDDEFINE .

DEFINE cruz2 (!POSITIONAL !TOKENS(1) /!POSITIONAL


!TOKENS(20)).
FREQ !1 !2 .
CROSS
/TABLES=!2 BY !1
/CELLS= COUNT ROW .
!ENDDEFINE .

DEFINE conbycat (ttulo=!TOKENS(1) / con=!TOKENS(1)


/cat=!TOKENS(20)).
SUMMARIZE
/TABLES=!con BY !cat
/CELLS=COUNT MEAN SEMEAN MIN MEDIAN MAX
/TITLE=!ttulo .
!ENDDEFINE .

DEFINE dias (d_fin=!TOKENS(1) /data1=!TOKENS(1)


/data2=!TOKENS(1) /et_var=!TOKENS(1)).
COMPUTE !d_fin = ctime.days(!data1 - !data2) .
EXECUTE .
VAR LAB !d_fin !et_var .
EXAMINE VAR=!d_fin
/PLOT NONE.
!ENDDEFINE .

Assim, se desejar ter este arquivo armazenado (imaginemos que o nomeie MACROS.SPS) em
um diretrio ou pasta particular de seu sistema (por exemplo, C:\SPSS\HABITUAL\), ao iniciar
uma nova sesso do SPSS, dever somente execut-lo pela seguinte instruo:

INC C:\SPSS\HABITUAL\MACROS.SPS .

Desta forma, as macros cruz, cruz2, conbycat e dias j esto carregadas e disponveis para
serem utilizadas a qualquer momento, enquanto dure a sesso, como explicamos
anteriormente.
Captulo 9 .

AUTO-AVALIAO
Introduo

O leitor que seguiu sistematicamente o texto deste livro capaz de efetuar, de forma
rigorosa e profissional, todas as manipulaes de arquivos que o SPSS permite. No
entanto preciso comprovar at que ponto o nvel de conhecimento adquirido lhe
permite realizar a manipulao de novos dados e efetuar as anlises descritivas deles, de
acordo com os passos necessrios, sem ter de recorrer a algum roteiro.

Por esta razo, neste captulo apresentado um novo exemplo, baseado tambm em um
estudo concreto realizado no Brasil, no contexto do programa de internato rural do
currculo do curso de Medicina da Universidade Federal de Minas Gerais (UFMG).

ANLISE DA DISTRIBUIO DE FRMACOS EM FAMLIAS DA ZONA


URBANA DO MUNICPIO DE IBI-MG-BRASIL

Este estudo foi realizado por Horcio Pereira Faria, professor do Departamento de
Medicina Preventiva e Social da Faculdade de Medicina da UFMG, entre os anos 1997
e 2000.

O trabalho que vamos analisar, parcialmente, justificava o estudo com base na


necessidade de planificar a prestao farmacutica por dois motivos: em primeiro lugar,
a insuficincia de recursos do sistema pblico de sade, que, no contexto em que se
efetua o trabalho, responsabilidade do municpio, e, em segundo lugar, porque uma
porcentagem significativa da populao no dispe de recursos para a compra dos
medicamentos no cobertos pelo sistema pblico.

Sob estas duas premissas, pretende-se conhecer a distribuio da posse de


medicamentos pelas famlias de Ibi, municpio do Estado de Minas Gerais, no Brasil, e
a natureza dos fatores que podem influir nesta distribuio.

De forma geral, pretende-se descrever se os fatores de natureza socioeconmica condicionam


a posse de medicamentos, e se esta condio equivalente ou similar ao que poderia ser
considerado mais lgico a priori. O que que gera o fato? A presena ou no de pessoas
doentes na famlia?

No exemplo que ser enunciado, pretende-se chegar exclusivamente a este aspecto descritivo,
se bem que, no trabalho original, so efetuados outros tipos de anlises, com base em
modelos logsticos para quantificar essas possveis relaes 1.

Caractersticas do municpio e da amostra


estudada

1
Anlise da distribuio de frmacos em famlias da zona urbana do municpio de IbiMG, Brasil por
modelos logsticos. Horcio Pereira de Faria. Cerdanyola del Valls: Universitat Autnoma de Barcelona,
2001. [Tesina]
O estudo foi realizado no municpio de Ibi e de natureza transversal. Foram
utilizados basicamente os dados de uma pesquisa domiciliar realizada na rea urbana do
municpio, com o objetivo de obter informaes para a atividade de planejamento de
sade pela administrao do municpio.

Ibi um municpio da regio sudoeste do Estado de Minas Gerais (Tringulo Mineiro),


Brasil. Observe sua localizao geogrfica na Figura 9.1.:

Figura 9.1. Localizao geogrfica do municpio de Ibi no estado de Minas


Gerais, Brasil.

No momento do estudo, Ibi contava com uma populao em torno de 20 000 pessoas,
das quais cerca de 90% viviam na rea urbana. O municpio apresentava economia
baseada na agricultura, particularmente no cultivo da batata.

A regio urbana do municpio era dividida pela administrao municipal em duas reas
de sade, segundo critrios socioeconmicos e de acessibilidade aos servios de sade.
Cada rea de sade, por sua vez, estava dividida em microreas, segundo critrios
geogrficos e operacionais (rea de trabalho dos Agentes Comunitrios de SadeACS).

A pesquisa foi feita no segundo semestre de 1997. O questionrio foi aplicado pelos
agentes comunitrios de sade, que fizeram um curso de treinamento especfico para
esta finalidade.

Foram selecionadas de forma aleatria 5 microreas, sendo 2 da rea A e 3 da rea B,


que tinham, respectivamente, 10 e 14 microreas. Isto somou um total de 1025 famlias
e 27% do total de lares cadastrados, sendo, em todos os casos, a unidade bsica de
anlise o lar, que quase sempre era habitado por uma nica famlia. Sendo assim, 976
lares foram pesquisados, e isto significa 95,2% dos que foram inicialmente planejados.
Para este trabalho, a expresso lar ou famlia foi utilizada indistintamente.

O questionrio tinha 3 blocos de perguntas fechadas e abertas, que geraram as seguintes


variveis de estudo:
Nmero de pessoas residentes no lar.
Nmero de pessoas com mais de 64 anos.
Nmero de pessoas com menos de 15 anos.
Presena/ausncia de pessoas com enfermidade aguda no lar. Esta varivel se
refere morbidade percebida nos ltimos 15 dias antes da entrevista.
Presena/ausncia de pessoas com enfermidade crnica no lar.
Escolaridade mxima das pessoas com mais de 15 anos que viviam no lar. Esta
varivel foi dicotomizada, considerando alta escolaridade ter curso superior ou
secundrio e baixa escolaridade ter apenas o curso primrio ou no ter educao
formal.
Caractersticas do lar: foi observado se a residncia tinha banheiro,
fornecimento de gua, coleta de lixo, esgoto, geladeira, televiso, quantos
dormitrios, se no momento da entrevista existiam jornais e revistas no lar e se a
famlia tinha carro.
Posse de frmacos: verificava-se se, no momento da entrevista, existiam
frmacos no lar, e, em caso afirmativo, para cada um deles observava-se:
Frmaco prescrito: se o frmaco encontrado no lar tinha sido prescrito ou
no por mdicos.
Grupos teraputicos: para cada frmaco era observado se fazia parte de um
conjunto de grupos teraputicos, conjunto constitudo pelos tipos de
atividade teraputica de maior interesse e uso na Medicina de Primeiro Nvel
ou Ateno Primria. Os grupos considerados so mostrados na Tabela 9.2.
Foram encontrados com freqncia frmacos que possuem mais de um
princpio ativo, motivo pelo qual um frmaco pode ter marcado mais de um
grupo teraputico.
Este sistema de classificao permitiria, no caso em que o investigador
necessitasse, determinar quantos medicamentos so combinaes
medicamentosas e de que tipo.

Estes dados se encontravam armazenados em diferentes arquivos, os quais foram


ligeiramente manipulados para serem apresentados neste livro. A seguir, so resumidos
os trs arquivos com suas variveis, que so indicadas nas Tabelas 9.1. e 9.2.
Tabela 9.1. Variveis contidas nos arquivos ZONA_A.DBF e ZONA_B.DBF.

Varivel Descrio Categorias

id_fam N. de identificao da famlia


tot_pers Total de pessoas no lar
mayores N. de pessoas com mais de 64 anos
menores N. de pessoas com menos de 15 anos
agudos Presena de doentes agudos 0-No; 1-Sim
cronicos Presena de doentes crnicos 0-No; 1-Sim
1-Secundrio ou
escola Escolaridade mxima Universitrio;
2-Analfabeto ou primrio
sanitari Tem banheiro? 0-No; 1-Sim
gua Tem fornecimento de gua? 0-No; 1-Sim
colecta Tem coleta de lixo? 0-No; 1-Sim
alcant Tem rede de esgoto? 0-No; 1-Sim
coche Tem carro? 0-No; 1-Sim
nevera Tem geladeira? 0-No; 1-Sim
cuartos N. de dormitrios
tv Tem televiso? 0-No; 1-Sim
diario Presena de jornais 0-No; 1-Sim
revista Presena de revistas 0-No; 1-Sim

A administrao municipal dividiu a zona urbana do municpio de Ibi em duas reas de


sade, segundo critrios socioeconmicos. A rea A ou zona A (predominantemente de
classe mdia e mdia alta) e a rea B ou zona B (predominantemente classe mdia baixa
e baixa).
Observe que na tabela 9.1. so apresentadas as variveis registradas em dois arquivos
diferentes, mesmo que ambos possuam variveis idnticas. O primeiro corresponde aos
lares da zona A, e o segundo, aos da zona B.
Na tabela 9.2 apresentada a informao referente a cada um dos frmacos localizados nos
lares, assim como aos grupos teraputicos nos quais eles podem ser classificados.

Tabela 9.2. Informao dos frmacos encontrados nos lares, arquivo


FRMACOS.XLS.

Varivel Descrio Categorias

id_fam N de identificao da famlia


farm_num Nmero de identificao do frmaco no lar
prescric Frmaco prescrito? 0-No; 1-Sim
analges Analgsico 0-No; 1-Sim
antiinfl Antiinflamatrio 0-No; 1-Sim
antihip Anti-hipertensivo 0-No; 1-Sim
diuret Diurtico 0-No; 1-Sim
bronco Broncodilatador 0-No; 1-Sim
antaci Anticido 0-No; 1-Sim
antbio Antibitico 0-No; 1-Sim
otros Outros 0-No; 1-Sim

Sobre este arquivo, vale a pena citar, novamente, que cada registro (cada linha da
matriz de dados) corresponde a um nico frmaco. possvel que voc possa
estranhar, ao observar que em um mesmo registro sejam indicados mais de um
grupo teraputico. Como j visto, isto perfeitamente possvel, pois um mesmo
medicamento pode ter mais de uma ao teraputica. Por exemplo, sabe-se que
muitos frmacos atuam simultaneamente como analgsicos e antiinflamatrios.

OBJETIVO:
O exerccio consiste em descrever de forma bivariada a associao entre os fatores
sociodemogrficos, econmicos e de morbidade percebida (em forma de presena de
enfermos agudos e crnicos), com a posse ou no de medicamentos nos lares.
Como objetivo especfico, comprova tambm a prescrio de frmacos, segundo o
grupo teraputico e a condio socioeconmica.

Segundo seus prprios interesses, fixe suas hipteses e realize as descries


apropriadas para obter a informao que as responda.

ALGUMAS INDICAES:
1. Antes de tentar observar as associaes entre a posse de frmacos e os fatores de
interesse, siga, como sempre, todas as fases de anlise de um estudo: importao de
arquivos de dados, definio, criao e recodificao de variveis, manipulao de
arquivos, controle de qualidade e descrio univariada dos dados registrados.

2. O investigador principal deste estudo no estava especialmente interessado nas


variveis sobre as caractersticas do lar de forma independente. Estas variveis foram
coletadas exclusivamente para gerar uma classificao socioeconmica das
famlias. Esta classificao no foi determinada quantitativamente, em razo da
dificuldade de se obterem indicadores confiveis (salrios, por exemplo). Por este
motivo, optou-se por constru-la, a partir de uma pontuao com relao a algumas
condies observadas em cada lar:

Ter banheiro (1 ponto).


Ter fornecimento de gua (1 ponto).
Ter coleta de lixo (1 ponto).
Ter rede de esgoto (1 ponto).
Ter carro (2 pontos).
Ter geladeira (1 ponto).
Aglomerao inferior mediana observada (1 ponto).
Ter televiso (1 ponto).
Presena e jornais (1 ponto).
Presena de revistas (1 ponto).

Desta forma, foi construda uma varivel, cujo intervalo de valores podia alterar-se
entre 0 (no apresenta caractersticas favorveis) e 11 (apresenta todas as
caractersticas favorveis). Posteriormente, esta varivel pontuao foi categorizada
em dois grupos, em funo da mediana observada.

Comprove que esta categorizao associa-se muito positivamente ao cruzar a varivel


dicotomizada com a rea A e B de sade, reas de distinta classificao econmica e
social, segundo o municpio de Ibi.

3. Categorize a posse de frmacos, varivel de interesse, em dois grandes grupos, em


funo da mediana do total de frmacos observados em cada lar.

4. Trate as variveis Nmero de pessoas com mais de 64 anos e Nmero de


pessoas com menos de 15 anos como Presena/Ausncia de indivduos com estas
caractersticas no lar, no como nmero total de pessoas com estas caractersticas.

5. Observe tambm a associao entre o nmero de habitantes no lar (categorizada pela


mediana) e a posse de frmacos.
Sintaxe do Captulo 9

*********************************************************************.
* Passamos os arquivos a formato de dados SPSS, realizamos o *.
* controle de qualidade e criamos um nico arquivo de trabalho. *.
*********************************************************************.

*** Importamos e definimos o arquivo da zona A ***.

GET TRANSLATE FILE='C:\SPSS\Autoaval\zona_a.dbf' /MAP .

VAR LAB id_fam ' N de identificao da famlia '


/ tot_pers ' Total de pessoas no lar '
/ mayores ' N de pessoas com mais de 64 anos '
/ menores ' N de pessoas com menos de 15 anos '
/ agudos ' Presena de doentes agudos '
/ cronicos ' Presena de doentes crnicos '
/ escola 'Escolaridade mxima'
/ sanitari ' Tem banheiro?'
/ agua ' Tem fornecimento de gua?'
/ colecta ' Tem coleta de lixo '
/ alcant ' Tem rede de esgoto?'
/ coche 'Tem carro?'
/ nevera 'Tem geladeira?'
/ cuartos 'N de dormitrios'
/ tv 'Tem televiso?'
/ diario 'Presena de jornais'
/ revista 'Presena de revistas' .
VAL LAB escola 1Secundrio ou Universitrio 2 Analfabeto ou
primrio
/ agudos cronicos sanitari agua colecta alcant coche nevera tv diario revista

0 'No' 1 'Sim' .

VAR LEV id_fam tot_pers mayores menores cuartos (SCALE)


/ agudos cronicos escola sanitari agua colecta alcant coche nevera tv

diario revista (NOMINAL) .

SAVE OUTFILE='C:\SPSS\Autoaval\zona_a.sav'
/COMPRESSED.

*** Importamos e definimos o arquivo zona B ***.

GET TRANSLATE FILE='C:\SPSS\Autoaval\zona_b.dbf' /MAP .

VAR LAB id_fam ' N de identificao da famlia '


/ tot_pers ' Total de pessoas no lar '
/ mayores ' N de pessoas com mais de 64 anos '
/ menores ' N de pessoas com menos de 15 anos '
/ agudos ' Presena de doentes agudos '
/ cronicos ' Presena de doentes crnicos '
/ escola 'Escolaridade mxima'
/ sanitari ' Tem banheiro?'
/ agua ' Tem fornecimento de gua?'
/ colecta ' Tem coleta de lixo '
/ alcant ' Tem rede de esgoto?'
/ coche 'Tem carro?'
/ nevera 'Tem geladeira?'
/ cuartos 'N de dormitrios'
/ tv 'Tem televiso?'
/ diario 'Presena de jornais'
/ revista 'Presena de revistas' .
VAL LAB escola 1Secundrio ou Universitrio 2 Analfabeto ou
primrio
/ agudos cronicos sanitari agua colecta alcant coche nevera tv diario revista

0 'No' 1 'Sim' .

VAR LEV id_fam tot_pers mayores menores cuartos (SCALE)


/ agudos cronicos escola sanitari agua colecta alcant coche nevera tv

diario revista (NOMINAL) .

SAVE OUTFILE='C:\SPSS\Autoaval\zona_b.sav'
/COMPRESSED.

*** Juntamos os casos as duas zonas em um arquivo nico ***.

ADD FILES /FILE='C:\SPSS\Autoaval\zona_a.sav'


/FILE='C:\SPSS\Autoaval\zona_b.sav'
/IN=zona
/DROP= d_r.
EXECUTE.

VAR LAB zona 'Zona sanitria' .


VAL LAB zona 0 'A' 1 'B' .
VAR LEV zona (NOMINAL) .
FOR zona (f1) .

*** Fazemos o controle de qualidade ***.

FREQ tot_pers agudos cronicos mayores menores escola sanitari agua colecta alcant coche nevera cuartos tv
diario revista zona .

* Detectamos um erro em SANITARI -um valor 4- e em COCHE -um valor 8-


*.
* No podemos recuper-los, transformamos os mesmos em missing *.
* de sistema*.

RECODE sanitari (4=sysmis) .


EXECUTE .
RECODE coche (8=sysmis) .
EXECUTE .
FREQ sanitari coche .

* Salvamos o arquivo *.

SORT CASES by id_fam .

SAVE OUTFILE='C:\SPSS\Autoaval\lares.sav'
/COMPRESSED.

*** Importamos e definimos o arquivo FARMACOS.XLS ***.

GET DATA /TYPE=XLS


/FILE='C:\SPSS\Autoaval\farmacos.xls'
/SHEET=name 'farmacos'
/CELLRANGE=full
/READNAMES=on .

VAR LAB id_fam 'N de identificao da famlia'


/ farm_num 'Nmero de identificao o frmaco no lar'
/ prescric 'Frmaco prescrito'
/ analges 'Analgsico'
/ antiinfl 'Antiinflamatrio'
/ antihip 'Antihipertensivo'
/ diuret 'Diurtico'
/ bronco 'Broncodilatador'
/ antaci 'Anticido'
/ antbio 'Antibitico'
/ otros 'Outros' .
VAL LAB prescric analges antiinfl antihip diuret bronco antaci
antbio otros 0 'No' 1 'Sim' .

VAR LEV id_fam farm_num (SCALE)


/ prescric analges antiinfl antihip diuret bronco antaci
antbio otros (NOMINAL) .
FOR id_fam (f4)
/ farm_num (f2)
/ prescric analges antiinfl antihip diuret bronco antaci
antbio otros (f1) .

*** Realizamos o controle de qualidade ***.

FREQ farm_num prescric analges antiinfl antihip diuret bronco antaci


antbio otros .

* No detectamos erros. Salvamos o arquivo *.

SORT CASES by id_fam .

SAVE OUTFILE='C:\SPSS\Autoaval\farmacos.sav'
/COMPRESSED.
*** Agregamos o arquivo para obter um novo arquivo com a famlia ***.
*** e o nmero total de frmacos ***.

AGGREGATE
/OUTFILE='C:\SPSS\Autoaval\farm_fam.sav'
/BREAK=id_fam
/tot_farm = MAX(farm_num).

*** Abrimos e caracterizamos o novo arquivo ***.

GET FILE='C:\SPSS\Autoaval\farm_fam.sav'.

VAR LAB tot_farm 'Total de frmacos no lar' .

SORT CASES by id_fam .

SAVE OUTFILE='C:\SPSS\Autoaval\tot_farm.sav'
/COMPRESSED.
*** Adicionamos a varivel TOT_FARM ao arquivo dos lares, ***.
*** LARES.SAV ***.

MATCH FILES /FILE='C:\SPSS\Autoaval\lares.sav'


/TABLE='C:\SPSS\Autoaval\tot_farm.sav'
/BY id_fam.
EXECUTE.

*** Criamos e recodificamos variveis ***.

* Construmos a varivel densidade domiciliar e a categorizamos *.

COMPUTE dens_dom = tot_pers/cuartos .


EXECUTE .
VAR LAB dens_dom 'N de pessoas por dormitrio' .
VAR LEV dens_dom (SCALE) .
FOR dens_dom (f5.2) .
FREQ dens_dom .

* Categorizamos em 1='<= 1 pess/dorm' 2='> 1 pess/dorm' *.

RECODE dens_dom
(Lo thru 1=1) (1.01 thru Hi=2) INTO dens_do2.
EXECUTE .
VAR LAB dens_do2 'N de pessoas por dormitrio (categorizada)' .
VAL LAB dens_do2 1 '<= 1 pess/dorm' 2 '> 1 pess/dorm' .
VAR LEV dens_do2 (ORDINAL) .
FOR dens_do2 (f1) .
FREQ dens_do2 .

* Os lares onde no foram encontrados frmacos no aparecem em *.


* FARMACOS.SAV, e portanto no arquivo resultante representam um 77*.
* SYSMIS na varivel TOT_FARM *.

RECODE tot_farm (SYSMIS=0) .


EXECUTE .
FREQ tot_farm .

* Categorizamos pela mediana *.


RECODE tot_farm
(Lo thru 5=1) (6 thru Hi=2) INTO farm .
EXECUTE .
VAR LAB farm 'Posse de frmacos (categorizada)' .
VAL LAB farm 1 '< 6' 2 '>= 6' .
VAR LEV farm (NOMINAL) .
FOR farm (f1) .
FREQ farm .

* Categorizamos o total de pessoas no lar segundo a mediana *.

RECODE tot_pers
(Lo thru 3=1) (4 thru Hi=2) INTO pess_lar.
EXECUTE.
VAR LAB pess_lar 'Total de pessoas no lar (categorizada)' .
VAL LAB pess_lar 1 '< 4' 2 '>= 4' .
VAR LEV pess_lar (NOMINAL) .
FOR pess_lar (f1) .
FREQ pess_lar .

* Categorizamos MAYORES e MENORES em Presena/Ausncia *.

RECODE mayores menores


(0=0) (1 thru Hi=1) INTO idosos2 menores2.
EXECUTE.
VAR LAB idosos2 'Presena de pessoas com mais de 64 anos'
/ menores2 'Presena de pessoas com menos de 15 anos' .
VAL LAB idosos2 menores2 0 'No' 1 'Sim' .
VAR LEV idosos2 menores2 (NOMINAL) .
FOR idosos2 menores2 (f1) .
FREQ idosos2 menores2 .

* Construmos a varivel Pontuao socioeconmica *.


* Cada caracterstica 'positiva' soma um ponto, exceto a posse *.
* de carro que soma 2 *.

* Primeiro a criamos sem levar em conta a varivel COCHE.


*.
* J que as caractersticas favorveis valem um ponto,
devemos *.
* somente contar quantas existem em cada lar*.

COUNT csepont = sanitari agua colecta alcant nevera tv diario revista


dens_do2 (1) .
EXECUTE .

* Adicionamos agora a pontuao de carro *.

COMPUTE csepont = csepont + coche*2 .


EXECUTE .

VAR LAB csepont 'Pontuao socioeconmica' .


VAR LEV csepont (SCALE) .
FOR csepont (f2) .
FREQ csepont .

* Categorizamos a condio socioeconmica *.


RECODE csepont
(Lo thru 6=1) (7 thru Hi=2) INTO cse .
EXECUTE .

VAR LAB cse 'Classificao socioeconmica' .


VAL LAB cse 1 'Menor' 2 'Maior' .
VAR LEV cse (NOMINAL) .
FOR cse (f1) .
FREQ cse .

SAVE OUTFILE='C:\SPSS\Autoaval\far_ibia.sav'
/COMPRESSED.

*********************************************************************.
* Realizamos a descrio univariada das variveis
registradas *.
* e criadas *.
*********************************************************************.

* Variveis categricas *.

FREQ agudos cronicos escola sanitari agua colecta alcant coche nevera tv diario revista zona dens_do2 pess_lar
idosos2 menores2 cse .

* Variveis quantitativas discretas *.

FREQ tot_pers mayores menores cuartos tot_farm csepont


/ STATISTICS=MEAN MEDIAN SKEWNESS SESKEW KURTOSIS SEKURT .

* Variveis quantitativas contnuas *.

DESCRIPTIVES dens_dom
/ STATISTICS=ALL .

*********************************************************************.
* Buscamos associaes entre as variveis explicativas e a *.
* posse de frmacos *.
*********************************************************************.

CROSS
agudos cronicos escola zona dens_do2 pess_lar idosos2 menores2 cse
BY farm
/ CELLS = COUNT ROW .
EXECUTE .