An·lise de Dados Amostrais Complexos

Djalma Galv„o Carneiro Pessoa (Consultor)- IBGE
Pedro Luis do Nascimento Silva (Pesquisador)- IBGE
17 de MarÁo de 1998

2

Í n dice
0.1
0.2

Pref·cio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . .

6
7

1

I n t r o d ução
1.1 MotivaÁ„o . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Estrutura do Livro . . . . . . . . . . . . . . . . . . . . . . . .

9
9
14

2

R efe r e nci a l p a r a I n fe r ên ci a
2.1 Modelagem - Primeiras IdÈias . . . . . . . . . . . . . .
2.1.1 Abordagem 1 - Modelagem Cl·ssica . . . . . .
2.1.2 Abordagem 2 - Amostragem ProbabilÌstica . .
2.1.3 Discuss„o das Abordagens 1 e 2 . . . . . . . . .
2.1.4 Abordagem 3 - Modelagem de SuperpopulaÁ„o
2.2 Fontes de VariaÁ„o . . . . . . . . . . . . . . . . . . . .
2.3 Modelos de SuperpopulaÁ„o . . . . . . . . . . . . . . .
2.4 Planejamento Amostral . . . . . . . . . . . . . . . . .
2.5 Planos Amostrais Informativos e Ignor·veis . . . . . .

.
.
.
.
.
.
.
.
.

17
17
17
19
19
22
24
25
28
29

.
.
.
.
.

33
33
37
39
42
43

.
.
.
.

47
47
48
51
61

3

4

E st i m ação B asea d a no P l a n o A m ost r al
3.1 EstimaÁ„o de Totais . . . . . . . . . . . . . . .
3.2 Por que Estimar Vari‚ncias . . . . . . . . . . .
3.3 LinearizaÁ„o de Taylor para Estimar Vari‚ncias
3.4 MÈtodo do Conglomerado Prim·rio . . . . . . .
3.5 MÈtodos de ReplicaÁ„o . . . . . . . . . . . . . .
E fei t os do P l a no A m ost r al
4.1 IntroduÁ„o . . . . . . . . . . . . . . . . . . . .
4.2 Efeito do Plano Amostral (EPA) de Kish . .
4.3 Efeito do Plano Amostral Ampliado . . . . .
4.4 Intervalos de ConfianÁa e Testes de HipÛteses
3

.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.

. . . . . .1.3 EstatÌstica de Pearson com Ajuste de Rao-Scott . . . . . . . . . . . .2. . . . . .3 Teste de HipÛteses . 7. . . . . . . . . . . . . 5. . . . . . . 7. . . . . . . .1 CorreÁ„o de EstatÌsticas Cl·ssicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 EstatÌstica de Pearson com Ajuste de Rao-Scott . . . 8. . .3.2 Teste para uma ProporÁ„o . . 119 119 120 120 121 121 123 123 127 128 129 .2 Tabelas 2x2 . 8. . . . . . . . . . . . . 5. . . . . . 8.3 Teste para V·rias ProporÁıes . . . . . . . . . . .4 EstimaÁ„o da Vari‚ncia de Estimadores de MPV 6. . . .3. . . . . . . . . . . .3 Estimadores de MPV dos Par‚metros do Modelo 6. . . 8. . . . . . . . .3 Efeitos de Plano Amostral nas Celas .3. . . . . . .6 Desvantagens da InferÍncia Baseada em AleatorizaÁ„o . . . 103 103 104 104 108 109 110 110 111 Test es e m T a b el as d e D u as e n t r a d as 8. . . . . 8. .3.2 Teste de IndependÍncia . . . . . . . . . . . . . . .2 MÈtodo de M·xima VerossimilhanÁa (MV) .1 EstatÌstica de Wald Baseada no Plano Amostral 7. . . .1 EspecificaÁ„o do Modelo . . . . . . .2 Teste de Homogeneidade . . . . 6. . . .2 Pseudo-par‚metros do Modelo . . . . . . .ÍNDIC E 4 4. . . . . . . . .2. . . . . . . .2 Modelo de Regress„o LogÌstica . . . . . . 8. . . . . 8. . . 6. 87 87 87 88 90 91 92 100 Test es d e Q u ali d a d e d e A j ust e 7. 64 . . . . . . 5.1. .1. . . . . . . . . . . . . .3 Tabelas de Duas Entradas (Caso Geral) . . 7. . 71 71 73 74 78 83 84 M o d elos d e R eg r essão 6. . . 6. . . . . . . . . . . . . . . . . . . . . . 5. .1.5 Robustez do Procedimento MPV . . . . . . . . 7. . .2. . . . . . . . 6. . . .5 5 6 7 8 Efeitos Multivariados de Plano Amostral . .1 Teste de IndependÍncia . . . . . . . . .3 EstatÌstica de Wald Baseada no Plano Amostral 8. . . . . . . .1 IntroduÁ„o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . . .2. . . . . . . .3. . . .2. . .2 SituaÁıes Inst·veis . . . . . . . . .3. . . . .3 PonderaÁ„o de Dados Amostrais . . . . . .2 EstatÌstica de Wald . . . . . . . . 8. . . . . . 7. .1 Teste de Homogeneidade . . . . . . . . . . . . . A j ust e d e M o d elos P a r a m é t r icos 5.1 Modelo de Regress„o Linear Normal . 5. 7. . . . .1 IntroduÁ„o . . . . . . . . . . . . . . . .1 IntroduÁ„o . . . . . . .4 MÈtodo de M·xima Pseudo-VerossimilhanÁa .

. . . . .3 Modelos Hier·rquicos . . . . . . . . . . . . . . .4 An·lise Desagregada: PrÛs e Contras . . .2 Pacotes Computacionais . . . . .1 IntroduÁ„o . . . . . . . . . D esagr egação 9. . . . . . . . . . . . . . 155 .1 IntroduÁ„o . . . . . . . . . . . . 9. . 9. . 5 . . . . .2 Modelagem da Estrutura Populacional 9. . . . . . . . . . . . . . . . 155 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 135 136 139 151 10 P aco t es p a r a A n á lise d e D a dos A m ost r a is 155 10. .ÍN DIC E 9 A gr egação vs. . . . . .

Neste caso. enfatizamos um aspecto tÈcnico particular.1 P refácio Uma preocupaÁ„o b·sica de toda instituiÁ„o produtora de informaÁıes estatÌsticas È com a utilizaÁ„o îcorretaî de seus dados. e apresentar os ajustes necess·rios desses procedimentos de modo a incorporar na an·lise. criou condiÁıes extremamente favor·veis ‡ utilizaÁ„o de dados estatÌsticos. Os pacotes tradicionais de an·lise ignoram estes aspectos. envolvendo a construÁ„o de modelos. porÈm. AlÈm disso. sua utilizaÁ„o È feita para fins analÌticos. Quando utilizamos a amostra para estudos analÌticos. de forma apropriada. Isso pode ser intrepretado de v·rias formas. Para isto ser„o .ÍNDIC E 6 0. podendo produzir estimativas incorretas tanto dos par‚metros como para as vari‚ncias destas estimativas. est r a t i ficação e conglo m e r ação d as u n i d a d es. Algumas vezes esses dados s„o utilizados para fins puramente descritivos. pacotes computacionais padrıes disponÌveis para a seleÁ„o e ajuste de modelos. algumas delas com reflexos atÈ na confianÁa do p˙blico e na prÛpria sobrevivÍncia do Ûrg„o. Do nosso ponto de vista. A mensagem principal que pretendemos transmitir È que certos cuidados precisam ser tomados para utilizaÁ„o correta dos dados de pesquisas amostrais como as que o IBGE realiza. A revoluÁ„o da inform·tica com a resultante facilidade de acesso ao computador. como tÈcnicos da ·rea de metodologia do IBGE. O que torna especiais dados como os produzidos pelo IBGE È que estes s„o obtidos atravÈs de pesquisas amostrais complexas de populaÁıes finitas que envolvem: p r ob a b ili d a d es d ist i n t as d e seleção. O objetivo deste livro È analisar o impacto das simplificaÁıes feitas ao utilizar procedimentos e pacotes usuais de an·lise de dados. que sofre ainda influÍncia da estratificaÁ„o e conglomeraÁ„o. os aspectos aqui ressaltados. sem grandes preocupaÁıes. O que torna tais dados especiais para quem pretende us·-los para fins analÌticos? Esta È a quest„o b·sica que ser· amplamente discutida ao longo deste texto. as opÁıes disponÌveis nos pacotes estatÌsticos usuais para levar em conta os pesos distintos das observaÁıes s„o apropriadas somente para observaÁıes independentes e identicamente distribuÌdas (IID). Outras vezes. … neste ponto que entra a nossa preocupaÁ„o com o uso adequado dos dados produzidos pelo IBGE. a variabilidade dos pesos produz impactos tanto na estimaÁ„o pontual quanto na estimaÁ„o das vari‚ncias dessas estimativas. a j ust es p a r a co m p e nsa r n ão-r esp ost a e ou t r os a j ust es. quando o objetivo È extrair conclusıes aplic·veis tambÈm a populaÁıes distintas daquela da qual se extraiu a amostra. mas nem por isso menos importante para os usu·rios dos dados. È comum empregar. produzidos por Ûrg„os como o IBGE.

agradecemos a ZÈlia Bianchini pela revis„o do manuscrito e sugestıes que o aprimoraram. 0. Aos demais colegas do Departamento de Metodologia do IBGE. . agradecemos o companheirismo e solidariedade nesses meses de trabalho na preparaÁ„o do manuscrito. Em primeiro lugar.2 A gr a deci m e n t os A elaboraÁ„o de um texto como esse n„o se faz sem a colaboraÁ„o de muitas pessoas. A G R A D E C I M E N T OS 7 apresentados exemplos de an·lises de dados obtidos em pesquisas amostrais complexas. No plano pessoal. agradecemos a nossas famÌlias pela aceitaÁ„o resignada de nossas ausÍncias e pelo incentivo ‡ conclus„o da empreitada.2. Luiz Pessoa e Marinho Persiano pela colaboraÁ„o na utilizaÁ„o do processador de textos. A comparaÁ„o dos resultados das an·lises feitas das duas formas permitir· avaliar o impacto de ignorar o plano amostral na an·lise dos dados resultantes de pesquisas amostrais complexas. Agradecemos a Marcos Paulo de Freitas e Renata Duarte pela ajuda com a computaÁ„o de v·rios exemplos. Agradecemos tambÈm ao IBGE por ter proporcionado as condiÁıes e os meios usados para a produÁ„o da monografia. Agradecemos a Waldecir Bianchini. agradecemos ‡ Comiss„o Organizadora do SINAPE por ter propiciado a oportunidade ao selecionar nossa proposta de minicurso. bem como o acesso aos dados detalhados e identificados que utilizamos em v·rios exemplos.0. usando pacotes cl·ssicos e tambÈm pacotes estatÌsticos especializados. Finalmente.

8 ÍNDIC E .

feita geralmente por analistas que trabalham fora das agÍncias produtoras dos dados. Tais pacotes estatÌsticos n„o consideram os seguintes aspectos relevantes no caso de amostras complexas: i) p r ob a b ili d a d es d ist i n t as d e seleção d as u n i d a d es.C a pí t u lo 1 I n t ro d ução 1. o foco È. iv) n ão-r esp ost a e ou t ros a j ust es. j· incorporado aos principais pacotes estatÌsticos disponÌveis. Outro uso destes dados. ii) co nglo m e r ação d as u n i d a d es. Neste caso. sob condiÁıes que n„o refletem a complexidade usualmente envolvida nas pesquisas amostrais de populaÁıes finitas. nas quais. entretanto. em geral. 9 . O uso destes pacotes se faz. mÈdias e razıes. Para isto. Tais dados s„o comumente utilizados em an·lises descritivas envolvendo o c·lculo de estimativas para totais. s„o devidademente considerados os pesos distintos das observaÁıes e o planejamento da amostra que lhes deu origem. È a construÁ„o de modelos. partem de hipÛteses b·sicas que sÛ s„o v·lidas quando os dados s„o obtidos atravÈs de amostras aleatÛrias simples com reposiÁ„o (AASC). iii) est r a t i ficação. Em geral. essencialmente. proporÁıes.1 M o t i vação Este livro trata de problema de grande import‚ncia para os usu·rios de dados obtidos atravÈs de pesquisas amostrais por agÍncias produtoras de informaÁıes estatÌsticas. a estatÌstica cl·ssica conta com um arsenal de ferramentas de an·lise. denominado secund·rio. estabelecer a natureza de relaÁıes ou associaÁıes entre vari·veis.

os pacotes tradicionais de an·lise podem produzir estimativas incorretas das vari‚ncias das estimativas pontuais. as estimativas de vari‚ncia s„o influenciadas pela conglomeraÁ„o. Em seguida foi feita uma alocaÁ„o proporcional. Regi„o Metropolitana de S„o Paulo.10 C A PÍ T U L O 1. A seguir vamos apresentar um exemplo de uso de dados de uma pesquisa amostral real para ilustrar como os pontos i) a iv) mencionados afetam a inferÍncia sobre quantidades descritivas populacionais tais como mÈdias. îA Pesquisa Domiciliar sobre Padrıes de Vida (PPV) foi realizada nas Regiıes Nordeste e Sudeste do PaÌs. O plano amostral foi de dois est·gios. perfazendo um total de 30 estratos geogr·ficos versus renda. Segundo Albieri e Bianchini(1997). Regi„o Metropolitana do Rio de Janeiro. considerando 10 estratos geogr·ficos. com exceÁ„o para os estratos que correspondem ao restante da ·rea rural de cada Regi„o onde fixou-se em 30 o n˙mero de setores e em 16 o n˙mero de domicÌlios a serem selecionados por setor. restante da ·rea rural do Nordeste. a saber: Regi„o Metropolitana de Fortaleza. O tamanho da amostra para cada estrato geogr·fico foi fixado em 480 domicÌlios. com estratificaÁ„o das unidades prim·rias e probabilidade de seleÁ„o proporcional ao tamanho e seleÁ„o aleatÛria das unidades de segundo est·gio. Regi„o Metropolitana de Salvador. Os setores de cada um dos 10 estratos geogr·ficos foram subdivididos em 3 estratos de acordo com a renda mÈdia mensal do chefe da famÌlia por setor. Regi„o Metropolitana de Belo Horizonte. AlÈm disso.1. razıes e totais. com base no n˙mero de domicÌlios particulares permanentes ocupados do estrato de renda no universo de cada estrato geogr·fico. Em cada estrato geogr·fico foi fixado em 60 o n˙mero de setores a serem selecionados e 8 domicÌlios em cada setor. A unidade prim·ria È o setor da base geogr·fica do Censo Demogr·fico de 91 e a unidade do segundo est·gio È o domicÌlio. . estratificaÁ„o e pesos. I N T R O D U Ç Ã O As estimativas pontuais de par‚metros da populaÁ„o s„o influenciadas por pesos distintos das observaÁıes.1 DistribuiÁ„o dos pesos da amostra da PPV Os dados deste exemplo s„o relativos ‡ distribuiÁ„o dos pesos na amostra da Pesquisa Domiciliar sobre Padrıes de Vida (PPV). Ao ignorar estes aspectos. proporÁıes. distribuÌdos tal como revela a Tabela 1. No final foram obtidos 554 setores na amostra. E x e m p lo 1. restante da ·rea urbana do Sudeste e restante da ·rea rural do Sudeste. Regi„o Metropolitana de Recife. restante da ·rea urbana do Nordeste. o que implicaria em aumento de custoî. realizada pelo IBGE nas Regiıes Nordeste e Sudeste do Brasil nos anos 96-97. em funÁ„o da dificuldade de acesso a esses setores. obtidos pelo Censo de 91.

234 29.310 61 2.964 61 25.068 61 23.752 10.481 M·ximo 15.2 apresenta um resumo das distribuiÁıes dos pesos amostrais para as Regiıes Nordeste (5 estratos geogr·ficos) e Sudeste (5 estratos geogr·ficos) separadamente e para o conjunto da amostra da PPV. M O T I VA Ç Ã O 11 Tabela 1.364 Mediana 1.234 A Tabela 1. por estrato geogr·fico Estrato Geogr·fico 1-RM Fortaleza 2-RM Recife 3-RM Salvador 4-Restante Nordeste Urbano 5-Restante Nordeste Rural 6-RM Belo Horizonte 7-RM Rio de Janeiro 8-RM S„o Paulo 9-Restante Sudeste Urbano 10-Restante Sudeste Rural Total N˙mero de setores PopulaÁ„o Amostra 2.902 61 12. a grande variabilidade dos pesos amostrais da PPV È devida ‡ variabilidade das probabilidades de inclus„o na amostra.188 61 15.038 21 112.892 4.1: N˙mero de setores na populaÁ„o e na amostra. .1.287 62 10.348 29.940 1.496 8. ilustrando desta forma o ponto i) citado anteriormente nesta seÁ„o.1. Contudo.268 62 2.723 33 3.2: DistribuiÁ„o dos pesos da amostra da PPV Regi„o Nordeste Sudeste Nordeste + Sudeste MÌnimo 724 991 724 Q1 1.034 Q3 6.407 5.175 554 Tabela 1.427 61 14. No c·lculo dos pesos foram consideradas as probabilidades de inclus„o dos elementos na amostra bem como correÁıes devido a n„o-resposta.159 2.

quando utilizamos a amostra para estudos analÌticos. e considerando o plano amostral da pesquisa e os pesos diferenciados das unidades. mÈdias. quando estimamos medidas descritivas simples da populaÁ„o tais como totais. tais como totais. Essa raz„o fornece uma medida do efeito de ignorar o plano amostral (EPA). Assim. proporÁıes e razıes. proporÁıes. … possÌvel ainda incorporar os pesos. 1992) para cada uma das estimativas consideradas. mÈdias. Por outro lado. Nesse ˙ltimo caso. a variabilidade dos pesos produz impactos tanto na estimaÁ„o pontual quanto na estimaÁ„o das vari‚ncias dessas estimativas. Como se pode observar da quarta coluna da Tabela 1. Essas estimativas de vari‚ncias foram calculadas sob duas estratÈgias: considerando amostragem aleatÛria simples (portanto ignorando o plano amostral efetivamente adotado). as opÁıes disponÌveis nos pacotes estatÌsticos usuais para levar em conta os pesos distintos das observaÁıes s„o apropriadas somente para observaÁıes independentes e identicamente distribuÌdas (IID). a raz„o entre o maior e o menor peso È cerca de 40 vezes. usar a estimativa de vari‚ncia como se o plano amostral fosse amostragem aleatÛria simples implicaria em subestimar consideravelmente a vari‚ncia da estimativa pontual. multiplicando-se cada observaÁ„o pelo seu respectivo peso. Por exemplo. de maneira simples e natural. etc. A raz„o entre as estimativas de vari‚ncia obtidas sob o plano amostral verdadeiro e sob amostragem aleatÛria simples foi calculada usando o pacote SUDAAN (Shah et al. os valores do efeito do plano amostral variam de um modesto 1.pontos ii) e iii) mencionados anteriormente. Tais pesos s„o utilizados para îexpandirî os dados. por exemplo.. Os resultados s„o apresentados na Tabela 1. I N T R O D U Ç Ã O Na an·lise de dados desta pesquisa.26 para o n˙mero mÈdio de filhos tidos por mulheres em idade fÈrtil (12 a 49 anos de idade) atÈ um substancial 4. Para exemplificar o impacto de ignorar os pesos e o plano amostral ao estimar quantidades descritivas populacionais. basta somar os pesos dos elementos da amostra que pertencem a este conjunto.12 C A PÍ T U L O 1. Contudo.17 para o total de analfabetos entre pessoas de mais de 14 anos.3. que È mais que 4 vezes maior se consideramos o plano amostral efetivamente utilizado. para estimar quantos elementos da populaÁ„o pertencem a determinado conjunto (domÌnio). deve-se considerar que h· elementos da amostra com pesos bem distintos.3. calculamos estimativas de quantidades desses tipos usando a amostra da PPV juntamente com estimativas das respectivas vari‚ncias. que sofre ainda influÍncia da conglomeraÁ„o e estratificaÁ„o . .

17 11.145 87.947 2.511 323.344 318.877 4.174. 18 2.982 2. 39 0.Regi„o Sudeste îPar‚metroî Populacional 1) N˙mero mÈdio de pessoas por domicÌlio 2) % de domicÌlios alugados 3) N˙mero total de pessoas que avaliaram seu estado de de sa˙de como ruim 4) Total de analfabetos de 7 a 14 anos 5) Total de analfabetos de mais de 14 anos 6) % de analfabetos de 7 a 14 anos 7) % de analfabetos de mais de 14 anos 8) Total de mulheres de 12 a 49 anos que tiveram filhos 9) Total de mulheres de 12 a 49 anos que tiveram filhos vivos 10) Total de mulheres de 12 a 49 anos que tiveram filhos mortos 11) N˙mero mÈdio de filhos tidos por mulheres de 12 a 49 anos 12) Raz„o de dependÍncia Estimativa Desvio padr„o E PA 3. 64 16.3: Estimativas de Efeitos de Plano Amostral (EPAs) para vari·veis selecionadas da PPV . 86 10. 62 0.804. 02 10.590 322. 05 2.182 2.363 2.792. 46 10.1.208. 01 1.817. 87 0. M O T I VA Ç Ã O 13 Tabela 1.123 146. 99 . 02 709.1.681 3. 37 1. 03 1. 67 3. 97 1.220 127. 03 1. 26 0. 70 1. 53 0. 87 1. 64 4. 15 2.

de modo a considerar de forma apropriada os pontos i) a iii) mencionados nesta seÁ„o. tais como razıes e outras estatÌsticas requeridas na inferÍncia analÌtica com dados amostrais. e em seguida revistas algumas tÈcnicas para estimaÁ„o de vari‚ncias ˙teis para o caso de estatÌsticas complexas. 1). I N T R O D U Ç Ã O 14 O objetivo deste livro È analisar o impacto das simplificaÁıes feitas ao utilizar pacotes usuais de an·lise de dados. Little e Rubin(1987). por exemplo. S„o discutidos os procedimentos b·sicos para estimaÁ„o de totais considerando o plano amostral. 2 e 3). e Rubin(1987). A comparaÁ„o dos resultados das an·lises feitas das duas formas permitir· avaliar o impacto de n„o se considerar os pontos i) a iii) anteriormente citados.1. No terceiro capÌtulo apresentamos uma revis„o sucinta. Esse referencial tem evoluÌdo ao longo dos anos como uma forma de permitir a incorporaÁ„o de idÈias e procedimentos de an·lise e inferÍncia usualmente associados ‡ EstatÌstica Cl·ssica ‡ pr·tica da interpretaÁ„o de dados provenientes de pesquisas amostrais. Apesar dessa evoluÁ„o.2 E st r u t u r a do L i v ro O livro est· organizado em dez capÌtulos. Holt e Smith(1989. 1. Wolter(1985) . Este primeiro capÌtulo discute a motivaÁ„o para estudar o assunto e apresenta uma idÈia geral da estrutura do livro. sua adoÁ„o n„o È livre de controvÈrsia e uma breve revis„o dessa discuss„o È apresentada na seÁ„o 2. O ponto iv) n„o ser· diretamente tratado neste texto. Swensson e Wretman(1992.C A PÍ T U L O 1. cap. 2) e Skinner. 1992) e o STATA (Stata. 1997). cap. procuramos dar uma vis„o das diferentes abordagens utilizadas na an·lise estatÌstica de dados de pesquisas amostrais complexas. de alguns resultados b·sicos da Teoria de Amostragem. tanto uma estrutura estoc·stica para descrever a geraÁ„o dos dados populacionais (modelo) como o plano amostral efetivamente utilizado para obter os dados amostrais (plano amostral). no caso o SUDAAN (Shah et al. de forma natural. Para isto ser„o apresentados exemplos de an·lises de dados obtidos em pesquisas amostrais complexas. As referÍncias centrais para este capÌtulo s„o S‰rndal. requeridos nas partes subsequentes do livro. No segundo capÌtulo. usando pacotes cl·ssicos e tambÈm pacotes estatÌsticos especializados. As referÍncias b·sicas para seguir este capÌtulo s„o Nascimento Silva(1996. a tÌtulo de recordaÁ„o. cap. e apresentar os ajustes necess·rios.. O leitor interessado na an·lise de dados sujeitos a n„o-resposta pode consultar Kalton(1983a). Apresentamos um referencial para inferÍncia com Ínfase no Modelo de SuperpopulaÁ„o que incorpora.

para incorporar os pesos e o plano amostral na obtenÁ„o n„o sÛ de estimativas de par‚metros dos modelos regulares de interesse.1. 6) e Binder(1983). 6). Nesta abordagem. e introduzimos um mÈtodo geral. O CapÌtulo 6 trata da obtenÁ„o de Estimadores de M·xima PseudoVerossimilhanÁa (EMPV) e da respectiva matriz de covari‚ncia para os par‚metros em modelos de regress„o linear e de regress„o logÌstica. de independÍncia e de homogeneidade em tabelas de contingÍncia. comparamos o estimador da vari‚ncia apropriado para dados obtidos por amostragem aleatÛria simples (hipÛtese de AAS) com o valor esperado deste mesmo estimador sob a distribuiÁ„o dos dados estruturados ou sob a distribuiÁ„o de aleatorizaÁ„o do plano amostral efetivamente utilizado (plano amostral verdadeiro). denominado MÈtodo de M·xima Pseudo-VerossimilhanÁa (MPV). para dados provenientes de pesquisas amostrais complexas. que permite avaliar o impacto de ignorar a estruturaÁ„o dos dados populacionais ou do plano amostral sobre a estimativa da vari‚ncia de um estimador. As referÍncias centrais s„o Nascimento Silva(1996. cap. o SUDAAN (Shah et al. Nascimento Silva e Duarte(1997). No CapÌtulo 9 discutimos uma forma alternativa de analisar dados de pesquisas complexas. e atravÈs de um programa de uso geral. ES T RU T U R A D O LI V R O 15 e Cochran(1977). Binder(1983) e Nascimento Silva(1996. No CapÌtulo 4 introduzimos o conceito de Efeito do Plano Amostral (EPA). s„o feitas comparaÁıes entre resultados de ajustes obtidos atravÈs de um programa especializado. Holt e Smith(1989). como tambÈm das vari‚ncias dessas estimativas. Apresentamos correÁıes das estatÌsticas cl·ssicas e a estatÌstica de Wald baseada no plano amostral.. Aqui a referÍncia principal foi o livro Skinner. As referÍncias b·sicas usadas nesses capÌtulos foram os livros Skinner. onde ajustamos um modelo de regress„o logÌstica. incorporamos explicitamente na an·lise v·rios aspectos do plano amostral . 4) e Lehtonen e Pahkinen(1995. No CapÌtulo 5 estudamos a quest„o do uso de pesos ao analisar dados provenientes de pesquisas amostrais complexas. Holt e Smith (1989. Apresentamos um exemplo de aplicaÁ„o com dados do Suplemento Trabalho da Pesquisa Nacional por Amostra de DomicÌlios (PNAD) de 90. 1992). O sÈtimo e oitavo capÌtulos tratam da an·lise de dados categÛricos com Ínfase na adaptaÁ„o dos testes cl·ssicos para proporÁıes. o S-Plus.2. cap. quando os dados vÍm de pesquisas amostrais complexas. alÈm de Pessoa. Para isso. cap. 7). As referÍncias b·sicas utilizadas nesse capÌtulo foram Skinner(1989b). denominada an·lise desagragada. complementado com o texto de Lehtonen e Pahkinen(1995). Neste exemplo. Pfeffermann(1993). cap.

16

C A PÍ T U L O 1. I N T R O D U Ç Ã O

utilizado atravÈs do emprego de modelos hier·rquicos (Bryk e Raudenbush,
1992). Em contraste, a abordagem adotada nos oito primeiros capÌtulos È
denominada an·lise agregada, e procura îeliminarî da an·lise efeitos tais
como conglomeraÁ„o induzida pelo plano amostral, considerando tais efeitos
como îruÌdosî ou fatores de perturbaÁ„o que îatrapalhamî o emprego dos
procedimentos cl·ssicos de estimaÁ„o e teste de hipÛteses.
Por ˙ltimo, no CapÌtulo 10, listamos alguns pacotes computacionais especializados disponÌveis para a an·lise de dados de pesquisas amostrais complexas. Sem pretender ser exaustiva ou detalhada, essa revis„o dos pacotes
procura tambÈm apresentar suas caracterÌsticas mais importantes. V·rios
destes programas podem ser adquiridos gratuitamente via internet, nos endereÁos fornecidos de seus produtores. Com isto pretendemos indicar aos
leitores o caminho mais curto para permitir a implementaÁ„o pr·tica das
tÈcnicas e mÈtodos aqui discutidos.
Uma das caracterÌsticas que procuramos dar ao livro foi o emprego de
exemplos com dados reais, retirados principalmente da experiÍncia do IBGE
com pesquisas amostrais complexas. Embora a experiÍncia de fazer inferÍncia analÌtica com dados desse tipo seja ainda incipiente no Brasil, acreditamos ser fundamental difundir essas idÈias para alimentar um processo de
melhoria do aproveitamento dos dados das in˙meras pesquisas realizadas
pelo IBGE e instituiÁıes congÍneres, que permita ir alÈm da tradicional
estimaÁ„o de mÈdias, totais, proporÁıes e razıes. Esperamos com esse livro
fazer uma contribuiÁ„o a esse processo.
Uma dificuldade em escrever um livro como este vem do fato de que n„o
È possÌvel comeÁar do zero: È preciso assumir algum conhecimento prÈvio de
idÈias e conceitos necess·rios ‡ compreens„o do material tratado. Procuramos tornar o livro acessÌvel para um estudante de fim de curso de graduaÁ„o
em EstatÌstica. Por essa raz„o optamos por n„o apresentar provas de resultados e sempre que possÌvel, apresentar os conceitos e idÈias de maneira
intuitiva, juntamente com uma discuss„o mais formal para dar solidez aos
resultados apresentados. As provas de v·rios dos resultados aqui discutidos
se restringem a material disponÌvel apenas em artigos em periÛdicos especializados estrangeiros e portanto, s„o de acesso mais difÌcil. Ao leitor em
busca de maior detalhamento e rigor, sugerimos consultar diretamente as
in˙meras referÍncias incluÌdas ao longo do texto. Para um tratamento mais
profundo do assunto, o livro de Skinner, Holt e Smith(1989) È a referÍncia
central a pesquisar. Para aqueles querendo um tratamento ainda mais pr·tico que o nosso, o livro de Lehtonen e Pahkinen(1995) pode ser uma opÁ„o
interessante.

C a pí t u lo 2

R eferencial p a r a I nferência
2.1

M o delage m - P r i m ei r as I déias

Com o objetivo de dar uma primeira idÈia sobre o assunto a ser tratado
neste livro vamos considerar, numa situaÁ„o simples, algumas abordagens
de an·lise estatÌstica.

2.1.1

A b or d age m 1 - M o del age m C lássica

Seja Y uma vari·vel de interesse, e sejam y1 , . . . , yn , n observaÁıes desta
vari·vel. Em InferÍncia EstatÌstica, o modelo usual considera y1 , . . . , yn
como valores (realizaÁıes) de vari·veis aleatÛrias Y1 , . . . , Yn . Aqui Y1 , . . . , Yn
s„o vari·veis aleatÛrias independentes e identicamente distribuÌdas (IID),
com a mesma distribuiÁ„o de Y , digamos com funÁ„o de densidade ou de
frequÍncia f (y; θ), onde θ ∈ Θ È o par‚metro indexador da distribuiÁ„o
f, e Θ È o espaÁo paramÈtrico. A partir das observaÁıes y1 , . . . , yn , s„o
feitas inferÍncias a respeito do par‚metro θ. Uma representaÁ„o gr·fica
dessa abordagem È apresentada na Figura 2.1 a seguir, e uma descriÁ„o
esquem·tica resumida È apresentada na Tabela 2.1.
Do ponto de vista matem·tico, o par‚metro θ serve para indexar os elementos da famÌlia de distribuiÁıes {f (y; θ) ; θ ∈ Θ}. Na pr·tica, as questıes
relevantes da pesquisa s„o traduzidas em termos do par‚metro θ, e a inferÍncia sobre θ a partir dos dados ajuda a responder tais questıes. Esta
abordagem È ˙til em estudos analÌticos tais como, por exemplo, na investigaÁ„o da natureza da associaÁ„o entre vari·veis (modelos de regress„o linear
ou logÌstica, modelos log-lineares, etc.).

17

18

C A PÍ T U L O 2. R E F E R E N C I A L PA R A I N F E R Ê N C I A

Figura~2.1: Modelagem Cl·ssica

Modelo Paramétrico
f(y;θ)

Dados Amostrais
y 1 ,...,y n

Tabela 2.1: RepresentaÁ„o esquem·tica da abordagem 1
Abordagem 1 - Modelagem Cl·ssica
Yn
Y1
↓ ,..., ↓
Dados Amostrais
y1
yn
Y1 , . . . , Yn vari·veis aleatÛrias IID
Modelo ParamÈtrico/
HipÛteses
com distribuiÁ„o f (y; θ), onde θ ∈ Θ
Inferir sobre θ
Objetivo
usando observaÁıes y1 , . . . , yn

. .. A partir dos valores observados na amostra. . . yN ).2. . PNtais como totais g (y1 . . .2. s„o considerados fixos. foi proposta como modelo para medidas na FÌsica e Astronomia. M O D E L A G E M . .2: RepresentaÁ„o esquem·tica da abordagem 2 Abordagem 2 . . . . 2. . ↓ Dados Amostrais y1 yn extraÌdos de y1 . denotados por y1 . . n} . . .. tambÈm denominadas par‚metros da populaÁ„o finita pelos amostristas. . . Em geral. . . .P RI M E IR AS I D É I AS 19 Tabela 2. s„o feitas inferÍncias a respeito de funÁıes dos valores populacionais. N}. e uma representaÁ„o gr·fica resumida na Figura 2. . isto È. yN de uma vari·vel de interesse Y na populaÁ„o finita. yN ) Objetivo usando y1 . . . Os valores y1 . o con- . . .. yN ) = PN −1 y . nos termos descritos. podemos reindexar a populaÁ„o de tal forma que a amostra observada seja formada pelos Ìndices s = {1.Amostragem ProbabilÌstica Yn Y1 ↓ . segundo um plano amostral caracterizado por p (s). yn 2. .3 D iscussão d as A b or d age ns 1 e 2 A primeira abordagem (Modelagem Cl·ssica). . .1. . mÈdias g (y 1 N i=1 i i = 1 yi . o objetivo desta abordagem È fazer estudos descritivos utilizando funÁıes g particulares. . Uma descriÁ„o esquem·tica resumida dessa abordagem È apresentada no Tabela 2. e onde faz sentido falar em replicaÁ„o ou repetiÁ„o do experimento. . porÈm desconhecidos. Neste contexto. . yn .A m ost r age m P rob a bilíst ica A abordagem adotada pelos praticantes de amostragem (amostristas) considera uma populaÁ„o finita U = {1. . y ) = N . yN HipÛteses/Modelo segundo p (s) Inferir sobre sobre funÁıes g (y1 . . . . proporÁıes. Os valores de tais funÁıes s„o quantidades descritivas populacionais (QDPs). . Sem perda de generalidade. in }. onde em geral o pesquisador tem relativo controle sobre os experimentos.1. . . . da qual È selecionada uma amostra s = {i1 .. . .2. probabilidade de ser selecionada a amostra s. . digamos g (y1 .2 A b or d age m 2 . etc. assumida calcul·vel para todas as possÌveis amostras s.1. . .

R E F E R E N C I A L PA R A I N F E R Ê N C I A Figura~2..20 C A PÍ T U L O 2...2: Amostragem ProbabilÌstica População Finita y 1 .y N Plano Amostral p(s) Dados amostrais y 1 ..y n .....

para levantamento de dados por agÍncias governamentais produtoras de informaÁıes estatÌsticas. etc.2. Por outro lado. e tambÈm na estimaÁ„o de vari‚ncias dos estimadores. Apesar dessa abordagem ter sido inicialmente concebida e aplicada para problemas de inferÍncia descritiva da populaÁ„o finita. M O D E L A G E M . ï O que acontece quando o modelo adotado na abordagem 1 n„o È verdadeiro? . Diante do exposto. È cada vez mais comum. concebidos para observaÁıes IID. com a aplicaÁ„o de mÈtodos de an·lise desenvolvidos e apropriados para a abordagem 1. pois n„o supıe uma distribuiÁ„o paramÈtrica particular para as observaÁıes da amostra. a utilizaÁ„o de dados obtidos atravÈs de pesquisas amostrais complexas para fins analÌticos.1. tambÈm È de interesse a quest„o da robustez da modelagem. aos dados obtidos atravÈs de pesquisas amostrais complexas? ï Em caso negativo. 1934) e as distribuiÁıes das estatÌsticas de interesse s„o derivadas a partir dessa distribuiÁ„o de aleatorizaÁ„o. razıes. essa abordagem tem a desvantagem de fazer inferÍncias restritas ‡ particular populaÁ„o finita considerada. mÈdias. A segunda abordagem (Amostragem ProbabilÌstica) È utilizada principalmente no contexto de estudos sÛcio-econÙmicos.P RI M E IR AS I D É I AS 21 ceito de aleatoriedade È geralmente introduzido para modelar os erros (n„o control·veis) no processo de mediÁ„o. tornando-os aplic·veis para tratar dados amostrais complexos? ï Ou seria mais adequado fazer uso analÌtico dos dados dentro da abordagem 2 ? AlÈm destas. Esta abordagem È essencialmente n„o-paramÈtrica. traduzida nas seguintes perguntas. Nessa abordagem. podemos considerar algumas questıes de interesse. Nesta abordagem. seria possÌvel corrigir estes mÈtodos. Tais planos amostrais podem ser complexos. porÈm. ï … adequado aplicar mÈtodos de an·lise da abordagem 1. Os dados obtidos s„o utilizados principalmente para descriÁ„o da populaÁ„o finita. atravÈs do planejamento amostral p (s) utilizado (Neyman. os pontos i) a iv) do CapÌtulo 1 s„o devidamente considerados na estimaÁ„o de par‚metros descritivos desse tipo. a aleatoriedade È introduzida no processo pelo pesquisador para obtenÁ„o dos dados. sendo calculadas estimativas de totais. gerando observaÁıes com as caracterÌsticas i) a iv) do CapÌtulo 1.

. Este modelo È denominado modelo de superpopulaÁ„o. Adotando o modelo de superpopulaÁ„o e considerando mÈtodos usuais disponÌveis na abordagem 1. as quantidades descritivas populacionais da abordagem 2 poderiam ter alguma interpretaÁ„o ou utilidade? O objeto deste livro È exatamente discutir respostas para as questıes aqui enumeradas. . . que passam a ser os novos par‚metros-alvo. O passo seguinte È utilizar mÈtodos diponÌveis na abordagem 2 para fazer inferÍncia sobre g (y1 . . YN . os valores y1 .4 A b or d age m 3 . qual a interpretaÁ„o do par‚metro na abordagem 1 ? ï Ainda neste caso. A Ínfase . . yN ) baseada em y1 . . . . . .C A PÍ T U L O 2. yN da vari·vel de interesse Y na populaÁ„o finita s„o considerados observaÁıes ou realizaÁıes das vari·veis aleatÛrias Y1 . ‡ informaÁ„o estrutural contida em {f (y. A tÌtulo de recordaÁ„o. A partir de y1 . A descriÁ„o da abordagem adotada neste livro foi apresentada de maneira propositadamente vaga nesta seÁ„o. .M o d elage m d e Su p er p op u lação Nesta abordagem. onde θ ∈ Θ. . yn (n„o considerados IID. em geral) queremos fazer inferÍncias sobre o par‚metro θ. yN . considerando os pontos i) a iii) do CapÌtulo 1. yn . Uma representaÁ„o esquem·tica dessa abordagem È apresentada no Tabela 2. . Admitiremos que o leitor esteja familiarizado com a abordagem 1 e com as noÁıes b·sicas da abordagem 2. contida em p(s). . .3. Note que n„o È possÌvel basear a inferÍncia nos valores populacionais y1 . yN ). j· que estes n„o s„o conhecidos. vamos considerar uma abordagem que propıe um modelo parametrizado como na abordagem 1. . yN . . . . . . . . . . R E F E R E N C I A L PA R A I N F E R Ê N C I A 22 ï Neste caso. yn . e alÈm disso incorpora na an·lise os pontos i) a iii) do CapÌtulo 1 mediante aproveitamento da estrutura do planejamento amostral como na abordagem 2. para fazer inferÍncias sobre θ. . . yN ) (no sentido da abordagem 1 ) que s„o quantidades descritivas populacionais (par‚metros populacionais no contexto da abordagem 2 ). . . . . . . digamos g (y1 . mas ser· aprofundada ao longo do texto. θ) .1. θ ∈ Θ} . supostas IID com distribuiÁ„o f (y. Este ˙ltimo passo adiciona a informaÁ„o sobre o plano amostral utilizado. Utilizando um plano amostral definido por p(s). obtemos os valores na amostra y1 . podemos utilizar funÁıes de y1 . . Para isso. θ). . definimos estatÌsticas g (y1 . 2. Desta forma. ser„o apresentados no CapÌtulo 3 alguns resultados b·sicos da Teoria de Amostragem. . .3. . . Veja uma representaÁ„o gr·fica resumida desta abordagem na Figura 2. .

2.θ) População Finita PopulaçãoyFinita 1..yN y 1 ...1....3: Modelagem de SuperpopulaÁ„o Modelo Paramétrico f(y..P RI M E IR AS I D É I AS Figura~2..y n 23 .. M O D E L A G E M ...y N Plano Amostral p(s) Dados Amostrais y 1 ..

Em outras palavras. . . 2.1) sugerem que um referencial para inferÍncia poderia usar trÍs . obtidas a partir do plano amostral utilizado. . YN ) Inferir sobre g (Y1 . tais como os de M·xima Pseudo-VerossimilhanÁa e de LinearizaÁ„o. . o uso dos pacotes usuais para analisar dados produzidos por pesquisas com planos amostrais complexos. S‰rndal e Wretman (1977. . ao publicar os resultados das pesquisas. seria preciso o conhecimento das estimativas de vari‚ncias e covari‚ncias das estimativas. Cassel. . Em geral.. p. θ).Modelagem de SuperpopulaÁ„o Yn Y1 ↓ . pode ter contra-indicaÁıes. geralmente n„o È simples incorporar pesos e plano amostral na an·lise sem o uso de pacotes especializados. .3: RepresentaÁ„o esquem·tica da abordagem 3 Abordagem 3 ..2 Fon t es de V a r iação Este capÌtulo estabelece um referencial para inferÍncia em pesquisas amostrais que ser· usado no restante deste texto. . sendo para isto apresentados os elementos indispens·veis das abordagens 1 e 2. para construir intervalos de confianÁa e testar hipÛteses sobre par‚metros de modelos.. Tais pacotes utilizam metÛdos gerais para estimar matrizes de covari‚ncia. . tais como as executadas pelo IBGE. YN ) Objetivo a partir de y1 . . R E F E R E N C I A L PA R A I N F E R Ê N C I A Tabela 2. onde θ ∈ Θ Par‚metro-alvo associar θ ←→ g (Y1 . sendo possÌvel produzir estimativas pontuais îcorretasî utilizando os pacotes tradicionais. Ao construir e ajustar modelos a partir de dados de pesquisas amostrais îcomplexasî. que ser„o descritos mais adiante. . . ↓ Dados amostrais y1 yn PopulaÁ„o e ExtraÌdos de y1 . os pesos s„o considerados. Por outro lado. . o usu·rio precisa incorporar as informaÁıes sobre pesos e planos amostrais utilizados. . yN segundo p (s) esquema de seleÁ„o Y1 . ser· na apresentaÁ„o da abordagem 3. Mesmo conhecendo o plano amostral. . . yn usando p (s) do texto.24 C A PÍ T U L O 2. . tal como o uso de muitos remÈdios. YN vari·veis aleatÛrias IID Modelo para populaÁ„o com distribuiÁ„o f (y. .. porÈm.

processo de mediÁ„o.2.. n„o sendo considerados mÈtodos intencionais ou outros mÈtodos n„o-aleatÛrios de seleÁ„o de amostras. em Montanari(1987). o referencial aqui adotado considera apenas duas fontes alternativas de variaÁ„o: o modelo de superpopulaÁ„o (1) e o plano amostral (3). descritas nesta seÁ„o apenas de forma esquem·tica. A fonte de variaÁ„o (1) ser· considerada porque usos analÌticos das pesquisas s„o amplamente discutidos neste texto. M O D E L OS D E SU P E R P O P U L A Ç Ã O 25 fontes de aleatoriedade (incerteza. Estas fontes alternativas de variaÁ„o. 2.3 M o delos de Su p er p op u lação Seja {1.3. os quais sÛ tÍm sentido quando È especificado um modelo estoc·stico para o processo subjacente que gera as medidas na populaÁ„o. implicando que os valores observados de quaisquer vari·veis de interesse ser„o considerados valores corretos ou verdadeiros. s„o discutidas com maiores detalhes a seguir. Portanto. o mecanismo que controla se valores de mediÁıes de unidades selecionadas s„o disponibilizados ou n„o. incluindo: 1. variaÁ„o). as fontes (2) e (4) n„o ser„o consideradas no referencial adotado aqui. mecanismo de resposta.. Admitiremos ainda que h· resposta completa. A fonte de variaÁ„o (3) ser· considerada porque a atenÁ„o ser· focalizada na an·lise de dados obtidos atravÈs de pesquisas amostrais. que descreve o processo subjacente que por hipÛtese gerou as medidas verdadeiras de qualquer unidade da populaÁ„o considerada. Para concentrar o foco nas questıes de interesse deste texto.. modelo de superpopulaÁ„o. ou seja. que estabelece o mecanismo pelo qual unidades da populaÁ„o s„o selecionadas para participar da pesquisa por amostra. 2. por exemplo. planejamento amostral. Sem perda de gene- . implicando que os valores de quaisquer vari·veis de interesse est„o disponÌveis para todos os elementos da amostra selecionada depois que a pesquisa foi realizada. Uma quarta fonte de incerteza que poderia ser acrescentada ‡s anteriores È o 4. HipÛteses semelhantes s„o adotadas. que diz respeito aos instrumentos e mÈtodos usados para obter as medidas de qualquer unidade da populaÁ„o. . 3. N} um conjunto de rÛtulos que identificam univocamente os N elementos distintos de uma populaÁ„o-alvo finita U. Aqui a discuss„o se restringir· a planos amostrais aleatorizados ou de amostragem probabilÌstica. De agora em diante admitiremos que n„o h· erros de mediÁ„o.

Uma pesquisa cobrindo n elementos distintos numa amostra s. YN È um modelo (marginal) de superpopulaÁ„o. x01 )0 . xN pode ser considerada uma realizaÁ„o conjunta de vetores aleatÛrios X1 . λ) f (xi .2). x1 . φ) (2.. . yN s„o a realizaÁ„o conjunta de vetores aleatÛrios Y1 . xiQ ) o vetor Q $ 1 de vari·veis auxiliares da i-Èsima unidade da populaÁ„o. a distribuiÁ„o conjunta de probabilidade de Y1 .. . ou seja condicionandose em Xi = xi para todo i ∈ U.. . xN ) . xN ) . . . . o modelo marginal correspondente das vari·veis da pesquisa seria obtido integrando nas vari·veis auxiliares: .. (yN . .. . como se discutir· com mais detalhes adiante. .. η) (2.... .1) f (yi |xi . .. . 0 Denote por yi = (yi1 . .. . in } ⊂ U. Neste caso. doravente denominadas simplesmente vari·veis da pesquisa.26 C A PÍ T U L O 2. .... N}. . Um tipo importante de modelo de superpopulaÁ„o È obtido quando os vetores aleatÛrios correspondentes ‡s observaÁıes de elementos diferentes da populaÁ„o s„o supostos independentes e identicamente distribuÌdos (IID). .. . Como os vetores Yi e Xi n„o tÍm a mesma dimens„o. (YN . X1 ). uma notaÁ„o mais § precisa para esta £ 0 . funÁ„o de densidade seria f (y10 .. η] = Y f (yi .. Quando se supıe que y1 .. . . . η] a funÁ„o de densidade de probabilidade de (Y1 .. R E F E R E N C I A L PA R A I N F E R Ê N C I A ralidade tomaremos U = {1.. para i = 1. Por simplicidade. YN . η . .2) i∈U = Y i∈U onde λ e φ s„o vetores de par‚metros.. (yN . .. XN ). xi . as distribuiÁıes das vari·veis da pesquisa podem ser alternativamente especificadas condicionando-se nos valores das vari·veis auxiliares. x0 )0 ..... (yN N a forma anterior ser· preferida daqui por diante. x1 ) . XN .. . yiR ) o vetor R $ 1 de valores das vari·veis da 0 pesquisa e por xi = (xi1 . Aqui as vari·veis auxiliares s„o consideradas como vari·veis contendo a informaÁ„o requerida para o planejamento amostral e a estimaÁ„o a partir da amostra. o modelo de superpopulaÁ„o pode ser escrito como: f [(y1 . s = {i1 . respectivamente. O referencial aqui adotado permite a especificaÁ„o da distribuiÁ„o conjunta combinada das vari·veis da pesquisa e das vari·veis auxiliares. È realizada para medir os valores de R vari·veis de interesse da pesquisa. que doravante denotaremos simplesmente por M. N. Denote por f [(y1 . Analogamente. Neste caso.. . x1 ) . Sob (2.. .. onde η È um vetor de par‚metros.

(yN . φ) . . InferÍncia sobre quaisquer dos par‚metros η. . Este modelo pode ser descrito por P [(Yi . . Se todos os elementos fossem pesquisados (ou seja.3. Este modelo foi considerado em Cassel. mas tambÈm para outras populaÁıes que poderiam ter sido geradas pelo modelo de superpopulaÁ„o adotado. . embora o referencial aqui adotado seja suficientemente geral para permitir considerar esta possibilidade. Usualmente seu objetivo È explicar a relaÁ„o entre vari·veis n„o apenas para a populaÁ„o finita sob an·lise.4) ou seja. λ) f (xi . θ) (2. . se fosse executado um censo). . . xN ) È uma realizaÁ„o de (Y1 . φ. . yN . φ) dxi = 27 Y f (yi . . È chamada inferÍncia descritiva. a ˙nica fonte de incerteza seria devida ao fato de que (y1 . φ) dxi e θ =h (λ. Exemplos de inferÍncia analÌtica ser„o discutidos ao longo deste livro. M O D E L OS D E SU P E R P O P U L A Ç Ã O f(y1 . φ. Em geral. Xi ) . yN ) dos valores das vari·veis da pesquisa. λ ou θ do modelo de superpopulaÁ„o È chamada inferÍncia analÌtica. . λ) f (xi . que o chamaram de abordagem de populaÁ„o fixa e afirmaram ser esta a abordagem subjacente ao desenvolvimento da teoria de amostragem encontrada nos livros cl·ssicos tais como Cochran(1977) e outros. (yN . Este tipo de inferÍncia sÛ faz sentido quando o modelo de superpopulaÁ„o n„o È degenerado como em (2. embora possa ser ˙til. x1 ). Xi ) = (yi . . θ) = f (yi |xi . . . xN ). Outro tipo especial de modelo de superpopulaÁ„o È o modelo de populaÁ„o fixa. o modelo de superpopulaÁ„o n„o È estritamente necess·rio. uma distribuiÁ„o degenerada È especificada para (Yi . .2. pois neste caso a ˙nica fonte de variaÁ„o (aleatoriedade) È proveniente do planejamento amostral. X1 ) . que supıe que os valores numa populaÁ„o finita s„o fixos mas desconhecidos. XN ). 23). Sob a hipÛtese de resposta completa. tais como funÁıes g (y1 . . a distribuiÁ„o conjunta de (Yi . . os dados observados seriam (y1 . x1 ). . S‰rndal e Wretman(1977.4). InferÍncia para tais quantidades. Os dados observados poderiam ent„o ser usados para fazer inferÍncias sobre η.4). Se o objetivo da inferÍncia È estimar quantidades que fazem sentido somente para a populaÁ„o finita sob an·lise. Xi ) n„o precisa ser degenerada como em (2. p. (YN . xi )] = 1 ∀i ∈ U (2. Chamaremos aqui esta abordagem de abordagem baseada no planejamento amostral ou abordagem de aleatorizaÁ„o. .3) i∈U onde f (yi . . λ ou θ usando procedimentos padrıes. chamadas par‚metros da populaÁ„o finita ou quantidades descritivas populacionais (QDPs). . . θ) = R YZ i∈U f (yi |xi .

. . 2. . . . . onde δ s ´0 È qualquer realizaÁ„o particular de ∆s tal que δ s 1N = n. . 3. mais os totais/mÈdias destas vari·veis na populaÁ„o. . . xN )]. permitindo que o mecanismo de seleÁ„o amostral dependa dos valores das vari·veis auxiliares x1 . alternativamente. yin . . (yN . onde n (1 ≤ n ≤ N) È o n˙mero de elementos na amostra s. R E F E R E N C I A L PA R A I N F E R Ê N C I A 28 2. . . . . os valores na amostra das vari·veis da pesquisa yi1 . . . (yN . isto È . SÛ mecanismos amostrais envolvendo alguma forma de seleÁ„o probabilÌstica bem definida P ser„o aqui considerados. . Neste caso. . os valores das vari·veis auxiliares na amostra xi1 . Esta caracterizaÁ„o do plano amostral p(s) È bem geral. . xin . . . Denotamos por I (A) a funÁ„o indicadora que assume o valor 1 quando o evento A ocorre e 0 caso contr·rio. veja SeÁ„o 2. a vasta maioria das pesquisas s„o pesquisas amostrais. e 1N È o vetor unit·rio de dimens„o N.C A PÍ T U L O 2. . . e portanto supıe-se que 0 ≤ p(s) ≤ 1 ∀s ∈ S e s∈S p(s) = 1. os dados disponÌveis incluem: 1. NotaÁ„o adicional necess·ria nas seÁıes posteriores ser· agora introduzida. x1 ). . chamado tamanho da amostra. O mecanismo usado para selecionar a amostra s da populaÁ„o finita U È chamado planejamento amostral. Seja ∆s = [I (1 ∈ s) . yN (amostragem informativa. . x1 ) . . . . . . nas quais apenas uma amostra de elementos da populaÁ„o (usualmente uma pequena parte) È investigada. . . Denotamos por πi a probabilidade de inclus„o na amostra da unidade i . com informaÁ„o auxiliar parcial. I (N ∈ s)]0 um vetor aleatÛrio de indicadores dos elementos incluÌdos na amostra s. Uma notaÁ„o mais explÌcita para indicar esta possibilidade possivelmente envolveria escrever p(s) como p [s|(y1 . os valores na amostra xi1 . Uma forma de caracteriz·-lo È atravÈs da funÁ„o p (. . in } dos distintos elementos na amostra. . xin e na populaÁ„o x1 . . Ent„o o plano amostral pode ser alternativamente caracterizado pela distribuiÁ„o de probabilidade de ∆s denotada por f [δ s | (y1 . xN )]. onde p(s) d· a probabilidade de selecionar a amostra s no conjunto S de todas as amostras possÌveis.4 P l a nej a m en t o A m ost r al Embora censos sejam algumas vezes realizados para coletar dados sobre certas populaÁıes. o conjunto de rÛtulos s = {i1 . Tal notaÁ„o ser· evitada por razıes de simplicidade. . . xN .5). . com informaÁ„o auxiliar completa. .). xN bem como dos valores das vari·veis da pesquisa na populaÁ„o y1 . .

e portanto uma hipÛtese fundamental adotada ao longo deste texto È que os planos amostrais considerados s„o n„o-informativos.6) s3i.j para todo i 6= j ∈ U. .5. . Quando o plano amostral È amo- . xN ) .7) Entre os planos amostrais n„o-informativos. (yN . j ∈ s) = X p (s) (2. e seja πii = πi ∀i ∈ U. Um exemplo tÌpico desta situaÁ„o È o dos estudos de caso-controle. quando o mecanismo de seleÁ„o das unidades amostrais pode depender dos valores das vari·veis de pesquisa. . e esse indicador uma das vari·veis de pesquisa. A hipÛtese de πij ser positiva È adotada para simplificar a apresentaÁ„o das expressıes das vari‚ncias dos estimadores.5 P la nos A m ost r ais I nfor m a t i vos e Ignor á veis Ao fazer inferÍncia usando dados de pesquisas amostrais precisamos distinguir duas situaÁıes que requerem tratamento diferenciado. . sendo de interesse a modelagem do indicador de presenÁa ou ausÍncia da condiÁ„o em funÁ„o de vari·veis preditoras. . que È considerada no mecanismo de seleÁ„o da amostra. xN )] = f (δ s |x1 . . Contudo. Os mÈtodos que descreveremos ao longo deste livro n„o s„o adequados em geral.5) s3i e denotamos por πij a probabilidade de inclus„o conjunta das unidades i e j . ainda precisamos ainda distinguir duas outras situaÁıes de interesse. isto È. Uma dessas situaÁıes ocorre quando o plano amostral empregado para coletar os dados È informativo. esta n„o È uma hipÛtese crucial. em que a amostra È selecionada de tal forma que h· casos (unidades com determinada condiÁ„o) e controles (unidades sem essa condiÁ„o). j ∈ U. 2. n„o podem depender diretamente dos valores das vari·veis da pesquisa. .2. x1 ) . . isto È. Logo eles satisfazem f [δ s | (y1 . para esse tipo de situaÁ „o. P L A N OS A M OS T R A IS I N F O R M A T I V OS E I G N O R ÁV E IS πi = P (i ∈ s) = X p (s) 29 (2. (2. pois h· planos amostrais que n„o a satifazem e para os quais est„o disponÌveis aproximaÁıes e estimadores satisfatÛrios das vari‚ncias dos estimadores de totais e de mÈdias. dada por πij = P (i ∈ s. Uma hipÛtese b·sica assumida com relaÁ„o aos planos amostrais aqui considerados È que πi > 0 e πij > 0 ∀i.

A definiÁ„o precisa de ignorabilidade e as condiÁıes sob as quais um plano amostral È ignor·vel para inferÍncia s„o bastante discutidas na literatura (veja Sugden e Smith. mas somente das vari·veis auxiliares. Uma forma simples de lidar com os efeitos do plano amostral na estimaÁ„o pontual de quantidades descritivas populacionais de interesse È incorporar pesos adequados na an·lise. n„o resolve por si sÛ o problema de estimaÁ„o da precis„o das estimativas pontuais.1. Em caso de dificuldade. porque a inferÍncia baseada na amostra utilizando a abordagem cl·ssica descrita na SeÁ„o 2. AfirmaÁıes probabilÌsticas s„o ent„o feitas com respeito ‡ distribuiÁ„o de aleatorizaÁ„o das estatÌsticas amostrais p ou com respeito ‡ distribuiÁ„o mista Mp. esquemas amostrais desse tipo s„o raramente empregados na pr·tica. ignorar o plano amostral pode viciar a inferÍncia. Entretanto. 1984). Veja o Exemplo 2. como se ver· no CapÌtulo 3.1 pode prosseguir sem problemas. o uso de pesos tem papel fundamental. Neste caso. o plano amostral È dito ignor·vel. A seguir apresentamos um exemplo com a finalidade de ilustrar uma situaÁ„o de plano amostral n„o-ignor·vel.30 C A PÍ T U L O 2. o que vai requerer mÈtodos especÌficos discutidos no CapÌtulo 5. os modelos para a populaÁ„o e a amostra podem ser muito diferentes (plano amostral n„o-ignor·vel). por razıes de eficiÍncia e custo. Em vez disso. Essa forma porÈm. PorÈm testar a ignorabilidade do plano amostral È muitas vezes complicado. Como incluir os pesos para proteger contra planos amostrais n„o-ignor·veis e a possibilidade de m· especificaÁ„o do modelo? Uma idÈia È modificar os estimadores dos par‚metros de modo que sejam consistentes (em termos da distribuiÁ„o de aleatorizaÁ„o) para quantidades descritivas da populaÁ„o finita da qual a amostra foi extraÌda. porÈm. Quando isto ocorre. R E F E R E N C I A L PA R A I N F E R Ê N C I A stragem aleatÛria simples com reposiÁ„o (AASC). s„o geralmente empregados planos amostrais envolvendo estratificaÁ„o. o modelo adotado para a amostra È o mesmo que o modelo adotado para a populaÁ„o antes da amostragem. que por sua vez seriam boas aproximaÁıes para os par‚metros dos modelos de interesse. Com amostragem complexa.1 adiante. . conglomeraÁ„o e probabilidades desiguais de seleÁ„o (amostragem complexa). mesmo que o mecanismo de seleÁ„o n„o dependa das vari·veis de pesquisa. nem mesmo o caso da estimaÁ„o pontual de par‚metros em modelos de superpopulaÁ„o.

interfira com a estrutura estoc·stica da amostra.2. xi ) : i = 1. . e em cada sorteio a probabilidade Pde escolher a unidade i da populaÁ„o para a amostra È dada por pi = xi / N i = 1 xi . se CORRM (Y . X) = σyx /σy σx > 0 ent„o P (Yi > µY | i ∈ s) > 1/2 e portanto EM (y) > µY . y = ni= 1 yi /n È um estimador n„o viciado de µY que tem propriedades Ûtimas sob o modelo. Neste caso. podemos usar o estimador y reg = y + b(X − x) onde b È o estimador usual de minÌmos quadrados do coeficiente de regress„o β = σ yx /σ y2 e x e X s„o as mÈdias amostral e populacional da vari·vel auxiliar x.1 Amostragem com probabilidades proporcionais ao tamanho de populaÁ„o bivariada normal (Pfeffermann. . Σ). . Deseja-se estimar µY P aleatÛria simples com reposiÁ„o. Neste caso. de alguma forma. n} uma amostra de n unidades selecionada por esquema = EM (Y ).5. . P L A N OS A M OS T R A IS I N F O R M A T I V OS E I G N O R ÁV E IS 31 E x e m p lo 2. Seja s = {(yi . No caso de amostragem probabilÌstico. O estimador y reg È n„o viciado para µY sob o modelo. . Supondo que os xi s„o conhecidos para todas as unidades da populaÁ„o. Este exemplo ilustrou que um determinado procedimento de inferÍncia cl·ssica pode n„o funcionar adequadamente na presenÁa de um plano amostral que. xi ) como determinaÁıes de vetores aleatÛrios IID com distribuiÁ„o N (µ. respectivamente. e tem propriedades razo·veis em termos da distribuiÁ„o de aleatorizaÁ„o para grandes amostras. para a qual o modelo assumido na populaÁ„o passa a n„o se adequar. 1993) Vamos considerar as N observaÁıes da populaÁ„o (yi . Isto pode ser conseguido mediante um esquema de seleÁ„o em que n sorteios independentes s„o realizados. podemos ignorar o esquema de seleÁ„o da amostra no processo de inferÍncia sem qualquer problema. mostrando que ignorar o esquema amostral torna viciado o procedimento de inferÍncia baseado no estimador usual de mÈdia amostral. Vamos supor agora que a amostra seja selecionada com probabilidade proporcional a xi com reposiÁ„o (note que a regra de seleÁ„o depende apenas da vari·vel auxiliar x e n„o da vari·vel de pesquisa y).

32 C A PÍ T U L O 2. R E F E R E N C I A L PA R A I N F E R Ê N C I A .

42). Um estimador usual baseado no plano amostral para o total Y È o estimador de Horvitz-Thompson.1 E st i m ação de To t ais Devido a sua import‚ncia para os desenvolvimentos teÛricos em v·rios dos capÌtulos subseq¸entes. Naturalmente. as propriedades de uma estatÌstica ou estimador s„o avaliadas com respeito ‡ distribuiÁ„o de aleatorizaÁ„o. p.) e Vp (.8). Swensson e Wretman(1992. tambÈm chamado estimador π-ponderado (veja S‰rndal. dado por bπ = Y X yi /πi . qualquer estimador vi·vel do total Y sÛ pode depender dos valores das vari·veis de pesquisa observados na amostra. yin . que chamaremos daqui por diante de esperanÁa de 33 . contidos em yi1 .) os operadores de esperanÁa e vari‚ncia referentes ‡ distribuiÁ„o de probabilidades p(s) induzida pelo planejamento amostral. Denotemos por Ep (. alguns resultados b·sicos relativos ‡ estimaÁ„o de totais da populaÁ„o finita numa abordagem baseada no plano amostral ser„o reproduzidos nesta seÁ„o.C a pí t u lo 3 E st i m ação B asea d a no P la no A m ost r al 3. P Consideremos o problema de estimar o vetor Y = i∈U yi de totais das R vari·veis da pesquisa na populaÁ„o. . mas n„o dos valores dessas vari·veis para os elementos n„o pesquisados. 1992. . A referÍncia b·sica usada foi S‰rndal. Swensson e Wretman.1) i∈s Na abordagem baseada no planejamento amostral. . . (3. a partir de uma amostra observada s. seÁ„o 2.

à π È n„o-viciado para o total Y com respeito O estimador π-ponderado Y ‡ distribuiÁ„o de aleatorizaÁ„o.2) e È dado por ) ¥ X X π − π π y y0 ij i j i j à àπ = Vp Y . 2 πi πj πi πj (3. O primeiro È motivado pela express„o vari‚ncia de aleatorizaÁ„o de Y (3.3) os termos onde i = j n„o contribuem para a soma. para Vp Y .0 1 àπ = − VàSY G Y − − . Ep Y AlÈm disto.µ .6). sua vari‚ncia de aleatorizaÁ„o È dada por ) ¥ XX yi yj0 àπ = Vp Y (πij − πi πj ) . apesar de VSY G Yπ ser tambÈm n„o-viciado ) ¥ à π para planos amostrais de tamanho fixo. O segundo estimador da vari‚ncia È chamado estimador de Sen-YatesGrundy.2) e (3. (3.3) i∈U j∈U à π .4) e (3.2) . isto È ) ¥ àπ = Y . … motivado pela express„o (3. como suposto neste livro (SeÁ„o 2.4). v·lida Uma express„o alternativa da vari‚ncia de aleatorizaÁ„o de Y quando o plano amostral È de tamanho fixo.4) i∈s j∈s O estimador de vari‚ncia em (3.6) 2 πij πi πj πi πj i∈s j∈s Observe que embora as expressıes da vari‚ncia (3.3) coincidam para planos amostrais de tamanho fixo. È dada por Vp ) i∈U j∈U Note que na express„o (3.0 µ ¥ yi yj yi yj 1XX à Yπ = − − − (πij − πi πj ) .34 C A PÍ T U L O 3. π ij πi πj (3.5) desde que πij > 0 ∀i. Dois estimadores s„o usualmente recomendados para estimar a à π . j ∈ U. isto È ri‚ncia de aleatorizaÁ„o de Y h ) ¥i ) ¥ à π = Vp Y àπ Ep Vàp Y (3. πi πj (3. EST I M A Ç Ã O B ASE A D A N O P L A N O A M OST R A L aleatorizaÁ„o e vari‚ncia de aleatorizaÁ„o.4) È um estimador n„o-viciado da vaà π . o mesmo ) n„o ¥ vale para os estimadoà à res de vari‚ncia (3. µ yi yj .3) e È dado por ) ¥ X X πij − πi πj µ yi yj .

(3. (3. EST I M A Ç Ã O D E T O T A IS 35 E x e m p lo 3.11) i∈U Y = N −1 X yi = N −1 Y .9) onde f = n/N È a fraÁ„o amostral e y = n−1 X yi . Vàp Y n n−1 (3. N(N − 1) Essas probabilidades de inclus„o levam ‡s seguintes expressıes para o caso AAS: X bπ = N Y yi = Ny .1 Amostragem AleatÛria Simples Sem ReposiÁ„o (AAS) Quando o planejamento È amostragem aleatÛria simples sem reposiÁ„o (AAS).13) V·rios estimadores de totais est„o disponÌveis na literatura de amostragem.8) (3. (3. porÈm os que s„o comumente usados na pr·tica s„o estimadores ponderados (lineares) da forma àw = Y X i∈s wi yi (3. porque as probabilidades de inclus„o ficam iguais a πi = e πij = n ∀ i∈U . (3.1. (3.14) .7) n i∈s ) ¥ à π = N 2 1 − f N Sy . sua vari‚ncia e estimadores desta vari‚ncia simplificam bastante.3.12) i∈U b y = n−1 S X i∈s 0 (yi − y) (yi − y) . N n(n − 1) ∀ i 6= j ∈ U . VAAS Y n N −1 ) ¥ ) ¥ à π = VàSY G Y àπ = N2 1 − f n S ày . as expressıes apresentadas para o estimador de total.10) i∈s Sy = N −1 X° ¢° ¢0 yi − Y yi − Y .

à à à P Ambos os estimadores YR e YREG podem ser escritos na forma Yw = wi yi com pesos wi dados respectivamente por i∈s wiR P π−1 π−1 X k∈U xk i = P −1 = i bπ πk xk X (3.17) k∈s e P wiREG = π−1 i gi .36 C A PÍ T U L O 3. Outra forma de generalizar o estimador de regress„o È considerar estimadores alternativos dos coeficientes de regress„o em lugar do estimador simples bxy empregado aqui.16) P onde x È uma vari·vel auxiliar cujo total populacional i∈U xi = X È conhecido e bxy È um estimador dos coeficientes da regress„o linear entre as vari·veis de pesquisa y e a vari·vel auxiliar x. 3).15) i i i∈s e à REG = Y i∈s i∈U X π−1 i yi + i∈s 1 X i∈U xi − X ! π−1 i xi bxy i∈s (3. È .14) ponderado ou de Horvitz-Thompson È um caso particular de Y quando os pesos wi s„o da forma wiHT = π−1 i ∀ i ∈ s. O estimador πà w em (3. (3. Outros dois estimadores de totais comumente usados pelos praticantes à R e o estimador de regress„o de amostragem s„o o estimador de raz„o Y à REG . dados respectivamente por Y ! 1 ! 1 ! 1 X X X −1 −1 àR = Y π yi $ xi / π xi (3. Para completar a descriÁ„o dos procedimentos de inferÍncia para mÈdias e totais baseados em estimadores ponderados do tipo raz„o ou regress„o. obtido quando se consideram vetores de vari·veis auxiliares em vez de uma ˙nica vari·vel auxiliar x como aqui. EST I M A Ç Ã O B ASE A D A N O P L A N O A M OST R A L onde wi È um peso associado ‡ unidade i da amostra (i ∈ s). Para uma discuss„o detalhada do estimador de regress„o generalizado veja Nascimento Silva(1996.18) bπ = π −1 onde X i xi È o estimador π-ponderado de X e gi = 1 + xi (X − i∈s P −1 2 bπ )/ X i∈s π i xi . cap.16) È um caso particular do estimador de regress„o generalizado. O estimador de regress„o descrito em (3.

que n„o pode ser quantificada sem medidas de precis„o amostral. e n„o h· muito o que discutir aqui. da qualidade) das estimativas de interesse est· disponÌvel. uma tentaÁ„o que assola muitos usu·rios incautos È esquecer que os resultados s„o baseados em dados apenas de uma amostra da populaÁ„o. seÁ„o 6. a discuss„o detalhada desse problema n„o ser· incluÌda neste livro. a variedade de mÈtodos empregados para estimaÁ„o de vari‚ncias merece uma discuss„o em separado. Vbp b . P O R Q U E ES T IM A R VA RI  N C I AS 37 necess·rio identificar estimadores para as vari‚ncias de aleatorizaÁ„o correspondentes. Em geral. a estimaÁ„o de vari‚ncias È um componente essencial da abordagem inferencial adotada: sem estimativas de vari‚ncia. O caso dos estimadores de raz„o e regress„o para totais e mÈdias foi resolvido faz tempo. os estimadores de raz„o e regress„o s„o viciados sob a distribuiÁ„o de aleatorizaÁ„o para pequenas amostras.2 Por q ue E st i m a r Va r iâ ncias Em Amostragem. o vÌcio È desprezÌvel para amostras grandes. Entretanto. nenhuma indicaÁ„o da precis„o (e portanto. que podem ser encontrados na excelente revis„o sobre o tema contida em S‰rndal. Swensson e Wretman(1992. de desvios padrıes ou mesmo de coeficientes de variaÁ„o) È requerida para que intervalos de confianÁa possam ser calculados. Apesar de sua import‚ncia para os praticantes de amostragem.6 e cap. a obtenÁ„o de estimativas de vari‚ncias (alternativamente. Nesse caso. e est„o disponÌveis expressıes assintÛticas para as respectivas vari‚ncias de aleatorizaÁ„o. Intervalos de confianÁa elaborados com estimativas amostrais s„o geralmente baseados em aproximaÁıes assintÛticas da distribuiÁ„o normal. e portanto sujeitos a incerteza. Entretanto. 7). O problema da estimaÁ„o das vari‚ncias de aleatorizaÁ„o para estimadores como os de raz„o e regress„o nos remete a uma quest„o central da teoria da amostragem.3. 3. tais que intervalos da forma " r ) ¥# ) ¥i h θ = b θ ± zα/2 Vbp b θ IC b θ. Partindo destas foram ent„o construÌdos estimadores amostrais das vari‚ncias dos estimadores de raz„o e regress„o.2. Em ambos os casos. pois as tÈcnicas de ajuste consideradas neste livro para incorporar pesos e plano amostral na inferÍncia partindo de dados de pesquisas amostrais complexas depende em grande medida da aplicaÁ„o de tais tÈcnicas. como de resto na EstatÌstica Cl·ssica. Trata-se dos mÈtodos disponÌveis para estimar vari‚ncias de estimadores îcomplexosî. e outras formas de inferÍncia realizadas.

A combinaÁ„o dessas trÍs idÈias suporta os desenvolvimentos teÛricos dos algoritmos empregados pelos . e finalmente se discute brevemente uma tÈcnica baseada na idÈia de pseudoreplicaÁıes da amostra. celas raras em tabelas de contingÍncia. MINITAB. etc. È requerido o emprego de tÈcnicas especiais de estimaÁ„o de vari‚ncia. n„o viciados. alguns estimadores de vari‚ncia podem. em alguns casos. BMDP e outros. coeficientes de regress„o. Nesses casos È comum que as estatÌsticas empregadas para estimar tais par‚metros tambÈm sejam în„o linearesî.38 C A PÍ T U L O 3. tais como a deteÁ„o de problemas n„o antecipados. que s„o inaceit·veis de um ponto de vista pr·tico (tais como o estimador da express„o (3. Apesar disso. Estimativas de vari‚ncia podem ser ˙teis tambÈm para outras finalidades. È tratada em todos os livros de amostragem convencionais. tais como observaÁıes suspeitas. EST I M A Ç Ã O B ASE A D A N O P L A N O A M OST R A L tÍm probabilidade de cobertura aproximada 1 − α. como se ver· no restante deste livro. e um tratamento mais completo e aprofundado da quest„o pode ser encontrado no livro de Wolter(1985).4) para alguns esquemas de seleÁ„o com probabilidades desiguais e determinadas configuraÁıes peculiares da amostra). SPSS. mÈdias e proporÁıes. isto È. tais como SAS. produzir estimativas negativas da vari‚ncia.1 para os estimadores das vari‚ncias dos estimadores de totais n„o s„o mais v·lidas. e todas as probabilidades de inclus„o conjuntas s„o n„o nulas. Para alguns planos amostrais utilizados na pr·tica. A seleÁ„o das tÈcnicas discutidas aqui n„o È exaustiva. Em todos esses casos. denominada Jackknife. nem mesmo para estatÌsticas simples como estimadores de totais e mÈdias. Casos comuns que consideraremos mais adiante s„o a estimaÁ„o de razıes. … de algumas dessas tÈcnicas que tratam as seÁıes seguintes deste capÌtulo. n„o oferecem rotinas prontas para estimar vari‚ncias considerando o plano amostral. os pacotes estatÌsticos usuais. Em muitos outros casos. as probabilidades de inclus„o conjuntas podem ser nulas (caso de amostragem sistem·tica) ou difÌceis de calcular (caso de alguns esquemas de seleÁ„o com probabilidades desiguais). os par‚metros de interesse s„o în„o linearesî (diferentes de totais. A estimaÁ„o de vari‚ncias para os casos padrıes de amostragem. as expressıes fornecidas na SeÁ„o 3. com seleÁ„o de unidades prim·rias com probabilidades desiguais. por exemplo). Finalmente. Discutimos inicialmente a tÈcnica de LinearizaÁ„o de Taylor. quando os estimadores s„o lineares nas observaÁıes amostrais. em seguida uma abordagem comumente adotada para estimar vari‚ncias para planos amostrais estratificados em v·rios est·gios. denominada MÈtodo do Conglomerado Prim·rio (do inglÍs Ultimate Cluster). etc. Nesses casos.

θ de θ neste caso onde A È uma matriz K $ R de constantes.3. . Y i∈s à dado por PoderÌamos usar θ ) ¥ X b π = g( à=g Y θ yi /πi ) . È à f·cil estudar as propriedades de θ. . P 0 onde Y = i∈U yi = (Y1 .3. i∈s como estimador de θ. 3. podemos usar a tÈcnica de LinearizaÁ„o de Taylor (ou MÈtodo Delta) para obter aproximaÁıes assintÛticas para a vari‚ncia . Consideremos estimadores π-ponderados de Y. No caso particular em que g È uma funÁ„o linear. Vp θ ) ¥ à π È dado em (3. . o estimador à seria à = AY àπ . LIN E A RIZ A Ç Ã O D E T A Y L O R PA R A ES T I M A R VA RI  N C I AS 39 principais pacotes estatÌsticos especializados em estimaÁ„o de vari‚ncias de aleatorizaÁ„o (veja discuss„o no CapÌtulo 10). estimadores da forma: X bπ = yi /πi . θK ). . . YR ) È um vetor de totais de R vari·veis de pesquisa. isto È. Assumindo ent„o que θ È da forma θ = AY . que pode ser escrito na forma θ = g(Y) . onde Vp Y Quando g È n„o linear.2) ou ??. . . θ Este estimador È n„o-viciado e tem vari‚ncia de aleatorizaÁ„o ) ¥ ) ¥ 0 à = AVp Y àπ A .3 L i nea r iz ação de Tay lor p a r a E st i m a r Va r i â ncias Um problema que ocorre frequentemente È o de estimar um vetor de par‚metros θ = (θ 1 . .

40

C A PÍ T U L O 3. EST I M A Ç Ã O B ASE A D A N O P L A N O A M OST R A L

) ¥
b π . Para maiores detalhes sobre esse mÈtodo, veja por exemà=g Y
de θ
plo S‰rndal, Swensson e Wretman(1992, p. 172), Wolter(1985, p. 221) ou
Bishop, Fienberg e Holland (1977, p. 486).
) ¥
à π em torno de Y, atÈ o termo de
Vamos considerar a expans„o de g Y
primeira ordem, desprezando o resto, dada por:
¥
)
à'θ
àL = g(Y) + ∆g(Y) Y
à π −Y
θ

(3.19)

onde ∆g(Y) È a matriz Jacobiana K $ R cuja r-Èsima coluna È ∂g(Y)/∂Yr ,
para r = 1, . . . , R.
Tomando as vari‚ncias de aleatorizaÁ„o dos dois lados em (3.19), e notando que
¥ direito o ˙nico termo que tem vari‚ncia de aleatorizaÁ„o
) no lado
à π , segue imediatamente que
à π −Y È uma funÁ„o linear de Y
∆g(Y) Y
) ¥
) ¥
à π ∆g(Y)0
Vp à
θ ' ∆g(Y)Vp Y

(3.20)

) ¥
) ¥
à π È dado em (3.2). Um estimador consistente de Vp θ
à È dado
onde Vp Y
por
) ¥
) ¥
0
à = ∆g(Y
à )Vàp Y
à π ∆g(Y
à ),
Vàp θ
(3.21)
π
π

) ¥
à π È dado em (3.4). Um outro estimador consistente seria obtido
onde Vàp Y
) ¥
) ¥
à π por VàSY G Y
à π dado em (3.6) na express„o (3.21).
substituindo Vàp Y
LinearizaÁ„o de Taylor pode ser trabalhosa, porque para cada par‚metro/estimador de interesse s„o requeridas derivaÁıes e c·lculos especÌficos.
Felizmente, grande parte das situaÁıes de interesse pr·tico est„o hoje cobertas por pacotes estatÌsticos especializados na estimaÁ„o de medidas descritivas e par‚metros de modelos, e suas respectivas vari‚ncias de aleatorizaÁ„o
empregando o mÈtodo de linearizaÁ„o, de modo que essa desvantagem potencial tende a se diluir.
LinearizaÁ„o de Taylor pode n„o ser imediatamente possÌvel, pois as
quantidades de interesse podem n„o ser expressas como funÁıes de totais ou
mÈdias populacionais (este È o caso de quantis de distribuiÁıes, por exemplo).

3.3. LIN E A RIZ A Ç Ã O D E T A Y L O R PA R A ES T I M A R VA RI Â N C I AS 41
E x e m p lo 3.2 Matriz de covari‚ncia para um vetor de razıes
Para ilustrar a aplicaÁ„o dos resultados anteriores, consideremos o problema de estimar a matriz de covari‚ncia de um vetor de razıes. Sejam
0
0
Y = (Y1 , . . . Yu ) e X) = (X1 , . . . ,¥Xu ) vetores de totais e consideremos o
Y1
Yu
,..., X
. Conhecendo estimativas das matrizes
vetor de razıes R = X
1
) ¥
) ¥
) u
¥
à π , Vp X
à π e COVp Y
à π; X
à π , queremos calcular a matriz de vaVp Y
ri‚ncia de
1
!0
à1π
àuπ
Y
Y
b
R=
,...,
.
à 1π
à uπ
X
X
Consideremos a funÁ„o g : R2u → Ru dada por
,
µ
yu
y1
,...,
g (y, x) =
x1
xu
0

0

onde y = (y1 , . . . , yu ) e x = (x1 , . . . , xu ) . A matriz jacobiana de g (y, x) È
a matriz u $ 2u dada por
h
)
¥
)
¥ i
∆g (y, x) = diag x11 , . . . , x1u
diag − xy12 , . . . , − xyu2
.
1

u

Seja D x = diag(x1 , . . . , xu ) a matriz diagonal de dimens„o u$u formada
0
a partir do vetor x = (x1 , . . . , xu ) . Usando essa notaÁ„o, podemos escrever
b de estimadores das razıes como
o vetor R
1
!0
)
¥
à1π
àuπ
Y
Y
b
à π, X
àπ
R=
,...,
=g Y
à 1π
à uπ
X
X
e a correspondente matriz jacobiana como
)
¥ h
à π, X
à π = D b D−1
∆g Y
R
Yˆ π

−D Rb D−1

π

i

.

A partir deste resultado, aplicando (3.21) podemos escrever:
h
) ¥
i
.
b
D Rb D−1
−D Rb D−1
=
Vbp R
ˆY π
ˆX π

) ¥
)
¥ 
àπ
à π, X
àπ
\p Y
Vbp Y
COV
)
¥
) ¥

$
à π, Y
àπ
àπ
\p X
Vbp X
COV
" −1
#
D Yˆ D Rb
π
$
.
−D−1
D Rb

π

C A PÍ T U L O 3. EST I M A Ç Ã O B ASE A D A N O P L A N O A M OST R A L

42

Efetuando os produtos das matrizes em blocos obtemos
) ¥
h
) ¥
) ¥
i
bp Y
b
à π D−1 + D−1 Vbp X
à π D−1 D b
V
= D bR D−1
Vbp R
R



Xˆ π
h π
) π
¥ π
à π, X
à π D−1
\p Y
−D Rb D−1
COV
(3.22)
Yˆ π

)
¥
i π
à π, Y
à π D−1 D b ,
\p X
COV
+ D−1
R


π

π

que fornece o resultado desejado, isto È, uma express„o de estimador para a
b do vetor de razıes de interesse.
matriz de vari‚ncia do estimador R

3.4

M é t o do do C onglo m er a do P r i m á r io

A idÈia central do MÈtodo do Conglomerado Prim·rio (do inglÍs Ultimate
Cluster) para estimaÁ„o de vari‚ncias para estimadores de totais e mÈdias
em planos amostrais de m˙ltiplos est·gios, proposto por Hansen, Hurwitz e
Madow(1953), È considerar apenas a variaÁ„o entre informaÁıes disponÌveis
a nÌvel das unidades prim·rias de amostragem (UPAs), isto È, a nÌvel dos
conglomerados prim·rios, e admitir que estes teriam sido selecionadas com
reposiÁ„o da populaÁ„o. Esta idÈia È simples, porÈm bastante poderosa,
porque permite acomodar uma enorme variedade de planos amostrais, envolvendo estratificaÁ„o e seleÁ„o com probabilidades desiguais (com ou sem
reposiÁ„o) tanto das unidades prim·rias como das demais unidades de amostragem. Os requisitos fundamentais para permitir a aplicaÁ„o deste mÈtodo
È que estejam disponÌveis estimadores n„o viciados dos totais da vari·vel
de interesse para cada um dos conglomerados prim·rios selecionados, e que
pelo menos dois destes sejam selecionados em cada estrato (se a amostra for
estratificada no primeiro est·gio).
Embora o mÈtodo tenha sido originalmente proposto para estimaÁ„o de
totais, pode ser aplicado tambÈm para estimar (por linearizaÁ„o) quantidades populacionais que possam ser representadas como funÁıes de totais,
conforme discutido na SeÁ„o 3.3. De fato, esse mÈtodo fornece a base para v·rios dos pacotes estatÌsticos especializados em c·lculo de vari‚ncias
considerando o plano amostral, tais como SUDAAN, CENVAR, STATA ou
PC-CARP (veja discuss„o no CapÌtulo 10).
Para descrever o mÈtodo, considere um plano amostral em v·rios est·gios, no qual nh unidades prim·rias de amostragem (UPAs) s„o selecionadas
no estrato h, h = 1, . . . , H. Denotando por πhi a probabilidade de inclus„o
na amostra da unidade prim·ria de amostragem (conglomerado prim·rio) i
do estrato h, e por Ybhi um estimador n„o viciado do total Yhi da vari·vel

3.5. M É T O D OS D E R E P L I C A Ç Ã O

43

de pesquisa y no i-Èsimo conglomerado prim·rio P
do estrato
h, h = 1, . . . , H.
H PNh
Ent„o um estimador n„o viciado do total Y = h = 1 i = 1 Yhi da vari·vel
de pesquisa y na populaÁ„o È dado por
YbCP =

nh
H X
X
h=1 i=1

Ybhi /πhi

e um estimador n„o viciado da vari‚ncia de aleatorizaÁ„o correspondente
por
1
!2
nh
H
)
¥ X
X
b
b
Y
n
Y
h
hi
Vbp YbCP =
− h
(3.23)
nh − 1
πhi nh
h=1

i=1

P
onde Ybh = ni =h1 Ybhi /πhi para h = 1, . . . , H. (Veja por exemplo Shah et al.,
1993, p. 4).
Embora muitas vezes a seleÁ„o das unidades prim·rias possa ter sido
feita sem reposiÁ„o, o estimador de Conglomerados Prim·rios aqui apresentado pode fornecer uma aproximaÁ„o razo·vel da correspondente vari‚ncia
de aleatorizaÁ„o. Isso ocorre porque planos amostrais sem reposiÁ„o s„o em
geral mais eficientes que planos com reposiÁ„o de igual tamanho. Tal aproximaÁ„o È largamente utilizada pelos praticantes de amostragem para estimar
vari‚ncias de quantidades descritivas usuais tais como totais e mÈdias (com
a devida adaptaÁ„o) devido ‡ sua simplicidade, comparada com a complexidade muito maior envolvida com o emprego de estimadores de vari‚ncia que
tentam incorporar todas as etapas de planos amostrais em v·rios est·gios.
Uma discuss„o sobre a qualidade dessa aproximaÁ„o e alternativas pode ser
encontrada em S‰rndal, Swensson e Wretman(1992, p. 153).

3.5

M é t o dos de R e plicação

A idÈia de usar mÈtodos indiretos ou de replicaÁ„o para estimar vari‚ncias
em amostragem n„o È nova. Mahalanobis(1939, 1944) e Deming(1956) foram
os precursores e muitos desenvolvimentos importantes se seguiram. Hoje
em dia v·rias tÈcnicas baseadas nessa idÈia s„o rotineiramente empregadas
por praticantes de amostragem, e inclusive formam a base para pacotes
especializados de estimaÁ„o tais como WesVarPC (veja Westat, 1996).
A idÈia b·sica È construir a amostra de tamanho n como a uni„o de G
amostras de tamanho n/G cada uma, selecionadas de forma independente e
usando o mesmo plano amostral, onde G È o n˙mero de replicaÁıes. Nesse
θg È um estimador n„o viciado de θ baseado
caso, se θ È o par‚metro-alvo, e b

44

C A PÍ T U L O 3. EST I M A Ç Ã O B ASE A D A N O P L A N O A M OST R A L

na g-Èsima replicaÁ„o (g = 1, . . . , G), segue-se que
G

1 Xb
b
θg
θR =
G g=1

È um estimador n„o viciado de θ e
) ¥
VbR b
θR =

¥2
X)
1
b
θR
θg − b
G (G − 1)
G

(3.24)

g=1

θR .
È um estimador n„o viciado da vari‚ncia do estimador (de replicaÁ„o) b
Note que desde que as replicaÁıes sejam construÌdas
) ¥de forma indepenb
b
θR s„o n„o viciados
dente conforme indicado, os estimadores θR e VR b
qualquer que seja o plano amostral empregado para selecionar a amostra de
cada replicaÁ„o, o que faz desta uma tÈcnica flexÌvel e genÈrica. AlÈm disso,
a abordagem de replicaÁ„o È bastante geral, pois os estimadores aos quais se
aplica n„o precisam ser necessariamente expressos como funÁıes de totais,
como ocorre com a tÈcnica de linearizaÁ„o discutida na SeÁ„o 3.3. Apesar
destas vantagens, a aplicaÁ„o pr·tica desta tÈcnica de forma exata È restrita
porque em geral È menos eficiente, inconveniente e mais caro selecionar G
amostras independentes com o mesmo esquema, se comparado ‡ seleÁ„o de
uma ˙nica amostra de tamanho n diretamente. AlÈm disto, se o n˙mero
de replicaÁıes G for pequeno, o estimador de vari‚ncia pode ser inst·vel.
Uma pesquisa importante e de grande porte em que esta idÈia È aplicada
exatamente È a pesquisa de preÁos para formar o Õndice de PreÁos ao Consumidor (do inglÍs Consumer Price Index - CPI ) do US Bureau of Labor
Statistics(1984, p. 22), que utiliza duas replicaÁıes (meias amostras) para
formar a amostra pesquisada.
Mesmo quando a amostra n„o foi selecionada exatamente dessa forma,
a construÁ„o de replicaÁıes a posteriori para fins de estimaÁ„o de vari‚ncias
em situaÁıes complexas È tambÈm uma idÈia simples de aplicar, poderosa
e flexÌvel, por acomodar uma ampla gama de planos amostrais e situaÁıes
de estimaÁ„o de interesse. Quando as replicaÁıes s„o construÌdas apÛs a
pesquisa (a posteriori), mediante repartiÁ„o (por sorteio) da amostra pesquisada em G grupos mutuamente exclusivos de igual tamanho, estas s„o
chamadas de replicaÁıes dependentes ou grupos aleatÛrios (do inglÍs random
groups). As expressıes fornecidas para o estimador de replicaÁ„o e sua
vari‚ncia s„o tambÈm empregadas nesse caso como uma aproximaÁ„o, mas
n„o possuem as mesmas propriedades do caso de replicaÁıes independentes.

3.5. M É T O D OS D E R E P L I C A Ç Ã O

45

… importante observar que a repartiÁ„o da amostra em grupos aleatÛrios
a posteriori precisa considerar o plano amostral empregado e pode n„o ser
possÌvel em algumas situaÁıes. Idealmente, tal repartiÁ„o deve ser feita respeitando estratos e alocando unidades prim·rias inteiras (isto È, com todas
as respectivas unidades subordinadas). Wolter(1985, p. 31) discute algumas
regras sobre como fazer para respeitar o plano amostral ao fazer a repartiÁ„o
da amostra a posteriori, porÈm recomendamos que o interessado no uso dessa
tÈcnica exerÁa cautela.
AlÈm da modificaÁ„o da interpretaÁ„o das replicaÁıes no caso de serem
formadas a posteriori, È comum tambÈm nesse caso empregar um estimador
b
para o par‚metro θ baseado na amostra completa (denotado
) ¥θ), e um estimaθ R anteriormente
dor de vari‚ncia mais conservador que o estimador VbR b
apresentado, dado por
) ¥
VbRG b
θ =

G )
¥2
X
1
b
θ .
θg − b
G (G − 1) g = 1

(3.25)

Um exemplo de aplicaÁ„o desta tÈcnica pode ser encontrado na forma
recomendada para estimaÁ„o de vari‚ncias a partir das Amostras de Uso
P˙blico do Censo Demogr·fico Brasileiro de 80 (veja IBGE, 1985).
Nesta seÁ„o descreveremos uma outra dessas tÈcnicas baseadas em replicaÁıes, talvez a mais conhecida e popular, o mÈtodo de jackknife. Este
mÈtodo foi originalmente proposto por Quenoille(1949, 1956) como uma
tÈcnica para reduÁ„o de vÌcio de estimadores, num contexto da EstatÌstica
Cl·ssica. A idÈia central consiste em repartir a amostra (a posteriori, como
no caso do mÈtodo dos grupos aleatÛrios) em G grupos mutuamente exclusivos de igual tamanho n/G. Em seguida, para cada grupo formado calcular
os chamados pseudo-estimadores dados por
b
θ − (G − 1) b
θg
θ (g) = Gb

θg È um estimador de θ obtido da amostra apÛs eliminar os elementos
onde b
do grupo g, empregando a mesma forma funcional adotada no c·lculo do
θ que considera a amostra inteira. A estimaÁ„o da vari‚ncia por
estimador b
esse mÈtodo pode ent„o ser feita de duas maneiras alternativas, usando um
dos estimadores dados por
) ¥
VbJ 1 b
θ =

G )
¥2
X
1
b
θJ
θ (g) − b
G (G − 1) g = 1

(3.26)

174). p. Para detalhes sobre este caso.27) g=1 P b θJ = G1 G onde b g = 1 θ (g) È um estimador pontual jackknife para θ. 306). embora tambÈm possua uma opÁ„o para usar outro mÈtodo conhecido como de replicaÁıes de meias amostras balanceadas (do inglÍs balanced half-sample replication). p. 321 e Wolter. 1985. O pacote WesVarPC (Westat. tais como a mediana e o m·ximo.1 A descriÁ„o do mÈtodo jackknife aqui apresentada n„o cobre o caso de planos amostrais estratificados. suas propriedades s„o razo·veis para v·rios outros casos de estimadores n„o lineares de interesse (veja. 1977. EST I M A Ç Ã O B ASE A D A N O P L A N O A M OST R A L ) ¥ θ = VbJ 2 b G ) ¥2 X 1 b θ θ (g) − b G (G − 1) (3. pois neste caso essa tÈcnica n„o funciona bem (Wolter. Cochran. Essa regra deve ser aplicada considerando o n˙mero de unidades prim·rias na amostra (UPAs) quando o plano amostral È em m˙ltiplos est·gios. 1985. tomando G = n e portanto eliminando uma observaÁ„o da amostra de cada vez ao calcular os pseudo-valores. Os estimadores de vari‚ncia do mÈtodo jackknife fornecem resultado idÍntico aos dos estimadores usuais de vari‚ncia quando aplicados para o caso de estimadores lineares nas observaÁıes amostrais. p.2 O estimador VbJ 2 b θ È mais conservador que o estimador ) ¥ VbJ 1 b θ . consulte Wolter(1985. . O bse r vação 3. p. pois as UPAs devem sempre ser eliminadas com todas as unidades subordinadas. que È mais complexo. 163). alternativo ao estimador da amostra inteira àθ. isto È. AlÈm disso. 1996) baseia suas estimativas de vari‚ncia principalmente no mÈtodo jackknife.3 … comum aplicar a tÈcnica fazendo o n˙mero de grupos igual ao tamanho da amostra. O bse r vação 3. A situaÁ„o merece maiores cuidados para o caso de quantis ou estatÌsticas de ordem. ) ¥ O bse r vação 3. por exemplo.46 ou C A PÍ T U L O 3.

de amostragem aleatÛria simples com reposiÁ„o (AASC). em geral.C a pí t u lo 4 E fei t os do P la no A m ost r al 4. Contudo. Os pacotes mais comuns de an·lise estatÌstica incluem em suas saÌdas valores de estimativas pontuais e seus desvios padrıes. Este capÌtulo trata de avaliar o impacto sobre desvios padrıes. alÈm de pvalores relativos a hipÛteses de interesse. justificando os cuidados que devem ser tomados na 47 . Testes de hipÛteses s„o tambÈm usados na fase de seleÁ„o de modelos. permitem avaliar a precis„o da estimaÁ„o. intervalos de confianÁa e nÌveis de signific‚ncia de testes usuais quando h· afastamentos das hipÛteses IID mencionadas. Como veremos. o impacto pode ser muito grande em algumas situaÁıes. AlÈm de estimativas pontuais. devidos ao uso de planos amostrais complexos para obter os dados. como as que realizam o IBGE e outras agÍncias produtoras de estatÌsticas. baseadas nas hipÛteses de independÍncia e de igualdade de distribuiÁ„o (IID) das observaÁıes. O c·lculo do desvio padr„o tambÈm possibita a construÁ„o de estatÌsticas para testar hipÛteses relativas a par‚metros do modelo (tradiÁ„o de modelagem) ou de par‚metros da populaÁ„o finita (tradiÁ„o de amostragem). Valores de desvios padrıes. Tais hipÛteses quase nunca valem para dados obtidos atravÈs de pesquisas por amostragem. as fÛrmulas usadas nestes pacotes para o c·lculo dos desvios padrıes e obtenÁ„o de testes s„o. ou equivalentemente.1 I n t ro d ução O c·lculo de desvio padr„o e o uso de testes de hipÛteses desempenham papel fundamental em estudos analÌticos. ou alternativamente comprimentos de intervalos de confianÁa. na inferÍncia analÌtica È necess·rio transmitir a idÈia de precis„o associada a essas estimativas e construir intervalos de confianÁa associados.

Nascimento Silva e Moura(1990) estimaram o EPAKish para estimadores de totais de v·rias vari·veis sÛcio-econÙmicas a nÌvel das Regiıes Metropolitanas (RMs) utilizando dados do question·rio de amostra do Censo Demogr·fico de 1980. design effect ou. EPAKish àθ = (4.2 E fei t o do P l a no A m ost r al ( E P A ) de K ish Para medir o efeito do plano amostral sobre a vari‚ncia de um estimador.1 Efeitos de plano amostral de Kish para estimadores de totais com amostragem conglomerada em dois est·gios. abreviadamente. tendo o setor censit·rio como unidade prim·ria e o domicÌlio como unidade secund·ria de amostragem. Essas medidas estimadas do efeito do plano amostral foram calculadas para trÍs esquemas amostrais alternativos. vamos considerar um exemplo. calculadas para dois planos amostrais alternativos.C A PÍ T U L O 4. Neste capÌtulo. Duas das alternativas consideraram seleÁ„o de setores com equiprobabilidade via amostragem aleatÛria simples sem reposiÁ„o (AC2AAS) e fraÁ„o amostral constante de domicÌlios no segundo est·gio (uma usando o estimador simples ou π-ponderado do total. Vamos distribuiÁ„o induconsiderar um estimador àθ e calcular a vari‚ncia de sua ) ¥ zida pelo plano amostral complexo (verdadeiro) VV ERD àθ e a vari‚ncia da distribuiÁ„o ) do ¥ estimador induzida pelo plano de amostragem aleatÛria à simples VAAS θ . D e fi n ição 4. O objetivo desta medida È comparar planos amostrais no est·gio de planejamento da pesquisa. e outra usando .1 O E fe i to do P l a n o A m ost ra l (EP A) de K ish para um estimador à θÈ ) ¥ ) ¥ VV ERD àθ ) ¥ . deff ). usaremos como referÍncia b·sica Skinner(1989a). E x e m p lo 4. 4. Kish(1965) propÙs uma medida que denominou Efeito do Plano Amostral (EPA) (em inglÍs. O EPA de Kish È uma raz„o entre vari‚ncias (de aleatorizaÁ„o) de um estimador. E F E I T OS D O P L A N O A M OST R A L 48 an·lise de dados deste tipo.1) VAAS àθ ) ¥ Para ilustrar o conceito do EPAKish àθ . todos considerando amostragem conglomerada de domicÌlios em dois est·gios.

E F E I T O D O P L A N O A M OST R A L ( E PA ) D E K ISH 49 o estimador de raz„o para o total calibrando no n˙mero total de domicÌlios da populaÁ„o). Os valores dos EPAs calculados por Nascimento Silva e Moura(1990) podem ser usados para planejar pesquisas amostrais (ao menos nas regiıes metropolitanas). foram calculados para planos . e uma terceira alternativa considerou a seleÁ„o de setores com probabilidades proporcionais ao tamanho (n˙mero de domicÌlios por setor). Para algumas vari·veis (1. e a seleÁ„o de 15 domicÌlios em cada setor da amostra. Os valores apresentados na Tabela 4.2.1 a tÌtulo de ilustraÁ„o. … que tais valores.27 respectivamente. Nota-se grande variaÁ„o dos valores do EPA.1 para a RM do Rio de Janeiro s„o similares aos observados para as demais RMs. revelando que este esquema È menos eficiente que os competidores considerados. o EPA varia consideravelmente entre as diferentes alternativas de plano amostral. com valores prÛximos aos do esquema AC2AAS com estimador de raz„o. e empregando o correspondente estimador π-ponderado.2. Note que a populaÁ„o alvo considera apenas moradores em domicÌlios particulares permanentes na Regi„o Metropolitana do Rio de Janeiro. Isso ocorre porque estimativas ingÍnuas de vari‚ncia baseadas na hipÛtese de AAS subestimam substancialmente as vari‚ncias corretas. cujos valores mÌnimo e m·ximo s„o de 1. Permitem tambÈm calcular tamanhos amostrais para garantir determinado nÌvel de precis„o. Os resultados para algumas vari·veis a nÌvel da Regi„o Metropolitana do Rio de Janeiro s„o apresentados na Tabela 4. Outra regularidade encontrada nesse valores È que o EPA para o plano amostral AC2AAS com estimador simples apresenta sempre os valores mais elevados. Portanto. sem emprego de fÛrmulas complicadas.4. se consideradas as mesmas vari·veis. Os valores elevados do EPA observados para algumas vari·veis realÁam a import‚ncia de considerar o plano amostral verdadeiro ao estimar vari‚ncias e desvios padrıes associados ‡s estimativas pontuais. Entretanto.28 e 111.7 e 8) as variaÁıes entre os planos amostrais È mÌnima. antes que as respectivas amostras sejam efetivamente selecionadas. tais valores seriam ˙teis como informaÁ„o de apoio ao planejamento de novas pesquisas por amostragem. Em geral. pois permitem comparar e antecipar o impacto do uso de alguns esquemas amostrais alternativos sobre a precis„o de estimadores de totais de v·rias vari·veis relevantes. esses valores tÍm pouca utilidade em termos de usos analÌticos dos dados da amostra do Censo Demogr·fico 80.6. enquanto para outras vari·veis (3.4. embora tendo sido estimados com essa amostra. o EPA È menor para o esquema AC2PPT. denominada AC2PPT.5 e 9).

26 2. 11 7. 28 5.C A PÍ T U L O 4. 22 4. 33 1. 92 4. 80 1. 59 2. 27 1. 00 1. 78 1. 02 1. 41 7. 08 . 02 6. 74 2. 67 1. E F E I T OS D O P L A N O A M OST R A L 50 Tabela 4. 89 111. 55 7. 49 4. 58 2. 13 6. 58 1. 55 46. 45 1. 22 7.1: Efeitos de plano amostral de Kish para vari·veis selecionadas Regi„o Metropolitana do Rio de Janeiro Plano amostral → Vari·vel ↓ 1) N˙mero total de moradores 2) N˙mero de moradores ocupados 3) Rendimento monet·rio mensal I 4) N˙mero total de filhos nascidos vivos de mulheres com 15 anos ou mais 5) N˙mero de domicÌlios que tÍm fog„o 6) N˙mero de domicÌlios que tÍm telefone 7) Valor do aluguel ou prestaÁ„o mensal 8) N˙mero de domicÌlios que tÍm automÛvel e renda < 5SM 9) N˙mero de domicÌlios que tÍm geladeira e renda ≥ 5SM AC2AAS Estimador Estimador Simples de Raz„o AC2PPT Estimador π-ponderado 10. 90 5.

com seleÁ„o de setores no primeiro est·gio. vamos considerar a distribuiÁ„o de v0 com relaÁ„o ‡ distribuiÁ„o ) de ¥ aleatorizaÁ„o à verdadeira (ou do modelo verdadeiro) e localizar VV ERD θ com relaÁ„o a esta distribuiÁ„o de referÍncia. correspondente ao conceito de misspecification effect (meff ) proposto por Skinner. Como em geral seria complicado obter esta distribuiÁ„o. Para tentar contornar essa dificuldade. J· os planos amostrais considerados na tabulaÁ„o dos EPAs eram planos amostrais em dois est·gios. a utilidade maior dos valores tabulados dos EPAs seria a comparaÁ„o de planos amostrais alternativos para planejamento de pesquisas futuras. A cia de à inadequaÁ„o da hipÛtese de IID poderia ser consequÍncia ou de estrutura da populaÁ„o ou de efeito de plano amostral complexo. A amostra de domicÌlios usada no censo È estratificada por setor censit·rio com seleÁ„o sistem·tica de uma fraÁ„o fixa (25% no Censo 80) dos domicÌlios de cada setor. 4.1 com respeito ‡ dificuldade de uso dos EPAs de Kish calculados para fins analÌticos tambÈm se aplica para outras situaÁıes e È uma deficiÍncia estrutural do conceito de EPA proposto por Kish. vamos tomar uma medida de centro ou locaÁ„o da mesma e .4. a estimativa v0 da vari‚ncia de àθ calculada sob a hipÛtese de observaÁıes à (ou IID se afastaria da vari‚ncia ) ¥ de θ sob o plano )amostral ¥ ) ¥modelo) verdadeiro.3. os quais foram considerados por sua similaridade com os esquemas adotados nas principais pesquisas domiciliares do IBGE tais como a PNAD e a PME (Pesquisa Mensal de Emprego). que tem utilidade tambÈm para fins de inferÍncia analÌtica. vamos agora considerar um modelo subjacente ‡s observaÁıes )usadas para o c·lculo do estimador pontual àθ. È necess·rio considerar um conceito ampliado de EPA. 24). Holt e Smith(1989. que apresentamos e discutimos nesta seÁ„o. Em qualquer dos casos. E F E I T O D O P L A N O A M OST R A L A M P LI A D O 51 amostrais distintos do que foi efetivamente adotado para seleÁ„o da amostra do censo. denotada VV ERD à θ . Portanto. ¥ θ um estimador usual (consistente) da vari‚nDesignemos por v0 = VbIID à θ calculado sob a hipÛtese (ingÍnua) de que as observaÁıes s„o IID. Para introduzir este conceito ampliado de EPA.3 E fei t o do P la no A m ost r al A m plia do O que se observou no Exemplo 4. e n„o a an·lise dos resultados da amostra do censo 80. Note que VV ERD àθ = VM àθ na abordagem ) ¥ ) ¥ baseada em modelos e VV ERD àθ = Vp àθ na abordagem de aleatorizaÁ„o. p. Para avaliar se este afastamento tende a ser grande ou pequeno.

Nesses casos È difÌcil prever o impacto de ignorar o plano amostral (ou modelo) verdadeiro sobre a an·lise baseada em hipÛteses IID. Quanto mais afastado de ) ¥ 1 for o valor de EPA àθ. Ignorar estratificaÁ„o em v0 pode reduzir o EPA. Podemos desta forma introduzir uma medida de efeito da especificaÁ„o incorreta do plano amostral (ou do modelo) sobre a estimativa v0 da vari‚nθ. Em geral. para poder ent„o avaliar se h· impactos importantes a considerar. v0 . 2. Por essa raz„o. o EPA àθ. 3. podem inflacionar ou reduzir o EPA.2) com relaÁ„o ‡ distribuiÁ„o correspondente. È recomend·vel ao menos estimar os EPAs antes de concluir a an·lise padr„o. E F E I T OS D O P L A N O A M OST R A L ) ¥ compar·-la a VV ERD àθ . v0 pode ser calculado com respeito a distribuiÁıes de aleatorizaÁ„o ou do modelo envolvido.2) ) ¥ Desta forma. EV ERD (v0 ) (4. CombinaÁıes destes aspectos num mesmo plano amostral. Ignorar os pesos em v0 pode inflacionar o EPA. s„o esperadas as seguintes conseq¸Íncias sobre o EPA ao ignorar o plano amostral efetivamente adotado e admitir que a seleÁ„o da amostra foi AAS: 1. mais incorreta ser· considerada a especificaÁ„o do plano amostral ou do modelo. Enquanto a medida proposta por Kish baseia-se nas distribuiÁıes) indu¥ zidas pela aleatorizaÁ„o dos planos amostrais comparados. Ignorar conglomeraÁ„o em v0 pode inflacionar o EPA.52 C A PÍ T U L O 4. bastando calcular VV ERD e EV ERD da definiÁ„o (4. resultando na especificaÁ„o incorreta do plano amostral subjacente a v0 . v0 = .2 O efeito da especificaÁ„o incorreta do plano amostral (ou do modelo) sobre a estimativa v0 da vari‚ncia do estimador àθ È ) ¥ ) ¥ VV ERD àθ EPA àθ. v0 mede a tendÍncia de v0 a subestimar ou su) ¥ perestimar VV ERD àθ . . cia do estimador à D e fi n ição 4. o EPA àθ. vari‚ncia verdadeira de àθ.

E F E I T O D O P L A N O A M OST R A L A M P LI A D O 53 Tabela 4. A idÈia È considerar o problema de estimar as mÈdias populacionais das vari·veis SAL e REC (vari·veis de pesquisa. para as quais foram observadas as seguintes vari·veis: 1) pessoal ocupado em 31/12/94 (PO). em vista dos diferentes tamanhos populacionais dos estratos. as empresas da populaÁ„o foram divididas em dois estratos. 3) receita total no ano de 94 (REC). implicando em unidades amostrais com pesos desiguais numa situaÁ„o bastante simples. definidos a partir da vari·vel PO.4. Para estimar estas mÈdias. conforme indicado na Tabela 4. em que se supıe que amostragem seria usada para sua estimaÁ„o.2: DefiniÁ„o da estratificaÁ„o da populaÁ„o de empresas Estrato 1 2 CondiÁ„o empresas com PO > 21 empresas com PO <= 21 Tamanho 161 empresas 588 empresas E x e m p lo 4.2. As mÈdias populacionais das vari·veis de pesquisa (SAL e REC) s„o conhecidas. A vari·vel PO È a vari·vel de estratificaÁ„o. a proporÁ„o de 50% das observaÁıes da amostra no estrato 1 (das maiores empresas) na amostra È bem maior do que seria esperado sob amostragem aleatÛria simples da populaÁ„o em geral. 2) total de sal·rios pagos no ano de 94 (SAL).3. porÈm supostas desconhecidas para efeitos do presente exercÌcio. usando amostras estratificadas simples com alocaÁ„o desproporcional. Foram ent„o selecionadas de cada um dos estratos amostras aleatÛrias simples sem reposiÁ„o de 30 empresas. implicando em uso de alocaÁ„o igual e em fraÁıes amostrais desiguais. Como o estrato 1 contÈm cerca de 21% das observaÁıes da populaÁ„o. nesse exemplo). a mÈdia amostral de uma vari·vel de pesquisa y qualquer (SAL ou REC) dada por 2 1 XX yhi yØ = n h = 1 i∈sh . Desta forma.2 Efeitos de plano amostral para estimaÁ„o de mÈdias na amostragem estratificada simples com alocaÁ„o desproporcional Neste exemplo consideramos uma populaÁ„o de N = 749 empresas.

com Y h = Nh1−1 i∈Uh mÈdia populacional da vari·vel y dentro do estrato h. 2).AES com alocaÁ„o igual). E F E I T OS D O P L A N O A M OST R A L 54 tenderia a superestimar a mÈdia Y da populaÁ„o dada por Y = 1 N 2 P P h = 1 i∈Uh yhi .C A PÍ T U L O 4. mas admitidos desconhecidos para fins do exercÌcio de estimaÁ„o de mÈdias via amostragem) e por simulaÁ„o. um estimador n„o-viciado da mÈdia populacional YØ seria dado por yØw = 2 X Wh yØh h=1 onde Wh = NNh È a proporÁ„o de observaÁıes da populaÁ„o no estrato h e P 0 yØh = n1h yhi È a mÈdia amostral dos y s no estrato h (h = 1. Neste caso. onde yhi È o valor da vari·vel de pesquisa y para a i−Èsima observaÁ„o do estrato h (h = 1.3) nh h=1 onde fh = nh /Nh . No presente exercÌcio. vamos considerar o estimador n„o-viciado yØw e calcular sua vari‚ncia sob o plano amostral realmente utilizado (amostra estratificada simples . Um estimador usual da vari‚ncia de yØw sob amostragem aleatÛria simples 2 P P 2 1 P P (yhi − yØ)2 e f = h2 = 1 nh / h2 = 1 Nh È v0 = (1 − f) sn onde s2 = n−1 h = 1 i∈sh = n/N. O c·lculo do EPA foi feito tambÈm por meio de simulaÁ„o. nh È o n˙mero de observaÁıes na amostra no estrato ¢2 P ° yhi − Y h È a vari‚ncia populacional da vari·vel de h. a vari‚ncia do estimador yØw pode ser obtida de duas formas: calculando a express„o da vari‚ncia utilizando os dados de todas as unidades da populaÁ„o (que s„o conhecidos. 2). segundo o plano amostral estratificado consi- . Geramos 500 amostras de tamanho 60. Essa vari‚ncia poder· ent„o ser comparada com o valor esperado (sob a distribuiÁ„o induzida pelo plano amostral estratificado) do estimador da vari‚ncia obtido sob a hipÛtese de amostragem aleatÛria simples. e Sh2 = Nh1−1 i∈Uh P yhi representando a pesquisa y dentro do estrato h. i∈sh Com a finalidade de ilustrar o c·lculo do EPA. A vari‚ncia de yØw sob a distribuiÁ„o de aleatorizaÁ„o verdadeira È dada por 2 X S2 yw ) = Wh2 (1 − fh ) h Vp (Ø (4.

000. Como previsto. calculamos a mÈdia das mÈdias amostrais n„o ponderadas (Ø y ) dos sal·rios e das receitas obtidas nas 500 amostras simuladas. respectivamente. 2. 00) e os valores das receitas em milhıes de Reais (R$ 1. Observamos ainda um pequeno vÌcio da ordem de −1. 4. Em contraste com os valores dos par‚metros populacionais. Para cada uma das 500 amostras e cada uma das duas vari·veis de pesquisa (SAL e REC) foram calculados: 1. entretanto o pequeno vÌcio observado na simulaÁ„o n„o pode ser ignorado pois È . observamos um vÌcio para cima na estimativa destas mÈdias. 191 76. obtendo-se os valores na primeira linha da Tabela. da ordem de 105% para os sal·rios e de 98. estimativa da vari‚ncia da estimativa )ponderada da yw ) consi¥ mÈdia (Ø yw ) . 3. 054 derado. os par‚metros populacionais de interesse podem ser calculados.4. estimativa ponderada da mÈdia (Ø yw ).3. 9% para as receitas. 107 160. 00).3. derando o plano amostral verdadeiro VàAES (Ø Note que na apresentaÁ„o dos resultados os valores dos sal·rios foram expressos em milhares de Reais (R$ 1. obtendo para esse estimador as mÈdias apresentadas na terceira linha da Tabela 4. 750 4.3.3: Propriedades dos estimadores da mÈdia das vari·veis de pesquisa Quantidade de interesse 1) MÈdia populacional Y 2) MÈdia de yØ sobre 500 amostras 3) MÈdia de yØw sobre 500 amostras Sal·rios 78. 328 Receitas 2. 700 2. estimativa da vari‚ncia da estimativa ponderada da mÈdia (Ø yw ) considerando observaÁıes IID (v0 ).000. Note que o estimador yØw È n„o-viciado sob o plano amostral adotado.4. mÈdia amostral (Ø y ). Como a populaÁ„o È conhecida.000. Usamos tambÈm o estimador yØw para estimar a mÈdia dos sal·rios e das receitas na populaÁ„o. E F E I T O D O P L A N O A M OST R A L A M P LI A D O 55 Tabela 4. obtendo os valores na segunda linha da Tabela 4. 51% para os sal·rios e receitas.3. 95% e −2.

32569 1. Como o estimador pontual dado pela mÈdia amostral n„o ponderada (Ø y ) È grosseiramente viciado. o interesse maior da simulaÁ„o foi comparar valores de estimadores de vari‚ncia. apesar do tamanho razo·vel da simulaÁ„o (500 replicaÁıes). AlÈm dos estimadores pontuais. podemos calcular VAES (Ø yw ) atravÈs das vari‚ncias de y dentro dos estratos h = 1.4. e estimativas desses valores baseadas nas 500 amostras da simulaÁ„o s„o apresentadas na linha 4 da Tabela 4. consideramos dois estimadores de vari‚ncia. 84 0. 43500 231. Os valores para o EPA foram calculados tanto com base . e consequentemente de medidas do efeito do plano amostral. que foi obtido substituindo as vari‚ncias dentro dos estratos stral VàAES (Ø 1 Pnh 2 2 Sh por estimativas amostrais n„o viciadas dadas por sh = nh i = 1 (yhi −yh )2 yw ) conforme definida em (4.4: Propriedades dos estimadores de vari‚ncia do estimador yØw Quantidade de interesse yw ) 1) Vari‚ncia populacional VAES (Ø b yw ) 2) MÈdia de VAES (Ø usando 500 amostras 3) Valor esperado de v0 usando populaÁ„o 4)MÈdia de v0 usando 500 amostras Sal·rios Receitas 244. resultando nos valores na linha 3 da Tabela 4. n„o consideramos estimativas de vari‚ncia para esse estimador. 3 1. E F E I T OS D O P L A N O A M OST R A L Tabela 4.3). na fÛrmula de VAES (Ø Como neste exercÌcio a populaÁ„o È conhecida. Esses valores s„o apresentados respectivamente na primeira e segunda linhas da Tabela 4. para as duas vari·veis de pesquisa consideradas. 1 1. ° ° ¢¢ ° ° ¢¢ Os valores de EV ERD v0 SALw e de EV ERD v0 REC w foram tambÈm calculados a partir das vari‚ncias dentro e entre estratos na populaÁ„o. a saber o estimador ingÍnuo sob a hipÛtese de AAS (dado por v0 ) e um estimador n„o viciado da vari‚ncia sob o plano amoyw ) . h = 1. 2.4.636. Para esse ˙ltimo. mas t„o somente para o estimador n„o-viciado dado pela mÈdia ponderada yØw . 1880 1.4.613. .56 C A PÍ T U L O 4. 2121 significantemente diferente de 0 ao nÌvel de signific‚ncia de 5%. 2 ou atravÈs da simulaÁ„o. 18 0.

O bser vação 4. neste caso.3. 1. 142 = 1. 3 0. 151 e 1. superestimando a vari‚ncia por ignorar o efeito de estratificaÁ„o.1 Neste exemplo n„o foi feito uso analÌtico dos dados e sim descritivo. cujos c·lculos est„o ilustrados a seguir: ° ° ¢¢ 231. portanto. 1 ° ¢¢ ° 0. Essas conclusıes s„o largamente aceitas pelos amostristas e produtores de dados baseados em pesquisas amostrais para o caso da estimaÁ„o de mÈdias e totais. 269 EPA REC w . ignorar os pesos na estimaÁ„o da vari‚ncia do estimador ponderado yØw tambÈm provoca vÌcios substanciais.636.4. Apesar das diferenÁas entre os resultados da simulaÁ„o e suas contrapartidas calculadas considerando conhecidos os valores da populaÁ„o. em particular para a estimaÁ„o de vari‚ncias associadas a estimativas pontuais de mÈdias e totais. 2121 ° ° ¢¢ EPA SALw . e respectivas vari‚ncias.5 resume os principais resultados deste exercÌcio. para o estimador ponderado da mÈdia yØw . 366. 1880 A Tabela 4. as conclusıes da an·lise s„o similares: 1. 32569 = = 0. sem a devida consideraÁ„o dos pesos e plano amostral. . v0 SALw = 0. portanto o uso do estimador ingÍnuo de vari‚ncia v0 È desaconselhado. 18 = 0. v0 REC w 1. 84 EPA SALw . v0 SALw = ° ° ¢¢ EPA REC w . os efeitos de plano amostral s„o substancialmente menores que 1 para as duas vari·veis de pesquisa consideradas (sal·rios e receita). Tal situaÁ„o se deve ao uso ingÍnuo de pacotes estatÌsticos padrıes desenvolvidos para analisar amostras IID. v0 REC w = 244. ignorar os pesos na estimaÁ„o da mÈdia provoca vÌcios substanciais. Entretanto ainda h· exemplos de usos indevidos de dados amostrais nos quais os pesos s„o ignorados. o uso do estimador simples de mÈdia (Ø y ) È desaconselhado. 43500 = 0. que n„o podem ser ignorados. E F E I T O D O P L A N O A M OST R A L A M P LI A D O 57 nas estimativas de simulaÁ„o como nos valores populacionais das vari‚ncias. 2.613. onde È usual incorporar os pesos no c·lculo de estimativas e vari‚ncias.

32569 0. 2 . como fizemos neste exemplo.).3 PopulaÁ„o conglomerada com conglomerados de tamanho 2 (Skinner. Suponha que um ˙nico par È sorteado ao acaso da populaÁ„o e que os valores y1 e y2 s„o observados para as duas unidades do par selecionado. jogadores numa dupla de vÙlei de praia ou tÍnis.5: Valores dos Efeitos de Plano Amostral (EPA) para as mÈdias de Sal·rio e de Receita Vari·vel Sal·rio Receita Estimativa Vari‚ncia EP A Vari‚ncia EP A SimulaÁ„o 231. O bse r vação 4. p. cap. casais.2 N„o seria esperado usar um estimador ponderado para a mÈdia e n„o considerar os pesos no c·lculo de vari‚ncias. isto È. a mÈdia Um estimador n„o viciado para θ È dado por b amostral. 151 0. 1990. 18 0. Assumindo a (falsa) hipÛtese de que o esquema amostral È AASC . 1958).3 O exemplo mostra que ignorar a estratificaÁ„o ao calcular v0 diminui o EPA. 366 O bse r vação 4. Y2 ) = ρ θ = (y1 + y2 )/2 . 1989. 142 0. V (Y ) = σ 2  M i CORRM (Y1 . Suponha que os valores de uma vari·vel de pesquisa medida nessas unidades tÍm mÈdia θ e vari‚ncia σ 2 . Um outro exemplo relevante È utilizado a seguir para ilustrar o fato de que o conceito do EPA adotado aqui È mais abrangente do que o definido por Kish. alÈm de uma correlaÁ„o ρ entre os valores dentro de cada par (correlaÁ„o intraclasse. 269 PopulaÁ„o 244. E F E I T OS D O P L A N O A M OST R A L Tabela 4. onde as unidades (elementares ou de referÍncia) est„o grupadas em pares (exemplos de tais populaÁıes incluem pares de irm„os gÍmeos. 84 0. 43500 0. O modelo assumido pode ent„o ser representado como   EM (Yi ) = θ i = 1. E x e m p lo 4. 2 e Haggard. Holt e Smith.58 C A PÍ T U L O 4. 25) Considere uma populaÁ„o de conglomerados de tamanho 2. veja Nascimento Silva e Moura. em particular porque a origem do efeito pode estar na estrutura da populaÁ„o e n„o no plano amostral usado para obter os dados. etc.

) ¥ ¥ ) A Figura 4. 8.4. o EPAKish θ cresce pouco com o valor do coeficiente de correlaÁ„o intraclasse ρ. o que implica que um plano amostral conglomerado como o adotado (seleÁ„o ao acaso de um par da populaÁ„o) seria menos eficiente que um plano amostral aleatÛrio simples (seleÁ„o de duas unidades ao acaso da populaÁ„o). embora os respectivos estimadores baseados numa particular amostra coin) ¥ à cidam. ou equivalentemente. v0 . com ) valores de EPA à θ. que y1 e y2 s„o θ È dada por observaÁıes de vari·veis aleatÛrias IID. O primeiro È que as duas medidas s„o distintas.1) e (4. Como se pode notar. Um aspecto importante a notar È que ) ¥ ¥ ) θ tem variaÁ„o muito mais modesta que o EPA àθ. v0 b θ È dada por Entretanto. v0 chegando a 9. No caso particular deste exemplo.1 plota os valores de EPAKish àθ e EPA àθ. o EPAKish à Este exemplo ilustra bem dois aspectos distintos do uso de medidas como o efeito de plano amostral. considerando as equaÁıes (4. o efeito da especificaÁ„o inadequada do plano amostral ¥ ou da estrutura populacional pode ser severo.2). v0 para valores de ρ entre 0 e 0. EV ERD v0 b e Consequentemente. v0 = (1 + ρ)/(1 − ρ) . a vari‚ncia de b ) ¥ VAAS b θ = σ 2 /2 com um estimador n„o viciado dado por ) ¥ θ = (y1 − y2 )2 /4 . tem-se que ) ¥ EPAKish àθ = 1 + ρ ¥ ) EPA àθ. na realidade a vari‚ncia de b ) ¥ ) ¥ VV ERD b θ = VM b θ = σ 2 (1 + ρ)/2 ) ¥ θ È dado por e o valor esperado do estimador de vari‚ncia v0 b h ) ¥i θ = σ 2 (1 − ρ)/2 . mas a perda de eficiÍncia . E F E I T O D O P L A N O A M OST R A L A M P LI A D O 59 de unidades individuais e n„o de pares.3.

2 0.5 0.C A PÍ T U L O 4.6 0. v0 e EPAKish b 10 9 8 7 5 4 3 2 1 0. E F E I T OS D O P L A N O A M OST R A L 60 ¥ ) ¥ ) θ para conglomeraÁ„o Figura~4.4 0.3 0.7 0.1: Valores de EPA b θ.1 0 0 EPA 6 ρ EPA EPA_kish .8 0.

para obter a vari‚ncia da distribuiÁ„o assintÛtica de t0 note que h ) ¥i1/2 à b V V ERD θ θà − θ θà − θ $ = . Neste caso. No caso de um plano amostral complexo. h ) ¥i1/2 1/2 1/2 v0 v à b 0 VV ERD θ . a distribuiÁ„o que È aproximadamente normal È a de àθ − θ h ) ¥i1/2 . o efeito da m· especificaÁ„o do) plano ¥ amostral no estimador de vari‚ncia. medido pelo EPA à θ. ¥ ) Vale ainda notar que o EPA àθ. Neste exemplo. muitas vezes È N (0. b VV ERD àθ Por outro lado. que seria tanto maior quanto maior fosse o coeficiente de correlaÁ„o intraclasse ρ. 4. o impacto. onde ϕ È a funÁ„o de densidade da distribuiÁ„o normal padr„o. v0 . seria muito maior. Efeitos como esse s„o comuns tambÈm devido ao planejamento amostral. ignorar a estrutura da populaÁ„o (o fato de que as observaÁıes s„o pareadas) poderia provocar subestimaÁ„o da vari‚ncia do estimador de mÈdia.4. θ + zα/2 v0 . a posteriori. mesmo em populaÁıes onde a conglomeraÁ„o È imposta artificialmente pelo amostrista. 1). I N T E RVA L OS D E C O N F I A N Ç A E T ES T ES D E H I P Ó T ESES 61 seria modesta.4. sob a hipÛtese de que as observaÁıes s„o IID. um intervalo de confianÁa de nÌvel h i de confianÁa aproxima1/2 à 1/2 à do (1 − α) È dado por θ − zα/2 v0 .4 I n t e r valos de C on fi a nça e Test es de H i p ó t eses θ de um par‚metro θ (da populaÁ„o finita ou A partir da estimativa pontual à do modelo de superpopulaÁ„o) È possÌvel construir um intervalo de confianÁa de nÌvel de confianÁa aproximado (1 − α) a partir da distribuiÁ„o assintÛtica de àθ − θ t0 = 1/2 v0 que. v0 mede o impacto da m· especificaÁ„o do plano amostral ou do modelo para a estrutura populacional. onde zα È definido por R +∞ zα ϕ (t) dt = α . J· se o interesse È medir. Vamos analisar o efeito de um plano amostral complexo sobre o intervalo de confianÁa.

83 0. 90 0. 86 0. 89 0. que apresentamos na Tabela 4. 0 1 − α = 0. 1). 96 0. 5 3.6. EV ERD (v 0 ) ) ¥ ) ¥ à b V igual a EV ERD (v0 ) e V ERD θ È aproximadamente igual a VV ERD àθ . à −1 . 67 0. 95 1 − α = 0. isto È. a V ERD v 0 ¥ ) que È um estimador para EPA àθ. 83 0. 74 0. Em geral. a probabilidade de cobertura assintÛtica do intervalo i h 1/2 1/2 à θ + zα/2 v0 θ − zα/2 v0 . 0. o intervalo de confianÁa baseado na distribuiÁ„o assintÛtica verdadeira de t0 pode ser bem distinto daquele baseado na distribuiÁ„o assintÛtica obtida sob a hipÛtese de observaÁıes IID. E F E I T OS D O P L A N O A M OST R A L Tabela 4.62 C A PÍ T U L O 4. 5 2. v0 . 0 2. 80 Como o primeiro fator tende para uma N (0. 99 0. 2Φ zα/2 / EPA θ. v0 . 99 0. a vari‚ncia assintÛtica de Vb (θˆ ) t0 È aproximadamente igual ao quadrado do segundo fator. EPA àθ. 93 0. 78 0. 99 0. 0 3. 71 0. 96 0. PorÈm quando a amostra È grande ¥ ) ˆ à v0 = VV ERD (θ) . à ser· aproximadamente igual a µ h ) ¥i1/2 . Calculamos esta probabilidade para alguns valores do EPA. v0 onde Φ È a funÁ„o de distribuiÁ„o acumulada de uma N (0. 96 0. 99 0. ¥ ) Dependendo do valor de EPA àθ. 0 1. pois v0 È aproximadamente esse valor aproxima o EPA θ. v0 . 5 4. . 90 0. 95 0.6: Probabilidades de cobertura para nÌveis nominais de 95% e 99% ) ¥ à v0 EPA θ. 95 1. 1) . Logo temos que a distribuiÁ„o assintÛtica verdadeira de t0 È dada por h ) ¥i t0 ∼ N 0.

. Para o teste baseado na amostragem aleatÛria simples.4) Z = |b p − p0 |/ p0 (1 − p0 ) /n. v0 = 2. no denominador de Z.000. O valor da estatÌstica de teste Z definida em (4. 50 da amostra tenha ni = 20 empregados. a probabilidade real de cobertura ) ¥ diminui. Ignorando o plano amostral e a conglomeraÁ„o das unidades elementares na populaÁ„o. foi estabelecida a hipÛtese de que a proporÁ„o de trabalhadores cobertos por planos de sa˙de È 80%. 196). .4. 1) para a estatÌstica de teste p (4. o nÌvel de signific‚ncia real seria aproximadamente 1 − 0. ser· baseado na hipÛtese de distribuiÁ„o binomial. 84. 8.4 Teste de hipÛtese sobre proporÁ„o Vamos considerar um exemplo hipotÈtico de teste de hipÛtese sobre uma proporÁ„o. Usando-se conhecimento do ano anterior. portanto. ou seja H0 : p = p0 = 0. Vamos adotar o nÌvel de signific‚ncia α = 5%. 83 = 0. . Utilizando a correspondÍncia existente entre intervalos de confianÁa e testes de hipÛteses. 17. ignoramos a conglomeraÁ„o e usamos na fÛrmula do desvio padr„o o tamanho total da amostra de unidades elementares (empregados). podemos considerar um teste binomial e usar a aproximaÁ„o normal N(0. podemos derivar os nÌveis de signific‚ncia nominais e reais subtraindo ¥ de 1 os valores da Tabela 4. supondo que tenha sido usada amostragem aleatÛria simples com reposiÁ„o (AASC) de empregados. v0 maiores que 1. Queremos estudar o acesso dos trabalhadores das empresas a planos de sa˙de. v0 aumenta. I N T E RVA L OS D E C O N F I A N Ç A E T ES T ES D E H I P Ó T ESES 63 ) ¥ ¿ medida que o valor do EPA àθ. p. isto È. para α = 0. O desvio padr„o de pb. Uma amostra de m = 50 conglomerados È extraÌda de uma grande populaÁ„o de empresas industriais (conglomerados). . apresentado em Lehtonen e Pahkinen(1995.000. A estimativa obtida na pesquisa foi pb = nA /n = 0.4.4) È. Vamos tambÈm considerar uma abordagem baseada no plano amostral de conglomerados. E x e m p lo 4.6. Por exemplo. . onde o denominador È o desvio padr„o da estimativa pb sob a hipÛtese nula. com tamanhos amostrais diferentes para as duas abordagens. Suponhamos que cada empresa i = 1. O P tamanho total da amostra de empregados (unidades elementares) È n = i ni = 1. onde nA = 840 È o n˙mero de trabalhadores na amostra com acesso a planos de sa˙de. n = 1. semelhante ao de Sudman(1976). sendo menor que o valor nominal para valores de EPA à θ. 05 ) à e EPA θ. Vamos calcular o valor da estatÌstica Z.

temos a estatÌstica de teste baseada no plano amostral verdadeiro p p − p0 |/ p0 (1 − p0 ) /50 = 0. Por essa raz„o.2) È relativo a inferÍncias sobre um par‚metro univariado θ. Neste exemplo. 162 > Z0. 8) /1.64 C A PÍ T U L O 4. ao menos como forma de verificar se as conclusıes obtidas por formas ingÍnuas de an·lise ignorando os pesos e plano amostral s„o as mesmas. Zp = |b p onde o valor 0. 8) /50 = 0. 96 (4. 8 (1 − 0. È razo·vel admitir que se uma empresa for coberta por plano de sa˙de. selecionar mais de uma pessoa numa empresa n„o aumenta nosso conhecimento sobre a cobertura por plano de sa˙de no local. portanto. 8 (1 − 0. De fato.5) p onde 0.000 usado no teste anterior. Consideremos agora o problema de . conglomeraÁ„o e probabilidades desiguais de seleÁ„o. e o novo teste sugere a n„o rejeiÁ„o da mesma hipÛtese nula. 4. Portanto.000 = 0. o valor observado de Zp È menor que o de Zbin . Portanto.000 = 3. igual a 1. 0126 È o desvio padr„o de pb sob a hipÛtese nula. Efeitos desse tipo s„o mais difÌceis de antecipar para inferÍncia analÌtica. particularmente quando os planos amostrais empregados envolvem combinaÁ„o de estratificaÁ„o. 0566 È muito maior que o valor do desvio padr„o obtido no teste anterior. 707. Usando o tamanho efetivo de amostra. a recomendaÁ„o È procurar sempre considerar o plano amostral na an·lise. 84 − 0. cada empregado dessa empresa ter· acesso ao plano. E F E I T OS D O P L A N O A M OST R A L p Zbin = |0. o tamanho efetivo da amostra È n = 50. se verifica que ignorar a conglomeraÁ„o pode induzir a uma decis„o incorreta de rejeitar a hipÛtese nula. em contraste com o valor 1. O termo tamanho efetivo foi introduzido em Kish(1965) para designar o tamanho de uma amostra aleatÛria simples necess·rio para estimar p com a mesma precis„o obtida por uma amostra conglomerada de tamanho n (neste caso. 8|/ 0. 8) /1. quando a mesma n„o seria rejeitada se o plano amostral fosse corretamente incorporado na an·lise. Este resultado sugere a rejeiÁ„o da hipÛtese H0 . 8 (1 − 0.025 = 1. Essa È uma informaÁ„o importante que foi ignorada no teste anterior.5 E fei t os M u l t i va r ia dos de P la no A m ost r al O conceito de efeito de plano amostral introduzido em (4. Por outro lado.000) unidades elementares.

2).4.000) e Receita (em R$ 1. V0 . temos δ 1 = . REC w . .2. ou equivalentemente. dos estimadores SALw .5. 64) È possÌvel definir limitantes para os efeitos (univariados) do plano amostral para combinaÁıes 0 b Temos os seguintes resultados: b das componentes de θ. A partir deles. Usando a mesma notaÁ„o do Exemplo 4. Para ilustrar esse conceito. onde θ dos populacionais ¢ e portanto podemos calcular a covari‚ncia ° s„o conhecidos. os damatriz EMPA à θ.000. de amostragem aleatÛria simples com reposiÁ„o (AASC). ambas calculadas com respeito ‡ distribuiÁ„o de aleatorizaÁ„o induzida pelo plano amostral efetivamente utilizado. Neste exemplo. Os autovalores δ 1 ≥ . ≥ δK da matriz ∆ s„o denominados efeitos generalizados do plano amostral . . No caso particular onde ∆ = IK#K .6) à È a matriz de covaonde EV ERD (V0 ) È o valor esperado de V0 e. temos que COVAES (SALw . = δ K = 1 e os efeitos (univariados) do plano amostral das combinaÁıes lineares para componentes à s„o todos iguais a 1.5 Efeitos Multivariados do Plano Amostral para as mÈdias de Sal·rios e de Receitas Vamos considerar as vari·veis Sal·rio (em R$ 1. . p. E x e m p lo 4. VV ERD (θ) à ri‚ncia de θ. (4.REC nh . REC w 0 .2 de estimaÁ„o de mÈdias com amostragem estratificada desproporcional anteriormente apresentado.000) definidas na¥populaÁ„o de empresas do Exemplo 4. Seja θ à baseado nas hipÛteV0 um estimador da matriz K $ K de covari‚ncia de θ. δ 1 = max EPA(c θ. e utilizando resultados padrıes de teoria das matrizes (Johnson e Wichern. REC w ) = 2 X h=1 Wh2 (1 − fh ) (h) SSAL. δK = min EPA(c θ. ses de independÍncia e igualdade de distribuiÁ„o das observaÁıes (IID). . 1988. 0 b c0 V0 c) . … possÌvel generalizar a equaÁ„o (4. lineares c θ 0 b c0 V0 c) . definindo o efeito multivariado do à e V0 como plano amostral de θ à EMPA(à θ. ou alternativamente sob o modelo îcorretoî. V0 ) = ∆ = EV ERD (V0 )−1 VV ERD (θ). E F E I T OS M U LT I VA RI A D OS D E P L A N O A M OS T R A L 65 à um estimador de θ e seja estimaÁ„o de um vetor θ de K par‚metros.2 e calcular a ) ¢ ° à = SALw . vamos reconsiderar o de θ Exemplo 4. mas agora considerando a natureza multivariada do problema (h· duas vari·veis de pesquisa).

42267 (4.REC = X° ¢° ¢ 1 SALhi − SALh REChi − REC h . E F E I T OS D O P L A N O A M OST R A L 66 onde (h) SSAL. 2852 7 8 250. pode tambÈm ser calculada atravÈs de simulaÁ„o. o EMPA(θ.7) 3. da covari‚ncia entre mÈdias ponderadas do sal·rio e da receita assumindo observaÁıes IID. 2683 0. 2358 0. ¢ ¢ valores usados nos numerado° com os ° res de EPA SALw e de EPA REC w l· apresentados. de modo an·logo ao que foi feito no Exemplo 4. à V0 ) = ∆ Neste exemplo. da vari‚ncia da mÈdia amostral ponderada do sal·rio e da receita considerando o plano amostral verdadeiro. 2358 e portanto a matriz de vari‚ncia dos estimadores ponderados da mÈdia fica igual a 7 8 244. da vari‚ncia da mÈdia amostral ponderada do sal·rio e da receita assumindo observaÁıes IID.C A PÍ T U L O 4. obtemos para esta covari‚ncia o valor COVAES (SALw .7) foram os calculados no Exemplo 4. A partir da simulaÁ„o foram obtidos os seguintes resultados: 7 8 1785. 2683 à VAES (θ) = e 3. Para isto. 41 3.2. 734 1. REC w ) = 3. REC w ) = (4.2. 2.9) . 3. Para calcular à V0 ) È preciso agora obter EV ERD (V0 ) . respectivamente. 734 . 3 27. Nh − 1 i∈Uh Substituindo os valores conhecidos na populaÁ„o das vari·veis SALhi e REChi . 4.2 e coincidem. 4350 onde os valores das vari‚ncias em (4. 2358 VAES (SALw . EAES (V0 ) = 27.8) (4. a matriz de efeito do plano amostral EMPA(θ. foram utilizadas as 500 amostras de tamanho 60 segundo o plano amostral descrito no Exemplo 4. da covari‚ncia entre mÈdias ponderadas do sal·rio e da receita considerando o plano amostral verdadeiro. Para cada uma das 500 amostras foram calculadas estimativas: 1. 18 3.

autovalores da matriz ∆ = Σ−1 AAS Σ. .7 apresenta os nÌveis de signific‚ncia reais para α = 5% para v·rios valores de K e δ. n − K) i=1 veis aleatÛrias independentes com distribuiÁ„o normal padr„o e os δ i s„o os y). 4353 8 67 . . Contudo. 931 −0. a estatÌstica T 2 tem a distribuiÁ„o sob H0 . . . onde F (K. vamos considerar o problema de testar a hipÛtese H0 : µ = µ0 . . 0007277 0.191). onde µ È o vetor de mÈdias de um vetor de vari·veis de pesquisa y. isto È. µ20 . p. Mesmo quando os valores dos δ i s„o distintos. . consideremos o caso em que δ 1 = . T 2 tem aproxiK P δ i Zi2 . E F E I T OS M U LT I VA RI A D OS D E P L A N O A M OS T R A L à = ∆ = [EAES (V0 )]−1 VAES (θ) 7 0. Neste caso. v0 definido em (4. Se as observaÁıes yi s„o IID normais.10) Os autovalores δ 1 = 0. A Tabela 4. Para ilustrar. 1516 −4. = δ K = δ. n − K) denota uma vari·vel aleatÛria com distribuiÁ„o F com K e (n − K) graus de liberdade. (yi − y n−1 e i∈s 0 µ0 = (µ10 . o valor tal que P χ2 (K) > χα2 (K) = α . o EMPA(θ. Para simplificar. . o nÌvel de signific‚ncia real È dado aproximadamente por ° ¢ P χ2 (K) > χα2 (K) /δ (4. n i∈s Sy = 0 1 X Ø) (yi − y Ø) . Mesmo se as observaÁıes yi n„o forem normais. (4.2) para o caso uniparamÈtrico foi utilizado para corrigir nÌveis de confianÁa de intervalos e à V0 ) definido em (4. . T 2 tem distribuiÁ„o assintÛtica χ2 (K) quando n → ∞ (Johnson e Wichern. onde ΣAAS = Ep (Sy /n) e Σ = Vp (Ø Vamos analisar o efeito do plano amostral sobre o nÌvel de signific‚ncia deste teste.11) onde y Ø = 1X yi .5. . utilizado para corrigir nÌveis de confianÁa de regiıes de confianÁa e nÌveis de signific‚ncia de testes de hipÛteses no caso multiparamÈtrico. 139 de ∆ fornecem os efeitos generalizados do plano amostral. . µK0 ) . 447 e δ 2 = 0.6) pode ser nÌveis de signific‚ncia de testes.12) χ2 com K graus de onde χα2 (K) È o quantil superior α£de uma distribuiÁ„o § liberdade. se for utilizado um plano amostral complexo. 1988. ZK s„o vari·madamente a distribuiÁ„o da vari·vel (n−1) (n−K ) F (K. . ) ¥ Da mesma forma que o EPA àθ. y (Ø (4.4. A estatÌstica de teste usualmente adotada para este caso È a T 2 de Hottelling dada por 0 T 2 = n (Ø y − µ0 ) S−1 y − µ0 ) . onde Z1 .

sob a hipÛtese de amostragem aleatÛria simples com reposiÁ„o e sob o plano amostral efetivamente utilizado. Para isso. E F E I T OS D O P L A N O A M OST R A L 68 os valores da Tabela 4. O verdadeiro pvalor pode ser definido analogamente como h i 0 pvalorV ERD (Ø y) = P χ2 (K) > (Ø y − µ0 ) Σ−1 (Ø y − µ ) .15) y¯ ∈RCAAS ( y¯ ) Observe que o segundo membro de (4. y) quando y Ø pertence ‡ Pode-se mostrar que o m·ximo de pvalorV ERD (Ø RCAAS (Ø y) È dado por: ° ¢ max pvalorV ERD (Ø y) = P χ2 (K) > χα2 (K) /δ 1 . Por definiÁ„o este valor È dado por h i 0 y) = P χ2 (K) > (Ø y − µ0 ) Σ−1 (Ø y − µ ) pvalorAAS (Ø 0 AAS e H0 È rejeitada com nÌvel de signific‚ncia α se pvalorAAS < α. consideremos o pvalor do teste da hipÛtese H0 : µ = µ0 .13) Os valores na Tabela 4.14) α 0 AAS = {Ø y :pvalorAAS (Ø y) < α} . dos como valores m·ximos de pvalorV ERD (Ø considerando-se δ 1 no lugar de δ.7 podem ser devidamente interpretados. Consideremos a regi„o crÌtica do teste de nÌvel α baseado na hipÛtese de AAS: n o 0 2 RCAAS (Ø y) = y Ø : (Ø y − µ0 ) Σ−1 (Ø y − µ ) > χ (K) (4.C A PÍ T U L O 4.7 podem ser interpretay) para y Ø na regi„o RCAAS (Ø y). . (4.7 podem ser usados para quantificar a diferenÁa entre estes pvalores. 0 V ERD (4. os valores da Tabela 4.15) È da mesma forma que o segundo membro de (4.12). Logo.

5 3. E F E I T OS M U LT I VA RI A D OS D E P L A N O A M OS T R A L 69 Tabela 4.9 1.0 1 4 5 11 17 22 26 K 2 4 5 14 22 30 37 3 3 5 16 27 37 46 4 3 5 19 32 44 53 .0 2.5.0 1.7: NÌveis de signific‚ncia (%) verdadeiros do teste T 2 para o nÌvel nominal de 5% assumindo autovalores iguais para ∆ δ 0.5 2.4.

E F E I T OS D O P L A N O A M OST R A L .70 C A PÍ T U L O 4.

C a pí t u lo 5 A j ust e de M o delos P a r a m é t r icos 5. por exemplo. em Bickel e Doksum(1977) e Garthwaite. Isto caracterizava o uso dos dados dessas pesquisas para inferÍncia descritiva . etc. InferÍncias analÌticas baseadas numa pesquisa amostral s„o aquelas que envolvem a estimaÁ„o de par‚metros num modelo (de superpopulaÁ„o) (Kalton. os dados de pesquisas amostrais tÍm sido cada vez mais utilizados tambÈm para propÛsitos analÌticos. Na pr·tica das pesquisas amostrais. testados e reformulados usando procedimentos estatÌsticos padrıes como os apresentados. modelos alternativos com hipÛteses mais complexas e/ou estimadores especiais devem ser considerados a fim de acomodar aspectos da 71 .1 I n t ro d ução Nos primÛrdios do uso îmodernoî de pesquisas por amostragem. contudo. Binder et al. 1987). Com maior freq¸Íncia. os dados obtidos eram usados principalmente para estimar funÁıes simples dos valores das vari·veis de interesse nas populaÁıes finitas. 1983b. ajustados.. Neste caso. modelos podem ser especificados. Jollife e Jones(1995). mÈdias. Quando os valores amostrais das vari·veis da pesquisa podem ser considerados como realizaÁıes de vetores aleatÛrios independentes e identicamente distribuÌdos (IID). Recentemente. bem como diagnÛstico e verificaÁ„o da adequaÁ„o das hipÛteses dos modelos. as hipÛteses de modelo IID para as observaÁıes amostrais s„o raramente adequadas. razıes. mÈtodos e pacotes estatÌsticos padrıes podem ser usados para executar os c·lculos de estimativas de par‚metros e medidas de precis„o correspondentes. tais como totais.

. No caso das inferÍncias descritivas usuais para mÈdias. totais e proporÁıes. fazemos uma revis„o sucinta do mÈtodo de M·xima VerossimilhanÁa (MV) para ajustar modelos dentro da abordagem de modelagem cl·ssica. entretanto. Jollife e Jones(1995). utilizadas ou n„o na especificaÁ„o do plano amostral. elas n„o resolvem o problema de como incorporar o plano amostral nessas an·lises. que podem ser incorporadas com proveito na estimaÁ„o dos par‚metros ou na prÛpria formulaÁ„o modelo. necess·ria para compreens„o adequada do material subseq¸ente. Este capÌtulo apresenta um dos mÈtodos centrais disponÌveis para ajuste de modelos paramÈtricos regulares considerando dados amostrais complexos. Os valores dos EPAs calculados. Embora as medidas propostas no CapÌtulo 4 para os efeitos de plano amostral sirvam para avaliar o impacto de ignorar o plano amostral nas inferÍncias descritivas ou mesmo analÌticas baseadas em dados amostrais. A J UST E D E M O D E L OS PA R A M É T RI C OS estrutura da populaÁ„o e/ou do plano amostral. porÈm. mas t„o somente recordar os principais resultados aqui requeridos. J· os mÈtodos requeridos para inferÍncias analÌticas sÛ recentemente foram consolidados em livro (Skinner. baseado no trabalho de Binder(1983). Essa revis„o n„o pretende ser exaustiva ou detalhada. o assunto È amplamente tratado na literatura de amostragem e o interessado em maiores detalhes pode consultar livros cl·ssicos como Cochran(1977). Swensson e Wretman(1992). usualmente est„o disponÌveis informaÁıes sobre vari·veis auxiliares. Garthwaite. AlÈm disso.72 C A PÍ T U L O 5. ou mais recentes como S‰rndal. 1989). por exemplo. fazemos breve discuss„o sobre o papel dos pesos na an·lise de dados amostrais. Os exemplos apresentados no CapÌtulo 4 demonstram claramente a inadequaÁ„o de ignorar o plano amostral ao efetuar an·lises de dados de pesquisas amostrais. Para uma discuss„o mais detalhada do mÈtodo de M·xima VerossimilhanÁa para estimaÁ„o em modelos paramÈtricos regulares veja. Primeiramente. Antes de descrever esse mÈtodo. considerando o trabalho de Pfeffermann(1993). Holt e Smith. como para estatÌsticas analÌticas usadas em testes de hipÛteses e os correspondentes efeitos nos nÌveis de signific‚ncia reais. revelam que ignorar o plano amostral pode levar a decisıes erradas e a avaliaÁıes inadequadas da precis„o das estimativas amostrais. tanto para estimadores de medidas descritivas tais como mÈdias e totais.

de dimens„o K $ 1. obtemos um sistema de equaÁıes X ui (θ) = 0 ∂L (θ) /∂θ = i=1 onde ui (θ) = ∂ log [f (yi . Suponha que os vetores aleatÛrios Yi . n. . a verossimilhanÁa amostral È dada por l (θ) = n Y f (yi . θ)] /∂θ È o vetor dos escores da unidade i. θ) i=1 e a correspondente log-verossimilhanÁa por n X log [f (yi . VàM θ onde J (θ) = n X ∂ui (θ) /∂θ i=1 e ) ¥ J à θ = J (θ)|θ = θˆ . . L (θ) = i=1 Calculando as derivadas parciais de L (θ) com relaÁ„o a cada componente de θ e igualando a 0. yiR ) um vetor R $ 1 dos valores observados das vari·veis de interesse observadas para a unidade i da amostra. . gerado por um vetor aleatÛrio Yi . . È dada por ) ¥ à ' [J (θ)]−1 VM θ e um estimador consistente dessa vari‚ncia È dado por ) ¥ h ) ¥i−1 à = J θ à . θK ) È um vetor K $ 1 de par‚metros desconhecidos de interesse. . . s„o independentes e identicamente distribuÌdos (IID) com distribuiÁ„o comum f(y. a soluÁ„o à deste sistema de equaÁıes È o E st i m a do r d e M á x i m a Ve r ossi m il h a nça à sob o modelo adotado. θ)] . . onde 0 θ = (θ 1 . n. 1974. . A vari‚ncia assintÛtica do estimador θ denominado aqui abreviadamente modelo M . . . . p. Sob essas hipÛteses. . θ). . para i = 1. . ( E M V ) de θ. .2. M É T O D O D E M Á X I M A V E R OSSIM I L H A N Ç A (M V ) 5. . . 281). θ Sob condiÁıes de regularidade (Cox e Hinkley. para i = 1.2 73 M é t o do de M á x i m a Verossi m il h a nça ( M V ) 0 Seja yi = (yi1 .5. onde n È o tamanho da amostra.

67). tais probabilidades de inclus„o chegam a ser 5 vezes maiores em BelÈm do que em S„o Paulo.. havendo inclusive municÌpios incluÌdos na amostra com certeza (chamados de municÌpios auto-representativos). E x e m p lo 5. Apesar de incorporada comumente na inferÍncia descritiva. Entretanto. que emprega uma amostra estratificada de domicÌlios em trÍs est·gios.74 5. tendo como unidades prim·rias de amostragem (UPAs) os municÌpios.. i = 1. A Tabela 5. N. A amostra de domicÌlios e de pessoas dentro de cada estrato È autoponderada. isto È. tal que todos os domicÌlios e pessoas dentro de um mesmo estrato tÍm igual probabilidade de seleÁ„o. 1981. havendo um espectro de opiniıes entre dois extremos.3 C A PÍ T U L O 5. ent„o πi = πmunic´ıpio|estrato $ πsetor|munic´ıpio $ π domic´ılio|setor . Num extremo est„o os modelistas. e portanto variaÁ„o semelhante ser· observada nos pesos. e no outro os amostristas. que s„o estratificados segundo as unidades da federaÁ„o (UFs). Dentro de cada setor.1 revela como variam essas probabilidades de seleÁ„o entre as regiıes cobertas pela amostra da PNAD de 93. a seleÁ„o de domicÌlios È feita por amostragem sistem·tica simples (portanto. Como se pode observar. proporcionais ao tamanho. e regiıes menores dentro das UFs (veja IBGE. consideremos uma pesquisa com uma amostra complexa como a da PNAD do IBGE. Todas as pessoas moradoras em cada domicÌlio da amostra s„o pesquisadas. A J UST E D E M O D E L OS PA R A M É T RI C OS P on de r ação de D a dos A m ost r ais O papel da ponderaÁ„o na an·lise de dados amostrais È alvo de controvÈrsia entre os estatÌsticos. p. as probabilidades de inclus„o (e consequentemente os pesos) variam bastante entre as v·rias regiıes de pesquisa. que consideram o uso de pesos irrelevante. que incorporam pesos em qualquer an·lise. com equiprobabilidade). Da mesma forma. Se π i representa a probabilidade de inclus„o na amostra do i-Èsimo domicÌlio da populaÁ„o. n„o h· concord‚ncia com respeito a seu uso na inferÍncia analÌtica.. . A seleÁ„o de municÌpios dentro de cada estrato È feita com probabilidades desiguais.1 Uso analÌtico dos dados da Pesquisa Nacional por Amostragem de DomicÌlios (PNAD) A tÌtulo de ilustraÁ„o. a seleÁ„o de setores (unidades secund·rias de amostragem ou USAs) dentro de cada municÌpio È feita com probabilidades proporcionais ao n˙mero de domicÌlios em cada setor segundo o ˙ltimo censo disponÌvel.

Maranh„o. Santa Catarina. Amazonas.1: Probabilidades de seleÁ„o da amostra da PNAD de 1993 segundo regiıes Regi„o da pesquisa RM de BelÈm RMs de Fortaleza. Rio Grande do Sul RM de S„o Paulo. PiauÌ. Tocantins. Bahia. Alagoas. Rio Grande do Norte. Mato Grosso do Sul.3. Pernambuco. Sergipe. S„o Paulo Probabilidade de seleÁ„o 1/150 1/200 1/250 1/300 1/350 1/500 1/550 1/750 . Amap·. Cear·. Salvador e Porto Alegre Distrito Federal RMs de Belo Horizonte e Curitiba RondÙnia. EspÌrito Santo e Rio de Janeiro Paran·. Minas Gerais. Roraima. Mato Grosso e Goi·s Par· RM do Rio de Janeiro. Acre. ParaÌba.5. Recife. P O N D E R A Ç Ã O D E D A D OS A M OST R A IS 75 Tabela 5.

Um exemplo de modelagem desse tipo com dados da PNAD em que os pesos e o desenho amostral n„o foram considerados na an·lise È encontrado em Leote(1996). Para estimar para conjuntos de estratos basta somar as estimativas para cada estrato incluÌdo no conjunto.15). Nascimento Silva e Duarte(1997). onX / X definidos por 3. Todos os ajustes efetuados ignoraram os pesos e o plano amostral da pesquisa. com pesos dados por wiR = π−1 i de X È o total da populaÁ„o no estrato obtido por mÈtodos demogr·ficos bπ e Ybπ s„o os estimadores de projeÁ„o. No caso. a probabilidade global de inclus„o de um domicÌlio (e conseq¸entemente de todas as pessoas nele moradoras) È dada pelo produto das probabilidades condicionais de inclus„o nos v·rios est·gios de amostragem. Vamos supor que haja interesse em regredir uma determinada vari·vel de pesquisa y contra algumas outras vari·veis de pesquisa num vetor de regressores z. A J UST E D E M O D E L OS PA R A M É T RI C OS isto È. sÛ toma valores 0 e 1). Um resumo desse trabalho È discutido no CapÌtulo 6. e X π-ponderados de X e Y respectivamente.76 C A PÍ T U L O 5. Essa autora empregou modelos de regress„o logÌstica para traÁar um perfil sÛcio-econÙmico da m„o-de-obra empregada no mercado informal de trabalho urbano no Rio de Janeiro. como no caso do total e da mÈdia. Para estimar mÈdias e proporÁıes. O problema foi revisitado por Pessoa. J· para a modelagem de relaÁıes entre vari·veis de pesquisa. Estimadores ponderados (como por exemplo os usados na PNAD) s„o preferidos pelos praticantes de amostragem por sua simplicidade e por serem n„o viciados (ao menos aproximadamente) com respeito ‡ distribuiÁ„o de aleatorizaÁ„o induzida pela seleÁ„o da amostra. usando dados do suplemento sobre trabalho da PNAD-90. quando ent„o esses aspectos foram devidamente incorporados na an·lise. independentemente dos valores assumidos pelas vari·veis de pesquisa na populaÁ„o. o uso dos pesos induzidos pelo planejamento amostral ainda n„o È freq¸ente ou aceito sem controvÈrsia.17). A estimaÁ„o do total populacional Y de uma vari·vel de pesquisa y num dado estrato usando os dados da PNAD È feita rotineiramente com estimabπ = P wR yi (tal como dores ponderados de tipo raz„o YbR = Ybπ X / X i∈s i bπ (veja 3. a estimaÁ„o de mÈdias È feita usando estimadores ponderados da forma P wR yi R y = Pi∈s i R i∈s wi e a estimaÁ„o de proporÁıes È caso particular da estimaÁ„o de mÈdias quando a vari·vel de pesquisa y È do tipo indicador (isto È. utilizado como vari·vel auxiliar. os pesos amostrais poderiam desempenhar algum papel na estimaÁ„o dos . Seria natural indagar se. os pesos s„o tambÈm incorporados da forma apropriada.

Neste caso.3. b foi proposto formalmente por Fuller(1975).1) em lugar do estimador de mÌnimos quadrados ordin·rios (MQO) dado por b= β 1 X i∈s z0i zi !−1 X i∈s ° ¢−1 0 z0i yi = Z0s Zs Zs Ys (5. Os estimadores de MQP s„o usualmente considerados quando o modelo de regress„o È heterosced·stico. AlÈm desta diferenÁa de interpretaÁ„o do papel dos pesos no estimador. Zs e Ys s„o respectivamente a matriz e vetor com os valores amostrais dos zi e yi . yi È o valor da vari·vel resposta e zi È o vetor de regressores para a observaÁ„o i.1) È De um ponto de vista formal (matem·tico). isto È.1) com base em critÈrio de N„o È possÌvel justificar o estimador β w otimalidade. o estimador β equivalente ao estimador de MÌnimos Quadrados Ponderados (MQP) com pesos wi . i ∈ s} È a matriz diagonal com os pesos amostrais.2) onde wi = π−1 i . os pesos adequados seriam dados pelos inversos das vari‚ncias dos resÌduos correspondentes a cada uma das observaÁıes. tal como se ver· mais adiante. outro aspecto em que os dois estimadores diferem de forma acentuada È na estimaÁ„o da precis„o. b w em (5. quando os resÌduos tÍm vari‚ncias desiguais. se uma modelagem cl·ssica IID fosse adotada para a amostra. e Ws = diag {wi . Entretanto.5. P O N D E R A Ç Ã O D E D A D OS A M OST R A IS 77 par‚metros do modelo (linear) de regress„o? Uma possibilidade de incluir os pesos seria estimar os coeficientes da regress„o por: bw = β 1 X wi z0i zi i∈s !−1 X i∈s ° ¢−1 0 wi z0i yi = Z0s Ws Zs Zs Ws Ys (5. b em (5. esses estimadores diferem de maneira acentuada. tais como Nathan e Holt(1980). A mesma idÈia subsidiou v·rios outros autores que estudaram a estimaÁ„o de coeficientes de regress„o partindo de dados amostrais complexos. e portanto em geral diferentes dos pesos iguais aos inversos das correspondentes probabilidades de seleÁ„o. Pfeffermann e Nathan(1981). que o conO estimador β w cebeu como uma funÁ„o de estimadores de totais populacionais. tal como ocorre com os estimadores usuais de M·xima VerossimilhanÁa ou de MÌnimos Quadrados Ordin·rios (MQO). com o estimador MQP acoplado bw acoplado a um estimador de vari‚ncia baseado no modelo e o estimador β a estimadores de vari‚ncia que incorporam o planejamento amostral e os pesos. Uma revis„o abrangente da literatura existente sobre estimaÁ„o de par‚metros em modelos de regress„o .

as funÁıes de verossimilhanÁa e de logverossimilhanÁa populacionais seriam dadas respectivamente por Y f (yi . h· que fazer alguns ajustes da teoria aqui exposta (veja Nascimento Silva. aqueles de raz„o empregados na estimaÁ„o da PNAD.C A PÍ T U L O 5. que poderiam introduzir ou causar vÌcios . contra a m· especificaÁ„o do modelo. 2. que definem par‚metros-alvo alternativos aos par‚metros do modelo de superpopulaÁ„o.1. ou mesmo pesos de regress„o. sob que condiÁıes? Seria possÌvel desenvolver diretrizes para o uso de pesos em inferÍncia analÌtica partindo de dados amostrais complexos? A resposta para essas perguntas È afirmativa. . contra planos amostrais n„o-ignor·veis . cap. 5. A J UST E D E M O D E L OS PA R A M É T RI C OS 78 linear com dados amostrais complexos pode ser encontrada em Nascimento Silva(1996. 6). 6). . cap. ao menos quando a quest„o da robustez da inferÍncia È relevante. ser· que È possÌvel justificar o uso de pesos na inferÍncia baseada em modelos? Se for o caso. os pesos podem ser usados para proteger: 1.4. A robustez dos procedimentos que incorporam pesos È obtida pela mudanÁa de foco da inferÍncia para quantidades da populaÁ„o finita. A quest„o da construÁ„o dos pesos n„o ser· tratada neste texto. Apesar dessas dificuldades. conforme j· discutido na SeÁ„o 2. YN s„o IID com densidade f (y. Suponha tambÈm que Y1 . H· v·rias formas alternativas de incorporar os pesos amostrais no processo de inferÍncia. Se todos os elementos da populaÁ„o finita U fossem conhecidos. θ) (5. Em inferÍncias analÌticas partindo de dados amostrais complexos. .Verossi m il h a nça Suponha que os vetores observados yi das vari·veis de pesquisa do elemento i s„o gerados por vetores aleatÛrios Yi . 1996.3) lU (θ) = i∈U . que descrevemos na prÛxima seÁ„o. θ). usandose sempre como peso o inverso da probabilidade de inclus„o na amostra. para i ∈ U. A principal que ser· adotada ao longo deste texto ser· o mÈtodo de M·xima Pseudo-VerossimilhanÁa. .4 M é t o do de M á x i m a P seu do. Para esses casos. por exemplo. … possÌvel utilizar pesos de outro tipo como.

o qual È um vetor de totais populacionais. n„o ser· aqui considerada para manter a simplicidade.4. 281). podeà= mos ent„o usar um estimador linear ponderado da forma T i∈s wi ui (θ) (veja capÌtulo 3) onde wi s„o pesos propriamente definidos.5. Como em pesquisas por amostragem o tamanho da populaÁ„o È geralmente grande. a soluÁ„o θU deste sistema È o Estimador de M·xima VerossimilhanÁa de θ no caso de um censo. no sentido definido por Pfeffermann(1993). Essa definiÁ„o da QDPC θU pode ser generalizada para contemplar outras abordagens de inferÍncia alÈm da abordagem cl·ssica baseada em maximizaÁ„o da verossimilhanÁa. desempenha papel fundamental nessa abordagem inferencial. Com essa notaÁ„o.4) i∈U As equaÁıes de verossimilhanÁa populacionais correspondentes s„o dadas por X ui (θ) = 0 (5. Entretanto. eleito como alvo da inferÍncia num esquema que incorpora o planejamento amostral. 1974. Sob condiÁıes de regularidade (Cox e Hinkley. um estimador adequado para θU ser· geralmente adequado tambÈm para θ. Tal generalizaÁ„o. podemos agora obter um estimador para θU resolvendo o sistema de à do total T a zero. A QDPC θU definida com base em (5.5) i∈U onde ui (θ) = ∂ log [f (yi . Isto se justifica porque. P Seja T = i∈U ui (θ) a soma dos vetores de escores na populaÁ„o. Basta para isso especificar outra regra ou critÈrio a otimizar e ent„o definir a QDPC como a soluÁ„o Ûtima segundo essa nova regra. equaÁıes obtido igualando o estimador T . M É T O D O D E M Á X I M A PSE U D O-V E R OSSI M IL H A N Ç A e LU (θ) = X log [f (yi . p. θ)] /∂θ (5. θU −θ = op (1). sob certas condiÁıes de regularidade.6) È o vetor K $ 1 dos escores do elemento i. Podemos considerar θU como uma Quantidade Descritiva Populacional Correspondente (QDPC) a θ. i ∈ U.5) n„o È calcul·vel a menos que um censo seja realizado. sobre a qual se deseja fazer inferÍncias com base em informaÁıes da amostra. Para estimar este vetor deP totais. θ)] . 79 (5. discutida em Pfeffermann(1993). por constituir-se num pseudo-par‚metro.

.12) o que fornece uma base para a inferÍncia sobre θU (ou θ) usando amostras grandes. Vàp θ Jà θ i∈s (5. (5. que distribuiÁ„o assintÛtica de θ £P ¥i−1/2 ) ¥ h ) àMP V àMP V − θU ∼ NM (0. θ Vàp θ (5. isto È. Muitos modelos paramÈtricos. com v·rios planos amostrais e estimadores de totais diferentes. Binder(1983) mostrou tambÈm que a àMP V È Normal Multivariada. podem ser ajustados resolvendo-se as equaÁıes de Pseudo-VerossimilhanÁa (5.10) (5. I) .7) i∈s AtravÈs da linearizaÁ„o de Taylor (veja SeÁ„o 3.11) i∈s § Vp i∈s wi ui (θ U ) È a matriz de vari‚ncia hP (de aleatorizaÁ„o) ) ¥i do estimador à do total populacional dos escores e Vàp È um estimai∈s wi ui θ MP V dor consistente para esta vari‚ncia. dados respecsintÛtica do estimador θ tivamente por: " # ) ¥ X àMP V ' [J (θU )]−1 Vp wi ui (θU ) [J (θU )]−1 Vp θ (5. satisfeitas algumas condiÁıes de regularidade enunciadas em Binder(1983. podemos obter a vari‚ncia de aleatorizaÁ„o asàMP V e seu estimador correspondente. ∂θ Øθ = θ U ∂ (θ) Øθ = θ U i∈U Ø Ø ) ¥ X ∂ui (θ) ØØ ∂ Tb (θ) ØØ à à J θMP V = = wi .3) e considerando os resultados de Binder(1983). Ø ∂θ Ø ˆ ∂θ Øθ = θˆ MP V J (θU ) = θ = θM P V (5.9) onde Ø X ∂ui (θ) ØØ ∂T (θ) ØØ Ø = .C A PÍ T U L O 5.7). A J UST E D E M O D E L OS PA R A M É T RI C OS 80 D e fi n ição 5.1 O estimador de M·xima Pseudo-VerossimilhanÁa à θMP V de θU (e consequentemente de θ) ser· a soluÁ„o das equaÁıes de PseudoVerossimilhanÁa dadas por X à= T wi ui (θ) = 0 . apÍndice) e revistas em Nascimento Silva(1996.8) i∈s e " # ) ¥ h ) ¥i−1 ) ¥ h ) ¥i−1 X àMP V = Jà θ àMP V àMP V àMP V Vàp wi ui θ .

1984). θ) pelo mÈtodo da M·xima Pseudo-VerossimilhanÁa seria dado pelos passos indicados a seguir.15) ) ¥ àπ para calcular regiıes ou intervalos de confianÁa e/ou θπ e Vàp θ 3. ou seja wi = π−1 i . Usar à estatÌsticas de teste baseadas na distribuiÁ„o normal e utiliz·-las para fazer inferÍncia sobre os componentes de θ. um procedimento padr„o para ajustar um modelo paramÈtrico regular f (y. j ∈ U e algumas condiÁıes adicionais de regularidade s„o satisfeitas (veja Fuller. j· que existem diversas maneiras de se definir os pesos wi . Calcular a matriz de vari‚ncia estimada " # ) ¥ h ) ¥i−1 ) ¥ h ) ¥i−1 X −1 àπ = Jà θ àπ àπ àπ Vàp π ui θ . Assim.4.1 No MÈtodo de M·xima Pseudo-VerossimilhanÁa. O bser vação 5. Os pesos mais usados s„o os do estimador π-ponderado ou de Horvitz-Thompson para totais. Vàp θ Jà θ i (5. M É T O D O D E M Á X I M A PSE U D O-V E R OSSI M IL H A N Ç A 81 p. ∂θ Øθ = θˆ π (5.7) e atravÈs das equaÁıes de estimaÁ„o da matriz de covari‚ncia dos estimadores(5. 126). os estimadores de MPV n„o ser„o ˙nicos.13) i∈s onde Vàp " X i∈s e ) à π −1 i ui θ π # ¥ = X X πij − πi πj h ) ¥i h ) ¥i0 àπ àπ ui θ uj θ πi πj i∈s j∈s (5. P −1 àπ do paπi ui (θ) = 0 e calcular o estimador pontual θ 1. conforme requerido para a obtenÁ„o da distribuiÁ„o assintÛtica dos estimadores MPV. Entretanto. Resolver i∈s r‚metro θ no modelo f (y. . e possuam estimadores de vari‚ncia consistentes. 2.15). θ) (ou do pseudo-par‚metro θU correspondente). dados pelo inverso das probabilidades de inclus„o dos indivÌduos.7) sejam assintoticamente normais e n„o-viciados.13)-(5. os pesos amostrais s„o incorporados na an·lise atravÈs das equaÁıes de estimaÁ„o dos par‚metros (5.14) Ø ) ¥ b (θ) ØØ ∂ T àπ = Jà θ Ø ∂θ Ø θ = θˆ π = X i∈s π−1 i Ø ∂ui (θ) ØØ . Tais pesos satisfazem essas condiÁıes sempre que πi > 0 e πij > 0 ∀i. Os pesos wi devem ser tais que os estimadores de total em (5.5.

no sentido de que em muitos casos a quantidade θU da populaÁ„o finita permanece um alvo v·lido para inferÍncia. mesmo quando o modelo especificado por f (y. onde as propriedades do plano amostral est„o resumidas nas probabilidades de inclus„o de primeira e segunda ordem. θ). V a n t age ns do p r oce d i m e n t o d e M P V O procedimento MPV proporciona estimativas baseadas no plano amostral para a vari‚ncia assintÛtica dos estimadores dos par‚metros. D esva n t age ns do m é t o do d e M P V Este procedimento requer conhecimento de informaÁıes detalhadas sobre os elementos da amostra. Este problema pode n„o ser importante em an·lises que usam os dados de pesquisas feitas pelas agÍncias oficiais de estatÌstica. tais como pertinÍncia a estratos e conglomerados ou unidades prim·rias de amostragem. A J UST E D E M O D E L OS PA R A M É T RI C OS O bse r vação 5. os πi e os πij respectivamente. O procedimento MPV fornece estimativas robustas.82 C A PÍ T U L O 5. Entretanto. desde que em tais an·lises seja utilizada a amostra inteira. . o mesmo n„o ocorre em se tratando da vari‚ncia do estimador à θπ . As propriedades dos estimadores MPV n„o s„o conhecidas para pequenas amostras. que ignoram o plano amostral. as quais s„o razoavelmente simples de calcular e s„o consistentes sob condiÁıes fracas no plano amostral e na especificaÁ„o do modelo. os pesos π−1 i ser„o à constantes e o estimador pontual θ π ser· idÍntico ao estimador de M·xima VerossimilhanÁa (MV) ordin·rio para uma amostra de observaÁıes IID com distribuiÁ„o f (y. Tais informaÁıes nem sempre est„o disponÌveis para usu·rios de dados de pesquisas amostrais.2 O plano amostral È tambÈm incorporado no mÈtodo de estimaÁ„o MPV atravÈs da express„o para a vari‚ncia do total dos escores sob o plano amostral (5. ou no caso de subdomÌnios estudados separadamente. e suas probabilidades de inclus„o ou pesos. isto È. O bse r vação 5. Mesmo quando o estimador pontual de MPV coincide com o estimador usual de M·xima VerossimilhanÁa.14). a estimativa da vari‚ncia obtida pelo procedimento de MPV pode ser preferÌvel aos estimadores usuais da vari‚ncia baseados no modelo. que difere da vari‚ncia sob o modelo do estimador usual de MV.3 Sob probabilidades de seleÁ„o iguais. que as amostras usadas sejam suficientemente grandes nestes domÌnios. seja por razıes operacionais ou devido ‡s regras de proteÁ„o do sigilo de informaÁıes individuais. θ) n„o proporciona uma descriÁ„o adequada para a distribuiÁ„o das vari·veis de pesquisa na populaÁ„o.

Ent„o quando N → ∞ a QDPC θU converge para o par‚metro θ. Por que usar a QDPC? A resposta È exatamente para obter maior robustez. ent„o quando n → ∞ temos que do modelo M. θU − θ → 0 em probabilidade. independente da validade do modelo. o par‚metro θ do modelo n„o tem interpretaÁ„o substantiva significante. Vamos agora analisar com mais detalhes a terceira abordagem para a inferÍncia analÌtica. R O B US T E Z D O P R O C E D IM E N T O M P V 83 Outra dificuldade È que mÈtodos usuais de diagnÛstico de ajuste de modelos (tais como gr·ficos de resÌduos) e outros procedimentos da inferÍncia cl·ssica (tais como testes estatÌsticos de Razıes de VerossimilhanÁa) n„o podem ser utilizados. Nesse caso. Para entender porque essa abordagem oferece maior robustez. Esse resultado segue porque àMP V −θ = (θ àMP V −θU )+(θU − θ) = Op (n−1/2 )+Op (N −1/2 ) = Op (n−1/2 ) . vamos considerar dois casos. … essa robustez que justifica o emprego desses estimadores frente aos estimadores usuais de MV. Juntando essas condiÁıes obtemos que P àMP V → θ θ em probabilidade segundo a mistura Mp. segundo a distribuiÁ„o de probabilidades àMP V for consistente. onde a consistÍncia È referida ‡ distribuiÁ„o de aleatorizaÁ„o do estimador. isto È. pois nas situaÁıes pr·ticas da an·lise de dados amostrais complexos as hipÛteses usuais de modelo IID para as observaÁıes amostrais raramente s„o verificadas. Nela.5. Se θ àMP V − θU → 0 em probabilidade. PorÈm.5. em vez de acharmos um estimador Ûtimo sob o modelo. segundo a distribuiÁ„o de aleatorizaÁ„o θ p. . ï Caso 1: o modelo para a populaÁ„o È adequado. θ ï Caso 2: o modelo para a populaÁ„o n„o È v·lido. 5. achamos um estimador na classe dos estimadores consistentes para a QDPC. porÈm a QDPC θU È uma entidade definida na populaÁ„o finita (real) com interpretaÁ„o clara.5 R ob ust ez do P roce d i m en t o M P V Nesta seÁ„o vamos examinar a quest„o da robustez dos estimadores obtidos pelo procedimento MPV. postulamos um modelo como na primeira abordagem e a inferÍncia È direcionada aos par‚metros do modelo.

θU ) forneceria a melhor aproximaÁ„o possÌvel (em certo sentido) para o verdadeiro modelo que gera as observaÁıes populacionais (f ∗ (y. 18-19). p. H‡jek(1960) e Skinner.6 D esva n t agens d a I nferê ncia B asea d a e m A leat or iz ação Se o modelo postulado para os dados amostrais for correto. Os leitores interessados poder„o consultar: S‰rndal. isto È. quando n → ∞ e N → ∞. Neste caso. a inferÍncia baseada no proComo θ cedimento MPV segue v·lida para este pseudo-par‚metro. Swensson e Wretman(1992. Holt e Smith(1989. ent„o o uso de pesos È inevit·vel. Skinner(1989b. Robinson e S‰rndal(1983). temos que considerar o que ocorre quando crescem o tamanho da amostra e tambÈm o tamanho da populaÁ„o. mostrando que θU pode ainda ser um alvo v·lido para inferÍncia mesmo quando o modelo f (y. η) . digamos). Para evitar um desvio indesejado que a discuss„o deste problema traria. 5. Isaki e Fuller(1982). A J UST E D E M O D E L OS PA R A M É T RI C OS àMP V È consistente para a QDPC θU . p. H· casos onde a ponderaÁ„o È a ˙nica alternativa. È preciso definir a maneira pela qual N ↑ e n ↑ preservando a estrutura do plano amostral. independente da inadequaÁ„o do modelo para a populaÁ„o. se os dados disponÌveis j· est„o na forma de estimativas amostrais ponderadas. Brewer(1979). a perda de eficiÍncia aumenta quando diminui o tamanho da amostra e aumenta a variaÁ„o dos pesos. No caso de populaÁıes finitas. 166). e portanto que a escolha do elenco de modelos especificados pela distribuiÁ„o f (y.84 C A PÍ T U L O 5. Em geral. . sob o modelo. ConsistÍncia na teoria cl·ssica tem a ver com comportamento limite de um estimador quando o tamanho da amostra cresce. θ) deve seguir os cuidados necess·rios para garantir que esta escolha forneÁa uma aproximaÁ„o razo·vel da realidade. ao menos no sentido de que f (y. o uso de estimadores ponderados pode resultar em perda substancial de eficiÍncia comparado com o estimador Ûtimo.4 ConsistÍncia referente ‡ distribuiÁ„o de aleatorizaÁ„o. Skinner(1989b) reconhece que a melhor aproximaÁ„o possÌvel entre um conjunto de aproximaÁıes ruins ainda seria uma aproximaÁ„o ruim. p. Um exemplo cl·ssico È discutido a seguir. vamos supor que N ↑ e n ↑ de uma forma bem definida. isto È. Por exemplo. O bse r vação 5. θ) especificado para a populaÁ„o È inadequado. 81) discute essa situaÁ„o. quando n → ∞.

A import‚ncia desse exemplo È ilustrar que mesmo quando o usu·rio pensa estar livre das complicaÁıes causadas pelo plano amostral e pesos. por exemplo. sob pena de realizar inferÍncias incorretas. e 0 (zero) caso contr·rio. a estimativa de contagem na cela k de uma tabela de contingÍncia qualquer È dada por   ¥ XXX ¥ X) X) bk = bka ba  ba N N whij Yka(hij)  = Na /N Na /N a h i j a onde Yka(hij ) = 1 se a j-Èsima unidade da UPA i do estrato h pertence ‡ k-Èsima cela e ao a-Èsimo grupo de idade-sexo. Esse exemplo ser· rediscutido com mais detalhes na SeÁ„o 7. A 2 2 uma soma ponestatÌstica P cl·ssica X n„o tem mais distribuiÁ„o χ e sim derada k δ k Xk de vari·veis Xk IID com distribuiÁ„o χ2 (1) . ba − s„o fatores de ajustamento de pÛs-estratificaÁ„o que usam conNa /N tagens censit·rias Na de idade-sexo para diminuir as vari‚ncias dos estimadores.5. Este exemplo tem tambÈm grande import‚ncia pr·tica. A pesquisa Canada Health Survey usa um plano amostral estratificado com v·rios est·gios de seleÁ„o. ele precisa estar atento ‡ forma como foram gerados os dados que pretende modelar ou analisar. Nessa pesquisa. da PNAD.3. pois um grande n˙mero de pesquisas domiciliares por amostragem produz como principal resultado conjunto de tabelas com contagens e proporÁıes. D ESVA N T A G E NS D A I N F E R Ê N C I A B ASE A D A E M A L E A T O RIZ A Ç Ã O85 E x e m p lo 5. as quais foram obtidas mediante ponderaÁ„o pelas agÍncias produtoras. Este È o caso. da amostra do Censo Demogr·fico e de in˙meras outras pesquisas do IBGE e de agÍncias estatÌsticas congÍneres.2 An·lise secund·ria de tabelas de contingÍncia. . bk s„o usadas.3.6. os testes de homogeQuando as contagens expandidas N neidade e de qualidade de ajuste de modelos loglineares baseados em amostragem Multinomial e Poisson independentes n„o s„o mais v·lidos.

86 C A PÍ T U L O 5. A J UST E D E M O D E L OS PA R A M É T RI C OS .

suponhamos tambÈm que a primeira componente do vetor zi de vari·veis preditoras È sempre igual a 1. Su¥0 ) 0 ponhamos agora que Yi .1. Denotemos por Yi e Zi a vari·vel e o vetor aleatÛrios que geram yi e zi . . Zi . que È considerada como vari·vel r esp ost a.4. O procedimento de m·xima pseudo-verossimilhanÁa. Os resultados s„o derivados considerando pesos ordin·rios dados pelo inverso das probabilidades de inclus„o das unidades na amostra. Sem perda de generalidade. de modo a incluir sempre um termo de intercepto nos modelos de regress„o linear considerados (tal hipÛtese n„o È essencial. 6). i ∈ U. cap.C a pí t u lo 6 M o delos de R egressão 6. para i ∈ U. s„o vetores aleatÛrios independentes 87 . mas ser· adotada no restante deste capÌtulo).1 M o delo de R egressão L i nea r N or m al O problema considerado nesta seÁ„o È o de estimar os par‚metros num modelo de regress„o linear normal especificado para um subconjunto das vari·veis da pesquisa. È aplicado. que s„o p r e d i t o r as ou explanatÛrias num modelo de regress„o M. Este modelo tem o objetivo de predizer ou explicar os valores de uma vari·vel da pesquisa y. descrito na SeÁ„o 5. 6. ziP ) de dimens„o P $ 1 com os valores de vari·veis z. .1 E sp eci ficação do M o delo Vamos supor que os dados da i-Èsima unidade da populaÁ„o pesquisada in0 cluam um vetor zi = (zi1 . . . por exemplo) est„o discutidos em Nascimento Silva(1996. Resultados mais gerais considerando outros tipos de pesos (tais como os derivados de estimadores de raz„o ou regress„o.

1) 0 onde β = (β 1 . As funÁıes escores para β e σe correspondentes ao modelo (6. mesmo assim frequentemente usados pelos analistas de dados. denotados por B e Se respectivamente. β.1) j· foram considerados por v·rios autores. β. AlÈm disto.81).C A PÍ T U L O 6. p.1).1) podem ser facilmente obtidas como e ° ¢ ∂ log [f ( yi | zi .4. σe ) = (2πσe ) 8 7 ) ¥2 0 exp − yi − zi β /2σe (6. 1995). β P ) e σ e > 0 s„o par‚metros desconhecidos do modelo. Assim eles s„o adequados a uma aplicaÁ„o de procedimentos de m·xima pseudo-verossimilhanÁa descritos na SeÁ„o 5. eles satisfazem todas as condiÁıes padrıes de regularidade. .2) (6. pelo menos como uma primeira aproximaÁ„o. σe )] /∂σe = 6. e n„o faz nenhuma referÍncia direta ‡ forma como elas se relacionam com vari·veis auxiliares x que eventualmente possam estar disponÌveis. Skinner(1989b. Modelos como (6.1) constitui-se numa especificaÁ„o (parcial) de um modelo marginal para um conjunto de vari·veis da pesquisa. . Observe que (6. β. . por exemplo Holt. A atenÁ„o È focalizada na estimaÁ„o de β e σe e sua interpretaÁ„o com respeito ao modelo agregado (6. . σe )] /∂β = zi yi − z0i β /σe ° ¢ ∝ zi yi − z0i β = ui (β) h° i ¢2 yi − z0i β − σe /2σe2 ° ¢2 ∝ yi − z0i β − σe = ui (σe ) . Eles s„o simples.2 (6. ∂ log [f ( yi | zi . M O D E L OS D E R E G R ESSà O 88 e identicamente distribuÌdos tais que −1/2 f ( yi | zi . os EMVs de β e σe do censo.4) . Smith e Winter(1980).3) Pseu do-p a r â m e t ros do M o delo Se todos os elementos da populaÁ„o tivessem sido pesquisados. Chambers(1986.1. Nathan e Holt (1980). poderiam ser facilmente obtidos como soluÁıes das equaÁıes de verossimilhanÁa do censo dadas por X i∈U ui (B) = X i∈U ¥ ) 0 ¢ ° 0 zi yi − z0i β = zU yU − zU zU B = 0 (6.

1980). onde se dispensou a hipÛtese de normalidade dos erros. p. .5) 0 onde zU = (z1 .9) = N −1 X ei2 . isto È P P 0 EM ( Yi | zi = zi ) = β 1 + zi β 2 VM ( Yi | zi = zi ) = σ e COVM ( Yi . as soluÁıes para estas equaÁıes s„o facilmente obtidas como ) 0 ¥−1 0 zU yU B = zU zU (6.10) i∈U ¢° ¢0 P° Ø zi − Z Ø . Ø 0 B2 .1).1. yN ) . . Z zi .11) . Yj | zi = zi .8) z S zy . 1996. (6.8) a (6. zj = zj ) = 0 ∀i 6= j ∈ U. . . sob as hipÛteses mais fracas do modelo dadas por (6. sendo neste trecho os vetores de vari·veis preditoras tomados sem o termo constante referente ao intercepto. . (6.11) a seguir (ver Nathan e Holt.7) i∈U Com uma parametrizaÁ„o que isole o termo correspondente ao intercepto (primeira coluna do vetor zi ) do modelo de regress„o (6. 142) que os EMV de β 2 (igual a β excluÌdo o primeiro componente). zN ) e yU = (y1 . .6. .6) e Se = N −1 X° ¢2 ¢0 ° ¢ ° yi − z0i B = N −1 yU − z0U B yU − z0U B .10) coincidem com os estimadores de mÌnimos quadrados ordin·rios. β 1 e σe s„o dados respectivamente por B2 = S−1 (6. Ø = N −1 zi − Z yi . S z = N −1 onde YØ = N −1 i∈U ¢° ¢ i∈U ¢ ° ° P i∈U Ø yi − YØ e ei = yi − B1 − z0 B2 = yi − YØ − zi − Z S zy = N −1 i i∈U ° ¢0 Ø zi − Z B2 . . pode ser facilmente mostrado (Nascimento Silva. M O D E L O D E R E G R ESSà O LI N E A R N O R M A L e X i∈U ui (Se ) = 89 i ° X h° ¢2 ¢0 ° ¢ yi − z0i B − Se = yU − z0U B yU − zz0U B −NSe = 0 i∈U 0 (6. B1 = YØ − Z e Se = N −1 X) i∈U 0 yi − B1 − zi B2 ¥2 (6. Os EMVs do censo dados em (6. 0 Se zU zU for n„o-singular. (6.

e B e s„o estimadores MPV de β e σe respectivamente.C A PÍ T U L O 6. .14) e ) 0 ¥−1 ) ¥0 ) ¥ b w Ws ys − zs B bw 1s Ws 1s ys − zs B (6. se as quantidades descritivas populacionais correspondentes forem escolhidas para alvo da inferÍncia.12) i∈s i∈s ¥ ) 0 0 àw = 0 = zs Ws ys − zs Ws ys B e X wi ui (sw e) = i∈s X i∈s = 7) 8 ¥2 0à w wi yi − zi Bw − se (6. 0 Supondo que zs Ws zs È n„o-singular e resolvendo (6. . . Se os pesos wi satisfizerem ‡s condiÁıes de regularidade discutidas na SeÁ„o 5. ser· imediato obter as equaÁıes de pseudo-verossimilhanÁa correspondentes ao modelo (6.1.13) ) ¥0 ) ¥ ) ¥ à w Ws ys − zs B à w − 10s Ws 1s sw ys − zs B e =0 onde zs e ys s„o os an·logos amostrais de zU e yU .15). ou alternativamente de B e Se .1) como ) ¥ ) ¥ X X àw àw wi ui B wi zi yi − z0i B = (6.13) em à w e sw B e obtemos as seguintes expressıes para os estimadores MPV dos par‚metros do modelo: ) ¥−1 0 b w = z0s Ws zs B zs Ws ys (6. M O D E L OS D E R E G R ESSà O 90 6.4.14) na primeira linha de (6.12) e (6. s„o usados pesos wi para obter estimadores de m·xima pseudo-verossimilhanÁa de β e σe .15) 7 8 ¥−1 0 ) 0 ¥−1 0 ) 0 ys Ws − Ws zs zs Ws zs zs Ws ys = 1s Ws 1s sw = e sendo a segunda express„o para sw e obtida mediante substituiÁ„o do valor b w em (6. win )] È uma matriz diagonal n$n com os pesos dos elementos à w e sw da amostra na diagonal principal. respectivamente. Ws = diag [(wi1 . de B 0 Observe que a hipÛtese de n„o-singularidade de zs Ws zs n„o seria satisfeita se wi = 0 para algum i ∈ s. . Para evitar que se percam de vista .3 E st i m a dores de M P V dos P a r â m e t ros do M o delo Quando apenas uma amostra de unidades da populaÁ„o È observada.

wi = w dependem do valor w Ø dos pesos. dados por: ¥−1 0 ) b = z0s zs zs ys (6. com o Jacobiano correspondente dado por Ø X ¢ ° Ø 0 J (B) = ∂zi yi − zi β /∂βØ (6. chamados de mÌnimos quadrados π−ponderados. onde ei = yi − YØ − zi − Z i ∈ U.16) B e ¥0 ) ¥ ) b b . Para isto È necess·ria a estimaÁ„o das vari‚ncias correspondentes. 0 admitiremos de agora em diante que zs Ws zs È n„o-singular.18) s zs s ys e 6. dados por: ) ¥−1 0 b π = z0s Π−1 zs Π−1 B (6. se = n−1 ys − zs B ys − zs B (6.19) E st i m ação d a Va r iâ ncia d e E st i m a dores de M P V O exercÌcio de ajustar um modelo n„o estar· completo sem a avaliaÁ„o da precis„o e signific‚ncia das estimativas dos par‚metros.4. sπe = 1s Π−1 ys − zs B ys − zs B s 1s s (6.4 ) 0 ¥−1 ) ¥0 ) ¥ b π Π−1 bπ .15) para v·rios esquemas de ponderaÁ„o de interesse pela simples substituiÁ„o da matriz apropriada de ponderaÁ„o Ws . . Neste caso.14) e (6. observando-se que os escores correspondentes a β no ajuste do censo do modelo (6.15) por diag (πi : i ∈ s) = Π−1 s .20) i∈U β= B Ø ° 0 ¢ = ∂ zU yU − z0U zU β /∂βØβ = B = −z0U zU . os estimadores pontuais n„o autoponderados). M O D E L O D E R E G R ESSà O LI N E A R N O R M A L 91 as questıes principais com relaÁ„o ‡ estimaÁ„o dos par‚metros do modelo.1. eles ficam reduzidos ‡s expressıes correspondentes dos estimadores de mÌnimos quadrados ordin·rios (que s„o tambÈm estimadores de m·xima verossimilhanÁa sob normalidade) dos par‚metros do modelo. Estimadores pontuais dos par‚metros do modelo podem ser derivados a partir de (6.1. Se todos os elementos da pesquisa tÍm o mesmo peso (como no caso de planos amostrais Ø e Ws = wI Ø n .6. Nesta seÁ„o concentramos nossa atenÁ„o na estimaÁ„o das vari‚ncias dos estimadores de MPV dos coeficientes de regress„o β. ou seja.17) Substituindo Ws em (6. obtemos estimadores.1) s„o dados ¢ ° ¢0 ° Ø B para por ui (B) = zi (yi − z0i B) = zi ei . onde os πi em geral n„o s„o todos iguais. As expressıes a seguir s„o obtidas por aplicaÁ„o direta dos resultados gerais fornecidos na SeÁ„o 5.14) e (6.

πi πj (6.C A PÍ T U L O 6. dadas por B 1 ! ) ¥ ° X ¢−1 ¢−1 ° 0 −1 b π = zU zU Vp π zi ei z0U zU Vp B (6. β)/∂β = yi − p z0i β zi (6. assume os valores 0 e 1. obtemos as seguintes expressıes para a vari‚ncia assintÛtica de aleatorizaÁ„o do estimador de MPV padr„o b π e seu estimador consistente.2 M o delo de R egressão L ogíst ica No modelo de regress„o logÌstica.24) i∈s j∈s b π para i ∈ s. M O D E L OS D E R E G R ESSà O 92 Substituindo em (5.25) f (yi |zi . do jacobiano e dos estimadores π-ponderados correspondentes.8) e (5. ° ¢ ° ¢ £ ° ¢§ p z0i β = P ( Yi = 1| Zi = zi ) = exp z0i β / 1 + exp z0i β . i π j − π ij (6. isto È. e eài = yi − z0i B Isto completa a especificaÁ„o de um procedimento de m·xima pseudoverossimilhanÁa para ajustar modelos normais de regress„o como (6.1. β) = p z0i β i 1 − p z0i β onde. A funÁ„o escore de β È ° ¢§ £ ui (β) = ∂ log(yi |zi .1).9) os valores dos escores. 6. Este procedimento È bastante flexÌvel e aplic·vel numa ampla gama de planos amostrais.22) i∈s onde Vp 1 X π−1 i zi ei i∈s Vàp 1 X i∈s π−1 ài i zi e ! = ! = X X πij − πi πj ei zi z0j ej .21) i i∈s e 1 ! ) ¥ ° X ° ¢−1 ¢−1 −1 0 −1 b π = z Π zs Vàp πi zi ei z0s Π−1 . a vari·vel resposta y È bin·ria. o modelo de superpopulaÁ„o È dado por £ ° ¢§y £ ° ¢§1−yi .26) . Considerando um vetor z de vari·veis explanatÛrias tal como o empregado no modelo de regress„o linear discutido na SeÁ„o 6. (6.23) i∈U j∈U ¥ XX) −1 −1 π−1 eài zi z0j eàj . Vàp B s zs s s (6.

Os dados utilizados s„o relativos a pessoas que: ï moravam em domicÌlios urbanos do estado do Rio de Janeiro. Para maiores detalhes. que aborda o problema da estimaÁ„o da matriz de covari‚ncia dos estimadores de MPV na famÌlia de modelos lineares generalizados.25) È a soluÁ„o da equaÁ„o X X ° ¢§ £ wi ui (β) = wi yi − p z0i β zi = 0 .6. ï desenvolviam atividades n„o agrÌcolas. a obtenÁ„o dos estimadores de MPV dos par‚metros no modelo de regress„o logÌstica depende da soluÁ„o por mÈtodos numÈricos de um sistema de equaÁıes.27) yi − p z0i β zi = 0 . da qual o modelo de regress„o logÌstica È caso particular. ï trabalhavam em atividades mercantis (n„o foram incluÌdos trabalhadores domÈsticos). ï na semana da pesquisa estavam trabalhando ou n„o estavam trabalhando por estarem de fÈrias. A matriz de covari‚ncia do estimador de MPV de β pode ser obtida conforme indicado na SeÁ„o 5.4. . Portanto È importante dispor de um pacote computacional adequado para efetuar os c·lculos. bastando substituir os valores dos escores ui (β) = [yi − p (z0i β)] zi e do jacobiano correspondentes. M O D E L O D E R E G R ESSà O L O G ÍST I C A 93 e portanto a equaÁ„o de verossimilhanÁa do censo correspondente È dada por X X ° ¢§ £ ui (β) = (6. i∈U i∈U O estimador de MPV do vetor de coeficientes β no modelo (6. tal como no caso da modelagem cl·ssica. etc. Leote(1996) analisou o perfil sÛcioeconÙmico das pessoas ocupadas no setor informal da economia na ·rea urbana do Rio de Janeiro. mas tinham trabalho.1 An·lise do perfil sÛcio-econÙmico das pessoas ocupadas no setor informal da economia na ·rea urbana do Rio de Janeiro Utilizando dados do Suplemento Trabalho da Pesquisa Nacional por Amostra de DomicÌlios ( P N A D ) de 90. conforme se discute no CapÌtulo 10.28) i∈s i∈s onde wi È o peso da i-Èsima observaÁ„o amostral. Vale observar que. licenÁa.. Hoje em dia j· est„o disponÌveis v·rios pacotes com essa funcionalidade. o leitor interessado pode consultar Binder(1983).2. (6. E x e m p lo 6.

C A PÍ T U L O 6. Foi ajustado um modelo logÌstico (Agresti. Os fatores considerados foram tomados como explicativos e a vari·vel resposta foi o indicador de pertinÍncia ao setor informal da economia. independente da posiÁ„o de ocupaÁ„o delas. Foi considerada uma amostra de 6. A vari·vel re compreende a renda mÈdia mensal de todos os trabalhos.1: DescriÁ„o das vari·veis explicativas Fa t o r es Sexo (sx) Anos de estudo (ae) Horas trabalhadas (ht) Idade em anos completos (id) Rendimento mÈdio mensal (re) N í veis sx(1) sx(2) ae(1) ae(2) ae(3) ht(1) ht(2) ht(3) id(1) id(2) id(3) id(4) re(1) re(2) re(3) D esc r ição dos n í veis Homens Mulheres AtÈ 4 De 5 a 8 9 ou mais Menos de 40 De 40 a 48 Mais de 48 AtÈ 17 De 18 a 25 De 26 a 49 50 ou mais Menos de 1 De 1 a 5 Mais de 5 As pessoas que trabalhavam em locais com atÈ cinco pessoas ocupadas foram classificadas no setor informal. Para a vari·vel renda considerou-se a soma dos rendimentos de todos os trabalhos.507 pessoas (apÛs a exclus„o de 9 registros considerados atÌpicos). M O D E L OS D E R E G R ESSà O 94 Tabela 6. por semana. classificadas de acordo com as vari·veis descritas na Tabela 6. 1990) para explicar a probabilidade de uma pessoa pertencer ao setor informal da economia. em sal·rios mÌnimos. enquanto as que trabalhavam em locais com mais de cinco pessoas ocupadas foram classificadas no setor formal. .1. A vari·vel ht foi considerada como a soma de horas trabalhadas em todos os trabalhos. O trabalho refere-se ao trabalho principal. todas tratadas como fatores na an·lise.

Como se pode observar dessa descriÁ„o. calculadas pela P R O C L O G I S T I C do pacote S U D A A N . 3.28). O modelo selecionado foi log µ pijklm 1 − pijklm . 3 o nÌvel de ae.P l us. 4 o nÌvel de id e m=1. 2. fica difÌcil admitir a priori com confianÁa as hipÛteses usuais de modelagem das observaÁıes amostrais como IID. aplicada aos dados tabelados. O modelo obtido difere do selecionado em Leote(1996) sÛ pela inclus„o de mais um efeito. 3 o nÌvel de ht. Nesse caso. resolvendo a equaÁ„o (6.2. ou setores nos municÌpios auto-representativos) ou secund·rias (setores nos municÌpios n„o auto-representativos) com probabilidades desiguais. O modelo final selecionado foi escolhido passo a passo. Uma descriÁ„o detalhada do plano amostral da PNAD 90 foi apresentada no Exemplo 5.P l us. conglomeraÁ„o (de domicÌlios em setores. o plano amostral da PNAD apresenta todos os aspectos de um plano amostral complexo. As estimativas calculadas pelo pacote S U D A A N s„o feitas pelo MÈtodo de M·xima Pseudo-VerossimilhanÁa. aceitando-se a hipÛtese de nulidade destes efeitos ao nÌvel α = 0. ae ht id re = µ + β sx i + βj + βk + βl + βm (6. incluindo estratificaÁ„o (geogr·fica). seleÁ„o de unidades prim·rias (municÌpios. O pvalor do teste de nulidade das interaÁıes n„o incluÌdas no modelo È 0. incluindo em cada passo as interaÁıes que produziam maior decrÈscimo do desvio residual.0515. j=1.1. Por esse motivo foram considerados mÈtodos alternativos de modelagem e ajuste. As estimativas dos desvios padrıes s„o obtidas das vari‚ncias calculadas pelo . e de pessoas nos domicÌlios) e seleÁ„o sistem·tica sem reposiÁ„o de unidades.ht + β ht. k=1. as interaÁıes de dois fatores foram introduzidas na ordem definida pela funÁ„o step do S-Plus. l=1. Depois de introduzidos os efeitos principais.id + β ht. considerando a perda de graus de liberdade.id + β sx. Para facilitar a comparaÁ„o incluÌmos na Tabela 6. 2. sendo i=1. 2. Apresentamos a seguir as estimativas dos efeitos principais e interaÁıes do modelo selecionado e seus respectivos desvios padrıes.6. referente ‡ interaÁ„o ae:ht. 2 o nÌvel de sx. onde pijklm È a probabilidade de pertencer ao setor informal correspondente ‡ combinaÁ„o de nÌveis das vari·veis explicativas.ht + β ae. 05.re ij ik jk kl km . 2.1. Os efeitos foram adicionados seq¸encialmente na ordem da Tabela 6. M O D E L O D E R E G R ESSà O L O G ÍST I C A 95 Para a seleÁ„o do modelo foi usada a funÁ„o gl m do S. 3 o nÌvel de re.2 os valores correspondentes estimados pelo S.29) +β sx.

AlÈm dos ajustes aqui comparados. Na construÁ„o destes intervalos foi necess·rio utilizar estimativas pontuais dos efeitos bem como a matriz de covari‚ncia estimada dos estimadores dos efeitos do modelo. relevantes na an·lise. calculadas tanto pela funÁ„o glm do S. A coluna de pvalores da Tabela 6.2). os correspondentes intervalos de confianÁa de 95%. os estimadores de vari‚ncia considerados levaram em conta os pesos das observaÁıes. considerando os escores tal como apresentados na equaÁ„o (6. na Tabela 6. estes intervalos sumarizam. 4) e Wolter(1985. por n„o ser possÌvel separar tais efeitos das interaÁıes. eq. apresentamos na Tabela 6.9). Em todas .P l us como pela P R O C L O G I S T I C do pacote S U D A A N e. p. equaÁ„o (5. M O D E L OS D E R E G R ESSà O mÈtodo de linearizaÁ„o descrito na SeÁ„o 5.3. obtida pela PROC LOGISTIC do pacote SUDAAN.(1993. na primeira linha da Tabela 6.5.3. Deste modo. nos nÌveis usuais de signific‚ncia. 7. 2) dados da tabela estimada considerando os pesos e 3) dados individuais com pesos normalizados.3 indicam a signific‚ncia de todas as interaÁıes de 2 fatores que entraram no modelo selecionado.P l us: 1) dados individuais (resposta 0-1) considerando os pesos. foram feitos (embora n„o apresentados) os seguintes ajustes com a utilizaÁ„o do S. indica a necessidade de serem introduzidas novas interaÁıes.96 C A PÍ T U L O 6. Para esses c·lculos.26). ao mesmo tempo. mas utilizaram uma aproximaÁ„o que consiste em considerar que as unidades prim·rias de amostragem foram selecionadas com reposiÁ„o. O teste de qualidade global de ajuste. discrep‚ncias existentes tanto nas estimativas pontuais dos efeitos como nas vari‚ncias e covari‚ncias das estimativas. Veja Shah et al. Mais detalhes s„o encontrados em Shah et al. Para comparaÁ„o. Os testes da Tabela 6.(1993). Na Tabela 6. especificando a opÁ„o WR do pacote SUDAAN.3 s„o apresentadas as probabilidades de signific‚ncia dos testes de nulidade dos efeitos do modelo. Todos os efeitos incluÌdos no modelo s„o significativos. A P R O C L O G I S T I C do pacote S U D A A N n„o inclui testes para os efeitos principais. utiliza a estatÌstica de Wald baseada no plano amostral com correÁ„o.7.4 algumas estimativas de razıes de vantagens.4.

211 −0.P l us Vari·veis independentes e efeitos Intercepto sx ae1 ae2 ht1 ht2 id1 id2 id3 re1 re2 ht1. 185 0. 206 −0.re1 ht1. 226 −0. 739 0. 156 0. 397 0. 745 0.6. 190 −0.ht1 ae2. 196 0. M O D E L O D E R E G R ESSÃ O L O G ÍST I C A 97 Tabela 6. 317 −0.id1 ht2. 314 0. 492 −0. 106 0. 231 0. 226 0. 724 0. 605 −0.re2 ht1. 093 0. 351 −0. 533 0. 165 0. 356 0. 490 0. 354 −0. 348 0.2. 729 0. 124 0. 197 0. 792 0. 286 0. 228 0. 243 0. 275 −0. 144 1. 186 −0. 233 −0. 413 0. 029 0. 878 0. 115 0. 112 0. 336 0. 245 0. 227 0. 109 0. 087 0. 284 0. 089 0. 205 0. 239 0. 227 0. 260 0. 531 0. 496 0. 201 0. 537 0. 268 −0. 227 0.2: Estimativas dos efeitos e dos respectivos desvios padrıes obtidas pelo S U D A A N e pelo S. 497 0. 737 0. 216 0. 159 −0. 697 0. 377 0. 065 0. 156 −0. 735 0. 300 0.ht2 Ajuste no S U D A A N Estimativa Desvio do efeito Padr„o −0. 529 0. 253 −0.ht1 ae1. 514 0. 182 0. 506 −0. 408 0. 189 . 320 0.ht2 ae2. 259 0. 286 −0. 870 0. 263 0. 335 0. 277 0.id3 sx. 240 0. 294 0. 183 Ajuste no S. 129 0.re1 ht2.id2 ht1. 698 0. 178 −1. 269 0. 386 0.ht1 sx. 293 0. 332 0. 540 −0.id3 sx. 165 0.id2 ht2.id2 sx. 089 0. 515 0. 248 −0. 221 −0. 792 0. 515 −0. 312 −0. 338 0. 231 −0. 302 0. 420 0.id1 ht1. 026 0.id3 ht2.ht2 ae1. 183 −1. 220 0. 740 0.id1 sx. 234 0. 222 0. 145 1. 498 0. 148 0. 239 0.P l us Estimativa Desvio do efeito Padr„o −0. 465 −0. 062 0. 279 −0.re2 ht2. 736 0.

3: Testes de hipÛteses de nulidade dos efeitos do modelo Contraste Modelo Global Bondade do ajuste ht:re ht:id sx:id sx:ht ae:ht Graus de liberdade 30 29 4 6 3 2 4 Graus de liberdade ajustados 26. 693. 959 EstatÌstica F ajustada 37. 001 Tabela 6. 000 0. M O D E L OS D E R E G R ESSÃ O 98 Tabela 6. 452. 516. 000 0.P l us SU D A A N (0. 213. 000 0. 110 7.P l us SU D A A N 0. 741 0. variando-se os nÌveis de ae para nÌveis fixos de ht ht 1 1 2 2 3 3 MudanÁa de nÌvel de ae 1 para 2 2 para 3 1 para 2 2 para 3 1 para 2 2 para 3 S. 132 25. 0. 036). 001 0. 168 9. 608 0. 0. 1. 0. 000 0. 577. 830 0. 000 0. 530.5: Intervalos de confianÁa de 95% para razıes de vantagens. 212. 557 0.C A PÍ T U L O 6. 291 0. 946 5. 814 pvalor da estatÌstica F ajustada 0. 179 6. 040 4. 510 28. 0. 969 1. 0. 053) (0. 558 0. 166 4. 831 0. 785 0. 697. 680) (0. 398) (0. 1. 687) (0. (0. 1. 991) (0. 291 0. variando-se os nÌveis de ae para nÌveis fixos de ht ht 1 1 2 2 3 3 MudanÁa de nÌvel de ae 1 para 2 2 para 3 1 para 2 2 para 3 1 para 2 2 para 3 S. 050) (0. 1. 831) (0. 994) (0. 764 2. 780 0. 445. 0.4: Estimativas das razıes de vantagens. 399) (0. 692 3. 993 3. 059) (0. 0. 457. 448. 827) . 586. 608 Tabela 6. 739 0. 0.

P l us ao ignorar o plano amostral e a variaÁ„o dos pesos. foi utilizada a funÁ„o glm do S. Isto poderia ser feito passo a passo. as estimativas pontuais dos efeitos coincidiram com as obtidas pela P R O C L O G I S T I C do pacote S U D A A N .6. que apresenta a distribuiÁ„o de freq¸Íncias dos pesos.6: DistribuiÁ„o de freq¸Íncias dos pesos da amostra da PNAD-90 . em parte. neste exemplo. A tendÍncia revelada È de subestimaÁ„o dos desvios padrıes pelo S. Outra possibilidade seria repetir o processo de seleÁ„o do modelo usando-se a P R O C L O G I S T I C do S U D A A N . Quando n„o levamos em conta os pesos nem o plano amostral na estimaÁ„o dos par‚metros.Parte Urbana do Rio de Janeiro Valor do peso 674 675 711 712 Freq¸Íncia 127 784 3288 712 estas an·lises. pela pequena variabilidade dos pesos das unidades.P l us na seleÁ„o do modelo. Esta diferenciaÁ„o maior no caso dos desvios padrıes j· era esperada. como esperado. tal como se pode verificar na Tabela 6. o mesmo modelo foi ajustado atravÈs da P R O C L O G I S T I C do S U D A A N . O propÛsito foi imitar uma situaÁ„o onde o modelo j· tivesse sido selecionado e ajustado por usu·rio secund·rio dos dados. M O D E L O D E R E G R ESSà O L O G ÍST I C A 99 Tabela 6. h· estreita concord‚ncia entre as estimativas pontuais obtidas pelos dois pacotes. podemos atÈ chegar em uma estimativa pontual dos coeficientes bem prÛxima de quando levamos ambos em conta. sem considerar os pesos e o plano amostral. A concord‚ncia das estimativas dos coeficientes pode ser explicada.6. o impacto do plano amostral nas estimativas de precis„o È um pouco maior. Podese notar que.2. As maiores diferenÁas entre os dois mÈtodos ocorrem na estimaÁ„o dos desvios das estimativas dos par‚metros do primeiro nÌvel de idade (atÈ 17 anos) e da interaÁ„o deste com horas trabalhadas (tanto no nÌvel de menos de 40 horas semanais como no nÌvel de 40 a 48 horas semanais trabalhadas).2. incluindo . tal como È usual. Neste exemplo. Como foi visto na Tabela 6. mas as estimativas dos desvios padrıes s„o mais sensÌveis a esta diferenÁa entre as an·lises. Feita a seleÁ„o.

etc. procedimentos estatÌsticos de teste de hipÛteses devem. A principal dificuldade È que no contexto de pesquisas complexas. Diferentemente dos pacotes mais usados de an·lise estatÌstica. atualmente. . . ferramentas usuais de diagnÛstico de ajuste de modelos. Nesta seÁ„o. . usamos um teste F. . Considerando-se a maior dificuldade de seleÁ„o de modelos atravÈs do S U D A A N . … pois natural tentar adaptar testes de Raz„o de M·xima VerossimilhanÁa para pesquisas amostrais complexas. . Neste contexto.P l us. tambÈm. . Como È sabido. . . para algum° j ∈ {1.2 discutimos formas de introduzir pesos e plano amostral em procedimentos de estimaÁ„o pontual e de vari‚ncias ao ajustar modelos com dados de pesquisas amostrais complexas. devido aos pesos distintos das observaÁıes e ao plano amostral utilizado. para testar a hipÛtese H0 : β j = 0. o SUDAAN n„o possui.1 e 6. . para modelos de regress„o. β jR = 0R . . . Este procedimento possibilitaria comparar a seleÁ„o de modelos quando s„o considerados os pesos e o plano amostral na an·lise. Apesar desta dificuldade ter sido contornada na derivaÁ„o de estimadores de MPV.100 C A PÍ T U L O 6. P ) e 0R È o vetor zero R-dimensional.3 Test e de H i p ó t eses Nas secıes 6. . sofrer adaptaÁıes. a adaptaÁ„o fica bem mais difÌcil no caso de testes da Raz„o de M·xima VerossimilhanÁa. tornando mais difÌcil seu uso na etapa de seleÁ„o de modelos. Tais testes t e F. onde (j1 . tais como SAS. tal como foi feito na derivaÁ„o de estimadores de MPV a partir de estimadores de M·xima VerossimilhanÁa. β P )0 o vetor de par‚metros num modelo de regress„o. jR ) ⊂ (1. esse problema ser· abordado de forma sucinta. e para para testar a hipÛtese 0 H0 : β j 1 . . Denotemos por β = (β 1 . . .. . De modo geral. tal como foi feito automaticamente pela funÁ„o st e p d o S. testes de hipÛteses em regress„o surgem inicialmente na seleÁ„o de modelos e tambÈm para fornecer evidÍncia favor·vel ou contr·ria a indagaÁıes levantadas pelo pesquisador. 6. BMDP. . . usamos um teste t. preferiu-se us·-lo aqui apenas para ajustar um modelo j· selecionado. . a funÁ„o de verossimilhanÁa usual n„o representa a distribuiÁ„o conjunta das observaÁıes. sob as hipÛteses do modelo cl·ssico de regress„o com erros normais. etc. . S-Plus..¢P } . como gr·ficos de resÌduos padronizados. M O D E L OS D E R E G R ESSà O efeitos e interaÁıes que melhorassem mais a qualidade de ajuste. s„o testes da Raz„o de M·xima VerossimilhanÁa. .

Uma alternativa È usar a aproximaÁ„o 2 XW /R ∼ F(R. Tais estimativas consideram os pesos diferentes Vàp B das observaÁıes e o plano amostral efetivamente utilizado. β§2 . sob H0 . e usar esta a estatÌstica XW ˙ltima como distribuiÁ„o de referÍncia implica na obtenÁ„o de testes com nÌveis de signific‚ncia incorretos. a distribuiÁ„o assintÛtica da estatÌstica XW Quando os dados s„o obtidos atravÈs de pesquisas amostrais complexas. onde £ IR e c = 0R .30) È definida por ) ¥0 ) ) ¥ ¥−1 ) ¥ 2 b −c b β b à C0 = Cβ CV Cβ−c . à pela estimativa MPV B se na) express„o de XW ¥ b β à pela estimativa da matriz de covari‚ncia do estimador de MPV e V ) ¥ b π dada em (6.31) XW ) ¥ b eV b β à s„o obtidos pela teoria de mÌnimos quadrados onde os estimadores β 2 È χ2 (R). … essa abordagem que vamos adotar aqui. com β 1 de dimens„o Q $ 1 e β 2 de dimens„o R $ 1. Um caso particular ° 0 0 ¢ de interesse È testar a hipÛtese aninhada H0 : β 2 = 0 β = β 1 . tais como as que s„o geradas pelo mÈtodo de MPV. β b π de β dada em (6. È mais f·cil basear os testes na estatÌstica Wald. que mede a dist‚ncia entre uma estimativa pontual e o valor hipotetizado do par‚metro numa mÈtrica definida pela matriz de covari‚ncia do estimador. Sob H0 . Esse problema È solucionado substituindo2 .22).6. bastando para isto utilizar estimativas apropriadas (consistentes sob aleatorizaÁ„o) dos par‚metros e da matriz de covari‚ncia. υ).3. Considere o problema de testar a hipÛtese linear geral H0 : Cβ = c.18). (6. 1983) implicam que 2 ∼ χ2 (R) . 2 deixa de ter distribuiÁ„o assintÛtica χ2 (R). A normalidade assintÛtica do estimador de MPV de β e a consistÍncia do estimador da matriz de covari‚ncia correspondente (Binder. (6. A estatÌstica de Wald cl·ssica para testar a hipÛtese nula (6. 0R . sendo 0R#Q matriz de zeros de dimens„o C = 0R#Q R $ Q e IR a matriz identidade de ordem R. T ES T E D E H IP Ó T ESES 101 Por essa causa. . ordin·rios.30) onde C È uma matriz de dimens„o R $ P de posto pleno R = P − Q e c È um vetor R $1. XW )Esta ¥ aproximaÁ„o n„o leva em conta o erro amostral na estimaÁ„o de à V β . Pesos e plano amostral podem ser incorporados facilmente nessa estatÌstica.

102 C A PÍ T U L O 6. pois n„o È possÌvel adaptar de maneira simples as tÈcnicas cl·ssicas de diagnÛstico. que fornece uma medida de graus de liberdade apropriada para amostras complexas quando o mÈtodo do conglomerado prim·rio È empregado para estimar vari‚ncias. A especificaÁ„o de um procedimento para testar hipÛteses sobre os par‚metros de um modelo de regress„o completa a abordagem para ajuste de modelos desse tipo partindo de dados amostrais complexos. . Essa È quest„o que ainda merece maior investigaÁ„o e por enquanto È uma desvantagem da abordagem aqui preconizada. È difÌcil considerar pesos ao plotar os resÌduos do ajuste dum modelo via MPV. tica de teste. Por exemplo. Entretanto. M O D E L OS D E R E G R ESSà O onde υ = m−H È o n˙mero de UPAs da amostra menos o n˙mero de estratos considerados no plano amostral para seleÁ„o das UPAs. Com a finalidade de melhorar a aproximaÁ„o da distribuiÁ„o da estatÌs2 . uma das partes importantes da teoria cl·ssica para modelagem È a que trata do diagnÛstico dos modelos ajustados. podem ser utilizados ajustes e correÁıes da estatÌstica XW que s„o apresentados com mais detalhes nos CapÌtulos 7 e 8 para o caso da an·lise de dados categÛricos. Nessa parte a abordagem baseada em MPV e em estatÌsticas de Wald deixa a desejar. muitas vezes empregando recursos gr·ficos.

o objetivo da an·lise È testar hipÛteses de bondade de ajuste de modelos para descrever essas distribuiÁıes de freq¸Íncias.ou segundo celas de uma classificaÁ„o cruzada de duas (ou mais) vari·veis categÛricas .1 I n t ro d ução Tabelas de distribuiÁıes de freq¸Íncias ocorrem comumente na an·lise de dados de pesquisas complexas. SPSS.C a pí t u lo 7 Test es de Q u ali d a de de A j ust e 7. Em muitos casos. Neste capÌtulo concentraremos a atenÁ„o em tabelas de uma entrada. de amostragem aleatÛria simples. os valores observados dessas estatÌsticas de teste podem ser muito grandes. em alguns casos. conforme j· ilustrado no Exem103 . Sob a hipÛtese de observaÁıes IID (distribuiÁ„o Multinomial) ou equivalentemente. Tais testes podem ser facilmente executados usando procedimentos prontos em pacotes estatÌsticos padrıes tais como o SAS. estratificaÁ„o e/ou pesos desiguais. os procedimentos de teste precisam ser ajustados devido aos efeitos de conglomeraÁ„o. ou equivalentemente nas freq¸Íncias absolutas e relativas (ou proporÁıes) correspondentes.tabelas de uma entrada . S-Plus. entretanto. Neste capÌtulo examinaremos o impacto do plano amostral sobre as estatÌsticas de teste usuais notando que.tabelas de duas (ou mais) entradas. Tais tabelas s„o formadas pela classificaÁ„o e c·lculo de freq¸Íncias dos dados da amostra disponÌvel segundo nÌveis de uma vari·vel categÛrica . GLIM e outros. inferÍncias v·lidas para testar tais hipÛteses podem ser baseadas na estatÌstica padr„o de teste qui-quadrado de Pearson. acarretando inferÍncias incorretas. No caso de planos amostrais complexos.

quanto para uma abordagem baseada em modelos. Para obter inferÍncias v·lidas usando amostras complexas podemos introduzir correÁıes na estatÌstica de teste de Pearson. As proporÁıes populacionais desconhecidas nas categorias s„o pj = Nj /N. 7. j = 1. em que os par‚metros especificam algum modelo de superpopulaÁ„o.104 C A PÍ T U L O 7. digamos) no contexto de um modelo de superpopulaÁ„o. tais como os ajustes de Rao-Scott. que foi utilizada para comparar com um valor hipotÈtico prÈ-fixado a proporÁ„o de empregados cobertos por plano de sa˙de.4 do CapÌtulo 4. Para isto. consideremos a Tabela 7.2.1 Test e p a r a u m a P rop orção C or r eção de E st a t íst icas C lássicas No Exemplo 4. construindo a estatÌstica de teste XP2 de Pearson para o exemplo correspondente. onde N È o tamanho total da populaÁ„o de empregados e Nj È o n˙mero de elementos da populaÁ„o na categoria j. .2 7. Vamos examinar com mais detalhes o comportamento assintÛtico da estatÌstica de teste Zbin .1 contendo a distribuiÁ„o de frequÍncias. baseada no plano amostral efetivamente adotado. Os resultados discutidos neste capÌtulo s„o adequados tanto para uma abordagem de aleatorizaÁ„o. A causa disto foi o fato de Zbin n„o considerar o efeito de conglomeraÁ„o existente. onde nj e poj s„o as frequÍncias (absolutas) observadas na amostra e as proporÁıes hipotÈticas nas categorias de interesse. ou alternativamente usar outras estatÌsticas de teste que j· incorporem o plano amostral. tais como a estatÌstica de Wald. em que os par‚metros se referem ‡ populaÁ„o finita em quest„o. respectivamente. Os par‚metros populacionais pj poderiam tambÈm ser considerados como pseudo-par‚metros. Os dois enfoques ser„o ilustrados atravÈs de um exemplo introdutÛrio simples de teste de bondade de ajuste. 2. Isto ocorre porque a probabilidade de erros do tipo I (rejeitar a hipÛtese nula quando esta È verdadeira) È muito maior que o nÌvel nominal de signific‚ncia α especificado.4 do CapÌtulo 4 a estatÌstica de teste Zbin . se vistos como estimativas de censo para as probabilidades desconhecidas (πj . T EST ES D E Q U A LI D A D E D E A J UST E plo 4. resultou num teste mais liberal do que o teste que empregou a estatÌstica Zp .

para j = 1.000 0. O efeito de plano amostral nesse p) /Vbin (b p).2) tem apenas um grau de liberdade. terÌamos d = 1 pois Vp (b . j=1 (7. 8 2 P 160 1. Isto acarreta na equivalÍncia entre as estatÌsticas Zbin e XP2 demonstrada pela relaÁ„o XP2 =n 2 X j=1 (b pj − p0j )2 /p0j = (b p − p0 ) 2 2 = Zbin p0 (1 − p0 ) /n (7. 2. j = 1. a distribuiÁ„o da estatÌstica XP2 em (7.1: Freq¸Íncias observadas e proporÁıes hipotÈticas Categoria Cobertos por plano de sa˙de N„o cobertos Todos os empregados j nj p0j 1 840 0. simples. Neste caso. observase que p2 = 1 − p1 . Como h· apenas duas categorias e as proporÁıes devem somar 1. onde W tem distribuiÁao χ2 (1) (qui-quadrado com um grau de liberdade) e d È o efeito de plano amostral (EPA) da estimativa pb da proporÁ„o p. 0 A estatÌstica de teste de Pearson para a hipÛtese simples de bondade de ajuste H0 : pj = p0j .1) j =1 onde as proporÁıes pbj = nj /n s„o estimativas amostrais usuais das proporÁıes populacionais pj . Com apenas duas celas. a distribuiÁ„o assintÛtica da estatÌstica XP2 È qui-quadrado (χ2 ).4. a distribuiÁ„o assintÛtica da estatÌstica de teste XP2 È a distribuiÁ„o da vari·vel aleatÛria dW . caso È dado por d = Vp (b Para uma amostra de empregados selecionada por amostragem aleatÛria p) e Vbin (b p) seriam iguais. 2. Neste caso. em que h· apenas duas categorias e uma restriÁ„o (soma das proporÁıes igual a 1).2) onde pb = pb1 e p0 = p01 para simplicidade e coerÍncia com a notaÁ„o do Exemplo 4. T ES T E PA R A U M A P R O P O R Ç Ã O 105 Tabela 7. 2 1. Sob a hipÛtese de observaÁıes IID. È dada por 2 2 X X XP2 = (nj − n p0j )2 / (n p0j ) = n (b pj − p0j )2 /p0j .7. pb2 = 1 − pb1 e p02 = 1 − p01 . Rao e Scott(1981) obtiveram resultados gerais para a distribuiÁ„o assintÛtica da estatÌstica de teste XP2 de Pearson sob planos amostrais complexos.2.

(7. XP2 (d) = XP2 /d. 00016 p (1 − p) /m p (1 − p) /n = 20 onde m = 50 È o n˙mero de empregados por empresa (tamanho do conglomerado) e n = 1. (7. a estatÌstica XRV È tambÈm 2 distribuÌda assintoticamente como χ (1). e portanto a distribuiÁ„o assintÛtica da estatÌstica de teste XP2 n„o È mais χ2 (1). Isto È feito introduzindo uma 2 a ¢esperanÁa assintÛtica de XP2 È correÁ„o ¢ °que ° 2 ¢ em XP . .5) Vamos calcular os valores das estatÌsticas de Pearson e de RV. 0032 0. Como Ep XP /d = E χ (1) = 1. Como a amostra foi efetivamente selecionada por amostragem de conglomerados.106 C A PÍ T U L O 7.4) 2 No caso de amostragem aleatÛria simples.3) que tem. Outra estatÌstica comumente usada para testar a mesma hipÛtese de bondade de ajuste no caso de proporÁıes È a estatÌstica do teste da Raz„o de VerossimilhanÁa (RV).4. . Para isto. ° 2 observe 2 Ep XP = d. primeiro È preciso calcular o efeito do plano amostral d = Vp (b p) /Vbin (b p) = = 0. a estatÌstica corrigida correspondente È 2 2 XRV (d) = XRV /d . distribuiÁ„o assintÛtica χ2 (1). isto È. o prÛximo passo È derivar um procedimento de teste v·lido. (7. dada por 2 XRV = 2n 2 X j=1 pbj log (b pj /p0j ) = 2n log µ pb (1 − pb) p0 (1 − p0 ) . para os dados do Exemplo 4. T EST ES D E Q U A LI D A D E D E A J UST E a estatÌstica XP2 de teste seria assintoticamente χ2 (1). Para planos amostrais complexos. obtemos ent„o a correÁ„o simples de Rao-Scott para XP2 dividindo o valor observado da estatÌstica de teste pelo efeito do plano amostral d.000 È o n˙mero de empregados na amostra. devido ‡ correlaÁ„o intraclasse positiva o efeito de plano amostral d È maior que um. no caso de duas celas. Para as correÁıes. quando a hipÛtese nula È verdadeira. com suas correÁıes de Rao-Scott. Considerando que o impacto da correlaÁ„o intraclasse positiva na distribuiÁ„o assintÛtica da estatÌstica XP2 de Pearson pode levar a inferÍncias incorretas caso se utilize a distribuiÁ„o assintÛtica usual.

Na pr·tica. Para conglomerados de tamanho mÈdio igual a 20 (m = 20) como neste exemplo. 80 $ 0. 56/20 = 0. 0. 7072 = 0. as decisıes baseadas nas estatÌsticas sem correÁ„o seriam incorretas no sentido de rejeitar a hipÛtese nula. T ES T E PA R A U M A P R O P O R Ç Ã O 107 O valor da estatÌstica de teste de Pearson È XP2 = (0. estimadas positivas b Os resultados do exemplo discutido nesta seÁ„o ilustram bem a import‚ncia de considerar o plano amostral na construÁ„o de estatÌsticas de teste para proporÁıes simples. Observe que Zp2 = 0. 5 ou seja. 0012. 4675. Ilustram tambÈm um dos enfoques existentes para tratar do problema.000 com pvalor 0. 20 com pvalor 0. e portanto as estimativas de efeito de plano amostral db correspondentes s„o maiores que um. 1622 /20 = 0.2. TambÈm em ambos os casos a correÁ„o de Rao-Scott produziu efeito semelhante. e portanto a homogeneidade È m·xima). XRV com pvalor de 0. Os valores da estatÌstica do teste da Raz„o de VerossimilhanÁa e sua correÁ„o de Rao-Scott s„o dados respectivamente por µ . Isto ocorreu neste caso porque o coeficiente de correlaÁ„o intraclasse assume o valor m·ximo ρ = 1 (todos os valores dentro de um conglomerado s„o iguais. 4795.000 $ log = 10. 0016. Em ambos os casos. . Como se pode notar. 56 . e 2 2 (d) = XLR /d = 10. 80)2 = 10 (0. e tambÈm que 2 /d = 3. O efeito de plano amostral d = 20 observado neste exemplo È muito grande e pouco comum na pr·tica. 528 . a saber a correÁ„o de estatÌsticas de teste usuais (de Pearson e da Raz„o de VerossimilhanÁa). as estatÌsticas baseadas na Raz„o de VerossimilhanÁa oferecem resultados semelhantes ‡s versıes correspondentes baseadas na estatÌstica de Pearson.7. 84 − 0. embora num caso um tanto extremo. O valor da estatÌstica de teste de Pearson com a correÁ„o de Rao-Scott XP2 (d) È ent„o dado por XP2 (d) = XP2 /d = 10/20 = 0. 0. as correlaÁıes intraclasse observadas s„o usualmente positivas mas menores que um. 20) /1. os valores tÌpicos de db s„o menores que 3. 5 . Z 2 = X 2 (d) conforme espeXP2 (d) = Zbin p P rado. 16 2 XRV = 2 $ 1. 5 com pvalor 0. 1. tendo em correspondÍncia correlaÁıes intraclasse ρ < 0. 84 $ 0. 80 $ 0.

n„o necessitando que seja feito qualquer ajuste auxiliar. devido ‡ instabilidade nas estimativas de vari‚ncia em pequenas amostras.6) pà (1 − pà) /n j=1 2 em (7. Entretanto. No caso particular de amostragem aleatÛria simples.2 C A PÍ T U L O 7. j· È distribuÌda assintoticaa estatÌstica XW mente como qui-quadrado com um grau de liberdade. reflete a complexidade do plano amostral e fornece uma estatÌstica de teste assintoticamente v·lida.2. T EST ES D E Q U A LI D A D E D E A J UST E E st a t íst ica de W al d Como alternativa ‡ estatÌstica de teste de Pearson. Para o caso de duas celas. da Raz„o de VerossimilhanÁa e de Neyman por incorporar automaticamente o plano amostral. ela se reduz a 2 = (b p − p0 )2 /Vàp (b p) . Esta ˙ltima estatÌstica difere das estatÌsticas de Pearson . XW Observe que o valor desta estatÌstica È bem prÛximo dos valores das estatÌsticas de Pearson e da Raz„o de VerossimilhanÁa com a correÁ„o de Rao-Scott.7) onde Vàp (b p) È uma estimativa da vari‚ncia de aleatorizaÁ„o de pà. . O valor da estatÌstica de Wald para esse exemplo È 2 = (0.4. usamos no lugar de p) a vari‚ncia Vbbin (b p) = pb (1 − pb) /n. 002743 = 0.6) pode ser obtida substituindo-se no Note que a express„o de XN denominador de XP2 em (7. No caso de duas celas.2) a proporÁ„o hipotÈtica p0 pela proporÁ„o estimada pà. È incorpop). que aparece no denominador de XW O efeito do termo Vàp (b rar na estatÌstica de bondade de ajuste o efeito do plano amostral utilizado. podemos usar a estatÌs2 de Neyman. Xbin coincide com a estatÌstica XN Para o plano amostral de conglomerados considerado no Exemplo 4. Esta pode ser considerada uma vantagem em relaÁ„o ‡s estatÌsticas com correÁ„o de Rao-Scott. estatÌstica resultante Vbp (b 2 2 de Neyman. correspondente ao plano amostral efetivamente utilizado. 2 . ela se tica de bondade de ajuste XN reduz a 2 X (b p − p 0 )2 2 XN =n (à pj − p0j )2 /à pj = . (7.108 7. XW (7. A estatÌstica de Wald. pelo uso de uma estimativa apropriada da vari‚ncia. sem qualquer ajuste auxiliar. 2 . 80)2 /0. A estatÌstica de Neyman È um caso particular da estatÌstica de bondade de ajuste de Wald. 84 − 0. no caso de mais de duas celas. pode haver desvantagens no uso da estatÌstica de Wald baseada no plano amostral. 583 . Neste caso.

Vamos considerar na prÛxima seÁ„o o caso geral de testes de bondade de ajuste e apresentar mais detalhes sobre as estatÌsticas de teste alternativas. e a estatÌstica de Wald baseada no plano amostral.7. 7. j = 1. 528 0.4 EstatÌstica de teste Pearson XP2 Pearson ajustada XP2 (d) 2 RV XRV 2 (d) RV ajustada XRV 2 Wald XW gl 1 1 1 1 1 Valor observado 10. 2. . para facilidade de comparaÁ„o. 56 0. onde pj = Nj /N s„o as proporÁıes . . A hipÛtese de bondade de ajuste para J ≥ 2 celas pode ser escrita como H0 : pj = p0j . T ES T E PA R A V Á RI AS P R O P O R Ç Õ ES 109 Tabela 7.3. 0016 0. J. aumentando o n˙mero de proporÁıes envolvidas. 4451 Reproduzimos na Tabela 7. .2 os resultados para todas as estatÌsticas de teste consideradas atÈ agora. O caso de tabelas de duas entradas ser· considerado no capÌtulo seguinte. . 0012 0. a metodologia de ajuste de Rao-Scott para as estatÌsticas de teste de Pearson e da Raz„o de VerossimilhanÁa. introduziremos os testes de independÍncia e de homogeneidade para tabelas de duas entradas.3 Test e p a r a V á r i as P rop orções Neste seÁ„o vamos considerar extensıes do problema de testes de bondade de ajuste. Ambas as abordagens s„o facilmente generaliz·veis para tabelas de uma ou duas entradas com n˙mero de linhas e colunas maior que dois. 583 pvalor 0. 500 10. Nesta seÁ„o foram apresentadas as duas principais abordagens para incorporar o efeito do plano amostral na estatÌstica de teste: 1. 4795 0. Depois.2: Valores e pvalores de estatÌsticas de teste alternativas para os dados do Exemplo 4. A Ínfase ser· dada nos procedimentos baseados na estatÌsticas de teste de Wald baseadas no plano amostral e nas estatÌsticas de Pearson e da RV com os v·rios ajustes de Rao-Scott. 00 0. 4675 0.

espera-se que XW funcione adequadamente se o n˙mero de unidades prim·rias de amostragem selecionadas for grande e o n˙mero de celas componentes do vetor p for relativamente pequeno. O vetor de estimativas consistentes das proporÁıes das celas. Essa hipÛtese pode tambÈm ser escrita. . podemos obter um estimador est·vel de Vp . pois a soma das ponentes s„o incluÌdos em cada um dos vetores p. . usando notaÁ„o vetorial. devido queno. p0 e p proporÁıes nas J categorias È igual a 1.3. .3. Na pr·tica.8). . Os em n observaÁıes. pode ocorrer um problema de instabilidade na estimativa V . . pbJ−1 ) . 7. a estatÌstica XW quadrado com J − 1 graus de liberdade. Uma torizaÁ„o verdadeira Vp do estimador p b p pode ser obtida pelo mÈtodo de linearizaÁ„o.110 C A PÍ T U L O 7. . 7. pJ−1 ) È o vetor de proporÁıes populacionais 0 desconhecidas e p0 = (p01 . . p0 J−1 ) È o vetor de proporÁıes hipotÈticas. considerando as diferentes probabilidades de inclus„o dos elementos e ajustesP por n„o-resposta. . onde os bj = n.1 E st a t íst ica de W al d B asea d a no P la no A most r al 2 .8) XW p b p denota um estimador consistente da matriz de covari‚ncia de aleaonde V b do vetor de proporÁıes p. Observe que (7. No caso de mais de duas celas. o que È comum quando trabalhamos com subgrupos da populaÁ„o. os pb ser„o estimadores de razıes. Neste caso. Observe que apenas J − 1 comb . fornecendo assim um procedimento 2 de teste v·lido no caso de amostras complexas. . 2 tem distribuiÁ„o assintÛtica quiSob a hipÛtese nula H0 . foi anteriormente introduzida no caso de duas celas como uma alternativa ‡ estatÌstica de Pearson ajustada. e portanto a proporÁ„o na J-Èsima categoria È obtida por diferenÁa. . . para o teste da hipÛA estatÌstica de Wald baseada no plano amostral XW tese simples de bondade de ajuste.2 Si t u ações I nst á veis Se o n˙mero m de unidades prim·rias de amostragem disponÌveis for peb p . onde pbj = n bj /n. T EST ES D E Q U A LI D A D E D E A J UST E populacionais desconhecidas nas celas e p0j s„o as proporÁıes hipotÈticas das celas. . como 0 H0 : p = p0 .7) È um caso particular de (7. (7. baseado 0 b = (b p1 . onde p = (p1 . a estatÌstica de bondade de ajuste de Wald È dada por 0 2 b −1 (b = (b p−p0 ) V p − p0 ) . usando-se por estimativa V exemplo o pacote S U D A A N . Se n n„o for pesos amostrais s„o normalizados de modo que Jj = 1 n fixado de antem„o. È denotado por p n bj s„o as frequÍncias ponderadas nas celas.

p = 2 XW . vamos considerar a estatÌstica de teste XP2 de Pearson. cilmente no caso de duas celas.11) 0 (b j=1 . onde a instabilidade n„o era muito grave. no caso de instabilidade. (J − 1) (7.10) que tem distribuiÁ„o assintÛtica de referÍncia F com J − 1 e f graus de liberdade.p = f (J − 1) W que tem distribuiÁ„o assintÛtica de referÍncia F com J − 1 e f − J + 2 graus de liberdade. na presenÁa de efeitos de plano amostral importantes. H· duas propostas alternativas de estatÌsticas F -corrigidas de Wald. As estatÌsticas F-corrigidas de Wald s„o bastante utilizadas na pr·tica. Quando f aumenta a diferenÁa diminui. T ES T E PA R A V Á RI AS P R O P O R Ç Õ ES 111 ao pequeno n˙mero de graus de liberdade f = m − H disponÌvel para a b p pode tornar a estimaÁ„o da vari‚ncia. comportou-se relativamente bem nos casos padrıes. as duas correÁıes reproduzem a estatÌstica original. No caso J = 2. tornando a correÁ„o desprezÌvel.9) F1. mediante emprego da chamada estatÌstica de Wald F-corrigida.3.3 E st a t íst ica de P ea rson co m A j ust e d e R ao-Sco t t O exemplo introdutÛrio serviu para mostrar que. A segunda È dada por F2. quando f for grande. A instabilidade da estimativa V estatÌstica de Wald muito liberal. … comum contornar esta instabilidade corrigindo a estatÌstica de Wald. A primeira È dada por f −J +2 2 X . o melhor desempenho nesta comparaÁ„o. Se f for pequeno.3. Eles verificaram que a estatÌstica de Wald F-corrigida F1. as estatÌsticas cl·ssicas de teste precisam ser ajustadas para terem a mesma distribuiÁ„o assintÛtica de referÍncia que a obtida para o caso de amostragem aleatÛria simples.p n„o apresentou. contudo.7. em geral. 7. Thomas e Rao(1987) analisaram o desempenho das diferentes estatÌsticas de teste de bondade de ajuste. ent„o o pvalor de XW obtido a partir de uma distribuiÁ„o F com 1 e f graus. 2 pode ser visualizado faO efeito de uma correÁ„o F ‡ estatÌstica XW 2 . (7. Essa estatÌstica pode ser escrita em forma matricial como J X 0 2 XP = n (b pj − p0j )2 /p0j = n (b p − p0 ) P−1 p − p0 ) (7. e est„o implementadas em pacotes para an·lise de dados de pesquisas amostrais complexas. Inicialmente. È maior que o pvalor obtido numa distribuiÁ„o qui-quadrado com um grau de liberdade.

Observe que a express„o de XP2 b p . com P0 /n no lugar de V 2 caso de apenas duas celas. No caso geral. cuja distri2 buiÁ„o È χ com J − 1 graus de liberdade. sob amostragem aleatÛria simples. h· mais de uma possibilidade de correÁ„o e consideraremos as correÁıes de primeira ordem e de segunda ordem de Rao-Scott. A correÁ„o de primeira ordem tem por objetivo corrigir a esperanÁa assintÛtica da estatÌstica XP2 de Pearson. envolvendo estratificaÁ„o e/ou conglomeraÁ„o. os efeitos generalizados de plano amostral δ j s„o todos iguais a um. e diag (p0 ) representa uma ri‚ncia multinomial de p matriz diagonal com elementos p0j na diagonal. Os pesos δ j s„o os autovalores da matriz de efeito multivariado de plano amostral ∆ = P−1 0 Vp . Devido aos efeitos de conglomeraÁ„o. e a de segunda ordem tambÈm envolve correÁ„o da vari‚ncia. A matriz de covari‚ncia P0 /n È uma generalizaÁ„o do caso J = 2 celas para o caso de mais de duas celas (J > 2). . + δ J−1 WJ−1 de J − 1 vari·veis aleatÛrias independentes Wj . No tem a mesma forma da estatÌstica de Wald. Tecnicamente.112 C A PÍ T U L O 7. pois neste caso ∆ = I. . a estatÌstica XP2 requer correÁıes semelhantes ‡s introduzidas no caso de duas celas. Para examinar a distribuiÁ„o assintÛtica da estatÌstica XP2 de Pearson. cada uma tendo distribuiÁ„o qui-quadrado com um grau de liberdade. desenvolvidas por Rao e Scott(1981). Neste caso. Desta forma. os δ j tendem a ser maiores que P um. onde o denominador corresponde ‡ da XP2 = (b vari‚ncia da binomial sob a hipÛtese nula. eles n„o coincidem com os efeitos univariados de plano amostral dj . onde Vp /n È a matriz de covari‚ncia do b do vetor de proporÁ„o p baseada no plano amostral verdadeiro. No caso de amostragem aleatÛria simples. Neste caso. do caso de duas celas para o caso J > 2. estimador p Tais autovalores s„o tambÈm chamados efeitos generalizados de plano amostral. a soma J−1 j = 1 δ j Wj se reduz a j = 1 Wj . XP2 È assintoticamente distribuÌdo como uma soma ponderada δ 1 W1 + δ 2 W2 + . T EST ES D E Q U A LI D A D E D E A J UST E 0 onde P0 = diag (p0 ) − p0 p0 e P0 /n È a matriz (J − 1) $ (J − 1) de covab sob a hipÛtese nula. vamos generalizar os resultados anteriores. os dois ajustes s„o baseados nos autovalores da matriz de efeito multivariado b de plano amostral estimada ∆. No caso de plano amostral mais complexo. os efeitos generalizados de plano amostral n„o s„o iguais a um. a estatÌstica XP2 È distribuÌda assintoticamente como qui-quadrado com J − 1 graus de liberdade. Observe que. XP reduz-se ‡ fÛrmula simples antes considerap1 − p01 )2 / [p01 (1 − p01 ) /n]. . matriz PJ−1 P identidade. em geral. e assim a distribuiÁ„o assintÛtica da vari·vel aleatÛria J−1 j = 1 δ j Wj diferente de uma qui-quadrado com J − 1 graus de liberdade. Assim.

A correlaÁ„o intraclasse positiva fornece uma mÈdia dà. P onde dà. Quando esta estimativa est· disponÌvel. = XP2 /dà. portanto. pj ) È a estimativa da vari‚ncia de aleatorizaÁ„o do estimador de onde Vàp (à proporÁ„o pàj . È um estimador da mÈdia Øδ dos autovalores desconhecidos da matriz de efeitos multivariados de plano amostral ∆. deve-se usar o ajuste mais preciso de segunda ordem. pois a mÈdia dos efeitos univariados de plano amostral n„o È igual ‡ mÈdia dos efeitos generalizados de plano Sob a hi¢ ° amostral. Estes ajustes s„o ˙teis nos casos em que n„o à p para a matriz de covari‚ncia de È possÌvel obter uma estimativa adequada V aletorizaÁ„o. Podemos estimar a mÈdia dos efeitos generalizados usando os efeitos univariados de plano amostral estimados. (7. O ajuste da estatÌstica (7. = (1 − pà0j ) dàj . p0j j=1 . = XP2 /àδ . e o ajuste de primeira ordem de Rao-Scott. . Scott e Ewings(1980). a esperanÁa assintÛtica de XP È E XP = j = 1 δ j . dos efeitos univariados de plano amostral: ) ¥ XP2 dà. Este ajustamento requer que estejam disponÌveis as estimativas dos efeitos de plano amostral dos estimadores das proporÁıes das J celas. (7. o ajuste do EPA mÈdio tende a remover a liberalidade de XP2 . pela equaÁ„o J X pàj à (J − 1) δ . O ajuste do EPA mÈdio n„o corrige exatamente a esperanÁa assintÛtica de XP2 . dado por ) ¥ XP2 àδ . Este raciocÌnio conduz ao ajuste de primeira ordem de Rao-Scott para XP2 . T ES T E PA R A V Á RI AS P R O P O R Ç Õ ES 113 Inicialmente. Estimamos os efeitos do plano amostral por dàj = Vàp (à pj ) / (à pj (1 − pàj ) /n) .11) È feito dividindo o valor observado da estatÌstica XP2 de Pearson pela mÈdia dà. O ajuste de EPA mÈdio È baseado nos efeitos univariados de plano amostral estimados dàj das estimativas pàj . maior que 1 e. consideramos um ajuste simples de EPA mÈdio ‡ estatÌstica devido a Fellegi (1980) e Holt.12) XP2 .3.13) onde àδ . PJ−1 2 2 pÛtese nula. onde a mÈdia dos autovalores È Øδ = PJ−1 j = 1 δ j / (J − 1) . logo ¢ ° ¢ ° E XP2 /Ø δ = E χ2 (J − 1) = J − 1. = Jj = 1 dàj /J È um estimador da mÈdia dØ dos efeitos de plano amostral desconhecidos.7.

14) XP2 àδ . onde a à2 È um estimador do quadrado do coeficiente de variaÁ„o a2 dos autovalores desconhecidos dado por 2 J−1 X a à = j=1 ) ¥ àδ 2 / (J − 1) àδ 2 − 1 . pàk ) s„o os estimadores das covari‚ncias de aleatorizaÁ„o de pàj onde Vàp (à e pàk . àδ. pode ser obtido a −1 à à partir da estimativa ) ¥da matriz de efeitos multivariados ∆ = nP0 Vp . dividindo o traÁo de ∆ equaÁ„o àδ . . Isto È obtido atravÈs de uma correÁ„o de segunda ordem de Rao-Scott. Se a variaÁ„o dos autovalores estimados àδ j for grande. contingÍncia. . ) ¥ A estatÌstica ajustada XP2 àδ . A estatÌstica de Pearson com ajuste de Rao-Scott de segunda ordem È dada por ) ¥ ) ¥ ° ¢ à2 = XP2 àδ . Alternativamente. = tr ∆ de graus de liberdade. a à2 . A estatÌstica . que È ) ¥ considerada uma alternativa conservadora de XP2 àδ . sÛ s„o necess·rios os efeitos multivariados de plano amostral dos pàj que aparecem na diagonal da matriz à Assim. j . È ) ¥ mais exato do que o ajuste do EPA mÈdio da estatÌstica XP2 dà. isto È.C A PÍ T U L O 7. sÛ tem distribuiÁ„o assintoticamente quiquadrado com (J − 1) graus de liberdade se os autovalores forem iguais. pàk ) /p0j p0k .13) È introduzida na estatÌstica de Pearson com o objetivo de tornar a mÈdia assintÛtica da estatÌstica ajustada igual ao n˙mero de graus de liberdade da distribuiÁ„o de referÍncia. . / 1 + a (7. Um estimador da soma dos quadrados dos autovalores È dado por J−1 X j=1 J X J ) ¥ X 2 2 àδ 2 = tr ∆ à Vàp2 (à pj . T EST ES D E Q U A LI D A D E D E A J UST E 114 sem estimar os prÛprios autovalores. = n j j=1 k=1 pj . pela à pelo n˙mero à / (J − 1). baseada no mÈtodo de Satterthwaite(1946). Na pr·tica. ent„o ser· tambÈm necess·ria uma correÁ„o da vari‚ncia de XP2 . esta estatÌstica È adequada em an·lises secund·rias de tabelas de ∆. O ajuste de primeira ordem de Rao-Scott XP2 àδ . se forem divulgadas as estimativas de efeito de plano )amos¥ tral correspondentes. No c·lculo de XP2 àδ . Os graus de liberdade tambÈm devem ser corrigidos. esta estatÌstica funciona bem se) a ¥variaÁ„o dos autovalores estimados for pequena. A correÁ„o de primeira ordem de Rao-Scott (7.

As proporÁıes correspondentes para a populaÁ„o foram obtidas da Contagem Populacional de 96. E x e m p lo 7.3. As informaÁıes utilizadas neste exemplo s„o apresentadas na Tabela 7. e tambÈm a estatÌstica de Wald baseada no plano amostral. de 30 a 44. Vamos considerar um teste da bondade de ajuste da distribuiÁ„o das idades para a Pesquisa sobre Padrıes de Vida (PPV) 96/97. Neste exemplo.15) F X2 à P W ) ¥ A estatÌstica F XP2 àδ . enquanto que para o ajuste de primeira completa da matriz de vari‚ncia V ordem sÛ precisamos conhecer estimativas das vari‚ncias Vàp . Na Regi„o Sudeste. vamos calcular a estatÌstica de Pearson e suas correÁıes. Queremos testar a hipÛtese H0 : p = p0 usando as estimativas de proporÁıes obtidas pela amostra da PPV.3) mostram que o plano amostral n„o pode ser ignorado na an·lise. Thomas e Rao(1987) observaram que esta estatÌstica. para o ajuste de segunda ordem. pode ser necess·rio fazer uma correÁ„o F ao ajuste de primeira ordem de Rao-Scott (7. = X 2 / (J − 1) àδ . de 45 a 59 e de 60 e mais anos de idade. O vetor de proporÁıes populacionais p0 foi obtido dos resultados da Contagem Populacional de 96.1 Teste de bondade de ajuste para a distribuiÁ„o et·ria da PPV 96-97 na Regi„o Sudeste. . . para os subgrupos de 0 a 14.7.3. Calculamos a b p pela aplicaÁ„o do mÈtodo de linearizaÁ„o de Taylor descrito na matriz V . Em situaÁıes inst·veis. de 15 a 29. tem distribuiÁ„o de referÍncia F com J − 1 e f graus de liberdade. ajuste de Satterthwaite dados por glS = (J − 1) / 1 + a Observe que. È melhor que a estatÌstica sem correÁ„o de primeira ordem. que È uma pesquisa censit·ria. (7. o n˙mero de estratos È H = 15 e o n˙mero total de conglomerados (setores) na amostra da PPV È m = 276 e portanto f = m − H = 261. È necess·ria estimativa à p . A estatÌstica F-corrigida È definida por ) ) ¥ ¥ δ . em situaÁıes inst·veis. Os valores dos EPAs observados na PPV ( coluna 5 da Tabela 7. T ES T E PA R A V Á RI AS P R O P O R Ç Õ ES 115 ) ¥ XP2 àδ . a à2 È assintoticamente qui-quadrado com graus de liberdade com ° ¢ à2 .13).

177 832 8903 PPV ProporÁ„o (à p) 0. 35 43. 186 −1. 672  −19.   Para obter os diversos ajustes desta estatÌstica precisamos usar os valores dos EPAs. 41 FrequÍncia 2. 186 −4. 366  −23. 80 −8. 226 25. 2842 0. 205 −2. 2774 0. 52 −5.3. 2859 2. 680 dada por P0 /n = −7. 366 30. listados na coluna 5 da Tabela 7. 1316 0. 52 −0. 855 22. 85 −8. 9999 EPA 2. 1627 − (3. 205 12. 1261 0.3: Vetores de proporÁıes por classes de idade da PPV 96/97 e Contagem 96 e EPAs calculados para a PPV . 51  −7. 16 −29. 218 8. 35 −3. 399 −11.22) obtendo −3. 41 −11. 680 −2. 67 −3. 929 −2.   Para obter a estatÌstica de Pearson (7. 0000 SeÁ„o 3. 9903 3. 27  −3. 2678 0. vamos calcular a matriz de covari‚ncia populacional e uma estimativa dessa matriz de covari‚ncia sob 0 suposiÁ„o de distribuiÁ„o multinomial. 051 19. 025 −3. 0860 1. 29 −23. 1864 2. T EST ES D E Q U A LI D A D E D E A J UST E 116 Tabela 7. 2539 1. 55 5. 855  −8. 29 −3. 399 −8.360 2. 025 −3. 5558 5. Para obter as diferentes correÁıes da estatÌstica de Pearson. . 745 −2. 12    .018 1. Estes valores foram obtidos atravÈs do pacote SUDAAN.Regi„o Sudeste Idade 0 a 14 anos 15 a 29 anos 30 a 44 anos 45 a 59 anos 60 anos e mais Total Contagem ProporÁ„o (p0 ) 0.903 −2. 929 −3. sultando em  22. 745 −2. 38 −1. 226 −0. 5558 −19. precisamos calcular as seguintes quantidades: dà. 829 re-     .516 2.3 atravÈs da fÛrmula  52. 672 −29. 2263 0. 899  b p (b V p) = 10−6 $   −5. 223 −7. 2845 0. 2225 0. 223 −7.11). 376 . 899 48. = 5 X j=1 dàj /5 = 2. 218 diag( p 0 )−p 0 p 0 .C A PÍ T U L O 7. 0935 0. 051 P0 /n = 10−6 $    −4. 8.

resulta em ) ¥ δ . e um pvalor 0. A estatÌstica de Wald baseada no plano amostral (veja equaÁ„o 7.l. dado por (7. 4p0j j=1 5 ) 5 X ¥ ° X ¢ 2 à pj . 376 = 4.11). dada por (7. e um pvalor 0. 19 g.15). resultando em ) ¥ XP2 dà. 298 .7. 253 = 3. e um pvalor 0. O ajustamento de Rao-Scott de primeira ordem F-corrigido para a estatÌstica de Pearson. 85 com 4 e 261 g. 223 . 020 . 457 . 315 .14).12). 457 = 4. A estatÌstica de Pearson com ajustamento de EPA mÈdio È calculada usando (7. e pvalor 0.3. 64/2. T ES T E PA R A V Á RI AS P R O P O R Ç Õ ES 117 5 X pàj àδ. O ajustamento de Rao-Scott de segunda ordem para a estatÌstica de Pearson. 74/4 = 1. resulta em ) ¥ à2 = 4.l. 4572 = 1. = (1 − pà0j ) dàj = 2.l. a XP2 à com 4/1. . e um pvalor 0. = 11. 74/1.8) resulta em 2 = 5.l e um pvalor 0. = 11. 901 com 4 g. . 691 XW com 4 g. 253 .l. A estatÌstica de Pearson com ajustamento de Rao-Scott de primeira ordem. 64/2. resulta em ) ¥ F XP2 àδ . 64 com 4 g. 74 XP2 à com 4 g. 784 δ. 253 = 3. = 4. 318 .13). resultando em XP2 = 11. 314 . 1+a à = 8903 Vp (à 2 2 j =1 k=1 Podemos ent„o calcular a estatÌstica XP2 de Pearson usando (7. pàk ) /p0j p0k / 4 $ 2.l. dado por (7.

p F2. 406 261 $ 4 com 4 e 259 g. 228 Tipo Adequada para IID Baseadas no plano amostral F4. 740 χ24 0. 406 1. 640 χ24 0.C A PÍ T U L O 7. 690661 = 1. diferentemente de todos os outros testes. 850 F4. 223 0. . a correÁ„o F tem pouco efeito. como o n˙mero de graus de liberdade (dado pelo n˙mero de unidades prim·rias na amostra menos o n˙mero de estratos) f = m−H = 261 È grande.19 0. 423 χ24 0. Nesse exemplo. ) ¥ XP2 àδ . resultam em 261 − 5 + 2 $ 5. 691 1.4: Valores e pvalores de estatÌsticas alternativas de teste EstatÌstica XP2 ) ¥ XP2 dà.p = 5. que tÍm valores quase iguais. 232 . a à2 2 XW F1. 232 0. Os valores das estatÌsticas com ajustes de Rao-Scott (com ou sem correÁ„o F) s„o semelhantes e parecem corrigir exagerademente o pvalor dos testes. produzem uma correÁ„o menor no pvalor do teste. e F1. A Tabela 7. ) ¥ XP2 àδ .4 resume os valores das diversas estatÌsticas de teste calculadas. A estatÌstica de Wald baseada no plano amostral e suas correÁıes F. T EST ES D E Q U A LI D A D E D E A J UST E 118 Tabela 7. 784 χ23.p = F2.261 0.9) e (7. Examinando os resultados da Tabela 7. 901 χ24 0. 691/4 = 1.261 As estatÌsticas F-corrigidas de Wald.p Valor DistribuiÁ„o pvalor 11. e um pvalor 0. definidas em (7. . como na estatÌstica Wald.259 F4.4. 314 5.10). ) ¥ F XP2 àδ .l. 423 com 4 e 261 gl e um pvalor 0. tanto nas estatÌsticas com ajustes de primeira e segunda ordem de Rao-Scott. 315 EstatÌstica 1. verificamos que o teste cl·ssico de Pearson rejeita a hipÛtese nula H0 no nÌvel α = 5%. 020 Ajustes e 4. bem como das informaÁıes comparativas com as respectivas distribuiÁıes de referÍncia. 228 . 298 correÁıes da 4. 318 XP2 3.

esta propriedade assintÛtica padr„o n„o È v·lida. o segundo se refere ‡ distribuiÁ„o conjunta das duas vari·veis categÛricas que definem as celas da tabela.1 I n t ro d ução Os principais testes em tabelas de duas entradas s„o os de homogeneidade e de independÍncia. Enquanto o primeiro teste se refere ‡s distribuiÁıes condicionais da vari·vel resposta para nÌveis fixados da vari·vel preditora. Apesar de conceitualmente distintas. AlÈm disso. utilizando a mesma estatÌstica de teste multinomial de Pearson. as duas hipÛteses podem ser testadas. O teste de homogeneidade È apropriado para estudar a igualdade das distribuiÁıes condicionais de uma vari·vel resposta categÛrica correspondentes a diferentes nÌveis de uma vari·vel preditora tambÈm categÛrica.C a pí t u lo 8 Test es e m Ta b elas de D u as en t r a d as 8. Nos testes de homogeneidade e de independÍncia para tabelas de frequÍncias L $ C obtidas por amostragem aleatÛria simples. testes definidos em tabelas de frequÍncias obtidas mediante amostragem por conglomerados s„o mais liberais (rejeitam mais) relativamente aos nÌveis nominais de signific‚ncia. para planos amostrais complexos. O teste de independÍncia È adequado para estudar a associaÁ„o entre duas vari·veis categÛricas. Por exemplo. no caso de amostragem aleatÛria simples. 119 . isto È χ2 ((L − 1)(C − 1)). as estatÌsticas de teste das duas hipÛteses devem ser corrigidas de formas diferentes. Para pesquisas com planos amostrais complexos. a estatÌstica de teste de Pearson tem distribuiÁ„o assintÛtica qui-quadrado com (L − 1)(C − 1) graus de liberdade. devido ‡ correlaÁ„o intraclasse positiva das vari·veis usadas para definir a tabela.

isto È. por exemplo). representada pela Tabela 8. N È o tamanho da populaÁ„o e P P p = 1. as proporÁıes marginais na tabela lc l c P P por pl + = c plc e p + c = l plc . onde Nlc È o n˙mero de observaÁıes na cela (l.120 C A PÍ T U L O 8. Vamos denotar.1: Tabela 2x2 de proporÁıes Var 1 1 2 Total 1 p11 p21 p+1 Var 2 2 Total p12 p1 + p22 p2 + p+2 1 Neste capÌtulo. de maneira a incorporar os efeitos de plano amostral na an·lise. 2 . T ES T ES E M T A B E L AS D E D U AS E N T R A D AS Tabela 8. vamos considerar inicialmente uma tabela de contingÍncia 2 $ 2. 8. no caso de amostragem aleatÛria simples.1 Test e de I n de p en d ência A hipÛtese de independÍncia corresponde a H0 : plc = pl + p + c ∀l. 8. apresentamos versıes modificadas de procedimentos cl·ssicos de testes para dados categÛricos. est„o disponÌveis em pacotes especializados como o SUDAAN (procedimento CATAN.2 Ta b elas 2 x 2 Para fixar idÈias.2. baseados em ajustes de modelos regressivos. A entrada plc na Tabela 8. c = 1. A estatÌstica de teste de Pearson para testar esta hipÛtese. c) na populaÁ„o. e procedimento LOGISTIC. para regress„o com respostas individuais bin·rias. ainda.1. com L = 2 e C = 2. ou seja plc = NNlc . porÈm n„o ser„o aqui considerados. È dada por XP2 (I) = n 2 X 2 X (à plc − pàl + pà + c )2 l=1 c=1 pàl + pà + c .1 representa a proporÁ„o populacional de unidades no nÌvel l da vari·vel 1 e c da vari·vel 2. para dados tabelados. Procedimentos mais recentes.

uma das vari·veis. c) da tabela. pà + c l=1 c=1 P onde nl + = c nlc para l = 1. Considerando ainda uma tabela 2 $ 2. seus valores numÈricos s„o iguais. 2 e c = 1. e no caso do teste de homogeneidade. No teste de homogeneidade.2. Embora as expressıes de XP2 (I) e XP2 (H) sejam distintas. Esta estatÌstica mede a dist‚ncia entre valores observados e esperados sob a hipÛtese nula de homogeneidade e tem.2 Test e de H o m ogenei d a d e No caso do teste de independÍncia. 2. Para o teste de homogeneidade. Observe que esta estatÌstica mede uma dist‚ncia (em certa escala) entre os valores observados na amostra e os valores esperados (estimados) sob a hipÛtese nula de independÍncia.8. a estatÌstica XP2 (I) tem distribuiÁ„o de referÍncia qui-quadrado com um grau de liberdade. onde agora plc representa a proporÁ„o na linha l de unidades na coluna c. nlc È o n˙mero de observaÁıes P da amostra na P cela (l. Com as restriÁıes usuais de que as proporÁıes nas linhas somam 1. tambÈm. Vamos agora analisar a distribuiÁ„o da vari·vel 2 (coluna) para cada nÌvel da vari·vel 1 (linha). p21 . p22 ) . È considerada a resposta enquanto a vari·vel 1 È considerada explicativa. isto È. T A B E L AS 2X2 121 onde pàlc = nlc /n . No caso de independÍncia. queremos testar a hipÛtese H0 : p1c = p2c c = 1. observe que os testes de independÍncia e de homogeneidade s„o definidos sobre o vetor de proporÁıes de distribuiÁıes multinomiais. 2 . 2 e pblc = nlc /nl + para l = 1.3 E fei t os d e P la no A m ost r al n as C elas Para relacionar os testes tratados neste capÌtulo com o teste de qualidade de ajuste apresentado no capÌtulo anterior. 8. temos uma distribuiÁ„o multinomial com vetor de probabilidades (p11 . 8. distribuiÁ„o de referÍncia qui-quadrado com um grau de liberdade. a hipÛtese nula considerada se reduz a p11 = p21 e novamente temos apenas um grau de liberdade. p11 + p12 = p21 + p22 = 1. temos duas multinomiais (no caso binomiais) com .2. a vari·vel 2. p12 . as duas vari·veis envolvidas s„o consideradas como respostas. por exemplo. n È o tamanho total da amostra.2. usamos a seguinte estatÌstica de teste de Pearson: 2 X 2 X nl + (b plc − pà + c )2 XP2 (H) = . pàl + = c pblc e pà + c = l pàlc . Sob a hipÛtese nula.

122 C A PÍ T U L O 8. estatÌsticas de teste XP2 (I) e XP2 (H) a partir dos n à que correspondem aos Nlc padronizados para totalizar n. no caso da estatÌstica XP2 (I). os estimadores das proporÁıes à lc /n no caso do teste de independÍncia e por nas celas dados por pàlc = n pàlc = n à lc /nl + no caso do teste de homogeneidade. È importante observar que os efeitos de plano amostral e as correÁıes a serem considerados s„o distintos para as duas estatÌsticas XP2 (I) e XP2 (H). Estas hipÛteses sÛ s„o v·lidas no caso de amostragem aleatÛria simples com reposiÁ„o. os resultados assintÛticos obtidos para amostragem aleatÛria simples com reposiÁ„o (IID) deixar„o de ser v·lidos. àlc /N à $ n o valor padronizado de N populaÁ„o. se baseia no EPA mÈdio das estimativas das à lc /n. e designemos por n à lc = N de modo que L P C P l=1 c=1 n à lc = n. surgem efeitos de conglomeraÁ„o e estratificaÁ„o que devem ser considerados no c·lculo das estatÌsticas de teste. Sejam. È importante observar que as agÍncias produtoras de dados estatÌsticos geralmente apresentam os resultados de suas pesquisas àlc . com a estimativa do tamanho da populaÁ„o N à valores dos N no lugar de n. p12 ) e (p21 . Quando os dados s„o gerados atravÈs de um plano amostral complexo. O processo de contagem que gera estas multinomias pressupıe que as observaÁıes individuais (indicadores de classe) s„o independentes e com mesma distribuiÁ„o. c) na Denotemos por N ) ¥ àlc . As estatÌsticas XP2 (I) e 2 XP (H) calculadas com as estimativas n à lc no lugar dos valores nlc n„o tÍm. T ES T ES E M T A B E L AS D E D U AS E N T R A D AS vetores de probabilidades (p11 . as estatÌsticas corrigidas pelo EPA mÈdio . p22 ). Para ilustrar esse ponto vamos considerar o ajuste de EPA mÈdio. Este ajuste. agora. levando em conta os pesos dos elementos da amostra bem como o plano amostral efetivamente utilizado. Os valores das estatÌsticas XP2 (I) e XP2 (H) s„o iguais no caso IID. como ilustrado no Exemplo 5. Mas. As estatÌsticas baseadas nos valores estimados n à lc podem ser corrigidas para ter distribuiÁ„o de referÍncia qui-quadrado com um grau de liberdade.2 do em tabelas contendo as estimativas N CapÌtulo 5. Neste caso. àlc o estimador do n˙mero de observaÁıes na cela (l. as frequÍncias nas celas da tabela s„o estimadas. que ser· apresentado na prÛxima seÁ„o para o caso de tabelas L$C . no caso de tabela 2 $ 2. Se calcularmos as estatÌsticas XP2 (I) e XP2 (H) a partir dos àlc fornecidos. mas para planos amostrais complexos. Por outro lado. enquanto que para a estatÌstica XP2 (H) proporÁıes nas celas pàlc = n ele se baseia no EPA mÈdio das estimativas das proporÁıes nas linhas pàlc = n à lc /nl + . distribuiÁ„o assintÛtica qui-quadrado com um grau de liberdade. como antes. Devemos calcular as à lc anteriormente definidos.

de modo que as somas da proporÁıes nas linhas na tabela de proporÁıes s„o iguais a 1. . l . .quadrado com um grau de liberdade. 2. . Seja pl = (pl1 . . .2: ProporÁıes de linhas em tabela L $ C Regi„o 1 2 . .. . .. . Adiante apresentaremos um exemplo numÈrico para ilustrar este ponto... . plc = Nlc /Nl + para todo l = 1. .. Vamos considerar o caso em que L = 2 regiıes devem ser comparadas.. . . plC .8... . . C p1C p2C . .2 Note que aqui as proporÁıes que aparecem nas linhas da tabela s„o proporÁıes calculadas em relaÁ„o ‡ freq¸Íncia total da linha. . . pLc .... . . a partir de amostras independentes obtidas atravÈs de um plano amostral com v·rios est·gios.. 1 p11 p21 . apesar de terem.. 2 p12 p22 . . . pl1 .. Portanto.3. A tabela para a populaÁ„o È da forma da Tabela 8... L pL1 pL2 .... .. T A B E L AS D E D U AS E N T R A D AS ( C ASO G E R A L) 123 Tabela 8. .. L e c = 1. pl1 .. pLC 1 s„o distintas. .. 8. a mesma distribuiÁ„o de referÍncia qui. para tabelas 2 $ 2. C.. . . pl C−1 )0 o vetor de proporÁıes da l-Èsima regi„o. plc . c p1c p2c . l = 1. 1 .3 8. Vamos considerar uma tabela L $ C e supor que as colunas da tabela correspondem ‡s classes da vari·vel resposta e as linhas correspondem ‡s regiıes. sem incluir a proporÁ„o referente ‡ ˙ltima categoria (plC ).. . e n„o proporÁıes calculadas em relaÁ„o ao total da tabela como na seÁ„o anterior... A hipÛtese de igualdade das distribuiÁıes da resposta nas duas regiıes pode ser expressa . Total 1 1 . . . . .1 Ta b elas de D u as E n t r a d as ( C aso G e r al) Test e de H o m ogenei d a d e O teste de homogeneidade pode ser usado para comparar distribuiÁıes de uma vari·vel categÛrica (C categorias) para um conjunto de L regiıes n„o superpostas. .3... ... .. .

T ES T ES E M T A B E L AS D E D U AS E N T R A D AS como H0 : p1 = p2 . . 2 (H) tem distribuiÁ„o assintÛtica quiNo caso. a estatÌstica de Wald XW quadrado com (2 − 1) $ (C − 1) graus de liberdade. Estes estimadores levam em consideraÁ„o de modo que c = 1 Nlc = N as probabilidades desiguais de inclus„o na amostra e os ajustes por n„oresposta. onde pàlc = N blc e N bl + s„o estimadores ponderados das na populaÁ„o correspondente. Tal comparaÁ„o fez parte do processo de avaliaÁ„o da qualidade dos resultados da PPV. e N frequÍncias nas e nas marginais de linha da tabela. alternativamente.p = f − (C − 1) + 1 2 XW (H) . respectivamente. A estatÌstica ri‚ncia de aleatorizaÁ„o dos vetores p 2 de Wald baseada no plano amostral XW (H) para efetuar o teste de homogeneidade no caso de duas regiıes (L = 2) È dada por i−1 h 0 2 à p (b à p (b à2 ) V à2) . Designemos por total de graus de liberdade disponÌh f = m−H o n˙mero i à à p1 ) + Vp (b p2 ) .(1997) descrevem uma aplicaÁ„o da esta2 (H) para testar a hipÛtese de igualdade das pir‚mides et·rias tÌstica XW estimadas pela Pesquisa de Padrıes de Vida 96/97 (PPV) e da Pesquisa Nacional por Amostra de DomicÌlios 95 para as regiıes Sudeste e Nordeste. 2). 2 (H) s„o dadas por As correÁıes F da estatÌstica XW F1. . . Pcelas C b bl + . Quando o n˙mero de unidades prim·rias de amostragem na amostra de cada regi„o È grande. . à p (b à p (b p1 ) e V p2 ) estimadores consistentes das matrizes de vaSejam V b1 e p b 2 . . baseados em amostras independentes para as diferentes blc /N bl + È um estimador consistente da proporÁ„o plc regiıes. uma estatÌstica Fcorrigida de Wald. onde m e H s„o os n˙meros totais de vel para estimar Vp (b conglomerados e de estratos nas amostras das duas regiıes. despl1 . os pàlc s„o estimadores de raz„o.1) pois as amostras s„o disjuntas e supostas independentes. f (C − 1) (8. Seja p0 = (p + 1 . respectivamente. com C − 1 componentes em cada vetor. ocorre problema de instabilidade e usamos. . pàl C−1 )0 os vetores de proporÁıes conhecido. Observe que. pois em cada regi„o a soma das proporÁıes È 1.2) . p + C−1 )0 o vetor comum de proporÁıes sob H0 .124 C A PÍ T U L O 8. . a estatÌstica de Wald funciona adequadamente. Freitas et al. se os tamanhos das amostras dos subgrupos regionais n„o forem fixados. XW (H) = (à p1 − p p1 ) + V p2 ) (à p1 − p (8. Denotemos por p àl = (à estimadas (l = 1. Caso contr·rio. respectivamente.

Observe que (8.p podem amenizar o efeito de instabilidade. .8.p = XW (H) / (C − 1) (8. Para introduzir em XP2 (H) o ajuste de EPA mÈdio e o ajuste de RaoScott de primeira ordem.3.3) que tem distribuiÁ„o de referÍncia F com (C − 1) e f graus de liberdade. dà% = XP2 (H) /dà% . No caso de L = 2 regiıes. . 2 e c = 1. P/b à n2 + na segunda.1) tÍm a mesma meira regi„o e P/b forma. a estatÌstica de teste de homogeneidade de Pearson È dada por ) ¥−1 0 à n1 + + P/b à n2 + à 2 ) P/b à2 ) . à n1 + È o estimador da matriz de covari‚ncia de p à 0 na priNeste caso. depende da matriz de efeito multivariado do plano amostral. È preciso calcular estimativas de efeitos de plano amostral das estimativas das proporÁıes nas linhas em ambas as regiıes. apropriadas para a amostragem aleatÛria simples. . As estimativas de efeitos de plano amostral na regi„o l s„o da forma bl + Vàlc / (à p + c (1 − pà + c )) . T A B E L AS D E D U AS E N T R A D AS ( C ASO G E R A L) 125 que tem distribuiÁ„o de referÍncia F com (C − 1) e (f − (C − 1) + 1) graus de liberdade e. ∆= n b1 + + n b2 + A estatÌstica de Pearson com ajuste de EPA mÈdio È dada por ) ¥ XP2 H. por sua vez. ainda. diferindo sÛ no estimador da matriz de covari‚ncia usado para definir a mÈtrica de dist‚ncia. o estimador da matriz de covari‚ncia baseia-se nas hipÛteses relativas ‡ distribuiÁ„o multinomial. No caso da estatÌstica XP2 (H). As estatÌsticas F1. p1 − p (à p1 − p (8.4) e (8.5) (8. dàlc = n à p (b pl ) . O ajuste de segunda ordem de Rao-Scott.7) . onde Vàlc È o c-Èsimo elemento da diagonal de V A matriz estimada de efeito multivariado de plano amostral È ¥ b 2 + à −1 ) à n b1 + $ n à à Vp (b P p1 ) + Vp (b p2 ) . 2 F2. A distribuiÁ„o de referÍncia da estatÌstica XP2 (H) È qui-quadrado com (C − 1) graus de liberdade. quando f n„o È grande relativamente ao n˙mero de classes (C) da vari·vel resposta.6) (8.4) XP2 (H) = (à 0 à = diag (à p0 )−à onde P p0 p à0 e p à 0 È o estimador do vetor comum de proporÁıes sob a hipÛtese de homogeneidade.p e F2. . C. l = 1. (8.

È dado por ) ¥ XP2 H. = ) ¥ à tr ∆ (C − 1) = . àδ . dado por a à2 = C X c=1 ) ¥ àδ 2 / (C − 1) àδ 2 − 1 . Tal correÁ„o È apropriada quando houver pouca variaÁ„o das estimativas dos autovalores àδc . desconhecida. que para a estatÌstica de Pearson È dado por ) ¥ ) ¥ ° ¢ à2 = XP2 H. de efeito multivariado do plano amostral. / 1 + a à2 XP2 H. Como a soma dos autovalores de à esta correÁ„o pode ser obtida sem ser necess·rio à È igual ao traÁo de ∆. onde a soma dos quadrados dos autovalores pode ser obtida a partir do traÁo à2 de ∆ C ) ¥ X àδ 2 = tr ∆ à2 . c c=1 A ) estatÌstica ¥ de Pearson com a correÁ„o de segunda ordem de Rao-Scott 2 à à tem distribuiÁ„o de referÍncia qui-quadrado com graus de H. . c . δ .9) onde a à2 È o quadrado do coeficiente de variaÁ„o dos quadrados das estimativas dos autovalores àδ c . . a (8. dà% como de XP2 H.8) onde à δ. ) ¥ ) ¥ As distribuiÁıes de referÍncia. pode ser introduzido o ajuste de segunda ordem de RaoScott. = XP2 (H) /àδ.126 C A PÍ T U L O 8. (8. ∆ calcular os autovalores. àδ . Quando isto n„o ocorrer. Estes ajustes corrigem a estatÌstica XP2 (H) de modo a obter estatÌsticas com valor esperado igual ao da distribuiÁ„o qui-quadrado de referÍncia. àδ . . à o ajuste de primeira ordem de Rao-Scott Usando os autovalores àδ c de ∆. s„o qui-quadrado com (C − 1) graus de liberdade. T ES T ES E M T A B E L AS D E D U AS E N T R A D AS 2 P C P dàlc /2C È a mÈdia das estimativas dos efeitos univariados onde dà% = l=1 c=1 de plano amostral. àδ. liberdade com ajuste de Satterhwaite glS = (C − 1) / 1 + a XP2 . tanto de XP2 H. a ° ¢ à2 . .X 2 µ C n bl + pàlc 1 X 1− (1 − pàlc ) dàlc n b1 + + n C −1 b 2 + c = 1 pà + c l=1 È um estimador da mÈdia Øδ dos autovalores δ c da matriz ∆.

. p2c . pl + .. . C − 1 . C p1C p2C .8. plC . l = 1. . T A B E L AS D E D U AS E N T R A D AS ( C ASO G E R A L) 127 Tabela 8. onde agora novamente se tem plc = Nlc /N. . ... . Vari·vel 2 c .. . . . . . usando contrastes de proporÁıes: H0 : flc = plc − pl + p + c = 0. .. . / (C − 1) . . C − 1 . ... Ela È dada.. . fL−1 1 . . Consideremos o vetor f com (L − 1) (C − 1) componentes formado pelos contrastes flc arranjados em ordem de linhas: f = (f11 . . 2 p12 p22 ... . l . L − 1. = XP2 H. fL−1 C−1 )0 . c = 1. pl1 . . . . pl1 . . Vamos escrever a hipÛtese de independÍncia numa forma alternativa mas equivalente. pode-se usar a estatÌstica F-corrigida de Pearson. p1c . e tem distribuiÁ„o de referÍncia F com (C − 1) e f graus de liberdade. . . . . onde os dados s„o extraÌdos de uma ˙nica populaÁ„o.3. . plc .. . . . . . . pLc p+c .3 com as proporÁıes nas celas a nÌvel da populaÁ„o. àδ . no caso de duas regiıes. Total p1 + p2 + . f1 C−1 .2 Test e de I n dep en dênci a Vamos considerar o teste de independÍncia no caso geral de tabela L $ C... .. . . Estamos interessados em testar a hipÛtese de independÍncia H0 : plc = pl + p + c . . por ) ¥ ) ¥ F XP2 H. . L Total pL1 p+1 pL2 p+2 .3: ProporÁıes por cela na populaÁ„o Vari·vel 1 1 2 .. pLC p+C pL + 1 à p (b à p (b p1 ) e V p2 ) das matrizes de covari‚ncias Quando as estimativas V regionais s„o baseadas em n˙meros relativamente pequenos de unidades prim·rias de amostragem selecionadas. .. . . . sem fixar marginais. . 1 p11 p21 . c = 1. . Consideremos a Tabela 8. p + c = l = 1 plc e c=1 l = 1 plc = 1. ..3. . . . àδ .. .. . . . . . .. L − 1.. . .. . ... 8.. PC PL P PL onde pl + = C c = 1 plc .. l = 1.. . .

. .10) que È assintoticamente χ2 ((L − 1) (C − 1)). . (8.8). . . . o vetor independÍncia. ∂g/∂p1 C−1 .3. considerando as diferentes probabilidades de inclus„o e ajustes por onde os pesos amostrais s„o normalizados de modo que PL PC n„o-resposta. .p = f − (L − 1) (C − 1) − 1 2 XW (I) . . (8. tem a forma da express„o (7. no caso de se ter o n˙mero m de unidades prim·rias pequeno. Os n à lc s„o as frequÍncias ponderadas fàlc = pàlc − pàl + pà + c . . fàL−1 1 . . a estatÌstica de teste de independÍncia de Wald È dada por 2 à −1à XW (I) = à f 0V f f . . Apenas (L − 1) (C − 1) componentes s„o incluÌdos no vetores f e à f . . . . . pL−1 1 . considerando o vetor de contrastes f como uma funÁ„o (n„o-linear) do vetor p.3. . p1 C−1 . . os pàlc ser„o estimadores c=1 l = 1 lc de razıes. isto È. . Assim. . f = g (p) = g (p11 .128 C A PÍ T U L O 8.11) onde ∆g (p) È a matriz jacobiana de dimens„o (L − 1) (C − 1) $ (L − 1) (C − 1) dada por ∆g (p) = [∂g/∂p11 . … possÌvel ainda introduzir. utilizando as propostas alternativas de estatÌsticas F-corrigidas. .10. . O vetor de estimativa consistente ¥0 ) f = fà11 . Se n n„o for fixado de antem„o.9 e 7. 8. . como em 7. onde de f È denotado por à à lc /n. . com (L − 1) (C − 1) no lugar de J − 1. . . . correÁ„o na estatÌstica de Wald. obtendo-se F1. onde pàlc = n nas celas. . à f da matriz de covari‚ncia de à f pode ser obtida pelo A estimativa V mÈtodo de linearizaÁ„o de Taylor apresentado na SeÁ„o 3. . . a matriz de f pode ser estimada por covari‚ncia de à 0 à f = ∆g (à à p−1 ∆g (à V p) V p) . ∂g/∂pL−1 1 . pL−1 C−1 ). . . ∂g/∂pL−1 C−1 ] à p È uma estimativa consistente da matriz de covari‚ncia de p eV à. T ES T ES E M T A B E L AS D E D U AS E N T R A D AS Um teste da hipÛtese de independÍncia pode ser definido em termos da dist‚ncia entre uma estimativa consistente do vetor de contrastes f e o vetor nulo com mesmo n˙mero de componentes. fàL−1 C−1 . com à à f da 0(L−1)(C−1) no lugar de p0 e a estimativa baseada no plano amostral V à à matriz de covari‚ncia de f no lugar de Vp .3 E st a t íst ica de W al d B asea d a no P la no A most r al 2 (I). Assim. . para o teste de A estatÌstica de Wald baseada no plano amostral XW f no lugar de p à. . n à = n. . . fà1 C−1 . f (L − 1) (C − 1) . pois a soma das proporÁıes nas celas da tabela È igual a 1. .

dàlc . podemos introduzir correÁıes simples na estatÌstica de Pearson em (8. vamos considerar ajustes baseados nos efeitos univariados de plano amostral estimados.12) para obter estatÌsticas de teste com distribuiÁıes assintÛticas conhecidas.10). e diag (à p0 ) representa a matriz diagonal com elementos pàl + pà + c na diagonal. A estatÌstica de teste de independÍncia XP2 (I) de Pearson para a tabela L $ C È dada por XP2 (I) = n L X C X (à plc − pàl + pà + c )2 l=1 c=1 pàl + pà + c . T A B E L AS D E D U AS E N T R A D AS ( C ASO G E R A L) 129 que tem distribuiÁ„o assintÛtica F com (L − 1) (C − 1) e f −(L − 1) (C − 1)− 1 graus de liberdade e F2. das estimativas das proporÁıes nas celas .3. 8. (8.p = 2 (I) XW .8. f0 P b 0f = ∆g (à à 0 ∆g (à P p) P p)0 . a diferenÁa sendo a estimativa da f usada em cada uma dessas estatÌsticas. matriz de covari‚ncia de à Como nos testes de qualidade de ajuste e de homogeneidade no caso de plano amostral complexo. Esta estatÌstica pode ser escrita em forma matricial como onde b 0f à XP2 (I) = n à f.3. as estatÌsticas cl·ssicas de teste precisam ser ajustadas para terem a mesma distribuiÁ„o assintÛtica de referÍncia que a obtida para o caso de amostragem aleatÛria simples.12) (8. b 0 /n estima a matriz (L − 1) (C − 1) $ (L − 1) (C − 1) de covari‚ncia mulP tinomial de p à sob a hipÛtese nula. Observemos que a forma de XP2 (I) como expressa em (8. Inicialmente. p à 0 È o vetor com componentes pàl + pà + c .12) È semelhante ‡ da estatÌstica de Wald dada em (8.13) 0 à 0 = diag (à P p0 ) − p à0 p à0 . (L − 1) (C − 1) que tem distribuiÁ„o assintÛtica F com (L − 1) (C − 1) e f graus de liberdade.4 E st a t íst ica de P ea rson co m A j ust e d e R ao-Sco t t Na presenÁa de efeitos de plano amostral importantes.

T ES T ES E M T A B E L AS D E D U AS E N T R A D AS pàlc . . A seguir vamos apresentar as correÁıes de primeira e de segunda ordem de Rao-Scott para a estatÌstica XP2 (I) de Pearson para o teste de independÍncia. = C c=1 l = 1 dlc / (LC) È um estimador da mÈdia dos efeitos univariados de plano amostral desconhecidos. usando os efeitos univariados nas celas e nas marginais da tabela. = XP2 (I) /dà.15) onde àδ. Estas correÁıes baseiam-se nos autovalores da matriz estimada de efeito multivariado de plano amostral. È um estimador da mÈdia Øδ dos autovalores desconhecidos da matriz ∆ de efeitos multivariados de plano amostral. Este ajustamento requer que estejam disponÌveis as estimativas dos efeitos de plano amostral dos estimadores das proporÁıes nas L $ C celas da tabela. plc ) / Estimamos os efeitos do plano amostral por dàlc = Vàp (à à plc ) È a estimativa da vari‚ncia de aleatorizaÁ„o (à plc (1 − pàlc ) /n). 1 + a . = L P C p P àlc (1 − pàlc ) à 1 dlc (L − 1) (C − 1) l = 1 c = 1 pàl + pà + c L C P P − (1 − pàl + ) dàl + − (1 − pà + c ) dà+ c . . (8. O ajuste de Rao-Scott de segunda ordem È definido por ) ° ) ¥ ¢¥ XP2 I. àδ . dos efeitos univariados de plano amostral: ) ¥ XP2 I. l=1 c=1 sem precisar calcular a matriz de efeitos ) ¥multivariados de plano amostral. . à =nP à −1 V ∆ 0f (8. àδ .13). onde V O ajuste de Rao-Scott de primeira ordem para XP2 (I) È dado por ) ¥ XP2 I. A 2 à distribuiÁ„o assintÛtica de XP I. È qui-quadrado com (L − 1) (C − 1) graus de liberdade. dà. P PL à onde dà. = XP2 (I) /àδ . Podemos estimar a mÈdia dos efeitos generalizados. onde Vp (à do estimador de proporÁ„o pàlc . por àδ . . O ajuste mais simples È feito dividindo-se o valor da estatÌstica XP2 de Pearson pela mÈdia dà. dada por àf. .11) e P à 0f definido em (8.130 C A PÍ T U L O 8. δ .14) à f foi definido em (8. a à2 à2 = XP2 (I) / àδ . sob H0 .

vamos testar a hipÛtese de independÍncia entre as vari·veis Sexo (sx) e Rendimento mÈdio mensal (re). E x e m p lo 8. = (L − 1) (C − 1) ea à2 È um estimador do quadrado do coeficiente de variaÁ„o dos autovalores desconhecidos de ∆. A Tabela 8.4 apresenta as frequÍncias nas celas para a amostra pesquisada. .mais de 5 sal·rios mÌnimos. de liberdade com ajuste de Satterthwaite glS = (L − 1) (C − 1) / 1 + a Em situaÁıes inst·veis. . dado por (L−1)(C−1) 2 a à = X k=1 ) ¥ àδ 2 / (L − 1) (C − 1) àδ 2 − 1 . sx(2). ) ¥ à tr ∆ àδ . k ) ¥ à2 È assintoticamente qui-quadrado com graus A estatÌstica XP2 I. . k = 1. a ° ¢ à2 . Vamos fazer tambÈm um teste de homogeneidade. . / (L − 1) (C − 1) . para comparar as distribuiÁıes de renda para os dois sexos.Mulheres e a vari·vel re tem trÍs nÌveis: re(1). Considerando os dados do Exemplo 6. re(2) . k . È um estimador da mÈdia dos autovalores de ∆. (L − 1) (C − 1). A vari·vel sx tem dois nÌveis: sx(1)-Homens.15). = XP2 àδ .1 CorreÁıes de EPA mÈdio das estatÌsticas XP2 (I) e XP2 (H).8.16) tem distribuiÁ„o de referÍncia F com (L − 1) (C − 1) e f graus de liberdade. pode ser necess·rio fazer uma correÁ„o F ao ajuste de primeira ordem de Rao-Scott (8. . àδ .de 1 a 5 sal·rio mÌnimos e re(3). Um estimador da soma dos quadrados dos autovalores È (L−1)(C−1) X k=1 ) ¥ àδ 2 = tr ∆ à2 . A estatÌstica F-corrigida È definida por ) ¥ ) ¥ δ . (8.Menos de sal·rio mÌnimo. .3. T A B E L AS D E D U AS E N T R A D AS ( C ASO G E R A L) 131 à dado por onde àδ .1 do CapÌtulo 6. δ k .16) F XP2 à A estatÌstica (8.

695 To t a l 4. em cada cela. 584 0.231 6. desvios padrıes e EPAs Se x o 1 2 Amostra completa 1 0. 909 0.797 1. 213 1. calculamos as estimativas das proporÁıes nas linhas da tabela.000).1 do CapÌtulo 6.132 C A PÍ T U L O 8. consideramos fixadas as marginais 4. 297 1. 410 1.273 539 1. T ES T ES E M T A B E L AS D E D U AS E N T R A D AS Tabela 8.527 1.276 2. uma das celas de tabela de efei- . 800 3. a tÌtulo de ilustraÁ„o. 1300 1. 977 2. 591 0. 269 1. 800 0.276 e 2. 026 1. 117 To t al 1.015 3. 261 82. 861 2. 570 0.270 422 1.507 Tabela 8. Usando o programa Stata.4: Freq¸Íncias amostrais por celas na PNAD 90 Se x o 1 2 To t a l R e n d a M e nsal 1 2 3 476 2. conforme descrito no Exemplo 6. Vamos calcular. 527 0.5 contÈm. 576 111.231 da vari·vel Sexo na tabela de freq¸Íncias amostrais. 00 1. 298 102. 240 125. 00 1. Vamos considerar o teste de homogeneidade entre as vari·veis Sexo e Renda e calcular o efeito de plano amostral mÈdio das estimativas das proporÁıes nas celas da tabela. 111 57.5: ProporÁıes nas linhas. Nestas estimativas s„o considerados os pesos das unidades da amostra e o plano amostral utilizado na pesquisa (PNAD 90). as estimativas: da proporÁ„o na cela. 001 96. A Tabela 8. e do efeito de plano amostral da estimativa de proporÁ„o na cela. 190 119. 358 R e n d a M ensal 2 3 0. 155 68. 375 111. do desvio-padr„o da estimativa da proporÁ„o na cela ($10. 00 No teste de homogeneidade das distribuiÁıes de renda. 420 0.

a tÌtulo de ilustraÁ„o. 814 0. 772 1. 582 40. 0057269)2 . A Tabela 8. 155 68. Vamos agora considerar o teste de independÍncia entre as vari·veis Sexo e Renda e calcular o efeito de plano amostral mÈdio das estimativas das proporÁıes nas celas da tabela. 657 55. 401 1. 729 0. 358 R e n d a M e nsal 2 3 0. 977 2. A estimativa do efeito de plano amostral do estimador de proporÁ„o na cela È portanto igual a (0. 899 0.1) da Tabela 8. e do efeito de plano amostral da estimativa de proporÁ„o na cela. Sob amostragem aleatÛria simples com reposiÁ„o. 082 44. o efeito de plano amostral na cela (1. do desvio-padr„o da estimativa da proporÁ„o na cela ($10. 261 82. 073 38. 130 1. 414 0. 899 1. A estimativa da vari‚ncia do estimador da proporÁ„o de linha nesta cela È (0. 111) /4. 001 96. 584 0. 772 2. 111) /4. em cada cela. 0057269)2 ∼ = 1.6 contÈm. 802. digamos a cela (1. = 1. 128 0.000). 343 55. 0.276 A estimativa do efeito mÈdio de plano amostral para corrigir a estatÌstica XP2 (H) È dà. 000 tos de plano amostral. 0038343)2 .276. 695 0. 388 0. as estimativas: da proporÁ„o na cela. calculada tomando a mÈdia dos EPAs das celas correspondentes aos nÌveis 1 e 2 da vari·vel sx. 117 To t a l 0. a estimativa da vari‚ncia do estimador de proporÁ„o de linha na cela È: 0. 196 80. 435 71. A estimativa da vari‚ncia do estimador de proporÁ„o nesta cela È (0. 065 51. 800 3. 420 . Sob amostragem aleatÛria simples com reposiÁ„o. 219 1. a estimativa da vari‚ncia do estimador de proporÁ„o na cela È: .8.1). 343 1. 195 0.6. 814 0.6: ProporÁıes nas celas. 101 1. Vamos calcular. 111 (1 − 0. desvios padrıes e EPAs Se x o 1 2 To t a l 1 0. 111 (1 − 0. T A B E L AS D E D U AS E N T R A D AS ( C ASO G E R A L) 133 Tabela 8.3.

s„o bem menores que o valor 227. calculada tomando a mÈdia dos EPAs das celas correspondentes aos nÌveis 1 e 2 da vari·vel sx.849 1. os valores das estatÌsticas de teste 137. . 073 (1 − 0. com proporÁıes maiores em valores mais altos para o nÌvel 1 da vari·vel sexo. obtemos os valores XP2 (I) = XP2 (H) = 227. 025. a estimativa do efeito mÈdio de plano amostral requerida para corrigir a estatÌstica XP2 (I) È dà. bem como da hipÛtese de igualdade de distribuiÁ„o de renda para os dois sexos a partir do teste de homogeneidade. 0.830 1. 073 (1 − 0. Sob a hipÛtese nula.6. mostrando novamente que a estatÌstica de teste calculada sob a hipÛtese de amostra IID tem maior tendÍncia a rejeitar a hipÛtese nula. = 224. dà. Calculando as estatÌsticas XP2 (I) e XP2 (H) para os testes cl·ssicos de independÍncia e homogeneidade a partir da Tabela 8.640 = 137. obtemos os valores XP I. mediante a)correÁ„o de EPA mÈdio das ¥ 2 à estatÌsticas cl·ssicas. = 1. A partir da Tabela 8. que È o sexo masculino. 117 e 124. Considerando estes ˙ltimos. 414 . T ES T ES E M T A B E L AS D E D U AS E N T R A D AS 0. 640. 742 . 073) /6.134 C A PÍ T U L O 8. = 224.802 / = 124. observamos uma ordenaÁ„o estoc·stica das distribuiÁıes de renda para os dois sexos.6.507 Portanto. com distribuiÁ„o de referÍncia χ2 (2). 0038343)2 ∼ = 1. 117 ) ¥ e XP2 H. a distribuiÁ„o de referÍncia de todas essas estatÌsticas de teste È χ2 (2). resultado que indica rejeiÁ„o da hipÛtese de independÍncia entre sx e re. d. examinando as estimativas das proporÁıes nas celas da tabela para cada sexo. 073) /6. calculados considerando os pesos e plano amostral. que tambÈm indicam a rejeiÁ„o das hipÛteses de independÍncia e de homogeneidade. 742. O valor comum das estatÌsticas XP2 (I) e XP2 (H) foi calculado sem considerar os pesos e o plano amostral. Vale ressaltar que apesar de todos os testes mencionados indicarem forte rejeiÁ„o das hipÛteses de independÍncia e de homogeneidade.507. 025 obtido para o caso de amostra IID. A estimativa do efeito de plano amostral do estimador de proporÁ„o na cela È (0.

mudamos os objetivos. denominada de an·lise agregada ou marginal. denominada an·lise desagregada. D esagregação 9. num processo iterativo que se baseia nos dados da pesquisa. Nos modelos modificados. que se interpıem entre dados e procedimentos bem aceitos. incorporando mais explicitamente a estrutura da populaÁ„o no procedimento de an·lise. e sim como parte integral da estrutura da populaÁ„o. que deve ser adequadamente modelada e que pode contribuir para melhorar nossa compreens„o das relaÁıes entre as vari·veis. em geral. construindo modelos para descrever a relaÁ„o entre as vari·veis de interesse. encaramos a estrutura dos dados como fator complicador ou aspecto indesejado. Este capÌtulo se dedica a apresentar uma introduÁ„o ‡ abordagem de an·135 . Numa delas. que invalida o uso de procedimentos padrıes de an·lise.C a pí t u lo 9 A gregação vs. os antigos par‚metros s„o abandonados e novos par‚metros s„o introduzidos. Efeitos de conglomeraÁ„o n„o mais s„o vistos como complicadores. A complexidade da estrutura da populaÁ„o È ent„o usada como evidÍncia de que modelos simples e procedimentos padrıes s„o tambÈm. e mantemos inalterados os objetivos b·sicos da an·lise. pois os par‚metros de interesse s„o obtidos tomando-se a mÈdia ao longo de alguns aspectos da estrutura da populaÁ„o. Os mÈtodos descritos nos capÌtulos anteriores se baseiam nesta abordagem. Na outra abordagem. Para considerar a estrutura da populaÁ„o.1 I n t ro d ução H· duas abordagens principais para tratar a estrutura dos dados de pesquisas amostrais complexas. inadequados. os modelos requeridos s„o geralmente mais elaborados e ‡s vezes requerem alteraÁ„o dos alvos da inferÍncia.

o efeito do estrato È modificar o intercepto de β 0 para β 0 +β 1 . respectivamente. e a inferÍncia È dirigida aos par‚metros β 0 e β 1 . alÈm da variaÁ„o do intercepto.2) onde zi = 1 se a unidade pertence ao estrato 1 e zi = 0 caso contr·rio. Um exemplo simples È o caso de populaÁıes humanas. a saber β 2 e β3 . Zi = zi ) = β 0 + β 1 xi + β 2 zi + β 3 xi zi (9.1) onde β 0 e β 1 s„o par‚metros desconhecidos e Yi e Xi s„o as vari·veis resposta e preditora para a i-Èsima unidade da populaÁ„o. cap. para incorporar ao modelo efeitos de estratificaÁ„o basta introduzir uma vari·vel preditora de tipo indicador Z. h· tambÈm modificaÁ„o na declividade. definido por EM (Yi |Xi = xi ) = β 0 + β 1 xi (9. 10 a 13) e Bryk e Raudenbush(1992). bastanto para isso adicionar de forma similar vari·veis indicadoras de pertinÍncia aos diversos estratos. Se β 3 6= 0 . Holt e Smith(1989. exceto o ˙ltimo. Um caso importante È o do emprego . Modelos dessa forma s„o frequentemente considerados na pr·tica para representar relaÁıes entre vari·veis. Neste caso simples. Vamos agora considerar o caso bem simples de uma populaÁ„o com unidades divididas em dois grupos disjuntos (ou estratos). Tais modelos podem ser ˙teis em uma variedade de situaÁıes de interesse pr·tico.2 M o delage m d a E st r u t u r a Pop u lacion al Para indroduzir a abordagem de an·lise desagregada. que passa de β 1 para β 1 + β 3 quando zi passa de 0 a 1. A G R E G A Ç Ã O VS. o leitor deve consultar Skinner. D ESA G R E G A Ç Ã O lise desagregada. que indica se uma unidade pertence ao estrato 1. seja para fins de amostragem estratificada (emprego de planos amostrais com estratificaÁ„o das unidades elementares) ou mesmo apenas para fins de an·lise. Se β 3 = 0. em que pessoas s„o separadas em grupos de acordo com o sexo. digamos. quando zi passa de 0 a 1. Para um exame mais detalhado do tema. 9. Modelos com o efeito de estratificaÁ„o aqui ilustrado podem ser facilmente generalizados para o caso de mais de dois estratos. em contraposiÁ„o aos procedimentos indicados nos capÌtulos anteriores.136 C A PÍ T U L O 9. vamos considerar um modelo simples de regress„o linear. O modelo modificado fica ent„o definido como EM (Yi |Xi = xi . Observe que neste novo modelo aparecem dois novos par‚metros.

os efeitos de estratificaÁ„o s„o intrÌnsecos ao modelo e a estimaÁ„o dos par‚metros correspondentes È o alvo da inferÍncia desejada. que sustenta discussıes sobre preconceito contra mulheres no mercado de trabalho (estamos simplificando aqui a situaÁ„o. em que dados de pesquisas amostrais domiciliares s„o frequentemente usados para ajustar modelos com efeitos de estratificaÁ„o. Nesse caso. a inferÍncia para os par‚metros do modelo pode ser feita usando procedimentos e pacotes padrıes. os estratos de an·lise (pessoas classificadas por sexo) s„o formados a posteriori. n˙mero de horas trabalhadas e outros que afetam a renda de assalariados). Em casos como este. estas ˙ltimas as unidades de an·lise de interesse da modelagem). O mesmo j· n„o ocorre se os estratos de an·lise diferem dos de seleÁ„o ou se o plano amostral empregado envolver outros aspectos de complexidade. por exemplo) e renda. em que municÌpios.9. as amostras selecionadas s„o de domicÌlios e nestes investigadas todas as pessoas moradoras. setores e domicÌlios formam conglomerados de pessoas. o analista pode optar por modificar seu modelo agregado (9. Nesse caso.2. quanto de necessidades substantivas. Outro caso de interesse pr·tico È aquele em que os estratos de an·lise s„o definidos por razıes substantivas ligadas ‡ modelagem pretendida. posiÁ„o na ocupaÁ„o. Estes podem tanto se originar de necessidades administrativas que motivam a adoÁ„o de planos amostrais conglomerados (vide o caso das pesquisas por amostragem domiciliar. Uma outra situaÁ„o de interesse pr·tico que pode requerer modificaÁ„o dos modelos de interesse È a ocorrÍncia de efeitos de conglomeraÁ„o. Se o plano amostral for do tipo amostragem estratificada simples e os estratos (de seleÁ„o) coincidirem com os do modelo (de an·lise).2). Um exemplo tÌpico È a an·lise de efeitos de sexo sobre relaÁıes entre educaÁ„o (medida em termos de anos de estudo. Um exemplo È o caso de estudos demogr·ficos sobre mortalidade infantil.1) em favor de um modelo desagregado da forma (9. Na pr·tica. tais como conglomeraÁ„o e/ou probabilidades desiguais de seleÁ„o dentro dos estratos. independentemente de como foi selecionada a amostra da pesquisa que gerou os dados (este caso englobaria inclusive dados coletados mediante censos). M O D E L A G E M D A ES T RU T U R A P O P U L A C I O N A L 137 de planos amostrais estratificados. em que os grupos de unidades elementares fazem parte de uma estrutura populacional cujas propriedades se deseja modelar de forma mais explÌcita. pois em geral se precisa remover efeitos de profiss„o. porque as pessoas da amostra n„o s„o selecionadas em grupos devido ‡ inexistÍncia de cadastros que suportassem esse tipo de plano amostral. pois acredita que este ˙ltimo representa melhor a realidade subjacente. em que os filhos tidos por uma determinada mulher s„o considerados um conglomerado e se pretende identificar algum efeito potencial do tamanho dos conglomerados sobre os . sem maiores problemas.

Em (9. Diggle.1) de maneira simples. η 0j 0 = COVM εij . no caso a mortalidade infantil. D ESA G R E G A Ç Ã O eventos de interesse. η 1j 0 = 0 0 j=j 0 j 6= j .5) e (9.3) no qual j denota conglomerado e i denota indivÌduo no conglomerado. (9.6) Podemos juntar as expressıes em (9. σ 21 . e ) ¥ < σ 01 COVM η 0j . os coeficientes β 0 e β 1 s„o fixos e os coeficientes η 0j e η 1c s„o aleatÛrios. sendo o modelo denominado de efeitos mistos: fixos e aleatÛrios (veja por exemplo Longford.6) os valores de σ 20 . η 1j 0 = 0 . Efeitos de conglomeraÁ„o podem ser introduzidos no modelo (9. Bryk e Raudenbush. Em dados de pesquisas amostrais. 1992). 1994. ) ¥ 0 0 COVM εij . que dependem dos conglomerados. O modelo pode ser mais elaborado. os erros εij n„o satisfazem. Isto pode ser obtido substituindo β 0 e β 1 em (9. η 0j e η 1j vari·veis aleatÛrias. β 0 e β 1 n„o variam para os diferentes conglomerados. j 6= j ou i 6= i . bastando para isso considerar um modelo da forma Yij = β 0 + β 1 xij + εij . εi0 j 0 = 0 .4) e reescrever o modelo como ¢ ° ¢ ° Yij = β 0 + η 0j + β 1 + η 1j xij + εij (9.3). A G R E G A Ç Ã O VS.4)  0j β 1j = β 1 + η 1j com β 0 e β 1 fixos e desconhecidos e εij .138 C A PÍ T U L O 9. ) ¥ ) ¥ COVM εij . no modelo (9. a hipÛtese de IID. 1993. Liang e Zeger. (9. AlÈm disso.7) = β 0 + β 1 xij + η 0j + η 1j xij + εij . na tentativa de reduzir as variaÁıes n„o explicadas σ 20 .3) por coeficientes aleatÛrios. Pode ser adequado supor que β 0 e β 1 variam entre conglomerados. . VM η 0j = σ 0 . adotando-se o modelo   Yij = β 0j + β 1j xij + εij β = β 0 + η 0j (9. isto È. Em (9. VM η 1j = σ 1 . em geral. satisfazendo ° ¢ ° ¢ (9. σ 01 e σ 2 servem para medir a variaÁ„o intra-conglomerados n„o explicada pelo modelo.5) EM (εij ) = EM η 0j = EM η 1j = 0 ° ¢ ° ¢ 2 2 2 VM (εij ) = σ .7).

etc. os estudantes s„o naturalmente agrupados em turmas. podemos introduzir no modelo uma outra vari·vel preditora aj . Entre os modelos disponÌveis para incorporar generalizaÁıes dos tipos aqui discutidos. uma classe de modelos bastante ampla e que tem sido objeto de grande interesse na literatura recente È a classe dos modelos hier·rquicos. que por sua vez tambÈm podem ou n„o pertencer a uma estrutura de grupos. γ 10 . γ 11 . e considerar o novo modelo dado por   Yij = β 0j + β 1j xij + εij β = γ 00 + γ 01 aj + η 0j  0j β 1j = γ 10 + γ 11 aj + η 1j . Nele. quando as unidades elementares de an·lise est„o grupadas em unidades maiores. Um exemplo interessante de estrutura populacional hier·rquica È um sistema educacional.8) j· basta para ilustrar a maior complexidade envolvida na modelagem ao se tentar incorporar efeitos de conglomeraÁ„o nessa abordagem desagregada. σ 1 . σ . γ 01 . η 1j . como no modelo (9. (9. γ 10 . Para isto. pois agora est· ¢ 2 2 2 centralizado nos par‚metros γ 00 . γ 11 ) e efeitos aleatÛrios η 0j . numa hierarquia bem definida. Aqui. as escolas agrupadas por distritos escolares ou municÌpios. as turmas agrupadas em escolas. definida no nÌvel de conglomerados.2). maior n˙mero de nÌveis de conglomeraÁ„o podem ser considerados.3 M o delos H ier á r q u icos Modelos hier·rquicos s„o indicados quando a estrutura populacional È hier·rquica.8) podem ser generalizados de diversas maneiras: mais vari·veis preditoras x podem ser introduzidas na equaÁ„o que descreve os valores individuais da vari·vel resposta y.8) È°de efeitos ¢ mistos. γ 01 . cujas idÈias b·sicas introduziremos na prÛxima seÁ„o. com intervalos de confianÁa e testes de hipÛteses relativos a estes par‚metros. tal hierarquia È uma propriedade intrÌnseca da populaÁ„o estudada. σ 01 .3. O modelo (9. Modelos de efeitos mistos da forma (9. o modelo îsimplesî da forma (9. 9. e assim por diante. σ 0 . efeitos de estratificaÁ„o podem ser adicionados mediante introduÁ„o de vari·veis indicadoras de pertinÍncia a estratos z. O uso de modelos hier·rquicos para descrever . Algumas vezes.8) Mais uma vez o objetivo °b·sico da inferÍncia se altera. com efeitos fixos (γ 00 . mais vari·veis preditoras a podem ser introduzidas nas equaÁıes que descrevem a variaÁ„o dos par‚metros aleatÛrios a nÌvel dos conglomerados.9. M O D E L OS H I E R Á R Q U I C OS 139 σ 21 e talvez reduzir a covari‚ncia σ 01 . isto È.

11). atravÈs das seguintes equaÁıes (nÌvel 2):   β 0j = γ 00 + γ 01 CSTj + γ 02 EXPj + η 0j . ï CSA . ï EXP . A G R E G A Ç Ã O VS.anos de experiÍncia do professor de Matem·tica. vamos apresentar um resumo de alguns modelos hier·rquicos b·sicos. parte desta variaÁ„o tem uma componente n„o-sistem·tica. Ainda no contexto de estudantes e turmas do exemplo discutido nesta seÁ„o. para explicar parte da variaÁ„o dos coeficientes. . considerada como vari·vel resposta. . (9. D ESA G R E G A Ç Ã O tais estruturas tem motivaÁ„o nas prÛprias estruturas. ï CST .sexo do aluno. ï SEX . Holt e Smith (1989. . J denota a turma. vamos considerar um modelo hier·rquico de dois nÌveis com as seguintes vari·veis: ï ESC . Para fixar idÈias. medidas no nÌvel da turma (nÌvel 2). explicando ESC pelas vari·veis SEX e CSA: ESCij = β 0j + β 1j SEXij + β 2j CSAij + εij .9) onde i = 1. . enquanto as vari·veis CST e EXP se referem ‡ turma (nÌvel 2 do modelo) ‡ qual o aluno pertence. A vari·vel EXP È uma caracterÌstica do professor. cap.classe social do aluno. Adotando como referÍncia b·sica Skinner.classe social mÈdia dos alunos da turma. . baseada numa caracterÌstica dos alunos agregada para o nÌvel da turma. (9.10)  1j β 2j = γ 20 + γ 21 CSTj + γ 22 EXPj + η 2j . nj denota o aluno dentro da turma e j = 1.140 C A PÍ T U L O 9. β = γ 10 + γ 11 CSTj + γ 12 EXPj + η 1j . mas os coeficientes podem tambÈm depender de caracterÌsticas das turmas. . . Observe que as vari·veis SEX e CSA se referem ao aluno (nÌvel 1 do modelo). independentemente do procedimento amostral usado para a obtenÁ„o dos dados eventualmente observados. . Vamos considerar as vari·veis CST e EXP . ou nÌvel 1) diferente para cada turma. β 1j e β 2j variem entre as turmas.escore do aluno num teste de Matem·tica. … possÌvel que os coeficientes β 0j . iniciando com o caso de vari·veis contÌnuas. ao passo que CST È uma vari·vel îcontextualî. vamos considerar um modelo (nÌvel aluno. . AlÈm disso.

η 1j e η 2j (de nÌvel 2). Para isto terÌamos de supor. que os η 0j e os εij s„o independentes entre si e os η 0j s„o independentes dos εij .3.9) e (9. Este aspecto fundamental do modelo deve ser incorporado no procedimento de estimaÁ„o dos respectivos par‚metros de interesse. a exclus„o dos erros de nÌvel 2 em (9.10).12) È o termo η 0j + εij . fazendo β 1j depender das vari·veis CSTj e EXPj .10) n„o seria razo·vel. com ° ¢ ° ¢ EM η 0j = EM (εij ) = 0.9. .10) definem um modelo hier·rquico. torna (9. (9.12) n„o permite estudar interaÁıes entre vari·veis nos dois nÌveis hier·rquicos.11).5). j . obtemos o seguinte modelo simplificado: ESCij = γ 00 + γ 01 CSTj + γ 02 EXPj ¢ ° +β 1j SEXij + β 2j CSAij + η 0j + εij . A presenÁa dos erros aleatÛrios η 0j . o modelo especificado sÛ teria efeitos fixos e a estimaÁ„o dos par‚metros n„o traria qualquer problema. com os erros aleatÛrios com mÈdia zero: η 0j . Entretanto. As equaÁıes (9. η 1j e η 2j s„o erros no nÌvel 2 satisfazendo as condiÁıes em (9. Se os erros fossem suprimidos em (9.11) + (γ 20 + γ 21 CSTj + γ 22 EXPj ) CSAij +η 0j + η 1j SEXij + η 2j CSAij + εij . (9. que È o desvio do i-Èsimo aluno com relaÁ„o ‡ mÈdia da turma j.11) um modelo misto. e εij . o modelo contÈm uma parte residual. pois as vari·veis definidas no nÌvel 2 n„o determinam completamente os coeficientes dentro das turmas. que a diferenÁa de desempenho entre sexos varia com as turmas. M O D E L OS H I E R Á R Q U I C OS 141 onde η 0j . O modelo (9. ainda. VM η 0j = σ 20 . requerendo que o modelo fosse alterado.13) A parte aleatÛria do modelo (9.12) AlÈm da parte fixa. Isto introduziria mais erros aleatÛrios no modelo e mais par‚metros a serem estimados. ∀i. com distribuiÁ„o tendo par‚metros σ 20 e σ 2 a serem estimados. VM (εij ) = σ 2 . que representa o desvio da mÈdia dos indivÌduos da turma j com relaÁ„o ‡ mÈdia total. Vamos supor. que pode ser escrito de forma equivalente como ESCij = γ 00 + γ 01 CSTj + γ 02 EXPj + (γ 10 + γ 11 CSTj + γ 12 EXPj ) SEXij (9. por exemplo. Voltando ao modelo b·sico de dois nÌveis hier·rquicos (9. Supondo que sÛ os interceptos dos modelos dentro das turmas variam com as turmas. verificamos que h· uma correlaÁ„o positiva entre respostas de alunos na mesma turma.

condicionando na parte fixa do modelo. .(1998) apresentam uma forma de incorporar pesos no ajuste de modelos hier·rquicos para compensar diferentes probabilidades de inclus„o das unidades na amostra. tornam o plano amostral ignor·vel.15) A express„o (9. ESCij 0 = COVM η 0j + εij . No caso de se supor adicionalmente a normalidade dos dados. e o leitor interessado deve consultar. mede o grau de similaridade entre alunos dentro das turmas ou o grau de conglomeraÁ„o da vari·vel resposta ESCij por turmas. Os modelos hier·rquicos. porÈm. n„o mencionamos explicitamente o plano amostral utilizado.14) pois supusemos que εij e εij 0 s„o independentes.15) define a correlaÁ„o intraclasse usual que. ao incorporarem covari·veis caracterÌsticas da estrutura populacional e tambÈm do plano amostral.11). de formas n„o consideradas pelas covari·veis. Assim ) ¥ h° ¥i ¢ ) COVM ESCij . condicionalmente nestas caracterÌsticas. quando as unidades s„o selecionadas com probabilidades proporcionais a uma medida de tamanho que È relacionada ‡ vari·vel resposta. de M·xima VerossimilhanÁa Restrita e o MÈtodo Iterativo de MÌnimos Quadrados Generalizados. em nosso exemplo.142 C A PÍ T U L O 9. A G R E G A Ç Ã O VS. Ela È a fraÁ„o da vari‚ncia residual atribuÌda ‡ vari‚ncia intra-conglomerado. Nas consideraÁıes anteriores. Pfeffermann et al. Por exemplo. η 0j + εij 0 = σ 20 . D ESA G R E G A Ç Ã O mas uma correlaÁ„o nula entre respostas de alunos em turmas diferentes. tem-se que ) ¥ VM (ESCij ) = VM ESCij 0 = σ 20 + σ 2 . tais como efeitos de estratificaÁ„o e de conglomeraÁ„o. e portanto ) ¥ CORRM ESCij . foram propostos v·rios mÈtodos para estimaÁ„o dos par‚metros do modelo (9. (9. por exemplo. n„o È aplic·vel quando unidades em qualquer nÌvel da hierarquia s„o selecionadas com probabilidades desiguais. ESCij 0 = σ 20 . Este raciocÌnio. Por outro lado. Bryk e Raudenbush(1992). σ 20 + σ 2 (9. no sentido definido por Rubin(1976). Detalhes destes mÈtodos de estimaÁ„o n„o ser„o abordados neste texto. entre os quais os mÈtodos de M·xima VerossimilhanÁa.

11-20 e 21 ou mais anos de experiÍncia. Os dados deste exemplo se referem a uma pesquisa de avaliaÁ„o de escolas (SNACS). ï T EMP . selecionada de um cadastro de escolas. da qual foi selecionada uma amostra de 53 escolas. M O D E L OS H I E R Á R Q U I C OS 143 E x e m p lo 9. pj log = β 0 + β 1 (T EMP )j + β 2 (EXP )j . As vari·veis explicativas quantitativas s„o: ï EXP .1-10. foi ajustado o modelo logÌstico µ .934 alunos. 2 e 3.1 Plano amostral de pesquisa educacional (Lethonen e Pahkinen. j = 1. 9 (tais domÌnios n„o foram identificados na referÍncia citada). e o Ìndice j se refere a um domÌnio de estudo. na qual foi analisado o desempenho em Matem·tica de alunos da sexta sÈrie. Podemos analisar os dados considerando as observaÁıes como IID. A vari·vel resposta bin·ria DESEMP . numa populaÁ„o de 60. ï T EMP . A populaÁ„o de conglomerados consistiu em 4. (9. enquanto a vari·vel T EMP se refere ao aluno. assumindo valores 1. O tamanho total da amostra de alunos n„o foi fixado. β 1 e β 2 s„o coeficientes a serem estimados.tempo em minutos gasto pelo aluno em trabalhos de casa. indica se o aluno atingiu ou n„o um nÌvel de conhecimento desejado em matem·tica. . O plano amostral utilizado foi uma amostra estratificada de escolas (conglomerados) com um est·gio. 15-30. da forma a seguir: ï EXP . que produziu 1. ignorando a existÍncia de conglomerados e de pesos distintos.3. 1995. Foi usada estratificaÁ„o regional e as amostras nos estratos foram proporcionais ao tamanhos dos estratos. p. Observe que a vari·vel EXP se refere ao professor.16) 1 − pj no qual β 0 .0-14. . de inÌcio.9. 297). Cada preditor foi categorizado em trÍs categorias. 31 ou mais minutos. que chamaremos . com complexidades e abordagens diferentes. Considerando inicialmente a abordagem agregada. . e tomando as vari·veis EXP e T EMP como contÌnuas. no tempo livre.071 alunos.tempo de experiÍncia do professor.126 escolas. V·rios modelos foram ajustados. .

03 aqui de an·lise ingÍnua. usando MPV e estatÌsticas de Wald ( P R O C L O G I S T I C do S U D A A N ) Vari·vel Intercepto T EMP EXP Coeficiente 2.C A PÍ T U L O 9. 000 0. 578 0. que incorpora o plano amostral e os pesos atravÈs do mÈtodo de MPV para estimar par‚metros. 181 Teste-t pvalor EPA 5. os coeficientes podem ser estimados pelo mÈtodo padr„o de M·xima VerossimilhanÁa. 894 0. 29 1. 427 0. 50 0. Outra opÁ„o È a an·lise agregada. sugerindo que todas as vari·veis preditoras tÍm poder de explicaÁ„o. Os resultados dessa an·lise s„o apresentados na Tabela 9. utilizando um dos pacotes padrıes. com testes de siginific‚ncia baseados. 00 0. 02 −4.1 indicam que os coeficientes s„o significantemente diferentes de 0 ao nÌvel de signific‚ncia α = 5%. 14 2. Esta abordagem pode ser usada tambÈm na etapa de seleÁ„o de modelos. 000 0. e portanto devem permanecer no modelo. 00 0. 127 Teste-t pvalor EPA 6. 00 0.1. 82 −5. 254 Desvio Padr„o 0. 906 0.16) sob hipÛtese de observaÁıes IID. 174 0.2: An·lise agregada do modelo (9. A G R E G A Ç Ã O VS. no caso de instabilidade. por exemplo. D ESA G R E G A Ç Ã O 144 Tabela 9. Neste caso. ignorando complexidades do plano amostral Vari·vel Intercepto T EMP EXP Coeficiente 2. 211 0. na estatÌstica de Wald ou ajustes desta. e do uso de estatÌsticas baseadas no plano amostral para testar hipÛteses. 14 1.2. 271 Desvio Padr„o 0. Os resultados dessa an·lise s„o apresentados na Tabela 9. 045 1 1 1 Tabela 9.16). 83 1. 912 −0. . 899 −0. 47 2. Os pvalores da Tabela 9.1: An·lise do modelo (9.

Neste exemplo. 14 A coluna de pvalores da Tabela 9. Denotando por pjk a probabilidade de um aluno da turma k no domÌnio j atingir o nÌvel desejado em Matem·tica. M O D E L OS H I E R Á R Q U I C OS 145 Tabela 9. 186 Teste-t pvalor EPA 4. A variaÁ„o no nÌvel 1. 15 1. σ u2 representa a variaÁ„o aleatÛria no nÌvel 2. para cada nÌvel se considera uma variaÁ„o aleatÛria. 86 −4. observamos EPAs moderados com m·ximo em torno de 2. entre alunos. neste exemplo.16).17) 1 − pjk ° ¢ O erro aleatÛrio uk ∼ N 0. e tambÈm que a hipÛtese de nulidade do coeficiente de EXP n„o È rejeitada no nÌvel de signific‚ncia α = 5%. 14 1. a an·lise desagregada que. (9. 219 0. Os resultados da an·lise permanecem os mesmos que os da an·lise reportada na Tabela 9.alunos. 00 0. pjk log = β 0 + β 1 T EMPjk + β 2 EXPj + uk .2. 00 0. 906 0. foi calculada a estatÌstica corrigida de Wald.3: An·lise agregada do modelo (9. usando estatÌsticas de Wald corrigidas (programa P C C A R P ) Vari·vel Coeficiente Intercepto T EMP EXP 2.turmas. Sob . 95 1. 899 −0. usaria um modelo hier·rquico com dois nÌveis. No modelo hier·rquico. Finalmente. ï nÌvel 2 . a saber: ï nÌvel 1 . 271 Desvio Padr„o 0. 597 0.9. È introduzida da seguinte forma. A correÁ„o usada foi a implementada no pacote PC-CARP. Como o estimador poderia ser inst·vel. f = 38 graus de liberdade para a estimaÁ„o da matriz de covari‚ncia 9 $ 9 baseada no plano amostral.3.3. 46 0. podemos modificar o modelo (9. 58 2.2 indica que o coeficiente de T EM P È significantemente diferente de zero. Em ambos os casos. conforme se pode verificar consultando os valores da Tabela 9. que difere da correÁ„o F antes mencionada.16) para incluir o efeito da turma empregando µ .

D ESA G R E G A Ç Ã O 146 Tabela 9. 58 1. 42 com desvio-padr„o 0. A mÈdia de professores por escola foi 8. e portanto È significante ao nÌvel α = 5%. respectivamente). a variaÁ„o entre alunos foi tomada como σ e2 = 1.000 professores aninhados em 357 escolas.18) Os resultados desta an·lise s„o apresentados na Tabela 9. 254 Desvio Padr„o 0. Este exemplo ilustra bem o efeito de ignorar efeitos de plano amostral. como revelaram as an·lises alternativas que levaram em conta o plano amostral ou a estrutura da populaÁ„o (an·lises agregada e desagregada. 5) Os dados consitiram em respostas de 8. ao fazer a an·lise ingÍnua. 00 0. 188 Teste-t pvalor EPA 5. 18 1.C A PÍ T U L O 9.18) via programa M L 3 Vari·vel Intercepto T EMP EXP Coeficiente 2.4 indica novamente que o coeficiente de EXP n„o È significantemente diferente de zero ao nÌvel α = 5%. em cada domÌnio.4: An·lise desagregada do modelo (9. A G R E G A Ç Ã O VS. A coluna de pvalores da Tabela 9. a proporÁ„o de alunos atingindo o nÌvel adequado tem vari‚ncia pjk (1 − pjk ) /njk . E x e m p lo 9. 538 0. 19 a hipÛtese binomial. e tambÈm que a variabilidade entre alunos acarreta uma variaÁ„o extra-binomial pjk (1 − pjk ) σe2 . 06 2. 19 1. A variaÁ„o no nÌvel 2 foi estimada por σu2 = 0. njk (9. Os nÌveis da estrutura hier·rquica considerados e os Ìndices usados para represent·-los foram: . Cap. 179 0. 00 0.2 (Bryk e Raudenbush. 35 0.4. Uma alternativa seria estimar tambÈm este valor a partir dos dados. cujas conclusıes levariam a incluir a vari·vel EXP no modelo quando esta parece n„o ser importante. Isto sugere a existÍncia de diferenÁa de avaliaÁ„o dos professores sobre o aprendizado de Matem·tica dos alunos. 941 −0. 1992.4. 927 0. 189.000/357 = 22 professores por escola. 47 −5. No ajuste da Tabela 9. Vamos supor que a variaÁ„o residual no nÌvel 1 È denotada por σe2 .

relativas ‡ Escola (unidade de nÌvel 2) x1j = ExperiÍncia AcadÍmica MÈdia antes da Escola Secund·ria.3. considerando a estrutura hier·rquica da populaÁ„o. x2j = Status SÛcio-EconÙmico MÈdio. x4j = Tamanho. com EM (rij ) = EM (u0j ) = 0 e VM (rij ) = σ 2 . τà 00 = 0. Foram obtidas as seguintes estimativas para os par‚metros deste modelo: σ à 2 = 0. Modelo de nÌvel 1 Yij = β 0j + rij . buscando explicaÁ„o em vari·veis que refletem a estrutura da escola onde atua. 915.9. 084 e . VM (uij ) = τ 00 . A idÈia deste exemplo È ilustrar como diversos modelos alternativos podem ser usados para analisar os dados sobre eficiÍncia do professor. Um primeiro modelo que se poderia ajustar. Foram observadas as seguintes vari·veis: ï Vari·vel resposta yij = EficiÍncia do Professor. x5j = Mistura …tnica. Modelo de nÌvel 2 β 0j = γ 00 + u0j . ï i = Professor e j = Escola. ï Vari·veis preditoras. x6j = Mistura de Status SÛcio-EconÙmico. Ou juntando as duas equaÁıes Yij = γ 00 + u0j + rij . x7j = Grau de OrganizaÁ„o Comunit·ria (Comunit). ï Unidade Elementar = Professor. x3j = ProporÁ„o Alta de Minorias. M O D E L OS H I E R Á R Q U I C OS 147 ï Unidade Prim·ria de Amostragem (UPA) = Escola. È o modelo de an·lise de vari‚ncia com um fator e com efeitos aleatÛrios M o d elo I : An·lise de Vari‚ncia com um Fator e com Efeitos AleatÛrios.

028 0. . Como essa proporÁ„o da variaÁ„o explicada È pequena. x6 ) aumentou para 0. vamos introduzir no modelo algumas vari·veis explicativas referentes ‡ escola. 915 0. k=1 A Tabela 9. σ à + τà00 2 Logo cerca de apenas 9% da variaÁ„o na eficiÍncia do professor È explicada pelas diferenÁas entre as escolas. definidas no nÌvel 2. na tentativa de aumentar o poder explicativo do modelo. x6 ) . M o d elo I I : Modelo Hier·rquico com dois nÌveis.5 apresenta as estimativas dos par‚metros para este modelo. Modelo de nÌvel 1: Yij = β 0j + rij . D ESA G R E G A Ç Ã O Tabela 9. A G R E G A Ç Ã O VS. . 020 0. Com essas estimativas. 133 0. . Modelo explanatÛrio de nÌvel 2: β 0j = γ 00 + 6 X γ 0j xkj + u0j . x6 ). . 0. . 031 −0. 046 0. 084 − 0. . 023 τà00 = 0. 055 CorrelaÁ„o Intra-Escola = Desvio Padr„o 0. 092 . para explicar a variaÁ„o da eficiÍncia mÈdia do professor por escola. a saber as vari·veis (x1 . a proporÁ„o da variaÁ„o total entre escolas do par‚metro β 0j (nÌvel mÈdio da efic·cia dos professores por escola) explicada pelas vari·veis (x1 . 027 0. . usando as vari·veis (x1 .148 C A PÍ T U L O 9.5: Efeitos da escola na efic·cia do professor (Modelo II) Coeficiente γà 01 γà 02 γà 03 γà 04 γà 05 γà 06 σ à2 τà 00 Estimativa 0. 014 −0. 044 0. 023 0. 019 0. . . 055 = 35% . . . 066 −0. 084 . .

504 0. 045 - Embora esse aumento do poder explicativo do modelo j· tenha sido substancial. 084 O incremento na variaÁ„o explicada devido ‡ introduÁ„o da vari·vel Comunit no modelo de nÌvel 2. 084 − 0. 026 0. 031 Desvio Padr„o 0. 055 0. . A proporÁ„o da variaÁ„o total entre escolas do par‚metro β 0j (nÌvel mÈdio da efic·cia dos professores por escola) explicada pelas vari·veis (x1 . 038 0. 061 −0. k=1 A Tabela 9. M o d elo I I I : Modelo Hier·rquico com dois nÌveis. Modelo de nÌvel 1 Yij = β 0j + rij . x7 ) aumentou para 0. 014 −0. 0. . 001 0. 031 = 63%. definidas no nÌvel 2.6 apresenta as estimativas dos coeficientes do Modelo III e seus respectivos desvios padrıes. 915 0. . e portanto consideramos um terceiro modelo. para explicar a variaÁ„o da eficiÍncia mÈdia do professor por escola.6: Efeitos da escola na efic·cia do professor (Modelo III) Coeficiente γà 01 γà 02 γà 03 γà 04 γà 05 γà 06 γà 07 σ à2 τà 00 Estimativa 0. 022 0. 040 0. sugerindo que . 017 0. 016 0. ainda È relativamente baixa a proporÁ„o de variaÁ„o explicada.3. . . foi de 63% − 35% = 28%. Modelo ExplanatÛrio de nÌvel 2 β 0j = γ 00 + 7 X γ 0j xkj + u0j . . . 015 −0. 020 0. x7 ). M O D E L OS H I E R Á R Q U I C OS 149 Tabela 9. . usando as vari·veis (x1 .9. em que foi adicionada ao Modelo II a vari·vel preditora x7 = Comunit ao nÌvel da escola.

A G R E G A Ç Ã O VS. 013 0. 507 Desvio Padr„o 0. . a import‚ncia da vari·vel Comunit È pequena. Tabela 9. 016 0. . 031 0. . 4%. Vamos considerar um modelo de regress„o linear simples.150 C A PÍ T U L O 9.6) foram bem semelhantes neste exemplo.7: Efeitos da escola na efic·cia do professor (Modelo IV) Coeficiente γà 1 γà 2 γà 3 γà 4 γà 5 γà 6 γà 7 Estimativa 0. A introduÁ„o da vari·vel Comunit. 017 0. A julgar por este resultado. o que pode ser explicado em parte pela pequena variaÁ„o do n˙mero de professores por escola. 013 0.7 apresenta as estimativas de MÌnimos Quadrados Ponderados de (γ 0 . Agora vamos ver o que teria ocorrido caso um analista procurasse ajustar um modelo aos dados de forma bastante ingÍnua. 015 −0. 056 0. M o d elo I V : An·lise de Regress„o Simples (nÌvel 1). 002 0. que teriam seus valores îrepetidosî para os professores de uma mesma escola. 040 0. 021 0. x7j ) da escola. . γ 1 . neste modelo. Este resultado È enganador devido . 014 0. k=1 A Tabela 9. Os coeficientes da an·lise de nÌvel 2 (Modelo III. 5%. com o resultado do professor Yij dependendo das caracterÌsticas (x1j . D ESA G R E G A Ç Ã O Tabela 9. γ 7 ) com pesos dados por nj = n˙mero de professores da escola j. . . ignorando a estrutura hier·rquica da populaÁ„o. A proporÁ„o de variaÁ„o explicada pelo Modelo IV È de apenas 5. Esse modelo pode ser escrito como Yij = γ 0 + 7 X γ k xkj + eij . 062 −0. . 035 essa vari·vel È importante para explicar a variaÁ„o na efic·cia do professor. sÛ aumentou a quantidade de variaÁ„o explicada em 2. O Modelo III j· atinge um nÌvel razo·vel de poder explicativo e poderia ser considerado satisfatÛrio para algumas finalidades.

A N Á LISE D ESA G R E G A D A : P R ÓS E C O N T R AS 151 ao ° fato de ¢ usar. 9.4 A n álise D esagrega d a: P rós e C on t r as Vamos inicialmente listar algumas dificuldades na an·lise de dados de pesquisas complexas. No modelo hier·rquico correspondente (Modelo III) este denominador È τ 00 . A estatÌstica de variaÁ„o explicada da an·lise hier·rquica fornece uma evidÍncia mais clara para se julgar a import‚ncia de preditores do nÌvel 2. M o d elo V : Modelo de Coeficientes AleatÛrios Yij = xTij βj + vij . portanto. Esta parte È um resumo da seÁ„o introdutÛria do CapÌtulo 5 do livro de Bryk e Raudenbush (1992). no c·lculo da raz„o de variaÁ„o explicada. que È a parte explic·vel da variaÁ„o. a variaÁ„o total 2 τ 00 + σ no denominador. VM (vij ) = σ 21 .9. onde βj = xTj γ + δ j . VM (δ j ) = ∆. Por exemplo. Os modelos hier·rquicos II e III aqui considerados s„o modelos de interceptos aleatÛrios do tipo yij = β 0j + xTj β+vij . procuramos ilustrar uma situaÁ„o em que a estrutura populacional hier·rquica n„o pode ser ignorada na modelagem. pode ter efeitos distintos em nÌveis organizacionais diversos. V ício d e agr egação Pode ocorrer quando a vari·vel tem significados diferentes e. Com este exemplo. EM (vij ) = 0. O Modelo V a seguir È desse tipo. onde os coeficientes de regress„o β s„o considerados fixos e apenas os interceptos β 0j = β 0 + uj s„o efeitos aleatÛrios. denominada îPontos b·sicos sobre efeitos organizacionais da pesquisaî. indicando em cada caso como a an·lise desagregada poderia ajudar a solucionar o problema.4. ∆ podendo ser n„o-diagonal. N„o foram fornecidas estimativas dos par‚metros para este ˙ltimo modelo na referÍncia citada. Sua formulaÁ„o foi aqui incluÌda apenas para indicar que o estudo de modelos para a situaÁ„o pr·tica de interesse n„o se esgotaria nas alternativas de modelagem aqui consideradas. sob pena de se chegar a conclusıes incorretas sobre a import‚ncia de determinadas vari·veis preditoras num modelo de regress„o. quando este È ajustado de forma ingÍnua a dados provenientes de uma estrutura hier·rquica. Tais modelos poderiam ser generalizados mediante suposiÁ„o de que os coeficientes de regress„o nas vari·veis preditoras β tambÈm s„o aleatÛrios. com δ j (Q $ 1) e EM (δ j ) = 0. .

em outras situaÁıes essa abordagem apresenta desvantagens claras quando comparada. frequentemente. Modelos Hier·rquicos ajudam a solucionar este confundimento. quando n„o consideramos a dependÍncia entre respostas individuais dentro da mesma organizaÁ„o. C o m p le x i d a d e do M o d elo D esagr ega do Os exemplos de modelagem desagregada discutidos anteriormente e na . D esv ios p a d r ões m a l est i m a dos Podem ocorrer com dados estruturados em v·rios nÌveis. as estimativas dos desvios padrıes s„o ajustadas pela correlaÁ„o intraclasse (ou pelo efeito do plano amostral). Tal dependÍncia pode aparecer pelas experiÍncias compartilhadas dentro da organizaÁ„o ou pela forma como os indivÌduos s„o arregimentados pela organizaÁ„o. As estimativas dos desvios padrıes dependem da variabilidade destes efeitos aleatÛrios ou. ent„o. fornecendo uma decomposiÁ„o de qualquer relaÁ„o entre vari·veis. que decorre da amostragem por conglomerado. tais como desempenho e classe social. Modelos hier·rquicos possibilitam ao pesquisador estimar um conjunto de coeficientes de regress„o para cada unidade organizacional e. com a abordagem agregada. D ESA G R E G A Ç Ã O numa pesquisa educacional. modelar a variaÁ„o de conjuntos de coeficientes entre organizaÁıes como resultados multivariados a serem explicados por fatores organizacionais. Embora este fenÙmeno seja. por exemplo. as causas da heterogeneidade da regress„o s„o muitas vezes de interesse substantivo. em componentes separadas no nÌvel 1 (indivÌduo) e no nÌvel 2 (organizaÁ„o). A seguir listamos algumas dessas situaÁıes e discutimos suas implicaÁıes para a modelagem desagregada. J· a classe social mÈdia dos alunos da escola È uma proxy da medida dos recursos da escola e de seu ambiente normativo. na terminologia de pesquisas amostrais.152 C A PÍ T U L O 9. Esta ˙ltima fornece uma medida dos recursos intelectuais e materiais do ambiente familiar de cada aluno individualmente. a classe social mÈdia de uma escola pode ter um efeito sobre o desempenho do aluno diferente do efeito da classe social individual do aluno. A G R E G A Ç Ã O VS. H e t e r oge n ei d a d e d e r eg r essão Pode ocorrer quando as relaÁıes entre caracterÌsticas individuais e resultados variam ao longo das organizaÁıes. Se nos casos citados a abordagem de an·lise desagregada pode ser vista como uma soluÁ„o que apresenta vantagens quando comparada com as abordagens tradicionais. Modelos Hier·rquicos solucionam este problema incorporando no modelo estatÌstico um efeito aleatÛrio ˙nico para cada unidade organizacional. considerado como de dist˙rbio do ponto de vista metodolÛgico.

representam situaÁıes mais complexas que as cobertas pelos pacotes padrıes atÈ recentemente. Essa dificuldade È tambÈm mencionada por Skinner. Tais informaÁıes muitas vezes n„o est„o disponÌveis por razıes de proteÁ„o da confidencialidade das informaÁıes ou outras razıes pr·ticas. Este È o caso das v·rias pesquisas para as quais j· existe a pr·tica de disseminar arquivos de microdados nos quais. p. ao menos em termos do n˙mero de vari·veis consideradas. A N Á LISE D ESA G R E G A D A : P R ÓS E C O N T R AS 153 maioria dos livros sobre modelos hier·rquicos s„o relativamente simples. Modelagem de dados de pesquisas amostrais por analistas secund·rios È geralmente realizada em condiÁıes em que as informaÁıes sobre o plano amostral s„o parcial ou completamente ignoradas. Para poder incorporar no modelo as informaÁıes sobre a estrutura populacional e/ou sobre o plano amostral. conglomerados (em v·rios nÌveis) e probabilidades de seleÁ„o (possivelmente nos v·rios est·gios de amostragem) para cada unidade amostral.4. Holt e Smith(1989. Apesar disso.9. 1998). a situaÁ„o desej·vel È incorporar na formulaÁ„o do modelo as informaÁıes necess·rias para que o plano amostral seja ignor·vel na etapa de estimaÁ„o dos par‚metros. medidas de tamanho usadas para definir as probabilidades de inclus„o e tambÈm informaÁıes sobre a estrutura de conglomeraÁ„o da populaÁ„o e da amostra. 9).. D isp o n i b ili d a d e d a I nfor m ação D esagr ega d a Outra dificuldade da abordagem desagregada È que esta abordagem requer conhecimento detalhado das vari·veis consideradas no planejamento amostral. Incluir todas essas vari·veis num modelo pode apresentar desafios n„o triviais ao analista: a especificaÁ„o detalhada da forma do modelo. È geralmente necess·rio considerar vari·veis indicadoras de pertinÍncia a estratos. tais como as identidades dos estratos. h· casos nos quais o plano amostral È n„o ignor·vel e pesos precisam ser incorporados para ajustar o modelo (veja Pfeffermann et al. Estas dificuldades n„o podem ser ignoradas quando se optar por uma . tais como estratificaÁ„o. a interpretaÁ„o das estimativas dos par‚metros e o diagnÛstico do ajuste efetuado podem todas se tornar tarefas bastante complexas. Quando a modelagem for feita com a finalidade de incorporar aspectos do planejamento amostral. entretanto. conglomeraÁ„o e probabilidades desiguais de inclus„o. a estimaÁ„o de seus in˙meros par‚metros dada apenas uma amostra das unidades da populaÁ„o. as informaÁıes de identificaÁ„o do plano amostral s„o omitidas (total ou parcialmente) para evitar a revelaÁ„o indesejada de informaÁıes individuais îsensitivasî. Mesmo quando se pode incorporar no modelo as informaÁıes sobre a estrutura populacional. e freq¸entemente requerem o emprego de pacotes ou procedimentos especializados para seu ajuste e an·lise.

numa pesquisa amostral conglomerada em dois ou mais est·gios. numa abordagem desagregada. n„o podendo ser desprezada e devendo figurar no arsenal de que dispıe o analista para interpretar os dados da melhor maneira possÌvel. e a maior disponibilidade de resultados de pesquisas amostrais na forma de arquivos de microdados deve contribuir com essa tendÍncia. . A G R E G A Ç Ã O VS. D ESA G R E G A Ç Ã O abordagem desagregada para analisar dados de pesquisas amostrais complexas. h· muitas situaÁıes em que uma abordagem desagregada pode oferecer alternativa adequada de an·lise. entretanto. mas que pode ser aplicada nalguns casos em que uma abordagem desagregada seria impossÌvel. Isto È um desafio pois precisa ser feito sem permitir que ocorra a revelaÁ„o de informaÁıes sensitivas individuais. Para isso È imprescindÌvel que as agÍncias produtoras de dados estatÌsticos baseados em pesquisas (amostrais ou mesmo censit·rias) passem a fornecer nesses arquivos de microdados as informaÁıes sobre a estrutura populacional necess·rias ‡ modelagem. quando se pretende estimar vari‚ncias pelo mÈtodo do conglomerado prim·rio numa abordagem agregada de an·lise. bem como os pesos das unidades individuais. Os progressos recentes nas tÈcnicas e pacotes de modelagem hier·rquica tÍm levado essas tÈcnicas cada vez mais para o domÌnio da aplicaÁ„o pr·tica. Esse conhecimento pode ser insuficiente para permitir a modelagem de todos os nÌveis da hierarquia na populaÁ„o. basta conhecer estratos e pertinÍncia a Unidades Prim·rias de Amostragem. Sua consideraÁ„o foi uma das razıes que nos levou a discutir neste livro com maior detalhe a abordagem agregada.154 C A PÍ T U L O 9. e requer o uso de tÈcnicas apropriadas. que tambÈm depende do acesso a informaÁıes como as citadas aqui. Apesar desta dificuldade. Para citar um exemplo.

Ao longo deste texto foi discutido o impacto causado pela complexidade do plano amostral sobre as an·lises estatÌsticas. que muitas vezes requerem pacotes especializados para serem adotados.1 I n t ro d ução Os mÈtodos usados na coleta dos dados de pesquisas por amostragem introduzem uma complexidade na an·lise. tais como: ambiente computacional. tanto de um ponto de vista pr·155 .C a pí t u lo 10 P aco t es p a r a A n álise de D a dos A most r ais 10. Foi dada Ínfase em mostrar como a utilizaÁ„o das tÈcnicas de an·lise estatÌstica disponÌveis nos pacotes estatÌsticos padrıes de uso generalizado podem conduzir a conclusıes incorretas.2 P aco t es C o m p u t acion ais Hoje em dia est„o disponÌveis diversos pacotes especializados para analisar dados obtidos atravÈs de pesquisas amostrais. V·rios aspectos importantes podem diferenci·-los. mÈtodo de estimaÁ„o de vari‚ncia. abrangÍncia de planos amostrais que podem ser tratados. Neste capÌtulo fazemos breve revis„o dos pacotes computacionais especializados para a an·lise de dados de pesquisas amostrais complexas. 10. etc. Foram tambÈm sugeridos ajustes dos procedimentos para o caso de dados amostrais complexos. que deve ser considerada na obtenÁ„o de estimativas dos par‚metros de interesse e de seus nÌveis de precis„o associados. Carlson(1998) cita alguns aspectos importantes que influenciam na escolha de pacote computacional especializado. elenco de tÈcnicas estatÌsticas disponÌveis.

que j· vem com um conjunto de funÁıes ou procedimentos para an·lise de dados amostrais complexos integrados ‡ parte b·sica do pacote (veja Stata. incluindo as fÛmulas usadas para as estimativas pontuais e respectivas estimativas de vari‚ncia. bem como arquivos em formato de texto (ASCII). Pode haver. cap. ï ser capaz de tratar conjuntos de dados criados por pacote estatÌstico padr„o. identificando ao menos o estrato. . ï conter as tÈcnicas de an·lise estatÌstica requeridas. De um ponto de vista pr·tico. Uma exceÁ„o ‡ regra parece ser o caso do pacote STATA (descrito mais adiante). necessidade de utilizar o pacote padr„o tendo como entrada deste os resultados gerados pelo pacote especializado. a UPA e o peso de cada unidade da amostra. o arquivo deve ser ordenado por estrato e tambÈm por UPA dentro de estrato. mais f·cil o seu uso inadequado. Para analisar dados de pesquisas amostrais.156C A PÍ T U L O 10. tais tarefas seriam facilitadas caso os pacotes de uso geral contivessem ferramentas de an·lise apropriadas para dados de pesquisas amostrais complexas. 36). o que n„o ocorre na maioria dos casos. ï ter capacidade de lidar com planos amostrais n„o-padrıes. Carlson(1998) ressalta ainda que quanto mais f·cil o uso do pacote. base de dados ou planilha. ï ter documentaÁ„o tÈcnica detalhada e completa. Por outro lado. sugerindo que do ponto de vista da facilidade de uso um pacote deve ainda: ï ter documentaÁ„o bem redigida. Sem d˙vida. a utilizaÁ„o de qualquer um desses programas especializados sÛ se torna possÌvel se forem incluÌdas no arquivo de dados vari·veis que informem a estrutura do plano amostral. e depois import·-los para uso em pacotes especializados. SPSS ou outro. para maior facilidade do usu·rio. 1997. PA C O T ES PA R A A N Á LISE D E D A D OS A M OS T R A IS tico quanto da facilidade de uso. Menciona tambÈm outras caracterÌsticas importantes. È comum criar arquivos de dados atravÈs de pacotes de uso geral tais como SAS. AlÈm disso. um pacote deve idealmente: ï operar num ambiente computacional familiar ao usu·rio. ainda.

1985. sejam iguais ou distintas. para domÌnios e diferenÁas entre domÌnios. veja Wolter. Os pacotes especializados disponÌveis diferem. ou divulgar ao menos o efeito de plano amostral mÈdio para certos tipos de vari·veis e para certos domÌnios de estudo. ï as escalas de mensuraÁ„o das vari·veis. Poucos calculam estimativas de vari‚ncias e estatÌsticas de teste associadas em an·lise de sobrevivÍncia. ainda. a documentaÁ„o dos arquivos de microdados de uso p˙blico deve sempre conter avisos sobre a necessidade de considerar o plano amostral no c·lculo de estimativas. incluindo: ï a estratificaÁ„o utilizada. ï os est·gios de amostragem.10. Quase todos fornecem testes estatÌsticos baseados nessas vari‚ncias amostrais. no caso de vari·veis categÛricas ou ordinais. pode fornecer mecanismos abreviados ou aproximados de avaliaÁ„o da precis„o das estimativas. informaÁıes tais como desvios padrıes e/ou coeficientes de variaÁ„o e/ou efeitos de plano amostral das estimativas de interesse. tabelas de contigÍncia. ï as categorias e escalas de resposta. cap. se contÌnuas. a agÍncia deve prover. inclusive se as unidades foram selecionadas com ou sem reposiÁ„o. Outros estimam tambÈm vari‚ncias de estatÌsticas na regress„o e na regress„o logÌstica. modelos de equaÁıes generalizadas de estimaÁ„o e razıes padronizadas.2. . totais e proporÁıes para a totalidade da amostra. CVs ou EPAs para uma grande quantidade de vari·veis. categÛricas ou ordinais. efeitos de especificaÁ„o incorreta. Alguns estimam as vari‚ncias amostrais e estatÌsticas relacionadas como efeitos de plano amostral. homogeneidade intraconglomerado. sÛ para estimadores de mÈdias. quanto ‡ abrangÍncia de mÈtodos de an·lise estatÌstica. 5) ou ent„o tabelas com estimativas dos desvios padrıes. ï as probabilidades de seleÁ„o em cada est·gio. Alternativamente. PA C O T ES C O M P U T A C I O N A IS 157 Essas informaÁıes devem ser fornecidas pela agÍncia produtora dos dados. os usu·rios devem ter acesso ao conhecimento detalhado das caracterÌsticas do plano amostral. tais como funÁıes de vari‚ncia generalizadas (do inglÍs generalised variance functions. Por ˙ltimo. Para que tais avisos sejam efetivos e possam ser acatados. ï os mecanismos de seleÁ„o em cada est·gio. quando solicitada. Se isto n„o for possÌvel por razıes de sigilo ou outras razıes pr·ticas.

158C A PÍ T U L O 10. PA C O T ES PA R A A N Á LISE D E D A D OS A M OS T R A IS
A seguir transcrevemos do artigo Lepkowski e Bowles(1996) uma lista
dos pacotes especializados mais utilizados para an·lise de dados de pesquisas
amostrais.
SU D A A N
Statistical Software Center
Research Triangle Institute
3040 Cornwallis Road
Research Triangle Park
NC 27709-2194
USA
e-mail: SUDAAN@rti.org
internet: www.rti.org/patents/sudaan.html
SUDAAN (sigla de SUrvey DAta ANalysis) È um pacote computacional
para an·lise de dados correlacionados, incluindo dados de pesquisas amostrais complexas. Possibilita a estimaÁ„o de v·rias caracterÌsticas populacionais e de seus erros amostrais, incluindo mÈdias, proporÁıes, razıes,
quantis, tabelas cruzadas, razıes de vantagens (do inglÍs odds ratios), alÈm
de modelos de regress„o linear e logÌstica, modelos de riscos proporcionais e
an·lise de tabelas de contingÍncia.
SUDAAN usa aproximaÁıes de linearizaÁ„o de Taylor para estimaÁ„o de
vari‚ncias, e permite tambÈm empregar o mÈtodo do conglomerado prim·rio. Permite tratar o caso de seleÁ„o de unidades de primeiro est·gio com
ou sem reposiÁ„o, incluindo componentes de vari‚ncia, bem como planos
de amostragem aleatÛria simples e amostragem estratificada de unidades
elementares. SUDAAN est· disponÌvel para PCs sob DOS e tambÈm sob
Windows. TambÈm est„o disponÌveis versıes para computadores de grande
porte. Os preÁos variam em funÁ„o do tipo de instituiÁ„o, tipo e n˙mero de
licenÁas. Por exemplo, o preÁo de uma sÛ licenÁa nova da vers„o 6.53 de PC
do SUDAAN para empresas comerciais e agÍncias governamentais È US$995
e a vers„o 7.0 de Windows custa US$1495.
Stata
Stata Corporation
702 University Drive East
College Station
TX 77840
USA
e-mail: stata@stata.com
internet: www.stata.com

10.2. PA C O T ES C O M P U T A C I O N A IS

159

Stata È um sistema computacional program·vel de an·lise estatÌstica, que
recentemente introduziu comandos para o c·lculo de estimativas de desvios
padrıes de v·rias estatÌsticas para dados amostrais complexos. O programa
est· disponÌvel em ambientes DOS e Windows com comandos por teclado.
Telas e menus de ajuda est„o disponÌveis na vers„o em Windows. Stata usa
aproximaÁ„o de linearizaÁ„o de Taylor para estimaÁ„o de vari‚ncias. Seu
preÁo de lista È US$945 para usu·rios commerciais e US$395 para usu·rios
acadÍmicos.
Os comandos atuais de an·lise incluem sv y m ea n, sv y t o t al, sv y r a t io,
and sv y p rop para estimaÁ„o de mÈdias, totais, razıes e proporÁıes, alÈm
dos commandos sv y r eg, sv y logi t, e sv y p rob t para an·lise de regress„o
linear, logÌstica e probit respectivamente. Os comandos sv y lc and sv y t est
permitem a estimaÁ„o de combinaÁıes lineares de par‚metros e testes de
hipÛteses. O comando sv y d es possibilita ao usu·rio descrever o plano amostral especÌfico adotado e deve ser usado antes de qualquer dos comandos de
estimaÁ„o e an·lise citados anteriormente.
H· intenÁ„o de acrescentar comandos para estimar funÁıes de distribuiÁ„o e quantis, an·lise de tabelas de contingÍncia, recursos para compensaÁ„o de dados ausentes e outras an·lises.
W es V a r P C
Westat, Inc.
1650 Research Blvd.
Rockville, MD 20850-3129
USA
e-mail: WESVAR@westat.com
internet: www.westat.com/wesvarpc/index.html
WesVarPC È um sistema computacional estatÌstico projetado pela Westat,
Inc. para an·lise de dados de pesquisas amostrais complexas. O programa
opera em ambiente Windows (3.1, 3.11, e 95) e È completamente comandado
por menus. Seu plano amostral b·sico È estratificado com v·rios est·gios de
conglomeraÁ„o. WesVarPC usa o mÈtodo do conglomerado prim·rio combinado com tÈcnicas de replicaÁ„o para estimaÁ„o de vari‚ncias, incluindo os
mÈtodos de jackknife, meias amostras balanceadas (do inglÍs balanced half
samples), e a modificaÁ„o de Fay do mÈtodo de meias amostras balanceadas. Os dados podem ser lidos em arquivos formato ASCII, DBF, SPSS
para Windows, SAS Transport, ou formato PC SAS para DOS.
WesVarPC requer que uma nova vers„o do conjunto de dados seja criada
num formato especial WesVarPC. Para isto È necess·rio especificar rÈplicas

160C A PÍ T U L O 10. PA C O T ES PA R A A N Á LISE D E D A D OS A M OS T R A IS
e, se a pÛs-estratificaÁ„o for incorporada na estimaÁ„o de vari‚ncias, pesos
de rÈplicas devem tambÈm ser criados. WesVarPC permite a an·lise de
tabelas de contingÍncia, regress„o linear e regress„o logÌstica. H· um sistema
completo de comandos por menu para criar novas vari·veis, o que amplia o
conjunto de estatÌsticas possÌveis de usar no WesVarPC. A saÌda tem formato
de lista com uma linha para cada estatÌstica. Este formato È adequado para
publicaÁ„o, e pode ser arquivado para processamento em planilha ou em
outro programa.
C E N VA R
International Programs Center
U.S. Bureau of the Census
Washington, DC 20233-8860, USA
e-mail :IMPS@census.gov
internet : www.census.gov/ftp/pub/ipc/www/imps.html
CENVAR È um componente do sistema computacional estatÌstico IMPS
(Integrated Microcomputer Processing System) para apuraÁ„o, gerenciamento e an·lise de dados de pesquisas complexas. Pode ser utlizado com os seguintes planos amostrais: amostragem aleatÛria simples; amostragem estratificada; e amostragem de conglomerados em v·rios est·gios com probabilidades iguais ou distintas de seleÁ„o. Estes planos amostrais s„o todos tratados atravÈs do mÈtodo do conglomerado prim·rio combinado com a aproximaÁ„o de linearizaÁ„o de Taylor para estimaÁ„o de vari‚ncias. CENVAR
È uma vers„o parcial do programa PC CARP, desenvolvido pela Iowa State
University, que descrevemos mais adiante.
CENVAR pode ser obtido gratuitamente atravÈs do endereÁo internet
fornecido. Os dados devem ser lidos de arquivos em formato ASCII, com
uso de um dicion·rio IMPS.
CENVAR pode produzir desvios padrıes para estimativas de mÈdias,
proporÁıes e totais para toda a amostra bem como para domÌnios especificados num formato tabular. AlÈm disso, fornece desvios padrıes, limites
de confianÁa de 95%, coeficientes de variaÁ„o, efeitos de plano amostral e
tambÈm tamanhos de amostras considerados nos c·lculos (freq¸Íncias n„o
expandidas).

PC CARP usa a aproximaÁ„o de linearizaÁ„o de Taylor para estimaÁ„o de vari‚ncias.Complex Analysis Regression Program).gov internet: www. POSTCARP para estimativas de totais. Os programas s„o projetados para lidar com amostras estratificadas de conglomerados em v·rios est·gios. e com correÁ„o de populaÁ„o finita para atÈ dois est·gios de seleÁ„o. V PLX Robert E.S. IA 50011 USA e-mail : sandie@iastate.gov/sdms/www/vwelcome. razıes e diferenÁas de razıes via pÛs-estratificaÁ„o.html VPLX È um programa isolado para estimaÁ„o de vari‚ncias.2. razıes e diferenÁas de razıes. mediante a criaÁ„o de um dicion·rio prÛprio. alÈm de freq¸Íncias e estatÌsticas de teste para tabelas de duas entradas. PC CARP pode ser usado para estimar desvios padrıes de estimativas de totais. Bldg. Os dados devem ser lidos em arquivo formato ASCII.html PC CARP È um programa para computadores tipo PC desenvolvido pela Iowa State University para implementar mÈtodos de an·lise de dados amostrais complexos (seu nome vem da sigla em inglÍs CARP . proporÁıes. Bureau of the Census Washington. mÈdias. 3 U. O conjunto de programas pode ser adquirido do Statistical Laboratory da Iowa State University por US$300. PA C O T ES C O M P U T A C I O N A IS 161 PC CARP Sandie Smith Statistical Laboratory 219 Snedecor Hall Iowa State University Ames.edu/survey/software/pccarp.10. e EV CARP para an·lise de regress„o considerando erros de mediÁ„o nas vari·veis preditoras. PC CARP È completado por um conjunto de trÍs outros programas que ampliam o escopo de an·lises disponÌveis: PC CARPL para regress„o logÌstica.edu internet: www.census. DC 20233-9001 USA e-mail: rfay@census. Fay Room 3067.statlib.iastate. quantis. projetado e usado pelo US Bureau of the Census para dados de pesquisa amostrais . O programa opera em um ambiente DOS com comandos por teclado.

proporÁıes e totais.S. VPLX pode produzir desvios padrıes para estimativas de mÈdias.ac.gov/epo/epi/epi. e de replicaÁ„o balanceada. Opera em ambiente DOS com comandos pelo teclado. CLUSTER fornece estimativas dos coeficientes de variaÁ„o. C L UST E RS Vijay Verma World Fertility Survey 105 Park Road. CLUSTERS usa o mÈtodo do conglomerado prim·rio combinado com a aproximaÁ„o de linearizaÁ„o de Taylor para estimaÁ„o de vari‚ncias. Os dados devem ser lidos em arquivos formato ASCII mediante a criaÁ„o de um dicion·rio prÛprio. E p i I nfo Andrew G. mediante a criaÁ„o de um dicion·rio de formato prÛprio. e adota o mÈtodo do conglomerado prim·rio. de jackknife. Os dados devem ser lidos de arquivos em formato ASCII.A e-mail:AGD1@epo.gov internet: www.162C A PÍ T U L O 10. CLUSTERS pode produzir estimativas de desvios padrıes para mÈdias e proporÁıes. combinado com tÈcnicas de replicaÁ„o para estimaÁ„o de vari‚ncias. AlÈm dos desvios padrıes.cdc. O principal plano amostral È amostragem estratificada de conglomerados em v·rios est·gios.html .cdc. dos efeitos de plano amostral e tamanhos de amostras considerados nos c·lculos (freq¸Íncias n„o expandidas). para toda a amostra bem como para domÌnios. Dean. O VPLX È fundamentalmente projetado para amostras estratificadas em v·rios est·gios. PA C O T ES PA R A A N Á LISE D E D A D OS A M OS T R A IS complexas. tanto para a totalidade da amostra como para domÌnios especificados.uk CLUSTERS È um programa isolado desenvolvido originalmente pela equipe da World Fertility Survey e depois aperfeiÁoado por Vijay Verma e Mick Verma. incluindo procedimentos baseados nos mÈtodos de grupos aleatÛrios.cdc. O VPLX pode ser obtido gratuitamente no endereÁo internet. bem como estatimativas de correlaÁıes intraclasse. MD Epidemiology Program Office. TW11 OAW. Mailstop C08 Centers for Disease Control and Prevention Atlanta.gov ou EpiInfo@cdc1. GA 30333 U. Teddington (Middlesex). e tambÈm para diferenÁas entre domÌnios especificados num formato tabular.em. United Kingdom e-mail: vjverma@essex.

Seu plano amostral b·sico È amostragem de conglomerados em v·rios est·gios. Lotus. proporÁıes e mÈdias expandidas. limites de confianÁa de 95% e efeitos de plano amostral. tanto para a totalidade da amostra como para domÌnios especificados atravÈs de tabelas de duas entradas. ou ASCII. . A leitura de dados pode ser feita de arquivos em formatos DBF. gerenciamento e an·lise de dados epidemiolÛgicos. PA C O T ES C O M P U T A C I O N A IS 163 Epi Info È um pacote estatÌstico para epidemiologia. atravÈs do mÈtodo do conglomerado prim·rio combinado com a aproximaÁ„o de linearizaÁ„o de Taylor para estimaÁ„o de vari‚ncias. para apuraÁ„o. desenvolvido pelo US Centers for Disease Control and Prevention. desvios padrıes. Epi Info pode ser obtido gratuitamente do endereÁo internet fornecido. A saÌda inclui apenas frequÍncias n„o expandidas. incluindo an·lise de dados de pesquisas amostrais complexas (componente CSAMPLE).10. O pacote pode produzir estimativas de desvios padrıes para estimativas de mÈdias e proporÁıes.2.

PA C O T ES PA R A A N Á LISE D E D A D OS A M OS T R A IS .164C A PÍ T U L O 10.

Analytic uses of survey data: a review. Wiley. 74. Mathematical Statistics: Basic Ideas and Selected Topics. [9] Carlson B. (1983).M. (1990). International Statistical Review.B i b liogr a fi a [1] Agresti A. (1997). Newbury Park: Sage. Kumar S..J.L. 243-264. [4] Binder D.S.A.V. (1998).. (1992). [3] Bickel P. Paton D. A aparecer em: Armitage P. e Bianchini Z.M. Cambridge. (1987).. [8] Bryk A. Software for statistical analysis of sample survey data. S„o Francisco: Holden-Day. 911-915. [6] Bishop Y. (1979). p. On the variances of asymptotically normal estimators from complex surveys. Applied Probability. Departamento de Metodologia. e Holland P. p. (eds).W. e Umphrey G. e Baaren A. Kovar J. (1975).E.. 165 . e Colton T. 279-292. Journal of the American Statistical Association. Aspectos de amostragem relativos ‡ pesquisa domiciliar sobre padrıes de vida. Nova Iorque: Wiley. Em MacNeill I.W. Fienberg S.W. Hierarquical Linear Models: Applications and Data Analysis Methods. Discrete Multivariate Analysis: Theory and Practice. e Doksum K.R. A class of robust sampling designs for large scale surveys.J. [2] Albieri S. 51. (1977). Rio de Janeiro: IBGE. Massachusetts: The MIT Press. mimeo. e Raudenbush S.M. [7] Brewer K.A. Encyclopaedia of Biostatistics.G. p. Stochastic Processes and Sampling Theory. Categorical Data Analysis.A.B. (eds). [5] Binder D.

H.C.A. Least squares and related analyses for complex survey designs. Jollife I. 51. Survey Methodology. Foundations of Inference in Survey Sampling. Manuscrito inÈdito cedido por cortesia do autor. p.L. Nova Iorque: Wiley. Journal of the Royal Statistical Society A. (1997). Regression analysis for sample survey.R.D. e Wretman J.S. e Nascimento Silva P.E. p. [16] Diggle P. Nova Iorque: Wiley. Sampling Techniques.T.M.166 B I B LI O G R A F I A [10] Cassel C. Nova Iorque: Prentice Hall.L. [23] Haggard E.H.Y. p. (1984). Intraclass Correlation and the Analysis of Variance. Duarte R. [21] Fuller W. Journal of the American Statistical Association. 10. Rio de Janeiro: IBGE. (1981). Second Edition. Theoretical Statistics. (1986).G.L. Liang K. e Jones B. (1994). Applied Regression Analysis. e Hinkley D. 37. Pessoa D. Regression analysis with sample survey data. p. Albieri S. Third Edition.E. 117-132.G.. Nova Iorque: Wiley. [12] Chambers R.P.N. (1975). [22] Garthwaite P. Statistical Inference. Analysis of Longitudinal Data. [20] Fuller W.A. (1956).P. (1995)...R. (1995). 149. Londres: Chapman & Hall.P.. Departamento de Metodologia. . e Smith H. (1977). mimeo. [19] Freitas M. Design-adjusted parameter estimation.V. [14] Cox D. p. Approximate tests of independence and goodnessof-fit based on stratified multistage samples.J. [18] Fellegi I. Oxford: Clarendon Press.L. Comparando distribuiÁıes et·rias em pesquisas por amostragem: PNAD 95 e PPV 96/97. S‰rndal C. On simplifications of sampling design through replication with equal probabilities and without stages. [15] Deming W. (1980). (1958).. (1977). [11] Chambers R.A.. 261-268. 161-173. e Zeger S. Journal of the American Statistical Association. 24-53. Nova Iorque: Dryden Press. 97-118. [13] Cochran W. Sankhya C. [17] Draper N. 75. (1974).

Smith T.. p. e Smith T. (1988). Hung. 175-188. [27] Holt D. (1960). International Statistical Review. 303-320. Analysis of Complex Surveys. e Madow W.H. Introduction to part C. 77. Sci. SÈrie RelatÛrios MetodolÛgicos. Scott A. [32] Johnson R.A. Rio de Janeiro: IBGE. Survey Sampling.D. [33] Kalton G. Journal of the Royal Statistical Society A. 51.Math. Practical Methods for Design and Analysis of Complex Surveys. e Fuller W. (1983b). [26] Holt D. p. (1953).T. Nova Iorque: Wiley. Chichester. Englewood Cliffs. [31] Isaki C. Nova Iorque: Wiley. Rio de Janeiro: IBGE. [34] Kalton G. . e Winter P. [28] Holt D. Models in the practice of survey sampling. (1980). Survey design under the regression superpopulation model. Second Edition. Chi-squared tests with survey data. Metodologia da Pesquisa Nacional por Amostra de DomicÌlios na DÈcada de 70. 1-37. 36. [37] Lehtonen R. Wiley. [36] Kish L. Journal of the American Statistical Association. 361-374. p.J. (1982).F. Pub. e Pahkinen E. Journal of the Royal Statistical Society A.J.. Amostra de Uso P˙blico do Censo Demogr·fico de 1980 . Regression analysis of data from complex surveys. 5. Hurwitz W. Michigan: The University of Michigan. Journal of the Royal Statistical Society B ..Metodologia e Manual do Usu·rio. e Frankel M.N. [25] Hansen M. (1974). Chichester: Wiley. Sample Survey Methods and Theory.G. 89-96.D. 1. Institute for Social Research. Inst. 143. (1995). [35] Kish L.W. Holt D. Acad. Ann Arbor. [30] IBGE (1985).B I B LI O G R A F I A 167 [24] H‡jek J.R. Em: Skinner C. p. Survey Research Center. Applied Multivariate Statistical Analysis. p. Inference from complex samples (with discussion). 143. Compensating for missing survey data. (1989). 209-215. (1965). e Ewings P. p.M. 474-487. e Wichern D.F. [29] IBGE (1981).A. (1980). Limiting distributions in simple random sampling from finite populations. p. (1983a). (eds). New Jersey: Prentice Hall.M.

.J. Diretoria de Pesquisas. Escola Nacional de CiÍncias EstatÌsticas. Tese de Doutorado. Nascimento Silva P.D. (1996). 191-202. Rio de Janeiro: IBGE. p. RelatÛrio TÈcnico 02 / 96.G. [40] Little R.L. Oxford: Clarendon Press. (1996). SÈrie Textos para Discuss„o. (1993). p. 10-17.E. p. 35. p. (1987). Utilizing Auxiliary Information for Estimation and Analysis in Sample Surveys. (1987). Sampling error software for personal computers.T.S. (1934). p.D. 55.C. (1996). A sample survey of the acreage under jute in Bengal. Statistical Analysis with Missing Data. 377-386.D. The role of sampling weights when modelling survey data. Um perfil sÛcio-econÙmico das pessoas ocupadas no setor informal na ·rea urbana do Rio de Janeiro. [49] Pessoa D. Journal of the Royal Statistical Society A. 97. Department of Social Statistics. [48] Neyman J. Revista Brasileira de EstatÌstica. On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection. 42. (1993). Post-sampling efficient QR-prediction in largesample surveys. p. e Bowles J. (1997). Random Coefficient Models. 558-606.D. [46] Nascimento Silva P. a aparecer. [41] Longford N. Sankhya. [50] Pfeffermann D.P. (1939).B. [42] Mahalanobis P. (1980). 511-531. Journal of the Royal Statistical Society B. 4. The effect of survey design on regression analysis. (1990). [44] Montanari G. 317-337.M. The Survey Statistician. International Statistical Review.L.168 B I B LI O G R A F I A [38] Leote R.L. e Moura F.N. International Statistical Review.A. 61. Nova Iorque: Wiley. Southampton: University of Southampton. An·lise estatÌstica de dados de pesquisas por amostragem: problemas no uso de pacotes padrıes. 231. [45] Nascimento Silva P. [43] Mahalanobis P. 329-451. Efeitos de conglomeraÁ„o da malha setorial do censo demogr·fico 80. [47] Nathan G. Philosophical Transactions of the Royal Society of London B. e Rubin D.C. p. [39] Lepkowski J. . (1944). Rio de Janeiro: IBGE.A. e Holt D.C. e Duarte R. 32. On large-scale sample surveys.

(1949). The analysis of categorical data from complex sample surveys: chi-squared tests for goodness-of-fit and independence in two way tables. 2. Research Triangle Park. (1956). Biometrika. Notes on bias in estimation.M.E. [52] Pfeffermann D. Swensson B. (1981). [56] Robinson P.e Rasbash J.. [55] Rao J. 76. E.K. Journal of the Royal Statistical Society B. Asymptotic properties of the generalized regression estimator in probability sampling. e Wretman J.H. (1998). p. Skinner C. (1981). [60] Satterthwaite F.J. Folsom R. e Williams R. Weighting for unequal selection probabilities in multilevel models. Statistical Methods and Mathematical Algorithms Used in SUDAAN. p. 60. e LaVange L. p. [58] Rubin D. 23-40. 581592. 221-230. [61] Shah B. Goldstein H. p. (1993). p.N. p. [54] Quenoille M. Journal of the American Statistical Association. p.. Boyle K. Journal of the American Statistical Association.G.C. e S‰rndal C.L..J.M.E. 110-114. Nova Iorque: Wiley. Research Triangle Park. Regression analysis of data from complex samples.release 6. [59] S‰rndal C. Barnwell B. [62] Shah B. 45. Biometrics. An approximate distribution of estimates of variance components. 240-248. Model Assisted Survey Sampling.. Biometrika. Inference and missing data. (1992). (1992). 63.. NC: Research Triangle Institute. Hunt P.B I B LI O G R A F I A 169 [51] Pfeffermann D. 353-360.. Wheeless S. Holmes D.. Multiple Imputation for Nonresponse in Surveys. Annals of Mathematical Statistics.N. 76.V. 43.0.H. Sankhya B. (1946).E. J. Nova Iorque: Springer-Verlag.E. NC: Research Triangle Institute. [57] Rubin D..B. . SUDAAN Userís Manual . e Nathan G.B. p. 681-689.Professional Software for SUrvey DAta ANalysis for multi-stage sample designs .H. 20. (1983). 355-375..V.M. e Scott A.. (1987). Problems in plane sampling. LaVange L. (1976). [53] Quenoille M.

Chichester.. Em: Skinner C. (eds) (1989). p. e Smith T. Nova Iorque: Springer-Verlag. J. Ignorable and informative designs in survey sampling inference. (eds) Analysis of Complex Surveys. [72] Wolter K. Applied Sampling. Holt D. Washington DC: BLS Bulletin 2134-2. (1987). version 2. Mariland: Westat. Holt D. Analysis of Complex Surveys. [71] Westat (1996).F.F. College Station. Journal of the American Statistical Association. [66] Stata (1997).F. [67] Sudman S. Rockville.A. Wiley. BLS Handbook of Methods Volume II . Chichester. e Smith T.R e Rao J.M. e Smith T. Stata Userís Guide. (1989a). Em: Skinner C. 82. . Introduction to part A. 23-57.M. [68] Sugden R.J. Release 5. [65] Skinner C. 630-636.M.. 495-506.M. Wiley.J. Texas: Stata Press. [70] US Bureau of Labor Statistics (1984). p. (1984).. (eds).J. Chichester: Wiley. Nova Iorque: Academic Press. Analysis of Complex Surveys. (1989b). p. Small-sample comparison of level and power for simple goodness-of-fit statistics under cluster sampling. (1985). p. Introduction to Variance Estimation. [64] Skinner C. J.F.M. Holt D. Domain Means.K.170 B I B LI O G R A F I A [63] Skinner C.The Consumer Price Index.N. Inc. e Smith T. Biometrika. [69] Thomas D.0. 71. A Userís Guide to WesVarPC. Regression and Multivariate Analysis. (1976). 59-87.