You are on page 1of 193

Técnicas de Amostragem (parte 2

)
(2
a
versão)
Zélia Magalhães Bianchini
Agosto/2003
2
Conteúdo
1 Estimadores Especiais 1
1.1 Informações auxiliares em amostragem . . . . . . . . . . . . . 1
1.2 Estimação de uma razão . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Propriedades do estimador de uma razão . . . . . . . . 3
1.2.2 Variância do estimador de uma razão . . . . . . . . . . 9
1.2.3 Estimação da variância do estimador de uma razão . . 14
1.2.4 Precisão do estimador de uma razão . . . . . . . . . . . 14
1.3 Estimadores de razão para o total e a média . . . . . . . . . . 16
1.3.1 Variâncias dos estimadores de razão para o total e a
média . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2 Estimação das variâncias dos estimadores de razão para
o total e a média . . . . . . . . . . . . . . . . . . . . . 19
1.3.3 Comparação da precisão do estimador de razão com a
do estimador simples em amostragem aleatória simples 19
1.4 Estimadores de razão em amostragem estratificada . . . . . . 20
1.4.1 Estimador de razão combinada . . . . . . . . . . . . . 20
1.4.2 Estimador de razão separada . . . . . . . . . . . . . . . 26
1.4.3 Comparação dos estimadores de razão separada e com-
binada . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.4 O uso de estimadores de razão . . . . . . . . . . . . . . 32
1.5 Estimadores de Regressão . . . . . . . . . . . . . . . . . . . . 33
1.5.1 Comparação dos estimadores de regressão, razão e sim-
ples da média sob amostragem aleatória simples . . . . 36
1.5.2 O uso de estimadores de regressão . . . . . . . . . . . . 37
1.6 Pós-estratificação . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.6.1 Estimação do total e da média . . . . . . . . . . . . . . 39
1.6.2 Precisão dos estimadores com pós-estratificação . . . . 40
1.7 O uso de informações auxiliares na estimação . . . . . . . . . . 43
1.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3
4 CONTEÚDO
2 Amostragem de Conglomerados 53
2.1 Conceituação Básica . . . . . . . . . . . . . . . . . . . . . . . 53
2.2 Amostragem de Áreas . . . . . . . . . . . . . . . . . . . . . . 55
2.3 Conglomerados em 1 estágio . . . . . . . . . . . . . . . . . . 56
2.3.1 Probabilidades iguais de seleção . . . . . . . . . . . . . 56
2.3.2 Estimação de proporções na Ac1 . . . . . . . . . . . . 65
2.3.3 Coeficiente de Correlação Intraclasse . . . . . . . . . . 69
2.3.4 Estimação do coeficiente de correlação intraclasse . . . 75
2.3.5 Eficiência da Ac1 em relação à AAS com conglomera-
dos de tamanhos iguais . . . . . . . . . . . . . . . . . . 77
2.4 Controle na variação de tamanho . . . . . . . . . . . . . . . . 82
2.5 Probabilidades desiguais de seleção . . . . . . . . . . . . . . . 83
2.5.1 Seleção dos conglomerados comprobabilidades desiguais
e com reposição . . . . . . . . . . . . . . . . . . . . . . 83
2.6 Estratificação de conglomerados . . . . . . . . . . . . . . . . . 93
2.6.1 Estimadores e respectivas precisões . . . . . . . . . . . 94
2.7 Estimador de razão . . . . . . . . . . . . . . . . . . . . . . . . 97
2.7.1 Estimador de razão baseado no tamanho dos conglom-
erados . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.7.2 Estimador de razão baseado em uma característica que
não seja o tamanho do conglomerado . . . . . . . . . . 101
2.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3 Conglomerados em 2 estágios 109
3.1 Probabilidades iguais de seleção . . . . . . . . . . . . . . . . . 109
3.1.1 Introdução e definições básicas . . . . . . . . . . . . . . 109
3.1.2 Parâmetros da característica y . . . . . . . . . . . . . . 112
3.1.3 Estatísticas da amostra em cada estágio . . . . . . . . 113
3.1.4 Estimadores de total e médias e respectivas variâncias . 114
3.1.5 Estimadores das variâncias dos estimadores de total e
médias . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.1.6 Amostra autoponderada . . . . . . . . . . . . . . . . . 123
3.1.7 Dimensionamento da amostra de conglomerados em 2
estágios . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3.1.8 Efeito de conglomeração . . . . . . . . . . . . . . . . . 135
3.2 Controle de variação de tamanho das UPAs . . . . . . . . . . 137
3.2.1 Probabilidades desiguais de seleção das unidades primárias138
3.2.2 Estratificação das unidades primárias e seleção com
probabilidades desiguais de seleção . . . . . . . . . . . 147
3.2.3 Estimador de razão . . . . . . . . . . . . . . . . . . . . 149
3.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
CONTEÚDO i
4 Conglomerados em 3 estágios 161
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.2 Seleção com probabilidades desiguais . . . . . . . . . . . . . . 161
4.2.1 Estimador não viciado de Y . . . . . . . . . . . . . . . 162
4.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
5 Estimação de variâncias 165
5.1 Porque é importante estimar variâncias? . . . . . . . . . . . . 165
5.2 Problemas para estimar variâncias . . . . . . . . . . . . . . . 165
5.3 Métodos para estimar variâncias . . . . . . . . . . . . . . . . . 166
5.3.1 Método de Linearização de Taylor ou δ-método . . . . 166
5.3.2 Método do Conglomerado Primário (Ultimate Cluster
- Hansen et al, 1953) . . . . . . . . . . . . . . . . . . . 168
5.3.3 Métodos de Replicação . . . . . . . . . . . . . . . . . . 170
5.4 Sistemas para estimação de variâncias . . . . . . . . . . . . . . 172
6 Dupla amostragem 175
6.1 Descrição da técnica . . . . . . . . . . . . . . . . . . . . . . . 175
6.2 Considerações sobre o custo . . . . . . . . . . . . . . . . . . . 176
6.3 Dupla amostragem para estratificação . . . . . . . . . . . . . . 177
6.3.1 Estimador não viciado para V
¡
y
d,est
¢
. . . . . . . . . . 180
6.3.2 Estimação de uma proporção na dupla amostragem
para estratificação . . . . . . . . . . . . . . . . . . . . 180
6.4 Dupla amostragem para estimadores de razão . . . . . . . . . 181
6.5 Dupla amostragem para probabilidades desiguais . . . . . . . 183
Prefácio
Estas notas de aula vêm sendo ministradas na disciplina de Tecnologia da
Amostragem II do Curso de Graduação em Estatística da Escola Nacional
de Ciências Estatísticas - ENCE. Trata-se da apresentação da teoria e apli-
cação de estimadores especiais e das técnicas de seleção e de estimação em
amostras de conglomerados em um ou mais estágios e de dupla amostragem.
As notas de aula preparadas por Pedro Luis do Nascimento Silva quando
de sua atuação como professor no referido curso, bem como as referências
bibilográficas básicas, serviram como base para a elaboração deste material.
ii CONTEÚDO
Cabe esclarecer que é intenção incorporar num mesmo volume o conteúdo
da disciplina de Tecnologia de Amostragem I, que corresponde aos funda-
mentos e técnicas básicas para selecionar amostras e realizar estimação em
pesquisas por amostragem: conceitos básicos de amostragem, amostragem
aleatória simples come semreposição, distribuições amostrais e erro amostral,
estimação de proporções e domínios, cálculo de tamanhos de amostra, amostra-
gem sistemática, amostragem estratificada e amostragem com probabilidades
desiguais.
A realização deste trabalho deve-se em grande parte ao incentivo de Pedro
Luis do Nascimento Silva para a preparação de um livro de amostragem em
português com o objetivo de facilitar o aprendizado dos alunos de graduação
em Estatística na aplicação de técnicas para selecionar amostras e realizar
estimação em pesquisas por amostragem.
Uma primeira versão dessas notas vinha sendo utilizada no curso de Gra-
duação da ENCE no 6
o
período, desde o 2
o
semestre de 1999. Agradeço aos
alunos pelas indicações de correções efetuadas, em especial a Adrian Heringer
Pizzinga, Ralph dos Santos Silva e Rodrigo Lage de Sousa, do 6
o
período do
2
o
semestre de 1999.
Agradeço a Waldecir Bianchini pela colaboração no aprendizado para a
utilização do processador de texto Scientific Workplace e pela sua compreen-
são e de nossos filhos (Renata, Fernanda e Henrique) das inúmeras horas
extraordinárias de trabalho desviadas do convívio familiar para a realização
desta empreitada para a primeira versão.
Esta versão ainda passará por outras revisões e quaisquer sugestões sobre
eventuais falhas e omissões e sobre a incorporação de novos temas são bem
vindas em busca do aprimoramento do texto, do uso adequado da teoria e
aplicações em amostragem e da prepararação do profissional de Estatística
para os desafios que a carreira certamente lhe proporcionará.
Zélia Magalhães Bianchini
Rio de Janeiro, agosto de 2003.
Capítulo 1
Estimadores Especiais
1.1 Informações auxiliares em amostragem
Além da variável de interesse y
i
, uma ou mais variáveis x
i
podem estar
associadas com a i-ésima unidade da população. Por exemplo, se a variável
de interesse é o número de cabeças de gado em uma determinada fazenda,
variáveis auxiliares pode incluir a área da fazenda, o tipo de vegetação, etc.
Em algumas situações, os valores para a característica x são conhecidos
para toda a população, enquanto que em outras situações os valores de x são
conhecidos só para as unidades da amostra. Em muitas pesquisas, o valor
da variável de interesse de um censo anterior pode servir como uma variável
auxiliar.
Informações auxiliares podem ser usadas no desenho amostral ou na es-
timação. Variáveis usadas na estratificação, ou como medidas de tamanho
para a seleção com probabilidades proporcional ao tamanho, representam o
uso de informações auxiliares no desenho amostral.
Na estimação de total ou de média de uma característica y, a relação entre
y
i
e x
i
pode muitas vezes ser aproveitada para produzir estimativas mais
precisas do que estimativas que utilizam apenas as informações dos dados da
característica y. Estimadores de razão, de regressão e de pós-estratificação
são exemplos do uso de informações auxiliares na estimação.
1.2 Estimação de uma razão
Freqüentemente na prática de pesquisas por amostragem, o valor a ser esti-
mado com a amostra é uma razão entre duas variáveis que varia de unidade
para unidade da população.
Um exemplo, que pode ser citado, é a necessidade de se estimar a razão
1
2 CAPÍTULO 1. ESTIMADORES ESPECIAIS
entre os gastos das famílias com alimentação e a renda das famílias. Outro
exemplo seria a razão entre a quantidade colhida de certo produto pela área
plantada, medindo a produtividade da lavoura. Ainda outro exemplo se-
ria a razão entre o salário dos trabalhadores da indústria e o número de
trabalhadores da indústria, medindo o salário médio dos trabalhadores da
indústria.
Em todos estes exemplos, o que se procura conhecer é o valor de uma
razão R onde R =
Y
X
.
Considere-se a população P
N
= {U
1
, U
2
, · · · , U
N
}, onde serão investigadas
duas características, x e y, gerando uma população-matriz bivariada
P
N
(x, y) = {(X
1
, Y
1
), (X
2
, Y
2
), · · · , (X
N
, Y
N
)} ,
onde:
_
_
_
X
I
= x(U
I
)
Y
I
= y(U
I
)
I ∈ {1, 2, · · · , N}
Pode-se então definir o parâmetro razão na população, R, de forma
que:
R =
Y
X
=
N
P
I=1
Y
I
N
P
I=1
X
I
=
Y
X
Ponha-se então, o problema de estimar a razão R a partir de uma amostra
aleatória simples sem reposição de n unidades de P
N
,{u
1
, u
2
, · · · , u
n
}, onde
serão investigadas as características x e y, fornecendo
{(x
1
, y
1
), (x
2
, y
2
), · · · , (x
n
, y
n
)} .
Note-se que:
P [(x
i
, y
i
) = (X
I
, Y
I
)] =
1
N
∀ i ∈ {1, 2, · · · , n} e ∀ I ∈ {1, 2, · · · , N} .
Conclui-se que os vetores (x
i
, y
i
), i ∈ {1, 2, · · · , n}, são identicamente
distribuídos e que não são independentes, devido se tratar de amostragem
sem reposição.
Como R = Y / X = Y / X , um estimador intuitivamente razoável para
R é dado por:
b
R =
y
x
onde y =
1
n
n
X
i=1
y
i
e x =
1
n
n
X
i=1
x
i
.
1.2. ESTIMAÇÃO DE UMA RAZÃO 3
1.2.1 Propriedades do estimador de uma razão
Como verificar se
b
R é um estimador razoável? Em primeiro lugar, nota-
se que
b
R deve ser um estimador viciado de R, porém se pode mostrar que
b
R é assintoticamente não viciado; pode-se mostrar também que
b
R é um
estimador consistente de R.
Para provar que
b
R é um estimador consistente de R, é necessário intro-
duzir a definição de consistência.
Diz-se que um estimador
b
θ
n
é baseado numa amostra sem reposição de
tamanho n da população é consistente para o parâmetro θ se e somente se
b
θ
N
= θ, isto é, se P
h
b
θ
N
= θ
i
= 1.
Assim, a prova de que
b
R é consistente para R é imediata devido x se
igualar a X e y a Y quando a amostra cobrir todas as unidades da população.
Além disto,
y =
1
n
n
X
i=1
y
i
=
1
n
n
X
i=1
¡
Y +ξ
i
¢
= Y +
1
n
n
X
i=1
ξ
i
= Y +ξ
onde:
ξ =
1
n
n
X
i=1
ξ
i
De modo análogo se tem que:
x = X +φ onde φ =
1
n
n
X
i=1
φ
i
.
Sabe-se ainda que:
N −n
N
S
2
y
n
= V ( y ) = V (Y +ξ ) = V (ξ ) = E(ξ
2
) −
¡
E(ξ)
¢
2
= E(ξ
2
)
pois, E(ξ) = 0.
Analogamente,
E(φ
2
) = V (φ) =
N −n
N
S
2
x
n
Note-se que:
S
2
x
=
1
N −1
N
X
I=1
¡
X
I
−X
¢
2
e S
2
y
=
1
N −1
N
X
I=1
¡
Y
I
−Y
¢
2
.
4 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Desta forma, se pode escrever:
b
R =
y
x
=
Y +ξ
X +φ
=
Y
µ
1 +
ξ
Y

X
µ
1 +
φ
X

= R
µ
1 +
ξ
Y
¶ µ
1 +
φ
X

−1
Suponha-se que Y 6= 0 e X 6= 0. Suponha-se, ainda que
¯
¯
¯
¯
φ
X
¯
¯
¯
¯
< 1, isto é,
que a amostra foi dimensionada de forma que se pode esperar que
¯
¯
φ
¯
¯
< X
ou
¯
¯
x −X
¯
¯
< X.
Então, desenvolvendo-se o fator
µ
1 +
φ
X

−1
como série de potências de
φ, vem:
b
R = R
µ
1 +
ξ
Y
¶µ
1 +
φ
X

−1
= R
µ
1 +
ξ
Y

Ã
1 −
φ
X
+
φ
2
X
2

φ
3
X
3
+ · · ·
!
b
R = R

1 −
φ
X
+
φ
2
X
2

φ
3
X
3
+ · · ·
!
+
Ã
ξ
Y

ξ φ
Y X
+
ξ φ
2
Y X
2
−· · ·
!)
Desprezando-se na expressão entre parênteses todos os termos com grau
superior a 2, obtém-se uma aproximação para o valor de
b
R.
b
R

= R
Ã
1 −
φ
X
+
φ
2
X
2
+
ξ
Y

ξ φ
Y X
!
Agora calculando-se o valor esperado de
b
R vem:
E(
b
R)

= E
Ã
R
Ã
1 −
φ
X
+
ξ
Y
+
φ
2
X
2

ξ φ
Y X
!!
= R
Ã
E
Ã
1 −
φ
X
+
ξ
Y
+
φ
2
X
2

ξ φ
Y X
!!
= R
Ã
1 −E
µ
φ
X

+E
µ
ξ
Y

+E
Ã
φ
2
X
2
!
−E
µ
ξ φ
Y X

!
= R
µ
1 +
1
X
2
E
³
φ
2
´

1
Y X
E
¡
ξ φ
¢

No entanto:
E
³
φ
2
´
= V (φ) =
N −n
N
S
2
x
n
1.2. ESTIMAÇÃO DE UMA RAZÃO 5
Por outro lado:
E
¡
ξ φ
¢
= E
¡
y −Y
¢ ¡
x −X
¢
= COV ( x, y) =
N −n
N
S
xy
n
onde:
S
xy
=
1
N −1
N
X
I=1
¡
X
I
−X
¢ ¡
Y
I
−Y
¢
De qualquer forma, a tendenciosidade do estimador
b
R é dada aproximada-
mente por:
T (
b
R) = E(
b
R) −R

= R
µ
1 +
1
X
2
E
³
φ
2
´

1
Y X
E
¡
ξ φ
¢

−R
= R
µ
1
X
2
V
¡
φ
¢

1
Y X
COV ( x, y)

ou ainda:
T (
b
R)

= R
µ
1
X
2
N −n
N
S
2
x
n

1
Y X
N −n
N
S
xy
n

= R
N −n
N
1
n
µ
S
2
x
X
2

S
xy
Y X

Agora note-se que a correlação entre x e y na população, ρ (x, y), é
definida por:
ρ (x, y) =
E
¡
x
i
−X
¢ ¡
y
i
−Y
¢
p
V (x
i
) V (y
i
)
=
6 CAPÍTULO 1. ESTIMADORES ESPECIAIS
ρ (x, y) =
1
N
N
P
I=1
¡
X
I
−X
¢ ¡
Y
I
−Y
¢
s
µ
1
N
N
P
I=1
¡
X
I
−X
¢
2 1
N
N
P
I=1
¡
Y
I
−Y
¢
2

=
N
P
I=1
¡
X
I
−X
¢ ¡
Y
I
−Y
¢
s
µ
N
P
I=1
¡
X
I
−X
¢
2
¶µ
N
P
I=1
¡
Y
I
−Y
¢
2

=
1
N −1
N
P
I=1
¡
X
I
−X
¢ ¡
Y
I
−Y
¢
s
µ
1
N −1
N
P
I=1
¡
X
I
−X
¢
2
¶µ
1
N −1
N
P
I=1
¡
Y
I
−Y
¢
2

ρ (x, y) =
S
xy
p
S
2
x
S
2
y
=
S
xy
S
x
S
y
Denotando-se então ρ (x, y) simplesmente por ρ , vem:
S
xy
= ρ S
x
S
y
Então:
T (
b
R)

= R
N −n
N
1
n
µ
S
2
x
X
2

1
Y X
ρ S
x
S
y

= R
N −n
N
1
n
¡
C
2
x
− ρ C
x
C
y
¢
onde C
2
x
é a variância relativa de característica x na população.
Agora, é imediato provar que lim
n→N
T (
b
R) = 0
No entanto, uma análise de expressão de T (
b
R) nos mostra que T (
b
R) se
anula exatamente quando:
C
2
x
− ρ C
x
C
y
= 0
Isto é, quando:
S
2
x
X
2
= ρ
S
x
X
S
y
Y
1.2. ESTIMAÇÃO DE UMA RAZÃO 7
Ou melhor, quando:
Y =
ρ
S
x
S
y
X
S
2
x
X
2
= ρ
S
y
S
x
X
Assim, a condição para que
b
R seja um estimador não viciado de R é que
Y = ρ ( S
y
/S
x
) X, que é a condição para a reta de regressão entre y e x
passar pela origem, com coeficiente angular ρ ( S
y
/S
x
) .
Foi verificado que, quando a condição anterior não é satisfeita,
b
R é um
estimador tendencioso, embora com tendência que tende a se anular quando
o tamanho n da amostra for grande.
Com o objetivo de calcular uma medida da precisão do estimador
b
R, será
estabelecida uma cota superior a tendenciosidade de
b
R que permitirá também
a determinação do tamanho de amostra necessário para tomar desprezível a
tendenciosidade.
Inicialmente, quando se trata de um estimador viciado, a medida de sua
precisão deve ser o seu erro quadrático médio, dado por:
EQM(
b
R) = E(
b
R −R)
2
= E
µ
³
b
R −E(
b
R) +E(
b
R) −R
´
2

= E
µ
³
b
R −E(
b
R)
´
2

+
³
E
³
b
R−R
´´
2
−2
³
E(
b
R) −R
´
E
³
b
R −E(
b
R)
´
= V (
b
R) +
h
T (
b
R)
i
2
.
Note-se que se a tendenciosidade se anula, isto é, se o estimador for não
viciado, então o erro quadrático médio é igual à variância do estimador.
Note-se, ainda, que a expressão de EQM pode ser escrita como:
EQM(
b
R) = V (
b
R) +
h
T (
b
R)
i
2
= V (
b
R)
_
¸
_
1 +
h
T (
b
R)
i
2
V (
b
R)
_
¸
_
Analisando-se a expressão acima, note-se que:
V (
b
R)

= EQM(
b
R)
quando:
h
T (
b
R)
i
2
V (
b
R)

= 0
8 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Um critério prático para avaliar quão próximos estão V (
b
R) e EQM(
b
R)
consiste em verificar se:
h
T (
b
R)
i
2
V (
b
R)
≤ 0, 01
Ora. isto eqüivale a verificar se:
¯
¯
¯T (
b
R)
¯
¯
¯
q
V (
b
R)
≤ 0, 10 ou
¯
¯
¯E(
b
R) −R
¯
¯
¯
q
V (
b
R)
≤ 0, 10
Por outro lado, note-se que:
COV (
b
R, x) = E(
b
Rx) −E(
b
R) E(x)
= E( y) −E(
b
R) X
= Y −E(
b
R) X
Donde:
COV (
b
R, x)
X
=
Y
X
−E(
b
R)
ou seja:
E(
b
R) =
Y
X

COV (
b
R, x)
X
= R−
COV (
b
R, x)
X
ou ainda:
T(
b
R) = E(
b
R) −R = −
COV (
b
R, x)
X
Seja ρ (
b
R, x) = ρ

o coeficiente de correlação entre
b
R e x. Logo:
COV (
b
R, x) = ρ

q
V (
b
R)
p
V (x)
Substituindo na expressão anterior, segue-se que:
T(
b
R) = −ρ

q
V (
b
R)
p
V (x)
X
T(
b
R)
q
V (
b
R)
= −ρ

p
V (x)
X
ou ainda: ¯
¯
¯
¯
¯
¯
T(
b
R)
q
V (
b
R)
¯
¯
¯
¯
¯
¯
= |ρ

| CV (x)
1.2. ESTIMAÇÃO DE UMA RAZÃO 9
Lembrando a condição de |ρ

| ≤ 1 segue-se que:
¯
¯
¯
¯
¯
¯
T(
b
R)
q
V (
b
R)
¯
¯
¯
¯
¯
¯
≤ CV (x).
Considere a expressão do tamanho de uma amostra aleatória simples
dada por:
n =
N z
2
α/2
S
2
x
X
2
N d
2
r
+ z
2
α/2
S
2
x
X
2
=
N z
2
α/2
C
2
x
N z
2
α/2
(CV (x))
2
+ z
2
α/2
C
2
x
=
C
2
x
(CV (x))
2
+
C
2
x
N
já que a precisão relativa da média amostral pode ser escrita como:
d
r
= z
α/2
CV (x) e C
2
x
= S
2
x
/X
2
é a variância relativa da característica x
na população (ou coeficiente de variação da população ao quadrado da car-
acterística x).
Assim, para se ter tendenciosidade desprezível no estimador de razão
b
R,
deve-se ter:
CV (x) ≤ 0, 10
Sendo assim, basta tomar n tal que:
n ≥
C
2
x
0, 01 +
C
2
x
N
Por exemplo, se C
x
= 0, 4 e N = 5.000, então n ≥ 16 bastaria para tornar
desprezível a tendenciosidade do estimador de razão
b
R.
1.2.2 Variância do estimador de uma razão
Agora o objetivo é obter uma expressão para a variância do estimador de
razão
b
R, que seja adequada para medir sua precisão. De fato, isto só tem
sentido quando se puder admitir que T(
b
R) /
q
V (
b
R) < 0, 10, isto é , quando
o vício de
b
R for pequeno.
Ora, já foi visto na demonstração anterior que:
b
R

= R +R
µ
ξ
Y

φ
X

+R
Ã
φ
2
X
2

ξ φ
Y X
!
10 CAPÍTULO 1. ESTIMADORES ESPECIAIS
e que:
E(
b
R)

= R +R E
Ã
φ
2
X
2

ξ φ
Y X
!
logo,
b
R−E(
b
R)

= R
µ
ξ
Y

φ
X

+R
Ã
φ
2
X
2

ξ φ
Y X
!
−R E
Ã
φ
2
X
2

ξ φ
Y X
!
Daí, a variância de
b
R é dada por:
V (
b
R) = E
³
b
R−E(
b
R)
´
2

= E
"
R
µ
ξ
Y

φ
X

+R
Ã
φ
2
X
2

ξ φ
Y X
!
−R E
Ã
φ
2
X
2

ξ φ
Y X
!#
2
Nesta última expressão, desprezar todos os termos com grau superior a
2. Então:
V (
b
R)

= R
2
E
Ã
µ
ξ
Y

φ
X

2
!
= R
2
Ã
E
Ã
ξ
2
Y
2
!
+E
Ã
φ
2
X
2
!
−2E
µ
ξ φ
Y X

!
= R
2
µ
1
Y
2
V (y) +
1
X
2
V (x) −
2
Y X
Cov(x, y)

= R
2
N −n
N
1
n
µ
S
2
y
Y
2
+
S
2
x
X
2
−2
S
xy
Y X

=
N −n
N
1
n
µ
R
2
S
2
y
Y
2
+R
2
S
2
x
X
2
−2 R
2
S
xy
Y X

=
N −n
N
1
nX
2
¡
S
2
y
+R
2
S
2
x
−2 RS
xy
¢
ou ainda:
V (
b
R)

=
N −n
N
1
nX
2
¡
S
2
y
+R
2
S
2
x
−2 Rρ S
x
S
y
¢
Há outra maneira de escrever a expressão da variância de
b
R, certas vezes
mais conveniente para fins de cálculo que as expressões já apresentadas:
V (
b
R)

=
N −n
N
1
nX
2
1
N −1
N
X
I=1
(Y
I
−RX
I
)
2
1.2. ESTIMAÇÃO DE UMA RAZÃO 11
Exemplo 1.1
Ovício e erro quadrático médio do estimador de uma razão, sob amostragem
aleatória simples, pode ser ilustrado imaginando a aplicação de amostragem
em uma população muito pequena e examinando o espaço amostral, isto é,
o conjunto de todas as possíveis amostras. Suponha que os valores de duas
variáveis x e y nas 4 unidades da população são:
U
i
Y
i
X
i
U
1
1 1
U
2
2 3
U
3
3 4
U
4
4 6
(a) Calcule o valor da razão populacional
Y
X
, obtenha todas as possíveis
amostras de tamanho 2, a serem selecionadas aleatoriamente e sem
reposição e estime essa razão para cada possível amostra.
(b) Calcule os valores exatos do vício, do erro quadrático médio e da var-
iância desse estimador.
(c) Calcule os valores aproximados do vício e da variância desse estimador.
(d) Compare os resultados obtidos em (b) com os resultados obtidos em
(c).
Solução:
a) A razão populacional é dada por:
R =
Y
X
=
N
P
i=1
Y
i
N
P
i=1
X
i
=
10
14
=
5
7
O número de possíveis amostras é dado por:
µ
N
n

=
µ
4
2

=
4!
2!(4 −2)!
= 6
12 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Amostras possíveis Probabilidades y =
n
P
i=1
y
i
x =
n
P
i=1
x
i
b
R =
y
x
U
1
U
2
1
6
3 4
3
4
U
1
U
3
1
6
4 5
4
5
U
1
U
4
1
6
5 7
5
7
U
2
U
3
1
6
5 7
5
7
U
2
U
4
1
6
6 9
6
9
U
3
U
4
1
6
7 10
7
10
b) Os valores exatos do vício e do erro quadrático médio deste estimador
podem ser obtidos a partir da distribuição de todas as possíveis amostras:
E(
b
R) =
1
6
µ
3
4
+
4
5
+
5
7
+
5
7
+
6
9
+
7
10

=
365
504
o valor exato do vício de
b
R é dado por:
T(
b
R) = E(
b
R) −R =
365
504

5
7
=
5
504
= 0, 0099
O erro quadrático médio é dado por:
E(
b
R −R)
2
=
1
6
µ
(
3
4

5
7
)
2
+ (
4
5

5
7
)
2
+ (
6
9

5
7
)
2
+ (
7
10

5
7
)
2

= 0, 00185
e a variância dada por:
V (
b
R) = E(
b
R−R)
2

h
T (
b
R)
i
2
= 0, 00185 −0, 0000009 = 0, 0018491
c) O vício aproximado é dado por:
T(
b
R)

= R
N −n
N
1
n
µ
S
2
x
X
2

S
xy
Y X

=
1 −f
nX
2
¡
RS
2
x
−S
xy
¢
1.2. ESTIMAÇÃO DE UMA RAZÃO 13
sendo: f =
1
2
n = 2 X =
7
2
S
2
x
=
N
P
I=1
X
2
i
−N X
2
N −1
=
62 −49
3
=
13
3
S
xy
=
N
P
I=1
X
i
Y
i
−N X Y
N −1
=
43 −35
3
=
8
3
T(
b
R)

=
1 −f
nX
2
¡
RS
2
x
−S
xy
¢
=
1
2
2
µ
7
2

2
µ
5
7
µ
13
3


8
3

=
3
343
= 0, 0087
com respeito à variância aproximada tem-se:
V (
b
R)

=
N −n
N
1
nX
2
¡
S
2
y
+R
2
S
2
x
−2 R S
xy
¢
=
1 −f
nX
2
¡
S
2
y
+R
2
S
2
x
−2 R S
xy
¢
sendo:
S
2
y
=
N
P
I=1
Y
2
i
−N Y
2
N −1
=
30 −25
3
=
5
3
portanto:
V (
b
R)

=
1 −f
nX
2
¡
S
2
y
+R
2
S
2
x
−2 R S
xy
¢
=
1
2
2
µ
7
2

2
Ã
5
3
+
µ
5
7

2
µ
13
3

−2
µ
5
7
¶µ
8
3

!
= 0, 00139
d) Observe que o vício aproximado subestima ligeiramente o valor ver-
dadeiro do vício e a variância aproximada subestima ligeiramente o valor
verdadeiro da variância.
14 CAPÍTULO 1. ESTIMADORES ESPECIAIS
1.2.3 Estimação da variância do estimador de uma razão
Um estimador consistente para V (
b
R), quando X for conhecido, é dado por:
v
1
(
b
R) =
N −n
N
1
nX
2
³
s
2
y
+
b
R
2
s
2
x
−2
b
R s
xy
´
onde:
s
2
y
=
1
n −1
n
X
i=1
(y
i
−y)
2
s
2
x
=
1
n −1
n
X
i=1
(x
i
−x)
2
s
xy
=
1
n −1
n
X
i=1
(x
i
−x)(y
i
−y)
que são estimadores não viciados de S
2
y
, S
2
x
e S
xy
, respectivamente.
Um estimador para V (
b
R), quando X for conhecido, expresso de outra
forma é dado por:
v
1
(
b
R) =
N −n
N
1
nX
2
1
n −1
n
X
i=1
(y
i

b
Rx
i
)
2
Quando X não for conhecido, um estimador alternativo para V (
b
R)
é dado por:
v
2
(
b
R) =
N −n
N
1
nx
2
³
s
2
y
+
b
R
2
s
2
x
−2
b
R s
xy
´
ou
v
2
(
b
R) =
N −n
N
1
nx
2
1
n −1
n
X
i=1
(y
i

b
Rx
i
)
2
.
1.2.4 Precisão do estimador de uma razão
A precisão do estimador de uma razão depende da distribuição de probabil-
idades do estimador
b
R, que se verificou ser bastante intratável e intrincada,
devido ao fato de tanto os x
i
como os y
i
variarem de amostra para amostra.
Os resultados teóricos conhecidos se distanciam muito do que seria desejável
e necessário possuir nas aplicações práticas.
Assim, os principais resultados serão aqui apresentados semdemonstração.
1.2. ESTIMAÇÃO DE UMA RAZÃO 15
Inicialmente, já foi demonstrado que o estimador de razão é consistente.
Além disso, se viu também que ele é viciado, exceto para certos tipos especiais
de população, embora o vício seja desprezível para amostras grandes.
Outro aspecto é que a distribuição assintótica do estimador de razão é
normal para amostras bastantes grandes, sujeito apenas a restrições muito
fracas quanto ao tipo de população de que se esteja selecionando a amostra.
Em amostras de tamanhos moderados, a distribuição de
b
R mostra certa
tendência a uma assimetria positiva para os tipos de população para as quais
o método é comumente usado.
Estes resultados indicam que não há problemas para calcular a precisão
ou a precisão relativa do estimador de razão quando:
a) a distribuição de
b
R for aproximadamente normal;
b) a fórmula para estimação da variância de
b
R possa ser utilizada.
Em termos práticos, as hipóteses a) e b) podem ser assumidas sem risco
apreciável para amostras de no mínimo 30 unidades, suficientemente grandes
para que se tenha CV (x) < 0, 10 e CV (y) < 0, 10, isto é, o tamanho n da
amostra deve ser tal que:
n ≥ max
_
¸
¸
_
¸
¸
_
30;
C
2
x
0, 01 +
C
2
x
N
;
C
2
y
0, 01 +
C
2
y
N
_
¸
¸
_
¸
¸
_
Nestas condições, se pode afirmar que:
b
R−R
q
V (
b
R)

= N(0, 1)
Daí segue-se que:
P
_
_
¯
¯
¯
¯
¯
¯
b
R −R
q
V (
b
R)
¯
¯
¯
¯
¯
¯
≤ z
α/2
_
_ ∼
= 1 −α =⇒P
µ
¯
¯
¯
b
R−R
¯
¯
¯ ≤ z
α/2
q
V (
b
R)


= 1 −α
onde:
z
α/2
é a abscissa da distribuição Normal padrão tal que
P
_
_
b
R−R
q
V (
b
R)
> z
α/2
_
_
=
α
2
e α é o nível de significância.
16 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Portanto,
D(
b
R) = z
α/2
q
V (
b
R) é a precisão do estimador
b
R; e
D
r
(
b
R) = z
α/2

V (
e
R)
R
= z
α/2
CV (
b
R) é a precisão relativa do estimador
b
R;
Pode-se utilizar como estimador da precisão do estimador de
b
R, o valor
d(
b
R) tal que:
d(
b
R) = z
α/2
q
v(
b
R)
com v(
b
R) dado por v
1
(
b
R) ou v
2
(
b
R) conforme a conveniência.
O estimador da precisão relativa do estimador de
b
R, o valor d
r
(
b
R) tal
que:
d
r
(
b
R) = z
α/2
q
v(
b
R)
b
R
= z
α/2
cv(
b
R)
Estas informações podem ser utilizadas para a construção de intervalos
de confiança para R.
Aesse respeito, consultar Fieller (1932) e Paulson (1942), caso as condições
para aproximação pela normal não sejam satisfeitas.
1.3 Estimadores de razão para o total e a mé-
dia
Uma forma usualmente eficaz de aproveitar o conhecimento de informações
existentes sobre a população, com o objetivo de melhorar a qualidade das
estimativas de uma amostra, é a utilização de estimadores de razão.
Se para determinada característica x, correlacionada com a característica
de interesse y são conhecidos:
i) o valor verdadeiro da média ou total da população; e
ii) os valores observados na amostra.
Então é possível construir estimadores cuja precisão deve ser melhor que
a dos estimadores simples ou naturais já apresentados. A ídéia básica é
aproveitar a interdependência de x e y e a existência de informações sobre x
livres de erro de amostragem para conseguir estimativas mais precisas.
Muitas vezes, é desejável incorporar informação de fontes externas in-
dependentes para aumentar a confiabilidade das estimativas da pesquisa e
também para promover consistência nos resultados publicados por diferentes
pesquisas.
1.3. ESTIMADORES DE RAZÃO PARA O TOTAL E A MÉDIA 17
As técnicas que foram apresentadas para estimação de uma razão podem
ser adaptadas e utilizadas para melhorar as estimativas da média e total
de uma dada característica y, bastando que seja conhecido o total popula-
cional (X) ou a média (X) da característica x na população, sem erro de
amostragem.
Ora, se X for conhecido, tem-se:
R =
Y
X
e
b
R =
y
x
Y =
Y
X
X = R X =⇒
b
Y
R
=
b
RX
Y =
Y
X
X = R X =⇒y
R
=
b
R X =
b
Y
R
N
sendo:
b
Y
R
o estimador de razão para estimar o total da característica y; e
y
R
o estimador de razão para estimar a média da característica y.
Em pesquisas domiciliares, por exemplo, é prática corrente no IBGE o uso
de estimadores de razão para estimar o total, utilizando como variável auxil-
iar a estimativa da população residente, obtida pela projeção de população.
Neste caso é feito um ajuste das estimativas provenientes da amostra de tal
modo que os totais da população estimados coincidam com os resultados da
população projetada que o IBGE elabora e divulga. O estimador do total
de uma característica y qualquer, para uma determinada área da Pesquisa
Nacional por Amostra de Domicílios (PNAD) pode ser escrito genericamente
como um estimador de razão da forma:
b
Y
PNAD
=
b
RX
p
=
b
Y
b
X
X
p
=
n
P
i=1
w
i
y
i
n
P
i=1
w
i
x
i
X
p
= α
n
X
i=1
w
i
y
i
=
n
X
i=1
(αw
i
) y
i
=
n
X
i=1
δ
i
y
i
onde:
b
Y
PNAD
é o estimador de razão para o total da característica y ajustado
pela projeção de população, utilizado na PNAD, para a área em questão;
b
Y é o estimador de total da característica y, obtido considerando os pesos
simples da amostra;
b
X é o estimador de total da população residente, obtido considerando os
pesos simples da amostra;
X
p
é a estimativa da população residente, obtida pela projeção de popu-
lação.
18 CAPÍTULO 1. ESTIMADORES ESPECIAIS
w
i
é o peso amostral associado ao i-ésimo domicílio da amostra, obtido
considerando os pesos simples da amostra;
n é o número de domicílios na amostra da PNAD, para a área em questão;
y
i
é o valor da característica y associado ao i-ésimo domicílio da amostra,
para a área em questão;
x
i
é o total de pessoas associado ao i-ésimo domicílio da amostra, para a
área em questão;
α =
X
p
b
X
é o fator de ajuste dos pesos simples w
i
;
δ
i
= αω
i
é o peso final ajustado associado ao i-ésimo domicílio da
amostra.
A título de ilustração, o valor do fator de ajuste dos pesos da PNAD
95 para Sergipe é de α = 1, 05, que corresponde à razão entre a população
residente projetada para a data da pesquisa (1.611.711) e o valor da estima-
tiva do total da população residente obtida considerando os pesos simples da
amostra para a área em questão (1.535.111).
1.3.1 Variâncias dos estimadores de razão para o total
e a média
Todas as técnicas para estimação da precisão anteriormente apresentadas
foram feitas supondo que o desenho da amostra era com seleção aleatória
simples sem reposição. Para esse mesmo desenho amostral, as expressões são
adaptadas e utilizadas, bastando notar que
b
Y
R
é igual a
b
R vezes a constante
X.
Dessa forma, tem-se:
E(
b
Y
R
) −
b
Y
R
= X
³
E(
b
R) −
b
R
´
V (
b
Y
R
) = X
2
V (
b
R)

= X
2
N −n
N
1
nX
2
¡
S
2
y
+R
2
S
2
x
−2 RS
xy
¢
= N
N −n
n
¡
S
2
y
+R
2
S
2
x
−2 RS
xy
¢
ou
V (
b
Y
R
) = N
N −n
n
1
N −1
N
X
I=1
(Y
I
−RX
I
)
2
De modo análogo, para a média y
R
tem-se:
E(y
R
) −y
R
= X
³
E(
b
R) −
b
R
´
1.3. ESTIMADORES DE RAZÃO PARA O TOTAL E A MÉDIA 19
V (y
R
) = V (
b
Y
R
N
)

=
N −n
N
1
n
¡
S
2
y
+R
2
S
2
x
−2 RS
xy
¢
ou
V (y
R
)

=
N −n
N
1
n
1
N −1
N
X
I=1
(Y
I
−RX
I
)
2
1.3.2 Estimação das variâncias dos estimadores de razão
para o total e a média
Um estimador para V (
b
Y
R
) é dado por:
v(
b
Y
R
) = X
2
v(
b
R) = N
N −n
n
h
s
2
y
+
b
R
2
s
2
x
−2
b
R s
xy
i
ou
v(
b
Y
R
) = X
2
v(
b
R) = N
N −n
n
1
n −1
n
X
i=1
(y
i

b
Rx
i
)
2
e um estimador para V (y
R
) é dado por:
v(y
R
) = X
2
v(
b
R) =
N −n
N
1
n
h
s
2
y
+
b
R
2
s
2
x
−2
b
R s
xy
i
ou
v(y
R
) =
N −n
N
1
n
1
n −1
n
X
i=1
(y
i

b
Rx
i
)
2
1.3.3 Comparação da precisão do estimador de razão
coma do estimador simples emamostragemaleatória
simples
A partir de uma amostra aleatória simples sem reposição de n unidades se
conhece expressões para as variâncias do estimador simples e do estimador
de razão para estimar o total (ou a média). Portanto, é possível comparar a
precisão alcançada comcada umatravés da comparação entre suas variâncias.
Sendo assim, para o caso do estimador de total, sabe-se que:
V (
b
Y ) = N
2
N −n
N
S
2
y
n
V (
b
Y
R
) = X
2
N −n
N
1
nX
2
¡
S
2
y
+R
2
S
2
x
−2 RS
xy
¢
= N
2
N −n
N
1
n
¡
S
2
y
+R
2
S
2
x
−2 RS
xy
¢
20 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Note-se que:
V (
b
Y
R
) < V (
b
Y ) ⇐⇒S
2
y
+R
2
S
2
x
−2 Rρ S
x
S
y
< S
2
y
⇐⇒ R
2
S
2
x
< 2 Rρ S
x
S
y
⇐⇒ρ >
RS
x
2 S
y
⇐⇒
⇐⇒ ρ >
Y S
x
2 X S
y
⇐⇒ρ >
S
x
/X
2 S
y
/Y
=⇒ρ >
1
2
C
x
C
y
Na prática, esta relação pode ser utilizada para verificar, quando é conve-
niente o uso do estimador de razão ao invés do estimador simples do total ou
da média, já que muitas vezes é possível conhecer aproximadamente o valor
de ρ = ρ (x, y) e também a relação entre C
x
e C
y
.
1.4 Estimadores de razão em amostragem es-
tratificada
Nas seção 1.3 foi tratado o caso de utilização do estimador de razão para
estimar o total populacional (Y ) a partir de uma amostra aleatória simples
sem reposição de tamanho n. No caso de uma amostra estratificada, há dois
estimadores de razão para estimar o total populacional (Y ):
• estimador de razão combinada; e
• estimador de razão separada.
1.4.1 Estimador de razão combinada
Considere então, o problema de estimar o total Y a partir de uma amostra
aleatória estratificada selecionada de uma população comL estratos de tamanho
N
h
(h = 1, 2, · · · , L), tendo sido selecionadas n
h
unidades e investigadas as
características x e y em cada unidade da amostra de cada estrato. Suponha
que seja também conhecido o total populacional para a característica x. O
estimador de razão combinada
b
Y
RC
para estimar o total populacional (Y ) é
definido por:
b
Y
RC
=
b
Y
est
b
X
est
X =
y
est
x
est
X
onde:
b
Y
est
=
L
P
h=1
N
h
y
h
é o estimador simples do total da característica y na
amostra estratificada;
1.4. ESTIMADORES DERAZÃOEMAMOSTRAGEMESTRATIFICADA21
b
X
est
=
L
P
h=1
N
h
x
h
é o estimador simples do total da característica x na
amostra estratificada;
X é o total da característica x, conhecido de alguma fonte externa a
amostra, livre de erros de amostragem;
1
y
est
=
b
Y
est
N
é o estimador simples da média da característica y na amostra
estratificada; e
x
est
=
b
X
est
N
é o estimador simples da média da característica x na amostra
estratificada.
O estimador de razão combinada
b
Y
RC
é consistente para o total Y .
Isto é,
b
Y
RC
|
n=N
= Y
Prova: se n = N com n
h
= N
h
∀h = 1, 2, · · · , L vem:
b
Y
est
=
L
X
h=1
N
h
y
h
=
L
X
h=1
N
h
Y
h
= Y
b
X
est
=
L
X
h=1
N
h
x
h
=
L
X
h=1
N
h
X
h
= X
donde:
b
Y
RC
|
n=N
=
Y
X
X = Y
É sabido que os estimadores de razão são viciados exceto se a população
for de um tipo muito especial em termos de relação entre x e y.
Apesar disso, tem—se afirmado que em muitos casos o estimador de razão é
preferível ao estimador natural (simples) por que dá melhor precisão. Entre-
tanto, esta afirmação só é verdadeira, quando se consegue tornar desprezível
o vício ou tendenciosidade do estimador de razão.
Acontece que, como
ˆ
Y
RC
é um estimador de razão se pode demonstrar
que:
| E(
b
Y
RC
−Y |
q
V (
b
Y
RC
)
≤ CV (
b
X
est
) = CV (x
est
)
1
O estimador
b
Y
RC
depende apenas do conhecimento do total X, e não dos totais X
h
dos estratos.
22 CAPÍTULO 1. ESTIMADORES ESPECIAIS
é usual considerar a tendensiosidade desprezível quando
CV (
b
X
est
) = CV (x
est
) ≤ 0, 10.
Assim ao dimensionar a amostra para estimar Y é indispensável garantir
um tamanho mínimo tal que se tenha CV (x
est
) ≤ 0, 10
Isto significa em:
V (x
est
)
X
2
≤ 0, 01 ⇒
1
X
2
Ã
L
X
h=1
N
2
h
N
2
S
2
h
(x)

h

L
X
h=1
N
2
h
N
2
S
2
h
(x)
N
h
!
≤ 0, 01

L
X
h=1
N
2
h
N
2
S
2
h
(x)

h
≤ 0, 01 X
2
+
L
X
h=1
N
2
h
N
2
S
h
(x)
N
h
⇒n ≥
L
P
h=1
S
2
h
(x)
α
h
N
2
h
N
2
0, 01 X
2
+
L
P
h=1
N
2
h
N
2
S
2
h
(x)
N
h
onde:
α
h
=
n
h
n
depende do critério de alocação da amostra em cada estrato;
S
2
h
(x) =
1
N
h
−1
N
h
P
j=1
¡
X
hj
−X
h
¢
2
X
hj
é o valor da característica x associada à unidade j do estrato h.
Esta condição quanto à precisão na estimação de X será também usada no
estabelecimento de uma expressão aproximada para a variância do estimador
de razão combinada.
Além disto, há que notar a equivalência de fixar um coeficiente de variação
de 10% para ¯ x
est
e de admitir um erro máximo de 20% na estimação de X
com 95% de confiança.
Não se dispõe de uma expressão exata para a variância do estimador de
razão combinada. Porém, se a amostra é de tamanho suficientemente grande
para tornar desprezível a tendenciosidade do estimador, pode—se obter uma
expressão aproximada para a variância:
V (
b
Y
RC
)

= E
³
b
Y
RC
−Y
´
2
= E
Ã
µ
y
est
x
est
X −Y

2
!
= E
Ã
µ
y
est
x
est
X −
Y
X
X
x
est
x
est

2
!
= E
µ
X
2
x
2
est
(y
est
−Rx
est
)
2

= N
2
E
Ã
X
2
x
2
est
(y
est
−R x
est
)
2
!
1.4. ESTIMADORES DERAZÃOEMAMOSTRAGEMESTRATIFICADA23
supondo—se n grande, tem se
X
x
est

= 1
Daí
V (
b
Y
RC
)

= N
2
E (y
est
−Rx
est
)
2
= N
2
E
¡
y
2
est
+R
2
x
2
est
−2Ry
est
x
est
¢
Porém:
E(y
2
est
) = V (y
est
) + [E(y
est
)]
2
= V (y
est
) +Y
2
E(x
2
est
) = V (x
est
) +X
2
E(x
est
y
est
) = COV (x
est
, y
est
) +E(x
est
)E(y
est
) = COV (x
est
, y
est
) +X Y
Daí
V (
b
Y
RC
)

= N
2
[V (y
est
) +R
2
V (x
est
) −2 RCOV (x
est
, y
est
)]
+N
2
[Y
2
+R
2
X
2
−2RX Y ]
como:
Y
2
+R
2
X
2
−2RX Y = (Y −RX)
2
= 0
2
= 0
V (
b
Y
RC
)

= N
2
[V (y
est
) +R
2
V (x
est
) −2RCOV (x
est
, y
est
)]
agora:
V (y
est
) =
L
X
h=1
N
2
h
N
2
N
h
−n
h
N
h
S
2
h
(y)
n
h
V (x
est
) =
L
X
h=1
N
2
h
N
h
N
h
−n
h
N
h
S
2
h
(x)
n
h
onde:
S
2
h
(y) =
1
N
h
−1
N
h
X
j=1
(Y
hj
−Y
h
)
2
S
2
h
(x) =
1
N
h
−1
N
h
X
j=1
(X
hj
−X
h
)
2
24 CAPÍTULO 1. ESTIMADORES ESPECIAIS
e finalmente:
COV (x
est
, y
est
) = E[x
est
−X)(y
est
−Y )]
= E

L
X
h=1
N
h
N
x
h

L
X
h=1
N
h
N
X
h

L
X
h=1
N
h
N
y
h

L
X
h=1
N
h
N
Y
h
!#
= E
("
L
X
h=1
N
h
N
(x
h
−X
h
)
#"
L
X
h=1
N
h
N
(y
h
−Y
h
)
#)
= E
"
L
X
h=1
N
2
h
N
2
(x
h
−X
h
)(y
h
−Y
h
)
#
+E
_
¸
¸
_
L
X
h=1
L
X
k=1
k6=h
N
h
N
N
k
N
(x
h
−X
h
)(y
k
−Y
k
)
_
¸
¸
_
=
L
X
h=1
N
2
h
N
2
E(x
h
−X
h
)(y
h
−Y
h
) + 0
=
L
X
h=1
N
2
h
N
2
COV (x
h
, y
h
)
Lembrando—se que a amostra dentro de cada estrato é aleatória simples,
vem:
COV (x
h
, y
h
) =
N
h
−n
h
N
h
S
h
(x, y)
n
h
onde
S
h
(x, y) =
1
N
h
−1
N
h
X
j=1
(X
hj
−X
h
)(Y
hj
−Y
h
)
Então finalmente:
COV (x
est
, y
est
) =
L
X
h=1
N
2
h
N
2
N
h
−n
h
N
h
S
h
(x, y)
n
h
Daí, obtém-se:
V (
b
Y
RC
)

= N
2
L
X
h=1
N
2
h
N
2
N
h
−n
h
N
h
1
n
h
[S
2
h
(y) +R
2
S
2
h
(x) −2 RS
h
(x, y)]
1.4. ESTIMADORES DERAZÃOEMAMOSTRAGEMESTRATIFICADA25
Substituindo-se nesta expressão os valores de S
2
h
(y), S
2
h
(x) e S
h
(x, y) vem:
V (
b
Y
RC
)

=
L
X
h=1
N
2
h
N
h
−1
N
h
−n
h
N
h
1
n
h
"
N
h
X
j=1
(Y
hj
−Y
h
)
2
+R
2
(X
hj
−X
h
)
2
−2R(X
hj
−X
h
)(Y
hj
−Y
h
)
#
⇒V (
b
Y
RC
)

=
L
X
h=1
N
h
N
h
−1
N
h
−n
h
n
h
(
N
h
X
j=1
[(Y
hj
−Y
h
) −R(X
hj
−X
h
)]
2
)
Um estimador de V (
b
Y
RC
) é dado por:
v(
b
Y
RC
) =
L
X
h=1
N
h
(N
h
−n
h
)
n
h
h
s
2
h
(y) +
b
R
2
est
s
2
h
(x) −2
b
R
est
s
h
(x, y)
i
onde:
b
R
est
=
y
est
x
est
e s
2
h
(y), s
2
h
(x) e s
h
(x, y) são estimadores não viciados de S
2
h
(y), S
2
h
(x) e
S
h
(x, y), respectivamente, ou seja:
s
2
h
(y) =
1
n
h
−1
n
h
X
j=1
(y
hj
−y
h
)
2
s
2
h
(x) =
1
n
h
−1
n
h
X
j=1
(x
hj
−x
h
)
2
s
h
(x, y) =
1
n
h
−1
n
h
X
j=1
(x
hj
−x
h
)(y
hj
−y
h
)
O estimador de razão combinada para estimar a média Y é dado por:
y
RC
=
b
Y
RC
N
Neste caso a variância V (y
RC
) é dada por:
V (y
RC
) =
1
N
2
V (
b
Y
RC
)
e um estimador de V (y
RC
) é dado por:
v(y
RC
) =
1
N
2
v(
b
Y
RC
)
26 CAPÍTULO 1. ESTIMADORES ESPECIAIS
1.4.2 Estimador de razão separada
Uma outra forma de utilizar estimadores de razão para conseguir maior pre-
cisão na amostragem estratificada é o chamado estimador de razão separada.
b
Y
RS
=
L
X
h=1
y
h
x
h
X
h
=
L
X
h=1
y
h
x
h
X
h
=
L
X
h=1
b
R
h
X
h
Note—se que é necessário conhecer os totais por estrato X
h
da característica
auxiliar x.
A principal diferença do estimador de razão separada para o estimador
de razão combinada está no nível em que se faz uso da estimação por razão:
no estimador de razão separada são feitas razões em cada um dos estratos,
enquanto que no estimador de razão combinada uma única razão é feita para
os estimadores de total disponíveis.
O estimador de razão separada
b
Y
RS
é consistente para o total Y . Isto
é:
ˆ
Y
RS
|
n=N
= Y
Prova: se n = N com n
h
= N
h
=⇒y
h
= Y
h
b
Y
RS
|
n=N
=
L
X
h=1
y
h
x
h
X
h
=
L
X
h=1
Y
h
X
h
X
h
=
L
X
h=1
N
h
Y
h
= Y
Quanto à tendendiosidade, este estimador precisa ser analisado com
maior cuidado, porque depende de razões constuídas em cada um dos es-
tratos.
Definindo
b
Y
hR
=
y
h
x
h
X
h
Vem:
b
Y
RS
=
L
X
h=1
b
Y
hR
Em cada estrato, sabe—se que:
| E(
b
Y
hR
) −Y
h
|
q
V (
b
Y
hR
)
≤ CV (x
h
) ∀h = 1, 2, · · · , L
Se os n
h
forem todos suficientemente grandes, pode—se admitir que o
vício de
b
Y
RS
é desprezível. Caso isto não aconteça o uso deste estimador
não é aconselhável, pois o vício do estimador pode ser significativo impedindo
mesmo o cálculo de uma estimativa da precisão como será visto mais adiante
Para ver porque isto ocorre, basta um raciocínio intuitivo:
1.4. ESTIMADORES DERAZÃOEMAMOSTRAGEMESTRATIFICADA27
Suponha que o vício tenha o mesmo nível em todos os estratos, como
pode ocorrer, e então o vício de
b
Y
RS
será aproximadamente L vezes o
vício em
b
Y
hR
. Porém, o erro padrão de
ˆ
Y
RS
é apenas da ordem de

L
vezes o erro padrão de
b
Y
hR
. Logo:
| E(
b
Y
RS
) −Y |
q
V AR(
b
Y
RS
)
poderia ser tão grande quanto

LCV (x
h
)
Exemplo: Se tivermos 50 estratos com CV (x
h
) = 0, 1 em cada estrato,
o vício de
b
Y
RS
poderia ser da ordem de 0,7 vezes seu erro padrão.
Uma regra prática a adotar contra-indica o uso do estimador de razão
separada a menos que:

L(CV (x
h
) < 0, 20 ∀L = 1, 2, · · · , L.
Talvez esta regra seja conservadora demais pois o vício pode ser bem
menor que o limite superior conhecido; mas a menos que haja forte evidência
disso não se deve usar o estimador de razão separada.
Também não existe uma expressão exata para a variância de
b
Y
RS
. Será
obtida uma expressão aproximada no caso em que os n
h
são suficientemente
grandes para tornar desprezível o vício em cada um dos estratos. Caso esta
condição não se verifique, a expressão obtida para a variância não é confiável,
e o estimador de razão separada não deve ser usado.
Supondo os n
h
suficientemente grandes, vem:
V (
b
Y
RS
)

= E[(
b
Y
RS
−Y )
2
] = E
_
_
Ã
L
X
h=1
b
Y
hR

L
X
h=1
Y
h
!
2
_
_
= E
_
_
Ã
L
X
h=1
(
y
h
x
h
X
h
−Y
h
)
!
2
_
_
=
L
X
h=1
E
"
µ
y
h
x
h
X
h
−Y
h

2
#
+
+
L
X
h=1
L
X
k=1
k6=h
E
µ
y
h
x
h
X
h
−Y
h
¶µ
y
k
x
k
X
k
−Y
k


=
L
X
h=1
V (
b
Y
hR
) + 0
=
L
X
h=1
N
2
h
N
h
−n
h
N
h
1
n
h
£
S
2
h
(y) +R
2
h
S
2
h
(x) −2R
h
S
h
(x, y)
¤
28 CAPÍTULO 1. ESTIMADORES ESPECIAIS
onde: R
h
=
Y
h
X
h
e S
2
h
(y), S
2
h
(x) e S
h
(x, y) são como definidos anteriormente.
Esta variância pode ainda ser escrita:
V (
b
Y
RS
)

=
L
X
h=1
N
2
h
N
h−1
N
h
−n
h
N
h
1
n
h
(
N
h
X
j=1
[(Y
hj
−Y
h
) −R
h
(X
hj
−X
h
)]
2
)
Um estimador de V (
b
Y
RS
) é dado por:
v(
b
Y
RS
) =
L
X
h=1
N
h
(N
h
−n
h
)
n
h
h
s
2
h
(y) +
b
R
2
h
s
2
h
(x) −2
b
R
h
s
h
(x, y)
i
onde:
b
R
h
=
y
h
x
h
=
y
h
x
h
e s
2
h
(y), s
2
h
(x) e s
h
(x, y) são como definidos anterior-
mente.
O estimador de razão separada para estimar a média Y é dado por:
y
RS
=
b
Y
RS
N
Neste caso a variância V (y
RS
) é dada por:
V (y
RS
) =
1
N
2
V (
b
Y
RS
)
e um estimador de V (y
RS
) é dado por:
v(y
RS
) =
1
N
2
v(
b
Y
RS
)
v(y
RS
) =
X
N
h
N
2
(N
h
−n
h
)
n
h
[s
2
h
(y) +
b
R
2
h
s
2
h
(x) −2
b
R
h
s
h
(x, y)]
1.4.3 Comparação dos estimadores de razão separada
e combinada
Em geral, para amostras de tamanho idêntico, o estimador de razão combi-
nada deve ter vício bem menor que o estimador de razão separada.
No uso do estimador de razão separada, há que verificar sempre se

LCV (x
h
) ≤ 0, 20 ∀h
1.4. ESTIMADORES DERAZÃOEMAMOSTRAGEMESTRATIFICADA29
Em ambos os casos, os tamanhos de amostra que garantem uma tendenciosi-
dade desprezível podem ser determinados.
Através da comparação das variâncias é feita a avaliação da melhor pre-
cisão alcançada entre os estimadores de razão em amostragem estratificada:
V (
b
Y
RC
) −V (
b
Y
RS
)

=
L
X
h=1
N
2
h
N
h
−n
h
N
h
1
n
h
[S
2
h
(y) +R
2
S
2
h
(x) −2RS
h
(x, y)]

L
X
h=1
N
2
h
N
h
−n
h
N
h
1
n
h
[S
2
h
(y) +R
2
h
S
2
h
(x) −2R
h
S
h
(x, y)]

=
L
X
h=1
N
h
N
h
−n
h
n
h
[(R
2
−R
2
h
)S
2
h
(x) −2(R−R
h
)S
h
(x, y)]
Os dois estimadores serão igualmente precisos se R
h
= R ou Y
h
/X
h
=
Y/X para todos os estratos.
A medida que os R
h
sejam mais distantes de R, o estimador da razão
separada tende a dar maior precisão, inclusive por se basear num conheci-
mento mais detalhado dos dados do universo da característica x.
Exemplo 1.2 (Cochran (1977), pág.167)
Os dados são provenientes do Censo Agropecuário de todas as fazendas
do município de Jefferson em Iowa. A variável y investigada em cada fazenda
é a área (em acres) com plantação de milho e a variável x a área de cada
fazenda. A população é dividida em 2 estratos, sendo que o primeiro contém
as fazenda com menos de 160 acres. Suponha que se deseja selecionar uma
amostra de 100 fazendas, sendo que 70 serão selecionadas do estrato 1 e 30
do estrato 2. A idéia é comparar a precisão de estimadores alternativos para
estimar a média da área com plantação de milho por fazenda.
Calcule a variância do estimador da média segundo cada uma das 5 es-
tratégias:
1 - estimador simples, supondo que a amostra será aleatória simples sem
considerar a estratificação;
2 - estimador de razão, supondo que a amostra será aleatória simples sem
considerar a estratificação;
3 - estimador simples da amostragem estratificada, supondo que em cada
estrato a amostra será aleatória simples;
4 - estimador de razão combinada da amostragem estratificada, supondo
que em cada estrato a amostra será aleatória simples;
5 - estimador de razão separada da amostragem estratificada, supondo
que em cada estrato a amostra será aleatória simples;.
30 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Os dados são apresentados na tabela a seguir:
Estratos
Tamanho
(acres)
N
h
Y
h
X
h
S
2
h
(y) S
2
h
(x) S
h
(x, y) R
h
1 ≤ 160 1580 19,40 82,56 312 2055 494 0,2350
2 > 160 430 51,63 244,85 922 7357 858 0,2109
Total - 2010 26,30 117,28 620 7619 1453 0,2242
Os fatores de correção de população finita podem ser ignorados, ou seja,
considerar
N −n
N

= 1 e
N
h
−n
h
N
h

= 1, h = 1 e 2.
Considere Q
h
=
N
2
h
N
2
1
n
h
e que Q
1
= 0,008828 e Q
2
=0,001525.
Compare os resultados e comente.
Solução:
1 - Amostra aleatória simples (AAS): y =
1
n
n
P
i=1
y
i
é o estimador simples
da média da área com plantação de milho por fazenda
V (y) =
N −n
N
S
2
y
n

=
S
2
y
n
=
620
100
= 6, 20
2 - Amostra aleatória simples (AAS): y
R
=
y
x
X é o estimador de razão
da média da área com plantação de milho por fazenda
V (y
R
)

=
N −n
N
1
n
£
S
2
y
+R
2
S
2
x
−2 RS
xy
¤

=
1
n
£
S
2
y
+R
2
S
2
x
−2 RS
xy
¤
=
1
100
[620 + (0, 2242)
2
(7619) −2(0, 2242)(1453)] = 3, 51
3 - Amostra aleatória estratificada (AAE): y
est
=
L
P
h=1
N
h
N
y
h
é o estimador
simples da média da área com plantação de milho por fazenda
V (y
est
) =
L
X
h=1
N
2
h
N
2
N
h
−n
h
N
h
S
2
h
(Y )
n
h

=
L
X
h=1
N
2
h
N
2
S
2
h
(y)
n
h
=
L
X
h=1
Q
h
S
2
h
(y) = (0, 008828)(312) + (0, 001525)(922) = 4, 16
1.4. ESTIMADORES DERAZÃOEMAMOSTRAGEMESTRATIFICADA31
4 - Amostra aleatória estratificada (AAE): y
RC
=
y
est
x
est
X é o estimador
de razão combinada da média da área com plantação de milho por fazenda
V ( y
RC
)

=
L
X
h=1
N
2
h
N
2
N
h
−n
h
N
h
1
n
h
£
S
2
h
(y) +R
2
S
2
h
(x) −2RS
h
(x, y)
¤

=
L
X
h=1
Q
h
£
S
2
h
(y) +R
2
S
2
h
(x) −2RS
h
(x, y)
¤
= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2242)
2
(2055) +
+(0, 001525)(0, 2242)
2
(7357) −2(0, 008828)(0, 2242)(494) +
−2(0, 001525)(0, 2242)(858)
= 3, 10
5 - Amostra aleatória estratificada (AAE): y
RS
=
1
N
L
P
h=1
y
h
x
h
X
h
é o es-
timador de razão separada da média da área com plantação de milho por
fazenda
V ( y
RS
)

=
L
X
h=1
N
2
h
N
2
N
h
−n
h
N
h
1
n
h
£
S
2
h
(y) +R
2
h
S
2
h
(x) −2R
h
S
h
(x, y)
¤

=
L
X
h=1
Q
h
£
S
2
h
(y) +R
2
h
S
2
h
(x) −2R
h
S
h
(x, y)
¤
= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2350)
2
(2055) +
+(0, 001525)(0, 2109)
2
(7357) −2(0, 008828)(0, 2350)(494) +
−2(0, 001525)(0, 2109)(858)
= 3, 06
32 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Resumo e comentários:
Estrat´ egia
Desenho
amostral
M´ etodo de
estima˜ ao
V ariˆ ancias
Ganhos de
precis˜ ao
1 AAS simples V (y) = 6, 20 -
2 AAS razão V (y
R
) = 3, 51
V (y)
V (y
R
)
= 1, 77
3 AAE simples V (y
est
) = 4, 16
V (y)
V (y
est
)
= 1, 49
4 AAE razão combinada V ( y
RC
) = 3, 10
V (y)
V ( y
RC
)
= 2, 00
5 AAE razão separada V ( y
RS
) = 3, 06
V (y)
V ( y
RS
)
= 2, 03
Os resultados mostram que há ganhos de precisão com as estratégias 2 a
5 quando comparadas com a estratégia 1. Verifica-se que o ganho de precisão
quando utilizar o estimador de razão com amostragem aleatória simples é de
77%, enquanto que ao utilizar o estimador de razão separada em relação ao
estimador simples da amostragem aleatória simples é de 103%. Porém, pode-
se verificar que ao se adotar amostragem estratificada, o ganho de precisão
ao utilizar o estimador de razão separada em relação ao estimador simples
da amostragem estratificada é de apenas 36%, pois: V (y
est
) / V ( y
RS
) =
4, 16 / 3, 06 = 1, 36. Isto ocorre porque a variável de estratificação (tamanho
da área) é a mesma variável auxiliar utilizada no estimador de razão.
1.4.4 O uso de estimadores de razão
No planejamento das pesquisas a decisão entre utilizar uma determinada
variável na estratificação ou na estimação depende de uma série de circuns-
tâncias. Alguns pontos relevantes são:
• Fatores como localização geográfica, são mais fáceis de serem introduzi-
dos na estratificação do que no método de estimação.
• A decisão depende da natureza da relação entre x e y.Todos os métodos
de estimação de razão estudados dependem da efetividade da propor-
cionalidade da relação entre os x
i
e y
i
. Com relações complexas ou
discontínuas, a estratificação pode ser mais eficiente.
• Se para algumas variáveis da pesquisa existir uma relação proporcional
com a variável x
i
e para outras variáveis existir uma relaçãp propor-
cional a uma outra variável z
i
, então, é melhor utilizar x
i
e z
i
como
1.5. ESTIMADORES DE REGRESSÃO 33
variáveis auxiliares em estimadores de razão do que estratificar por uma
delas.
Algumas restrições devem ser consideradas ao tomar a decisão de usar
estimadores de razão:
• Os tamanhos de amostra devem satisfazer às condições para tornar
desprezível o vício do estimador empregado.
• Quanto maior a associação entre a caracterítica auxiliar x e a car-
acterística de interresse y maior o ganho de precisão no uso de esti-
madores de razão.
• Não existem fórmulas exatas para o vício nem para a variância dos es-
timadores, embora as aproximações da variância existentes sejam sat-
isfatórias para amostras cujo tamanho satisfaz a condição de tornar
desprezível o vício.
1.5 Estimadores de Regressão
O estimador de regressão tem sua definição baseada num modelo de regressão
usado para representar a distribuição condicional da variável de interesse y
dada a variável auxiliar x.
Assim como o estimador de razão, o estimador de regressão é utilizado
para melhorar a precisão através do uso de uma variável auxiliar x que é
correlacionada com y. Quando a relação entre y e x é examinada, pode ser
notado que embora haja uma relação linear, a reta não necessariamente passa
pela origem. Neste caso sugere-se a utilização de um estimador baseado na
regressão linear de y e x.
O papel do modelo é o de descrever a dispersão condicional da variável
de interesse y dada a variável auxiliar x na população finita. Espera-se que
o modelo represente bem a relação de y e x. A idéia é pensar que os valores
populacionais poderiam ter sido gerados pelo modelo. Entretanto, não é
necessário supor que os valores populacionais foram de fato gerados pelo
modelo.
Suponha que seja selecionada uma amostra aleatória simples de tamanho
n, que sejam investigados os valores da característica de interesse y e da
característica x, cuja média populacional (X) seja conhecida. O estimador
de regressão linear de Y é definido por:
y
reg
= y +b(X −x)
34 CAPÍTULO 1. ESTIMADORES ESPECIAIS
onde:
b é o estimador usual de mínimos quadrados baseado na amostra.
b =
s
xy
s
2
x
=
n
P
i=1
(y
i
−y)(x
i
−x)
n
P
i=1
(x
i
−x)
2
O papel desempenhado pelo modelo será essencialmente de sugerir um
estimador adequado b para usar no estimador de regressão.
É possível demonstrar que o estimador de regressão y
reg
é consistente e
tem vício de ordem
1
n
.
Sua variância pode ser aproximada por:
V (y
reg
)

=
N −n
N
1
n
S
2
y
(1 −ρ
2
xy
)
onde: ρ
xy
= ρ(x, y) é a correlação entre as variáveis x e y na população.
Esta variância pode ser estimada usando:
v(y
reg
) =
N −n
N
1
n
n −1
n −2
£
s
2
y
+b
2
s
2
x
−2bs
xy
¤
=
N −n
N
1
n
1
n −2
n
X
i=1
[(y
i
−y) −b(x
i
−x)]
2
Outros estimadores de variância podem ser usados, oferecendo melhor
desempenho.
O estimador de regressão para estimar o total Y é dado por:
b
Y
reg
= N y
reg
Neste caso, a variância é aproximada por:
V (
b
Y
reg
)

= N
2
N −n
N
1
n
S
2
y
(1 −ρ
2
xy
)
e a variância pode ser estimada por:
v(
b
Y
reg
) = N
2
N −n
N
1
n
1
n −2
n
X
i=1
[(y
i
−y) −b(x
i
−x)]
2
Exemplo 1.3 (Thompson (1992), pág. 80)
1.5. ESTIMADORES DE REGRESSÃO 35
Para estimar a produção total de uma plantação numa região com N =
100 áreas, foram selecionadas aleatoriamente 4 áreas e medida a quantidade
y
i
da produção de cada área da amostra. A produção de uma área depende
da quantidade x
i
de fertilizante aplicada na área, que é conhecida para cada
área da região, resultando numa média populacional 100.
Os 4 pares de valores (x
i
, y
i
) da amostra são: (50, 1410), (100, 1690),
(150, 1680) e (200, 1850).
As médias amostrais são: y = 1657, 5 e x = 125 e
b o estimador usual de mínimos quadrados baseado na amostra:
b =
n
P
i=1
(y
i
−y)(x
i
−x)
n
P
i=1
(x
i
−x)
2
=
(50 −125)(1410 −1657, 5) + · · · + (200 −125)(1850 −1657, 5)
(50 −125)
2
+ · · · + (2200 −125)
2
=
32750
12500
= 2, 62
A estimativa da produção total da referida plantação, obtida através do
estimador de regressão, é dada por:
b
Y
reg
= N y
reg
= N
¡
y +b(X −x)
¢
= 100 (1657, 5 + 2, 62 (100 −125))
= 100 (1592) = 159 200
Para obter a estimativa da variância, vamos considerar o valor da linha
de regressão ajustada para a i-ésima unidade da amostra estimada por:
b y
i
= a +bx
i
onde: a = y −bx = 1675, 5 −2, 62 (125) = 1330.
Neste caso, tem-se:
b y
1
= 1330 + 2, 62 (50) = 1461
b y
2
= 1330 + 2, 62 (100) = 1592
b y
3
= 1330 + 2, 62 (150) = 1723
b y
4
= 1330 + 2, 62 (200) = 1854
36 CAPÍTULO 1. ESTIMADORES ESPECIAIS
v(
b
Y
reg
) = N
2
v(y
reg
) =
N (N −n)
n
1
n −2
n
X
i=1
[(y
i
−y) −b(x
i
−x)]
2
=
N (N −n)
n(n −2)
n
X
i=1
(y
i
− b y
i
)
2
=
100 (100 −4)
4 (4 −2)
£
(1410 −1461)
2
+ · · · + (1850 −1854)
2
¤
=
100 (96)
4
(7035) = 16 884 000
cujo desvio padrão é estimado por:
q
v(
b
Y
reg
) = 4 109.
Por outro lado, a estimativa da produção total da referida plantação,
obtida através do estimador simples da amostragem aleatória simples, é dada
por:
b
Y = N y = 100 (1657, 5) = 165 750
e a respectiva estimativa da variância é dada por:
v(
b
Y ) = N
2
v(y) =
N (N −n)
n
4
X
i=1
(y
i
−y)
2
=
100 (96)
4
(33292) = 79 900 000
cujo desvio padrão é estimado por:
q
v(
b
Y ) = 8 939.
Portanto, o estimador de regressão é mais preciso que o estimador simples
no exemplo com essa pequena amostra. Isto ocorre em função da pequena
variação dos resíduos sobre a reta de regressão ajustada.
1.5.1 Comparação dos estimadores de regressão, razão
e simples da média sob amostragem aleatória
simples
V (y
reg
)

=
N −n
N
1
n
S
2
y
(1 −ρ
2
xy
)
V (y
R
)

=
N −n
N
1
n
£
S
2
y
+R
2
S
2
x
−2 RS
xy
¤
1.5. ESTIMADORES DE REGRESSÃO 37
V (y) =
N −n
N
1
n
S
2
y
Examinando as expressões acima, é imediato notar que o estimador de
regressão é mais preciso que o estimador simples da média a não ser ρ
xy
= 0,
caso em que os estimadores são igualmente precisos.
O estimador de regressão é preferível ao estimador de razão quando:
−ρ
2
xy
S
2
y
< R
2
S
2
x
−2 RS
xy
ou, equivalentemente quando:
−ρ
2
xy
S
2
y
< R
2
S
2
x
−2 Rρ
xy
S
y
S
x
¡
ρ
xy
S
y
−RS
x
¢
2
> 0 =⇒
µ
ρ
xy
S
y
S
x
S
2
x
−R

2
> 0
isto é, quando:
µ
S
xy
S
2
x
−R

2
> 0 =⇒(B −R)
2
> 0
B corresponde ao ajuste populacional (hipotético) do modelo aos dados da
população.
Logo, o estimador de regressão é mais preciso que o estimador de razão
a menos que B = R, o que ocorre somente quando a regressão entre y e x é
linear passando pela origem.
1.5.2 O uso de estimadores de regressão
O estimador de regressão é útil por pelo menos três motivos:
• oferece calibração na variável auxiliar, isto é, se aplicado a variável
auxiliar replica exatamente seu total conhecido na população;
• oferece ganhos de eficiência em relação ao estimador simples;
• tem grande flexibilidade, podendo ser utilizado com um vetor de var-
iáveis auxiliares e ser facilmente generalizado para o uso em desenhos
amostrais complexos.
Algumas desvantagens e problemas devem ser consideradas ao tomar a
decisão de usar estimadores de regressão:
• o vício pode ser não desprezível com pequenas amostras;
38 CAPÍTULO 1. ESTIMADORES ESPECIAIS
• os pesos podem ser negativos ou menores que 1, o que é indesejável.
• a precisão pode não ser boa caso o modelo linear não se ajuste bem.
• maior complicação na estimação da variância.
• quando há mais de uma variável auxiliar, é necessário usar método
para escolha das que vão ser incorporadas na estimação. Acrescentar
variáveis auxiliares nem sempre traz bom resultado.
• usar pesos diferentes para diferentes variáveis de interesse da pesquisa é
uma tentação, mas aumenta a complexidade e cria dificuldades práticas.
1.6 Pós-estratificação
É muito comum na prática a ocorrência de situações onde a técnica de estrat-
ificação poderia ser aplicada para melhorar a qualidade da amostra, porém
não se dispõe de uma lista completa das unidades da população com os re-
spectivos valores da característica a ser usada na estratificação, ou seja, o
estrato para o qual a unidade pertence não é conhecido até que os dados da
amostra sejam coletados. Características de pessoas, tais como: idade, sexo,
raça e nível educacional são exemplos práticos dessa aplicação.
Nestes casos, quando forem conhecidos os limites dos estratos, e os seus
respectivos tamanhos (através de um censo anterior, por exemplo), é possível
fazer uso da estratificação para melhorar a qualidade das estimativas, através
da técnica de pós-estratificação que consiste no seguinte:
i) seleciona—se uma amostra aleatória simples sem reposição de tamanho
n da população π
N
(sem considerar a estratificação);
ii) observa—se para cada unidade selecionada o valor da característica de
estratificação x;
iii) de acordo com os valores observados de x, distribui-se a amostra em
L estratos previamente delimitados;
iv) considera-se a parte da amostra em cada um dos estratos como uma
amostra aleatória simples sem reposição do estrato (vide estimação em sub-
populações), de tal forma que n
1
+n
2
+ · · · +n
L
= n
Neste caso n
1
, n
2
, · · · n
L
são variáveis aleatórias. A amostra em cada
estrato é considerada como uma amostra aleatória simples sem reposição da
subpopulação formada pelas unidades pertencentes ao estrato.
Assim sendo, a maneira de estimar será derivada da teoria apresentada
para estimação em subpopulações.
1.6. PÓS-ESTRATIFICAÇÃO 39
1.6.1 Estimação do total e da média
De acordo com o que foi visto no estudo de estimação em subpopulações um
estimador não tendencioso para o total y da população com pós-estratificação
é dado por:
b
Y
p´ os
=
L
X
h=1
N
h
y
h
=
L
X
h=1
N
h
n
h
n
h
X
j=1
y
hj
Note que em termos de expressão, o estimador
b
Y
p´ os
é idêntico ao esti-
mador
b
Y
est
. A diferença existente entre ambos é que no caso de
b
Y
est
as
médias amostrais nos estratos (y
h
) são calculadas com amostras de taman-
hos n
h
conhecidos a priori, enquanto que no caso de
b
Y
p´ os
estes tamanhos
são variáveis aleatórias dependendo da particular amostra selecionada.
A seguir, será demonstrada a afirmação de que
b
Y
p´ os
é estimador não
viciado para Y .
Inicialmente, deve—se recordar que, se Z e T são variáveis aleatórias,
então:
E(Z) = E
T
[E(Z/T)]
Neste caso é conveniente considerar internamente a esperança condi-
cionada quando se fixa uma dada seleção de amostra de tamanhos n
1
, n
2
, · · · , n
L
,
e depois a esperança sobre todas as possíveis seleções de amostra. Verifica—se
que:
E(y
h
) = E
Ã
1
n
h
n
h
X
j=1
y
hj
!
= E
n
1
,n
2
,··· ,n
L
[E
1
n
h
n
h
X
j=1
y
hj
| n
1
, n
2
, · · · , n
L
]
= E
n
1
,n
2
,··· ,n
L
[Y
h
] = Y
h
∀h = 1, 2, · · · , L
Seguindo—se imediatamente que:
E(
b
Y
p´ os
) = E
"
L
X
h=1
N
h
y
h
#
=
L
X
h=1
N
h
E(y
h
) =
L
X
h=1
N
h
Y
h
= Y
Uma consequência imediata disto é que um estimador não tendencioso da
média y é dado por :
y
p´ os
=
1
N
b
Y
p´ os
=
L
X
h=1
N
h
N
y
h
40 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Na pós—estratificação, conclui—se então que, os estimadores do total e da
média são obtidos da mesma forma que na estratificação comum, uma vez
selecionada a amostra. O que será diferente é a precisão resultante deste
processo de estimação, como será visto adiante.
1.6.2 Precisão dos estimadores com pós-estratificação
Nosso objetivo aqui é o cálculo das medidas da precisão dos estimadores com
pós—estratificação, e a comparação dessa precisão com aquela resultante da
aplicação convencional da estratificação.
Inicialmente vale notar que não se dispõe de expressão exata para a var-
iância de
b
Y
p´ os
ou de y
p´ os
. Isto se deve ao fato de ambas dependerem da
razão
1
n
h
onde agora n
h
é variável aleatória. Mas vamos ao problema,
calculando uma aproximação para V (y
p´ os
).
Variância aproximada de y
p´ os
.
Se Z e T são variáveis aleatórias pode se escrever:
V (Z) = E
T
(V (Z/T)) +V
T
[E(Z/T)]
Então:
V (y
p´ os
) = E
n
1
,n
2
,··· ,n
L
£
V (y
p´ os
| n
1
, n
2
, · · · , n
L
¤
+
+V
n
1
,n
2
,··· ,n
L
[E(y
p´ os
| n
1
, n
2
, · · · , n
L
]
Mas:
E(y
p´ os
| n
1
, n
2
, · · · , n
L
) = Y
Donde:
V
n
1
,n
2
,··· ,n
L
[E(y
p´ os
| n
1
, n
2
, · · · , n
L
] = V
n
1
,n
2
,··· ,n
L
(Y ) = 0
Logo:
V (y
p´ os
) = E
n
1
,n
2
,··· ,n
L
£
V (y
p´ os
| n
1
, n
2
, · · · , n
L
¤
= E
n
1
,n
2
,··· ,n
L
Ã
L
X
h=1
N
2
h
N
2
(
1
n
h

1
N
h
)S
2
h
!
Daí:
V (y
p´ os
) =
L
X
h=1
N
2
h
N
2
E(
1
n
h
)S
2
h

L
X
h=1
N
2
h
N
2
S
2
h
N
h
1.6. PÓS-ESTRATIFICAÇÃO 41
Para calcular E(
1
n
h
) vamos usar a aproximação em série de Taylor em
torno do ponto E(n
h
) da função
1
n
h
. Esta função pode ser escrita como:
1
n
h
=
1
E(n
h
)
E(n
h
)
n
h
=
1
E(n
h
)
1
n
h
E(n
h
)
=
1
E(n
h
)
1
1 +
n
h
−E(n
h
)
E(n
h
)
agora sabe—se que:
1
1 +∆
= 1 −∆+∆
2
−· · ·
.
= 1 −∆+∆
2
Para
∆ =
n
h
−E(n
h
)
E(n
h
)
vem:
1
1 +
n
h
−E(n
h
)
E(n
h
)

= 1 −
n
h
−E(n
h
)
E(n
h
)
+
µ
n
h
−E(n
h
)
E(n
h
)

2
Donde:
1
n
h

=
1
E(n
h
)
"
1 −
n
h
−E(n
h
)
E(n
h
)
+
µ
n
h
−E(n
h
)
E(n
h
)

2
#
Tomando expectâncias nos 2 membros vem:
E(
1
n
h
)

=
1
E(n
h
)
µ
1 −
E(n
h
−E(n
h
))
E(n
h
)
+
E[(n
h
−E(n
h
))
2
]
[E(n
h
)]
2

=
1
E(n
h
)
µ
1 +
V (n
h
)
[E(n
h
)]
2

Agora n
h
/n é um estimador não viciado da proporção N
h
/N de unidades
pertencentes ao estrato h.
Logo:
V
³
n
h
n
´
=
N −n
N
1
n
µ
N
N −1
N
h
N
µ
1 −
N
h
N
¶¶

=
N −n
N
1
n
µ
N
h
N
µ
1 −
N
h
N
¶¶
Também:
E
h
n
h
n
i
=
N
h
N
42 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Logo:
E(n
h
) = n
N
h
N
V (n
h
) = n
2
N −n
N
1
n
µ
N
h
N
µ
1 −
N
h
N
¶¶
Isto é:
E(n
h
) = n
N
h
N
V (n
h
) = n
(N −n)
N
µ
N
h
N
µ
1 −
N
h
N
¶¶
Levando na expressão de E(
1
n
h
) vem:
E(
1
n
h
)

=
1
n
N
h
N
_
_
_
_
1 +
n
(N −n)
N
N
h
N
µ
1 −
N
h
N

n
2
N
2
h
N
2
_
_
_
_
=
1
n
N
h
N
_
_
_
1 +
(N −n)
N
1
n
_
_
_
1
N
h
N
−1
_
_
_
_
_
_
=
1
n
N
h
N
µ
1 +
(N −n)
N
1
n
µ
N
h
N
−1
¶¶
Substituindo, finalmente, na expressão de V (y
p´ os
), vem:
V (y
p´ os
)

=
L
X
h=1
N
2
h
N
2
N
nN
h
µ
1 +
N −n
N
1
n
µ
N
N
h
−1
¶¶
S
2
h

L
X
h=1
N
2
h
N
2
S
2
h
N
h
=
L
X
h=1
N
2
h
N
2
µ
N
nN
h

1
N
h

S
2
h
+
L
X
h=1
N
2
h
N
2
N
nN
h
N −n
N
1
n
µ
N
N
h
−1

S
2
h
=
N −n
N
1
n
L
X
h=1
N
h
N
S
2
h
+
N −n
N
1
n
2
L
X
h=1
(1 −
N
h
N
)S
2
h
Daí:
V (y
p´ os
)

= V (y
(p)
est
) +
N −n
N
1
n
2
L
X
h=1
(1 −
N
h
N
)S
2
h
1.7. O USO DE INFORMAÇÕES AUXILIARES NA ESTIMAÇÃO 43
onde: V (y
(p)
est
) é a variância do estimador da média no desenho de amostragem
estratificada com alocação proporcional.
À medida que n cresce, a segunda parcela de V (y
p´ os
) tende a zero.
V (y
p´ os
) →V (y
(p)
est
)
Segue—se que, para amostras grandes, a eficiência da pós-estratificação em
relação à amostragem aleatória simples equivale à alocação proporcional. Um
critério habitualmente empregado na prática para ter uma pós estratificação
efeciente é tornar cada n
h
≥ 20, este pode ser obtido de 2 maneiras, a saber:
i) dimensionar a amostra aleatória simples de tal sorte que esta condição
ocorra com elevada probabilidade;
ii) utilizar um esquema de amostragem por cotas, onde os tamanhos de
amostra em cada um dos estratos seriam previamente fixados por alocação
proporcional e as unidades de população iriam sendo selecionadas por AAS
e alocadas nos estratos respectivos, até preencher a “cota” de cada estrato;
cada nova unidade selecionada um estrato já com a cota preenchida seria re-
jeitada, e uma nova unidade deveria ser selecionada, repetindo—se o processo
até satisfazer as cotas fixadas para todos os estratos.
A desvantagem deste esquema de amostragem por cotas é o aumento do
custo da pesquisa, em função da seleção, investigação e posterior rejeição de
unidades pertencentes a estratos já completos.
Deve—se enfatizar que a adoção deste esquema só é válida se o proced-
imento da seleção das unidades da amostra for realmente o de uma AAS
sem reposição.
1.7 O uso de informações auxiliares na esti-
mação
Silva (1996a) nos aponta que o aproveitamento de informações populacionais
auxiliares para estimação em pesquisas por amostragem é uma das partes
da teoria de amostragem que mais progrediu desde os anos 70. O livro que
representava o ”estado da arte” da amostragem até então (Cochran (1977))
contempla o uso de informações auxiliares através de estimadores de razão
ou de regressão simples (ambos incorporando apenas uma variável auxiliar)
ou de pós-estratificação. Entretanto, essas técnicas eram apresentadas como
ferramentas separadas, sem uma ligação comum.
O livro que corresponde ao ”estado da arte” da amostragem no início
dos anos 90 (Särndal, Swensson e Wretman (1992)) apresenta as técnicas de
pós-estratificação, estimação de razão e de regressão como casos particulares
44 CAPÍTULO 1. ESTIMADORES ESPECIAIS
do estimador de regressão generalizado, o qual fornece uma estrutura flexível
e eficiente para incorporar informações auxiliares na etapa de estimação.
Neste livro é enfatizada uma abordagem ”model assisted”, em que o modelo
de regressão é usado para motivar o estimador, mas em que as propriedades
do mesmo são avaliadas com respeito à distribuição gerada por repetidas
aplicações do processo de seleção da amostra.
Tambémrecentemente, Deville e Särndal (1992) identificaramo estimador
de regressão como um dos membros de uma famílias de estimadores de cali-
bração, em que os pesos são ajustados, cujos os fatores de ajuste são obtidos
de forma a minimizar uma função de distância sujeita a restrições que são
funções das variáveis auxiliares. Empregando-se distintas funções de dis-
tância se gera uma ampla família de estimadores que inclui ”raking ratio
estimators, estimadores de regressão, de razão, de pós-estratificação e out-
ros.
O IBGE já adquiriu larga experiência e tem feito uso efetivo dos desen-
volvimentos recentes da teoria. Para corroborar essa afirmação é apresentada
a aplicação de estimadores especiais para a obtenção dos fatores de expansão
das amostras utilizadas na coleta de Censos Demográficos brasileiros.
O IBGE, desde 1960, tem usado dois modelos de questinários na coleta
das informações dos Censos Demográficos: um questionário básico, que con-
tém os quesitos necessários ao conhecimento de certas características bási-
cas da população e dos domicílios, referentes a 100% da população, e um
questionário de amostra (ampliado) que contém, além dos quesitos básicos
que também constam do questionário básico, outos quesitos mais detalhados
sobre características dos domicílios e das pessoas, tais como religião, cor,
migração, escolaridade, fecundidade, mão-de-obra, rendimento, etc.
O conhecimento de totais da população para um subconjunto de car-
acterísticas investigadas (as quais são pesquisadas a 100%) torna viável a
aplicação de estimadores especiais.
Nos censos demográficos de 1960 e 1970 foram utilizados estimadores
de pós-estratificação, com 46 pós-estratos em 1970, aplicado separadamente
para cada município. Cada pós-estrato era formado por combinações de
valores das variáveis auxiliares, as quais foram investigadas a 100% através
do questionário básico.
Na expansão da amostra do Censo Demográfico de 1980 foi adotado raking
ratio estimator aqui denominado Processo Iterativo de Estimação por Totais
Marginais - PIETOM (IBGE (1983)) aplicado separadamente para cada uma
das 4219 áreas de ponderação.
2
Esse método consistia em definir uma tabela
2
Área de ponderação é a menor área para a qual se calculava estimativas, e coincidia
na maior parte das vezes com um município, podendo ser subdivisão deste nos de maior
1.7. O USO DE INFORMAÇÕES AUXILIARES NA ESTIMAÇÃO 45
(ou matriz) de pós-estratificação de dupla entrada, cujas linhas e colunas
eram dadas por combinações de valores das variáveis auxiliares, as quais
foram investigadas a 100% através do questionário básico. Eram portanto
conhecidos os totais populacionais das celas, linhas e colunas dessa tabela.
Os pesos amostrais para unidades em cada cela eram calculados por um
processo iterativo de ajuste dos pesos iniciais, de tal forma que as estimativas
amostrais eram sucessivamente calibradas nos totais das linhas e depois das
colunas, até que fosse observada convergência dos pesos.
O uso dese método permitiu ampliar bastante o número de variáveis aux-
iliares consideradas para a calibração das estimativas amostrais: a tabela de
pós-estratificação empregada no censo de 1980 tinha 720 celas, em compara-
ção com os 46 pós-estratos adotados no Censo de 70.
A metodologia adotada para a expansão da amostra do Censo de 1991 foi
baseada no ajuste de um modelo linear generalizado sujeito a restrições, en-
tendidas como condições que buscam igualar estimativas dos valores conheci-
dos do universo para um conjunto de variáveis auxiliares comuns à amostra
e toda população de cada área de ponderação. Essa metodologia é baseada
num dos membros da família de estimadores de calibração identificada por
Deville e Särndal (1992), identificada por estimação de mínimos quadrados
generalizados em duas etapas - MQG2 (Silva, Bianchini e Albieri (1993);
Albieri e Dias (1994)).
Essa metodologia foi desenvolvida por técnicos do Statistics Canada e
aplicada na expansão da amostra do Censo de População canadense de 91e 96,
que é parecido com o Censo Demográfico brasileiro. Foi possível contar com
programas cedidos ao IBGE pelo Statistics Canada para a implementação do
método para uso no censo brasileiro.
A metodologia MQG2 adotada para expandir a amostra do Censo De-
mográfico de 1991 permite incorporar grande número de variáveis auxiliares,
mas não oferece uma teoria para a escolha ótima das mesmas. Esse é um dos
aspectos do emprego de estimadores de regressão que tem merecido atenção
da comunidade de pesquisa recentemente. Em particular, Silva e Skinner
(1996) apresentam um método para seleção de variáveis auxiliares quando se
utiliza estimadores de regressão cuja eficiência para estimar a média de uma
variável resposta especificada foi maior que a de vários competidores. Silva
e Skinner (1996) apontam ainda uma perda de precisão deo estimador de
regressão quando o número de variáveis auxiliares cresce demasiadamente,
alertando para a necessidade de establecer um compromisso entre a cali-
bração no maior número possível de variáveis auxiliares sem impor grande
perda de eficiência no estimador.
população.
46 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Na área de estimação em amostragem há hoje em dia várias opções de
sistemas genéricos: SUDAAN - SUrvey DAta ANalysis (Shah et al. (1992)),
GES - Generalized Estimation System (Estevao, Hidiroglou e Särndal (1995)),
CLAN (Andersson e Nordberg (1994)), WESVARPC (Westat (1995)). Todos
esses sistemas são capazes de calcular estimativas de totais e médias, e re-
spectivas medidas de precisão para uma ampla gama de desenhos amostrais
e tipos de estimadores. Em particular, o sistema GES desenvolvido pelo
Statistics Canada implementa a metodologia de estimadores de regressão
generalizados tal como descrita no livro de Särndal, Swensson e Wretman
(1992).
1.8. EXERCÍCIOS 47
1.8 Exercícios
1.8.1 (Thompson (1992), pág. 76) Numa cidade com 75.000 habitantes,
uma amostra aleatória simples de 4 domicílios é selecionada dos 25.000
domicílios da cidade para estimar o custo médio de alimentação por
domicílio em uma semana. O primeiro domicílio selecionado tinha 4
pessoas e gastou R$150,00 com alimentação naquela semana. O se-
gundo domicílio tinha 2 pessoas e gastou R$100,00. O terceiro, com 4
pessoas, gastou R$200,00. O quarto, com 3 pessoas, gastou R$140,00.
Considere:
N −n
N

= 1 s
2
y
= 1691, 70 s
2
x
= 0, 9166 s
xy
= 37, 5
a) Identifique as unidades de amostragem, a variável de interesse, e
alguma informação auxiliar associada com as unidades.
b) Descreva dois tipos de estimadores para estimar a despesa mé-
dia por domicílio para a alimentação por uma semana na cidade.
Sumarize algumas propriedades de cada estimador.
c) Estime a despesa média por domicílio usando o primeiro estimador
e estime a variância do estimador.
d) Estime a despesa média por domicílio usando o segundo estimador
e estime a variância do estimador.
e) Baseado nos dados, qual estimador é preferível nesta situação?
1.8.2 Seja {u
1
, u
2
, · · · , u
n
}uma amostra aleatória simples sem reposição da
população π
N
, onde são observadas as características x e y. Mostre
que a covariância amostral
s
xy
=
1
n −1
n
X
i=2
(x
i
−x)
2
é um estimador não viciado para a covariância populacional
S
xy
=
1
N −1
N
X
I=1
(X
I
−X)(Y
I
−Y )
1.8.3 De uma população com 40 domicílios foi selecionada uma amostra
aleatória simples sem reposição de tamanho n = 4 que proporciona
48 CAPÍTULO 1. ESTIMADORES ESPECIAIS
os seguintes valores semanais expressos em reais.
Gastos com alimentação Gastos total
(y
i
) (x
i
)
125 250
135 300
70 200
158 350
4
P
i=1
y
i
= 488
4
P
i=1
x
i
= 1.100
4
P
i=1
y
2
i
= 63.714
4
P
i=1
x
2
i
= 315.000
4
P
i=1
x
i
y
i
= 141.050
Estime a porcentagem de gasto com alimentação e o respectivo erro
amostral medido pelo coeficiente de variação.
1.8.4 Oobjetivo é estimar o total de despesa comgastos sociais das prefeituras
de uma região que abrange 281 municípios. Foi selecionada uma amostra
aleatória sem reposição de 50 municípios. Sabe-se que a população to-
tal da região é de 6.818 (em milhares). Calcule a estimativa de total
da característica y, que representa a despesa com gastos sociais, e o re-
spectivo intervalo com 95% de confiança para essa estimativa de total
baseada em cada um dos seguintes estimadores:
a) Estimador simples.
b) Estimador de razão, utilizando como variável auxiliar a população,
representada pela característica x.
c) Comente os resultados.
São dadas as seguintes informações provenientes da amostra:
50
P
i=1
y
i
= 128.080
50
P
i=1
x
i
= 1.067
s
2
y
= 6.244.516 s
2
x
= 454, 51 s
xy
= 45.399
Obs: Tanto os valores de x com de y estão representados em milhares.
1.8. EXERCÍCIOS 49
1.8.5 Defina estimadores consistentes e suas respectivas variâncias aproxi-
madas para a média de Y baseados em:
a) estimador de razão simples;
b) estimador de razão combinada;
c) estimador de razão separada.
Quando é razoável a utilização de estimadores de razão, à luz das re-
strições existentes para esse tipo de estimador? e
A partir das fórmulas aproximadas para as variâncias dos estimadores
de (a), (b) e (c), obtenha estimadores consistentes que possam ser cal-
culados a partir da amostra.
1.8.6 Uma pesquisa piloto, onde foram selecionados aleatoriamente 21 domi-
cílios (d
i
i = 1, 2, · · · , 21), forneceu os seguintes dados para o número
de pessoas no domicílio (x), número de crianças (y
1
), número de carros
(y
2
) e número de televisores (y
3
).
d
i
x y
1
y
2
y
3
d
i
x y
1
y
2
y
3
d
i
x y
1
y
2
y
3
d
1
5 3 1 3 d
8
2 0 0 1 d
15
6 3 2 0
d
2
2 0 1 1 d
9
3 1 1 1 d
16
4 2 1 1
d
3
4 1 2 0 d
10
2 0 2 0 d
17
4 2 1 1
d
4
4 2 1 1 d
11
6 4 2 1 d
18
3 1 0 1
d
5
6 4 1 1 d
12
3 1 0 0 d
19
2 0 2 1
d
6
3 1 1 2 d
13
4 2 1 1 d
20
4 2 1 1
d
7
5 3 1 1 d
14
5 3 1 1 d
21
3 1 1 1
Assumindo que a população total X é conhecida, você recomendaria
que os estimadores de razão fossem utilizados ao invés do estimador
simples para estimar o total de crianças, carros e televisores?
1.8.7 Em uma determinada localidade de 500 famílias se deseja fazer um
estudo sobre o hábito de fumar entre as pessoas maiores de 16 anos.
A população foi estratificada em 2 estratos: famílias com renda alta
(estrato 1), onde foram classificadas 200 famílias; e famílias com renda
mais baixa (estrato 2), onde foram classificadas as outras 300 famílias.
É conhecido que o número de pessoas com mais de 16 anos no estrato 1 é
520 e no estrato 2 é 1230. De cada um dos estratos foi selecionada uma
amostra aleatória de 5 famílias, apresentando os seguintes resultados:
50 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Estrato 1
Famílias na amostra 1 2 4 4 5
Pessoas com mais de 16 anos 4 3 2 1 2
Fumantes com mais de 16 anos 1 1 0 1 1
Estrato 2
Famílias na amostra 1 2 4 4 5
Pessoas com mais de 16 anos 5 6 4 4 3
Fumantes com mais de 16 anos 3 3 1 2 2
Estimar o total de fumantes entre as pessoas maiores de 16 anos na
localidade, utilizando:
a) o estimador simples da amostragem estratificada;
b) o estimador de razão combinada; e
c) o estimador de razão separada.
Calcule os intervalos com 95% de confiança para estimar os totais de fu-
mantes entre as pessoas maiores de 16 anos na localidade, considerando
os estimadores utilizados em (a), (b) e (c).
Comente os resultados.
1.8.8 Considere uma população de pomares de plantio de pêssegos. A var-
iável y é a produção de pêssegos e a variável auxiliar x o número de
pés de pêssego do pomar.
A idéia é comparar a precisão dos estimadores alternativos da produção
total de pêssegos na população, que tem 256 pomares, com base numa
amostra aleatória de 100 pomares.
Os dados básicos obtidos de um censo anterior são:
S
2
y
= 6.409 S
2
x
= 3.898 S
xy
= 3.898 e R = 1, 270
Calcule a variância do estimador de total segundo cada uma das es-
tratégias: estimador simples, razão e regressão. Comente o resultado.
1.8.9 De um Censo Agropecuário foram obtidas 1200000 fazendas e a área
(x) de cada fazenda foi investigada fornecendo uma média de 31,25
acres por fazenda. Uma amostra aleatória simples de 2055 fazendas foi
selecionda e foram obtidas as seguintes informações sobre o número de
cabeças de gado (y) em cada fazenda e a área de cada fazenda.
1.8. EXERCÍCIOS 51
2.055
P
i=1
y
i
= 25. 751
2.055
P
i=1
x
i
= 62. 989
s
2
y
= 1.334, 470 s
2
x
= 490, 4300 b = 0, 354585
(Considere
N −n
N

= 1)
a) Calcule as estimativas do total de cabeças de gado utilizando o
estimador simples, de razão e de regressão.
b) Calcule a estimativa da variância de cada estimativa obtida em
(a).
c) Obtenha o intervalo com 95% de confiança para cada uma das
estimativas obtida em (a).
d) Comente os resultados.
1.8.10 Para estimar o total de cabeças de gado em uma determinada região, foi
selecionada aleatoriamente uma amostra de 24 fazendas dentre as 1.238
fazendas daquela região. O número de cabeças de gado de cada fazenda
da amostra foi coletado (característica y) e além disso dispunha-se do
correspondente número de cabeças de gado obtido no último Censo
Agropecuário. Usando como variável auxiliar (x) a informação do
número de cabeças de gado coletado no último censo e sabendo-se que:
24
P
i=1
y
i
= 13.646
24
P
i=1
x
i
= 13.638 s
2
y
= 256.154, 86
s
2
x
= 278.836, 89 s
xy
= 256.262, 02
a) Compare a eficiência do estimador de regressão em relação ao
estimador simples.
b) Compare a eficiência do estimador de regressão em relação ao
estimador de razão.
1.8.11 Uma amostra aleatória simples de 546 domicílios foi selecionada de
uma área que continha 2097 domicílios. As características tamanho
do domicílio e idade do chefe foram investigadas em todo universo e
a variável sexo do chefe do domicílio foi investigada apenas através da
amostra, fornecendo os seguintes resultados.
52 CAPÍTULO 1. ESTIMADORES ESPECIAIS
Número de domicílios no universo
Tamanho do Idade do chefe
domicílio 0 a 39 anos 40 e mais Total
1 a 3 moradores 303 464 767
4 e 5 moradores 426 339 765
6 e mais moradores 171 394 565
Total 900 1197 2097
Número de domicílios na amostra
Tamanho do Idade do chefe
domicílio 0 a 39 anos 40 e mais Total
1 a 3 moradores 103 154 257
4 e 5 moradores 120 80 200
6 e mais moradores 32 57 89
Total 255 291 546
Número de domicílios na amostra, cujo chefe é mulher
Tamanho do Idade do chefe
domicílio 0 a 39 anos 40 e mais Total
1 a 3 moradores 1 8 9
4 e 5 moradores 1 3 4
6 e mais moradores 0 3 3
Total 2 14 16
Estimar o número de domicílios cujo chefe é mulher
a) usando o estimador simples.
b) usando o estimador de pós-estratificação, considerando como pós-
estrato a variável idade do chefe.
c) usando o estimador de pós-estratificação, considerando como pós-
estrato o tamanho do domicílio.
d) usando o estimador de pós-estratificação, considerando como pós-
estrato a variável idade do chefe cruzada como tamanho do domicílio.
Capítulo 2
Amostragem de Conglomerados
2.1 Conceituação Básica
Oobjetivo pretendido coma aplicação da técnica de amostragemé a obtenção
de estimativas para certos parâmetros da população a partir de uma amostra
de unidades dessa população, cuja precisão seja conhecida e satisfatória.
As unidades dessa amostra podem ser obtidas selecionando-se direta-
mente unidades na população com probabilidades conhecidas. Elas podem
ainda ser obtidas por um outro esquema de amostragem onde grupos de
unidades são selecionados com probabilidades conhecidas.
A amostragem de conglomerados (cluster sampling) consiste num es-
quema de amostragem em estágios, sendo que em cada estágio a unidade
amostral, para a qual é atribuída a probabilidade de seleção, é grupada em
um subconjunto (CONGLOMERADO) de unidades populacionais.
O termo unidade populacional é usado para denotar um membro de uma
particular população para a qual as análises dos resultados do levantamento
são feitas.
1
A formação dos conglomerados pode ser:
- natural (exemplos: um cacho de uvas, uma turma de alunos, um edifício,
um quarteirão, um município); ou
- artificial, construído pelo estatístico de acordo como objetivo da pesquisa
(exemplos: conglomerados de seis pessoas, de dez peças industriais do mesmo
tipo, de cinco domicílios do mesmo edifício).
1
Nos esquemas de amostragem até então apresentados (amostragem aleatória simp-
ples, amostragem estratificada e amostragem sistemática) a unidade amostral era igual a
unidade de análise.
53
54CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
A unidade populacional depende da análise que está sendo feita e é de-
terminada pelo propósito do levantamento e não pelo plano amostral. Pode
acontecer de mais de uma unidade populacional estar envolvida no levanta-
mento, quando por exemplo, características de domicílios e de pessoas são
investigadas no mesmo levantamento.
Não há uma única definição possível para os conglomerados. Por exemplo,
a turma tanto pode ser uma unidade populacional (se estivermos interessados
em investigar o número de alunos por turma), como pode ser um conglom-
erado de alunos (se estivermos interessados em investigar o aproveitamento
dos alunos).
A fim de exemplificar, seguem-se algumas ilustrações de possíveis con-
glomerados associados com a população, a variável de interesse e a unidade
de referência para análise.
População Variáveis de Unidade de Conglome-
Interesse Referência rados
Turmas de Alunos por turma Turma Escolas
alunos
Estudantes de Aproveitamento Estudante Turmas
escolas de 2
o
grau dos estudantes
Visitantes de Facilidades do Visitante de Veículos que
parques parque parque entram no
nacionais nacional parque
Passageiros Propósito da Passageiro de Lotações de
de avião Viagem avião passageiros
Domicílios Características Domicílio Setores
de domicílios
Moradores Características Morador de Domicílios
em favelas de pessoas favela em favelas
do Rio do Rio do Rio
Cabe lembrar que os vários esquemas de amostragem: amostragem aleató-
ria simples (AAS), amostragem estratificada e amostragem sistemática dis-
cutidos anteriormente podem ser aplicados a amostragem de conglomerados,
onde os conglomerados são as unidades amostrais.
2.2. AMOSTRAGEM DE ÁREAS 55
2.2 Amostragem de Áreas
O cadastro ou marco de referência é a fonte de materiais que serve de guia e
permite identificar a população a ser coberta para a seleção de amostras.
Os esquemas probabilísticos propostos para seleção de amostras pres-
supõem a existência de uma lista completa das unidades da população a ser
pesquisada. Porém, uma lista pode não estar disponível, ou estar desatual-
izada, ou o custo de preparar uma lista atualizada pode ser proibitivo. Além
disso, uma amostra selecionada de uma população dispersa geograficamente
provavelmente será muito dispersa também.
Para reduzir custos é muito freqüente o uso de amostragem de conglom-
erados definidos por áreas geográficas com limites naturais ou artificiais bem
definidos, Neste caso a amostra resultante pode ser concentrada dentro de
um número de áreas geográficas.
Portanto, a utilização de amostras de áreas se dá quando não existe um
cadastro de boa qualidade disponível e/ou quando a população for muito
dispersa e o fator custo de deslocamento for preponderante. Neste caso a
necessidade de uma lista atualizada das unidades para as quais se requer a
informação é restrita às áreas que forem selecionadas para a amostra.
A grande vantagem da amostra de conglomerados é a sua conveniência
operacional vinculada a possíveis reduções no custo.
Num levantamento de população, por exemplo, é operacionalmente mais
conveniente pesquisar todas as pessoas numa amostra de domicílios do que
selecionar o mesmo número de pessoas espalhadas por toda a população ou
mesmo pesquisar todos os domicílios de uma amostra de áreas (por exemplo,
setores) do que selecionar uma amostra do mesmo número de domicílios
selecionados aleatoriamente de uma lista de todos os domicílios. Tal lista
nem sempre é disponível e o seu preparo torna a pesquisa bem mais cara.
Suponha-se que uma AAS de n=400 domicílios deva ser selecionada de
uma população de N=10.000 domicílios de uma cidade. Como não dispomos
de uma lista atualizada com todos os domicílios, optamos por uma amostra
de domicílios localizados dentro de uma amostra de quarteirões. Isto pode
ser feito dividindo a área toda da cidade em quarteirões e selecionando 1/25
quarteirões. A probabilidade de selecionar um domicílio na cidade é a prob-
abilidade de selecionar um quarteirão, ou seja, 1/25=400/10.000.
Portanto, as unidades amostrais são quarteirões selecionados de uma lista
completa. A seleção da amostra de quarteirões determina a seleção dos
domicílios que estão localizados nos quarteirões.
Mesmo se a lista de todos os domicílios fosse disponível, considerações na
redução do custo pode ser observada na amostra de conglomerados. Pois a
56CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
localização e identificação dos 400 domicílios espalhados aumentaria o custo
com gastos com transporte, bem como um maior tempo para a coleta em
comparação com a localização dos quarteirões e visita a todos os domicílios
nestes quarteirões.
Mas para um dado tamanho de amostra, uma unidade menor em geral
dá resultados mais precisos do que uma unidade maior.
Portanto, se compararmos uma amostra de conglomerados comuma amostra
de unidades elementares compreendida do mesmo número de elementos, em
geral na amostra de conglomerados tem-se:
- o custo por unidade elementar é mais baixo, devido ao mais baixo custo
da listagem ou da localização, ou de ambos;
- a variância amostral é mais alta dependendo da homogeneidade dos
elementos nos conglomerados.
Entretanto, levando em conta os aspectos operacionais e a redução de
custos (devido ao possível ganho no tempo de coleta, identificação, contato,
etc.) que a amostragem de conglomerados proporciona, em muitas situações
práticas a perda na eficiência amostral é balanceada com essas vantagens.
2.3 Conglomerados em 1 estágio
2.3.1 Probabilidades iguais de seleção
Definições básicas e notação
Seja π
N
a população, com suas N unidades grupadas em M conglomerados
disjuntos. Seleciona-se uma amostra aleatória simples sem reposição de m
desses M conglomerados. As unidades de π
N
pertencentes aos m conglom-
erados selecionados formam a amostra de conglomerados em 1 estágio de
π
N
(Ac1).
Se a característica y observada nas unidades da amostra, tem-se uma
amostra de conglomerados em 1 estágio de y.
Pode-se representar esquematicamente a população por:
C
1
C
2
C
M
U
11
→ Y
11
U
21
→ Y
21
. . . U
M1
→ Y
M1
U
12
→ Y
12
U
22
→ Y
22
. . . U
M2
→ Y
M2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
U
1N
1
→ Y
1N
1
U
2N
2
→ Y
2N
2
. . . U
MN
M
→ Y
MN
M
onde:
2.3. CONGLOMERADOS EM 1 ESTÁGIO 57
U
ij
é a j-ésima unidade de π
N
no i-ésimo conglomerado C
i
;
i ∈ {1, 2, ..., M} e j ∈ {1, 2, ..., N
i
} ;
Y
ij
é o valor da característica y associada a U
ij
;
N
i
é o tamanho do conglomerado C
i
;
M
P
i=1
N
i
= N
Selecionando-se através de amostragem aleatória simples sem reposição
m conglomerados dentre os M existentes, pode-se representar esquematica-
mente a amostra por:
C
0
1
C
0
2
C
0
m
U
0
11
→ Y
0
11
U
0
21
→ Y
0
21
. . . U
0
m1
→ Y
0
m1
U
0
12
→ Y
0
12
U
0
22
→ Y
0
22
. . . U
0
m2
→ Y
0
m2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
U
0
1N
0
1
→ Y
0
1N
0
1
U
0
2N
0
2
→ Y
0
2N
0
2
. . . U
0
mN
0
m
→ Y
0
mN
0
m
Note-se que como os conglomerados são selecionados por amostragem
aleatória simples:
C
0
i
pode ser qualquer um dos conglomerados C
1
, C
2
, · · · , C
M
.
N
0
i
é o tamanho do conglomerado selecionado C
0
i
e pode ser qualquer um
dos valores N
1
, N
2
, · · · , N
M
.
Consequentemente os Y
0
ij
(i = 1, 2, ..., m e j = 1, 2, ..., N
0
i
) e os N
0
i
(i = 1, 2, ..., m) são variáveis aleatórias.
A amostra é constituída pelas unidades:
n
U
0
11
, ..., U
0
1N
0
1
; ...; U
0
m1
, ..., U
0
mN
0
m
o
e os valores da característica y associados às unidades da amostra são:
n
Y
0
11
, ..., Y
0
1N
0
1
; ...; Y
0
m1
, ..., Y
0
mN
0
m
o
O tamanho total da amostra é: n =
m
P
i=1
N
0
i
que é uma variável aleatória,
cujos valores dependem dos conglomerados selecionados.
Pode-se calcular o valor esperado de n, n que será dado por:
n = E
Ã
m
X
i=1
N
0
i
!
=
m
X
i=1
E(N
0
i
) = m
M
P
i=1
N
i
M
= m
N
M
=
m
M
N = f
1
N
58CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
sendo: f
1
=
m
M
, a fração de amostragem do primeiro estágio.
A figura 2.1 apresenta uma ilustração da seleção das unidades de uma
amostra de conglomerados em 1 estágio.
Figura 2.1: Ilustração da seleção das unidades de uma Ac1
Aamostragemde conglomerados em1 estágio é caracterizada pelos seguintes
fatos:
• Pertencem à amostra todas as unidades dos conglomerados seleciona-
dos.
• Só é necessário listar as unidades da população nos m conglomera-
dos selecionados para a amostra. Isto acarreta evicente economia de
tempo e custo quando comparado à amostragem aleatória simples ou à
amostragem estratificada, nas quais são listadas todas as unidades da
população.
• O tamanho da amostra não pode ser exatamente prefixado, pois de-
penderá dos conglomerados selecionados.
• Cada unidade da população tem a mesma probabilidade de participar
da amostra, e esta probabilidade é igual à fração de amostragem no
primeiro estágio
m
M
.
• Mais adiante se verá que em muitas ocasiões, a precisão da amostragem
de conglomerados é inferior à precisão da amostragem aleatória simples.
2.3. CONGLOMERADOS EM 1 ESTÁGIO 59
Entretanto, a vantagem do menor custo e tempo pode compensar a
perda de precisão.
Parâmetros da característica y
Total da característica y no conglomerado C
i
:
Y
i
=
N
i
X
j=1
Y
ij
Média da característica y no conglomerado C
i
:
Y
i
=
Y
i
N
i
Variância da característica y em C
i
:
S
2
i
=
1
N
i
−1
N
i
X
j=1
(Y
ij
−Y
i
)
2
Total da característica y em toda população:
Y =
M
X
i=1
Y
i
Média da característica y por unidade da população:
Y =
Y
N
Média da característica y por conglomerado:
Y =
Y
M
Variância da característica y em toda população:
S
2
=
1
N −1
M
X
i=1
N
i
X
j=1
(Y
ij
−Y )
2
60CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Estatísticas da amostra em cada conglomerado selecionado
Como resultado da amostragem de conglomerados tem-se as seguintes es-
tatísticas:
Total da característica y no i-ésimo conglomerado selecionado C
0
i
:
Y
0
i
=
N
0
i
X
j=1
Y
0
ij
Média da característica y no conglomerado C
0
i
:
Y
0
i
=
Y
0
i
N
0
i
Variância da característica y em C
0
i
:
S
0
2
i
=
1
N
0
i
−1
N
0
i
X
j=1
(Y
0
ij
−Y
0
i
)
2
Estimadores do total e da média na Ac1
Quando os conglomerados são selecionados por amostragem aleatória simples
sem reposição, um estimador não viciado do total Y é dado por:
b
Y
Ac1
=
M
m
m
X
i=1
Y
0
i
Prova:
E(
b
Y
Ac1
) =
M
m
m
X
i=1
E(Y
0
i
) =
M
m
m
X
i=1
E(Y
0
i
)
=
M
m
m
X
i=1
1
M
Ã
M
X
k=1
Y
k
!
=
M
m
m
M
Ã
M
X
k=1
Y
k
!
=
M
X
k=1
Y
k
= Y
Conseqüentemente, um estimador não viciado de Y , média por unidade
da população, é dado por:
y
Ac1
=
b
Y
Ac1
N
=
1
N
M
m
m
X
i=1
Y
0
i
=
1
mN
m
X
i=1
Y
0
i
2.3. CONGLOMERADOS EM 1 ESTÁGIO 61
onde: N =
N
M
é o tamanho médio por conglomerado.
E
¡
y
Ac1
¢
= E
Ã
b
Y
Ac1
N
!
=
1
N
E
³
b
Y
Ac1
´
=
1
N
Y = Y
E um estimador não viciado de Y , média por conglomerado é dado por:
y
Ac1
=
b
Y
Ac1
M
=
1
m
m
X
i=1
Y
0
i
E(y
Ac1
) = E
Ã
b
Y
Ac1
M
!
=
1
M
E
³
b
Y
Ac1
´
=
Y
M
= Y
62CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Variâncias dos estimadores do total e da média na Ac1
V (
b
Y
Ac1
) = V
Ã
M
m
m
X
i=1
Y
0
i
!
= E
Ã
M
m
m
X
i=1
Y
0
i
−Y
!
2
= E
_
¸
¸
_
_
_
_
_
M
m
P
i=1
Y
0
i
−mY
m
_
_
_
_
_
¸
¸
_
2
= E
_
_
M
2
m
2
Ã
m
X
i=1
Y
0
i
−mY
!
2
_
_
=
M
2
m
2
E
_
_
Ã
m
X
i=1
Y
0
i
−mY
!
2
_
_
=
M
2
m
2
E
_
_
Ã
m
X
i=1
¡
Y
0
i
−Y
¢
!
2
_
_
=
M
2
m
2
E
_
¸
¸
_
m
X
i=1
¡
Y
0
i
−Y
¢
2
+
m
X
i=1
m
X
k=1
i6=k
¡
Y
0
i
−Y
¢ ¡
Y
0
k
−Y
¢
_
¸
¸
_
=
M
2
m
2
_
¸
¸
_
m
X
i=1
E
¡
Y
0
i
−Y
¢
2
+
m
X
i=1
m
X
k=1
i6=k
E
£¡
Y
0
i
−Y
¢ ¡
Y
0
k
−Y
¢¤
_
¸
¸
_
=
M
2
m
2
_
¸
¸
_
m
M
M
X
i=1
¡
Y
i
−Y
¢
2
+
m(m−1)
M(M −1)
M
X
i=1
M
X
k=1
i6=k
£¡
Y
0
i
−Y
¢ ¡
Y
0
k
−Y
¢¤
_
¸
¸
_
=
M
m
_
¸
¸
_
M
X
i=1
¡
Y
i
−Y
¢
2
+
(m−1)
(M −1)
M
X
i=1
M
X
k=1
i6=k
£¡
Y
0
i
−Y
¢ ¡
Y
0
k
−Y
¢¤
_
¸
¸
_
fazendo:
S
2
e
=
1
M −1
M
X
i=1
¡
Y
i
−Y
¢
2
2.3. CONGLOMERADOS EM 1 ESTÁGIO 63
e notando que:
0 =
M
X
i=1
¡
Y
i
−Y
¢
=
Ã
M
X
i=1
¡
Y
i
−Y
¢
!
2
=
M
X
i=1
¡
Y
i
−Y
¢
2
+
M
X
i=1
M
X
k=1
i6=k
¡
Y
i
−Y
¢ ¡
Y
k
−Y
¢
=⇒
M
X
i=1
M
X
k=1
i6=k
¡
Y
i
−Y
¢ ¡
Y
k
−Y
¢
= −
M
X
i=1
¡
Y
i
−Y
¢
2
Segue-se que:
V (
b
Y
Ac1
) =
M
m
"
(M −1) S
2
e

(m−1)
(M −1)
M
X
i=1
¡
Y
i
−Y
¢
2
#
=
M
m
£
(M −1) S
2
e
−(m−1) S
2
e
¤
=
M(M −m)
m
S
2
e
=
M
2
(M −m)
M
S
2
e
m
Observe que a variância do estimador
b
Y
Ac1
depende somente da fração
de amostragem do primeiro estágio e da variabilidade entre os totais dos
conglomerados. Em termos de expressão, a variância de
b
Y
Ac1
é idêntica à
variância do estimador de total com amostragem aleatória simples.
Estimador da variância do estimador de total na Ac1
Agora que se conhece a expressão da variância do estimador
b
Y
Ac1
, trata-se da
obtenção de um estimador para essa variância. Isto é feito usando a teoria já
conhecida da amostragem aleatória simples e supondo que os conglomerados
são as unidades investigadas.
Assim,
s
2
e
=
1
m−1
m
X
i=1
(Y
0
i
−y
Ac1
)
2
deve ser um estimador não viciado de S
2
e
.
64CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Para verificar este fato, note-se que:
s
2
e
=
1
m−1
m
X
i=1
(Y
0
i
−y
Ac1
)
2
=
1
m−1
m
X
i=1
£¡
Y
0
i
−Y ) −(y
Ac1
−Y
¢¤
2
=
1
m−1
m
X
i=1
£¡
Y
0
i
−Y )
2
−2(y
Ac1
−Y
¢
(Y
0
i
−Y ) + (y
Ac1
−Y )
2
¤
=
1
m−1
"
m
X
i=1
(Y
0
i
−Y )
2
+
m
X
i=1
(y
Ac1
−Y )
2
−2(y
Ac1
−Y )
m
X
i=1
(Y
0
i
−Y )
#
s
2
e
=
1
m−1
"
m
X
i=1
(Y
0
i
−Y )
2
+m(y
Ac1
−Y )
2
−2m(y
Ac1
−Y )
2
#
=
1
m−1
"
m
X
i=1
(Y
0
i
−Y )
2
−m(y
Ac1
−Y )
2
#
daí pode-se obter:
E(s
2
e
) = E
(
1
m−1
"
m
X
i=1
(Y
0
i
−Y )
2
−m(y
Ac1
−Y )
2
#)
=
1
m−1
(
m
X
i=1
E(Y
0
i
−Y )
2
−mE(y
Ac1
−Y )
2
)
=
1
m−1
(
m
M
M
X
i=1
(Y
i
−Y )
2
−mV (y
Ac1
)
)
=
1
m−1
½
m
M
(M −1) S
2
e
−m
(M −m)
M
S
2
e
m
¾
=
m
M
1
m−1
½
M S
2
e
−S
2
e
−(M −m)
S
2
e
m
¾
=
m
M
1
m−1
M(1 −
1
m
) S
2
e
=
m
M
1
m−1
M(
m−1
m
) S
2
e
= S
2
e
Conseqüentemente, um estimador não viciado para V (
b
Y
Ac1
) é dado por:
v(
b
Y
Ac1
) =
M
2
(M −m)
M
s
2
e
m
2.3. CONGLOMERADOS EM 1 ESTÁGIO 65
2.3.2 Estimação de proporções na Ac1
Considere-se a população dividida em 2 classes A e
e
A (não A), de acordo
com algum atributo associado às unidades da população π
N
.
Então, se a população é grupada em M conglomerados disjuntos, cada
conglomerado pode ser dividido nas classes A e
e
A.
Definindo uma característica y tal que:
Y
ij
=
_
_
_
1 se U
ij
∈ A
0 se U
ij
∈ A
i = 1, 2, · · · , M e j = 1, 2, · · · , N
i
Sejam A
i
e
e
A
i
o número de unidades de π
N
em A e
e
A, respectivamente,
no conglomerado i.
A
i
pode assumir os valores 0, 1, 2, · · · , N
i
e se tem:
A
i
+
e
A
i
= N
i
Segue-se que:
A
i
= Y
i
=
N
i
P
j=1
Y
ij
é o número de unidades em A, do conglomerado i;
P
Ai
=
A
i
N
i
=
Y
i
N
i
= Y
i
é a proporção de unidades em A, do conglomerado
i.
Assim, a proporção global de unidades em A na população π
N
é dada
por:
P
A
=
M
P
i=1
A
i
M
P
i=1
N
i
=
M
P
i=1
Y
i
M
P
i=1
N
i
=
Y
N
= Y
ou ainda,
P
A
=
M
P
i=1
A
i
N
=
M
X
i=1
N
i
N
P
Ai
Em vista dessas expressões, e considerando a teoria já apresentada para
obtenção dos parâmetros de π
N
, é imediata a obtenção de estimadores não
viciados para a proporção P
A
:
p
Ac1
=
M
m
m
X
i=1
N
0
i
N
P
0
Ai
=
1
mN
m
X
i=1
N
0
i
P
0
Ai
=
1
mN
m
X
i=1
A
0
i
66CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
onde:
A
0
i
= Y
0
i
=
N
0
i
P
i=1
Y
0
ij
é o número de unidades em A, do i-ésimo conglomerado
selecionado;
P
0
Ai
=
A
0
i
N
0
i
=
Y
0
i
N
0
i
= Y
0
i
é a proporção de unidades em A, do i-ésimo
conglomerado selecionado.
Além disto, a variância de p
Ac1
é dada por:
V (p
Ac1
) =
M −m
M
S
2
e
m
=
1
N
2
M −m
M
S
2
e
m
onde:
S
2
e
=
1
M −1
M
X
i=1
µ
Y
i
N
−P
A

2
=
1
M −1
M
X
i=1
1
N
2
¡
N
i
P
Ai
−NP
A
¢
2
=
1
M −1
1
N
2
M
X
i=1
³
N
2
i
P
2
Ai
−2NN
i
P
Ai
P
A
+N
2
P
2
A
´
=
1
N
2
1
M −1
(
M
X
i=1
N
2
i
P
2
Ai
−2NP
A
M
X
i=1
N
i
P
Ai
+
M
X
i=1
N
2
P
2
A
)
=
1
N
2
1
M −1
(
M
X
i=1
N
2
i
P
2
Ai
−2NP
A
NP
A
+MN
2
P
2
A
)
=
1
N
2
1
M −1
(
M
X
i=1
N
2
i
P
2
Ai
−MN
2
P
2
A
)
=
1
N
2
1
M −1
(
M
X
i=1
Y
2
i
−M
N
2
M
2
P
2
A
)
=
1
N
2
1
M −1
(
M
X
i=1
Y
2
i
−M
Y
2
M
2
)
=
1
N
2
1
M −1
(
M
X
i=1
Y
2
i
−MY
2
)
=
1
N
2
1
M −1
M
X
i=1
¡
Y
i
−Y
¢
2
=
1
N
2
S
2
e
Esta variância pode ser estimada por:
v(p
Ac1
) =
M −m
M
s
2
e
m
=
1
N
2
M −m
M
s
2
e
m
com:
s
2
e
=
1
m−1
m
X
i=1
µ
Y
0
i
N
−p
Ac1

2
2.3. CONGLOMERADOS EM 1 ESTÁGIO 67
e
s
2
e
=
1
m−1
m
X
i=1
Ã
Y
0
i

1
m
m
X
i=1
Y
0
i
!
2
mas:
s
2
e
=
1
N
2
(m−1)
m
X
i=1
¡
Y
0
i
−N p
Ac1
¢
2
=
1
N
2
(m−1)
m
X
i=1
Ã
Y
0
i

N
mN
m
X
i=1
Y
0
i
!
2
=
1
N
2
(m−1)
m
X
i=1
Ã
Y
0
i

1
m
m
X
i=1
Y
0
i
!
2
=
1
N
2
(m−1)
_
_
m
X
i=1
Y
02
i

1
m
Ã
m
X
i=1
Y
0
i
!
2
_
_
=
1
N
2
s
2
e
conseqüentemente:
v(p
Ac1
) =
1
N
2
M −m
M
1
m
1
(m−1)
_
_
m
X
i=1
Y
02
i

1
m
Ã
m
X
i=1
Y
0
i
!
2
_
_
Exemplo 2.1
Com o objetivo de avaliar a proporção de fumantes, entre os alunos da 3
a
série do 2
o
grau da rede de ensino publico de certa localidade, foram formados
conglomerados a partir de uma relação de 3500 turmas existentes, grupando-
se cada 5 turmas em aproximadamente 150 alunos, supondo uma base de 30
alunos por turma.
Uma amostra de 10 conglomerados foi selecionada, observando-se:
68CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Conglomerados Número de Número de alunos
da amostra alunos (N
0
i
) fumantes (A
0
i
)
1 162 50
2 170 63
3 145 47
4 151 48
5 166 68
6 162 59
7 145 36
8 148 45
9 171 71
10 178 75
Soma 1592 562
M = 700, N = 150 e m = 10
Uma estimativa da proporção de alunos fumantes é dada por:
p
Ac1
=
1
mN
m
X
i=1
A
0
i
=
1
10 (150)
562 = 0, 375 ou 37, 5%
Uma estimativa da variância é dada por:
v(p
Ac1
) =
1
N
2
M −m
M
s
2
e
m
sendo:
s
2
e
=
1
m−1
_
_
m
X
i=1
A
02
i

1
m
Ã
m
X
i=1
A
0
i
!
2
_
_
=
1
9
Ã
33074 −
(562)
2
10
!
= 165, 51
então:
v(p
Ac1
) =
1
N
2
M −m
M
s
2
e
m
=
1
(150)
2
700 −10
700
165, 51
10
= 0, 000725
Uma estimativa do erro padrão é dada por:
p
v(p
Ac1
) =
p
0, 000725 = 0, 0269 = 2, 69%
2.3. CONGLOMERADOS EM 1 ESTÁGIO 69
e uma estimativa do coeficiente de variação pode ser obtida através da ex-
pressão:
cv(p
Ac1
) =
p
v(p
Ac1
)
p
Ac1
cv(p
Ac1
) =

0, 000725
0, 375
= 0, 0717 = 7, 17%
2.3.3 Coeficiente de Correlação Intraclasse
O objetivo neste item é comparar a eficiência da amostragem por conglo-
merados com a da amostragem aleatória simples. Inicialmente, será estudado
o caso em que os conglomerados são de tamanhos iguais. Ocorre que para
comparar a precisão da amostragem de conglomerados em 1 estágio com a
amostrgem aleatória simples é muito útil a introdução do coeficiente de
correlação intraclasse.
Seja a população π
N
distribuída em M conglomerados de tamanho N =
N
M
cada um.
Imagine o seguinte experimento aleatório:
• Seleciona-se aleatoriamente 1 entre os M conglomerados.
• Seleciona-se aleatoriamente sem reposição 2 unidades dentro deste con-
glomerado.
Sejam Y
0
ij
e Y
0
ik
as variáveis aleatórias resultantes da observação nas 2
unidades selecionadas da característica y.
É possível calcular a correlação entre essas 2 variáveis aleatórias:
ρ(Y
0
ij
, Y
0
ik
) =
E
£¡
Y
0
ij
−E(Y
0
ij
)
¢
(Y
0
ik
−E(Y
0
ik
))
¤
r
E
h
¡
Y
0
ij
−E(Y
0
ij
)
¢
2
i
E
£
(Y
0
ik
−E(Y
0
ik
))
2
¤
Agora, notando que:
E(Y
0
ij
) =
M
X
i=1
1
M
N
X
j=1
1
N
Y
ij
=
1
M N
M
X
i=1
N
X
j=1
Y
ij
= Y
E(Y
0
ik
) = Y
E
h
¡
Y
0
ij
−E(Y
0
ij
)
¢
2
i
=
M
X
i=1
N
X
j=1
1
M N
³
Y
ij
−Y
´
2
=
MN −1
M N
S
2
70CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
S
2
=
1
MN −1
M
X
i=1
N
X
j=1
³
Y
ij
−Y
´
2
Donde também:
E
h
(Y
0
ik
−E(Y
0
ik
))
2
i
=
MN −1
M N
S
2
Finalmente:
E
£¡
Y
0
ij
−E(Y
0
ij
)
¢
(Y
0
ik
−E(Y
0
ik
))
¤
=
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
M N
¡
N −1
¢
Logo, esta correlação será:
ρ(Y
0
ij
, Y
0
ik
) =
1
M N
¡
N −1
¢
M
P
i=1
N
P
j=1
N
P
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
MN −1
M N
S
2
Esta correlação expressa uma medida de homogeneidade dentro dos con-
glomerados da população, e será denominada coeficiente de correlação
intraclasse e é denotada por δ:
δ = ρ(Y
0
ij
, Y
0
ik
) =
1
M N
¡
N −1
¢
M
P
i=1
N
P
j=1
N
P
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
MN −1
M N
S
2
Agora será tratado o problema de obter uma expressão adequada para o
coeficiente de correlação intraclasse, que permita visualizar este coeficiente
como uma medida de homogeneidade dentro dos conglomerasdos.
Note-se que:
δ =
1
M N
¡
N −1
¢
M
P
i=1
N
P
j=1
N
P
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
MN −1
M N
S
2
2.3. CONGLOMERADOS EM 1 ESTÁGIO 71
Então pode-se escrever:
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
=
=
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
³
Y
ij
−Y
i
+Y
i
−Y
´³
Y
ik
−Y
i
+Y
i
−Y
´
=
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
µ
¡
Y
ij
−Y
i
¢
(Y
ik
−Y
i
) +
³
Y
i
−Y
´
2

=
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
¡
Y
ij
−Y
i
¢
(Y
ik
−Y
i
) +N(N −1)
M
X
i=1
³
Y
i
−Y
´
2
=
M
X
i=1
_
_
N
X
j=1
¡
Y
ij
−Y
i
¢
_
_
2

M
X
i=1
N
X
j=1
¡
Y
ij
−Y
i
¢
2
+N(N −1)
M
X
i=1
³
Y
i
−Y
´
2
Note que:
N
X
j=1
¡
Y
ij
−Y
i
¢
= 0
Lembrando que:
S
2
i
=
1
N −1
N
X
j=1
¡
Y
ij
−Y
i
¢
2
e fazendo:
S
2
d
=
1
M
M
X
i=1
S
2
i
Segue-se que:
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
= −
M
X
i=1
¡
N −1
¢
S
2
i
+N(N−1)
M
X
i=1
³
Y
i
−Y
´
2
72CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Como também:
S
2
e
=
1
M −1
M
X
i=1
³
Y
i
−Y
´
2
vem:
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
= −
¡
N −1
¢
M S
2
d
+N(N−1) (M −1) S
2
e
Assim pode-se escrever:
δ =
1
M N
¡
N −1
¢
h
N(N −1) (M −1) S
2
e

¡
N −1
¢
M S
2
d
i
MN −1
M N
S
2
δ =
(M −1) S
2
e
M

1
N
S
2
d
MN −1
M N
S
2
Se o número de conglomerados M for grande, vem:
δ

=
S
2
e

1
N
S
2
d
S
2
Para compreender melhor o significado desta expressão, deve-se notar que:
¡
MN −1
¢
S
2
=
M
X
i=1
N
X
j=1
³
Y
ij
−Y
´
2
=
M
X
i=1
N
X
j=1
³
Y
ij
−Y
i
+Y
i
−Y
´
2
¡
MN −1
¢
S
2
=
M
X
i=1
N
X
j=1
h
(Y
ij
−Y
i
)
2
+ 2(Y
ij
−Y
i
)(Y
i
−Y ) + (Y
i
−Y )
2
i
=
M
X
i=1
N
X
j=1
(Y
ij
−Y
i
)
2
+ 2
M
X
i=1
(Y
i
−Y )
N
X
j=1
(Y
ij
−Y
i
) +N
M
X
i=1
(Y
i
−Y )
2
=
M
X
i=1
(N −1)S
2
i
+N
M
X
i=1
(Y
i
−Y )
2
= (N −1) M S
2
d
+N (M −1) S
2
e
2.3. CONGLOMERADOS EM 1 ESTÁGIO 73
ou seja:
S
2
=
(N −1) M S
2
d
+N (M −1) S
2
e
¡
MN −1
¢
Assim estamos agora em posição para analisar melhor a influência na
variação de δ da maior homogeneidade dos conglomerados.
Supondo que os conglomerados fossem homogêneos devemos ter:
S
2
d
= 0
portanto:
δ =
(M −1) S
2
e
M

1
N
S
2
d
MN −1
M N
S
2
=
(M −1) S
2
e
M
N (M −1) S
2
e
M N
= 1
Logo, quando há homogeneidade máxima dentro dos conglomerados =⇒
δ = 1.
Por outro lado, se há heterogeneidade dentro dos conglomerados com
homogeneidade entre eles, o valor de δ deve diminuir. Se admitirmos que
S
2
e
= 0 vem:
¡
MN −1
¢
S
2
= (N −1) M S
2
d
donde:
δ =

1
N
S
2
d
(N −1) M S
2
d
M N
= −
1
(N −1)
Logo, conclui-se que:
δ ∈
·

1
(N −1)
; 1
¸
Assim δ é uma medida de homogeneidade ou heterogeneidade dentro dos
conglomerados.
Exemplo 2.2
74CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Seja uma população com exatamente 6 unidades.
U
1
U
2
U
3
U
4
U
5
U
6
↓ ↓ ↓ ↓ ↓ ↓
Y
1
Y
2
Y
3
Y
4
Y
5
Y
6
q q q q q q
3 5 3 7 2 8
Essas unidades serão grupadas em 2 conglomerados para o cálculo do co-
eficiente de correlação intraclasse. A conglomeração será feita de de 2 modos
diferentes a fim de medir a variação do coeficiente de correlação intraclasse
em função da maior ou menor homogeneidade dos conglomerados.
1
a
tentativa: conglomerados homogêneos
C
1
C
2
U
1
→ 3 U
2
→ 5
U
3
→ 3 U
4
→ 7
U
5
→ 2 U
6
→ 8
M = 2 N = 3 Y
1
= 2, 66667 Y
2
= 6, 66667 Y = 4, 66667
S
2
d
=
1
2
(0, 3333 + 2, 3333) = 1, 3333 S
2
e
= 4 + 4 = 8
δ =
(M −1) S
2
e
M

1
N
S
2
d
M(N −1) S
2
d
+N (M −1) S
2
e
M N
=
3, 5556
4, 8889
= 0, 7273
2
a
tentativa: conglomerados heterogêneos
C
1
C
2
U
2
→ 5 U
1
→ 3
U
5
→ 2 U
3
→ 3
U
6
→ 8 U
4
→ 7
M = 2 N = 3 Y
1
= 5, 0000 Y
2
= 4, 3333 Y = 4, 66667
S
2
d
=
1
2
(9+5, 3333) = 7, 16667 S
2
e
= 0, 1111+0, 1111 = 0, 2222
δ =
(M −1) S
2
e
M

1
N
S
2
d
M(N −1) S
2
d
+N (M −1) S
2
e
M N
= −
2, 2778
4, 8889
= −0, 4659
2.3. CONGLOMERADOS EM 1 ESTÁGIO 75
Note-se que: −
1
N −1
= −
1
2
= −0, 50
Portanto, δ está bem próximo do valor mínimo que pode assumir, indi-
cando alto grau de heterogeneidade.
2.3.4 Estimação do coeficiente de correlação intraclasse
Um problema que falta solucionar é o da estimação do coeficiente de corre-
lação intraclasse através de uma amostra de conglomerados.
Para tanto, basta considerar a expressão de δ:
δ =
(M −1) S
2
e
M

1
N
S
2
d
M(N −1) S
2
d
+N (M −1) S
2
e
M N
Agora, lembrando que:
s
2
e
=
1
m−1
m
X
i=1
³
Y
0
i
−y
Ac1
´
2
é um estimador não viciado para S
2
e
, e notando que:
s
2
d
=
1
m
m
X
i=1
S
0
2
i
é um estimador não viciado para S
2
d
, basta substituir estes estimadores na
expressão de δ para obter um estimador consistente para δ.
b
δ =
(M −1) s
2
e
M

1
N
s
2
d
M(N −1) s
2
d
+N (M −1) s
2
e
M N
Além disso, notando-se que:
MN −1
M N
S
2
=
M(N −1) S
2
d
+N (M −1) S
2
e
M N
Segue-se que um estimador não viciado para S
2
é dado por:
s
2
=
M(N −1) s
2
d
+N (M −1) s
2
e
MN −1
76CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
e conseqüentemente, que
b
δ pode ser escrito:
b
δ =
(M −1) s
2
e
M

1
N
s
2
d
MN −1
M N
s
2
ou ainda, para M muito grande:
b
δ

=
s
2
e

1
N
s
2
d
s
2
Exemplo 2.3 (Nascimento (1981), pág.32)
Tem-se um fichário de 20.000 segurados de uma Companhia de Seguros,
em um plano A. As 20.000 fichas estão dispostas em 400 gavetas, com 50
fichas cada.
Considerando as gavetas como conglomerados, tem-se:
M = 400 e N = 50
Selecionou-se uma amostra aleatória sem reposição de 10 gavetas, correspon-
dendo a 500 fichas. Nas gavetas selecionadas foram calculadas as reservas
técnicas de todas as fichas, obtendo-se:
Gavetas da Reserva Variância das
amostra total (Y
0
i
) reservas (S
02
i
)
1 321 25
2 170 17
3 610 30
4 405 32
5 350 35
6 155 20
7 254 40
8 328 18
9 652 25
10 269 35
Soma 3.514 277
O objetivo é estimar a média por ficha da reserva técnica do plano A e o
coeficiente de correlação intraclasse.
Estimativa de Y
y
Ac1
=
1
mN
m
X
i=1
Y
0
i
=
3.514
10 (50)
= 7, 028
2.3. CONGLOMERADOS EM 1 ESTÁGIO 77
Estimativa de S
2
d
s
2
d
=
1
m
m
X
i=1
S
0
2
i
=
277
10
= 27, 7
Estimativa de S
2
e
s
2
e
=
1
m−1
1
N
2
m
X
i=1
(Y
0
i
−y
Ac1
)
2
=
1
m−1
1
N
2
_
¸
¸
¸
_
m
X
i=1
Y
02
i

µ
m
P
i=1
Y
0
i

2
m
_
¸
¸
¸
_
=
1
9 (50)
2
"
1.484.156 −
(3.514)
2
10
#
= 11, 082
Estimativa de S
2
s
2
=
M(N −1) s
2
d
+N (M −1) s
2
e
M N −1
=
400(50 −1) (27, 7) + 50 (399) (11, 082)
20.000 −1
= 38, 20
Estimativa do coeficiente de correlação intraclasse
b
δ

=
s
2
e

1
N
s
2
d
s
2
=
11, 0832 −0, 554
38, 20
= 0, 276
2.3.5 Eficiência da Ac1 em relação à AAS com con-
glomerados de tamanhos iguais
Para comparar a precisão de um estimador, obtido através de um plano
amostral proveniente de uma amostra de conglomerados em 1 estágio (Ac1),
com a de outro estimador, obtido através de uma amostra aleatória simples
(AAS), vamos definir uma medida de eficiência baseada nas variâncias dos
estimadores de Y com os dois desenhos. Assim:
Ef =
V (y
AAS
)
V (y
Ac1
)
78CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
onde:
y é o estimador de Y na AAS; e
y
Ac1
é o estimador de Y na Ac1.
A eficiência Ef > 1 se V (y
Ac1
) < V (y
AAS
).
Mas:
V (y
Ac1
) =
M −m
M
1
N
2
S
2
e
m
e:
V (y
AAS
) =
N −n
N
S
2
n
aqui N = MN
onde:
S
2
e
=
1
M −1
M
X
i=1
¡
Y
i
−Y
¢
2
S
2
=
1
M N −1
M
X
i=1
N
X
j=1
³
Y
ij
−Y
´
2
sob a hipótese de conglomerados de tamanhos iguais.
Supondo que todos os conglomerados tenham o mesmo tamanho N, o
tamanho n da AAS equivalente à Ac1 com m conglomerados na amostra é
dado por : n = mN.
Assim, pode-se escrever:
V (y
AAS
) =
MN −mN
MN
S
2
mN
=
M −m
M
S
2
mN
logo, tem-se:
Ef =
M −m
M
S
2
mN
M −m
M
1
N
2
S
2
e
m
=
N S
2
S
2
e
Agora, notando que:
2.3. CONGLOMERADOS EM 1 ESTÁGIO 79
M
X
i=1
¡
Y
i
−Y
¢
2
=
M
X
i=1
_
_
N
X
j=1
Y
ij
−N Y
_
_
2
=
M
X
i=1
N
X
j=1
³
Y
ij
− Y
´
2
+
M
X
i=1
N
X
j=1
N
X
k=1
j6=k
³
Y
ij
−Y
´³
Y
ik
−Y
´
=
¡
M N −1
¢
S
2
+
¡
N −1
¢ ¡
MN −1
¢
S
2
δ
como:
M
X
i=1
¡
Y
i
−Y
¢
2
= (M −1) S
2
e
vem:
S
2
e
=
M N −1
M −1
S
2
+
M N −1
M −1
¡
N −1
¢
S
2
δ
=
M N −1
M −1
S
2
£
1 +
¡
N −1
¢
δ
¤
Daí segue-se que:
Ef =
N S
2
M N −1
M −1
S
2
£
1 +
¡
N −1
¢
δ
¤
supondo: M −1

= M e MN −1

= MN vem:
Ef

=
1
1 +
¡
N −1
¢
δ
Ef > 1 ⇐⇒1 +
¡
N −1
¢
δ < 1 ⇐⇒
¡
N −1
¢
δ < 0 ⇐⇒ δ < 0
O termo
£
1 +
¡
N −1
¢
δ
¤
mostra quanto a variância é afetada pelo uso
de conglomerado ao invés de um elemento como unidade amostral. Kish
(1965) define este fator como o efeito de desenho de uma amostra de
conglomerados de tamanho N ou efeito de conglomeração. Este fator
mede a influência da conglomeração na precisão do estimador.
Portanto:
Se δ > 0 ⇒Ef < 1 então V (y
Ac1
) > V (y
AAS
), a amostra de conglomerados
é menos eficiente que a AAS.
80CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Se δ = 0 ⇒Ef = 1 então V (y
Ac1
) = V (y
AAS
), a amostra de conglomerados
é equivalente a AAS.
Se δ < 0 ⇒Ef > 1 então V (y
Ac1
) < V (y
AAS
), a amostra de conglomerados
é mais eficiente que a AAS.
Como δ ∈
·

1
(N −1)
; 1
¸
, isto indica que os valores negativos de δ são
raros, uma vez que lim
N−→+∞
µ

1
(N −1)

= 0, isto é, à medida que o
tamanho N cresce, diminui a eficiência da Ac1 em relação à AAS.
Lembrando que:
Ef =
V (y
AAS
)
V (y
Ac1
)

=
1
1 +
¡
N −1
¢
δ
vem:
Ef ∈
·
1
N
; +∞
¸
e
V (y
Ac1
)

= V (y
AAS
)
£
1 +
¡
N −1
¢
δ
¤
isto é, a variância do estimador da média na Ac1 é a variância do estimador
da média na AAS vezes o fator
£
1 +
¡
N −1
¢
δ
¤
.
Para o caso de conglomerados de mesmo tamanho, se estivermos inte-
ressados na mesma precisão, qual deverá ser o tamanho da amostra de con-
glomerados?
V (y
Ac1
) equivale a V (y
AAS
) quando:
V (y
Ac1
)
£
1 +
¡
N −1
¢
δ
¤

= V (y
AAS
)
ou seja, quando:
1
N
2
S
2
e
m
£
1 +
¡
N −1
¢
δ
¤ =
S
2
mN
S
2
e
m
£
1 +
¡
N −1
¢
δ
¤ =
S
2
mN
o que implica que o número de conglomerados na amostra equivale a
m
£
1 +
¡
N −1
¢
δ
¤
2.3. CONGLOMERADOS EM 1 ESTÁGIO 81
e, portanto, haverá umacréscimo de
£
m
¡
N −1
¢
δ
¤
conglomerados na amostra.
Conseqüentemente, o número de unidades populacionais na amostra equivale
a:
m
£
1 +
¡
N −1
¢
δ
¤
N = mN +mN
¡
N −1
¢
δ
ou seja, haverá um acréscimo de
£
mN
¡
N −1
¢
δ
¤
unidades em relação a
AAS sem reposição.
Exemplo 2.4 (Nascimento (1981), pág. 34)
Considere as informações do exemplo 2.3 e calcule o número de conglom-
erados necessários na amostra, para dar a mesma precisão de uma amostra
aleatória simples ao estimar a média por ficha da reserva técnica do plano A.
Nesste caso, o efeito de conglomeração é:
1 +
¡
N −1
¢
δ = 1 + 49 (0, 276) = 14, 524
O tamanho da amostra de conglomerados para dar a mesma precisão de
uma amostra aleatória simples é:
m
£
1 +
¡
N −1
¢
δ
¤
= 10 (14, 524)

= 145 conglomerados
O elevado efeito de conglomeração, mostra que o desenho amostral de
conglomerados em 1 estágio que considera a gaveta com 50 fichas como con-
glomerado é pouco eficiente.
Ilustrações
A seguir, são apresentadas algumas ilustrações para mostrar que δ mede
homogeneidade e como afeta a variância por unidades amostrais elementares
ou por conglomerados.
a) Suponha que se deseja analisar a composição da população em relação
a renda e que o conglomerado seja o setor censitário. Suponha que a
maioria das pessoas em certos setores têm uma renda alta e a maioria
das pessoas em outros setores têm renda baixa. Neste caso a variância
entre as médias dos setores será relativamente grande e a correlação en-
tre as pessoas dentro do setor será alta e positiva. Assim uma amostra
aleatória simples de setores consistindo de todas pessoas dos setores
dará pouca informação com relação à composição da renda da popu-
lação.
b) Agora, um caso extremo onde a composição da renda é exatamente
a mesma em cada setor. Neste caso, a variância entre as médias dos
setores será zero e a correlação entre as pessoas de mesmo setor será
negativa. Neste caso, uma amostra aleatoria simples de setores con-
sistindo de todas as pessoas no setor daria uma completa informação
com relação à composição da renda da população.
82CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
c) Finalmente, suponha que a composição da renda difira de setor para
setor e que a variância entre as médias dos setores seja aproximada-
mente a variância entre as médias amostrais baseada numa amostra
aleatória simples. A correlação entre as pessoas de um mesmo setor
será nula. Uma amostra aleatória de setores consistindo de todas as
pessoas no setor daria informações com respeito à composição da renda
da população da mesma forma que uma amostra aleatória simples de
mesmo tamanho selecionada sem considerar o conglomerado setor.
Em geral, os conglomerados são definidos por populações geográficas con-
tiguas.
O coeficiente de correlação em geral é positivo e diminui com o aumento
do tamanho do conglomerado, pois se as unidades incluídas na amostra são
poucas e imediatamente contiguas, haverá uma correlação mais alta entre as
unidades dentro de um conglomerado do que quando os conglomerados são
maiores e há portanto, um maior espalhamento entre as unidades dentro do
conglomerado.
2.4 Controle na variação de tamanho
Observe que a V (
b
Y
Ac1
) =
M
2
(M −m)
M
S
2
e
m
aumenta e a Ef =
N S
2
S
2
e
diminui
quando S
2
e
aumenta. Mas de acordo com a expressão:
S
2
e
=
1
M −1
M
X
i=1
¡
Y
i
−Y
¢
2
o aumento de S
2
e
é tanto maior quanto mais diferentes forem os totais dos
conglomerados. Em geral, os totais de uma característica y tendem a crescer
quando os tamanhos dos conglomerados crescem. Então, é usual controlar a
variação de tamanho dos conglomerados na expectativa de redução da variân-
cia e de aumento da eficiência com o uso da amostragem de conglomerados.
Os processos usuais de controle do tamanho dos conglomerados são:
a) selecionar os conglomerados comprobabilidades proporcionais ao tamanho
dos conglomerados;
b) estratificar os conglomerados, de modo que a característica de estrati-
ficação seja o tamanho; e
c) usar um estimador de razão, com característica auxiliar definida pelo
tamanho do conglomerado.
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 83
2.5 Probabilidades desiguais de seleção
Como vimos anteriormente, a ocorrência de variabilidade nos tamanhos dos
conglomerados causa acentuada perda de precisão nos estimadores até agora
abordados com amostragem de conglomerados em 1 estágio.
Na prática, a formação de conglomerados com tamanhos iguais para con-
trolar a variação de tamanho na variância do estimador, e também na vari-
ação do tamanho final da amostra nem sempre é possível, sendo que a ocor-
rência de conglomerados de tamanhos iguais é pouco comum.
Assim, ao invés de tentar controlar artificialmente os tamanhos dos con-
glomerados, procura-se uma saída diferente: mantendo os conglomerados
com os tamanhos desiguais, estuda-se uma forma de seleção da amostra de
conglomerados com probabilidades desiguais (Probabilidades Proporcionais
a uma medida de Tamanho - PPT).
Como objetivo de manter a simplicidade da exposição será tratada primei-
ramente a seleção da amostra de conglomerados com probabilidades desiguais
e com reposição.
2.5.1 Seleção dos conglomerados com probabilidades
desiguais e com reposição
As unidades de π
N
são grupadas emM conglomerados, que podemter taman-
hos desiguais.
C
i
U
i1
→ Y
i1
U
i2
→ Y
i2
.
.
.
.
.
.
U
iN
i
→ Y
iN
i
i = 1, 2, · · · , M.
Seja P
i
a probabilidade de seleção do conglomerado i com
M
P
i=1
P
i
= 1.
Seleciona-se uma amostra com reposição de m conglomerados de acordo
com as probabilidades P
i
.
C
0
i
U
0
i1
→ Y
0
i1
U
0
i2
→ Y
0
i2
.
.
.
.
.
.
U
0
iN
0
i
→ Y
0
iN
0
i
84CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
i = 1, 2, · · · , m.
A partir dos conglomerados selecionados pode-se calcular as seguintes
estatísticas:
Y
0
i
=
N
0
i
X
j=1
Y
0
ij
Média da característica y no conglomerado C
0
i
:
Y
0
i
=
Y
0
i
N
0
i
Variância da característica y em C
0
i
:
S
0
2
i
=
1
N
0
i
−1
N
0
i
X
j=1
(Y
0
ij
−Y
0
i
)
2
Agora, para obter um estimador não viciado do total Y da população
basta tomar:
b
Y
P
Ac1
=
1
m
m
X
i=1
Y
0
i
P
0
i
onde: P
0
i
é a probabilidade de seleção associada ao i-ésimo conglomerado
selecionado. P
0
i
é igual a algum dos P
k
(k = 1, 2, · · · , M).
Para mostrar que
b
Y
P
Ac1
é não viciado, basta mostrar que:
E
³
b
Y
P
Ac1
´
= E
Ã
1
m
m
X
i=1
Y
0
i
P
0
i
!
=
1
m
m
X
i=1
E
µ
Y
0
i
P
0
i

=
1
m
m
X
i=1
"
M
X
k=1
Y
k
P
k
P
k
#
=
M
X
k=1
Y
k
= Y
Assim, um estimador não viciado da média Y é dado por:
y
P
Ac1
=
1
mN
m
X
i=1
Y
0
i
P
0
i
Variância do estimador de total
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 85
V
³
b
Y
P
Ac1
´
= E
µ
³
b
Y
P
Ac1
´
2

−Y
2
= E
_
_
Ã
1
m
m
X
i=1
Y
0
i
P
0
i
!
2
_
_
−Y
2
=
1
m
2
E
_
_
_
_
m
X
i=1
µ
Y
0
i
P
0
i

2
+
m
X
i=1
m
X
k=1
i6=k
Y
0
i
P
0
i
Y
0
k
P
0
k
_
_
_
_
−Y
2
=
1
m
2
m
X
i=1
E
µ
Y
0
i
P
0
i

2
+
1
m
2
m
X
i=1
m
X
k=1
i6=k
E
µ
Y
0
i
P
0
i
Y
0
k
P
0
k

−Y
2
=
1
m
2
m
M
X
i=1
µ
Y
i
P
i

2
P
i
+
1
m
2
m(m−1)E
µ
Y
0
i
P
0
i

E
µ
Y
0
k
P
0
k

−Y
2
=
1
m
M
X
i=1
Y
2
i
P
i
+
(m−1)
m
Y
2
−Y
2
=
1
m
M
X
i=1
Y
2
i
P
i

Y
2
m
=
1
m
Ã
M
X
i=1
Y
2
i
P
i
−Y
2
!
Porém, notando que:
M
X
i=1
Y
2
i
P
i
−Y
2
=
M
X
i=1
Y
2
i
P
2
i
P
i
−2Y
2
+Y
2
=
M
X
i=1
Y
2
i
P
2
i
P
i
−2
Ã
M
X
i=1
Y
i
P
i
P
i
!
Y +Y
2
M
X
i=1
P
i
=
M
X
i=1
µ
Y
2
i
P
2
i
−2
Y
i
P
i
+Y
2

P
i
=
M
X
i=1
µ
Y
i
P
i
−Y

2
P
i
= S
2
eP
86CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Segue-se que:
V
³
b
Y
P
Ac1
´
=
S
2
eP
m
e um estimador não viciado de V
³
b
Y
P
Ac1
´
é obtido por:
v
³
b
Y
P
Ac1
´
=
s
2
eP
m
onde:
s
2
eP
=
1
m−1
m
X
i=1
µ
Y
0
i
P
0
i

b
Y
P
Ac1

2
Para mostrar que v
³
b
Y
P
Ac1
´
é não viciado para V
³
b
Y
P
Ac1
´
, escreve-se:
v
³
b
Y
P
Ac1
´
=
1
m(m−1)
m
X
i=1
µ
Y
0
i
P
0
i

b
Y
P
Ac1

2
=
1
m(m−1)
"
m
X
i=1
µ
Y
0
i
P
0
i

2
−m
³
b
Y
P
Ac1
´
2
#
Daí, segue-se que:
E
h
v
³
b
Y
P
Ac1
´i
= E
Ã
1
m(m−1)
m
X
i=1
µ
Y
0
i
P
0
i

b
Y
P
Ac1

2
!
=
1
m(m−1)
Ã
m
X
i=1
E
µ
Y
0
i
P
0
i

2
−mE
³
b
Y
P
Ac1
´
2
!
=
1
m(m−1)
Ã
m
M
X
i=1
µ
Y
i
P
i

2
P
i
−m
µ
V
³
b
Y
P
Ac1
´
+
³
E
³
b
Y
P
Ac1
´´
2

!
=
1
(m−1)
Ã
M
X
i=1
µ
Y
i
P
i

2
P
i
−V
³
b
Y
P
Ac1
´
−Y
2
!
=
1
(m−1)
ÃÃ
M
X
i=1
Y
2
i
P
i
−Y
2
!
−V
³
b
Y
P
Ac1
´
!
=
1
(m−1)
³
mV
³
b
Y
P
Ac1
´
−V
³
b
Y
P
Ac1
´´
= V
³
b
Y
P
Ac1
´
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 87
Probabilidades proporcionais a uma medida de tamanho
Até agora tratamos de um desenho onde a seleção dos conglomerados é feita
com probabilidades desiguais, sem preocupação a respeito do cálculo dessas
probabilidades.
Agora vamos atentar para esse problema e procurar um conjunto de prob-
abilidades que traga uma estimação eficiente. Para tanto consideremos:
V
³
b
Y
P
Ac1
´
=
1
m
M
X
i=1
µ
Y
i
P
i
−Y

2
P
i
Nesta expressão, se tomarmos:
P
i
=
Y
i
Y
segue-se que:
V
³
b
Y
P
Ac1
´
=
1
m
M
X
i=1
_
_
_
Y
i
Y
i
Y
−Y
_
_
_
2
P
i
= 0
Logo, se as probabilidades P
i
fossem exatamente proporcionais aos totais
Y
i
dos conglomerados, o estimador
b
Y
P
Ac1
teria variância zero.
Acontece que os totais Y
i
são desconhecidos e não podem ser utilizados
para determinação das probabilidades de seleção.
Assim é que será necessário definir as P
i
a partir de outra forma, porém
tentando fazer com que elas tenham valores aproximadamente iguais àqueles
sugeridos pela definição anterior. Isto é, as P
i
devem ser aproximadamente
proporcionais aos totais dos conglomerados.
Fundamentalmente, existem 3 maneiras para fazer isto:
1. Fazer as probabilidades P
i
proporcionais aos tamanhos N
i
dos conglom-
erados. P
i
=
N
i
N
(i = 1, 2, · · · , M). Esta solução é boa quase sempre,
entretanto não é sempre viável pois em certas situações os tamanhos
N
i
também não são conhecidos para todos os conglomerados.
2. Fazer as probabilidades P
i
proporcionais a uma medida de tamanho
dos conglomerados, x, conhecida para todos os conglomerados e cor-
relacionada com a característica y de interesse:
P
i
=
X
i
X
(i = 1, 2, · · · , M)
onde: X =
M
P
i=1
X
i
.
88CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Exemplo: se o conglomerado é uma partição geográfica, usar a área total
x do conglomerado como medida de tamanho.
3. Fazer as probabilidades P
i
exatamente proporcionais aos valores da
mesma característica y observadas num censo anterior.
O estatístico examina a situação e recomenda o uso de probabilidades pro-
porcionais a x sempre que os valores
y
x
puderem ser admitidos aproximada-
mente constantes, pois neste caso a variância de
b
Y
P
Ac1
deverá ser pequena.
Deve ser enfatizado que o sucesso da adoção da alternativa da amostragem
com probabilidades proporcionais ao tamanho depende fortemente do acerto
na escolha da medida de tamanho. Se esta for ruim, no sentido de que
não há proporcionalidade entre y e x, este desenho não deve ser melhor que
amostragem com equiprobabilidades. Pode ser demonstrado que em certas
condições, este desenho pode ser pior que amostragem com equiprobabili-
dades.
Algoritmo para seleção da amostra com probabilidade proporcional
ao tamanho (método dos totais cumulativos - seleção aleatória)
1. Calcular os totais parciais acumulados T
k
dados por:
T
k
=
K
X
i=1
X
i
∀ K ∈ {1, 2, · · · , M}
T
0
= 0 e X =
M
X
i=1
X
i
2. Selecionar um número aleatoriamente no intervalo [1, X]. Seja u o
número selecionado.
3. Verificar em que intervalo (T
k
, T
k+1
] , K ∈ {1, 2, · · · , M} , o número
selecionado caiu. Caso u ∈ (T
k
, T
k+1
] então incluir na amostra o con-
glomerado k + 1. Caso a amostra não tenha sido completada, repetir
o processo a partir da etapa 2. Caso contrário, a amostra está sele-
cionada.
Note-se que o procedimento é com reposição, donde se pode obter uma
amostra contendo várias repetições de uma mesma unidade da população.
Exemplo 2.5
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 89
Suponha-se que os conglomerados são quarteirões e que desejamos amostrar
os domicílios. Numa população de 10 quarteirões, selecionar uma amostra
de 5 quarteirões com probabilidade proporcional ao número de domicílios no
quarteirão.
Seleção dos quarteirões da amostra
n
o
do medidas medida designação
quarteirão de tamanho acumulada da amostra
1 50 50 x
2 12 62
3 20 82 x
4 31 113
5 10 123
6 60 183
7 55 238 xx
8 13 251
9 30 281
10 20 301 x
Selecionar aleatoriamente um número entre 1 e 301. (Cochran pág. 19,
linha 1 e coluna 17). O número selecionado é 226, então o primeiro con-
glomerado a ser selecionado é o número 7. Os números aleatórios seguintes
menores ou iguais a 301 são: 15, 218, 79 e 294. Logo, os conglomerados 1, 3,
7 e 10 estão também designados para a amostra.
Observe que o conglomerado 7 foi selecionado duas vezes.
Se M é grande, a probabilidade de um conglomerado ser selecionado mais
de uma vez é muito pequena e, como aproximação, pode-se usar a seleção
sistemática.
Algoritmo para seleção da amostra com probabilidade proporcional
ao tamanho (método dos totais cumulativos - seleção sistemática)
Se a seleção é proporcional a uma medida de tamanho, a probabilidade de
inclusão do conglomerado i na amostra é:
m
X
i
X
=
X
i
X
m
1. Divide-se X em partes sendo
X
m
o intervalo da amostra para fins de
seleção sistemática.
90CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
2. Seleciona-se aleatoriamente um ponto de partida no intervalo
·
1,
X
m
¸
;
ponto esse que vai determinar o 1
o
conglomerado da amostra.
3. Somando-se ao ponto de partida o intervalo vai determinar o 2
o
con-
glomerado da amostra; e assim por diante até selecionar os m conglom-
erados.
No exemplo anterior
X
m
= 60, 2. Se o número aleatório é 22,5, os con-
glomerados selecionados são aqueles cujos totais cumulativos são: 22,5; 60,2
+ 22,5 = 82,7; 82,7 + 60,2 = 142,9; 142,9 + 60,2 = 213,1; 213,1 +60,2 =
273,3, que correspondem respectivamente, aos conglomerados 1, 4, 6, 7 e 9.
Seleção dos conglomerados com probabilidades desiguais e sem
reposição
Suponha agora que a amostra de mconglomerados tenha sido selecionada me-
diante algum procedimento aleatório sem reposição, tal que a probabilidade
de que o conglomerado i, C
i
, pertença a amostra seja π
i
, e a probabilidade de
que o par de conglomerados (C
i
, C
j
) pertença a amostra em qualquer ordem
seja π
ij
, ∀ i = 1, 2, · · · , m e j = 1, 2, · · · , m, com i 6= j.
Horvitz e Thompson (1952) desenvolveramuma teoria geral de amostragem
com probabilidades desiguais de seleção e sem reposição, baseada no uso
de um estimador não viciado de total populacional, dado pela seguinte ex-
pressão:
b
Y
HT
=
m
X
i=1
Y
0
i
π
0
i
com π
0
i
igual a algum dos π
k
, π
k
> o, ∀ k = 1, 2, · · · , M.
Caso particular de equiprobabilidade: π
i
=
m
M
∀ i = 1, 2, · · · , M.
A variância de
b
Y
HT
é dada pela seguinte expressão:
V
³
b
Y
HT
´
=
M
X
i=1
(1 −π
i
)
π
i
Y
2
i
+
M
X
i=1
M
X
j=1
i6=j

ij
−π
i
π
j
)
π
i
π
j
Y
i
Y
j
Prova: Seja t
i
a indicadora se o conglomerado i ∈ a amostra:
t
i
=
_
_
_
1 se C
i
∈ a amostra
0 se C
i
não ∈ a amostra
i ∈ {1, 2, · · · , M}
2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 91
Então, t
i
tem distribuição binomial para uma amostra de tamanho m,
com probabilidade π
i
.
Assim,
E(t
i
) = π
i
V (t
i
) = π
i
(1 −π
i
)
COV (t
i
, t
j
) = E(t
i
t
j
) −E(t
i
) E(t
j
) = π
ij
−π
i
π
j
Logo:
b
Y
HT
=
m
X
i=1
Y
0
i
π
0
i
=
M
X
i=1
Y
i
π
i
t
i
E
³
b
Y
HT
´
=
M
X
i=1
Y
i
π
i
E (t
i
) =
M
X
i=1
Y
i
π
i
π
i
=
M
X
i=1
Y
i
= Y
V
³
b
Y
HT
´
= V
Ã
M
X
i=1
Y
i
π
i
t
i
!
=
M
X
i=1
Y
2
i
π
2
i
V (t
i
) +
M
X
i=1
M
X
j=1
i6=j
Y
i
Y
j
π
i
π
j
COV (t
i
, t
j
)
=
M
X
i=1
Y
2
i
π
2
i
π
i
(1 −π
i
) +
M
X
i=1
M
X
j=1
i6=j
Y
i
Y
j
π
i
π
j

ij
−π
i
π
j
)
=
M
X
i=1
Y
2
i
π
i
(1 −π
i
) +
M
X
i=1
M
X
j=1
i6=j
Y
i
Y
j
π
i
π
j

ij
−π
i
π
j
)
Um estimador não viciado da V
³
b
Y
HT
´
é dado por:
v
³
b
Y
HT
´
=
m
X
i=1
(1 −π
0
i
)
π
0
i
Y
0
2
i
+
m
X
i=1
m
X
j=1
i6=j
¡
π
0
ij
−π
0
i
π
0
j
¢
π
0
i
π
0
j
Y
0
i
Y
0
j
com π
0
ij
igual a algum dos π
kl
, π
kl
> o, ∀ k = 1, 2, · · · , M; l = 1, 2, · · · , M e
l 6= k.
92CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Grande parte dos procedimentos de seleção com probabilidades desiguais
e sem reposição que aparecem na literatura de amostragem apresentam ex-
pressões complexas ou aproximadas para os estimadores da variância, con-
siderando o tamanho da amostra de conglomerados fixo. Este fato é jus-
tificado pelas dificuldades matemáticas encontradas na avaliação dos π
ij
-
probabilidade de inclusão conjunta da i-ésima e j-ésima unidades na amostra.
Hanif e Brewer (1980) apresentam uma lista de vários procedimentos
de seleção com probabilidades desiguais sem reposição. Estes procedimen-
tos podem ser classificados por diferentes modos, tais como: classificação na
maneira da seleção, classificação por classe de equivalência (os procedimentos
pertencem a mesma classe de equivalência quando as probabilidades de se-
leção conjunta de todas as combinações possíveis são idênticas), classificação
por tipo de estimador apropriado.
Dentre os procedimentos apresentados destaca-se o método dos Grupos
Aleatórios de Rao Hartley e Cochran (1962). Uma descrição e compara-
ções deste método com métodos de seleção com probabilidades desiguais sem
reposição pode ser vista em Lima (1985).
Método dos Grupos Aleatórios de Rao Hartley e Cochran
Propriedades:
1. Permite a computação de um estimador para o total populacional que
tem variância sempre inferior ao estimador padrão da amostragem com
probabilidades desiguais com reposição.
2. Não acarreta computação árdua para seleção ou para computaçãodo
estimador da variância e da respectiva estimativa.
3. Fornece fórmula exata da variância para qualquer tamanho de
população e de amostra fixa.
4. Encontra-se disponível um estimador não viciado e sempre não
negativo para a variância amostral do estimador do total, quais-
quer que sejam os tamanhos de amostra e da população.
Algoritmo
1. Divide-se a população composta de M conglomerados, aleatoriamente,
em m grupos de tamanhos M
1
, M
2
, · · · , M
m
;
M =
m
X
i=1
M
i
onde m é o tamanho da amostra.
2.6. ESTRATIFICAÇÃO DE CONGLOMERADOS 93
2. Selecionar um conglomerado de cada um dos m grupos, independente-
mente, com probabilidade proporcional à probabilidade de seleção P
t
da t-ésima unidade. Se a t-ésima unidade cair no grupo i, então a
probabilidade real da seleção desta unidade é
P
t
π
i
,onde: π
i
=
P
grupo i
P
i
.
Se estiver sendo usada probabilidade proporcional ao tamanho X
i
, então:
P
t
=
X
t
X
.
Neste caso, o estimador do total populacional é dado por:
b
Y
RHC
=
m
X
i=1
Y
0
i
π
i
P
i
onde: Y
0
i
é o valor da característica y no i-ésimo grupo.
A variância de
b
Y
RHC
é dada por:
V
³
b
Y
RHC
´
=
µ
m
P
i=1
M
2
i
−M

M (M −1)
Ã
M
X
i=1
Y
2
i
P
i
−Y
2
!
e um estimador de v
³
b
Y
RHC
´
é dado por:
v
³
b
Y
RHC
´
=
µ
m
P
i=1
M
2
i
−M

M (M −1)
m
X
i=1
π
i
µ
Y
0
i
P
0
i

b
Y
RHC

2
2.6 Estratificação de conglomerados
Uma outra forma de controlar a variação dos tamanhos dos conglomerados
é estratificá-los segundo alguma característica que meça seu tamanho, isto
é grupar os conglomerados em estratos homogêneos segundo alguma medida
de tamanho.
Esta alternativa é praticamente equivalente à seleção dos conglomerados
com proporcionais ao tamanho, pois é indispensável conhecer, para todos os
M conglomerados da população, o valor de uma medida de tamanho que
permita separar os conglomerados em estratos homogêneos, para poder então
selecionar a amostra.
Em termos de eficiência em relação à seleção dos conglomerados com
probabilidades proporcionais ao tamanho, não parece haver vantagem nítida
94CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
de qualquer das duas alternativas, sendo bastante semelhante os resultados
obtidos com ambas as técnicas em termos da precisão final das alternativas.
2.6.1 Estimadores e respectivas precisões
Inicialmente, suponhamos que os M conglomerados são grupados em L es-
tratos E
1
, E
2
, · · · , E
L
, tendo-se associado a cada conglomerado o total da
característica y:
E
1
E
L
C
11
→ Y
11
C
L1
→ Y
L1
C
12
→ Y
12
· · · C
L2
→ Y
L2
.
.
.
.
.
.
.
.
.
.
.
.
C
1M
1
→ Y
1M
1
C
LM
L
→ Y
LM
L
Denotando por E
h
um estrato genérico (h = 1, 2, · · · , L), segue-se que:
M
h
o número de conglomerados no estrato h;
Y
h
=
M
h
P
i=1
Y
hi
o total da característica y no estratro h;
Y
h
=
Y
h
M
h
o total médio por conglomerado do estrato h;
S
2
he
=
1
M
h
−1
M
h
P
i=1
(Y
hi
−Y
h
)
2
a variância entre os totais dos conglomerados
dentro do estrato h.
Agora, selecionando-se em cada um dos L estratos amostras aleatórias
simples de conglomerados, sem reposição de tamanhos m
1
, m
2
, · · · , m
L
e
investigando-se todas as unidades pertencentes aos conglomerados da amostra
tem-se:
E
1
E
L
C
0
11
→ Y
0
11
C
0
L1
→ Y
0
L1
C
0
12
→ Y
0
12
· · · C
0
L2
→ Y
0
L2
.
.
.
.
.
.
.
.
.
.
.
.
C
0
1m
1
→ Y
0
1m
1
C
0
Lm
L
→ Y
0
Lm
L
Como as amostras nos estratos são amostras de conglomerados em 1 es-
tágio, pode-se estimar os totais dos estratos por:
b
Y
h.Ac1
=
M
h
m
h
m
h
X
i=1
Y
0
hi
∀h = 1, 2, · · · , L
2.6. ESTRATIFICAÇÃO DE CONGLOMERADOS 95
e tem-se que:
V (
b
Y
h.Ac1
) =
M
2
h
(M
h
−m
h
)
M
h
S
2
he
m
h
∀h = 1, 2, · · · , L
e a estimação não viciada de V (
b
Y
h.Ac1
) pode ser feita por:
v(
b
Y
h.Ac1
) =
M
2
h
(M
h
−m
h
)
M
h
s
2
he
m
h
∀h = 1, 2, · · · , L
onde:
s
2
he
=
1
m
h
−1
m
h
X
i=1
(Y
0
hi
−y
h.Ac1
)
2
sendo:
y
h.Ac1
=
1
m
h
m
h
X
i=1
Y
0
hi
=
b
Y
h.Ac1
M
h
Assim pode-se estimar o total Y da população por:
b
Y
est
Ac1
=
L
X
h=1
b
Y
h.Ac1
=
L
X
h=1
M
h
m
h
m
h
X
i=1
Y
0
hi
com:
E
³
b
Y
est
Ac1
´
=
L
X
h=1
E
³
b
Y
h.Ac1
´
=
L
X
h=1
Y
h
= Y
Além disto,
V (
b
Y
est
Ac1
) =
L
X
h=1
V (
b
Y
h.Ac1
) =
L
X
h=1
M
2
h
(M
h
−m
h
)
M
h
S
2
he
m
h
e esta variância pode ser estimada por:
v(
b
Y
est
Ac1
) =
L
X
h=1
v(
b
Y
h.Ac1
) =
L
X
h=1
M
2
h
(M
h
−m
h
)
M
h
s
2
he
m
h
Se a fração de amostragem
m
h
M
h
(∀h = 1, 2, · · · , L) for constante e igual
a f nos estratos (equivalendo a uma alocação proporcional nos estratos),
obtém-se:
m
h
M
h
= f (∀h = 1, 2, · · · , L)
96CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
b
Y
est
Ac1
=
1
f
L
X
h=1
m
h
X
i=1
Y
0
hi
V (
b
Y
est
Ac1
) =
1 −f
f
L
X
h=1
M
h
S
2
he
v(
b
Y
est
Ac1
) =
1 −f
f
L
X
h=1
M
h
s
2
he
Exemplo 2.5 (Nascimento (1981), pág 63)
Em certa localidade, existem 1.200 setores censitários que vão ser con-
siderados como conglomerados de domicílios. Foram formados 6 estratos,
de acordo com a população do último Censo, cujos números de setores por
estrato constam da tabela abaixo.
A população total da localidade, de acordo com o Censo, foi de 1.960.800
habitantes, o que corresponde a uma média de 1.634 habitantes por setor ou
380 domicílios por setor ( na base de 4,3 pessoas por domicílio, com base em
pesquisa anterior).
Considerando as disponibilidades de tempo e custo, foi fixada uma amostra
de 24 setores ou, aproximadamente, 9.120 domicílios, o que corresponde à
fração de amostragem de
24
1200
=
1
50
.
A tabela abaixo apresenta o número de setores na população e na amostra
e o número de habitantes nos setores da amostra.
Estimar a população atual da localidade e o respectivo coeficiente de
variação associado à essa estimativa.
Setores na Setores na Habitantes nos
Estratos população amostra setores da amostra
(M
h
) (m
h
) (Y
0
hi
)
1 90 2 3.450; 3.120
2 100 2 2.890; 3060
3 140 3 2.320; 2.850; 2.010
4 250 5 1.910; 1.990; 1.300; 1.400; 1.520
5 295 6 1.040; 1.090; 1.200; 990; 1.460; 1.310
6 325 6 980; 1.010; 870; 1.100; 900; 930
Estimativa do número de habitantes da localidade:
b
Y
est
Ac1
=
M
m
L
X
h=1
m
h
X
i=1
Y
0
hi
= 50 (40.730) = 2.036.500 habitantes
2.7. ESTIMADOR DE RAZÃO 97
Em cada estrato calcula-se a média da amostra por setor, no estrato h:
y
h.Ac1
=
1
m
h
m
h
X
i=1
Y
0
hi
e a variância da amostra entre os setores de cada estrato h:
s
2
he
=
1
m
h
−1
m
h
X
i=1
(Y
0
hi
−y
h.Ac1
)
2
obtendo-se os seguintes resultados:
Média da amostra Variância entre
Estratos por setor os setores
(y
h.Ac1
) (s
2
he
)
1 3.285 54.450
2 3.020 3.200
3 2.393 360.867
4 1.624 381.720
5 1.172 129.084
6 965 34.950
Estimativa da variância da estimativa do número de habitantes da loca-
lidade:
v(
b
Y
est
Ac1
) =
1 −f
f
L
X
h=1
M
h
s
2
he
= 49 (64.226.395) = 3.147.093.351
o respectivo erro padrão é estimado por:
q
v(
b
Y
est
Ac1
) = 56.098, 96
e o respectivo coeficiente de variação estimado por:
cv(
b
Y
est
Ac1
) =
q
v(
b
Y
est
Ac1
)
b
Y
est
Ac1
=
56.098, 96
2.036.500
= 0, 0276
2.7 Estimador de razão
Há situações práticas em que o controle da variação nos tamanhos dos con-
glomerados não pode ser feito mudando as probabilidades de seleção ou es-
tratificando os conglomerados, em virtude de não se dispor de nenhuma me-
dida de tamanho com valores conhecidos para todos os conglomerados.
98CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS
Nestas situações, a alternativa que resta é a estimação por um outro pro-
cesso. Neste caso, o processo mais comumente empregado é o da estimação
por razão.
Para que esse processo possa ser empregado, basta que sejam conhecidos
os valores N
0
i
e Y
0
i
, respectivamente, tamanho e total da característica y dos
conglomerados da amostra.
2.7.1 Estimador de razão baseado no tamanho dos con-
glomerados
Sabe-se que:
Y =
Y
N
=
M
P
i=1
Y
i
M
P
i=1
N
i
Assim, lembrando que um estimador não viciado de Y é dado por:
b
Y
Ac1
=
M
m
m
X
i=1
Y
0
i
e também, notando que um estimador não viciado do tamanho total N é
dado por:
b
N
Ac1
=
M
m
m
X
i=1
N
0
i
Segue-se que um estimador consistente de Y é dado por:
y
R
Ac1
=
b
Y
Ac1
b
N
Ac1
=
M
m
m
P
i=1
Y
0
i
M
m
m
P
i=1
N
0
i
=
m
P
i=1
Y
0
i
m
P
i=1
N
0
i
Aqui pode-se notar que este estimador depende só dos tamanhos N
0
i
e
dos totais Y
0
i
dos conglomerados da amostra, não dependendo do tamanho
total da população (N) como o estimador não viciado y
Ac1
que vimos ante-
riormente.
2.7. ESTIMADOR DE RAZÃO 99
Variância de y
R
Ac1
Se considerarmos uma amostra aleatória simples de m unidades de uma
população de tamanho M, a variância do estimador de razão é dada por:
V (
b
R)

=
M −m
M X
2
S
2
eR
m
onde:
b
R =
b
Y
b
X
e R =
Y
X
S
2
eR
=
1
M −1
M
X
i=1
(Y
i
−RX
i
)
2
Supondo que m é suficientemente grande para tornar desprezível o vício
do estimador de razão, e substituindo X por N segue-se que:
V (y
R
Ac1
)

=
M −m
MN
2
S
2
eR
m
com:
S
2
eR
=
1
M −1
M
X
i=1
(Y
i

Y
N
N
i
)
2
=
1
M −1
M
X
i=1
(Y
i
−Y N
i
)
2
=
1
M −1
M
X
i=1
N
2
i
(Y
i
−Y )
2
Além disso, um estimador consistente desta variância é dado por:
v(y
R
Ac1
) =
M −m
M N
2
s
2
eR
m
com:
s
2
eR
=
1
m−1
m
X
i=1
(Y
0
i
−y
R
Ac1
N
0
i
)
2
=
1
m−1
m
X
i=1
N
02
i
(Y
0
i
−y
R
Ac1
)
2
100CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS
Se N não for conhecido, pode ser estimado por:
N
Ac1
=
1
m
m
X
i=1
N
0
i
A partir do que foi visto até agora, é imediata a obtenção do estimador
de razão consistente para o total Y .
b
Y
R
Ac1
= MN y
R
Ac1
= MN
m
P
i=1
Y
0
i
m
P
i=1
N
0
i
com:
V (
b
Y
R
Ac1
) =
¡
MN
¢
2
V (y
R
Ac1
)

=
¡
MN
¢
2 M −m
MN
2
S
2
eR
m
= M
2
M −m
M
S
2
eR
m
Além disso, se o parâmetro que se deseja estimar é a proporção P
A
de
unidades da população com certo atributo A, segue-se que um estimador de
razão consistente de P
A
é dado por:
p
R
Ac1
=
m
P
i=1
N
0
i
P
0
Ai
m
P
i=1
N
0
i
com:
V (p
R
Ac1
)

=
M −m
MN
2
S
2
eR
m
e
S
2
eR
=
1
M −1
M
X
i=1
N
2
i
(P
Ai
−P
A
)
2
e o estimador dessa variância dado por:
v(p
R
Ac1
) =
M −m
M N
2
s
2
eR
m
com:
s
2
eR
=
1
m−1
m
X
i=1
N
02
i
(P
0
Ai
−p
R
Ac1
)
2
2.7. ESTIMADOR DE RAZÃO 101
2.7.2 Estimador de razão baseado em uma caracterís-
tica que não seja o tamanho do conglomerado
Aqui a característica auxiliar x que se utiliza para construir o estimador
de razão é outra qualquer que não o tamanho dos conglomerados. Para
que o estimador de razão possa ser construído com esta característica x, é
indispensável conhecer o total X da população e observar os totais X
0
i
dos
conglomerados da amostra. Assim, o estimador de razão do total Y é dado
por:
b
Y
R
Ac1
=
m
P
i=1
Y
0
i
m
P
i=1
X
0
i
X
V (
b
Y
R
Ac1
)

= M
2
M −m
M
S
2
eR
m
com:
S
2
eR
=
1
M −1
M
X
i=1
(Y
i
−RX
i
)
2
sendo:
R =
Y
X
e
v(
b
Y
R
Ac1
)

= M
2
M −m
M
s
2
eR
m
com:
s
2
eR
=
1
m−1
m
X
i=1
(Y
0
i

b
RX
0
i
)
2
e
b
R =
b
Y
Ac1
b
X
Ac1
=
m
P
i=1
Y
0
i
m
P
i=1
X
0
i
102CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS
2.8 Exercícios
2.8.1 Considere uma população de 100 conglomerados de mesmo tamanho
de 4 unidades elementares, em que a proporção de pessoas com certo
atributo P = 0, 5. Em uma amostra de 5 conglomerados foram obtidos
os seguintes resultados:
Conglomerado (i) 1 2 3 4 5
Unidades elementares 2 3 1 2 1
com o atributo (A
i
)
Estime a eficiência da amostra de conglomerados emrelação à amostragem
aleatória simples.
2.8.2 Seja P
N
uma população de N = 20 unidades, cujos valores associados
a uma certa característica y são relacionadas a seguir:
U
1
U
2
U
3
U
4
U
5
U
6
U
7
U
8
U
9
U
10
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
Y
1
Y
2
Y
3
Y
4
Y
5
Y
6
Y
7
Y
8
Y
9
Y
10
q q q q q q q q q q
66 70 37 56 61 38 55 05 23 47
U
11
U
12
U
13
U
14
U
15
U
16
U
17
U
18
U
19
U
20
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
Y
11
Y
12
Y
13
Y
14
Y
15
Y
16
Y
17
Y
18
Y
19
Y
20
q q q q q q q q q q
94 51 85 65 92 49 10 87 31 02
Grupando essas 20 unidades em 4 conglomerados como sugerido a
seguir, calcular o coeficiente de correlação intraclasse δ.
C
1
= {U
1
, U
6
, U
11
, U
16
, U
20
} C
2
= {U
2
, U
3
, U
7
, U
8
, U
19
}
C
3
= {U
4
, U
5
, U
14
, U
15
, U
18
} C
4
= {U
9
, U
10
, U
12
, U
13
, U
17
}
Comente o resultado!!!
2.8.3 Segue-se uma tabela contendo os dados de uma amostra de 20 quar-
teirões selecionados aleatoriamente sem reposição entre os 270 quar-
teirões de uma cidade que continha 6.786 domicílios. Nesta pesquisa
considerou-se como unidade de investigação o domicílio. Há interesse
em estimar a proporção de domicílios alugados e o intervalo dessa es-
timativa com 95% de confiança.
2.8. EXERCÍCIOS 103
Quarteirão N
o
de Domicílios N
o
de Domicílios
(i) (N
0
i
) Alugados
¡
Y
0
i
¢
1 5 3
2 9 5
3 18 5
4 68 52
5 32 21
6 48 34
7 11 3
8 1 0
9 1 0
10 4 0
11 29 17
12 31 14
13 5 0
14 2 0
15 4 2
16 102 54
17 20 11
18 15 11
19 1 0
20 29 23
Total 435 255
20
X
´ı=1
N
02
i
= 22.239
20
X
´ı=1
Y
02
i
= 8.545
2.8.4 Segue-se uma tabela contendo os dados de uma amostra de 20 quar-
teirões selecionada comprobabilidade proporcional ao número de domicílios,
dentre os 270 quarteirões considerados na população que continha 6.786
domi-cílios, do exercício 2.8.3. Estimar a proporção de domicílios alu-
gados e comparar a precisão obtida com aquela do exercício 2.8.3 (cuja
seleção dos conglomerados havia sido com equiprobabilidade). Justi-
fique o resultado.
104CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS
Quarteirão N
o
de Domicílios N
o
de Domicílios
(i) (N
0
i
) Alugados (Y
0
i
)
1 45 30
2 22 13
3 76 69
4 4 2
5 4 2
6 33 27
7 46 34
8 81 43
9 58 42
10 89 84
11 76 69
12 48 46
13 46 36
14 18 6
15 76 69
16 102 54
17 44 24
18 39 26
19 22 7
20 30 25
Total 959 708
2.8.5 Estimar a proporção de domicílios alugados, a partir da amostra aleatória
simples de 20 quarteirões selecionada, cujos resultados foram dados no
exercício 2.8.3 deste capítulo, utilizando o estimador de razão baseado
no tamanho dos conglomerados.
Calcule também o intervalo dessa estimativa com 95% de confiança e
compare com os intervalos obtidos nos exercícios 2.8.3 e 2.8.4.
2.8. EXERCÍCIOS 105
2.8.6 É dada uma população com N unidades distribuídas em M conglom-
erados de tamanhos desiguais. Deseja-se selecionar uma amostra de
m conglomerados para estimar o total de uma determinda caracterís-
tica. Quais as medidas que devem ser tomadas na definição do desenho
amostral para controlar a variação do tamanho dos conglomerados, se o
tamanho de cada conglomerado for conhecido? E se não for conhecido?
2.8.7 Os habitantes de um bairro estão distribuídos em 170 quarteirões, onde
se estima que há um total de 8.500 domicílios. Sabendo-se que uma
amostra aleatória simples de 500 domicílios anteriormente selecionada
forneceu uma precisão de cerca de 10% (em termos do coeficiente de
variação) para estimar o total de domicílios alugados e, que o coe-
ficiente de correlação intraclasse foi estimado na mesma amostra em
torno de 0,30. Usando a fórmula aproxi-mada que relaciona a variân-
cia da amostra aleatória simples e da amostra de conglomerados em 1
estágio, supondo conglomerados de igual tamanho:
a) Estime a precisão que seria obtida para estimar o total de domicílios
alugados se fosse selecionada uma amostra de quarteirões corre-
spondente ao mesmo número de domicílios que a amostra aleatória
simples.
b) Determine o tamanho de amostra de quarteirões necessário para
estimar o total de domicílios alugados no bairro em questão, com
a mesma precisão da amostra aleatória simples.
2.8.8 Uma amostra aleatória simples sem reposição de 8 caixas de laranjas
foi retirada de um lote que continha 1.000 caixas, tendo-se examinado
cada fruto das caixas selecionadas para verificar se estavam com bicho.
Os dados observados foram:
Caixa Total de frutos Total de frutos com
na amostra na caixa bicho na caixa
1 50 4
2 40 21
3 45 6
4 55 30
5 70 50
6 65 4
7 35 20
8 40 15
Total 400 150
106CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS
a) Estime a proporção de frutos com bicho no lote.
b) Calcule o intervalo com 95% de confiança para a estimativa obtida
em a) e dê a sua opinião a respeito da dimensão da amostra uti-
lizada. ( s
2
eR
= 625).
2.8.9 Compare as seguintes 2 amostras, cada uma delas baseada em 3.600
unidades elementares selecionadas de uma população com 1.800.000
unidades.
(1) Uma amostra aleatória simples de 3.600 unidades elementares com:
y = 513 e v(y) = 10, 89
(2) Uma amostra aleatória de 180 conglomerados selecionados dentre
90.000 conglomerados, com cada conglomerado contendo N = 20
unidades elementares e
y
Ac1
= 524 e v(y
Ac1
) = 102, 01
Note que a variância estimada para estimar a média da característica
y para a segunda amostra é quase 10 vezes maior que a da primeira
amostra. Isto indica que: (complete com (V) se a afirmativa for ver-
dadeira e (F) se for falsa, justificando a escolha para cada item.)
a) O coeficiente de correlação intraclasse dos 90.000 conglomerados é
maior que zero.
b) Todos os elementos dentro de cada conglomerado são iguais (Y
ij
=
Y
ik
∀ j e k).
c) O estimativa da variância da segunda amostra pode ser reduzida,
para atingir o valor da variância estimada com a primeira amostra,
aumentando em menos de 1.000 o número de conglomerados na
segunda amostra.
d) Se a primeira amostra for reduzida para 1.200 unidades elementares,
ela teria a mesma precisão estimada para estimar a média da car-
acterística y que a segunda amostra.
2.8. EXERCÍCIOS 107
2.8.10 De uma população com 10.000 conglomerados e 50.000 unidades el-
ementares uma amostra aleatória simples sem reposição de 10 con-
glomerados foi selecionada. Desses conglomerados temos as seguintes
informações:
Conglomerado Valor da característica Total de unidades
(i) y no conglomerado i no conglomerado i
1 80 3
2 110 4
3 95 5
4 55 3
5 150 5
6 120 6
7 175 7
8 90 4
9 50 3
10 100 5
Total 1.025 45
a) Dê 2 estimativas da média por unidade elementar.
b) Qual estimativa é provavelmente melhor? Justifique.
2.8.11 De uma população formada por M conglomerados foi selecionada
uma amostra de m conglomerados com o seguinte procedimento: o 1
o
conglomerado foi selecionado com probabilidades desiguais P
i
, sendo
M
P
i=1
P
i
= 1 e os (m−1) conglomerados restantes da amostra foram
selecionados com probabilidades iguais, sendo que todas as seleções
foram sem reposição.
a) Obtenha a probabilidade z
i
de que o conglomerado C
i
pertença a
amostra; e
b) Prove que:
M
P
i=1
z
i
= m.
108CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS
Capítulo 3
Conglomerados em 2 estágios
3.1 Probabilidades iguais de seleção
3.1.1 Introdução e definições básicas
Quando foi estudada a eficiência da amostragem de conglomerados em 1 es-
tágio em relação à amostragem aleatória simples, mostrou-se que o efeito
de conglomeração
£
1 +
¡
N −1
¢
δ
¤
costuma determinar uma perda de pre-
cisão da amostra de conglomerados em 1 estágio, comparada a uma amostra
aleatória simples de mesmo tamanho, porque o coeficiente de correlação in-
traclasse δ costuma ser positivo. De fato, constatou-se ainda que a perda da
precisão é tanto maior quanto maior o tamanho do conglomerado.
Neste capítulo será estudada uma maneira de reduzir a influência do
tamanho dos conglomerados na eficiência da amostra de conglomerados em
1 estágio. Esta solução consiste em fazer subamostragem nos conglomerados
da amostra, ao invés de investigar todas as unidades desses conglomerados.
A subamostragem mencionada consiste na seleção de amostras de unidades
elementares de π
N
dentro de cada um dos conglomerados da amostra.
Por exemplo, se os quarteirões de uma cidade são considerados conglom-
erados de domicílios, selecionando-se uma amostra de quarteirões e depois
uma amostra de domicílios em cada quarteirão da amostra se obtém uma
amostra de conglomerados em 2 estágios.
O plano amostral de conglomerados em 2 estágios (Ac2) é constituído de
uma amostra de conglomerados com subamostragem.
Na exposição seguinte será adotada a seguinte terminologia:
conglomerado = unidade primária de amostragem (UPA ou UP)
unidade elementar = unidade secundária de amostragem (USA ou US).
Assim, se π
N
é uma população com N unidades, ela pode ser vista como
109
110 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
se segue:
UP
1
UP
2
UP
M
US
11
→ Y
11
US
21
→ Y
21
. . . US
M1
→ Y
M1
US
12
→ Y
12
US
22
→ Y
22
. . . US
M2
→ Y
M2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
US
1N
1
→ Y
1N
1
US
2N
2
→ Y
2N
2
. . . US
MN
M
→ Y
MN
M
Assim verifica-se que na UP
i
há N
i
unidades secundárias (US
ij
) e, portanto:
M
X
i=1
N
i
= N
Agora, seleciona-se uma amostra aleatória simples, semreposição de munidades
primárias:
Amostra de 1
o
estágio
UP
0
1
UP
0
2
UP
0
m
US
0
11
→ Y
0
11
US
0
21
→ Y
0
21
. . . US
0
m1
→ Y
0
m1
US
0
12
→ Y
0
12
US
0
22
→ Y
0
22
. . . US
0
m2
→ Y
0
m2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
US
0
1N
1
→ Y
0
1N
0
1
US
0
2N
0
2
→ Y
0
2N
0
2
. . . US
0
mN
0
m
→ Y
0
mN
0
m
E agora, em cada UP da amostra de 1
o
estágio, seleciona-se uma amostra
aleatória simples de unidades secundárias, obtendo-se:
Amostra de 2
o
estágio
UP
0
1
UP
0
2
UP
0
m
us
00
11
→ y
11
us
00
21
→ y
21
. . . us
00
m1
→ y
m1
us
00
12
→ y
12
us
00
22
→ y
22
. . . us
00
m2
→ y
m2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
us
00
1n
0
1
→ y
1n
0
1
us
00
2n
0
2
→ y
2n
0
2
. . . us
00
mn
0
m
→ y
mn
0
m
Finalmente, a amostra resultante é:
©
y
11
, y
12
, · · · , y
1n
0
1
; · · · ; y
m1
, y
m2
, · · · , y
mn
0
m
ª
Eassim, ao invés de se ter os conglomerados na amostra comN
0
1
, N
0
2
, · · · , N
0
m
unidades, tem-se as subamostras de tamanho n
0
1
, n
0
2
, · · · , n
0
m
.
A figura 3.1 apresenta uma ilustração da seleção das unidades de uma
amostra de conglomerados em 2 estágios.
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 111
Figura 3.1: Ilustração da seleção das unidades de uma Ac2
Neste caso tem-se: M = 10 e m = 6
UPs N
o
de USs UPs N
o
de USs N
o
de USs
da UP
i
selecionadas da UP
0
i
selecionadas
(UP
i
) (N
i
) (UP
0
i
) (N
0
i
) da UP
0
i
(n
0
i
)
UP
1
N
1
= 4 UP
0
1
N
0
1
= 4 n
0
1
= 2
UP
2
N
2
= 4 - - -
UP
3
N
3
= 5 UP
0
2
N
0
2
= 5 n
0
2
= 3
UP
4
N
4
= 5 UP
0
3
N
0
3
= 5 n
0
3
= 2
UP
5
N
5
= 3 - - -
UP
6
N
6
= 3 UP
0
4
N
0
4
= 3 n
0
4
= 2
UP
7
N
7
= 3 UP
0
5
N
0
5
= 3 n
0
5
= 2
UP
8
N
8
= 3 - - -
UP
9
N
9
= 2 UP
0
6
N
0
6
= 2 n
0
6
= 1
UP
10
N
10
= 4 - - -
Afração de amostragemcorrespondente à seleção equiprovável das unidades
primárias no 1
o
estágio é representada por:
f
1
=
m
M
e a fração de amostragem de 2
o
estágio para cada unidade primária sele-
cionada é representada por:
f
2i
=
n
0
i
N
0
i
(∀i = 1, 2, · · · , m)
112 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Na situação usual (mais simples) é comum fazer a fração de amostragem do
2
o
estágio constante, representando-a por f
2
, ou seja:
f
2i
= f
2
(∀i = 1, 2, · · · , m)
Além disto, há que se notar que o tamanho final da amostra é uma variável
aleatória n, com:
n =
m
X
i=1
n
0
i
Os valores da variável aleatória n dependem das unidades primárias sele-
cionadas no 1
o
estágio. Tem-se que:
n = E(n) = E
Ã
m
X
i=1
n
0
i
!
= E
Ã
m
X
i=1
f
2
N
0
i
!
= f
2
m
1
M
M
X
i=1
N
i
= f
1
f
2
N
No caso de fração de amostragem constante no 2
o
estágio, qualquer unidade
da população tem a mesma probabilidade de pertencer à amostra, dada por
f
1
f
2
.
3.1.2 Parâmetros da característica y
Vamos definir agora a notação dos parâmetros de π
N
quando a população
está representada de acordo com a configuração de conglomerados definida:
Total da característica y em UP
i
:
Y
i
=
N
i
X
j=1
Y
ij
(∀i = 1, 2, · · · , M)
sendo: Y
ij
o valor da característica y associada à j-ésima unidade se-
cundária da unidade primária i.
Média da característica y em UP
i
:
Y
i
=
Y
i
N
i
(∀i = 1, 2, · · · , M)
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 113
Variância da característica y dentro da UP
i
:
S
2
i
=
1
N
i
−1
N
i
X
j=1
(Y
ij
−Y
i
)
2
(∀i = 1, 2, · · · , M)
Total da característica y em toda população:
Y =
M
X
i=1
Y
i
Média da característica y por unidade da população:
Y =
Y
N
Média da característica y por conglomerado:
Y =
Y
M
Variância da característica y em toda população:
S
2
=
1
N −1
M
X
i=1
N
i
X
j=1
(Y
ij
−Y )
2
3.1.3 Estatísticas da amostra em cada estágio
De acordo com o desenho de amostragem de conglomerados em 2 estágios,
serão definidas as seguintes estatísticas da amostra:
Total da característica y em UP
0
i
:
Y
0
i
=
N
0
i
X
j=1
Y
0
ij
(∀i = 1, 2, · · · , m)
sendo: Y
0
ij
o valor da característica y associada à j-ésima unidade se-
cundária da unidade primária selecionada i.
114 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Média da característica y em UP
0
i
:
Y
0
i
=
Y
0
i
N
0
i
(∀i = 1, 2, · · · , m)
Variância da característica y em UP
0
i
:
S
0
2
i
=
1
N
0
i
−1
N
0
i
X
j=1
(Y
0
ij
−Y
0
i
)
2
(∀i = 1, 2, · · · , m)
Total da característica y na subamostra de UP
0
i
:
y
i
=
n
0
i
X
j=1
y
ij
(∀i = 1, 2, · · · , m)
sendo: y
ij
o valor da característica y associada à j-ésima unidade se-
cundária selecionada da unidade primária selecionada i.
Média da característica y na subamostra de UP
0
i
:
y
i
=
y
i
n
0
i
(∀i = 1, 2, · · · , m)
Variância da característica y na subamostra de UP
0
i
:
s
2
i
=
1
n
0
i
−1
n
0
i
X
j=1
(y
ij
−y
i
)
2
(∀i = 1, 2, · · · , m)
3.1.4 Estimadores de total e médias e respectivas var-
iâncias
Estimadores de total e médias
Trata-se de obter estimadores para os parâmetros de π
N
. Para isso, será
empregado um princípio de construção de estimadores não viciados a partir
do desenho da amostra cuja aplicabilidade é geral na amostragem. O princí-
pio consiste consiste em ir construindo o estimador de dentro para fora (ou
de baixo para cima).
No nosso caso, a aplicação deste princípio resulta no seguinte raciocínio:
Seja UP
0
i
uma unidade primária qualquer selecionada da amostra. O total
de y emUP
0
i
é dado por Y
0
i
, que no caso é desconhecido visto se dispor apenas
de uma amostra das unidades de UP
0
i
. Entretanto, essa amostra pode ser
usada para estimar Y
0
i
,levando em conta que:
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 115
i) a amostra é aleatória simples na UP
0
i
; e
ii) são conhecidos os valores y
i1
, y
i2
, · · · , y
i n
0
i
da amostra na UP
0
i
.
Assim um estimador não viciado de Y
0
i
é dado por:
b
Y
0
i
=
N
0
i
n
0
i
y
i
=
N
0
i
n
0
i
n
0
i
X
j=1
y
ij
= N
0
i
y
i
(∀i = 1, 2, · · · , m)
Por outro lado, dado que as UP
s
da amostra são selecionadas comequiprob-
abilidade, o estimador de total conhecido da Ac1 para o total da população
depende somente dos totais dos conglomerados da amostra: Y
0
1
, Y
0
2
, · · · , Y
0
m
,
e é dado por:
b
Y
Ac1
=
M
m
m
X
i=1
Y
0
i
Usando as idéias anteriormente expostas, e lembrando que na Ac2 os
totais dos conglomerados da amostra são estimados por
b
Y
0
1
,
b
Y
0
2
, · · · ,
b
Y
0
m
, segue-
se que um estimador do total Y é dado por:
b
Y
Ac2
=
M
m
m
X
i=1
b
Y
0
i
=
M
m
m
X
i=1
N
0
i
n
0
i
y
i
=
M
m
m
X
i=1
N
0
i
n
0
i
n
0
i
X
j=1
y
ij
=
M
m
m
X
i=1
N
0
i
y
i
b
Y
Ac2
é um estimador não viciado de Y, isto é, E
³
b
Y
Ac2
´
= Y.
Para fazer essa demonstração, utiliza-se esperanças condicionais. Assim,
lembrando que:
Se Z e X são variáveis aleatórias então:
E (Z) = E
X
[E (Z |X)]
Neste caso é conveniente considerar internamente a esperança condi-
cionada sobre todas as possíveis seleções de subamostra quando se fixa uma
dada seleção de unidades primárias UP
0
1
, · · · , UP
0
m
, e depois a esperança
sobre todas as possíveis seleções de amostras de unidades primárias.
116 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Segue-se, então que:
E
³
b
Y
Ac2
´
= E
UP
0
1
,··· ,UP
0
m
³
E
³
b
Y
Ac2
|UP
0
1
, · · · , UP
0
m
´´
= E
UP
0
1
,··· ,UP
0
m
Ã
E
Ã
M
m
m
X
i=1
N
0
i
y
i
|UP
0
i
!!
= E
UP
0
1
,··· ,UP
0
m
Ã
M
m
m
X
i=1
E(N
0
i
y
i
|UP
0
i
)
!
= E
UP
0
1
,··· ,UP
0
m
Ã
M
m
m
X
i=1
N
0
i
Y
0
i
!
= E
UP
0
1
,··· ,UP
0
m
Ã
M
m
m
X
i=1
Y
0
i
!
= E
³
b
Y
Ac1
´
= Y
Um estimador não viciado para Y é dado por:
y
Ac2
=
b
Y
Ac2
N
=
M
mN
m
X
i=1
N
0
i
y
i
=
1
mN
m
X
i=1
N
0
i
y
i
pois,
E
¡
y
Ac2
¢
= E
Ã
b
Y
Ac2
N
!
=
1
N
E
³
b
Y
Ac2
´
=
Y
N
= Y
Um estimador não viciado para Y é dado por:
y
Ac2
=
b
Y
Ac2
M
=
M
mM
m
X
i=1
N
0
i
y
i
=
1
m
m
X
i=1
N
0
i
y
i
pois,
E (y
Ac2
) = E
Ã
b
Y
Ac2
M
!
=
1
M
E
³
b
Y
Ac2
´
=
Y
M
= Y
Variância dos estimadores de total e das médias
Na obtenção da expressão da variância de
b
Y
Ac2
também será utilizado o
emprego de esperanças condicionais, o que irá facilitar bastante essa dedução.
Deve-se lembrar que: Se Z e X são variáveis aleatórias então:
V (Z) = E
X
[V (Z |X)] +V
X
[E (Z |X)]
Daí, segue-se que:
V
³
b
Y
Ac2
´
= E
UP
0
1
,··· ,UP
0
m
h
V
³
b
Y
Ac2
|UP
0
1
, · · · , UP
0
m
´i
+
+V
UP
0
1
,··· ,UP
0
m
h
E
³
b
Y
Ac2
|UP
0
1
, · · · , UP
0
m
´i
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 117
Porém, foi demonstrado anteriormente que:
E
³
b
Y
Ac2
|UP
0
1
, · · · , UP
0
m
´
=
M
m
m
X
i=1
Y
0
i
=
b
Y
Ac1
Segue-se que:
V
UP
0
1
,··· ,UP
0
m
h
E
³
b
Y
Ac2
|UP
0
1
, · · · , UP
0
m
´i
= V
UP
0
1
,··· ,UP
0
m
h
b
Y
Ac1
i
= M
2
M −m
M
S
2
e
m
onde:
S
2
e
=
1
M −1
M
X
i=1
(Y
i
−Y )
2
Por outro lado:
V
³
b
Y
Ac2
|UP
0
1
, · · · , UP
0
m
´
= V
Ã
M
m
m
X
i=1
N
0
i
y
i
|UP
0
i
!
=
M
2
m
2
m
X
i=1
N
02
i
V (y
i
|UP
0
i
)
=
M
2
m
2
m
X
i=1
N
02
i
N
0
i
−n
0
i
N
0
i
S
02
i
n
0
i
Logo:
E
UP
0
1
,··· ,UP
0
m
h
V
³
b
Y
Ac2
|UP
0
1
, · · · , UP
0
m
´i
= E
UP
0
1
,··· ,UP
0
m
"
M
2
m
2
m
X
i=1
N
02
i
N
0
i
−n
0
i
N
0
i
S
02
i
n
0
i
#
=
M
2
m
2
m
X
i=1
E
UP
0
i
·
N
02
i
N
0
i
−n
0
i
N
0
i
S
02
i
n
0
i
¸
=
M
2
m
2
m
X
i=1
M
X
i=1
·
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
¸
1
M
=
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
E assim, obtém-se finalmente:
V
³
b
Y
Ac2
´
= M
2
M −m
M
S
2
e
m
+
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
118 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
onde as parcelas do 2
o
membro representam as ”componentes” da variância
devidas ao 1
o
e ao 2
o
estágios de seleção, respectivamente.
Segue-se, imediatamente, que as variâncias dos estimadores das médias
y
Ac2
e y
Ac2
são, respectivamente:
V
¡
y
Ac2
¢
= V
Ã
b
Y
Ac2
N
!
=
1
N
2
V
³
b
Y
Ac2
´
V (y
Ac2
) = V
Ã
b
Y
Ac2
M
!
=
1
M
2
V
³
b
Y
Ac2
´
Note-se que:
i) Se m = M então, a 1
a
componente da variância é nula, ou seja:
V
³
b
Y
Ac2
´
=
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
= V
³
b
Y
est
´
e este plano amostral equivale ao de uma amostra estratificada.
ii) Se n
i
= N
i
(∀i = 1, 2, · · · , m) então, a 2
a
componente da variância é
nula, ou seja:
V
³
b
Y
Ac2
´
= M
2
M −m
M
S
2
e
m
= V
³
b
Y
Ac1
´
e este plano amostral equivale ao de uma amostra de conglomerados
em um estágio.
Uma análise pouco cuidadosa do problema a partir deste resultado pode-
ria levar à conclusão de que:
V
³
b
Y
Ac2
´
≥ V
³
b
Y
Ac1
´
posto que:
V
³
b
Y
Ac2
´
= V
³
b
Y
Ac1
´
+
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
Isto é verdadeiro se o número de conglomerados m for o mesmo nos dois
planos amostrais. Porém, como no plano amostral de conglomerados em 2
estágios é feita a subamostragem, as amostras não têm o mesmo tamanho
em termos de unidades elementares. O tamanho da Ac2, em média, tem em
termos de unidades elementares f
2
% do número de unidades elementares da
Ac1.
A maneira correta de comparar os 2 desenhos de amostragem é fixando
o tamanho total da amostra, em termos de unidades elementares, e não o
número de conglomerados da amostra, como será visto mais adiante.
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 119
3.1.5 Estimadores das variâncias dos estimadores de
total e médias
Em primeiro lugar, vamos nos ocupar para a obtenção de um estimador não
viciado para a V
³
b
Y
Ac2
´
, propondo o seguinte estimador:
v
³
b
Y
Ac2
´
= M
2
M −m
M
s
2
e
m
+
M
m
m
X
i=1
N
0
2
i
N
0
i
−n
0
i
N
0
i
s
2
i
n
0
i
onde:
s
2
e
=
1
m−1
m
X
i=1
(N
0
i
y
i
−y
Ac2
)
2
A seguir será demonstrado que o estimador v
³
b
Y
Ac2
´
é não viciado para
V
³
b
Y
Ac2
´
.
Para esta prova, vamos mostrar que:
i) E(s
2
e
) = S
2
e
+
1
M
M
P
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
e
ii) E
µ
M
m
m
P
i=1
N
0
2
i
N
0
i
−n
0
i
N
0
i
s
2
i
n
0
i

=
M
P
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
.
Demostração da parte (i):
E(s
2
e
) = E
Ã
1
m−1
m
X
i=1
(N
0
i
y
i
−y
Ac2
)
2
!
=
1
m−1
E
Ã
m
X
i=1
(N
0
i
y
i
−y
Ac2
)
2
!
=
1
m−1
E
Ã
m
X
i=1
(N
0
i
y
i
)
2
−m(y
Ac2
)
2
!
=
1
m−1
E
Ã
m
X
i=1
(N
0
i
y
i
)
2
!

m
m−1
E
¡
y
2
Ac2
¢
Segue-se que:
120 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
E
Ã
m
X
i=1
(N
0
i
y
i
)
2
!
= E
UP
0
1
,··· ,UP
0
m
Ã
E
Ã
m
X
i=1
(N
0
i
y
i
)
2
|UP
0
i
!!
= E
UP
0
1
,··· ,UP
0
m
Ã
m
X
i=1
E
³
(N
0
i
y
i
)
2
|UP
0
i
´
!
= E
UP
0
1
,··· ,UP
0
m
Ã
m
X
i=1
V
³
(N
0
i
y
i
)
2
|UP
0
i
´
+
m
X
i=1
[E(N
0
i
y
i
|UP
0
i
)]
2
!
= E
UP
0
1
,··· ,UP
0
m
Ã
m
X
i=1
N
02
i
N
0
i
−n
0
i
N
0
i
S
02
i
n
0
i
+
m
X
i=1
¡
N
0
i
Y
i
¢
2
!
= mE
UP
0
1
,··· ,UP
0
m
µ
N
02
i
N
0
i
−n
0
i
N
0
i
S
02
i
n
0
i

+mE
UP
0
1
,··· ,UP
0
m
³
¡
N
i
Y
i
¢
2
´
= m
M
X
i=1
µ
N
2
i
N
i
−n
i
N
i
S
2
i
n
i

1
M
+
m
M
M
X
i=1
¡
N
i
Y
i
¢
2
=
m
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
m
M
M
X
i=1
Y
2
i
Por outro lado, segue-se que:
E
¡
y
2
Ac2
¢
= V (y
Ac2
) + [E (y
Ac2
)]
2
= V
Ã
b
Y
Ac2
M
!
+
"
E
Ã
b
Y
Ac2
M
!#
2
= V
Ã
b
Y
Ac2
M
!
+
"
E
Ã
b
Y
Ac2
M
!#
2
=
1
M
2
(
M
2
M −m
M
S
2
e
m
+
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+Y
2
)
=
M −m
M
S
2
e
m
+
1
mM
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+Y
2
Assim, segue-se que:
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 121
E(s
2
e
) =
1
m−1
E
Ã
m
X
i=1
(N
0
i
y
i
)
2
!

m
m−1
E
¡
y
2
Ac2
¢
=
1
m−1
(
m
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
m
M
M
X
i=1
Y
2
i
)
+

m
m−1
(
M −m
M
S
2
e
m
+
1
mM
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+Y
2
)
=
½
m
(m−1) M

m
m−1
1
mM
¾
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
+
m
(m−1) M
M
X
i=1
Y
2
i

m
m−1
Y
2

m
m−1
M −m
M
S
2
e
m
=
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
m
(m−1)
1
M
"
M
X
i=1
Y
2
i
−MY
2
#
+

m
m−1
M −m
M
S
2
e
m
E(s
2
e
) =
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
m
(m−1)
1
M
"
M
X
i=1
¡
Y
i
−Y
¢
2
#
+

m
m−1
M −m
M
S
2
e
m
=
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
m
(m−1)
µ
M −1
M

M −m
Mm

S
2
e
=
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
m
(m−1)
µ
mM −m−M +m
Mm

S
2
e
=
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
mM
(m−1)
µ
m−1
Mm

S
2
e
=
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+S
2
e
Agora resta a demonstração de (ii):
122 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
E
Ã
M
m
m
X
i=1
N
0
2
i
N
0
i
−n
0
i
N
0
i
s
2
i
n
0
i
!
= E
UP
0
1
,··· ,UP
0
m
Ã
E
Ã
M
m
m
X
i=1
N
0
2
i
N
0
i
−n
0
i
N
0
i
s
2
i
n
0
i
|UP
0
i
!!
=
M
m
E
UP
0
1
,··· ,UP
0
m
Ã
m
X
i=1
N
0
2
i
N
0
i
−n
0
i
N
0
i
E(s
2
i
)
n
0
i
|UP
0
i
!
=
M
m
E
UP
0
1
,··· ,UP
0
m
Ã
m
X
i=1
N
0
2
i
N
0
i
−n
0
i
N
0
i
S
0
2
i
n
0
i
!
=
M
m
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
1
M
=
M
m
m
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
=
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
Finalizando:
E
h
v
³
b
Y
Ac2
´i
= M
2
M −m
M
E(s
2
e
)
m
+E
Ã
M
m
m
X
i=1
N
0
2
i
N
0
i
−n
0
i
N
0
i
s
2
i
n
0
i
!
= M
2
M −m
M
1
m
"
S
2
e
+
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
#
+
+
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
= M
2
M −m
M
S
2
e
m
+M
2
M −m
M
1
m
1
M
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
+
+
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
= M
2
M −m
M
S
2
e
m
+
µ
M −m
m
+ 1

M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
= M
2
M −m
M
S
2
e
m
+
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
= V
³
b
Y
Ac2
´
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 123
3.1.6 Amostra autoponderada
Na amostragem de conglomerados em 2 estágios, existe uma fração de amos-
tragem no 1
o
estágio (f
1
=
m
M
) e existem frações correspondentes ao 2
o
estágio
(f
2i
=
n
0
i
N
0
i
), que podem ser diferentes.
Todos os estimadores que trabalhamos anteriormente foram preparados
nessa hipótese. Supondo-se que:
f
21
6= f
22
6= · · · 6= f
2m
Sabe-se que a probabilidade de US
ij
pertencer a amostra é dada por:
P {US
ij
∈ amostra} =
m
M
n
0
i
N
0
i
∀i, j
Foi dito anteriormente que é comum na prática trabalhar com uma fração
de amostragem f
2
constante em todos os conglomerados. Isto é usual devido
principalmente à simplicidade que resulta em termos de fórmulas dos esti-
madores, como também à simplicidade de operacionalização da seleção da
amostra. neste caso, devemos ter:
f
2
=
n
N
onde:
n =
m
P
i=1
n
0
i
m
e N =
M
P
i=1
N
i
M
Daí resulta que todas as unidades secundárias terão a mesma probabili-
dade de pertencer à amostra, dada por:
P {US
ij
∈ amostra} =
m
M
n
N
= f
1
f
2
= f =
n
N
O que veremos a seguir é como se define amostra autoponderada e, como
se modificam os estimadores de total e da respectiva variância da amostragem
de conglomerados em 2 estágios.
Definição
Diz-se que a amostra de conglomerados em 2 estágios é autoponderada
se e somente se as unidades secundárias tiverem a mesma probabilidade de
inclusão na amostra, isto é, se e somente se:
n
N
= P {US
ij
∈ amostra} =
m
M
n
0
i
N
0
i
⇐⇒
n
0
i
N
0
i
=
Mn
mN
⇐⇒
n
0
i
N
0
i
=
n
N
124 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Adaptação dos estimadores do total e respectiva variância
A expressão do estimador de total
b
Y
Ac2
pode ser reescrita como:
b
Y
Ac2
=
M
m
m
X
i=1
N
0
i
n
0
i
n
0
i
X
j=1
y
ij
=
M
m
N
n
m
X
i=1
n
0
i
X
j=1
y
ij
=
N
n
m
X
i=1
n
0
i
X
j=1
y
ij
=
1
f
m
X
i=1
n
0
i
X
j=1
y
ij
e a expressão da variância de
b
Y
Ac2
fica:
V
³
b
Y
Ac2
´
= M
2
M −m
M
S
2
e
m
+
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
= M
2
M −m
M
S
2
e
m
+
M
m
µ
N
n
−1

M
X
i=1
N
i
S
2
i
= M
2
M −m
M
S
2
e
m
+
M
m
N
n
µ
N −n
N

M
X
i=1
N
i
S
2
i
fazendo:
S
2
d
=
1
MN
M
X
i=1
N
i
S
2
i
Segue-se que:
V
³
b
Y
Ac2
´
= M
2
µ
M −m
M

S
2
e
m
+
¡
MN
¢
2
µ
N −n
N

S
2
d
mn
ou, em termos das frações de amostragem:
V
³
b
Y
Ac2
´
= M
µ
1
f
1
−1

S
2
e
+N
µ
1 −f
2
f
1
f
2

S
2
d
Notando-se que:
s
2
d
=
1
mN
m
X
i=1
N
0
i
s
2
i
é um estimador não viciado de S
2
d
, segue-se a expressão adaptada de v
³
b
Y
Ac2
´
v
³
b
Y
Ac2
´
= M
2
µ
M −m
M

s
2
e
m
+
¡
MN
¢
2
µ
N −n
N

s
2
d
mn
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 125
ou ainda, em termos das frações de amostragem:
v
³
b
Y
Ac2
´
= M
µ
1
f
1
−1

s
2
e
+N
µ
1 −f
2
f
1
f
2

s
2
d
Uma vez mais convém ressaltar que a vantagem da amostra autopon-
derada advém da facilidade prática de seleção da amostra e do cálculo dos
estimadores e suas respectivas precisões.
Exemplo 3.1 (Nascimento (1981), pág. 80)
Em determinada área, de acordo com o último Censo Demográfico, há 150
setores com aproximadamente 36.400 domicílios. Seleciona-se uma amostra
de 364 domicílios, com o objetivo de estimar o número de habitantes da área.
Isto corresponde a uma fração geral de amostragem:
f =
364
36.400
=
1
100
Há em média
36.400
150

= 243 domicílos por setor na área.
Serão selecionados com equiprobabilidade 10 setores, o que corresponde
a uma fração de amostragem de 1
o
estágio de:
f
1
=
10
150
=
1
15
Para que a amostra seja autoponderada deve-se ter: f
1
f
2
= f.
Logo:
f
2
=
f
f
1
=
1
100
1
15
= 15%
Supondo que a amostra forneceu os seguintes dados, estimar o número
total de habitantes da área e sua precisão.
126 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Setores Domicílios Domicílios da Moradores nos Variância de y
da no setor subamostra domicílios da na subamos-
amostra (N
0
i
) no setor (n
0
i
) subamostra (y
i
) tra (s
2
i
)
1 320 48 168 4,018
2 210 32 138 5,224
3 180 27 130 5,905
4 400 60 222 1,044
5 250 38 201 2,840
6 221 33 149 4,345
7 120 18 97 6,000
8 500 75 300 2,012
9 262 39 199 3,484
10 238 36 108 3,000
Total 2.701 406 1.712 -
b
Y
Ac2
=
1
f
m
X
i=1
n
0
i
X
j=1
y
ij
=
1
1
100
(1.712) = 171.200 habitantes
s
2
e
=
1
m−1
m
X
i=1
(N
0
i
y
i
−y
Ac2
)
2
=
1
9
(1.502.364, 65) = 166.929, 41
y
Ac2
=
b
Y
Ac2
M
=
171.200
150
= 1.141, 33
s
2
d
=
1
mN
m
X
i=1
N
0
i
s
2
i
=
1
10 (243)
(8.886, 353) = 3, 657
v
³
b
Y
Ac2
´
= M
µ
1
f
1
−1

s
2
e
+N
µ
1 −f
2
f
1
f
2

s
2
d
= 150
µ
1
1
15
−1

166.929, 41 + 36.400
µ
1 −
15
100
1
100

3, 657
= 350.551.750, 8 + 11.314.558, 1 = 361.866.308, 9
Logo:
cv
³
b
Y
Ac2
´
=
r
v
³
b
Y
Ac2
´
b
Y
Ac2
= 11, 11%
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 127
3.1.7 Dimensionamento da amostra de conglomerados
em 2 estágios
Na amostragem de conglomerados em um estágio, o dimensionamneto da
amostra pode ser feito fixando-se uma precisão desejada, e calculando-se o
número de conglomerados da amostra, através da expressão da variância.
Na amostragem de conglomerados em 2 estágios, o dimensionamento con-
siste em determinar não só o número de unidades primárias (conglomerados)
na amostra de 1
o
estágio, como também o número de unidades secundárias
da subamostra em cada unidade primária selecionada.
Uma solução para o problema pode ser obtida utilizando-se a expressão
da variância e introduzindo-se uma função custo, que indica o custo da apli-
cação do desenho da amostra para os tamanhos de 1
o
e 2
o
estágios a serem
escolhidos.
Aqui será considerado o caso simples emque o tamanho médio das unidades
primárias N e o tamanho médio da subamostra n são determinados de acordo
com um dos critérios possíveis:
a) minimizar a variância com custo fixado;
b) minimizar o custo com variância fixada.
Definição de uma função custo
A função custo que vamos considerar não é a única possível, mas a ade-
quada para muitas situações práticas, e possibilita a solução do problema de
determinação dos tamanhos de amostra segundo os dois critérios já definidos
de maneira simples.
Função Custo:
C
T
= C
f
+C
1
m+C
2
mn
onde:
C
f
é o custo fixo;
C
1
é o custo unitário por unidade primária selecionada;
C
2
é o custo unitário por unidade secundária selecionada.
Na prática, as despesas dever ser atribuídas a cada umdos custos definidos
como segue:
Custo fixo: C
f
- planejamento e orientação do trabalho, incluindo os salários do pessoal
técnico e as despesas de administração;
128 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
- preparação de mapas e outras informações que não dependamdo tamanho
da amostra a ser selecionada;
- impressão de tabelas e treinamento de pessoal de campo que não de-
penda do tamanho da amostra a ser selecionada.
Afinal, devem ser incluídas como custo fixo, as despesas que não variam
com o processo de seleção nem com o tamanho da amostra.
Custo de seleção das unidades primárias: C
1
m
- despesas de seleção das unidades primárias;
- preparação de roteiros de viagem para as unidades primárias;
- impressão do material para a amostra de unidades primárias;
- tempo de treinamento para investigação das unidades primárias;
- gastos de transporte para as unidades primárias e entre as mesmas.
Afinal, devem ser incluídas aqui todas as despesas que variam com o
número de unidades primárias na amostra.
Custo de seleção das unidades secundárias: C
2
mn
- custo de entrevista de cada unidade secundária;
- impressão do material referente às unidades secundárias da amostra;
- despesas de transporte dentro das unidades primárias.
Enfim, devemser incluídas aqui todas as despesas diretamente relacionadas
com o número de unidades secundárias na amostra.
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 129
Tamanho de amostra com custo fixado e mínima variância
Agora, vamos resolver o problema de determinação dos tamanhos de
amostra segundo o critério de minimização da variância com o custo fixado.
Para tanto, considere-se a seguinte função Lagrangeana:
F = V (y
Ac2
) +λ(C
f
+C
1
m+C
2
mn −C
T
)
que pode ser reescrita como:
F =
M −m
M
S
2
e
m
+
N −n
N
S
2
d
mn
+λ(C
1
m+C
2
mn −C)
onde:
C = C
T
−C
f
λ é o multiplicador de Lagrange.
Tomando as derivadas parciais em relação a m e a n e igualando a zero
vem:
∂F
∂n
= −
S
2
d
mn
2
+λC
2
m = 0 (3.1)
∂F
∂m
= −
S
2
e
m
2

N −n
N
S
2
d
m
2
n
+λ(C
1
+C
2
n) = 0 (3.2)
De (1) obtém-se:
λC
2
m
2
n
2
= S
2
d
(3.3)
De (2) obtém-se:
λ(C
1
+C
2
n) Nm
2
n = S
2
e
Nn +
¡
N −n
¢
S
2
d
(3.4)
Dividindo-se (4) por (3), tem-se:
λ(C
1
+C
2
n) Nm
2
n
λC
2
m
2
n
2
=
S
2
e
Nn +
¡
N −n
¢
S
2
d
S
2
d
=⇒
(C
1
+C
2
n) N
C
2
n
=
S
2
e
Nn +
¡
N −n
¢
S
2
d
S
2
d
=⇒(C
1
+C
2
n) N S
2
d
= S
2
e
C
2
N n
2
+
¡
N −n
¢
C
2
nS
2
d
=⇒
¡
C
1
N +C
2
nN −N C
2
n +C
2
n
2
¢
S
2
d
= S
2
e
C
2
N n
2
130 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
=⇒C
1
N S
2
d
= S
2
e
C
2
N n
2
−C
2
n
2
S
2
d
=⇒C
1
N S
2
d
= C
2
n
2
³
S
2
e
N −S
2
d
´
=⇒n
2
=
C
1
N S
2
d
C
2
³
S
2
e
N −S
2
d
´
=⇒n
´ otimo
=
v
u
u
t
C
1
N S
2
d
C
2
³
S
2
e
N −S
2
d
´ (3.5)
Derivando a F em relação a λ, vem:
∂F
∂λ
= C
1
m+C
2
mn −C = 0
=⇒m(C
1
+C
2
n) = C
=⇒m =
C
C
1
+C
2
n
(3.6)
substituindo-se na expressão (6) o valor n
´ otimo
, obtém-se o valor ótimo de m:
m
´ otimo
=
C
C
1
+C
2
n
´ otimo
=
C
C
1
+C
2
v
u
u
t
C
1
N S
2
d
C
2
³
S
2
e
N −S
2
d
´
(3.7)
Assim pode-se observar que:
i) n
´ otimo
cresce se C
1
cresce em relação a C
2
, ou seja, se cresce a parte do
custo referente à seleção das unidades primárias, cabe aumentar n
´ otimo
e diminuir m
´ otimo
.
ii) Para achar n
´ otimo
, basta conhecer a razão
C
1
C
2
. Pequenas variações deste
valor têm pouca influência sobre o valor de n
´ otimo
, visto que n
´ otimo
depende de
r
C
1
C
2
.
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 131
iii) o valor de n
´ otimo
pode ser estimado por:
b
n
´ otimo
=
v
u
u
u
t
C
1
C
2
s
2
d
µ
s
2
e

s
2
d
n

pois:
E
¡
s
2
d
¢
= S
2
d
e
E
µ
s
2
e

s
2
d
n

= E
µ
s
2
e

N −n
N
s
2
d
n

s
2
d
N

= E
¡
s
2
e
¢
−E
µ
s
2
d
N

= S
2
e

S
2
d
N
Note-se que isto vale somente se:
s
2
e

s
2
d
n
> 0
se isto não ocorrer, n
´ otimo
pode ser obtido considerando a função custo:
C = m(C
1
+C
2
n)
- Se C > C
1
+C
2
N, então:
n
´ otimo
= m´ aximo de n = N
implicando que
m
´ otimo
=
C
C
1
+N C
2
- Se C ≤ C
1
+C
2
N , então n
´ otimo
é a solução para n da equação
C = C
1
+C
2
n =⇒n
´ otimo
=
C −C
1
C
2
e m
´ otimo
= 1
132 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Tamanho de amostra com variância fixada e custo mínimo
Aqui o problema a resolver é minimizar a função:
G = C +µV (y
Ac2
)
onde:
µ é o multiplicador de Lagrange.
Assim:
G = (C
1
m+C
2
mn) +µ
Ã
M −m
M
S
2
e
m
+
N −n
N
S
2
d
mn
!
Tomando as derivadas parciais em relação a m e a n e igualando a zero vem:
∂G
∂n
= C
2
m−µ
S
2
d
mn
2
= 0 (3.8)
∂G
∂m
= C
1
+C
2
n −µ
Ã
S
2
e
m
2
+
N −n
N
S
2
d
m
2
n
!
= 0 (3.9)
É imediato notar que estas equações são idênticas àquelas anterior-
mente obtidas com µ =
1
λ
. Em conseqüência, a solução para o valor ótimo
de n é a mesma, seja fixando o custo e minimizando a variância, seja fixando
a variância e minimizando o custo.
Quanto ao valor ótimo de m é obtido fixando-se V (y
Ac2
) e substituindo-se
n
´ otimo
no lugar de n.
V (y
Ac2
) =
M −m
M
S
2
e
m
+
N −n
N
S
2
d
mn
=⇒
µ
1
m

1
M

S
2
e
+
µ
1
n

1
N

S
2
d
m
= V (y
Ac2
)
=⇒
1
m
µ
S
2
e
+
µ
1
n

1
N

S
2
d

= V (y
Ac2
) +
1
M
S
2
e
m =
S
2
e
+
µ
1
n

1
N

S
2
d
V (y
Ac2
) +
1
M
S
2
e
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 133
m
´ otimo
=
S
2
e
+
µ
1
n
´ otimo

1
N

S
2
d
V (y
Ac2
) +
1
M
S
2
e
sendo que V (y
Ac2
) deve ser fixada.
Tamanho de amostra em função do coeficiente de correlação intra-
classe
Considere as expressões já encontradas no caso de amostragem de con-
glomerados em 1 estágio:
δ =
(M −1) S
2
e
M

1
N
S
2
d
MN −1
M N
S
2
(3.10)
¡
MN −1
¢
S
2
= (N −1) M S
2
d
+N (M −1) S
2
e
(3.11)
Substituindo-se (11) em (10), obtém-se:
δ =
(M −1) S
2
e
M

1
N
S
2
d
(N −1)
N
S
2
d
+
M −1
M
S
2
e
Logo:
1 −δ =
S
2
d
(N −1)
N
S
2
d
+
M −1
M
S
2
e
1 −δ
δ
=
S
2
d
(M −1) S
2
e
M

1
N
S
2
d

=
S
2
d
S
2
e

1
N
S
2
d
Assim, pode-se escrever:
n
´ otimo
=
v
u
u
t
C
1
C
2
N S
2
d
³
S
2
e
N −S
2
d
´ =
v
u
u
u
t
C
1
C
2
S
2
d
µ
S
2
e

1
N
S
2
d

ou
n
´ otimo
=
r
C
1
C
2
1 −δ
δ
(3.12)
134 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
E assim verifica-se, uma vez mais, a importância prática de conhecer o
valor do coeficiente de correlação intraclasse.
Exemplo 3.2 (Nascimento (1981), pág. 88)
Em certa área existem 740 setores censitários rurais. Trata-se de estimar
a produção total de café da área, através e uma amostra de conglomerados
em 2 estágios, sendo os setores as unidades primárias e os estabelecimentos
produtores as unidades secundárias.
De uma pesquisa anterior sabe-se que para a característica ”produção de
café ” e o setor como conglomerado tem-se:
δ = 0, 201 e
C
1
C
2
= 10
Logo, o tamanho da subamostra em cada setor selecionado é:
n
´ otimo
=
r
C
1
C
2
1 −δ
δ
=
r
10
1 −0, 201
0, 201

= 6
O custo da investigação de um estabelecimento foi orçado em R$ 30,00
de modo que a função custo é:
C = 300m+ 30mn
A quantia total para a pesquisa é R$ 35.000,00, sendo R$5.000,00 para a
parte fixa dos custos.
Logo:
m =
30.000
300 + 30(6)
= 62 setores
correspondendo a um total de 6 (62) = 372 estabelecimentos produtores na
amostra.
A fração de amostragem do 1
o
estágio é:
f
1
=
m
M
=
62
740
=
1
12
Considerando que cada setor tem em média N = 30 estabelecimentos, a
fração de amostragem do 2
o
estágio é:
f
2
=
n
N
=
6
30
=
1
5
Logo, a fração geral de amostragem é:
f = f
1
f
2
=
µ
1
12
¶µ
1
5

=
1
60
3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 135
3.1.8 Efeito de conglomeração
O objetivo desta seção é a comprovação de que a amostragem de conglomera-
dos em 2 estágios pode ser mais precisa que a amostragem de conglomerados
em 1 estágio. Isto será feito comparando-se os respectivos efeitos de con-
glomeração em relação à amostragem aleatória simples.
Para atingir esse objetivo é necessário, no entanto, escrever a expressão da
variância V (y
Ac2
) em termos do coeficiente de correlação intraclasse δ, o que
será feito somente para o caso em que o tamanho médio por conglomerado
N for admitido constante para os M conglomerados.
Assim, recordando as seguintes expressões:
¡
MN −1
¢
S
2
= (N −1) M S
2
d
+N (M −1) S
2
e
(3.13)
S
2
e
=
M N −1
(M −1) N
S
2
N
£
1 +
¡
N −1
¢
δ
¤
(3.14)
Substituindo-se (14) em (13) tem-se:
¡
MN −1
¢
S
2
= (N −1) M S
2
d
+
M N −1
N
S
2
£
1 +
¡
N −1
¢
δ
¤
=⇒
µ
¡
MN −1
¢

M N −1
N
£
1 +
¡
N −1
¢
δ
¤

S
2
= (N −1) M S
2
d
=⇒
Ã
¡
MN −1
¢ £
N −1 −
¡
N −1
¢
δ
¤
N
!
S
2
= (N −1) M S
2
d
=⇒
Ã
¡
MN −1
¢ ¡
N −1
¢
(1 − δ)
N
!
S
2
= (N −1) M S
2
d
=⇒S
2
d
=
¡
MN −1
¢ ¡
N −1
¢
(1 − δ)
(N −1) MN
S
2
=⇒S
2
d
=
¡
MN −1
¢
(1 − δ)
MN
S
2
Lembrando que a variância V (y
Ac2
) é dada por:
V (y
Ac2
) =
M −m
M
S
2
e
m
+
N −n
N
S
2
d
mn
136 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
e supondo as seguintes aproximações:
M −m
M

= 1 e
N −n
N

= 1 (3.15)
obtém-se:
V (y
Ac2
)

=
S
2
e
m
+
S
2
d
mn
V (y
Ac2
)

=
S
2
mN
M N −1
(M −1) N
£
1 +
¡
N −1
¢
δ
¤
+
1
mn
¡
MN −1
¢
(1 − δ)
MN
S
2
Mas pela hipótese em (15) tem-se:
MN −1
MN

= 1 e
M N −1
(M −1) N

= 1 (3.16)
Logo:
V (y
Ac2
)

=
S
2
mN
£
1 +
¡
N −1
¢
δ
¤
+
1
mn
(1 − δ) S
2
V (y
Ac2
)

=
S
2
m
"
1
N
+
¡
N −1
¢
N
δ +
1
n

δ
n
#
se N for grande =⇒
1
N
−→0 e
¡
N −1
¢
N
−→1
Então:
V (y
Ac2
)

=
S
2
mn
[ nδ + 1 −δ]
=
S
2
mn
[1 + ( n −1) δ]
Se lembrarmos que
S
2
mn
é a expressão aproximada para a variância da
média de y da amostragem aleatória simples de tamanho mn (desprezando-
se a correção de população finita), segue-se que:
V (y
Ac2
)

= V (y
AAS
) [1 + ( n −1) δ]
Donde se conclui que o efeito de conglomeração da amostragem de
conglomerados em 2 estágios é dado por [1 + ( n −1) δ] .
De imediato segue-se que:
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 137
i) se δ > 0 =⇒ [1 + ( n −1) δ] <<
£
1 +
¡
N −1
¢
δ
¤
que é o efeito de
conglomeração na amostragem de conglomerados em 1 estágio.
Logo é interessante manter n pequeno, o que implica em ter m grande.
Isto é, a amostra deve ter mais unidades primárias e subamostras menores
(f
1
deve crescer e f
2
decrescer).
ii) se δ < 0 =⇒[1 + ( n −1) δ] >
£
1 +
¡
N −1
¢
δ
¤
Logo, a melhor alternativa é fazer n = N, isto é, fazer amostragem de
conglomerados em 1 estágio, tomando menos unidades primárias ( f
1
deve
decrescer e f
2
crescer).
Vale o comentário: se f
1
cresce e, como em geral
C
1
C
2
>> 1, então o custo
da pesquisa tende a crescer bastante, de modo que este fator não deve ser
ignorado na determinação dos tamanhos da amostra.
No exercício 3.2, o efeito de conglomeração é:
1 + ( n −1) δ = 1 + (6 −1)0, 201 = 1 + 5(0, 201)

= 2
Para baixar esse efeito de conglomeração, poderia reduzir a relação de
custos
C
1
C
2
ou partir para a definição de uma nova unidade primária com
menor δ.
A eficiência da amostragem de conglomerados em 2 estágios em
relação à amostragem aleatória simples de mesmo tamanho é dada
por:
Ef =
V (y
AAS
)
V (y
Ac2
)

=
1
1 + ( n −1) δ
3.2 Controle de variação de tamanho das UPAs
Se o coeficiente de correlação intraclasse é positivo, a subamostragem melhora
e eficiência, posto que se substitui N por n no efeito de conglomeração.
No entanto, a influência da variação do tamanho das unidades primárias
ainda persiste na estimação e total, uma vez que a variância do estimador:
V
³
b
Y
Ac2
´
= M
2
M −m
M
S
2
e
m
+
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
ainda depende da variabilidade das unidades prrimárias.
Desse modo, as diversas formas de controle da variação de tamanho enun-
ciadas na amostragem de conglomerados em 1 estágio, podem ser repetidas
na amostragem de conglomerados em 2 estágios.
138 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
3.2.1 Probabilidades desiguais de seleção das unidades
primárias
Seja P
i
a probabilidade de seleção da unidade primária i (i = 1, 2, · · · , M).
Valem as considerações feitas na Ac1, com relação à probabilidade pro-
porcional ao tamanho do conglomerado, definida por:
P
i
=
N
i
N
(i = 1, 2, · · · , M)
ou à probabilidade proporcional a uma medida de tamanho definida por:
P
i
=
X
i
X
(i = 1, 2, · · · , M)
Seleciona-se uma amostra de m unidades primárias de acordo com as
probabilidades de seleção P
i
e com reposição.
Emcada uma dessas unidades primárias da amostra de 1
o
estágio, seleciona-
se uma subamostra com igual probabilidade de seleção e sem reposição.
Um estimador não viciado do total da característica y é dado por:
b
Y
p
Ac2
=
1
m
m
X
i=1
N
0
i
P
0
i
y
i
onde:
P
0
i
é a probabilidade de seleção associada à i-ésima unidade primária sele-
cionada (UP
0
i
). P
0
i
é igual a algum dos P
k
(k = 1, 2, · · · , M);
N
0
i
é o número de unidades secundárias na UP
0
i
;
n
0
i
é o número de unidades secundárias selecionadas na UP
0
i
;
y
i
é o total da característica y na subamostra de UP
0
i
;
y
ij
é o valor da característica y na j-ésima unidade selecionada da UP
0
i
.
y
i
=
y
i
n
0
i
=
n
0
i
P
j=1
y
ij
n
0
i
(∀i = 1, 2, · · · , m)
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 139
Para mostrar que
b
Y
p
Ac2
é não viciado, basta mostrar que: E
³
b
Y
p
Ac2
´
= Y
E
³
b
Y
p
Ac2
´
= E
Ã
1
m
m
X
i=1
N
0
i
P
0
i
y
i
!
= E
UP
0
1
,··· ,UP
0
m
"
E
Ã
1
m
m
X
i=1
N
0
i
P
0
i
y
i
|UP
0
i
!#
= E
UP
0
1
,··· ,UP
0
m
"
1
m
m
X
i=1
N
0
i
P
0
i
E(y
i
|UP
0
i
)
#
= E
UP
0
1
,··· ,UP
0
m
"
1
m
m
X
i=1
N
0
i
P
0
i
Y
0
i
#
= E
UP
0
1
,··· ,UP
0
m
"
1
m
m
X
i=1
Y
0
i
P
0
i
#
= E
UP
0
1
,··· ,UP
0
m
h
b
Y
P
Ac1
i
= Y
Um estimador não viciado da média da característica y por unidade pop-
ulacional
³
Y
´
é dado por:
y
p
Ac2
=
1
Nm
m
X
i=1
N
0
i
P
0
i
y
i
Variância de
b
Y
p
Ac2
V
³
b
Y
p
Ac2
´
= V
UP
0
1
,··· ,UP
0
m
h
E
³
b
Y
p
Ac2
|UP
0
1
, · · · , UP
0
m
´i
+
+E
UP
0
1
,··· ,UP
0
m
h
V
³
b
Y
p
Ac2
|UP
0
1
, · · · , UP
0
m
´i
= V
UP
0
1
,··· ,UP
0
m
"
E
Ã
1
m
m
X
i=1
N
0
i
P
0
i
y
i
|UP
0
i
!#
+
+E
UP
0
1
,··· ,UP
0
m
"
V
Ã
1
m
m
X
i=1
N
0
i
P
0
i
y
i
|UP
0
i
!#
Mas,
V
UP
0
1
,··· ,UP
0
m
"
E
Ã
1
m
m
X
i=1
N
0
i
P
0
i
y
i
|UP
0
i
!#
= V
UP
0
1
,··· ,UP
0
m
"
1
m
m
X
i=1
N
0
i
P
0
i
E(y
i
|UP
0
i
)
#
= V
UP
0
1
,··· ,UP
0
m
"
1
m
m
X
i=1
N
0
i
P
0
i
Y
0
i
#
= V
³
b
Y
P
Ac1
´
=
1
m
M
X
i=1
µ
Y
i
P
i
−Y

2
P
i
140 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
e
E
UP
0
1
,··· ,UP
0
m
"
V
Ã
1
m
m
X
i=1
N
0
i
P
0
i
y
i
|UP
0
i
!#
= E
UP
0
1
,··· ,UP
0
m
"
1
m
2
Ã
m
X
i=1
µ
N
0
i
P
0
i

2
V (y
i
|UP
0
i
)
!#
= E
UP
0
1
,··· ,UP
0
m
"
1
m
2
Ã
m
X
i=1
µ
N
0
i
P
0
i

2
N
0
i
−n
0
i
N
0
i
S
0
2
i
n
0
i
!#
=
1
m
2
m
M
X
i=1
µ
N
i
P
i

2
N
i
−n
i
N
i
S
2
i
n
i
P
i
=
1
m
M
X
i=1
N
2
i
P
i
N
i
−n
i
N
i
S
2
i
n
i
Logo,
V
³
b
Y
p
Ac2
´
=
1
m
M
X
i=1
µ
Y
i
P
i
−Y

2
P
i
+
1
m
M
X
i=1
N
2
i
P
i
N
i
−n
i
N
i
S
2
i
n
i
Um estimador não viciado de V
³
b
Y
p
Ac2
´
é dado por:
v
³
b
Y
p
Ac2
´
=
1
m(m−1)
m
X
i=1
µ
N
0
i
y
i
P
0
i

b
Y
p
Ac2

2
Prova que E
³
v
³
b
Y
p
Ac2
´´
= V
³
b
Y
p
Ac2
´
:
E
³
v
³
b
Y
p
Ac2
´´
= E
Ã
1
m(m−1)
m
X
i=1
µ
N
0
i
y
i
P
0
i

b
Y
p
Ac2

2
!
=
1
m(m−1)
E
Ã
m
X
i=1
µ
N
0
i
y
i
P
0
i

2
−m
³
b
Y
p
Ac2
´
2
!
=
1
m(m−1)
Ã
m
X
i=1
E
µ
N
0
i
y
i
P
0
i

2
−mE
³
b
Y
p
Ac2
´
2
!
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 141
mas:
E
µ
N
0
i
y
i
P
0
i

2
= E
UP
0
1
,··· ,UP
0
m
"
E
µ
N
0
i
y
i
P
0
i

2
|UP
0
i
#
= E
UP
0
1
,··· ,UP
0
m
"
V
µµ
N
0
i
y
i
P
0
i

|UP
0
i

+
µ
E
µ
N
0
i
y
i
P
0
i
|UP
0
i
¶¶
2
#
= E
UP
0
1
,··· ,UP
0
m
_
_
µ
N
0
i
P
0
i

2
N
0
i
−n
0
i
N
0
i
S
0
2
i
n
0
i
+
Ã
N
0
i
Y
0
i
P
0
i
!
2
_
_
=
M
X
i=1
µ
N
i
P
i

2
N
i
−n
i
N
i
S
2
i
n
i
P
i
+
M
X
i=1
µ
N
i
Y
i
P
i

2
P
i
e
E
³
b
Y
p
Ac2
´
2
= V
³
b
Y
p
Ac2
´
+
h
E
³
b
Y
p
Ac2
´i
2
= V
³
b
Y
p
Ac2
´
+Y
2
então:
E
³
v
³
b
Y
p
Ac2
´´
=
1
m(m−1)
Ã
m
X
i=1
E
µ
N
0
i
y
i
P
0
i

2
−mE
³
b
Y
p
Ac2
´
2
!
1
m(m−1)
m
X
i=1
E
µ
N
0
i
y
i
P
0
i

2

m
m(m−1)
E
³
b
Y
p
Ac2
´
2
=
1
m−1
Ã
M
X
i=1
µ
N
i
P
i

2
N
i
−n
i
N
i
S
2
i
n
i
P
i
+
M
X
i=1
µ
N
i
Y
i
P
i

2
P
i
!
+

1
m−1
³
V
³
b
Y
p
Ac2
´
+Y
2
´
=
1
m−1
Ã
M
X
i=1
µ
N
i
P
i

2
N
i
−n
i
N
i
S
2
i
n
i
P
i
+
M
X
i=1
µ
Y
i
P
i

2
P
i
−Y
2
!
+

1
m−1
V
³
b
Y
p
Ac2
´
142 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
E
³
v
³
b
Y
p
Ac2
´´
=
1
m−1
Ã
M
X
i=1
µ
N
i
P
i

2
N
i
−n
i
N
i
S
2
i
n
i
P
i
+
M
X
i=1
µ
Y
i
P
i

2
P
i
−Y
2
M
X
i=1
P
i
!

1
m−1
V
³
b
Y
p
Ac2
´
=
1
m−1
Ã
M
X
i=1
µ
N
i
P
i

2
N
i
−n
i
N
i
S
2
i
n
i
P
i
+
M
X
i=1
µ
Y
i
P
i
−Y

2
P
i
!

1
m−1
V
³
b
Y
p
Ac2
´
=
1
m−1
mV
³
b
Y
p
Ac2
´

1
m−1
V
³
b
Y
p
Ac2
´
=
µ
m−1
m−1

V
³
b
Y
p
Ac2
´
= V
³
b
Y
p
Ac2
´
Amostra autoponderada
A probabilidade de uma unidade secundária qualquer (US
ij
) pertencer
a amostra, num esquema de amostragem em 2 estágios com probabilidade
desigual no primeiro estágio e equiprobabilidade no segundo estágio é dada
por:
P {US
ij
∈ amostra} = mP
0
i
n
0
i
N
0
i
∀i, j
Com este plano amostral, a amostra é autoponderada se essa probabili-
dade é constante e igual a fração de amostragem geral
n
N
. Tem-se, então:
mP
0
i
n
0
i
N
0
i
=
n
N
= f
Observe que, em média,
m
P
i=1
n
0
i
dá o tamanho pré-fixado, pois: se n
0
i
=
nN
0
i
mNP
0
i
, então:
E
Ã
m
X
i=1
n
0
i
!
=
n
mN
E
Ã
m
X
i=1
N
0
i
P
0
i
!
=
n
mN
Ã
m
X
i=1
M
X
i=1
N
i
P
i
P
i
!
=
nmN
mN
= n
Adaptação dos estimadores do total e da respectiva variância
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 143
A expressão do estimador de total
b
Y
p
Ac2
pode ser reescrita como:
b
Y
p
Ac2
=
1
m
m
X
i=1
N
0
i
P
0
i
y
i
=
1
m
m
X
i=1
N
0
i
P
0
i
1
n
0
i
n
0
i
X
j=1
y
ij
=
1
f
m
X
i=1
n
0
i
X
j=1
y
ij
mesma expressão já encontrada com equiprobabilidades nos 2 estágios.
v
³
b
Y
p
Ac2
´
=
1
m(m−1)
m
X
i=1
µ
N
0
i
y
i
P
0
i

b
Y
p
Ac2

2
=
1
m(m−1)
m
X
i=1
_
_
N
0
i
P
0
i
n
0
i
n
0
i
X
j=1
y
ij

b
Y
p
Ac2
_
_
2
=
1
m(m−1)
m
X
i=1
_
_
m
f
n
0
i
X
j=1
y
ij

1
f
m
X
i=1
n
0
i
X
j=1
y
ij
_
_
2
=
m
2
m(m−1) f
2
m
X
i=1
_
_
n
0
i
X
j=1
y
ij

1
m
m
X
i=1
n
0
i
X
j=1
y
ij
_
_
2
=
m
(m−1) f
2
m
X
i=1
_
_
n
0
i
X
j=1
y
ij

1
m
m
X
i=1
n
0
i
X
j=1
y
ij
_
_
2
Exemplo 3.3 (Nascimento (1981), pág. 112)
Numa determinada localidade com 53 povoados, selecionam-se 14, com
reposição e probabilidade de seleção proporcional à população do último
Censo. No povoado i da amostra, faz-se uma listagem das N
0
i
fazendas de
gado e seleciona-se uma subamostra de fazendas com tamanho suficiente
para se obter uma fração geral de amostragem f =
1
100
das fazendas, com o
objetivo de estimar o número total de cabeças de gado.
Considerando:
P
0
i
a probabilidade de seleção do i-ésimo povoado selecionado;
N
0
i
o número de fazendas no i-ésimo povoado selecionado;
n
0
i
o número de fazendas na subamostra do i-ésimo povoado selecionado;
144 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
y
i
=
n
0
i
P
j=1
y
ij
o número de cabeças de gado na subamostra do i-ésimo povoado
selecionado; e a igualdade:
mP
0
i
n
0
i
N
0
i
=
n
N
= f
obtém-se a fração de amostragem de 2
o
estágio:
n
0
i
N
0
i
=
µ
1
100
¶µ
1
mP
0
i

=
1
1.400P
0
i
Feita a seleção dos 14 povoados e a listagem das fazendas, aplicou-se a
fração de amostragem de 2
o
estágio, obtendo-se as fazendas da subamostra e
levantando, em cada uma, o número de cabeças de gado.
Povoados (i) P
0
i
N
0
i
n
0
i
N
0
i
n
0
i
y
i
1 0,0026 19 0,2747 5 2.200
2 0,0098 23 0,0729 2 820
3 0,0146 31 0,0489 2 760
4 0,0167 40 0,0428 2 1.100
5 0,0187 54 0,0382 2 600
6 0,0187 54 0,0382 2 510
7 0,0220 39 0,0325 1 300
8 0,0249 55 0,0385 2 1.200
9 0,0258 46 0,0277 1 500
10 0,0298 83 0,0240 2 880
11 0,0362 74 0,0197 1 300
12 0,0370 70 0,0193 1 410
13 0,0465 60 0,0154 1 570
14 0,0465 60 0,0154 1 350
Total - - - 25 10.500
b
Y
p
Ac2
=
1
f
m
X
i=1
n
0
i
X
j=1
y
ij
= 100 (10.500) = 1.050.000 cabeças de gado.
v
³
b
Y
p
Ac2
´
=
m
(m−1) f
2
m
X
i=1
_
_
n
0
i
X
j=1
y
ij

1
m
m
X
i=1
n
0
i
X
j=1
y
ij
_
_
2
=
14
13
(100)
2
(3.305.100) = 3.559.230, 77 (1000)
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 145
r
v
³
b
Y
p
Ac2
´
= 188.659, 24
cv
³
b
Y
p
Ac2
´
=
r
v
³
b
Y
p
Ac2
´
b
Y
p
Ac2
= 0, 1797
Estimação de proporção
Suponha que a população seja dividida nas classes A e
e
A.
A unidade primária i fica dividida nas classes, com A
i
e
e
A
i
unidades,
respectivamente.
A subamostra de tamanho n
i
fica também dividida nas duas classes com
a
i
e ea
i
unidades, em cada unidade primária i.
Um estimador não viciado para estimar a proporção P
A
=
M
S
i=1
A
i
N
é dado
por:
p
p
Ac2
= y
p
Ac2
=
1
Nm
m
X
i=1
N
0
i
P
0
i
y
i
=
1
Nm
m
X
i=1
N
0
i
P
0
i
p
i
onde:
p
i
=
a
0
i
n
0
i
é a proporção de A na subamostra.
Um estimador não viciado de V (p
p
Ac2
) é dado por:
v (p
p
Ac2
) =
1
m(m−1)
m
X
i=1
µ
N
0
i
NP
0
i
p
i
−p
p
Ac2

2
Se a amostra é autoponderada, ocorre a condição:
mP
0
i
n
0
i
N
0
i
=
n
N
= f
logo:
p
p
Ac2
=
1
n
m
X
i=1
a
0
i
v (p
p
Ac2
) =
1
m(m−1)
m
X
i=1
³
m
n
a
0
i
−p
p
Ac2
´
2
Exemplo 3.4
146 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Considere o exercício 3.3. Suponha que as fazendas da subamostra foram
classificadas de acordo com o tipo de criação de gado: para corte ou não (
para leite e/ou reprodução). Deseja-se estimar a proporção das fazendas cujo
tipo de criação de gado é para corte e o coeficente de variação associado a
essa estimativa.
Os valores obtidos na subamostra foram:
Povoados N
o
de fazendas N
o
de fazendas com
da amostra na subamostra criação de gado para corte
1 5 3
2 2 1
3 2 1
4 2 0
5 2 2
6 2 1
7 1 0
8 2 1
9 1 0
10 2 0
11 1 0
12 1 0
13 1 0
14 1 1
Total 25 10
p
p
Ac2
=
1
n
m
X
i=1
a
0
i
=
10
25
= 0, 40
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 147
v (p
p
Ac2
) =
1
m(m−1)
m
X
i=1
³
m
n
a
0
i
−p
p
Ac2
´
2
=
1
m(m−1)
Ã
m
X
i=1
³
m
n
a
0
i
´
2
−m(p
p
Ac2
)
2
!
=
m
m−1
Ã
m
X
i=1
µ
a
0
i
n

2

(p
p
Ac2
)
2
m
!
=
14
13
Ã
µ
1
(25)
2
(9 + 4 + 1 + 1 + 1 + 1 + 1)


¡
10
25
¢
2
14
!
=
14
13
µ
18
625

100
625 (14)

=
14
13
µ
18 (14) −100
625 (14)

=
1
13
µ
18 (14) −100
625

=
1
13
µ
18 (14) −100
625

=
1
13
µ
152
625

= 0, 0187076
q
v (p
p
Ac2
) = 0, 1367757
cv (p
p
Ac2
) =
p
v (p
p
Ac2
)
p
p
Ac2
= 0, 342
3.2.2 Estratificação das unidades primárias e seleção
com probabilidades desiguais de seleção
A estratificação das unidades primárias é feita grupando em mesmo estrato
as unidades primárias de tamanhos aproximadamente iguais. A seleção
das unidades primárias, dentro de cada estrato é feita com probabilidade
proporcional ao tamanho.
O processo para definir os estimadores é muito simples. Basta consid-
erar as expressões do item anterior e adaptá-las a um estrato genérico h,
acrescentando aos símbolos um índice h (h=1,2,· · · , L).
Recorde que o estimador de Y num esquema com 2 estágios de seleção e
probabilidades desiguais de seleção no 1
o
estágio (sem considerar a estrati-
ficação das unidades de 1
o
estágio) e com reposição e equiprobabilidades no
2
o
estágio é dado por:
b
Y
p
Ac2
=
1
m
m
X
i=1
N
0
i
P
0
i
y
i
148 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
No estrato h, o estimador do total do estrato h, Y
h
, é dado por:
b
Y
p
h.Ac2
=
1
m
h
m
h
X
i=1
N
0
hi
P
0
hi
y
hi
conseqüentemente, o estimador de Y é dado por:
b
Y
p.est
Ac2
=
L
X
h=1
b
Y
p
h.Ac2
=
L
X
h=1
1
m
h
m
h
X
i=1
N
0
hi
P
0
hi
y
hi
Recorde-se que a variância de
b
Y
p
Ac2
é:
V
³
b
Y
p
Ac2
´
=
1
m
M
X
i=1
µ
Y
i
P
i
−Y

2
P
i
+
1
m
M
X
i=1
N
2
i
P
i
N
i
−n
i
N
i
S
2
i
n
i
No estrato h, a variância do estimador do total do estrato h, V
³
b
Y
p
h.Ac2
´
,
é dado por:
V
³
b
Y
p
h.Ac2
´
=
1
m
h
M
h
X
i=1
µ
Y
hi
P
hi
−Y
h

2
P
hi
+
1
m
h
M
h
X
i=1
N
2
hi
P
hi
N
hi
−n
hi
N
hi
S
2
hi
n
hi
conseqüentemente, a variância de
b
Y
p.est
Ac2
é dada por:
V
³
b
Y
p.est
Ac2
´
=
L
X
h=1
V
³
b
Y
p
h.Ac2
´
=
L
X
h=1
1
m
h
M
h
X
i=1
µ
Y
hi
P
hi
−Y
h

2
P
hi
+
L
X
h=1
1
m
h
M
h
X
i=1
N
2
hi
P
hi
N
hi
−n
hi
N
hi
S
2
hi
n
hi
O estimador da V
³
b
Y
p.est
Ac2
´
é dado por:
v
³
b
Y
p.est
Ac2
´
=
L
X
h=1
1
m
h
(m
h
−1)
m
X
i=1
µ
N
0
hi
y
hi
P
0
hi

b
Y
p
h.Ac2

2
Amostra autoponderada
A probabilidade de uma unidade secundária qualquer do estrato h per-
tencer a amostra, num esquema de amostragem em 2 estágios é dada por:
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 149
m
h
P
0
hi
n
0
hi
N
0
hi
Esta probabilidade pode ser constante no estrato ou variar de estrato para
estrato. , neste caso:
m
h
P
0
hi
n
0
hi
N
0
hi
=
n
h
N
h
(h = 1, 2, · · · , L)
ou ser constante para todos os estratos:
m
h
P
0
hi
n
0
hi
N
0
hi
=
n
N
(h = 1, 2, · · · , L)
No primeiro caso, a amostra é autoponderada no estrato e no segundo
caso é autoponderada em geral.
3.2.3 Estimador de razão
Estuda-se agora o estimador de razão, tendo como característica auxiliar o
tamanho das unidades primárias, num esquema de amostragem de conglom-
erados em 2 estágios com equiprobabilidade nos 2 estágios.
Sabe-se que a média por unidade secundária é:
Y =
M
P
i=1
Y
i
M
P
i=1
N
i
=
Y
N
o que mostra que Y pode ser entendida como uma razão de duas médias.
Um estimador consistente de Y é obtido substituindo-se o numerador e
denominador por estimadores não viciados.
Desse modo, representando por y
R
Ac2
esse estimador consistente, tem-se:
y
R
Ac2
=
1
m
m
P
i=1
N
0
i
y
i
1
m
m
P
i=1
N
0
i
=
m
P
i=1
N
0
i
y
i
m
P
i=1
N
0
i
cuja variância é dada por:
150 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
V
³
y
R
Ac2
´
=
M −m
MN
2
S
2
eR
m
+
1
Mm
M
X
i=1
µ
N
i
N

2
N
i
−n
i
N
i
S
2
i
n
i
S
2
eR
=
1
M −1
M
X
i=1
N
2
i
³
Y
i
−Y
´
2
e um estimador consistente para essa variância é:
v
³
y
R
Ac2
´
=
M −m
Mm(m−1)
m
X
i=1
µ
N
0
i
N

2 ³
y
i
−y
R
Ac2
´
2
+
1
Mm
m
X
i=1
µ
N
0
i
N

2
N
0
i
−n
0
i
N
0
i
S
02
i
n
0
i
Estimador de razão para o total Y :
b
Y
R
Ac2
= MN y
R
Ac2
= MN
_
_
_
_
m
P
i=1
N
0
i
y
i
m
P
i=1
N
0
i
_
_
_
_
e a variância de
b
Y
R
Ac2
é dada por:
V
³
b
Y
R
Ac2
´
=
¡
MN
¢
2
V
³
y
R
Ac2
´
= M
2
M −m
M
S
2
eR
m
+
M
m
M
X
i=1
N
2
i
N
i
−n
i
N
i
S
2
i
n
i
e um estimador consistente para essa variância é:
v
³
b
Y
R
Ac2
´
=
M
2
m
µ
M −m
M
¶µ
1
m−1

m
X
i=1
N
02
i
³
y
i
−y
R
Ac2
´
2
+
+
M
m
m
X
i=1
N
0
i
2
N
0
i
−n
0
i
N
0
i
s
02
i
n
0
i
Supondo M >> m =⇒
M
2
m
>>
M
m
, então a expressão acima pode ser
aproximada para:
v
³
b
Y
R
Ac2
´

=
M
2
m
µ
M −m
M
¶µ
1
m−1

m
X
i=1
N
02
i
³
y
i
−y
R
Ac2
´
2
3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 151
ou
v
³
b
Y
R
Ac2
´

= M
2
s
2
eR
m
com
s
2
eR
=
1
m−1
m
X
i=1
N
02
i
³
y
i
−y
R
Ac2
´
2
Amostra autoponderada
Sabe-se que a condição para que a amostra seja autoponderada é dada
pela igualdade:
m
M
n
i
N
i
=
n
N
= f
ou seja, todas as unidades secundárias têm a mesma probabilidade
n
N
de
pertencer à amostra. Nesta condição, tem-se:
y
R
Ac2
=
N
n
m
P
i=1
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
=
1
f
2
m
P
i=1
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
sendo f
2
=
n
N
a fração de amostragem de 2
o
estágio.
Para o estimador da variância aproximada de
v
³
y
R
Ac2
´

=
s
2
eR
N
2
m
com M >> m e
s
2
eR
=
1
m−1
m
X
i=1
N
02
i
³
y
i
−y
R
Ac2
´
2
=
1
m−1
m
X
i=1
N
02
i
n
02
i
_
_
_
_
_
_
n
0
i
X
j=1
y
ij

m
P
i=1
N
0
i
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
_
_
_
_
_
_
2
=
1
m−1
µ
mN
nM

2 m
X
i=1
_
_
_
_
_
_
n
0
i
X
j=1
y
ij

m
P
i=1
N
0
i
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
_
_
_
_
_
_
2
152 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
ou
v
³
y
R
Ac2
´

=
s
2
eR
N
2
m
=
m
(m−1) n
2
m
X
i=1
_
_
_
_
_
_
n
0
i
X
j=1
y
ij

m
P
i=1
N
0
i
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
_
_
_
_
_
_
2
Exemplo 3.5
Suponha que se deseja estimar o consumo médio semanal por domicílio
(em unidades de produto) de determinado produto para alimentação.
Dispõe-se de um mapa da localidade onde podem ser identificados 400
quarteirões, que serão considerados unidades primárias de amostragem. Sabe-
se que existem na localidade cerca de 26.000 domicílios dando uma média de
65 domicílios por quarteirão. Seleciona-se uma amostra autoponderada de
650 domicílios com 2 estágios de seleção e com equiprobabilidade em cada
estágio, tendo fixado a fração de amostragem do 1
o
estágio em
1
8
, o que
implicou na seleção de 50 quarteirões.
Neste caso f =
n
N
=
650
26.000
=
1
40
. Logo a fração de amostragem do 2
o
estágio é dada por: f
2
=
f
f
1
=
1
5
.
Sabendo-se que:
i) o número de domicílios nos quarteirões da amostra é
m
P
i=1
N
0
i
= 3.152;
ii) o número de domicílios selecionados na subamostra dos quarteirões
selecionados é
m
P
i=1
n
0
i
= 710;
iii) o total de unidades consumidas nos domicílios selecionados na sub-
amostra dos quarteirões selecionados é
m
P
i=1
n
0
i
P
j=1
y
ij
= 1.910; e que
iv)
m
P
i=1
_
_
_
_
_
_
n
0
i
P
j=1
y
ij

m
P
i=1
N
0
i
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
_
_
_
_
_
_
2
= 4.500.
3.3. EXERCÍCIOS 153
a estimativa do consumo médio semanal por domicílio é dada por:
y
R
Ac2
=
1
f
2
m
P
i=1
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
= (5)
1.910
3.152
= 3, 03
e a estimativa aproximada da variância é dada por:
v
³
y
R
Ac2
´

=
m
(m−1) n
2
m
X
i=1
_
_
_
_
_
_
n
0
i
X
j=1
y
ij

m
P
i=1
N
0
i
n
0
i
P
j=1
y
ij
m
P
i=1
N
0
i
_
_
_
_
_
_
2
=
50
49 (710)
2
(4.500) = 0, 0091
cv
³
y
R
Ac2
´
=
r
v
³
y
R
Ac2
´
y
R
Ac2
= 0, 031
3.3 Exercícios
3.3.1 Compare a precisão de uma amostra de conglomerados em 2 estágios
(Ac2) com a fração de subamostragem de 50% com a de uma amostra
de conglomerados em um estágio (Ac1)de igual tamanho, supondo que
o tamanho médio do conglomerado é de 50 unidades e que o coeficiente
de correlação intraclasse é igual a 0,1.
Indicar se há ganho ou perda relativa da Ac2 em relação a Ac1.
(Devem ser usadas as fórmulas aproximadas relacionando as variâncias
da Ac1 com a amostra aleatória simples (AAS), e da Ac2 com a AAS).
3.3.2 Os habitantes de um bairro estão distribuídos em 149 quarteirões, onde
se estima que há um total de 8.500 domicílios. Deseja-se estimar o
número total de domicílios alugados no bairro.
a) Represente esquematicamente a população de interesse, definindo
adequadamente:
154 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
• unidades primárias; e
• unidades secundárias.
b) Para uma característica genérica y, defina:
• a notação dos parâmetros das unidades primárias (total, mé-
dia e variância); e
• a notação dos parâmetros da população (total, total médio por
unidade primária, média por unidade da população e variância
global).
c) Defina um esquema de amostragem de conglomerados em 2 está-
gios que permita selecionar uma amostra probabilística das unidades
da população com o objetivo de estimar o total de domicílios alu-
gados no bairro.
d) Considerando o esquema apresentado em c), obtenha um esti-
mador não viciado para o total de domicílios alugados no bairro,
e uma expressão para a variância desse estimador.
3.3.3 Deseja-se selecionar uma amostra de m conglomerados, de uma pop-
ulação de 90 conglomerados, nos quais será selecionada uma sub-
amostra de n unidades em cada conglomerado da amostra. Será usada
amostragem aleatória simples sem reposição em ambos os estágios para
estimar a média por unidade elementar de uma dada característica.
Assume-se que a função custo é da forma:
C
t
= C
0
+C
1
m+C
2
mn
Dado que C
t
= 1.000, C
0
= 300, C
1
= 9 e C
2
= 1 encontre os val-
ores ótimos do número de conglomerados da amostra e do número de
unidades a serem selecionadas por conglomerado, sabendo-se que:
S
2
d
= 49, 5 S
2
e
= 9, 045 N = 20
3.3.4 Numa grande cidade, um bairro continha 100 quarteirões dos quais 10
foramselecionados comprobabilidade proporcional a umdado tamanho,
com reposição. Uma amostra autoponderada foi selecionada com fração
geral f = 2%. Utilize os dados observados, mostrados a seguir:
3.3. EXERCÍCIOS 155
Quarteirão n
o
de pessoas dos n
o
de cômodos nos domi-
na amostra domicílios selecionados cílios selecionados nos
nos quarteirão da amostra quarteirões da amostra
1 115 60
2 80 52
3 82 58
4 93 56
5 105 62
6 109 51
7 130 72
8 93 48
9 109 71
10 95 58
Total 1.011 588
a) Estime o n
o
total de pessoas no bairro e o respectivo coeficiente
de variação.
b) Estime o n
o
total de comôdos dos domicílios do bairro e o respec-
tivo coeficiente de variação.
c) Estime o n
o
médio de pessoas por cômodo nos domicílios do bairro.
3.3.5 Os habitantes de um bairro estão distribuídos em 150 quarteirões, onde
se estima que há um total de 9.000 domicílios. Deseja-se estimar o
número total de domicílios alugados no bairro. De um censo anterior
se conhece o número de domicílios por quarteirão. O orçamento e o
tempo disponíveis para fazer a pesquisa permitem que se realize cerca
de 300 entrevistas.
a) Defina um esquema de amostragem de conglomerados em 2 está-
gios que permita selecionar uma amostra probabilística das unidades
da população com o objetivo de estimar o total de domicílios alu-
gados no bairro.
b) Considerando o esquema apresentado em a), apresente um esti-
mador não viciado para o total de domicílios alugados no bairro,
e uma expressão para a variância desse estimador.
156 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
3.3.6 De uma população de 100 conglomerados de 40 elementos cada um
foi selecionada uma amostra de 2 estágios, com seleção aleatória sem
reposição em cada estágio. Foram selecionadas 6 unidades primárias
no primeiro estágio e a fração de subamostragem é de 10%.
Sabendo-se que para uma determinada característica y:
m
P
i=1
y
i
= 84 s
2
d
= 1, 33 s
2
e
= 1338, 65
a) Calcule a estimativa de total para a característica y e o respectivo
coeficiente de variação.
b) Calcule a participação da componente da variância devida ao 1
o
estágio.
c) O que você faria para diminuir a contribuição dessa componente de
variância devida ao 1
o
estágio?
3.3.7 Uma pesquisa é realizada com a finalidade de fornecer informações so-
bre a produção de uma certa planta que só pode ser produzida com
autorização do governo. As permissões concedidas no início da estação
de cultivo foram usadas como fonte de informação. Essas permissões
são concedidas pelas prefeituras dos municípios. A amostra será feita
em 2 estágios: primeiramente seleciona-se uma amostra de municípios;
em seguida, os entrevistadores visitarão as prefeituras dos municípios
selecionados, preparando então uma lista dos produtores que têm per-
missão e selecionarão uma amostra de produtores. A seguir, visitarão
as fazendas coletando os dados necessários. Como nem todos os mu-
nicípios possuem produtores dessa planta, cada município selecionado
terá um entrevistador exclusivo.
A seguir você encontrará alguns itens que compõemo custo da pesquisa.
Indique com um X na coluna apropriada se os custos podem ser con-
siderados parte do custo geral, custo de unidade de primeiro estágio ou
custo de unidade de segundo estágio. (Marque um único X para cada
item de custo apresentado).
3.3. EXERCÍCIOS 157
Item (descrição) Geral 1
o
estágio 2
o
estágio
a) Impressão dos questionários.
b)Treinamento dos entrevistadores.
c) Obtenção da lista de municípios
que fornecem permissão.
d) Viagem aos municípios que for-
necem permissão selecionados, para
selecionar amostra de produtores.
e) Seleção da amostra de municípios
com permissão.
f) Obtenção de informação dos pro-
dutores selecionados.
g) Verificação do trabalho de campo
dos entrevistadores, feita pelos super-
visores.
h) Crítica dos questionários coletados.
i) Preparação de um programa para ta-
bulação dos resultados.
j) Preparação e divulgação dos resulta-
dos finais da pesquisa.
3.3.8 Uma população está formada por N unidades elementares agrupadas
em 50 conglomerados de tamanho desiguais N
i
(i = 1, 2, · · · , M). O
valor de N =
M
P
i=1
N
i
é conhecido e igual a 1.000. Com objetivo de es-
timar a proporção de unidades elementares pertencentes a uma certa
classe, foi decidido utilizar uma amostra de conglomerados com sub-
amostragem. Em ambos os estágios foi empregado o procedimento de
seleção com probabilidades iguais sem reposição.
158 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
No 1
o
estágio foram selecionados 5 conglomerados com os seguintes
valores de N
i
: 6, 10, 8, 20 e 60. No 2
o
com fração amostral f
2i
=
4
N
i
,
foram obtidos os seguintes valores para o número de elementos que
pertencem à classe em questão: 1, 3, 2, 2 e 3.
São fornecidos, ainda, os seguintes resultados:
s
2
e
=
1
m−1
5
X
i=1
(N
0
i
y
i
−y
Ac2
)
2
= 318, 67
5
X
i=1
N
02
i
N
0
i
−n
0
i
N
0
i
s
2
i
n
0
i
= 118, 78
5
X
i=1
N
02
i
³
y
i
−y
R
Ac2
´
2
= 53, 20
a) Dê a probabilidade de que a unidade elementar j do conglom-
erado i pertença a amostra e determine o número de unidades
elementares selecionadas em cada conglomerado.
b) Estime a proporção de unidades elementares que pertençam à
classe e o respectivo coeficiente de variação.
c) Dê as estimativas definidas em b) utilizando o estimador de razão,
adotando o tamanho dos conglomerados como variável auxiliar.
d) Comente as vantagens e desvantagens do estimador usado em c)
em relação ao usado em b).
3.3.9 Para estudar as condições de vida dos trabalhadores que vivem em uma
área industrial, foi selecionada uma amostra estratificada com2 estágios
de seleção. Em cada estrato da amostra foram selecionadas 4 fábricas
com probabilidade proporcional ao número de trabalhadores obtidos
de um período anterior e de cada fábrica selecionada foi selecionado
aleatoriamente um certo número de trabalhadores, totalizando uma
amostra de 1000 trabalhadores.
Sabe-se que foram definidos 4 estratos e que o número de trabalhadores
conhecidos de um período anterior em cada estrato é dado por:
N
1
= 5.896 N
2
= 43.096 N
3
= 31.625 N
4
= 10.774
4
P
h=1
N
h
= 91.391
3.3. EXERCÍCIOS 159
Determine o número de trabalhadores a serem selecionados em cada
fábrica de tal modo a ter uma amostra autoponderada.
3.3.10 Explique qual a vantagem de se fazer uma amostra de conglomera-
dos em 2 estágios ao invés de uma amostra de conglomerados em um
estágio.
160 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS
Capítulo 4
Conglomerados em 3 estágios
4.1 Introdução
A dificuldade de cadastramento para seleção da amostra se reduz à medida
em que aumenta o número de estágios. Mas no entanto, à medida em que
aumenta o número de estágios, mais se torna complicada a expressão da
variância do estimador.
Seleciona-se uma amostra de r unidades primárias. Seja UP
0
i
a i-ésima
unidade primária da amostra. De cada unidade primária da amostra seleciona-
se uma amostra de unidades secundárias. Desse modo na UP
0
i
seleciona-se
uma amostra de m
0
i
unidades secundárias. De cada unidade secundária da
amostra seleciona-se uma amostra de unidades terciárias. Assim, na US
00
ij
seleciona-se uma amostra de n
00
ij
unidades terciárias.
Associado à UT
ijk
(unidade terciária) a observação y
ijk
,obtém-se a amostra
final, constituída pelo conjunto:
n
y
ijk
¯
¯
¯ i = 1, 2, · · · , r; j = 1, 2, · · · , m
0
i
; k = 1, 2, · · · , n
00
ij
o
sendo:
n =
r
X
i=1
m
0
i
X
j=1
n
00
ij
4.2 Seleção com probabilidades desiguais
Seja P
i
a probabilidade de seleção da unidade primária UP
i
(i = 1, 2, · · · , R) .
De cada UP
0
i
da amostra selecionam-se m
0
i
unidades secundárias, tendo a US
ij
probabilidade de seleção P
ij
. Finalmente, da US
00
ij
da amostra selecionam-se
n
00
ij
unidades terciárias com equiprobabilidade.
161
162 CAPÍTULO 4. CONGLOMERADOS EM 3 ESTÁGIOS
4.2.1 Estimador não viciado de Y
Considerando o processo em 2 estágios, o estimador do total da UP
0
i
é dado
por:
b
Y
p
i
=
1
m
0
i
m
0
i
X
j=1
N
00
ij
P
00
ij
y
ij
logo, o estimador não viciado de Y é dado por:
b
Y
p
Ac3
=
1
r
r
X
i=1
1
P
0
i
b
Y
p
i
=
1
r
r
X
i=1
1
P
0
i
1
m
0
i
m
0
i
X
j=1
N
00
ij
P
00
ij
y
ij
Caso particular de equiprobabilidade no 1
o
e 2
o
estágios:
P
0
i
=
1
R
e P
00
ij
=
1
M
0
i
b
Y
Ac3
=
R
r
r
X
i=1
M
0
i
m
0
i
m
0
i
X
j=1
N
00
ij
y
ij
Amostra autoponderada (caso genérico)
A probabilidade da UT
ijk
pertencer a amostra é dada por: rP
0
i
m
0
i
P
00
ij
n
00
ij
N
00
ij
A amostra será autoponderada se esta probabilidade for constante e igual
a fração geral de amostragem, isto é:
rP
0
i
m
0
0
i
P
00
ij
n
00
ij
N
00
ij
=
n
N
= f
Neste caso, o estimador
b
Y
p
Ac3
assume a mesma forma do estimador
b
Y
Ac3
:
b
Y
p
Ac3
=
b
Y
Ac3
=
1
f
r
X
i=1
m
0
i
X
j=1
n
00
ij
X
k=1
y
ijk
O capítulo seguinte apresenta alguns métodos especiais para a estimação
das variâncias de estimadores que são emgeral aplicados emdesenhos amostrais
complexos.
4.3. EXERCÍCIOS 163
4.3 Exercícios
4.3.1 Os estudantes de 1
o
grau de um determinado município estão distribuí-
dos em 15 escolas, com uma média de 20 turmas por escola e estima-se
que há um total de 10.000 estudantes. Deseja-se estimar a proporção
de alunos aprovados no último ano no município.
a) Represente esquematicamnete a população de interesse, definido ad-
equadamente:
- unidades primárias;
- unidades secundárias;
- unidades terciárias;
- a característica y.
b) Para uma característica genérica y, defina:
- a notação dos parâmetros para uma dada unidade primária (to-
tal, média por unidade secundária e média por unidade da
população);
- a notação dos parâmetros da população (total, média por unidade
primária, média por unidade secundária e média por unidade
da população).
c) Defina um esquema de amostragem de conglomerados em 3 estágios
que permita selecionar uma amostra probabilística das unidades
da população com o objetivo de estimar a proporção de alunos
aprovados no último ano no município.
d) Considerando o esquema apresentado em c), obtenha um estimador
não viciado para a proporção de alunos aprovados no último ano
no município.
164 CAPÍTULO 4. CONGLOMERADOS EM 3 ESTÁGIOS
Capítulo 5
Estimação de variâncias
5.1 Porque é importante estimar variâncias?
Em amostragem, a estimação de variâncias é uma componente essencial da
abordagem de inferência utilizada: sem estimativas de variância, não se terá
indicação da precisão das estimativas.
Tentação: é fácil ”esquecer” que os resultados das pesquisas são baseados
apenas em uma amostra da população, e portanto sujeitos ao erro amostral.
Com uma estimativa de variância para cada estimativa de parâmetro de
interesse, é fácil obter intervalos de confiança e fazer inferências estatísticas
adequadas:
Estimativas de variância são tambémessenciais para comunicar aos usuários
da pesquisa sobre a qualidade e precisão dos resultados.
Algumas vezes, problemas inesperados podem ser detectados mediante
análise das estimativas de variância: valores suspeitos (”outliers”), celas
raras, etc.
5.2 Problemas para estimar variâncias
Para os casos ”regulares”, estimadores de variância estão disponíveis nos
livros-texto de Amostragem. Entretanto, os pacotes estatísticos tradicionais
(SAS, SPSS, BMDP, MINITAB, etc.) não fornecem estimadores de variância
diretamente, nem mesmo para planos amostrais comuns tais como AAS e
AES.
Para alguns planos amostrais, as probabilidades de inclusão conjuntas (de
segunda ordem) podem ser nulas (como na amostragem sistemática) ou difí-
ceis de calcular (como no caso de alguns planos amostrais com probabilidades
desiguais).
165
166 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
Em muitos casos, estimadores dos parâmetros de interesse são ”não lin-
eares” (isto é, não são médias, totais ou proporções). Exemplos incluem
razões, correlações, coeficientes de regressão, quantis de distribuições, etc.
Alguns estimadores de variância podem fornecer valores negativos (como
é o caso do estimador de variância de Horvitz-Thompson em alguns planos
amostrais com probabilidades desiguais).
5.3 Métodos para estimar variâncias
Wolter (1985) enfatiza ambas a teoria e aplicações de vários métodos para
estimar variâncias.
5.3.1 Método de Linearização de Taylor ou δ-método
Um dos primeiros métodos, desenvolvido para fornecer estimadores de var-
iância para estimadores não lineares.
A hipótese básica deste método é que o parâmetro de interesse possa ser
representado como uma função de K totais populacionais, isto é:
θ = f(Y
1
, · · · , Y
K
)
onde Y
K
=
N
P
i=1
y
ik
são totais poulacionais para váriáveis de pesquisa
y
k
, k = 1, · · · , K.
O estimador amostral do parâmetro θ é dado por
b
θ = f(
b
Y
1
, · · · ,
b
Y
K
)
onde
b
Y
K
=
n
P
i=1
y
ik
π
i
é o estimador de Horvitz-Thompson do total Y
k
, k =
1, ..., K.
Quando f é uma função linear, é fácil obter expressões de variância para
b
θ. Isto ocorre por causa da linearidade de f, já que neste caso
θ = a
0
+
K
X
k=1
a
k
Y
k
e consequentemente
b
θ = a
0
+
K
X
k=1
a
k
b
Y
k
5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS 167
Portanto, neste caso podemos usar propriedades de combinações lineares
de variáveis aleatórias para obter
V
³
b
θ
´
= V
Ã
a
0
+
K
X
k=1
a
k
b
Y
k
!
=
K
X
k=1
a
2
k
V
³
b
Y
k
´
+
K
X
k=1
K
X
j6=k
a
k
a
j
COV (
b
Y
k
,
b
Y
j
)
Dessa forma, um estimador para a variância de pode ser facilmente obtido
substituindo as variâncias e covariâncias na expressão acima por seus respec-
tivos estimadores não viciados, levando a:
v
³
b
θ
´
=
K
X
k=1
a
2
k
v
³
b
Y
k
´
+
K
X
k=1
K
X
j6=k
a
k
a
j
cov(
b
Y
k
,
b
Y
j
)
Para funções de fato não lineares, a idéia é aproximar o estimador
b
θ por
uma quantidade linearizada
b
θ
L
, obtida mediante expansão da função f em
série de Taylor em torno do ponto (Y
1
, · · · , Y
K
), e desprezando-se o termo do
resto, isto é:
b
θ

=
b
θ
L
= θ +
K
X
k=1
a
k
³
b
Y
k
−Y
k
´
onde
a
k
=
∂f(
b
Y
1
, · · · ,
b
Y
K
)

b
Y
k
¯
¯
¯
e
Y
1
,··· ,
e
Y
K
=Y
1
,··· ,Y
K
para k = 1, ..., K.
Para amostras grandes, o estimador não linear
b
θ terá comportamento
semelhante ao do estimador linearizado
b
θ
L
, e portanto podemos usar a var-
iância deste estimador linearizado como aproximação para a variância do
estimador
b
θ . Isto é:
V
³
b
θ
´
= E
³
b
θ −θ
´
2

= E
³
b
θ
L
−θ
´
2
= E
Ã
K
X
k=1
a
k
³
b
Y
k
−Y
k
´
!
2
=
K
X
k=1
a
2
k
V
³
b
Y
k
´
+
K
X
k=1
K
X
j6=k
a
k
a
j
COV (
b
Y
k
,
b
Y
j
)
168 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
A variância aproximada de
b
θ pode então ser obtida, bastando para isso
calcular as derivadas da função f e substituir na expressão acima.
Um estimador para a variância de
b
θ pode então ser facilmente obtido
usando
v
³
b
θ
´
=
K
X
k=1
ba
2
k
v
³
b
Y
k
´
+
K
X
k=1
K
X
j6=k
ba
k
ba
j
cov(
b
Y
k
,
b
Y
j
)
onde os valores de ba
k
são as estimativas das derivadas a
k
obtidas substi-
tuindo os totais Y
1
, · · · , Y
K
pelas respectivas estimativas
b
Y
1
, · · · ,
b
Y
K
.
Notas:
1. Linearização de Taylor pode ser trabalhosa, pois para cada parâmetro
ou estimador de interesse é necessário calcular derivadas e fórmulas
específicas.
2. Muitas estatísticas de interesse não podem ser facilmente escritas como
funções lineares de totais, como por exemplo a mediana e os quantis de
uma distribuição.
3. Apesar disso, vários pacotes computacionais usam este método para es-
timar variâncias e desvios padrões para diversas estatísticas, tais como
médias e totais para domínios, razões, coeficientes de regressão, e até
mesmo quantis.
5.3.2 Método do Conglomerado Primário (Ultimate Clus-
ter - Hansen et al, 1953)
O termo conglomerado primário (ultimate cluster) é usado para denotar o
agregado de unidades incluídas na amostra de uma unidade primária.
Ovalor agregado da característica y para o i-ésimo conglomerado primário
é y
i
;e o tamanho do i-ésimo conglomerado primário é n
i
.
Esta definição de conglomerado primário é válida para qualquer número
de estágios de amostragem.
Supondo que um município é amostrado como unidade primária e um
conjunto de 5 setores contendo 200 domicílios cada é selecionado do município
como unidades secundárias e 20 domicílios são selecionados de cada setor
selecionado. O conglomerado primário consiste do total da amostra de 100
domicílios selecionados do município.
A idéia central deste método para estimar variâncias de médias e totais,
emplanos amostrais de múltiplos estágios, é considerar apenas a variação entre
informações disponíveis a nível das unidades primárias de amostragem(UPAs),
5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS 169
isto é, a nível dos conglomerados primários, e supor que estes tivessem sido
selecionados por amostragem com reposição da população de UPAs.
Trata-se de idéia simples, porém bastante poderosa, pois permite aco-
modar grande variedade de planos amostrais estratificados, conglomerados
e com probabilidades desiguais (com ou sem reposição), tanto das unidades
primárias como das demais unidades de amostragem.
O requisito fundamental para aplicação deste método é que estejam dispo-
níveis estimadores não viciados dos totais da(s) variável(is) de interesse para
cada um dos conglomerados primários selecionados, e que pelo menos dois
destes sejam selecionados em cada estrato (caso esta condição não seja sat-
isfeita para alguns estratos, estes podem ser agrupados).
Embora este método tenha sido proposto para estimar variâncias de mé-
dias e totais em planos amostrais de múltiplos estágios (portanto complexos),
pode ser também aplicado em combinação com Linearização de Taylor para
obter estimativas de variâncias para estatísticas não lineares que possam ser
escritas como funções de totais.
Este método fornece, juntamente com a Linearização de Taylor, a base
metodológica de vários pacotes especializados para estimação de variâncias,
tais como SUDAAN, STATA, CENVAR e PC-CARP, entre outros.
Considere um plano amostral em vários estágios, com m
h
≥ 2 unidades
primárias selecionadas do estrato h, h = 1, ..., L.
Denote por π
hi
a probabilidade de inclusão na amostra da i-ésima UPA
(conglomerado primário) do estrato h, e por
b
Y
hi
um estimador não viciado
do total Y
hi
da característica de interesse y na i-ésima UPA do estrato h,
h = 1, ..., L.
Um estimador não viciado do total populacional Y =
L
P
h=1
M
h
P
i=1
Y
hi
é dado
por
b
Y
CP
=
L
X
h=1
m
h
X
i=1
b
Y
hi
π
hi
e um estimador não viciado da variância correspondente é dado por
v
³
b
Y
CP
´
=
L
X
h=1
m
h
m
h
−1
m
h
X
i=1
Ã
b
Y
hi
π
hi

b
Y
h
m
h
!
2
onde
b
Y
h
=
m
h
P
i=1
b
Y
hi
π
hi
para h = 1, ..., L.
Embora muitas vezes a seleção das unidades primárias seja feita sem
reposição, o estimador de Conglomerados Primários aqui apresentado pode
fornecer uma aproximação razoável da variância de aleatorização desejada.
170 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
Isso ocorre porque planos amostrais sem reposição geralmente são mais
eficientes que planos de mesmo tamanho com reposição.
Esta aproximação é bastante usada na prática por sua simplicidade, em
comparação com os estimadores de variância que procuram incorporar todos
os estágios do plano amostral.
5.3.3 Métodos de Replicação
A idéia de métodos de replicação para estimar variâncias em Amostragem
não é nova, e foi primeiramente proposta por Mahalanobis em 1939.
O segredo é construir sua amostra de tamanho n mediante a seleção de
G amostras independentes de tamanho
n
G
cada uma, usando o mesmo plano
amostral, onde G é o número de replicações.
Então, se θ é o parâmetro alvo, e
b
θ
g
é um estimador não viciado baseado
na réplica g, é imediato notar que:
b
θ
R
=
1
G
G
X
g=1
b
θ
g
é um estimador não viciado de θ e
v
³
b
θ
R
´
=
G
G−1
G
X
g=1
³
b
θ
g

b
θ
R
´
2
é um estimador não viciado da variância do estimador de replicação
b
θ
R
.
O resultado acima vale para qualquer plano amostral adotado para sele-
cionar cada réplica.
A abordagem de replicação é bastante geral. É válida para qualquer
estimador, não somente para aqueles que podem ser escritos como funções
de totais.
Aplicações práticas ”exatas” dessa técnica são raras, entretanto, devido
as seguintes causas:
a) algumas vezes é caro e inconveniente selecionar de fato G amostras
independentes segundo o mesmo plano amostral;
b) Se G for pequeno, o estimador de variância pode ser instável.
Aplicação: US Consumer Price Index (CPI) - usa 3 réplicas de um plano
amostral com estratificação detalhada e múltiplos estágios de conglomeração.
5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS 171
Método dos Grupos Aleatórios Algumas vezes, a amostra é subdividida
em grupos após a seleção. Se as amostras nos diversos grupos puderem ser
consideradas como ”aproximadamente independentes”, então o estimador
de variância proposto serve como uma aproximação para a variância do esti-
mador.
Note que a divisão da amostra emgrupos deve considerar o plano amostral.
Sob planois amostrais estratificados, há duas alternativas:
a) aplicar o método de grupos aleatórios para estimar as variâncias dentro
dos estratos; ou
b) aplicar o método de grupos aleatórios à amostra como um todo, preser-
vando a estratificação quando da divisão da amostra em grupos - esta
opção requer amostras grandes o bastante em cada estrato para permi-
tir a subdivisão em G grupos.
Freqüentemente as UPAs são alocadas nos grupos aleatórios carregando
todas as unidades amostrais a elas subordinadas.
Um outro estimador de variância empregado com o método de grupos
aleatórios é o que considera diferenças em relação a um estimador de amostra
completa
b
θ, a saber:
v
³
b
θ
´
=
G
G−1
G
X
g=1
³
b
θ
g

b
θ
´
2
Método Jackknife Este método foi inventado como uma técnica para
redução de vício na estatística clássica (Quenouille, 1949, 1956).
A idéia consiste em dividir a amostra em G grupos mutuamnete ex-
clusivos, cada um de tamanho
n
G
. Em seguida, são calculados os ”pseudo-
valores”
b
θ
(g)
dados por
b
θ
(g)
= G
b
θ −(G−1)
b
θ
g
onde,
b
θ
g
é uma estimativa de θ obtida da amostra após a exclusão das
unidades do grupo g, usando a mesma forma funcional que se teria aplicado
com a amostra completa (no caso, o estimador
b
θ).
Planos amostrais estratificados não estão cobertos imediatamente pela
descrição acima. A situação é mais complicada nesse caso. Consulte Wolter
(1985).
Estima-se a variância usando um dos estimadores:
172 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
v
J1
³
b
θ
´
=
1
G(G−1)
G
X
g=1
³
b
θ
(g)

b
θ
JK
´
2
v
J2
³
b
θ
´
=
1
G(G−1)
G
X
g=1
³
b
θ
(g)

b
θ
´
2
onde
b
θ
JK
=
1
G
G
P
g=1
b
θ
(g)
.
Notas:
1. O estimador de Jackknife
b
θ
JK
de θ poderia ser utilizado como um
estimador alternativo ao estimador de amostra completa
b
θ.
2. v
J2
³
b
θ
´
é um estimador mais conservador da variância do que v
J1
³
b
θ
´
.
3. Freqüentemente se toma n = Ge se elimina uma observação da amostra
de cada vez.
4. Com planos amostrais de múltiplos estágios, eliminam-se UPAs inteiras
da amostra de cada vez. Isto é, se uma UPA é excluída, excluem-se ao
mesmo tempo todas as unidades a ela subordinadas.
Justificativas para o estimador Jackknife de variância:
a) quando a estatística for linear, os estimadores de variância coincidem
com estimadores usuais;
b) evidência empírica (limitada).
5.4 Sistemas para estimação de variâncias
A maior parte das pesquisas realizadas por agências de estatísticas oficiais
usam alguma forma de plano amostral estratificado em múltiplos estágios.
Cálculos de variâncias, mesmo para estimadores lineares, podem se tornar
trabalhosos de programar.
Programas desenvolvidos ”sob medida” custam mais caro e aumentam
risco de erros e prazos de obtenção de resultados.
Alternativa: usar pacotes prontos.
Problema: pacotes padrões (SAS, SPSS, BMDP, MINITAB, etc.) calcu-
lam variâncias supondo que as observações amostrais são IID (independentes
5.4. SISTEMAS PARA ESTIMAÇÃO DE VARIÂNCIAS 173
e identicamente distribuídas), e portanto IGNORANDO a natureza complexa
do plano amostral empregado para obter os dados.
Isto geralmente levaria a obter estimativas dos desvios padrões severa-
mente viciadas. Em alguns casos, a subestimação das variâncias pode ser
bastante grande, especialmente com planos amostrais muito conglomerados.
Solução: usar pacotes especializados para estimação de variâncias em
amostras complexas.
Alguns pacotes atualmente disponíveis incluem:
• SUDAAN (Research Triangle Institute)
• WESVARPC (Westat Inc.)
• GES (Statistics Canada)
• STATA (Stata Corporation)
• CENVAR (US Bureau of Census)
• Biblioteca ADAC (Análise de Dados Amostrais Complexos) do Sistema
R (Coordenação de Métodos e Qualidade / Diretoria de Pesquisas /
IBGE - Prof. Djalma Galvão Pessoa)
Vantagens de usar pacotes especializados prontos incluem:
- cálculo de estimativas para proporções, médias e totais e seus desvios
padrões facilmente tratados;
- desvios padrões disponíveis para estatísticas tais como razões de mé-
dias, médias de domínios e suas diferenças, coeficientes de regressão,
correlações, etc.;
- algoritmos numéricos exaustivamente testados, reduzindo as chances
de erros de cálculo;
- computação eficiente;
- usuário pode se concentrar no que calcular, e não em como calcular;
- mais barato que desenvolvimento local;
- testes de hipóteses e p-valores também disponíveis.
Desvantagens de usar pacotes especializados prontos incluem:
174 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS
- abrangência limitada - pacotes não podem fazer tudo;
- pacotes não avaliam estimativas, apenas calculam;
- integração com outros pacotes pode ser difícil;
- necessário investir na aquisição e manutenção da licença do pacote,
mais treinamento do pessoal usuário;
- resultados produzidos precisam ser editorados antes de servir para pub-
licação.
Conclusões
- Vantagens devem mais que compensar desvantagens.
- Uso de pacotes especializados para estimação de variâncias é altamente
recomendável.
- Você provavelmente não consegue fazer melhor sem pacotes, dadas re-
strições de tempo e recursos.
- Poupe seu tempo e esforço para melhorias verdadeiras do processo de
pesquisa.
Capítulo 6
Dupla amostragem
6.1 Descrição da técnica
Como visto, em muitos casos é conveniente o uso de informações adicionais
sobre uma variável auxiliar, que nos permite melhorar a precisão das esti-
mativas. Vimos por exemplo, como a estratificação produz amostras mais
representativas, e como se pode obter estimadores mais precisos; o mesmo
ocorre, sob certas condições, com os estimadores de razão e com o uso de
probabilidades desiguais de seleção.
Nestes casos a teoria estudada até aqui supõe que é conhecida a infor-
mação prévia para a formação dos estimadores mencionados. Na prática
pode não ser viável, então coloca-se a possibilidade de selecionar uma 1
a
amostra, relativamente grande, em que com um baixo custo pode-se obser-
var uma ou várias características gerais das unidades que nos proporcione
a(s) informação(ões) que necessitamos.
Em uma 2
a
fase selecionamos uma subamostra da 1
a
, em que observamos
a(s) característica(s) objeto de estimação. Esta técnica é conhecida como
dupla amostragem ou amostragem em 2 fases.
A dupla amostragem (ou amostragem em duas fases) pode ser general-
izada para qualquer número de fases, dando lugar à amostragem multifásica.
Na amostragem multifásica se utiliza as mesmas unidades de amostragem
em todas as fases, diferentemente da amostragem em múltiplos estágios onde
há uma hierarquia das unidades de amostragem que variam de estágio para
estágio.
175
176 CAPÍTULO 6. DUPLA AMOSTRAGEM
6.2 Considerações sobre o custo
É evidente que a conveniência desta técnica de amostragem depende dos
custos, se a observação da característica que nos interessa não tem custo,
ou é muito baixo, tomaríamos uma amostra do tamanho necessário para a
precisão desejada e com ela faríamos as estimações.
Suponha que dispomos de um pressuposto custo total C; que o custo por
unidade da 1
a
amostra de tamanho n
0
é c
0
; e que o custo por unidade da 2
a
amostra de tamanho n << n
0
é c (c
0
<< C).
Nestas condições temos:
se selecionarmos uma só amostra: C = c n
0
; e
se fizermos dupla amostragem: C = c
0
n
0
+c n
igualando os custos totais, tem-se:
n
0
= n +
c
0
c
n
0
Logo, com a técnica de dupla amostragem a observação efetiva se faz com
uma amostra de tamanho n, menor que n
0
, que corresponde a uma amostra
aleatória simples em uma fase com o mesmo custo total.
Por exemplo, se
c
0
C
= 0, 1, o tamanho n
0
= 1.000 é equivalente aos tama-
nhos n = 400 e n
0
= 6.000. A diminuição de n
0
− n = 600 unidades no
tamanho da amostra efetiva produzirá uma perda em precisão.
A questão que se coloca é decidir se compensa a diminuição do tamanho
efetivo da amostra, com o aumento de informação adquirida na 1
a
fase. Para
isso, deve-se calcular a variância correspondente com a aplicação da dupla
amostragem e compará-la com a de uma amostra de uma só fase (
σ
2
n
0
, no caso
da estimação da média com amostragem aleatória simples).
É óbvio que quanto menor for a relação
c
0
C
mais favorável é o uso da dupla
amostragem, mas não é o único parâmetro a ser considerado.
Em amostragem com reposição a variância dos estimadores toma a forma:
V =
k
1
n
+
k
2
n
0
que é válida para amostragem sem reposição quando as frações são pequenas.
Esta variância pode ser minimizada para um custo total dado e nos fornece,
através dos multiplicadores de Lagrange, os tamanhos ótimos de n
0
e n.
6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 177
6.3 Dupla amostragem para estratificação
Seleciona-se a 1
a
amostra de tamanho n
0
, através de um esquema aleatório.
Utiliza-se essa amostra para estratificar as unidades, atendendo a uma ou
várias características que observamos, assim como para estimar a proporção
de unidades da população pertencentes a cada estrato, supondo que a popu-
lação seja estratificada em L estratos.
Sejam n
0
1
, n
0
2
, · · · , n
0
L
onde n
0
h
é o número de unidades na amostra (da 1
a
fase) em cada estrato h e a respectiva proporção:
w
h
=
n
0
h
n
0
A segunda fase consiste em tomar uma subamostra aleatória de tamanho
n
h
≤ n
0
h
em cada estrato h, independentemente.
O estimador usual da média em amostragem estratificada é:
y
est
=
L
X
h=1
W
h
y
h
em dupla amostragem os W
h
são estimados pelos w
h
obtidos da 1
a
amostra
e com a 2
a
amostra estimamos as médias, tomando:
y
h
=
y
h
n
h
de forma que resulta no estimador para a média:
y
d,est
=
L
X
h=1
w
h
y
h
y
d,est
é não viciado, pois:
E
¡
y
d,est
¢
= E
(
E
w
Ã
L
X
h=1
w
h
y
h
!)
= E
Ã
L
X
h=1
w
h
E
w
(y
h
)
!
= E
Ã
L
X
h=1
w
h
Y
h
!
=
L
X
h=1
E(w
h
) Y
h
=
L
X
h=1
W
h
Y
h
= Y
onde:
E
w
(T) expressa a esperança matemática de uma estatística T condi-
cionada ao conjunto de amostras da 1
a
fase, nas quais n
0
1
, n
0
2
, · · · , n
0
L
são
fixos e para um dado n
0
, w
1
, w
2
, · · · , w
L
são fixos.
178 CAPÍTULO 6. DUPLA AMOSTRAGEM
V
¡
y
d,est
¢
= V
¡
E
w
¡
y
d,est
¢¢
+E
¡
V
w
¡
y
d,est
¢¢
V
¡
E
w
¡
y
d,est
¢¢
= V
Ã
L
X
h=1
w
h
Y
h
!
= V
Ã
L
X
h=1
¡
Y
h
¢
2
w
h
!
=
L
X
h=1
¡
Y
h
¢
2
V (w
h
) +
L
X
h6=k
Y
h
Y
k
COV (w
h
, w
k
)
as V (w
h
) e COV (w
h
, w
k
) em amostragem sem reposição, usando a dis-
tribuição hipergeométrica para L classes, são dadas por:
V (w
h
) =
N −n
0
N −1
W
h
(1 −W
h
)
n
0
e
COV (w
h
) = −
N −n
0
N −1
W
h
W
j
n
0
Logo:
V
¡
E
w
¡
y
d,est
¢¢
= g
0
(
L
X
h=1
¡
Y
h
¢
2 W
h
(1 −W
h
)
n
0

L
X
h6=k
Y
h
Y
k
W
h
W
j
n
0
)
=
g
0
n
0
(
L
X
h=1
¡
Y
h
¢
2
W
h

L
X
h=1
¡
Y
h
¢
2
(W
h
)
2

L
X
h6=k
Y
h
W
h
L
X
k=1
Y
k
W
k
)
=
g
0
n
0
_
_
_
L
X
h=1
¡
Y
h
¢
2
W
h

Ã
L
X
h=1
W
h
Y
h
!
2
_
_
_
=
g
0
n
0
(
L
X
h=1
W
h
¡
Y
h
−Y
¢
2
)
sendo: g
0
=
N −n
0
N −1
.
Por outro lado, tem-se:
6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 179
E
¡
V
w
¡
y
d,est
¢¢
= E
Ã
V
w
Ã
L
X
h=1
w
h
y
h
!!
= E
Ã
L
X
h=1
(w
h
)
2
V
w
(y
h
)
!
= E
Ã
L
X
h=1
(w
h
)
2
(1 −f
h
)
S
2
h
n
h
!
=
L
X
h=1
E (w
h
)
2
(1 −f
h
)
S
2
h
n
h
=
L
X
h=1
(1 −f
h
)
S
2
h
n
h
¡
V (w
h
) +W
2
h
¢
=
L
X
h=1
(1 −f
h
)
S
2
h
n
h
µ
g
0
W
h
(1 −W
h
)
n
0
+W
2
h

Portanto:
V
¡
y
d,est
¢
=
g
0
n
0
(
L
X
h=1
W
h
¡
Y
h
−Y
¢
2
)
+
L
X
h=1
(1 −f
h
)
S
2
h
n
h
µ
g
0
W
h
(1 −W
h
)
n
0
+W
2
h

onde:
f
h
é a fração de amostragem da 2
a
fase, supondo que a seleção foi com
probabilidades iguais e sem reposição nas fases.
Observe que n
0
aparece no denominador na expressão da variância. Por-
tanto, quanto maior n
0
(n
0
< N) a perda de precisão pelo uso da dupla
amostragem diminui. Obviamente o custo aumenta, razão pela qual convém
estudar os tamanhos ótimos em função do custo.
Se a amostra é com reposição na 1
a
fase temos:
V
¡
y
d,est
¢
=
L
X
h=1
(1 −f
h
)
S
2
h
n
h
µ
W
2
h
+
W
h
(1 −W
h
)
n
0

+
1
n
0
L
X
h=1
W
h
¡
Y
h
−Y
¢
2
fórmula aproximada para n
0
pequeno em relação a N em caso sem reposição.
Se a amostra é com reposição nas 2 fases:
V
¡
y
d,est
¢
=
L
X
h=1
σ
2
h
n
h
µ
W
2
h
+
W
h
(1 −W
h
)
n
0

+
1
n
0
L
X
h=1
W
h
¡
Y
h
−Y
¢
2
fórmula aproximada para n
h
pequeno em relação a N
h
, ∀h e n
0
pequeno em
relação a N no caso sem reposição.
180 CAPÍTULO 6. DUPLA AMOSTRAGEM
Para o total Y = NY , o estimador não viciado
b
Y
d,est
= N y
d,est
e a
variância V
³
b
Y
d,est
´
= N
2
V
¡
y
d,est
¢
.
Observe que se na amostra da 1
a
fase n
0
= N, isto é, se observa todas as
unidades da população para efetuar a estratificação, então g
0
= 0 e a fórmula
geral da variância do estimador de dupla amostragem fica:
V
¡
y
d,est
¢
=
L
X
h=1
(1 −f
h
) W
2
h
S
2
h
n
h
que coincide com a variância de uma amostra estratificada usual em uma
única fase.
6.3.1 Estimador não viciado para V
¡
y
d,est
¢
Um estimador não viciado para a variância do estimador da média em dupla
amostragem para estratificação com reposição V
¡
y
d,est
¢
é dado por:
v
¡
y
d,est
¢
=
n
0
n
0
−1
(
L
X
h=1
s
2
h
n
h
³
w
2
h
+
w
h
n
0
´
+
1
n
0
L
X
h=1
w
h
¡
y
h
−y
d,est
¢
2
)
n
0
n
0
−1

= 1 se n
0
não for pequeno, então:
v
¡
y
d,est
¢
=
L
X
h=1
s
2
h
n
h
³
w
2
h
+
w
h
n
0
´
+
1
n
0
L
X
h=1
w
h
¡
y
h
−y
d,est
¢
2
6.3.2 Estimação de uma proporção na dupla amostragem
para estratificação
Se se deseja estimar uma proporção P
A
de um atributo A na população,
sendo P
Ah
a correspondente proporção no estrato h, o estimador não viciado
na dupla amostragem é:
p
A(d,est)
=
L
X
h=1
w
h
p
Ah
6.4. DUPLA AMOSTRAGEM PARA ESTIMADORES DE RAZÃO 181
sendo: p
Ah
a proporção amostral do atributo A na 2
a
fase.
V
¡
p
A(d,est)
¢
=
L
X
h=1
(1 −f
h
)
P
Ah
Q
Ah
n
h
µ
W
2
h
+
g
0
W
h
(1 −W
h
)
n
0

+
g
0
n
0
(
L
X
h=1
W
h
(P
Ah
−P
A
)
2
)
sendo:
S
2
h
=
N
h
N
h
−1
P
Ah
Q
Ah

= P
Ah
Q
Ah
Em amostragem com reposição nas 2 fases, ou sem reposição e tamanhos
amostrais pequenos com relação à população (f
h

= 0 e g
0

= 1).
V
¡
p
A(d,est)
¢
=
L
X
h=1
P
Ah
Q
Ah
n
h
µ
W
2
h
+
W
h
(1 −W
h
)
n
0

+
1
n
0
(
L
X
h=1
W
h
(P
Ah
−P
A
)
2
)
Para o total do atributo A = N P
A
, o estimador é:
b
A
d,est
= Np
A(d,est)
e
V
³
b
A
d,est
´
= N
2
V
¡
p
A(d,est)
¢
6.4 Dupla amostragem para estimadores de
razão
O estimador usual de razão para a média Y utiliza como informação previa-
mente conhecida da média X (ou total) de uma característica x, definida em
todas as unidades da população, escolhida convenientemente de modo que
sua relação com y seja linear pelo menos aproximadamente.
Em dupla amostragem utiliza-se a 1
a
amostra de tamanho n
0
para obter
uma boa estimativa de X (ou de X) e a 2
a
amostra de tamanho n para
estimar y e x. Desta forma o estimador de razão para a média em dupla
amostragem é:
y
d,R
=
y
x
x
0
sendo x
0
a média estimada usando as informações da amsotra da 1
a
fase.
Com este procedimento de dupla amostragem cabe considerar duas pos-
sibilidades:
182 CAPÍTULO 6. DUPLA AMOSTRAGEM
1. a 2
a
amostra é uma amostra aleatória da população selecionada inde-
pendentemente da 1
a
;
2. a 2
a
amostra é uma subamostra aleatória da 1
a
. Em ambos casos con-
siderar n ≤ n
0
.
Em qualquer caso: E
¡
y
d,R
¢
= X E
³
b
R
´
e será não viciado se
b
R =
y
x
for
não viciado.
Para calcular o erro médio quadrático que coincida coma variância quando
E
³
b
R
´
= R =
Y
X
temos:
y
d,R
−Y =
y
x
x
0
−Y =
b
Rx
0
−Y =
b
Rx
0
−RX
=
b
Rx
0
−RX +RX −RX
= X
³
b
R−R
´
+
b
R
¡
x
0
−X
¢
=
X
x
³
y −
b
Rx
´
+
b
R
¡
x
0
−X
¢
utilizando as aproximações:
b
R

= R e
X
x

= 1.
Podemos escrever para o cálculo aproximado da variância do estimador:
V
¡
y
d,R
¢
= E
©
(y −Rx) +R
¡
x
0
−X
¢ª
2
= V
©
(y −Rx) +R
¡
x
0
−X
¢ª
= V (y −Rx) +V
¡
R
¡
x
0
−X
¢¢
+ 2RCOV
©
(y −Rx)
¡
x
0
−X
¢ª
= V (y) +R
2
V (x) −2RCOV (x, y) +R
2
V ( x
0
) +
+2RCOV (y, x
0
) −2R
2
COV (x, x
0
)
No caso em que as amostras das 2 fases são independentes, as covariâncias
se anulam entre (x, y) e (x, x
0
), resultando:
V
¡
y
d,R
¢
= V (y) +R
2
V (x) −2RCOV (x, y) +R
2
V ( x
0
)
V
¡
y
d,R
¢
=
1
n
©
σ
2
y
+R
2
σ
2
x
−2Rσ
xy
ª
+
1
n
0
R
2
σ
2
x
6.5. DUPLAAMOSTRAGEMPARAPROBABILIDADES DESIGUAIS183
fórmula válida para amostragem com reposição (no caso de sem reposição,
usar fator de correção de populações finitas).
Para o caso em que a 2
a
amostra de tamanho n é uma subamostra
aleatória da 1
a
¡
n ≤ n
0
¢
temos que calcular as covariâncias.
Fixando a amostra da 1
a
fase:
E
w
0 (y) = y
0
e E
w
0 (x) = x
0
por y e x serem médias de subamostras aleatórias =⇒
COV (y, x
0
) = E(y, x
0
) −E (y ) E( x
0
)
= E(E
w
0 (y, x
0
)) −E(E
w
0 (y )) E(E
w
0 ( x
0
))
= E(y
0
, x
0
) −E(y
0
) E (x
0
) = COV (y
0
, x
0
)
=
σ
xy
n
0
analogamente:
COV (x, x
0
) =
σ
2
x
n
0
Logo:
V
¡
y
d,R
¢
=
1
n
©
σ
2
y
+R
2
σ
2
x
−2Rσ
xy
ª
+
1
n
0
R
2
σ
2
x
+

1
n
0
2R
2
σ
2
x
+
1
n
0
2Rσ
xy
=
1
n
©
σ
2
y
+R
2
σ
2
x
−2Rσ
xy
ª
+
1
n
0
©
2Rσ
xy
− R
2
σ
2
x
ª
admitindo com reposição.
Se n
0
= N =⇒ COV (x, x
0
) = COV (y, x
0
) = 0,então V
¡
y
d,R
¢
reduz à
variância do estimador de razão em uma única fase.
6.5 Dupla amostragem para probabilidades
desiguais
O estimador usual do total Y , com probabilidades de seleção das unidades
proporcionais a uma medida de tamanho, seja M
i
, é dado por:
b
Y =
1
n
n
X
i=1
y
i
P
i
184 CAPÍTULO 6. DUPLA AMOSTRAGEM
com: P
i
=
M
i
M
.
Se não se conhece a priori os tamanhos das unidades da população, pode-
mos tomar uma amostra aleatória da população de tamanho n
0
com probabil-
idades iguais, para obter informação acerca dos tamanhos M
1
, M
2
, · · · , M
n
0 ,
sendo M
0
=
n
0
P
i=1
M
i
. Nestas condições se toma uma subamostra de tamanho
n < n
0
, para formar o estimador de dupla amostragem baseado em:
M
i
N
n
0
M
0
como esstimador de
M
i
M
= P
i
e o estimador não viciado de total fica da forma:
b
Y
p
d
=
n
X
i=1
N
n
0
M
0
n
y
i
M
i
=
NM
0
nn
0
n
X
i=1
y
i
M
i
E
³
b
Y
p
d
´
= E
Ã
N
n
0
E
w
0
Ã
n
X
i=1
M
0
n
y
i
M
i
!!
= E
µ
N
n
0
y
0

= Y
onde:
E
w
0 indica a esperança da 1
a
amostra fixa com probabilidade proporcional
ao tamanho;
y
0
é o total da amostra da 1
a
fase, tomando n
0
, tomada com probabili-
dades iguais.
Supondo que a 1
a
amostra seja selecionada com probabilidades iguais e
sem reposição e a 2
a
amostra com probabilidades proporcionais ao tamanho
e com reposição, a variância do estimador de total é dada por:
V
³
b
Y
p
d
´
=
N
N −1
n
0
−1
nn
0
N
X
i=1
P
i
µ
Y
i
P
i
−Y

2
+
N (N −n
0
)
n
0
S
2
y
se n
0
é grande então
n
0
−1
n
0

= 1 então:
V
³
b
Y
p
d
´
=
1
n
N
X
i=1
P
i
µ
Y
i
P
i
−Y

2
+
N (N −n
0
)
n
0
S
2
y
Bibliografia
[1] Albieri, S. e Dias, A.J.R. (1994). Metodologia de expansão da amostra
do censo demográfico de 1991: uma descrição resumida. Rio de Janeiro:
IBGE, Divisão de Metodologia.
[2] Andersson, C. e Nordberg, L. (1994). A method for variance estima-
tion of non-linear functions of totals in surveys - theory and software
implementation. Journal of Official Statistics, 10, 395-406.
[3] Cochran, W.G. (1977). Sampling Techniques, third edition. New York:
John Wiley & Sons.
[4] Deville, J.C. e Särndal, C.E. (1992). Calibration estimators in survey
sampling. Journal of the American Statistical Association, 87, 376-382.
[5] Estevao, V., Hidiroglou, M.A. e Särndal, C.E. (1995). Methodological
principles for a generalized estimation systemat Statistics Canada. Jour-
nal of Official Statistics, 11, 181-204.
[6] Fieller, E. C. (1932). The distribution of the index in a normal bivariate
population. Biometrika, 24, 428-440.
[7] Hanif, M. and Brewer, K.R.W. (1980). Sampling with unequal proba-
bilities without replacement. International Statistical Review,Voorburg:
Holand, 48: 317-35.
[8] Hansen, Morris H; Hurvitz, William N. and Madow, William G. (1953).
Sample Survey Methods and Theory ( vol. I and II). New York: John
Wiley & Sons.
[9] Hartley, H.O. et alli. (1962). Sampling with unequal probabilities with-
out replacement. Annals of Mathematical Statistics, Hayward; EUA, 33:
350-74.
185
186 BIBLIOGRAFIA
[10] Horvitz, D.G., and Thompson, D.J. (1952). A generalization of sampling
without replacement from a finite universe. Jour. Amer. Stat. Assoc.,
47, 663-685.
[11] IBGE (1983). Metodologia do censo demográfico de 1980. Rio de Janeiro:
Série Relatórios Metodológicos, v. 4.
[12] Kish, L. (1965) Survey Sampling. New York: John Wiley & Sons.
[13] Lima, J.M.(1985). Seleção de amostra com probabilidades desiguais -
o método dos grupos aleatórios. Rio de Janeiro: IMPA, (Informes de
Matemática Série D-015/85 - Tese de Mestrado).
[14] Mahalanobis, P.C. (1939). A Sample Survey of the Acreage Under Jute
in Bengal. Sankhya 4, 511-531.
[15] Nascimento, W.A. (1981). Amostragem de Conglomerados.
IBGE/ENCE.
[16] Quenouille, M.H. (1949). Aproximate Tests of Correlation in Time Se-
ries. Journal of the Royal Statistical Society, B 11, 68-84.
[17] Quenouille, M.H. (1956). Notes on Bias in Estimation. Biometrika 43,
353-360.
[18] Paulson, E. (1942). A note on the estimation of some mean values for a
bivariate distribution. Ann. Math. Stat., 13, 440-444.
[19] Pessoa, D.G.C. e Silva, P.L.N. (1998). Análise de dados em planos
amostrais complexos. Minicurso do SINAPE 1998.
[20] Raj, Des. (1968). Sampling Theory. Bombay, New Delhi: Tata McGraw-
Hill.
[21] Särndal, C.E., Swensson, B. e Wretman, J. (1992). Model assisted survey
sampling. New York: Springer-Verlag.
[22] Shah, B.V., Barnwell, B.G., Hunt, P.N. e LaVange, L.M. (1992). SUD-
DAN user’s manual - professional software for survey data analysis for
multi-stage sample designs - release 6.0. North Carolina: Research Tri-
angle Institute.
[23] Silva, P.L.N. (1996). Planejamento, estimação e análise de dados em
pesquisas por amostragem: desvendando a realidade brasileira com o
”telescópio da estatística”. Rio de Janeiro: IBGE.
BIBLIOGRAFIA 187
[24] Silva, P.L.N. (1996). Utilizing auxiliary information in sample survey
estimation and analysis. Southampton: Department of Social Statistics,
University of Southampton, tese de doutorado.
[25] Silva, P.L.N., Bianchini, Z.M. e Albieri, S. (1993). Uma proposta de
metodologia para a expansão da amostra do censo demográfico de 1991.
Rio de Janeiro: IBGE, Diretoria de Pesquisas, Série Textos para Dis-
cussão, n. 62.
[26] Silva, P.L.N., Silva, D.B.N., Moura, F.A.S. e Jooris, L.R. (1995). Frame
problems and survey design for the Brazilian annual retail and wholesale
trade survey. Artigo submetido para publicação na revista Estadística.
[27] Silva, P.L.N. e Skinner, C.J. (1995). Estimating distribution functions
with auxiliary information using poststratification. Journal of Official
Statistics, 11, 277-294.
[28] Silva, P.L.N. e Skinner, C.J. (1996). Variable selection for regression
estimation in finite populations. Artigo submetido para publicação no
Journal of the American Statistical Association.
[29] Skinner, C. J., Holt, D. and Smith, T.M.F. (1989). Analysis of Complex
Surveys. Chichester: Wiley.
[30] Thompson, S.K. (1992). Sampling. New York: John Wiley & Sons.
[31] Westat (1995). A user’s guide to WesVarPC, version 1.0. Rockville:
Westat.
[32] Wolter, K.M. (1985). Introduction to Variance Estimation. New York:
Springer-Verlag.

2

Conteúdo
1 Estimadores Especiais 1.1 Informações auxiliares em amostragem . . . . . . . . . . . . . 1.2 Estimação de uma razão . . . . . . . . . . . . . . . . . . . . . 1.2.1 Propriedades do estimador de uma razão . . . . . . . . 1.2.2 Variância do estimador de uma razão . . . . . . . . . . 1.2.3 Estimação da variância do estimador de uma razão . . 1.2.4 Precisão do estimador de uma razão . . . . . . . . . . . 1.3 Estimadores de razão para o total e a média . . . . . . . . . . 1.3.1 Variâncias dos estimadores de razão para o total e a média . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Estimação das variâncias dos estimadores de razão para o total e a média . . . . . . . . . . . . . . . . . . . . . 1.3.3 Comparação da precisão do estimador de razão com a do estimador simples em amostragem aleatória simples 1.4 Estimadores de razão em amostragem estratificada . . . . . . 1.4.1 Estimador de razão combinada . . . . . . . . . . . . . 1.4.2 Estimador de razão separada . . . . . . . . . . . . . . . 1.4.3 Comparação dos estimadores de razão separada e combinada . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.4 O uso de estimadores de razão . . . . . . . . . . . . . . 1.5 Estimadores de Regressão . . . . . . . . . . . . . . . . . . . . 1.5.1 Comparação dos estimadores de regressão, razão e simples da média sob amostragem aleatória simples . . . . 1.5.2 O uso de estimadores de regressão . . . . . . . . . . . . 1.6 Pós-estratificação . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Estimação do total e da média . . . . . . . . . . . . . . 1.6.2 Precisão dos estimadores com pós-estratificação . . . . 1.7 O uso de informações auxiliares na estimação . . . . . . . . . . 1.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1 1 1 3 9 14 14 16 18 19 19 20 20 26 28 32 33 36 37 38 39 40 43 47

2. . . . . . . . .1 Estimadores e respectivas precisões . .1 Estimador de razão baseado no tamanho dos conglomerados . . . .3. . . . . . . .1.2.1. . . . . . . . . .1 Introdução e definições básicas .3 Exercícios . 147 3. . . . .1 Conceituação Básica . . . . . . . . . . . . . . . . . . . . . . .7. .7 Dimensionamento da amostra de conglomerados em 2 estágios . .1. . . . . . . . . . . . . . . . . . . . . . 2. . . . . . . . . . . . .3. 2. . . 2. . . . . . . . . . 127 3. . . .2 Parâmetros da característica y .1. . . . . . . . . .3 Conglomerados em 1 estágio . . . . . . . . . . .3 Coeficiente de Correlação Intraclasse . . . . . . . . . . . . . 137 3.5 Eficiência da Ac1 em relação à AAS com conglomerados de tamanhos iguais . . . . 2. . . . . . . . . . .6. . . . . . . . 2. . . . . .1 Probabilidades iguais de seleção . . . . . 109 3. . . . . . . . . .2 Controle de variação de tamanho das UPAs . .4 CONTEÚDO 53 53 55 56 56 65 69 75 77 82 83 83 93 94 97 98 101 102 2 Amostragem de Conglomerados 2. . .1 Probabilidades iguais de seleção . . . .8 Efeito de conglomeração . .2 Estimador de razão baseado em uma característica que não seja o tamanho do conglomerado . . . . . . . . . 3 Conglomerados em 2 estágios 109 3. . . . . . . . . . . . . . . . . 113 3. . . . .1.5. . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . . . . . . 112 3. . . . . .7 Estimador de razão . . .2. . . . . . . 123 3. . . . . . 2. . . . . .3. . . . . 109 3. . . . . . 2. . . .2 Estratificação das unidades primárias e seleção com probabilidades desiguais de seleção . . . . . . . .3 Estatísticas da amostra em cada estágio . . . . . . . . . .2 Estimação de proporções na Ac1 .4 Estimação do coeficiente de correlação intraclasse . . . . . . . .4 Estimadores de total e médias e respectivas variâncias . . . . . . . . .3. . . . 2. . . . . .4 Controle na variação de tamanho . . . . . . . . . . . 2. . . . . .2. . . . . . . . . . . . . . . . . . 153 . . .1.7. . . . . . . .6 Amostra autoponderada . . . . . . . . .5 Probabilidades desiguais de seleção . . . . . . . . . . . . . . . . . 114 3. . 2. . . . . . .1. . . . . . . . . . . 135 3. . . . . . . . . . .6 Estratificação de conglomerados . . . . . . . . 2. . . . . . . . 2. . 2. . . . . .5 Estimadores das variâncias dos estimadores de total e médias . 2. 2.1 Probabilidades desiguais de seleção das unidades primárias138 3. . . . . . .8 Exercícios . . . . . . 119 3. . . .3 Estimador de razão . . . . . . . .1. . . . . .2 Amostragem de Áreas . . . . 149 3. . . . . . . . . . . . . . .1 Seleção dos conglomerados com probabilidades desiguais e com reposição . .

. . . . . . . 166 .CONTEÚDO 4 Conglomerados em 3 estágios 4.3. . . 172 175 . . As notas de aula preparadas por Pedro Luis do Nascimento Silva quando de sua atuação como professor no referido curso. . 161 . . . . . . . 176 . 170 . . . . . . . . . . . . . 5. . . . . . . . . . . .1 Método de Linearização de Taylor ou δ-método .1 Estimador não viciado para V y d. . .3 Métodos de Replicação . . . 166 . ¢ . . . . . . . . . . . 181 . . 4. 177 . . . . . bem como as referências bibilográficas básicas. . . . . 161 . .4 Sistemas para estimação de variâncias . . . 180 . . . . . . . . . .2 Estimação de uma proporção na dupla amostragem para estratificação . . . . . . . . . . . 165 . . 5 Estimação de variâncias 5. . . . . . . .4 Dupla amostragem para estimadores de razão . .1 Porque é importante estimar variâncias? . 168 . 6. . . serviram como base para a elaboração deste material. . . . . . . . . . .3 Métodos para estimar variâncias . .2 Método do Conglomerado Primário (Ultimate Cluster . . 180 . . . . . . . . . . . . . . . . . . . .ENCE. 6. . 5. . . . . . . 6. 5. . . 6. . . . i 161 . . .5 Dupla amostragem para probabilidades desiguais . . . . . . . . . . . 183 . . . 163 165 . . . . . . . . .3. .est .3 Dupla amostragem para estratificação¡.3.1 Introdução . .3. . . . . 6. . . 5.3 Exercícios . . 4. . . . 1953) . . . . . . . . . . . 6 Dupla amostragem 6.Hansen et al. . .1 Descrição da técnica . .2 Problemas para estimar variâncias . . . 6. . . . . . . . . . . . . . . . . 5. 5.2 Considerações sobre o custo . . 162 . . . . . . . . . . . . Trata-se da apresentação da teoria e aplicação de estimadores especiais e das técnicas de seleção e de estimação em amostras de conglomerados em um ou mais estágios e de dupla amostragem. .3. . . . . . . . . . .1 Estimador não viciado de Y . . . . . . . . Prefácio Estas notas de aula vêm sendo ministradas na disciplina de Tecnologia da Amostragem II do Curso de Graduação em Estatística da Escola Nacional de Ciências Estatísticas . . . . . . . . . . . . . 165 . . . . . . 175 .2. .2 Seleção com probabilidades desiguais 4.

ii CONTEÚDO Cabe esclarecer que é intenção incorporar num mesmo volume o conteúdo da disciplina de Tecnologia de Amostragem I. do uso adequado da teoria e aplicações em amostragem e da prepararação do profissional de Estatística para os desafios que a carreira certamente lhe proporcionará. em especial a Adrian Heringer Pizzinga. Fernanda e Henrique) das inúmeras horas extraordinárias de trabalho desviadas do convívio familiar para a realização desta empreitada para a primeira versão. Agradeço aos alunos pelas indicações de correções efetuadas. Zélia Magalhães Bianchini Rio de Janeiro. Uma primeira versão dessas notas vinha sendo utilizada no curso de Graduação da ENCE no 6o período. cálculo de tamanhos de amostra. Esta versão ainda passará por outras revisões e quaisquer sugestões sobre eventuais falhas e omissões e sobre a incorporação de novos temas são bem vindas em busca do aprimoramento do texto. amostragem aleatória simples com e sem reposição. que corresponde aos fundamentos e técnicas básicas para selecionar amostras e realizar estimação em pesquisas por amostragem: conceitos básicos de amostragem. do 6o período do 2o semestre de 1999. desde o 2o semestre de 1999. A realização deste trabalho deve-se em grande parte ao incentivo de Pedro Luis do Nascimento Silva para a preparação de um livro de amostragem em português com o objetivo de facilitar o aprendizado dos alunos de graduação em Estatística na aplicação de técnicas para selecionar amostras e realizar estimação em pesquisas por amostragem. Ralph dos Santos Silva e Rodrigo Lage de Sousa. estimação de proporções e domínios. distribuições amostrais e erro amostral. amostragem estratificada e amostragem com probabilidades desiguais. Agradeço a Waldecir Bianchini pela colaboração no aprendizado para a utilização do processador de texto Scientific Workplace e pela sua compreensão e de nossos filhos (Renata. agosto de 2003. . amostragem sistemática.

se a variável de interesse é o número de cabeças de gado em uma determinada fazenda. Na estimação de total ou de média de uma característica y. Variáveis usadas na estratificação. ou como medidas de tamanho para a seleção com probabilidades proporcional ao tamanho. é a necessidade de se estimar a razão 1 . 1. o tipo de vegetação.1 Informações auxiliares em amostragem Além da variável de interesse yi . Em algumas situações. Um exemplo. o valor da variável de interesse de um censo anterior pode servir como uma variável auxiliar. o valor a ser estimado com a amostra é uma razão entre duas variáveis que varia de unidade para unidade da população. Por exemplo. variáveis auxiliares pode incluir a área da fazenda. uma ou mais variáveis xi podem estar associadas com a i-ésima unidade da população. etc. os valores para a característica x são conhecidos para toda a população. de regressão e de pós-estratificação são exemplos do uso de informações auxiliares na estimação. a relação entre yi e xi pode muitas vezes ser aproveitada para produzir estimativas mais precisas do que estimativas que utilizam apenas as informações dos dados da característica y. Estimadores de razão. enquanto que em outras situações os valores de x são conhecidos só para as unidades da amostra. Informações auxiliares podem ser usadas no desenho amostral ou na estimação.2 Estimação de uma razão Freqüentemente na prática de pesquisas por amostragem. representam o uso de informações auxiliares no desenho amostral. que pode ser citado.Capítulo 1 Estimadores Especiais 1. Em muitas pesquisas.

YN )} . yi ) = (XI . 2. · · · . ESTIMADORES ESPECIAIS entre os gastos das famílias com alimentação e a renda das famílias. Y1 ). · · · . (XN . são identicamente distribuídos e que não são independentes. u2 . U2 . · · · . i ∈ {1. 2.2 CAPÍTULO 1.{u1 . R. devido se tratar de amostragem sem reposição. x e y. onde:   XI = x(UI )  YI = y(UI ) I ∈ {1. 2. (x2 . yn )} . · · · . onde serão investigadas as características x e y. de forma que: N P YI Y Y I=1 R= = N = P X X XI I=1 . y1 ). razão R onde R = X Considere-se a população PN = {U1 . un }. N Conclui-se que os vetores (xi . Note-se que: 1 ∀ i ∈ {1. fornecendo {(x1 . (xn . yi ). um estimador intuitivamente razoável para R é dado por: P [(xi . y2 ). 2. medindo o salário médio dos trabalhadores da indústria. UN }. · · · . Como R = Y / X = Y / X . Em todos estes exemplos. (X2 . · · · . medindo a produtividade da lavoura. n}. n i=1 n i=1 n n Pode-se então definir o parâmetro razão na população. Y2 ). gerando uma população-matriz bivariada PN (x. N} Ponha-se então. n} e ∀ I ∈ {1. Outro exemplo seria a razão entre a quantidade colhida de certo produto pela área plantada. o problema de estimar a razão R a partir de uma amostra aleatória simples sem reposição de n unidades de PN . · · · . N} . o que se procura conhecer é o valor de uma Y . Ainda outro exemplo seria a razão entre o salário dos trabalhadores da indústria e o número de trabalhadores da indústria. y) = {(X1 . YI )] = b y R= x onde 1X 1X y= yi e x = xi . onde serão investigadas duas características. · · · .

a prova de que R é consistente para R é imediata devido x se igualar a X e y a Y quando a amostra cobrir todas as unidades da população.1 Propriedades do estimador de uma razão b Como verificar se R é um estimador razoável? Em primeiro lugar. b Para provar que R é um estimador consistente de R. ESTIMAÇÃO DE UMA RAZÃO 3 1. é necessário introduzir a definição de consistência. notab se que R deve ser um estimador viciado de R. E(φ ) = V (φ ) = Note-se que: 2 Sx = 2 2 N − n Sx N n ¢2 ¢2 1 X¡ 1 X¡ 2 XI − X YI − Y . Analogamente.2. porém se pode mostrar que b é assintoticamente não viciado.1. Além disto. se P bN = θ = 1. n i=1 i Sabe-se ainda que: 2 ¡ ¢2 N − n Sy 2 2 = V ( y ) = V (Y + ξ ) = V (ξ ) = E(ξ ) − E(ξ) = E(ξ ) N n pois. isto é.2. pode-se mostrar também que R é um b R estimador consistente de R. e Sy = N − 1 I=1 N − 1 I=1 N N . E(ξ) = 0. θ θ b Assim. ¢ 1X 1X 1 X¡ y= yi = Y + ξi = Y + ξ =Y +ξ n i=1 n i=1 n i=1 i n n n onde: ξ = De modo análogo se tem que: 1X ξ n i=1 i n n 1X x = X + φ onde φ = φ. θ Diz-se que um estimador bn é baseado numa amostra sem reposição de tamanho n da população é consistente para o parâmetro θ se e somente se h i bN = θ.

obtém-se uma aproximação para o valor de R. vem: ! µ ¶µ ¶−1 ¶Ã µ 2 3 ξ φ ξ φ φ φ b R = R 1+ 1+ + 1− =R 1+ + ··· − Y X Y X X2 X3 ! à !) (à 2 3 2 φ φ φ ξ ξ φ ξφ b R = R + + +··· + − − ··· 1− − X X2 X3 Y Y X Y X2 Desprezando-se na expressão entre parênteses todos os termos com grau b superior a 2. isto é. ¯X ¯ ¯ ¯ que¯ a amostra foi dimensionada de forma que se pode esperar que ¯φ¯ < X ¯ ou ¯x − X ¯ < X. desenvolvendo-se o fator 1 + como série de potências de X φ.4 CAPÍTULO 1. ESTIMADORES ESPECIAIS Desta forma. ¶−1 µ φ Então. se pode escrever: ¶ µ ξ µ ¶µ ¶−1 Y 1+ y Y +ξ ξ φ Y b R= 1+ = = ¶ =R 1+ µ x Y X X +φ φ X 1+ X ¯ ¯ ¯φ¯ Suponha-se que Y 6= 0 e X 6= 0. à ! 2 φ φ ξ ξ φ b= R∼R 1− + + − X X2 Y Y X b Agora calculando-se o valor esperado de R vem: à à !! 2 φ ξ φ ξ φ b = E(R) ∼ E R 1 − + + 2− X Y Y X X !! à à 2 φ ξ φ ξ φ + + 2− = R E 1− X Y Y X X à 2! à µ ¶ ¶! µ µ ¶ φ ξ φ ξ φ +E +E −E = R 1−E 2 X Y Y X X ¶ µ ³ 2´ ¡ ¢ 1 1 E ξ φ = R 1 + 2E φ − Y X X ³ 2´ 2 N − n Sx E φ = V (φ ) = N n No entanto: . ainda que ¯ ¯ < 1. Suponha-se.

y) = N n onde: N ¢¡ ¢ 1 X¡ XI − X YI − Y = N − 1 I=1 5 Sxy b De qualquer forma. a tendenciosidade do estimador R é dada aproximadamente por: µ ¶ ³ ´ ¡ ¢ b b = E(R) − R ∼ R 1 + 1 E φ2 − 1 E ξ φ − R T (R) = 2 Y X X ¶ µ ¡ ¢ 1 1 COV ( x. ESTIMAÇÃO DE UMA RAZÃO Por outro lado: ¡ ¢ ¡ ¢¡ ¢ N − n Sxy E ξ φ = E y − Y x − X = COV ( x.2. y) = R 2V φ − Y X X ou ainda: 2 1 N − n Sxy 1 N − n Sx − 2 N n n Y X N X ¶ µ 2 Sxy N − n 1 Sx = R 2 − N n X Y X b = T (R) ∼ R µ ¶ Agora note-se que a correlação entre x e y na população.1. ρ (x. y). y) = = V (xi ) V (yi ) . é definida por: ¡ ¢¡ ¢ E xi − X yi − Y p ρ (x.

y) = sµ = sµ N N ¢2 1 P ¡ ¢2 1 P¡ XI − X YI − Y N I=1 N I=1 I=1 N ¢¡ ¢ P¡ XI − X YI − Y N ¢¡ ¢ 1 P¡ XI − X YI − Y N I=1 ¶ I=1 Denotando-se então ρ (x. uma análise de expressão de T (R) nos mostra que T (R) se anula exatamente quando: 2 Cx − ρ Cx Cy = 0 Isto é. b Agora. y) simplesmente por ρ .6 CAPÍTULO 1. ESTIMADORES ESPECIAIS ρ (x. y) = p 2 2 = Sx Sy Sx Sy ¢¡ ¢ ¡ 1 XI − X YI − Y N − 1 I=1 = sµ ¶µ ¶ N N ¢2 ¢2 1 P¡ 1 P¡ XI − X YI − Y N − 1 I=1 N − 1 I=1 N P N ¢2 P¡ XI − X ¶µ I=1 N ¢2 P¡ YI − Y ¶ 2 onde Cx é a variância relativa de característica x na população. vem: Sxy = ρ Sx Sy Então: N −n b = T (R) ∼ R N N −n = R N ¶ µ 2 1 1 Sx ρ Sx Sy − n X2 Y X ¢ 1 ¡ 2 Cx − ρ Cx Cy n Sxy Sxy ρ (x. quando: 2 Sx X 2 =ρ Sx Sy X Y . é imediato provar que lim T (R) = 0 n→N b b No entanto.

Inicialmente. que é a condição para a reta de regressão entre y e x passar pela origem.2. se o estimador for não viciado. ESTIMAÇÃO DE UMA RAZÃO Ou melhor. dado por: µ³ ´2 ¶ b = E(R − R)2 = E b b − E(R) + E(R) − R b b EQM(R) R µ³ ´´2 ´2 ¶ ³ ³ b b b R − E(R) + E R−R = E ³ ´ ³ ´ b b − R E R − E(R) b −2 E(R) h i2 b + T (R) . R é um estimador tendencioso. Note-se. ainda. então o erro quadrático médio é igual à variância do estimador. quando: ρ Y = Sx Sy X = ρ Sy X 2 Sx Sx X 2 7 Note-se que se a tendenciosidade se anula. embora com tendência que tende a se anular quando o tamanho n da amostra for grande. b = V (R) . isto é. b Com o objetivo de calcular uma medida da precisão do estimador R. será b estabelecida uma cota superior a tendenciosidade de R que permitirá também a determinação do tamanho de amostra necessário para tomar desprezível a tendenciosidade. quando a condição anterior não é satisfeita.1. com coeficiente angular ρ ( Sy /Sx ) . que a expressão de EQM pode ser escrita como:  h i2  b h i2 T (R)  b  b b b EQM (R) = V (R) + T (R) = V (R) 1 +  b V (R) Analisando-se a expressão acima. b Foi verificado que. note-se que: b = b V (R) ∼ EQM(R) h i2 b T (R) b V (R) ∼0 = quando: b Assim. quando se trata de um estimador viciado. a medida de sua precisão deve ser o seu erro quadrático médio. a condição para que R seja um estimador não viciado de R é que Y = ρ ( Sy /Sx ) X.

q p b x) = ρ∗ V (R) V (x) b COV (R. x) COV (R. 10 ou q ≤ 0. x) b b T (R ) = E(R ) − R = − X b b x) = ρ∗ o coeficiente de correlação entre R e x. x) Y =R− − X X X ou ainda: . note-se que: b b b COV (R. Substituindo na expressão anterior.8 CAPÍTULO 1. 01 b V (R) Ora. Logo: Seja ρ (R. x) = E(R x) − E(R ) E(x) b = E( y) − E(R ) X Donde: b COV (R. x) Y b = − E(R ) X X b = Y − E(R ) X ou seja: b E(R ) = ou ainda: b COV (R. 10 b b V (R) V (R) Por outro lado. ESTIMADORES ESPECIAIS b b Um critério prático para avaliar quão próximos estão V (R) e EQM(R) consiste em verificar se: h i2 b T (R) ≤ 0. segue-se que: p q V (x) b b T (R ) = −ρ∗ V (R) X p b V (x) T (R ) q = −ρ∗ X b V (R) ¯ ¯ ¯ ¯ b ¯ T (R ) ¯ ¯ = |ρ∗ | CV (x) ¯q ¯ ¯ ¯ V (R) ¯ b b b COV (R. isto eqüivale a verificar se: ¯ ¯ ¯ ¯ ¯ ¯ b ¯ b¯ ¯E(R) − R¯ ¯T (R)¯ q ≤ 0.

já foi visto na demonstração anterior que: Ã 2 ! ¶ µ ξ φ φ ξ φ b= R∼R +R +R − 2 − Y X Y X X Agora o objetivo é obter uma expressão para a variância do estimador de b razão R. isto é . deve-se ter: CV (x) ≤ 0.000. Variância do estimador de uma razão b o vício de R for pequeno. que seja adequada para medir suaq precisão. 4 e N = 5. quando . então n ≥ 16 bastaria para tornar b desprezível a tendenciosidade do estimador de razão R.2. ESTIMAÇÃO DE UMA RAZÃO Lembrando a condição de |ρ∗ | ≤ 1 segue-se que: ¯ ¯ ¯ ¯ b ¯ T (R ) ¯ ¯q ¯ ≤ CV (x). 10 Sendo assim. 10.2 Por exemplo. ¯ ¯ ¯ V (R) ¯ b 2 Sx 9 Considere a expressão do tamanho de uma amostra aleatória simples dada por: 2 N zα/2 2 2 Sx 2 2 N zα/2 Cx 2 2 2 N zα/2 (CV (x))2 + zα/2 Cx 2 Cx n= X = = 2 N d2 + zα/2 r X 2 (CV (x))2 + 2 Cx N já que a precisão relativa da média amostral pode ser escrita como: 2 2 2 dr = zα/2 CV (x) e Cx = Sx /X é a variância relativa da característica x na população (ou coeficiente de variação da população ao quadrado da característica x). basta tomar n tal que: n≥ 2 Cx 2 Cx N 0. isto só tem b b sentido quando se puder admitir que T (R) / V (R) < 0. b Assim. De fato. para se ter tendenciosidade desprezível no estimador de razão R. se Cx = 0. 01 + 1.2.1. Ora.

µ b = E(R) ∼ R + R E ¶ +R à φ ξ φ 2 − Y X X ! φ 2 b Daí. a variância de R é dada por: ³ ´2 b b b V (R) = E R − E(R) à 2 ! à 2 !#2 " µ ¶ ξ φ φ ξ φ φ ξ φ ∼ E R +R −RE − = 2 − 2 − Y X Y X Y X X X Nesta última expressão. ESTIMADORES ESPECIAIS à ! à 2 logo. Então: õ ¶2 ! ξ φ b = V (R) ∼ R2 E − Y X à à 2! à 2! ¶! µ ξ φ ξ φ +E − 2E = R2 E 2 2 Y X Y X µ ¶ 2 1 1 2 Cov(x.10 e que: CAPÍTULO 1. certas vezes mais conveniente para fins de cálculo que as expressões já apresentadas: . y) = R 2 V (y) + 2 V (x) − Y X Y X ¶ µ 2 2 Sy Sx Sxy 2 N −n1 = R + −2 N n Y 2 X2 Y X ¶ µ 2 2 S N −n1 2 y 2 Sx 2 Sxy R 2 + R 2 − 2R = N n Y X Y X ¢ N −n 1 ¡ 2 2 2 = 2 Sy + R Sx − 2 R Sxy N nX ¡ 2 ¢ 2 b = N − n 1 Sy + R2 Sx − 2 R ρ Sx Sy V (R) ∼ N n X2 1 X b = N −n 1 V (R) ∼ (YI − R XI )2 N n X 2 N − 1 I=1 N ξ φ b b = R − E(R) ∼ R − Y X ξ φ 2 − Y X X 2 −R E ξ φ 2 − Y X X φ ! ou ainda: b Há outra maneira de escrever a expressão da variância de R. desprezar todos os termos com grau superior a 2.

Suponha que os valores de duas variáveis x e y nas 4 unidades da população são: Ui U1 U2 U3 U4 Yi 1 2 3 4 Xi 1 3 4 6 Y (a) Calcule o valor da razão populacional X . Solução: a) A razão populacional é dada por: N P Y R= = i=1 N P X i=1 Yi = Xi 10 5 = 14 7 O número de possíveis amostras é dado por: µ ¶ µ ¶ N 4! 4 = = =6 n 2 2!(4 − 2)! . obtenha todas as possíveis amostras de tamanho 2. isto é. pode ser ilustrado imaginando a aplicação de amostragem em uma população muito pequena e examinando o espaço amostral. o conjunto de todas as possíveis amostras. (b) Calcule os valores exatos do vício. do erro quadrático médio e da variância desse estimador. ESTIMAÇÃO DE UMA RAZÃO 11 Exemplo 1. sob amostragem aleatória simples.2. a serem selecionadas aleatoriamente e sem reposição e estime essa razão para cada possível amostra. (d) Compare os resultados obtidos em (b) com os resultados obtidos em (c). (c) Calcule os valores aproximados do vício e da variância desse estimador.1 O vício e erro quadrático médio do estimador de uma razão.1.

00185 E(R 6 4 7 5 7 9 7 10 7 h i2 b b b V (R) = E(R − R)2 − T (R) = 0.12 CAPÍTULO 1. 0000009 = 0. 0018491 µ 2 Sx c) O vício aproximado é dado por: b = N −n 1 T (R) ∼ R N n X 2 Sxy − Y X ¶ = ¢ 1−f ¡ 2 R Sx − Sxy 2 nX . 00185 − 0. ESTIMADORES ESPECIAIS Amostras possíveis Probabilidades y = U 1 U2 U1 U3 U1 U4 U2 U3 U2 U4 U3 U4 1 6 1 6 1 6 1 6 1 6 1 6 i=1 3 4 5 5 6 7 n P yi x= i=1 4 5 7 7 9 n P xi b y R= x 3 4 4 5 5 7 5 7 6 9 7 10 10 b o valor exato do vício de R é dado por: b) Os valores exatos do vício e do erro quadrático médio deste estimador podem ser obtidos a partir da distribuição de todas as possíveis amostras: µ ¶ b = 1 3 + 4 + 5 + 5 + 6 + 7 = 365 E(R) 6 4 5 7 7 9 10 504 5 365 5 b b T (R) = E(R) − R = − = = 0. 0099 504 7 504 e a variância dada por: O erro quadrático médio é dado por: µ ¶ b − R)2 = 1 ( 3 − 5 )2 + ( 4 − 5 )2 + ( 6 − 5 )2 + ( 7 − 5 )2 = 0.

.2. 0087 µ 2 7 3 3 343 7 2 2 com respeito à variância aproximada tem-se: ¡ 2 ¢ 2 b = N − n 1 Sy + R2 Sx − 2 R Sxy V (R) ∼ 2 N nX ¢ 1−f ¡ 2 2 2 = 2 Sy + R Sx − 2 R Sxy nX N P sendo: 2 Sy = I=1 Yi2 − N Y N −1 2 = 30 − 25 5 = 3 3 portanto: ¡ 2 ¢ 2 b = 1 − f Sy + R2 Sx − 2 R Sxy V (R) ∼ 2 nX 1 Ã µ ¶ µ ¶! µ ¶2 µ ¶ 5 5 8 13 5 2¶ −2 = 0. ESTIMAÇÃO DE UMA RAZÃO sendo: f = 1 2 n=2 N P 13 7 2 X= Xi2 − N X N −1 2 2 Sx = I=1 = 62 − 49 13 = 3 3 Sxy = I=1 N P Xi Yi − N X Y N −1 = 43 − 35 8 = 3 3 ¡ ¢ 2 b = 1 − f R Sx − Sxy = T (R) ∼ 2 nX 1 ¶ µ µ ¶ 2 ¶ 5 13 − 8 = 3 = 0. 00139 = + µ 2 3 7 3 7 3 7 2 2 d) Observe que o vício aproximado subestima ligeiramente o valor verdadeiro do vício e a variância aproximada subestima ligeiramente o valor verdadeiro da variância.1.

2. é dado por: onde: s2 = x sxy 1 X = (xi − x)(yi − y) n − 1 i=1 n 1 X (xi − x)2 n − 1 i=1 2 2 que são estimadores não viciados de Sy . respectivamente. Os resultados teóricos conhecidos se distanciam muito do que seria desejável e necessário possuir nas aplicações práticas. os principais resultados serão aqui apresentados sem demonstração. ESTIMADORES ESPECIAIS 1. Sx e Sxy . quando X for conhecido. quando X for conhecido.2. que se verificou ser bastante intratável e intrincada. b Um estimador para V (R).4 Precisão do estimador de uma razão A precisão do estimador de uma razão depende da distribuição de probabilb idades do estimador R. um estimador alternativo para V (R) é dado por: ou ´ N − n 1 ³ 2 b2 2 b b v2 (R) = sy + R sx − 2 R sxy N n x2 N −n 1 1 X b b v2 (R) = (yi − R xi )2 .3 Estimação da variância do estimador de uma razão ´ N − n 1 ³ 2 b2 2 b b v1 (R) = sy + R sx − 2 R sxy N n X2 s2 y 1 X = (yi − y)2 n − 1 i=1 n n b Um estimador consistente para V (R). expresso de outra forma é dado por: b Quando X não for conhecido. Assim. N n x2 n − 1 i=1 n b v1 (R) = N −n 1 1 X b (yi − R xi )2 2 N n X n − 1 i=1 n 1. devido ao fato de tanto os xi como os yi variarem de amostra para amostra. .14 CAPÍTULO 1.

o tamanho n da amostra deve ser tal que:         2 2 Cy Cx n ≥ max 30. Outro aspecto é que a distribuição assintótica do estimador de razão é normal para amostras bastantes grandes.2. 2 2    0. onde: zα/2 é a abscissa da distribuição Normal padrão tal que   b−R α R > zα/2  = P q 2 b V (R) ¯ ¯  ¯ ¯ µ¯ ¶ q ¯ b ¯ R−R ¯ ∼ 1 − α =⇒ P ¯R − R¯ ≤ zα/2 V (R) ∼ 1 − α ¯ ≤ zα/2  = b = P ¯ q ¯b ¯ ¯ ¯ ¯ V (R) ¯ b . já foi demonstrado que o estimador de razão é consistente. Estes resultados indicam que não há problemas para calcular a precisão ou a precisão relativa do estimador de razão quando: b a) a distribuição de R for aproximadamente normal. sujeito apenas a restrições muito fracas quanto ao tipo de população de que se esteja selecionando a amostra. b Em amostras de tamanhos moderados. . se viu também que ele é viciado. suficientemente grandes para que se tenha CV (x) < 0. b b) a fórmula para estimação da variância de R possa ser utilizada. 10 e CV (y) < 0. se pode afirmar que: b R−R ∼ q = N(0. 10. Além disso.1. ESTIMAÇÃO DE UMA RAZÃO 15 Inicialmente. 01 + Cx 0. embora o vício seja desprezível para amostras grandes. exceto para certos tipos especiais de população. a distribuição de R mostra certa tendência a uma assimetria positiva para os tipos de população para as quais o método é comumente usado. Em termos práticos. isto é. 01 + Cy    N N Nestas condições. 1) b V (R) Daí segue-se que: e α é o nível de significância. as hipóteses a) e b) podem ser assumidas sem risco apreciável para amostras de no mínimo 30 unidades.

A esse respeito.3 Estimadores de razão para o total e a média Uma forma usualmente eficaz de aproveitar o conhecimento de informações existentes sobre a população. 1. caso as condições para aproximação pela normal não sejam satisfeitas. e ii) os valores observados na amostra. b b O estimador da precisão relativa do estimador de R. ESTIMADORES ESPECIAIS Portanto. o valor dr (R) tal que: q b v(R) b = zα/2 b dr (R) = zα/2 cv(R) b R q b b d(R) = zα/2 v(R) Estas informações podem ser utilizadas para a construção de intervalos de confiança para R. Se para determinada característica x. é desejável incorporar informação de fontes externas independentes para aumentar a confiabilidade das estimativas da pesquisa e também para promover consistência nos resultados publicados por diferentes pesquisas. A ídéia básica é aproveitar a interdependência de x e y e a existência de informações sobre x livres de erro de amostragem para conseguir estimativas mais precisas. Então é possível construir estimadores cuja precisão deve ser melhor que a dos estimadores simples ou naturais já apresentados.16 CAPÍTULO 1. consultar Fieller (1932) e Paulson (1942). com o objetivo de melhorar a qualidade das estimativas de uma amostra. . é a utilização de estimadores de razão. b Pode-se utilizar como estimador da precisão do estimador de R. o valor b tal que: d(R) b b b com v(R) dado por v1 (R) ou v2 (R) conforme a conveniência. Muitas vezes. q b b b D(R) = zα/2 V (R) é a precisão do estimador R. correlacionada com a característica de interesse y são conhecidos: i) o valor verdadeiro da média ou total da população. e √ V (R) b b b Dr (R) = zα/2 R = zα/2 CV (R) é a precisão relativa do estimador R.

ESTIMADORES DE RAZÃO PARA O TOTAL E A MÉDIA 17 As técnicas que foram apresentadas para estimação de uma razão podem ser adaptadas e utilizadas para melhorar as estimativas da média e total de uma dada característica y. obtida pela projeção de população. e y R o estimador de razão para estimar a média da característica y. Neste caso é feito um ajuste das estimativas provenientes da amostra de tal modo que os totais da população estimados coincidam com os resultados da população projetada que o IBGE elabora e divulga. bastando que seja conhecido o total populacional (X) ou a média (X) da característica x na população. se X for conhecido. utilizando como variável auxiliar a estimativa da população residente.1. tem-se: R = Y Y Y b y e R= X x Y b b X = R X =⇒ YR = R X = X b YR Y b X = R X =⇒ y R = R X = = N X Em pesquisas domiciliares. sem erro de amostragem.3. obtido considerando os pesos simples da amostra. b X é o estimador de total da população residente. é prática corrente no IBGE o uso de estimadores de razão para estimar o total. obtida pela projeção de população. obtido considerando os pesos simples da amostra. para uma determinada área da Pesquisa Nacional por Amostra de Domicílios (PNAD) pode ser escrito genericamente como um estimador de razão da forma: n P sendo: b YR o estimador de razão para estimar o total da característica y. wi yi n n n X X X b bP NAD = R Xp = Y Xp = i=1 b Y Xp = α wi yi = δ i yi (α wi ) yi = n P b X i=1 i=1 i=1 wi xi i=1 . b Y é o estimador de total da característica y. Xp é a estimativa da população residente. O estimador do total de uma característica y qualquer. utilizado na PNAD. para a área em questão. onde: b YP NAD é o estimador de razão para o total da característica y ajustado pela projeção de população. por exemplo. Ora.

yi é o valor da característica y associado ao i-ésimo domicílio da amostra. b X δ i = α ω i é o peso final ajustado associado ao i-ésimo domicílio da amostra. Xp α= é o fator de ajuste dos pesos simples wi .611. Dessa forma. ESTIMADORES ESPECIAIS wi é o peso amostral associado ao i-ésimo domicílio da amostra. para a área em questão. n é o número de domicílios na amostra da PNAD. bastando notar que YR é igual a R vezes a constante X. Para esse mesmo desenho amostral. para a média y R tem-se: ³ ´ b b E(y R ) − y R = X E(R) − R . as expressões são b b adaptadas e utilizadas.535. 1.3. xi é o total de pessoas associado ao i-ésimo domicílio da amostra.711) e o valor da estimativa do total da população residente obtida considerando os pesos simples da amostra para a área em questão (1. que corresponde à razão entre a população residente projetada para a data da pesquisa (1.18 CAPÍTULO 1. o valor do fator de ajuste dos pesos da PNAD 95 para Sergipe é de α = 1. para a área em questão.1 Variâncias dos estimadores de razão para o total e a média Todas as técnicas para estimação da precisão anteriormente apresentadas foram feitas supondo que o desenho da amostra era com seleção aleatória simples sem reposição. 05. obtido considerando os pesos simples da amostra. para a área em questão. A título de ilustração. tem-se: ³ ´ bR ) − YR = X E(R) − R b b b E(Y ¢ N −n 1 ¡ 2 2 b = b V (YR ) = X 2 V (R) ∼ X 2 Sy + R2 Sx − 2 R Sxy N n X2 ¢ N −n¡ 2 2 Sy + R2 Sx − 2 R Sxy = N n N −n 1 X b V (YR ) = N (YI − R XI )2 n N − 1 I=1 N ou De modo análogo.111).

3.3 Comparação da precisão do estimador de razão com a do estimador simples em amostragem aleatória simples N −n1 1 X b v(y R ) = (yi − R xi )2 N n n − 1 i=1 n i N − n 1 h 2 b2 2 b sy + R sx − 2 R sxy N n A partir de uma amostra aleatória simples sem reposição de n unidades se conhece expressões para as variâncias do estimador simples e do estimador de razão para estimar o total (ou a média). Sendo assim.1. Portanto.3. é possível comparar a precisão alcançada com cada um através da comparação entre suas variâncias. para o caso do estimador de total. ESTIMADORES DE RAZÃO PARA O TOTAL E A MÉDIA V (y R ) = V ( ou b ¢ YR ∼ N − n 1 ¡ 2 2 Sy + R2 Sx − 2 R Sxy )= N N n N 19 N −n1 1 X V (y R ) ∼ (YI − R XI )2 = N n N − 1 I=1 1.2 Estimação das variâncias dos estimadores de razão para o total e a média h i b x b bR ) = X 2 v(R) = N N − n s2 + R2 s2 − 2 R sxy b v(Y y n b b v(YR ) = X 2 v(R) = N 2 b Um estimador para V (YR ) é dado por: ou e um estimador para V (y R ) é dado por: b v(y R ) = X v(R) = N −n 1 X b (yi − R xi )2 n n − 1 i=1 n ou 1.3. sabe-se que: 2 N − n Sy b V (Y ) = N 2 N n ¢ N −n 1 ¡ 2 2 2 b V (YR ) = X 2 2 Sy + R Sx − 2 R Sxy N nX ¢ N −n 1 ¡ 2 2 Sy + R2 Sx − 2 R Sxy = N2 N n .

esta relação pode ser utilizada para verificar. já que muitas vezes é possível conhecer aproximadamente o valor de ρ = ρ (x. . 2. tendo sido selecionadas nh unidades e investigadas as características x e y em cada unidade da amostra de cada estrato. L). O b estimador de razão combinada YRC para estimar o total populacional (Y ) é definido por: b y Yest b X = est X YRC = b xest Xest onde: L P b Nh y h é o estimador simples do total da característica y na Yest = h=1 amostra estratificada. 1.4 Estimadores de razão em amostragem estratificada Nas seção 1. Suponha que seja também conhecido o total populacional para a característica x.3 foi tratado o caso de utilização do estimador de razão para estimar o total populacional (Y ) a partir de uma amostra aleatória simples sem reposição de tamanho n.4. quando é conveniente o uso do estimador de razão ao invés do estimador simples do total ou da média. 1. e • estimador de razão separada. há dois estimadores de razão para estimar o total populacional (Y ): • estimador de razão combinada.20 Note-se que: b V (YR ) CAPÍTULO 1. · · · . y) e também a relação entre Cx e Cy . No caso de uma amostra estratificada. ESTIMADORES ESPECIAIS 2 2 2 b V (Y ) ⇐⇒ Sy + R2 Sx − 2 R ρ Sx Sy < Sy R Sx 2 ⇐⇒ R2 Sx < 2 R ρ Sx Sy ⇐⇒ ρ > ⇐⇒ 2 Sy Y Sx Sx /X 1 Cx =⇒ ρ > ⇐⇒ ρ > ⇐⇒ ρ > 2 Cy 2 X Sy 2 Sy /Y < Na prática.1 Estimador de razão combinada Considere então. o problema de estimar o total Y a partir de uma amostra aleatória estratificada selecionada de uma população com L estratos de tamanho Nh (h = 1.

· · · . ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA21 L P b Xest = Nh xh é o estimador simples do total da característica x na h=1 amostra estratificada. ˆ Acontece que. conhecido de alguma fonte externa a amostra. e não dos totais Xh dos estratos. 2. e b Xest xest = é o estimador simples da média da característica x na amostra N estratificada. livre de erros de amostragem. como YRC é um estimador de razão se pode demonstrar que: b | E(YRC − Y | b q ≤ CV (Xest ) = CV (xest ) b V (YRC ) b O estimador YRC depende apenas do conhecimento do total X. tem—se afirmado que em muitos casos o estimador de razão é preferível ao estimador natural (simples) por que dá melhor precisão. esta afirmação só é verdadeira. L vem: Nh y h = Nh xh = L X h=1 Nh Y h = Y Nh X h = X donde: b Xest = L X h=1 É sabido que os estimadores de razão são viciados exceto se a população for de um tipo muito especial em termos de relação entre x e y.1 b Yest y est = é o estimador simples da média da característica y na amostra N estratificada. Isto é. Apesar disso.1. b YRC |n=N = Y b Yest = L X h=1 L X h=1 Prova: se n = N com nh = Nh ∀h = 1. 1 Y b X=Y YRC |n=N = X . Entretanto. X é o total da característica x. b O estimador de razão combinada YRC é consistente para o total Y . quando se consegue tornar desprezível o vício ou tendenciosidade do estimador de razão.4.

01 X + 2 onde: nh αh = depende do critério de alocação da amostra em cada estrato. ESTIMADORES ESPECIAIS é usual considerar a tendensiosidade desprezível quando b CV (Xest ) = CV (xest ) ≤ 0. Assim ao dimensionar a amostra para estimar Y é indispensável garantir um tamanho mínimo tal que se tenha CV (xest ) ≤ 0. n Nh ¢2 P¡ 1 2 Sh (x) = Xhj − X h Nh − 1 j=1 Xhj é o valor da característica x associada à unidade j do estrato h. Não se dispõe de uma expressão exata para a variância do estimador de razão combinada.22 CAPÍTULO 1. 01 2 2 nα N N 2 Nh h X X h=1 h=1 ⇒ L X N 2 S 2 (x) h=1 h N2 h n αh ≤ 0. Esta condição quanto à precisão na estimação de X será também usada no estabelecimento de uma expressão aproximada para a variância do estimador de razão combinada. 01 ⇒ 2 − ≤ 0. 10. Porém. se a amostra é de tamanho suficientemente grande para tornar desprezível a tendenciosidade do estimador. 01 X + 2 N h h=1 N L X N 2 Sh (x) h h=1 N 2 Nh . há que notar a equivalência de fixar um coeficiente de variação ¯ de 10% para xest e de admitir um erro máximo de 20% na estimação de X com 95% de confiança. pode—se obter uma expressão aproximada para a variância: õ ¶2 ! ³ ´2 y est b b V (YRC ) ∼ E YRC − Y = E X −Y = xest õ µ 2 ¶2 ! ¶ X Y X y est 2 X− xest =E = E (y est − R xest ) xest X xest x2 est ! à 2 X (y est − R xest )2 = N 2E x2 est 2 2 L P Sh (x) Nh 2 h=1 αh N ⇒n≥ 2 2 L P Nh Sh (x) 2 0. Além disto. 10 Isto significa em: à L ! L X N 2 S 2 (x) X N 2 S 2 (x) V (xest ) 1 h h h h ≤ 0.

y est )] = +N 2 [Y + R2 X − 2RX Y ] 2 2 2 como: Y + R2 X − 2RX Y = (Y − RX)2 = 02 = 0 b V (YRC ) ∼ N 2 [V (y est ) + R2 V (xest ) − 2R COV (xest . y est )] = V (y est ) = L X N 2 Nh − nh S 2 (y) h=1 h N2 h 2 agora: Nh nh V (xest ) = onde: 2 Sh (y) L X N 2 Nh − nh S 2 (x) h h h=1 Nh Nh nh h 1 X = (Yhj − Y h )2 Nh − 1 j=1 h 1 X = (Xhj − X h )2 Nh − 1 j=1 N N 2 Sh (x) .4. y est ) + X Y Daí b V (YRC ) ∼ N 2 [V (y est ) + R2 V (xest ) − 2 R COV (xest . ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA23 supondo—se n grande. y est ) + E(xest )E(y est ) = COV (xest .1. tem se X ∼ =1 xest Daí ¡ ¢ b V (YRC ) ∼ N 2 E (y est − R xest )2 = N 2 E y 2 + R2 x2 − 2R y est xest = est est 2 Porém: E(y 2 ) = V (y est ) + [E(y est )]2 = V (y est ) + Y est 2 E(x2 ) = V (xest ) + X est E(xest y est ) = COV (xest .

y h ) N2 = = Lembrando—se que a amostra dentro de cada estrato é aleatória simples. y) COV (xh . y est ) = E[xest − X)(y est − Y )] !Ã L !# "Ã L L L X Nh X Nh X Nh X Nh xh − Xh y − Yh = E N N N h h=1 N h=1 h=1 h=1 #" L #) (" L X Nh X Nh (xh − X h ) (y − Y h ) = E N N h h=1 h=1 # " L X N2 h (xh − X h )(y h − Y h ) = E N2 h=1   L L  X X Nh Nk  (xh − X h )(y k − Y k ) +E   N N h=1 k=1 k6=h L X h=1 L X h=1 2 Nh E(xh − X h )(y h − Y h ) + 0 N2 2 Nh COV (xh . obtém-se: b V (YRC ) ∼ N 2 = L X N 2 Nh − nh 1 2 h [S 2 (y) + R2 Sh (x) − 2 R Sh (x. y h ) = Nh nh onde h 1 X Sh (x. y) h h=1 N2 Nh nh . ESTIMADORES ESPECIAIS COV (xest . vem: Nh − nh Sh (x. y) = (Xhj − X h )(Yhj − Y h ) Nh − 1 j=1 N Então finalmente: COV (xest . y est ) = Daí.24 e finalmente: CAPÍTULO 1. y)] N 2 Nh nh h h=1 L X N 2 Nh − nh Sh (x.

y) são estimadores não viciados de Sh (y). ou seja: s2 (y) h s2 (x) h sh (x. y).1. y) vem: b V (YRC ) ∼ = L X h=1 "N # h X (Yhj − Y h )2 + R2 (Xhj − X h )2 − 2R(Xhj − X h )(Yhj − Y h ) j=1 L X h=1 2 Nh Nh − nh 1 Nh − 1 Nh nh b ⇒ V (YRC ) ∼ = Nh Nh − nh Nh − 1 nh y b Rest = est xest 2 2 2 2 e sh (y). Sh (x) e Sh (x. y) = h 1 X = (yhj − y h )2 nh − 1 j=1 onde: b v(YRC ) = b Um estimador de V (YRC ) é dado por: L X (N ) h X 2 [(Yhj − Y h ) − R(Xhj − X h )] j=1 i (Nh − nh ) h 2 2 best s2 (x) − 2 Rest sh (x. Sh (x) e Sh (x. ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA25 2 2 Substituindo-se nesta expressão os valores de Sh (y). sh (x) e sh (x. y) b sh (y) + R Nh h nh h=1 n h 1 X (xhj − xh )(yhj − y h ) nh − 1 j=1 h 1 X = (xhj − xh )2 nh − 1 j=1 n n O estimador de razão combinada para estimar a média Y é dado por: b YRC N Neste caso a variância V (y RC ) é dada por: 1 b V (y RC ) = 2 V (YRC ) N e um estimador de V (y RC ) é dado por: 1 b v(y RC ) = 2 v(YRC ) N y RC = . respectivamente.4.

pois o vício do estimador pode ser significativo impedindo mesmo o cálculo de uma estimativa da precisão como será visto mais adiante Para ver porque isto ocorre. · · · . A principal diferença do estimador de razão separada para o estimador de razão combinada está no nível em que se faz uso da estimação por razão: no estimador de razão separada são feitas razões em cada um dos estratos.26 CAPÍTULO 1. Isto é: ˆ YRS |n=N = Y Prova: se n = N com nh = Nh =⇒ y h = Y h b YRS |n=N = L Xy h=1 h L L X Yh X Xh = Nh Y h = Y Xh h=1 h=1 b R h Xh xh Xh = Em cada estrato. este estimador precisa ser analisado com maior cuidado. y b Definindo YhR = h Xh xh Vem: L X b bRS = YhR Y h=1 Se os nh forem todos suficientemente grandes. pode—se admitir que o b vício de YRS é desprezível. enquanto que no estimador de razão combinada uma única razão é feita para os estimadores de total disponíveis.4. basta um raciocínio intuitivo: b | E(YhR ) − Yh | q ≤ CV (xh ) ∀h = 1. b O estimador de razão separada YRS é consistente para o total Y .2 Estimador de razão separada Uma outra forma de utilizar estimadores de razão para conseguir maior precisão na amostragem estratificada é o chamado estimador de razão separada. porque depende de razões constuídas em cada um dos estratos. Caso isto não aconteça o uso deste estimador não é aconselhável. b YRS = L X yh h=1 xh Xh = L Xy h=1 h xh Xh = L X h=1 Note—se que é necessário conhecer os totais por estrato Xh da característica auxiliar x. L bhR ) V (Y . ESTIMADORES ESPECIAIS 1. sabe—se que: Quanto à tendendiosidade. 2.

Uma regra prática a√ adotar contra-indica o uso do estimador de razão L(CV (xh ) < 0.7 vezes seu erro padrão. Caso esta condição não se verifique. a expressão obtida para a variância não é confiável. ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA27 Suponha que o vício tenha o mesmo nível em todos os estratos. 20 ∀L = 1. Supondo os nh suficientemente grandes. 2. L. · · · . e o estimador de razão separada não deve ser usado. b o vício de YRS poderia ser da ordem de 0.4. separada a menos que: Talvez esta regra seja conservadora demais pois o vício pode ser bem menor que o limite superior conhecido. como b pode ocorrer. 1 em cada estrato. o erro padrão de YRS é apenas da ordem de bhR . mas a menos que haja forte evidência disso não se deve usar o estimador de razão separada. b Também não existe uma expressão exata para a variância de YRS . y) Nh nh . vem: à !2  L L X X b b b V (YRS ) ∼ E[(YRS − Y )2 ] = E  Yh  YhR − = à !2  L X y ( h Xh − Yh )  = E xh h=1 "µ ¶2 # L X yh E Xh − Yh + = xh h=1 ¶µ ¶ L L X X µy yk h E Xh − Yh Xk − Yk + xh xk h=1 k=1 k6=h L X h=1 L X h=1 h=1 h=1 ∼ = = b V (YhR ) + 0 2 Nh ¤ Nh − nh 1 £ 2 2 2 Sh (y) + Rh Sh (x) − 2Rh Sh (x. Porém.1. Logo: vezes o erro padrão de Y b | E(YRS ) − Y | q b V AR(YRS ) √ poderia ser tão grande quanto L CV (xh ) Exemplo: Se tivermos 50 estratos com CV (xh ) = 0. e então o vício de YRS será aproximadamente L vezes o √ b ˆ L vício em YhR . Será obtida uma expressão aproximada no caso em que os nh são suficientemente grandes para tornar desprezível o vício em cada um dos estratos.

s2 (x) e sh (x. y)] h Em geral. y) são como definidos anteriormente.3 Comparação dos estimadores de razão separada e combinada b2 h b [s2 (y) + Rh s2 (x) − 2Rh sh (x.28 onde: Rh = CAPÍTULO 1. 20 ∀h . Sh (x) e Sh (x. y) são como definidos anteriorh h xh xh mente. há que verificar sempre se √ LCV (xh ) ≤ 0. o estimador de razão combinada deve ter vício bem menor que o estimador de razão separada. para amostras de tamanho idêntico. y) b Nh sh (y) + R h nh h=1 Neste caso a variância V (y RS ) é dada por: V (y RS ) = 1 b V (YRS ) N2 1 b v(YRS ) N2 e um estimador de V (y RS ) é dado por: v(y RS ) = v(y RS ) = X Nh (Nh − nh ) N2 nh 1. ESTIMADORES ESPECIAIS Yh 2 2 e Sh (y).4. O estimador de razão separada para estimar a média Y é dado por: y RS = b YRS N i (Nh − nh ) h 2 2 bh s2 (x) − 2 Rh sh (x. No uso do estimador de razão separada. Xh Esta variância pode ainda ser escrita: (N ) L h X N 2 Nh − nh 1 X h b V (YRS ) ∼ [(Yhj − Y h ) − Rh (Xhj − X h )]2 = Nh−1 Nh nh j=1 h=1 b Um estimador de V (YRS ) é dado por: b v(YRS ) = L X y yh b onde: Rh = h = e s2 (y).

1. Exemplo 1.estimador simples da amostragem estratificada. supondo que em cada estrato a amostra será aleatória simples.4. 3 . ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA29 Em ambos os casos. y)] Nh nh − ∼ = h=1 L X h=1 L X 2 Nh Nh Nh − nh 2 2 [(R2 − Rh )Sh (x) − 2(R − Rh )Sh (x. A população é dividida em 2 estratos. . Através da comparação das variâncias é feita a avaliação da melhor precisão alcançada entre os estimadores de razão em amostragem estratificada: b b V (YRC ) − V (YRS ) ∼ = L X h=1 2 Nh Nh − nh 1 2 2 [Sh (y) + R2 Sh (x) − 2R Sh (x. sendo que o primeiro contém as fazenda com menos de 160 acres.estimador de razão combinada da amostragem estratificada. A idéia é comparar a precisão de estimadores alternativos para estimar a média da área com plantação de milho por fazenda.167) Os dados são provenientes do Censo Agropecuário de todas as fazendas do município de Jefferson em Iowa. 4 . supondo que em cada estrato a amostra será aleatória simples.2 (Cochran (1977). 2 . o estimador da razão separada tende a dar maior precisão.estimador de razão separada da amostragem estratificada. Calcule a variância do estimador da média segundo cada uma das 5 estratégias: 1 . pág. 5 . sendo que 70 serão selecionadas do estrato 1 e 30 do estrato 2. supondo que em cada estrato a amostra será aleatória simples. y)] Nh nh Nh − nh 1 2 2 2 [Sh (y) + Rh Sh (x) − 2Rh Sh (x. supondo que a amostra será aleatória simples sem considerar a estratificação. A variável y investigada em cada fazenda é a área (em acres) com plantação de milho e a variável x a área de cada fazenda.estimador de razão. y)] nh Os dois estimadores serão igualmente precisos se Rh = R ou Yh /Xh = Y /X para todos os estratos. A medida que os Rh sejam mais distantes de R. Suponha que se deseja selecionar uma amostra de 100 fazendas. inclusive por se basear num conhecimento mais detalhado dos dados do universo da característica x. supondo que a amostra será aleatória simples sem considerar a estratificação.. os tamanhos de amostra que garantem uma tendenciosidade desprezível podem ser determinados.estimador simples.

56 2 2 Sh (y) Sh (x) Sh (x. 001525)(922) = 4.Amostra aleatória simples (AAS): y = 2 2 N − n Sy ∼ Sy 620 V (y) = = 6. Nh − nh ∼ N −n ∼ considerar =1e = 1.85 2010 26. ou seja. 20 = = N n n 100 y 2 . 008828)(312) + (0. n 1P yi é o estimador simples n i=1 da média da área com plantação de milho por fazenda Solução: 1 . 51 = 100 L P Nh y h é o estimador 3 .Amostra aleatória simples (AAS): y R = X é o estimador de razão x da média da área com plantação de milho por fazenda ¤ 1£ 2 ¤ N −n1 £ 2 2 2 Sy + R2 Sx − 2 R Sxy ∼ Sy + R2 Sx − 2 R Sxy = N n n 1 [620 + (0.30 117.Amostra aleatória estratificada (AAE): y est = h=1 N simples da média da área com plantação de milho por fazenda V (y R ) ∼ = L X N 2 Nh − nh S 2 (Y ) h=1 h N2 h V (y est ) = = Nh nh ∼ = L X h=1 L X N 2 S 2 (y) h h h=1 N 2 nh 2 Qh Sh (y) = (0. 2242)(1453)] = 3. ESTIMADORES ESPECIAIS Os dados são apresentados na tabela a seguir: Estratos 1 2 Total T amanho (acres) Nh Yh Xh 82.40 430 312 922 620 2055 7357 7619 494 858 1453 51.63 244. 2242)2 (7619) − 2(0. h = 1 e 2.30 CAPÍTULO 1.001525. Considere Qh = 2 N nh Compare os resultados e comente. N Nh 2 Nh 1 e que Q1 = 0.008828 e Q2 =0.2350 0.28 Os fatores de correção de população finita podem ser ignorados.2109 0. 16 . y) Rh 0.2242 ≤ 160 > 160 - 1580 19.

001525)(0. 2242)2 (7357) − 2(0. y) .Amostra aleatória estratificada (AAE): y RC = V ( y RC ) ∼ = ∼ = L X N 2 Nh − nh 1 £ ¤ h 2 2 Sh (y) + R2 Sh (x) − 2R Sh (x. 2242)(858) = 3.1. y) 2 N Nh nh h=1 L X h=1 = (0. 2350)2 (2055) + +(0. 001525)(922) + (0. y) 2 N Nh nh h=1 L X h=1 = (0. ESTIMADORES DE RAZÃO EM AMOSTRAGEM ESTRATIFICADA31 y est X é o estimador xest de razão combinada da média da área com plantação de milho por fazenda 4 . 008828)(0. 001525)(0. 2242)2 (2055) + +(0. 008828)(0. 008828)(312) + (0. y) L 1 P yh Xh é o esN h=1 xh timador de razão separada da média da área com plantação de milho por fazenda 5 . 2242)(494) + −2(0. 001525)(0. 2109)2 (7357) − 2(0.4. 008828)(0. 10 £ 2 ¤ 2 Qh Sh (y) + R2 Sh (x) − 2R Sh (x.Amostra aleatória estratificada (AAE): y RS = V ( y RS ) ∼ = ∼ = L X N 2 Nh − nh 1 £ ¤ h 2 2 2 Sh (y) + Rh Sh (x) − 2Rh Sh (x. 06 £ 2 ¤ 2 2 Qh Sh (y) + Rh Sh (x) − 2Rh Sh (x. 2109)(858) = 3. 001525)(0. 008828)(312) + (0. 2350)(494) + −2(0. 008828)(0. 001525)(922) + (0.

• Se para algumas variáveis da pesquisa existir uma relação proporcional com a variável xi e para outras variáveis existir uma relaçãp proporcional a uma outra variável zi .4 O uso de estimadores de razão No planejamento das pesquisas a decisão entre utilizar uma determinada variável na estratificação ou na estimação depende de uma série de circunstâncias. 00 = 2. ESTIMADORES ESPECIAIS Resumo e comentários: Estrat´gia e 1 2 3 4 5 Desenho amostral M etodo de ´ estima˜o a V ariˆncias a V (y) = 6. 77 = 1. 16 / 3. 03 razão combinada V ( y RC ) = 3. 20 V (y R ) = 3. 10 razão separada V ( y RS ) = 3. 06 = 1. Verifica-se que o ganho de precisão quando utilizar o estimador de razão com amostragem aleatória simples é de 77%. 06 Os resultados mostram que há ganhos de precisão com as estratégias 2 a 5 quando comparadas com a estratégia 1.4.Todos os métodos de estimação de razão estudados dependem da efetividade da proporcionalidade da relação entre os xi e yi . a estratificação pode ser mais eficiente. 49 = 2. são mais fáceis de serem introduzidos na estratificação do que no método de estimação. o ganho de precisão ao utilizar o estimador de razão separada em relação ao estimador simples da amostragem estratificada é de apenas 36%.32 CAPÍTULO 1. enquanto que ao utilizar o estimador de razão separada em relação ao estimador simples da amostragem aleatória simples é de 103%. podese verificar que ao se adotar amostragem estratificada. Com relações complexas ou discontínuas. Alguns pontos relevantes são: • Fatores como localização geográfica. Isto ocorre porque a variável de estratificação (tamanho da área) é a mesma variável auxiliar utilizada no estimador de razão. • A decisão depende da natureza da relação entre x e y. 16 Ganhos de precis˜o a AAS AAS AAE AAE AAE simples razão simples V (y) V (y R ) V (y) V (y est ) V (y) V ( y RC ) V (y) V ( y RS ) = 1. é melhor utilizar xi e zi como . então. 51 V (y est ) = 4. 1. Porém. pois: V (y est ) / V ( y RS ) = 4. 36.

Entretanto. Algumas restrições devem ser consideradas ao tomar a decisão de usar estimadores de razão: • Os tamanhos de amostra devem satisfazer às condições para tornar desprezível o vício do estimador empregado. • Quanto maior a associação entre a caracterítica auxiliar x e a característica de interresse y maior o ganho de precisão no uso de estimadores de razão. O estimador de regressão linear de Y é definido por: y reg = y + b(X − x) . não é necessário supor que os valores populacionais foram de fato gerados pelo modelo.5 Estimadores de Regressão O estimador de regressão tem sua definição baseada num modelo de regressão usado para representar a distribuição condicional da variável de interesse y dada a variável auxiliar x. Quando a relação entre y e x é examinada. • Não existem fórmulas exatas para o vício nem para a variância dos estimadores.1. Espera-se que o modelo represente bem a relação de y e x. o estimador de regressão é utilizado para melhorar a precisão através do uso de uma variável auxiliar x que é correlacionada com y. cuja média populacional (X) seja conhecida. Assim como o estimador de razão. Suponha que seja selecionada uma amostra aleatória simples de tamanho n. pode ser notado que embora haja uma relação linear. 1. embora as aproximações da variância existentes sejam satisfatórias para amostras cujo tamanho satisfaz a condição de tornar desprezível o vício.5. Neste caso sugere-se a utilização de um estimador baseado na regressão linear de y e x. A idéia é pensar que os valores populacionais poderiam ter sido gerados pelo modelo. O papel do modelo é o de descrever a dispersão condicional da variável de interesse y dada a variável auxiliar x na população finita. ESTIMADORES DE REGRESSÃO 33 variáveis auxiliares em estimadores de razão do que estratificar por uma delas. que sejam investigados os valores da característica de interesse y e da característica x. a reta não necessariamente passa pela origem.

y) é a correlação entre as variáveis x e y na população. O estimador de regressão para estimar o total Y é dado por: b Yreg = N y reg Neste caso. Esta variância pode ser estimada usando: N −n N N −n = N ¤ 1 n−1£ 2 sy + b2 s2 − 2bsxy x n n−2 n 1 1 X [(yi − y) − b(xi − x)]2 n n − 2 i=1 v(y reg ) = Outros estimadores de variância podem ser usados.34 CAPÍTULO 1. n Sua variância pode ser aproximada por: V (y reg ) ∼ = N −n1 2 S (1 − ρ2 ) xy N n y onde: ρxy = ρ(x. É possível demonstrar que o estimador de regressão y reg é consistente e 1 tem vício de ordem . a variância é aproximada por: e a variância pode ser estimada por: N −n1 2 b S (1 − ρ2 ) V (Yreg ) ∼ N 2 = xy N n y n Exemplo 1. ESTIMADORES ESPECIAIS onde: b é o estimador usual de mínimos quadrados baseado na amostra. 80) N −n1 1 X b v(Yreg ) = N 2 [(yi − y) − b(xi − x)]2 N n n − 2 i=1 . pág.3 (Thompson (1992). sxy b= 2 = sx n P i=1 (yi − y)(xi − x) i=1 n P (xi − x)2 O papel desempenhado pelo modelo será essencialmente de sugerir um estimador adequado b para usar no estimador de regressão. oferecendo melhor desempenho.

62 (150) = 1723 b y4 = 1330 + 2. yi ) da amostra são: (50. 5) + · · · + (200 − 125)(1850 − 1657. ESTIMADORES DE REGRESSÃO 35 Para estimar a produção total de uma plantação numa região com N = 100 áreas. tem-se: y1 = 1330 + 2. 62 (200) = 1854 b . é dada por: ¡ ¢ b Yreg = N y reg = N y + b(X − x) = 100 (1657. Neste caso. 1690).1. 5 + 2. que é conhecida para cada área da região. 62 (100) = 1592 b y3 = 1330 + 2. 62 (125) = 1330. vamos considerar o valor da linha de regressão ajustada para a i-ésima unidade da amostra estimada por: yi = a + bxi b onde: a = y − bx = 1675. (150. 62 12500 A estimativa da produção total da referida plantação. 1850).5. Os 4 pares de valores (xi . (100. A produção de uma área depende da quantidade xi de fertilizante aplicada na área. 1410). 5) = (50 − 125)2 + · · · + (2200 − 125)2 32750 = = 2. 5 e x = 125 e b o estimador usual de mínimos quadrados baseado na amostra: n P b = i=1 (yi − y)(xi − x) i=1 n P (xi − x)2 (50 − 125)(1410 − 1657. 1680) e (200. 62 (50) = 1461 b y2 = 1330 + 2. obtida através do estimador de regressão. resultando numa média populacional 100. As médias amostrais são: y = 1657. foram selecionadas aleatoriamente 4 áreas e medida a quantidade yi da produção de cada área da amostra. 62 (100 − 125)) = 100 (1592) = 159 200 Para obter a estimativa da variância. 5 − 2.

1 Comparação dos estimadores de regressão.5. o estimador de regressão é mais preciso que o estimador simples no exemplo com essa pequena amostra. = n N (N − n) X = (yi − yi )2 b n (n − 2) i=1 e a respectiva estimativa da variância é dada por: 100 (96) (33292) = 79 900 000 4 q b cujo desvio padrão é estimado por: v(Y ) = 8 939.36 CAPÍTULO 1. Isto ocorre em função da pequena variação dos resíduos sobre a reta de regressão ajustada. obtida através do estimador simples da amostragem aleatória simples. razão e simples da média sob amostragem aleatória simples N −n1 2 V (y reg ) ∼ Sy (1 − ρ2 ) = xy N n ¤ N −n1 £ 2 2 Sy + R2 Sx − 2 R Sxy V (y R ) ∼ = N n . = N (N − n) X b v(Y ) = N 2 v(y) = (yi − y)2 n i=1 Portanto. 5) = 165 750 4 ¤ 100 (100 − 4) £ (1410 − 1461)2 + · · · + (1850 − 1854)2 4 (4 − 2) 100 (96) = (7035) = 16 884 000 4 q b cujo desvio padrão é estimado por: v(Yreg ) = 4 109. 1. a estimativa da produção total da referida plantação. é dada por: b Y = N y = 100 (1657. ESTIMADORES ESPECIAIS N (N − n) 1 X b v(Yreg ) = N 2 v(y reg ) = [(yi − y) − b(xi − x)]2 n n − 2 i=1 n Por outro lado.

equivalentemente quando: 2 2 −ρ2 Sy < R2 Sx − 2 R ρxy Sy Sx xy isto é. podendo ser utilizado com um vetor de variáveis auxiliares e ser facilmente generalizado para o uso em desenhos amostrais complexos. se aplicado a variável auxiliar replica exatamente seu total conhecido na população.5. quando: ¡ ¢2 ρxy Sy − R Sx > 0 =⇒ µ Sxy −R 2 Sx ¶2 µ ρxy Sy Sx −R 2 Sx ¶2 >0 > 0 =⇒ (B − R)2 > 0 B corresponde ao ajuste populacional (hipotético) do modelo aos dados da população. é imediato notar que o estimador de regressão é mais preciso que o estimador simples da média a não ser ρxy = 0. o estimador de regressão é mais preciso que o estimador de razão a menos que B = R. ESTIMADORES DE REGRESSÃO 37 N −n1 2 S N n y Examinando as expressões acima. • oferece ganhos de eficiência em relação ao estimador simples. Algumas desvantagens e problemas devem ser consideradas ao tomar a decisão de usar estimadores de regressão: • o vício pode ser não desprezível com pequenas amostras. isto é.5. o que ocorre somente quando a regressão entre y e x é linear passando pela origem. .2 O uso de estimadores de regressão O estimador de regressão é útil por pelo menos três motivos: • oferece calibração na variável auxiliar. caso em que os estimadores são igualmente precisos. O estimador de regressão é preferível ao estimador de razão quando: V (y) = 2 2 −ρ2 Sy < R2 Sx − 2 R Sxy xy ou. 1.1. • tem grande flexibilidade. Logo.

porém não se dispõe de uma lista completa das unidades da população com os respectivos valores da característica a ser usada na estratificação. • usar pesos diferentes para diferentes variáveis de interesse da pesquisa é uma tentação. ESTIMADORES ESPECIAIS • os pesos podem ser negativos ou menores que 1. Acrescentar variáveis auxiliares nem sempre traz bom resultado. o estrato para o qual a unidade pertence não é conhecido até que os dados da amostra sejam coletados. . quando forem conhecidos os limites dos estratos. • quando há mais de uma variável auxiliar. e os seus respectivos tamanhos (através de um censo anterior. • a precisão pode não ser boa caso o modelo linear não se ajuste bem. distribui-se a amostra em L estratos previamente delimitados. 1. Nestes casos. iv) considera-se a parte da amostra em cada um dos estratos como uma amostra aleatória simples sem reposição do estrato (vide estimação em subpopulações). através da técnica de pós-estratificação que consiste no seguinte: i) seleciona—se uma amostra aleatória simples sem reposição de tamanho n da população π N (sem considerar a estratificação). · · · nL são variáveis aleatórias. é necessário usar método para escolha das que vão ser incorporadas na estimação. Assim sendo. n2 . a maneira de estimar será derivada da teoria apresentada para estimação em subpopulações. tais como: idade. raça e nível educacional são exemplos práticos dessa aplicação. o que é indesejável. Características de pessoas.38 CAPÍTULO 1. de tal forma que n1 + n2 + · · · + nL = n Neste caso n1 . por exemplo). ii) observa—se para cada unidade selecionada o valor da característica de estratificação x. ou seja. A amostra em cada estrato é considerada como uma amostra aleatória simples sem reposição da subpopulação formada pelas unidades pertencentes ao estrato. iii) de acordo com os valores observados de x. sexo. • maior complicação na estimação da variância. mas aumenta a complexidade e cria dificuldades práticas.6 Pós-estratificação É muito comum na prática a ocorrência de situações onde a técnica de estratificação poderia ser aplicada para melhorar a qualidade da amostra. é possível fazer uso da estratificação para melhorar a qualidade das estimativas.

nL ] = En1 .6. n2 . · · · .··· . n2 . se Z e T são variáveis aleatórias.nL [E nh j=1 = En1 .n2 . · · · . · · · .1. enquanto que no caso de Yp´s estes tamanhos são variáveis aleatórias dependendo da particular amostra selecionada. o estimador Yp´s é idêntico ao estib b mador Yest . PÓS-ESTRATIFICAÇÃO 39 1.6. 2.··· .n2 . nL . e depois a esperança sobre todas as possíveis seleções de amostra. Verifica—se que: ! Ã nh 1 X yhj E(y h ) = E nh j=1 nh 1 X yhj | n1 . então: E(Z) = ET [E(Z/T )] Neste caso é conveniente considerar internamente a esperança condicionada quando se fixa uma dada seleção de amostra de tamanhos n1 . L Uma consequência imediata disto é que um estimador não tendencioso da média y é dado por : y p´s = o X Nh 1 b y Yp´s = o N N h h=1 L Seguindo—se imediatamente que: # " L L L X X X bo Nh y h = Nh E(y h ) = Nh Y h = Y E(Yp´s ) = E h=1 h=1 h=1 . A diferença existente entre ambos é que no caso de Yest as médias amostrais nos estratos (y h ) são calculadas com amostras de tamanbo hos nh conhecidos a priori. Inicialmente. deve—se recordar que. bo A seguir.1 Estimação do total e da média De acordo com o que foi visto no estudo de estimação em subpopulações um estimador não tendencioso para o total y da população com pós-estratificação é dado por: nh L L X X Nh X bp´s = Nh y h = yhj Yo nh j=1 h=1 h=1 bo Note que em termos de expressão.nL [Y h ] = Y h ∀h = 1. será demonstrada a afirmação de que Yp´s é estimador não viciado para Y .

calculando uma aproximação para V (y p´s ).6. o Se Z e T são variáveis aleatórias pode se escrever: V (Z) = ET (V (Z/T )) + VT [E(Z/T )] Então: £ ¤ V (y p´s ) = En1 . e a comparação dessa precisão com aquela resultante da aplicação convencional da estratificação. os estimadores do total e da média são obtidos da mesma forma que na estratificação comum.n2 .40 CAPÍTULO 1. nL + o o +Vn1 .n2 . 1. · · · . n2 .nL V (y p´s | n1 . ESTIMADORES ESPECIAIS Na pós—estratificação.2 Precisão dos estimadores com pós-estratificação Nosso objetivo aqui é o cálculo das medidas da precisão dos estimadores com pós—estratificação. conclui—se então que.n2 . nL ] o Mas: E(y p´s | n1 . n2 . Mas vamos ao problema. n2 .··· .nL V (y p´s | n1 . uma vez selecionada a amostra.··· .nL (Y ) = 0 o Logo: £ ¤ V (y p´s ) = En1 .nL [E(y p´s | n1 .··· .nL [E(y p´s | n1 . nL o o à L ! X N2 1 1 2 h ( − )S = En1 . n2 . · · · .n2 . o Variância aproximada de y p´s .··· .··· .··· . O que será diferente é a precisão resultante deste processo de estimação. nL ] = Vn1 . · · · . como será visto adiante. · · · . Isto se deve ao fato de ambas dependerem da o 1 razão nh onde agora nh é variável aleatória. Inicialmente vale notar que não se dispõe de expressão exata para a varbo iância de Yp´s ou de y p´s .nL N 2 nh Nh h h=1 Daí: V (y p´s ) = o L X N2 h=1 1 2 h E( )Sh 2 N nh − L X N 2 S2 h h N 2 Nh h=1 .n2 . nL ) = Y o Donde: Vn1 .n2 . n2 . · · · .

Esta função pode ser escrita como: 1 1 E(nh ) 1 = = nh E(nh ) nh E(nh ) agora sabe—se que: 1 . PÓS-ESTRATIFICAÇÃO 41 Para calcular E( n1h ) vamos usar a aproximação em série de Taylor em torno do ponto E(nh ) da função n1h .6. = 1 − ∆ + ∆2 − · · · = 1 − ∆ + ∆2 1+∆ Para ∆= vem: 1 ∼ 1 − nh − E(nh ) + = nh − E(nh ) E(nh ) 1+ E(nh ) Donde: nh − E(nh ) E(nh ) µ nh − E(nh ) E(nh ) ¶2 1 1 1 nh = E(n ) nh − E(nh ) h 1+ E(nh ) E(nh ) " ¶2 # µ nh − E(nh ) nh − E(nh ) 1 ∼ 1 1− + = nh E(nh ) E(nh ) E(nh ) Tomando expectâncias nos 2 membros vem: ¶ µ E(nh − E(nh )) E[(nh − E(nh ))2 ] 1 1 E( ) ∼ 1− + = nh E(nh ) E(nh ) [E(nh )]2 µ ¶ V (nh ) 1 1+ = E(nh ) [E(nh )]2 Agora nh /n é um estimador não viciado da proporção Nh /N de unidades pertencentes ao estrato h. Logo: µ µ ¶¶ ³n ´ Nh N Nh N −n1 h V 1− = n N n N −1 N N µ µ ¶¶ ∼ N − n 1 Nh 1 − Nh = N n N N Também: E hn i h n = Nh N .1.

42 Logo: CAPÍTULO 1. finalmente. na expressão de V (y p´s ). ESTIMADORES ESPECIAIS Nh N µ µ ¶¶ Nh Nh 2N − n 1 V (nh ) = n 1− N n N N E(nh ) = n Isto é: Nh N µ µ ¶¶ Nh (N − n) Nh V (nh ) = n 1− N N N E(nh ) = n Levando na expressão de E(  1 ) vem: nh µ ¶ Nh (N − n) Nh n 1− 1 1  N N N  ∼ 1 +  E( ) = 2   Nh Nh nh n n2 2 N N    = (N − n) 1  1 1   1+  N − 1 Nh  N n h n N µ N µ ¶¶ (N − n) 1 Nh 1 −1 1+ = Nh N n N n N Substituindo. vem: o V (y p´s ) ∼ = o µ ¶¶ L L X N2 N µ X N 2 S2 N −n1 N h h h 2 Sh − 1+ −1 N 2 n Nh N n Nh N 2 Nh h=1 h=1 µ ¶ ¶ L L 2 2 XN XN N N −n1 µN N 1 h h 2 2 Sh + = − − 1 Sh 2 2 nN N nNh Nh N N n Nh h h=1 h=1 L L Nh 2 N − n 1 X Nh 2 N − n 1 X Sh + )S = (1 − 2 N n h=1 N N n h=1 N h Daí: L Nh 2 N −n 1 X (p) V (y p´s ) ∼ V (y est ) + (1 − )S = o 2 N n h=1 N h .

a saber: i) dimensionar a amostra aleatória simples de tal sorte que esta condição ocorra com elevada probabilidade. a eficiência da pós-estratificação em relação à amostragem aleatória simples equivale à alocação proporcional. cada nova unidade selecionada um estrato já com a cota preenchida seria rejeitada. onde os tamanhos de amostra em cada um dos estratos seriam previamente fixados por alocação proporcional e as unidades de população iriam sendo selecionadas por AAS e alocadas nos estratos respectivos. repetindo—se o processo até satisfazer as cotas fixadas para todos os estratos.7 O uso de informações auxiliares na estimação Silva (1996a) nos aponta que o aproveitamento de informações populacionais auxiliares para estimação em pesquisas por amostragem é uma das partes da teoria de amostragem que mais progrediu desde os anos 70. O livro que representava o ”estado da arte” da amostragem até então (Cochran (1977)) contempla o uso de informações auxiliares através de estimadores de razão ou de regressão simples (ambos incorporando apenas uma variável auxiliar) ou de pós-estratificação. À medida que n cresce. investigação e posterior rejeição de unidades pertencentes a estratos já completos. essas técnicas eram apresentadas como ferramentas separadas. O USO DE INFORMAÇÕES AUXILIARES NA ESTIMAÇÃO (p) 43 onde: V (y est ) é a variância do estimador da média no desenho de amostragem estratificada com alocação proporcional. este pode ser obtido de 2 maneiras. em função da seleção.7. A desvantagem deste esquema de amostragem por cotas é o aumento do custo da pesquisa.1. e uma nova unidade deveria ser selecionada. sem uma ligação comum. O livro que corresponde ao ”estado da arte” da amostragem no início dos anos 90 (Särndal. até preencher a “cota” de cada estrato. Deve—se enfatizar que a adoção deste esquema só é válida se o procedimento da seleção das unidades da amostra for realmente o de uma AAS sem reposição. Um critério habitualmente empregado na prática para ter uma pós estratificação efeciente é tornar cada nh ≥ 20. (p) 1. Entretanto. para amostras grandes. o V (y p´s ) → V (y est ) o Segue—se que. a segunda parcela de V (y p´s ) tende a zero. ii) utilizar um esquema de amostragem por cotas. Swensson e Wretman (1992)) apresenta as técnicas de pós-estratificação. estimação de razão e de regressão como casos particulares .

Na expansão da amostra do Censo Demográfico de 1980 foi adotado raking ratio estimator aqui denominado Processo Iterativo de Estimação por Totais Marginais . Empregando-se distintas funções de distância se gera uma ampla família de estimadores que inclui ”raking ratio estimators.PIETOM (IBGE (1983)) aplicado separadamente para cada uma das 4219 áreas de ponderação. escolaridade. além dos quesitos básicos que também constam do questionário básico. as quais foram investigadas a 100% através do questionário básico. desde 1960. O conhecimento de totais da população para um subconjunto de características investigadas (as quais são pesquisadas a 100%) torna viável a aplicação de estimadores especiais. podendo ser subdivisão deste nos de maior 2 . e um questionário de amostra (ampliado) que contém. Neste livro é enfatizada uma abordagem ”model assisted”. de razão. etc. aplicado separadamente para cada município. outos quesitos mais detalhados sobre características dos domicílios e das pessoas. o qual fornece uma estrutura flexível e eficiente para incorporar informações auxiliares na etapa de estimação. cujos os fatores de ajuste são obtidos de forma a minimizar uma função de distância sujeita a restrições que são funções das variáveis auxiliares. mas em que as propriedades do mesmo são avaliadas com respeito à distribuição gerada por repetidas aplicações do processo de seleção da amostra. mão-de-obra.44 CAPÍTULO 1. que contém os quesitos necessários ao conhecimento de certas características básicas da população e dos domicílios. com 46 pós-estratos em 1970. Cada pós-estrato era formado por combinações de valores das variáveis auxiliares. O IBGE. Deville e Särndal (1992) identificaram o estimador de regressão como um dos membros de uma famílias de estimadores de calibração. referentes a 100% da população. em que os pesos são ajustados. fecundidade. O IBGE já adquiriu larga experiência e tem feito uso efetivo dos desenvolvimentos recentes da teoria. estimadores de regressão.2 Esse método consistia em definir uma tabela Área de ponderação é a menor área para a qual se calculava estimativas. tem usado dois modelos de questinários na coleta das informações dos Censos Demográficos: um questionário básico. Nos censos demográficos de 1960 e 1970 foram utilizados estimadores de pós-estratificação. em que o modelo de regressão é usado para motivar o estimador. Para corroborar essa afirmação é apresentada a aplicação de estimadores especiais para a obtenção dos fatores de expansão das amostras utilizadas na coleta de Censos Demográficos brasileiros. tais como religião. e coincidia na maior parte das vezes com um município. migração. rendimento. de pós-estratificação e outros. Também recentemente. cor. ESTIMADORES ESPECIAIS do estimador de regressão generalizado.

que é parecido com o Censo Demográfico brasileiro. até que fosse observada convergência dos pesos. Os pesos amostrais para unidades em cada cela eram calculados por um processo iterativo de ajuste dos pesos iniciais.7. Albieri e Dias (1994)). de tal forma que as estimativas amostrais eram sucessivamente calibradas nos totais das linhas e depois das colunas. O USO DE INFORMAÇÕES AUXILIARES NA ESTIMAÇÃO 45 (ou matriz) de pós-estratificação de dupla entrada. Eram portanto conhecidos os totais populacionais das celas. O uso dese método permitiu ampliar bastante o número de variáveis auxiliares consideradas para a calibração das estimativas amostrais: a tabela de pós-estratificação empregada no censo de 1980 tinha 720 celas. A metodologia adotada para a expansão da amostra do Censo de 1991 foi baseada no ajuste de um modelo linear generalizado sujeito a restrições. população.1. entendidas como condições que buscam igualar estimativas dos valores conhecidos do universo para um conjunto de variáveis auxiliares comuns à amostra e toda população de cada área de ponderação. alertando para a necessidade de establecer um compromisso entre a calibração no maior número possível de variáveis auxiliares sem impor grande perda de eficiência no estimador. as quais foram investigadas a 100% através do questionário básico.MQG2 (Silva. identificada por estimação de mínimos quadrados generalizados em duas etapas . Essa metodologia foi desenvolvida por técnicos do Statistics Canada e aplicada na expansão da amostra do Censo de População canadense de 91e 96. Bianchini e Albieri (1993). Foi possível contar com programas cedidos ao IBGE pelo Statistics Canada para a implementação do método para uso no censo brasileiro. . A metodologia MQG2 adotada para expandir a amostra do Censo Demográfico de 1991 permite incorporar grande número de variáveis auxiliares. Em particular. Esse é um dos aspectos do emprego de estimadores de regressão que tem merecido atenção da comunidade de pesquisa recentemente. linhas e colunas dessa tabela. cujas linhas e colunas eram dadas por combinações de valores das variáveis auxiliares. Silva e Skinner (1996) apontam ainda uma perda de precisão deo estimador de regressão quando o número de variáveis auxiliares cresce demasiadamente. Essa metodologia é baseada num dos membros da família de estimadores de calibração identificada por Deville e Särndal (1992). mas não oferece uma teoria para a escolha ótima das mesmas. Silva e Skinner (1996) apresentam um método para seleção de variáveis auxiliares quando se utiliza estimadores de regressão cuja eficiência para estimar a média de uma variável resposta especificada foi maior que a de vários competidores. em comparação com os 46 pós-estratos adotados no Censo de 70.

. ESTIMADORES ESPECIAIS Na área de estimação em amostragem há hoje em dia várias opções de sistemas genéricos: SUDAAN . WESVARPC (Westat (1995)).Generalized Estimation System (Estevao. Hidiroglou e Särndal (1995)). Swensson e Wretman (1992). Em particular. o sistema GES desenvolvido pelo Statistics Canada implementa a metodologia de estimadores de regressão generalizados tal como descrita no livro de Särndal. GES . e respectivas medidas de precisão para uma ampla gama de desenhos amostrais e tipos de estimadores. CLAN (Andersson e Nordberg (1994)).SUrvey DAta ANalysis (Shah et al. Todos esses sistemas são capazes de calcular estimativas de totais e médias.46 CAPÍTULO 1. (1992)).

3 De uma população com 40 domicílios foi selecionada uma amostra aleatória simples sem reposição de tamanho n = 4 que proporciona . e alguma informação auxiliar associada com as unidades. O primeiro domicílio selecionado tinha 4 pessoas e gastou R$150. com 3 pessoas. e) Baseado nos dados. u2 . pág.8 Exercícios 1.1 (Thompson (1992).00. 76) Numa cidade com 75. b) Descreva dois tipos de estimadores para estimar a despesa média por domicílio para a alimentação por uma semana na cidade. Sumarize algumas propriedades de cada estimador. qual estimador é preferível nesta situação? 1.00. c) Estime a despesa média por domicílio usando o primeiro estimador e estime a variância do estimador.00. gastou R$200.8. un }uma amostra aleatória simples sem reposição da população π N . com 4 pessoas.2 Seja {u1 . Considere: N −n ∼ =1 N s2 = 1691.000 domicílios da cidade para estimar o custo médio de alimentação por domicílio em uma semana. Mostre que a covariância amostral sxy = 1 X (xi − x)2 n − 1 i=2 n é um estimador não viciado para a covariância populacional Sxy 1 X = (XI − X)(YI − Y ) N − 1 I=1 N 1. 70 y s2 = 0. 9166 x sxy = 37.8. gastou R$140.000 habitantes. uma amostra aleatória simples de 4 domicílios é selecionada dos 25. O quarto. · · · . O terceiro. onde são observadas as características x e y.1.8. 5 a) Identifique as unidades de amostragem.00 com alimentação naquela semana. d) Estime a despesa média por domicílio usando o segundo estimador e estime a variância do estimador. a variável de interesse. EXERCÍCIOS 47 1. O segundo domicílio tinha 2 pessoas e gastou R$100.8.

utilizando como variável auxiliar a população.000 i i=1 4 P xi yi = 141. que representa a despesa com gastos sociais.100 i=1 2 yi = 63. e o respectivo intervalo com 95% de confiança para essa estimativa de total baseada em cada um dos seguintes estimadores: a) Estimador simples. b) Estimador de razão.818 (em milhares). São dadas as seguintes informações provenientes da amostra: 50 P yi = 128.244.067 . 50 P xi = 1. c) Comente os resultados.080 i=1 i=1 s2 = 6. Foi selecionada uma amostra aleatória sem reposição de 50 municípios.8.516 s2 = 454. ESTIMADORES ESPECIAIS os seguintes valores semanais expressos em reais. Gastos com alimentação Gastos total (xi ) (yi ) 125 250 135 300 70 200 158 350 4 P 4 P yi = 488 i=1 i=1 4 P xi = 1. representada pela característica x.4 O objetivo é estimar o total de despesa com gastos sociais das prefeituras de uma região que abrange 281 municípios.399 y x Obs: Tanto os valores de x com de y estão representados em milhares. 51 sxy = 45. Calcule a estimativa de total da característica y.48 CAPÍTULO 1.714 i=1 4 P x2 = 315. Sabe-se que a população total da região é de 6. 1.050 Estime a porcentagem de gasto com alimentação e o respectivo erro amostral medido pelo coeficiente de variação.

8. número de carros (y2 ) e número de televisores (y3 ). A população foi estratificada em 2 estratos: famílias com renda alta (estrato 1).7 Em uma determinada localidade de 500 famílias se deseja fazer um estudo sobre o hábito de fumar entre as pessoas maiores de 16 anos.6 Uma pesquisa piloto. apresentando os seguintes resultados: .5 Defina estimadores consistentes e suas respectivas variâncias aproximadas para a média de Y baseados em: a) estimador de razão simples.8. EXERCÍCIOS 49 1. você recomendaria que os estimadores de razão fossem utilizados ao invés do estimador simples para estimar o total de crianças. à luz das restrições existentes para esse tipo de estimador? e A partir das fórmulas aproximadas para as variâncias dos estimadores de (a). obtenha estimadores consistentes que possam ser calculados a partir da amostra. É conhecido que o número de pessoas com mais de 16 anos no estrato 1 é 520 e no estrato 2 é 1230. · · · . De cada um dos estratos foi selecionada uma amostra aleatória de 5 famílias. onde foram classificadas 200 famílias. di d1 d2 d3 d4 d5 d6 d7 x y1 5 3 2 0 4 1 4 2 6 4 3 1 5 3 y2 1 1 2 1 1 1 1 y3 3 1 0 1 1 2 1 di d8 d9 d10 d11 d12 d13 d14 x y1 2 0 3 1 2 0 6 4 3 1 4 2 5 3 y2 0 1 2 2 0 1 1 y3 1 1 0 1 0 1 1 di d15 d16 d17 d18 d19 d20 d21 x y1 6 3 4 2 4 2 3 1 2 0 4 2 3 1 y2 2 1 1 0 2 1 1 y3 0 1 1 1 1 1 1 Assumindo que a população total X é conhecida. Quando é razoável a utilização de estimadores de razão. 1. b) estimador de razão combinada.1. número de crianças (y1 ).8. onde foram classificadas as outras 300 famílias. e famílias com renda mais baixa (estrato 2). 2. 21). (b) e (c). forneceu os seguintes dados para o número de pessoas no domicílio (x). onde foram selecionados aleatoriamente 21 domicílios (di i = 1. carros e televisores? 1.8. c) estimador de razão separada.

considerando os estimadores utilizados em (a).8.898 Sxy = 3. Uma amostra aleatória simples de 2 055 fazendas foi selecionda e foram obtidas as seguintes informações sobre o número de cabeças de gado (y) em cada fazenda e a área de cada fazenda.898 e R = 1. 270 Calcule a variância do estimador de total segundo cada uma das estratégias: estimador simples.9 De um Censo Agropecuário foram obtidas 1 200 000 fazendas e a área (x) de cada fazenda foi investigada fornecendo uma média de 31.409 Sx = 3. com base numa amostra aleatória de 100 pomares. (b) e (c). utilizando: a) o estimador simples da amostragem estratificada.25 acres por fazenda. A variável y é a produção de pêssegos e a variável auxiliar x o número de pés de pêssego do pomar. e c) o estimador de razão separada. A idéia é comparar a precisão dos estimadores alternativos da produção total de pêssegos na população. razão e regressão. ESTIMADORES ESPECIAIS Estrato 1 Famílias na amostra 1 2 4 4 5 Pessoas com mais de 16 anos 4 3 2 1 2 Fumantes com mais de 16 anos 1 1 0 1 1 Estrato 2 Famílias na amostra 1 2 4 4 5 Pessoas com mais de 16 anos 5 6 4 4 3 Fumantes com mais de 16 anos 3 3 1 2 2 Estimar o total de fumantes entre as pessoas maiores de 16 anos na localidade. Comente o resultado. Calcule os intervalos com 95% de confiança para estimar os totais de fumantes entre as pessoas maiores de 16 anos na localidade. 1.8. Comente os resultados.50 CAPÍTULO 1.8 Considere uma população de pomares de plantio de pêssegos. 1. Os dados básicos obtidos de um censo anterior são: 2 2 Sy = 6. que tem 256 pomares. . b) o estimador de razão combinada.

86 y sxy = 256.238 fazendas daquela região. foi selecionada aleatoriamente uma amostra de 24 fazendas dentre as 1.1.055 P 51 2. 02 a) Compare a eficiência do estimador de regressão em relação ao estimador simples. 89 x 24 P xi = 13. 989 b = 0.836.334. . b) Calcule a estimativa da variância de cada estimativa obtida em (a). de razão e de regressão. c) Obtenha o intervalo com 95% de confiança para cada uma das estimativas obtida em (a). 4300 x a) Calcule as estimativas do total de cabeças de gado utilizando o estimador simples.8. 751 xi = 62. b) Compare a eficiência do estimador de regressão em relação ao estimador de razão.10 Para estimar o total de cabeças de gado em uma determinada região.154. 1. fornecendo os seguintes resultados. O número de cabeças de gado de cada fazenda da amostra foi coletado (característica y) e além disso dispunha-se do correspondente número de cabeças de gado obtido no último Censo Agropecuário. As características tamanho do domicílio e idade do chefe foram investigadas em todo universo e a variável sexo do chefe do domicílio foi investigada apenas através da amostra.262.646 i=1 i=1 s2 = 278. 470 N −n ∼ (Considere = 1) N s2 = 490.055 P i=1 yi = 25. d) Comente os resultados. Usando como variável auxiliar (x) a informação do número de cabeças de gado coletado no último censo e sabendo-se que: 24 P yi = 13. 1. EXERCÍCIOS 2.8.638 s2 = 256. 354585 i=1 s2 = y 1.11 Uma amostra aleatória simples de 546 domicílios foi selecionada de uma área que continha 2 097 domicílios.8.

52 CAPÍTULO 1. considerando como pósestrato a variável idade do chefe cruzada com o tamanho do domicílio. b) usando o estimador de pós-estratificação. considerando como pósestrato a variável idade do chefe. c) usando o estimador de pós-estratificação. ESTIMADORES ESPECIAIS Número de domicílios no universo Tamanho do Idade do chefe domicílio 0 a 39 anos 40 e mais Total 1 a 3 moradores 303 464 767 4 e 5 moradores 426 339 765 171 394 565 6 e mais moradores Total 900 1197 2097 Número de domicílios na amostra Tamanho do Idade do chefe domicílio 0 a 39 anos 40 e mais Total 1 a 3 moradores 103 154 257 120 80 200 4 e 5 moradores 32 57 89 6 e mais moradores Total 255 291 546 Número de domicílios na amostra. considerando como pósestrato o tamanho do domicílio. d) usando o estimador de pós-estratificação. . cujo chefe é mulher Tamanho do Idade do chefe domicílio 0 a 39 anos 40 e mais Total 1 a 3 moradores 1 8 9 1 3 4 4 e 5 moradores 0 3 3 6 e mais moradores Total 2 14 16 Estimar o número de domicílios cujo chefe é mulher a) usando o estimador simples.

1 Conceituação Básica O objetivo pretendido com a aplicação da técnica de amostragem é a obtenção de estimativas para certos parâmetros da população a partir de uma amostra de unidades dessa população. cuja precisão seja conhecida e satisfatória. sendo que em cada estágio a unidade amostral. 1 53 . Nos esquemas de amostragem até então apresentados (amostragem aleatória simpples.artificial. é grupada em um subconjunto (CONGLOMERADO) de unidades populacionais. Elas podem ainda ser obtidas por um outro esquema de amostragem onde grupos de unidades são selecionados com probabilidades conhecidas. de cinco domicílios do mesmo edifício). O termo unidade populacional é usado para denotar um membro de uma particular população para a qual as análises dos resultados do levantamento são feitas. um quarteirão.Capítulo 2 Amostragem de Conglomerados 2. um município). um edifício. ou . As unidades dessa amostra podem ser obtidas selecionando-se diretamente unidades na população com probabilidades conhecidas. construído pelo estatístico de acordo com o objetivo da pesquisa (exemplos: conglomerados de seis pessoas.natural (exemplos: um cacho de uvas. de dez peças industriais do mesmo tipo. amostragem estratificada e amostragem sistemática) a unidade amostral era igual a unidade de análise. uma turma de alunos. A amostragem de conglomerados (cluster sampling) consiste num esquema de amostragem em estágios.1 A formação dos conglomerados pode ser: . para a qual é atribuída a probabilidade de seleção.

características de domicílios e de pessoas são investigadas no mesmo levantamento. . a variável de interesse e a unidade de referência para análise.54 CAPÍTULO 2. População Variáveis de Interesse Alunos por turma Unidade de Referência Turma Conglomerados Escolas Turmas de alunos Estudantes de escolas de 2o grau Visitantes de parques nacionais Passageiros de avião Domicílios Aproveitamento dos estudantes Facilidades do parque Estudante Turmas Visitante de parque nacional Passageiro de avião Domicílio Veículos que entram no parque Lotações de passageiros Setores Propósito da Viagem Características de domicílios Características de pessoas Moradores em favelas do Rio Morador de favela do Rio Domicílios em favelas do Rio Cabe lembrar que os vários esquemas de amostragem: amostragem aleatória simples (AAS). seguem-se algumas ilustrações de possíveis conglomerados associados com a população. A fim de exemplificar. amostragem estratificada e amostragem sistemática discutidos anteriormente podem ser aplicados a amostragem de conglomerados. Não há uma única definição possível para os conglomerados. Por exemplo. Pode acontecer de mais de uma unidade populacional estar envolvida no levantamento. AMOSTRAGEM DE CONGLOMERADOS A unidade populacional depende da análise que está sendo feita e é determinada pelo propósito do levantamento e não pelo plano amostral. onde os conglomerados são as unidades amostrais. a turma tanto pode ser uma unidade populacional (se estivermos interessados em investigar o número de alunos por turma). quando por exemplo. como pode ser um conglomerado de alunos (se estivermos interessados em investigar o aproveitamento dos alunos).

uma amostra selecionada de uma população dispersa geograficamente provavelmente será muito dispersa também. é operacionalmente mais conveniente pesquisar todas as pessoas numa amostra de domicílios do que selecionar o mesmo número de pessoas espalhadas por toda a população ou mesmo pesquisar todos os domicílios de uma amostra de áreas (por exemplo. uma lista pode não estar disponível.2. Suponha-se que uma AAS de n=400 domicílios deva ser selecionada de uma população de N=10. 1/25=400/10. Como não dispomos de uma lista atualizada com todos os domicílios. AMOSTRAGEM DE ÁREAS 55 2. A probabilidade de selecionar um domicílio na cidade é a probabilidade de selecionar um quarteirão. Num levantamento de população. Tal lista nem sempre é disponível e o seu preparo torna a pesquisa bem mais cara. Para reduzir custos é muito freqüente o uso de amostragem de conglomerados definidos por áreas geográficas com limites naturais ou artificiais bem definidos.2. Porém. setores) do que selecionar uma amostra do mesmo número de domicílios selecionados aleatoriamente de uma lista de todos os domicílios. Neste caso a amostra resultante pode ser concentrada dentro de um número de áreas geográficas. ou o custo de preparar uma lista atualizada pode ser proibitivo. por exemplo. ou seja. as unidades amostrais são quarteirões selecionados de uma lista completa. A seleção da amostra de quarteirões determina a seleção dos domicílios que estão localizados nos quarteirões. optamos por uma amostra de domicílios localizados dentro de uma amostra de quarteirões. Isto pode ser feito dividindo a área toda da cidade em quarteirões e selecionando 1/25 quarteirões.2 Amostragem de Áreas O cadastro ou marco de referência é a fonte de materiais que serve de guia e permite identificar a população a ser coberta para a seleção de amostras. ou estar desatualizada. Além disso. Neste caso a necessidade de uma lista atualizada das unidades para as quais se requer a informação é restrita às áreas que forem selecionadas para a amostra.000. considerações na redução do custo pode ser observada na amostra de conglomerados. Pois a . a utilização de amostras de áreas se dá quando não existe um cadastro de boa qualidade disponível e/ou quando a população for muito dispersa e o fator custo de deslocamento for preponderante. Portanto. Mesmo se a lista de todos os domicílios fosse disponível. Portanto. A grande vantagem da amostra de conglomerados é a sua conveniência operacional vinculada a possíveis reduções no custo.000 domicílios de uma cidade. Os esquemas probabilísticos propostos para seleção de amostras pressupõem a existência de uma lista completa das unidades da população a ser pesquisada.

Y1N1 U21 U22 . com suas N unidades grupadas em M conglomerados disjuntos. tem-se uma amostra de conglomerados em 1 estágio de y. . . YMNM . U2N2 Y21 Y22 . . levando em conta os aspectos operacionais e a redução de custos (devido ao possível ganho no tempo de coleta. identificação.. Se a característica y observada nas unidades da amostra. AMOSTRAGEM DE CONGLOMERADOS localização e identificação dos 400 domicílios espalhados aumentaria o custo com gastos com transporte. ou de ambos.a variância amostral é mais alta dependendo da homogeneidade dos elementos nos conglomerados..) que a amostragem de conglomerados proporciona. Seleciona-se uma amostra aleatória simples sem reposição de m desses M conglomerados.56 CAPÍTULO 2. devido ao mais baixo custo da listagem ou da localização. . se compararmos uma amostra de conglomerados com uma amostra de unidades elementares compreendida do mesmo número de elementos. . . . . . . Y2N2 . U1N1 onde: Y11 Y12 . Entretanto. As unidades de π N pertencentes aos m conglomerados selecionados formam a amostra de conglomerados em 1 estágio de π N (Ac1). . contato. UM1 UM2 . Mas para um dado tamanho de amostra.1 Conglomerados em 1 estágio Probabilidades iguais de seleção Definições básicas e notação Seja πN a população. . Pode-se representar esquematicamente a população por: C1 → → → C2 → → → CM → → → U11 U12 . em muitas situações práticas a perda na eficiência amostral é balanceada com essas vantagens. . . Portanto. em geral na amostra de conglomerados tem-se: .3 2.. .. bem como um maior tempo para a coleta em comparação com a localização dos quarteirões e visita a todos os domicílios nestes quarteirões. uma unidade menor em geral dá resultados mais precisos do que uma unidade maior. UMNM .o custo por unidade elementar é mais baixo. . etc. YM1 YM2 . 2.3.

. Ni0 ) e os Ni0 (i = 1. M P Ni é o tamanho do conglomerado Ci . NM .3. pode-se representar esquematicamente a amostra por: 0 C1 → → 0 C2 → → 0 Cm → → Uij é a j-ésima unidade de π N no i-ésimo conglomerado Ci . . · · · .. M } e j ∈ {1.. Pode-se calcular o valor esperado de n. .. N2 .. m e j = 1. . ... . cujos valores dependem dos conglomerados selecionados... 2..... Ni = N i=1 0 U11 0 U12 . . . .. Y1N1 . . ... Ym1 . 2. Yij é o valor da característica y associada a Uij . UmNm 0 → Note-se que como os conglomerados são selecionados por amostragem aleatória simples: Ci0 pode ser qualquer um dos conglomerados C1 . . 2. . C2 . 0 Consequentemente os Yij (i = 1.. .... A amostra é constituída pelas unidades: n o 0 0 0 0 U11 . . .. UmNm 0 0 e os valores da característica y associados às unidades da amostra são: o n 0 0 0 0 Y11 . .. n que será dado por: Ãm X i=1 n = E = m Ni0 ! = m N N = f1 N = M M m X i=1 E(Ni0 ) =m i=1 M P Ni M . 0 Um1 0 Um2 ... 2. .. 0 Y11 0 Y12 .... . Ni0 é o tamanho do conglomerado selecionado Ci0 e pode ser qualquer um dos valores N1 .. .. . Um1 . U1N1 . i ∈ {1... YmNm 0 0 O tamanho total da amostra é: n = i=1 m P Ni0 que é uma variável aleatória. . 0 U21 0 U22 . 0 YmNm 0 0 U1N 0 1 → 0 Y1N 0 1 0 U2N 0 2 → 0 Y2N 0 2 0 . 0 Ym1 0 Ym2 .. CM . · · · . m) são variáveis aleatórias. ..2. . ... .. 2. 0 Y21 0 Y22 . .. Ni } . CONGLOMERADOS EM 1 ESTÁGIO 57 Selecionando-se através de amostragem aleatória simples sem reposição m conglomerados dentre os M existentes.

Isto acarreta evicente economia de tempo e custo quando comparado à amostragem aleatória simples ou à amostragem estratificada.1: Ilustração da seleção das unidades de uma Ac1 A amostragem de conglomerados em 1 estágio é caracterizada pelos seguintes fatos: • Pertencem à amostra todas as unidades dos conglomerados selecionados. • Só é necessário listar as unidades da população nos m conglomerados selecionados para a amostra. • O tamanho da amostra não pode ser exatamente prefixado. AMOSTRAGEM DE CONGLOMERADOS sendo: f1 = m .58 CAPÍTULO 2. pois dependerá dos conglomerados selecionados. • Cada unidade da população tem a mesma probabilidade de participar da amostra. a precisão da amostragem de conglomerados é inferior à precisão da amostragem aleatória simples. nas quais são listadas todas as unidades da população.1 apresenta uma ilustração da seleção das unidades de uma amostra de conglomerados em 1 estágio. . M A figura 2. Figura 2. e esta probabilidade é igual à fração de amostragem no m primeiro estágio . a fração de amostragem do primeiro estágio. M • Mais adiante se verá que em muitas ocasiões.

Parâmetros da característica y Total da característica y no conglomerado Ci : Yi = Ni X j=1 Yij Média da característica y no conglomerado Ci : Yi = Yi Ni Variância da característica y em Ci : Si2 i 1 X = (Yij − Y i )2 Ni − 1 j=1 N Total da característica y em toda população: Y = M X i=1 Yi Média da característica y por unidade da população: Y = Y N Média da característica y por conglomerado: Y = Y M Variância da característica y em toda população: S2 = i 1 XX (Yij − Y )2 N − 1 i=1 j=1 M N . CONGLOMERADOS EM 1 ESTÁGIO 59 Entretanto.2. a vantagem do menor custo e tempo pode compensar a perda de precisão.3.

média por unidade da população. AMOSTRAGEM DE CONGLOMERADOS Estatísticas da amostra em cada conglomerado selecionado Como resultado da amostragem de conglomerados tem-se as seguintes estatísticas: Total da característica y no i-ésimo conglomerado selecionado Ci0 : Yi0 = Ni X j=1 0 0 Yij Média da característica y no conglomerado Ci0 : Yi = 0 Yi0 Ni0 Variância da característica y em Ci0 : i 1 X 0 0 Si = 0 (Yij − Y i )2 Ni − 1 j=1 02 N0 Estimadores do total e da média na Ac1 Quando os conglomerados são selecionados por amostragem aleatória simples sem reposição. um estimador não viciado do total Y é dado por: m X bAc1 = M Y Yi0 m i=1 m m X MX 0 bAc1 ) = M E(Y E(Yi ) = E(Yi0 ) m i=1 m i=1 ! ! ÃM ÃM m Mm X MX 1 X Yk = Yk = m i=1 M k=1 m M k=1 Prova: = M X k=1 Yk = Y Conseqüentemente. um estimador não viciado de Y .60 CAPÍTULO 2. é dado por: y Ac1 = m m b YAc1 1MX 0 1 X 0 Yi = Yi = N N m i=1 m N i=1 .

CONGLOMERADOS EM 1 ESTÁGIO N é o tamanho médio por conglomerado.3.2. M 61 onde: N = ¢ ¡ E y Ac1 = E Ã b YAc1 N ! = 1 ³b ´ 1 E YAc1 = Y =Y N N E um estimador não viciado de Y . média por conglomerado é dado por: y Ac1 m b YAc1 1 X 0 Y = = M m i=1 i E (y Ac1 ) = E Ã b YAc1 M ! = Y 1 ³b ´ E YAc1 = =Y M M .

AMOSTRAGEM DE CONGLOMERADOS Variâncias dos estimadores do total e da média na Ac1 ! à !2 m m MX 0 MX 0 b V (YAc1 ) = V Y Y −Y =E m i=1 i m i=1 i  2 m P 0  Ãm !2  2 X  M i=1 Yi − mY   = E  M Yi0 − mY  = E    2 m m i=1 à 2 à à !2  !2  m m 2 X X¡ ¢ M M  E Yi0 − mY  = 2 E  Yi0 − Y = 2 m m i=1 i=1   m m m ¢2 X X ¡ 0 ¢¡ ¢ M 2 X ¡ 0  E Yi − Y + Yi − Y Yk0 − Y  =  m2 i=1 i=1 k=1 M2 = m2   i6=k m m m X ¡ 0 ¢2 X X £¡ 0 ¢¡ ¢¤  E Yi − Y + E Yi − Y Yk0 − Y    i=1 i=1 k=1 i6=k   M M M ¢2 ¢¡ ¢¤ M2  m X ¡ m(m − 1) X X £¡ 0  Yi − Y + Yi − Y Yk0 − Y  =  m2  M i=1 M(M − 1) i=1 k=1 M M M ¢2 (m − 1) X X £¡ 0 ¢¡ ¢¤ M X ¡  Yi − Y + Yi − Y Yk0 − Y  =   m i=1 (M − 1) i=1 k=1 i6=k  i6=k  fazendo: ¢2 1 X¡ Yi − Y M − 1 i=1 M 2 Se = .62 CAPÍTULO 2.

trata-se da obtenção de um estimador para essa variância. m 1 X 0 2 2 se = (Yi − y Ac1 ) m − 1 i=1 2 deve ser um estimador não viciado de Se . Isto é feito usando a teoria já conhecida da amostragem aleatória simples e supondo que os conglomerados são as unidades investigadas.2. CONGLOMERADOS EM 1 ESTÁGIO 63 e notando que: M X¡ ¢ Yi − Y = i=1 M X i=1 0 = = ¢2 ¡ Yi − Y + ÃM !2 X¡ ¢ Yi − Y i=1 M X X M i=1 k=1 i6=k ¢¡ ¢ ¡ Yi − Y Yk − Y =⇒ M M M XX¡ X¡ ¢¡ ¢ ¢2 Yi − Y Yk − Y = − Yi − Y i=1 k=1 i6=k i=1 Segue-se que: # " M ¢2 M (m − 1) X ¡ 2 b Yi − Y V (YAc1 ) = (M − 1) Se − m (M − 1) i=1 ¤ M£ 2 2 (M − 1) Se − (m − 1) Se = m 2 M(M − m) 2 M 2 (M − m) Se Se = = m M m b Observe que a variância do estimador YAc1 depende somente da fração de amostragem do primeiro estágio e da variabilidade entre os totais dos b conglomerados. a variância de YAc1 é idêntica à variância do estimador de total com amostragem aleatória simples. Em termos de expressão.3. . Estimador da variância do estimador de total na Ac1 b Agora que se conhece a expressão da variância do estimador YAc1 . Assim.

um estimador não viciado para V (YAc1 ) é dado por: ( 2 2 bAc1 ) = M (M − m) se v(Y M m . AMOSTRAGEM DE CONGLOMERADOS Para verificar este fato.64 CAPÍTULO 2. note-se que: m 1 X 0 2 s2 = (Y − y Ac1 ) e m − 1 i=1 i m ¢¤2 1 X £¡ 0 Yi − Y ) − (y Ac1 − Y = m − 1 i=1 = = s2 = e = daí pode-se obter: m ¢ ¤ 1 X £¡ 0 Yi − Y )2 − 2(y Ac1 − Y (Yi0 − Y ) + (y Ac1 − Y )2 m − 1 i=1 # " m m m X X X 1 2 2 0 0 (Y − Y ) + (y Ac1 − Y ) − 2(y Ac1 − Y ) (Yi − Y ) m − 1 i=1 i i=1 i=1 # " m X 1 2 2 2 0 (Y − Y ) + m(y Ac1 − Y ) − 2m(y Ac1 − Y ) m − 1 i=1 i # " m X 1 2 2 0 (Y − Y ) − m(y Ac1 − Y ) m − 1 i=1 i #) " m X 1 E(s2 ) = E (Y 0 − Y )2 − m(y Ac1 − Y )2 e m − 1 i=1 i ) (m X 1 E(Yi0 − Y )2 − mE(y Ac1 − Y )2 = m − 1 i=1 ) ( M mX 1 (Yi − Y )2 − mV (y Ac1 ) = m − 1 M i=1 ½ ¾ 2 m (M − m) Se 1 2 (M − 1) Se − m = m−1 M M m ½ ¾ 2 S m 1 2 2 M Se − Se − (M − m) e = M m−1 m m 1 1 2 M(1 − ) Se = M m−1 m m 1 m−1 2 2 M( ) Se = Se = M m−1 m b Conseqüentemente.

Ni Yij =  0 se Uij ∈ A e e Sejam Ai e Ai o número de unidades de π N em A e A.3. Então. Ai pode assumir os valores 0. M e j = 1. CONGLOMERADOS EM 1 ESTÁGIO 65 2.3. do conglomerado Ni Ni Assim. é imediata a obtenção de estimadores não viciados para a proporção PA : pAc1 = m m m M X Ni0 0 1 X 0 0 1 X 0 Ni PA i = Ai PA i = m i=1 N mN i=1 mN i=1 M X Ni i=1 N PA i . · · · . do conglomerado i. Definindo uma característica y tal que:   1 se Uij ∈ A i = 1. Ni e se tem: e Ai + Ai = Ni PA i i. respectivamente. 2. no conglomerado i. Segue-se que: Ni P Yij é o número de unidades em A. · · · . 2. de acordo com algum atributo associado às unidades da população π N . se a população é grupada em M conglomerados disjuntos. i=1 M P i=1 i=1 M P M P Yi = Ni Y =Y N Ai = PA = i=1 N Em vista dessas expressões. cada e conglomerado pode ser dividido nas classes A e A. · · · . 2.2. 1. a proporção global de unidades em A na população π N é dada por: M P Ai = Ni M P PA = i=1 ou ainda. Ai = Yi = j=1 Ai Yi = = = Y i é a proporção de unidades em A.2 Estimação de proporções na Ac1 e Considere-se a população dividida em 2 classes A e A (não A). e considerando a teoria já apresentada para obtenção dos parâmetros de π N .

Além disto. AMOSTRAGEM DE CONGLOMERADOS onde: A0i = Yi0 = i=1 selecionado. a variância de pAc1 é dada por: 2 M − m Se 1 M − m Se V (pAc1 ) = = 2 M m M m N 2 Ni P 0 0 Yij é o número de unidades em A. do i-ésimo conglomerado onde: 2 Se Esta variância pode ser estimada por: v(pAc1 ) = com: s2 e M ´ 1 X³ 2 2 1 2 2 Ni PA i − 2NNi PA i PA + N PA = M − 1 N 2 i=1 ) (M M M X X X 2 1 1 2 2 2 Ni PA i − 2NPA Ni PA i + N PA = 2 N M − 1 i=1 i=1 i=1 ) (M X 1 1 2 2 N 2 P 2 − 2NPA NPA + MN PA = 2 M − 1 i=1 i A i N ) (M X 1 1 2 2 N 2 P 2 − MN PA = 2 M − 1 i=1 i A i N ) ) (M (M X X N2 2 Y2 1 1 1 1 Y 2 − M 2 PA = 2 Y2−M 2 = 2 M − 1 i=1 i M M − 1 i=1 i M N N ) (M M X ¢2 1 1 1 X¡ 1 2 1 2 Yi2 − MY Yi − Y = 2 Se = 2 = 2 N M − 1 i=1 N M − 1 i=1 N ¶2 M µ M ¢2 1 X Yi 1 X 1 ¡ = − PA = 2 Ni PA i − N PA M − 1 i=1 N M − 1 i=1 N M − m s2 1 M − m s2 e e = 2 M m N M m ¶2 m µ 1 X Yi0 = − pAc1 m − 1 i=1 N .66 CAPÍTULO 2. do i-ésimo Ni Ni conglomerado selecionado. A0 Y0 0 0 PA i = i0 = i0 = Y i é a proporção de unidades em A.

2. e CONGLOMERADOS EM 1 ESTÁGIO 67 Ã !2 m m 1 X 0 1 X s2 = Yi0 − Y e m − 1 i=1 m i=1 i mas: s2 e = 1 N (m − 1) 1 2 !2 m N X 0 Yi0 − Yi = 2 mN i=1 N (m − 1) i=1 Ã !2 m m X 1 1 X 0 0 Yi − Y = 2 m i=1 i N (m − 1) i=1  !2  Ãm m X X 1 1 1  Yi02 − Yi0  = 2 s2 = e 2 m i=1 N (m − 1) i=1 N m X m X¡ ¢2 Yi0 − N pAc1 i=1 Ã conseqüentemente:  !2  Ã m m X X 1 1 M −m 1 1  v(pAc1 ) = 2 Yi02 − Yi0  M m (m − 1) i=1 m i=1 N Exemplo 2.3. observando-se: . grupandose cada 5 turmas em aproximadamente 150 alunos. supondo uma base de 30 alunos por turma. Uma amostra de 10 conglomerados foi selecionada. entre os alunos da 3a série do 2o grau da rede de ensino publico de certa localidade. foram formados conglomerados a partir de uma relação de 3500 turmas existentes.1 Com o objetivo de avaliar a proporção de fumantes.

0269 = 2. 000725 Uma estimativa do erro padrão é dada por: p p v(pAc1 ) = 0. AMOSTRAGEM DE CONGLOMERADOS Conglomerados Número de Número de alunos alunos (Ni0 ) fumantes (A0i ) da amostra 1 162 50 2 170 63 3 145 47 4 151 48 5 166 68 6 162 59 7 145 36 8 148 45 9 171 71 10 178 75 Soma 1592 562 M = 700. 51 9 10 1 M − m s2 e 2 M m N então: v(pAc1 ) = 1 700 − 10 165. 51 1 M − m s2 e = 2 M m (150)2 700 10 N = 0. 375 ou 37. 5% 10 (150) mN i=1 Uma estimativa da variância é dada por: v(pAc1 ) = sendo: s2 e  !2  Ãm m X X 1 1  A02 − A0  = i m − 1 i=1 m i=1 i à ! (562)2 1 = 33074 − = 165. N = 150 e m = 10 Uma estimativa da proporção de alunos fumantes é dada por: pAc1 m 1 X 0 1 Ai = = 562 = 0. 69% .68 CAPÍTULO 2. 000725 = 0.

Seja a população πN distribuída em M conglomerados de tamanho N = N cada um. Ocorre que para comparar a precisão da amostragem de conglomerados em 1 estágio com a amostrgem aleatória simples é muito útil a introdução do coeficiente de correlação intraclasse. Inicialmente.3.3 Coeficiente de Correlação Intraclasse O objetivo neste item é comparar a eficiência da amostragem por conglomerados com a da amostragem aleatória simples. • Seleciona-se aleatoriamente sem reposição 2 unidades dentro deste conglomerado. 0717 = 7.2. 0 0 Sejam Yij e Yik as variáveis aleatórias resultantes da observação nas 2 unidades selecionadas da característica y. Yik ) = r h ¡ 0 ¤ ¢2 i £ 0 0 0 E Yij − E(Yij ) E (Yik − E(Yik ))2 Agora. 375 2. 000725 cv(pAc1 ) = = 0. CONGLOMERADOS EM 1 ESTÁGIO 69 e uma estimativa do coeficiente de variação pode ser obtida através da expressão: p v(pAc1 ) cv(pAc1 ) = pAc1 √ 0. 17% 0. será estudado o caso em que os conglomerados são de tamanhos iguais.3. M Imagine o seguinte experimento aleatório: • Seleciona-se aleatoriamente 1 entre os M conglomerados. É possível calcular a correlação entre essas 2 variáveis aleatórias: ¢ 0 ¤ £¡ 0 0 0 E Yij − E(Yij ) (Yik − E(Yik )) 0 0 ρ(Yij . notando que: 0 E(Yij ) M N M N X 1 X 1 1 XX Yij = Y Yij = = M j=1 N M N i=1 j=1 i=1 0 E(Yik ) = Y M N h¡ ¢2 i X X 0 0 E Yij − E(Yij ) = i=1 j=1 ´2 MN − 1 1 ³ S2 Yij − Y = MN MN .

e será denominada coeficiente de correlação intraclasse e é denotada por δ: ´³ ´ M N N PP P³ 1 ¡ ¢ Yik − Y Yij − Y M N N − 1 i=1 j=1 k=1 j6=k 0 0 ρ(Yij . Yik ) = ´³ ´ M N N PP P³ 1 ¡ ¢ Yij − Y Yik − Y M N N − 1 i=1 j=1 k=1 j6=k 0 0 δ = ρ(Yij . que permita visualizar este coeficiente como uma medida de homogeneidade dentro dos conglomerasdos. esta correlação será: ³ ´³ ´ M N N Yik − Y X X X Yij − Y £¡ 0 ¢ 0 ¤ 0 0 ¡ ¢ E Yij − E(Yij ) (Yik − E(Yik )) = MN N −1 i=1 j=1 k=1 j6=k MN − 1 2 S MN Esta correlação expressa uma medida de homogeneidade dentro dos conglomerados da população. Yik ) = MN − 1 2 S MN Agora será tratado o problema de obter uma expressão adequada para o coeficiente de correlação intraclasse.70 CAPÍTULO 2. Note-se que: ´³ ´ M N N PP P³ 1 ¡ ¢ Yij − Y Yik − Y M N N − 1 i=1 j=1 k=1 j6=k δ= MN − 1 2 S MN . AMOSTRAGEM DE CONGLOMERADOS S2 = Donde também: ´2 XX³ 1 Yij − Y MN − 1 i=1 j=1 M N Finalmente: h i MN − 1 2 0 0 S2 E (Yik − E(Yik )) = MN Logo.

3. CONGLOMERADOS EM 1 ESTÁGIO 71 Então pode-se escrever: M N N ´³ ´ XXX³ Yij − Y Yik − Y = i=1 j=1 k=1 j6=k M N N ´³ ´ XXX³ Yik − Y i + Y i − Y Yij − Y i + Y i − Y = i=1 j=1 k=1 j6=k M N N ³ ´2 ¶ X X X µ¡ ¢ Yij − Y i (Y ik − Y i ) + Y i − Y = i=1 j=1 k=1 j6=k M N N M ´2 XXX¡ X³ ¢ Yi−Y Yij − Y i (Y ik − Y i ) + N(N − 1) = i=1 j=1 k=1 j6=k i=1 M X i=1 = Note que: 2  N M N M ´2 X¡ XX¡ X³ ¢ ¢2  −  Yi−Y Yij − Y i Yij − Y i + N(N − 1) j=1 i=1 j=1 i=1 N X¡ ¢ Yij − Y i = 0 j=1 Lembrando que: Si2 e fazendo: ¢2 1 X¡ Yij − Y i = N − 1 j=1 N 2 Sd M 1 X 2 S = M i=1 i Segue-se que: M N N M M ´³ ´ ´2 XXX³ X¡ X³ ¢ 2 Yik − Y = − N − 1 Si +N(N −1) Yi−Y Yij − Y i=1 j=1 k=1 j6=k i=1 i=1 .2.

72 CAPÍTULO 2. vem: 1 2 2 Sd Se − N ∼ δ= S2 Para compreender melhor o significado desta expressão. deve-se notar que: M N ´2 XX³ ¡ ¢ 2 MN − 1 S = Yij − Y i=1 j=1 2 M N i XXh ¡ ¢ 2 MN − 1 S = (Yij − Y i )2 + 2(Yij − Y i )(Y i − Y ) + (Y i − Y )2 i=1 j=1 M N ´2 XX³ Yij − Y i + Y i − Y = i=1 j=1 M N M N M XX X X X 2 (Yij − Y i ) + 2 (Y i − Y ) (Yij − Y i ) + N (Y i − Y )2 = i=1 j=1 i=1 j=1 i=1 = = (N − 1) M M X i=1 (N − 1)Si2 + N 2 Sd + N (M − 1) S e M X i=1 (Y i − Y )2 2 . AMOSTRAGEM DE CONGLOMERADOS Como também: 2 Se vem: ´2 1 X³ Yi−Y = M − 1 i=1 M M N N ´³ ´ XXX³ ¡ ¢ 2 2 Yik − Y = − N − 1 M Sd +N(N −1) (M − 1) S e Yij − Y i=1 j=1 k=1 j6=k Assim pode-se escrever: h i ¢ ¡ 1 2 2 ¡ ¢ N(N − 1) (M − 1) S e − N − 1 M Sd MN N −1 δ= MN − 1 2 S MN 1 2 (M − 1) S e Sd − M N δ= MN − 1 2 S MN Se o número de conglomerados M for grande.

2 .2. Exemplo 2. conclui-se que: · δ∈ − ¸ 1 .1 (N − 1) 2 2 donde: Assim δ é uma medida de homogeneidade ou heterogeneidade dentro dos conglomerados. CONGLOMERADOS EM 1 ESTÁGIO 73 ou seja: 2 (N − 1) M Sd + N (M − 1) S e ¢ ¡ S = MN − 1 2 2 Assim estamos agora em posição para analisar melhor a influência na variação de δ da maior homogeneidade dos conglomerados. Supondo que os conglomerados fossem homogêneos devemos ter: 2 Sd = 0 portanto: 1 2 (M − 1) S e (M − 1) S e Sd − M N M δ= = 2 = 1 MN − 1 2 N (M − 1) S e S MN MN Logo. Se admitirmos que 2 S e = 0 vem: ¡ ¢ 2 MN − 1 S 2 = (N − 1) M Sd 1 2 Sd 1 N δ= =− 2 (N − 1) M Sd (N − 1) MN − Logo. o valor de δ deve diminuir.3. se há heterogeneidade dentro dos conglomerados com homogeneidade entre eles. quando há homogeneidade máxima dentro dos conglomerados =⇒ δ = 1. Por outro lado.

66667 Y 1 = 5. 3333 + 2. 66667 M =2 N = 3 Y 1 = 2. 2778 M N δ= = −0. 3333) = 7. 1a tentativa: conglomerados homogêneos U1 U3 U5 C1 → → → 3 3 2 U2 U4 U6 C2 → → → 2 Se 5 7 8 Y = 4. 1111 + 0. 5556 M N δ= = 0. 8889 M(N − 1) Sd + N (M − 1) S e MN . AMOSTRAGEM DE CONGLOMERADOS Seja uma população com exatamente 6 unidades. 1111 = 0. 3333) = 1.74 CAPÍTULO 2. 66667 = 4+4=8 1 2 (M − 1) S e Sd − 3. 3333 2 1 2 Sd = (9 + 5. 7273 2 = 2 4. 8889 M(N − 1) Sd + N (M − 1) S e MN a 2 tentativa: conglomerados heterogêneos U2 U5 U6 M =2 N =3 C1 → → → 5 2 8 U1 U3 U4 C2 → → → 3 3 7 Y = 4. 4659 2 = − 2 4. 66667 1 2 Sd = (0. 0000 Y 2 = 4. 3333 2 2 Y 2 = 6. 16667 2 2 S e = 0. A conglomeração será feita de de 2 modos diferentes a fim de medir a variação do coeficiente de correlação intraclasse em função da maior ou menor homogeneidade dos conglomerados. U1 ↓ Y1 q 3 U2 ↓ Y2 q 5 U3 ↓ Y3 q 3 U4 ↓ Y4 q 7 U5 ↓ Y5 q 2 U6 ↓ Y6 q 8 Essas unidades serão grupadas em 2 conglomerados para o cálculo do coeficiente de correlação intraclasse. 2222 1 2 (M − 1) S e Sd − 2.

2.3. 50 2 N −1 Portanto.3. e notando que: s2 d 1 X 02 S = m i=1 i m 2 é um estimador não viciado para Sd . (M − 1) s2 1 2 e sd − M N b= δ M(N − 1) s2 + N (M − 1) s2 e d MN Além disso. lembrando que: s2 e ´2 1 X³ 0 Y i − y Ac1 = m − 1 i=1 m 2 2 é um estimador não viciado para S e . indicando alto grau de heterogeneidade. basta substituir estes estimadores na expressão de δ para obter um estimador consistente para δ. basta considerar a expressão de δ: 1 2 (M − 1) S e Sd − M N δ= 2 2 M(N − 1) Sd + N (M − 1) S e MN Agora. notando-se que: 2 MN − 1 2 M(N − 1) Sd + N (M − 1) S e S = MN MN 2 Segue-se que um estimador não viciado para S 2 é dado por: M(N − 1) s2 + N (M − 1) s2 e d s = MN − 1 2 . CONGLOMERADOS EM 1 ESTÁGIO 75 1 1 = − = −0. Para tanto. δ está bem próximo do valor mínimo que pode assumir.4 Estimação do coeficiente de correlação intraclasse Um problema que falta solucionar é o da estimação do coeficiente de correlação intraclasse através de uma amostra de conglomerados. Note-se que: − 2.

32) Tem-se um fichário de 20. com 50 fichas cada. tem-se: s2 − e M = 400 e N = 50 Selecionou-se uma amostra aleatória sem reposição de 10 gavetas. Considerando as gavetas como conglomerados. 028 10 (50) mN i=1 . obtendo-se: Gavetas da Reserva Variância das total (Yi0 ) reservas (Si02 ) amostra 1 321 25 2 170 17 3 610 30 4 405 32 5 350 35 6 155 20 7 254 40 8 328 18 9 652 25 10 269 35 Soma 3. Nas gavetas selecionadas foram calculadas as reservas técnicas de todas as fichas.514 277 O objetivo é estimar a média por ficha da reserva técnica do plano A e o coeficiente de correlação intraclasse.3 (Nascimento (1981). Estimativa de Y m 1 X 0 3.514 y Ac1 = Yi = = 7.000 segurados de uma Companhia de Seguros. AMOSTRAGEM DE CONGLOMERADOS δ e conseqüentemente. para M muito grande: 1 2 sd N b∼ δ= s2 Exemplo 2. correspondendo a 500 fichas.76 CAPÍTULO 2. pág. As 20. em um plano A.000 fichas estão dispostas em 400 gavetas. que b pode ser escrito: 1 2 (M − 1) s2 e sd − M N b= δ MN − 1 2 s MN ou ainda.

obtido através de um plano amostral proveniente de uma amostra de conglomerados em 1 estágio (Ac1).156 − 10 9 (50) " 2 # = 11.2. 7 = m i=1 i 10 m s2 = e m 1 X 0 1 2 (Y − y Ac1 ) m − 1 N 2 i=1 i  µ m ¶2  P 0 Yi  m X 1  1  i=1 02 Yi − =  2  m − 1 N  i=1 m  = Estimativa de S 2 s2 = = (3.484. 554 N = 0. 20 20.000 − 1 1 2 sd 11. 7) + 50 (399) (11.3. vamos definir uma medida de eficiência baseada nas variâncias dos estimadores de Y com os dois desenhos. 082) = 38. 276 = s2 38.3. 082 M(N − 1) s2 + N (M − 1) s2 e d MN −1 400(50 − 1) (27. Assim: Ef = V (y AAS ) V (y Ac1 ) . com a de outro estimador. CONGLOMERADOS EM 1 ESTÁGIO 77 2 Estimativa de Sd s2 d Estimativa de S e 2 1 X 0 2 277 S = = 27. 20 Estimativa do coeficiente de correlação intraclasse b∼ δ= s2 − e 2. 0832 − 0.514) 1 2 1. obtido através de uma amostra aleatória simples (AAS).5 Eficiência da Ac1 em relação à AAS com conglomerados de tamanhos iguais Para comparar a precisão de um estimador.

Supondo que todos os conglomerados tenham o mesmo tamanho N. Mas: V (y Ac1 ) = e: N − n S2 V (y AAS ) = N n onde: ¢2 1 X¡ Yi − Y = M − 1 i=1 M M N 2 M − m 1 Se M N2 m aqui N = MN 2 Se S2 = ´2 XX³ 1 Yij − Y M N − 1 i=1 j=1 sob a hipótese de conglomerados de tamanhos iguais. AMOSTRAGEM DE CONGLOMERADOS onde: y é o estimador de Y na AAS. o tamanho n da AAS equivalente à Ac1 com m conglomerados na amostra é dado por : n = mN. A eficiência Ef > 1 se V (y Ac1 ) < V (y AAS ). pode-se escrever: V (y AAS ) = logo. Assim. tem-se: M − m S2 2 M mN = N S Ef = 2 2 M − m 1 Se Se M N2 m Agora. notando que: M − m S2 MN − mN S 2 = M mN MN mN . e y Ac1 é o estimador de Y na Ac1.78 CAPÍTULO 2.

a amostra de conglomerados é menos eficiente que a AAS. Portanto: Se δ > 0 ⇒ Ef < 1 então V (y Ac1 ) > V (y AAS ). CONGLOMERADOS EM 1 ESTÁGIO 79 M X i=1 ¢2 ¡ Yi − Y = M N M N N ´2 X X X ³ ´³ ´ XX³ Yij − Y + Yij − Y Yik − Y = i=1 j=1 M X i=1  2 N X  Yij − N Y  j=1 = como: ¡ ¢ ¢¡ ¢ ¡ M N − 1 S 2 + N − 1 MN − 1 S 2 δ M X¡ ¢2 2 Yi − Y = (M − 1) Se i=1 i=1 j=1 k=1 j6=k vem: 2 Se = Daí segue-se que: ¢ MN −1 2 MN −1¡ N − 1 S2 δ S + M −1 M −1 £ ¡ ¢ ¤ MN −1 2 S 1+ N −1 δ = M −1 N S2 Ef = ¡ ¢ ¤ MN −1 2£ S 1+ N −1 δ M −1 supondo: M − 1 ∼ M e MN − 1 ∼ MN vem: = = Ef ∼ = 1 ¡ ¢ 1+ N −1 δ ¢ ¢ ¡ ¡ Ef > 1 ⇐⇒ 1 + N − 1 δ < 1 ⇐⇒ N − 1 δ < 0 ⇐⇒ δ < 0 ¢ ¤ £ ¡ O termo 1 + N − 1 δ mostra quanto a variância é afetada pelo uso de conglomerado ao invés de um elemento como unidade amostral.3. Este fator mede a influência da conglomeração na precisão do estimador. Kish (1965) define este fator como o efeito de desenho de uma amostra de conglomerados de tamanho N ou efeito de conglomeração. .2.

¸ · 1 . diminui a eficiência da Ac1 em relação à AAS. a amostra de conglomerados é equivalente a AAS. AMOSTRAGEM DE CONGLOMERADOS Se δ = 0 ⇒ Ef = 1 então V (y Ac1 ) = V (y AAS ). Para o caso de conglomerados de mesmo tamanho. qual deverá ser o tamanho da amostra de conglomerados? V (y Ac1 ) equivale a V (y AAS ) quando: V (y Ac1 ) ¢ ¤ ∼ V (y AAS ) £ ¡ = 1+ N −1 δ S2 S2 £ ¡ e ¢ ¤ = 2 mN N m 1+ N −1 δ 1 o que implica que o número de conglomerados na amostra equivale a £ ¡ ¢ ¤ m 1+ N −1 δ S S2 £ ¡ e ¢ ¤ = m 1+ N −1 δ mN 2 £ ¡ ¢ ¤ V (y Ac1 ) ∼ V (y AAS ) 1 + N − 1 δ = ou seja. isto indica que os valores negativos de δ são Como δ ∈ − (N − 1) ¶ µ 1 = 0. +∞ N isto é. à medida que o raros.80 CAPÍTULO 2. Lembrando que: Ef = vem: V (y AAS ) ∼ 1 ¡ ¢ = V (y Ac1 ) 1+ N −1 δ Ef ∈ e · ¸ 1 . se estivermos interessados na mesma precisão. quando: . Se δ < 0 ⇒ Ef > 1 então V (y Ac1 ) < V (y AAS ). uma vez que limN −→+∞ − (N − 1) tamanho N cresce. isto é. 1 . a amostra de conglomerados é mais eficiente que a AAS. a variância do estimador da média na¢Ac1 é a variância do estimador ¤ £ ¡ da média na AAS vezes o fator 1 + N − 1 δ .

são apresentadas algumas ilustrações para mostrar que δ mede homogeneidade e como afeta a variância por unidades amostrais elementares ou por conglomerados. Suponha que a maioria das pessoas em certos setores têm uma renda alta e a maioria das pessoas em outros setores têm renda baixa. Neste caso a variância entre as médias dos setores será relativamente grande e a correlação entre as pessoas dentro do setor será alta e positiva.3 e calcule o número de conglomerados necessários na amostra. 524) ∼ 145 conglomerados = O elevado efeito de conglomeração. o número de unidades populacionais na amostra equivale a: ¢ ¤ ¡ ¢ £ ¡ m 1 + N − 1 δ N = mN + mN N − 1 δ ¡ ¢ ¤ £ ou seja. b) Agora. Neste caso. uma amostra aleatoria simples de setores consistindo de todas as pessoas no setor daria uma completa informação com relação à composição da renda da população. portanto. 34) Considere as informações do exemplo 2. 524 O tamanho da amostra de conglomerados para dar a mesma precisão de uma amostra aleatória simples é: £ ¡ ¢ ¤ m 1 + N − 1 δ = 10 (14. Conseqüentemente. 276) = 14.4 (Nascimento (1981). Ilustrações A seguir. Exemplo 2. haverá um acréscimo de m N − 1 δ conglomerados na amostra. . haverá um acréscimo de mN N − 1 δ unidades em relação a AAS sem reposição. para dar a mesma precisão de uma amostra aleatória simples ao estimar a média por ficha da reserva técnica do plano A. mostra que o desenho amostral de conglomerados em 1 estágio que considera a gaveta com 50 fichas como conglomerado é pouco eficiente. Neste caso. um caso extremo onde a composição da renda é exatamente a mesma em cada setor.2. Assim uma amostra aleatória simples de setores consistindo de todas pessoas dos setores dará pouca informação com relação à composição da renda da população. a) Suponha que se deseja analisar a composição da população em relação a renda e que o conglomerado seja o setor censitário. o efeito de conglomeração é: ¡ ¢ 1 + N − 1 δ = 1 + 49 (0. a variância entre as médias dos setores será zero e a correlação entre as pessoas de mesmo setor será negativa. CONGLOMERADOS EM 1 ESTÁGIO 81 £ ¡ ¢ ¤ e. pág.3. Nesste caso.

Em geral. Em geral. AMOSTRAGEM DE CONGLOMERADOS c) Finalmente. Então.4 Controle na variação de tamanho 2 N S2 M 2 (M − m) Se b aumenta e a Ef = Observe que a V (YAc1 ) = diminui 2 M m Se 2 quando Se aumenta. de modo que a característica de estratificação seja o tamanho. os totais de uma característica y tendem a crescer quando os tamanhos dos conglomerados crescem. haverá uma correlação mais alta entre as unidades dentro de um conglomerado do que quando os conglomerados são maiores e há portanto. e c) usar um estimador de razão. 2. Os processos usuais de controle do tamanho dos conglomerados são: ¢2 1 X¡ Yi − Y = M − 1 i=1 M a) selecionar os conglomerados com probabilidades proporcionais ao tamanho dos conglomerados. um maior espalhamento entre as unidades dentro do conglomerado. suponha que a composição da renda difira de setor para setor e que a variância entre as médias dos setores seja aproximadamente a variância entre as médias amostrais baseada numa amostra aleatória simples. O coeficiente de correlação em geral é positivo e diminui com o aumento do tamanho do conglomerado. com característica auxiliar definida pelo tamanho do conglomerado. Uma amostra aleatória de setores consistindo de todas as pessoas no setor daria informações com respeito à composição da renda da população da mesma forma que uma amostra aleatória simples de mesmo tamanho selecionada sem considerar o conglomerado setor. . A correlação entre as pessoas de um mesmo setor será nula. pois se as unidades incluídas na amostra são poucas e imediatamente contiguas. Mas de acordo com a expressão: 2 Se 2 o aumento de Se é tanto maior quanto mais diferentes forem os totais dos conglomerados. b) estratificar os conglomerados. é usual controlar a variação de tamanho dos conglomerados na expectativa de redução da variância e de aumento da eficiência com o uso da amostragem de conglomerados. os conglomerados são definidos por populações geográficas contiguas.82 CAPÍTULO 2.

procura-se uma saída diferente: mantendo os conglomerados com os tamanhos desiguais. . Seja Pi a probabilidade de seleção do conglomerado i com → YiNi M P Pi = 1. e também na variação do tamanho final da amostra nem sempre é possível. sendo que a ocorrência de conglomerados de tamanhos iguais é pouco comum.5. que podem ter tamanhos desiguais.1 Seleção dos conglomerados com probabilidades desiguais e com reposição As unidades de π N são grupadas em M conglomerados. a formação de conglomerados com tamanhos iguais para controlar a variação de tamanho na variância do estimador. YiN 0 i 0 0 . Com o objetivo de manter a simplicidade da exposição será tratada primeiramente a seleção da amostra de conglomerados com probabilidades desiguais e com reposição. Na prática. PROBABILIDADES DESIGUAIS DE SELEÇÃO 83 2. . 2. ao invés de tentar controlar artificialmente os tamanhos dos conglomerados.5 Probabilidades desiguais de seleção Como vimos anteriormente. .5. M.PPT). . i=1 Seleciona-se uma amostra com reposição de m conglomerados de acordo com as probabilidades Pi . · · · . estuda-se uma forma de seleção da amostra de conglomerados com probabilidades desiguais (Probabilidades Proporcionais a uma medida de Tamanho . . . a ocorrência de variabilidade nos tamanhos dos conglomerados causa acentuada perda de precisão nos estimadores até agora abordados com amostragem de conglomerados em 1 estágio. 2. Ci Ui1 → Yi1 Ui2 → Yi2 . Assim.2. UiN 0 i 0 Ci → → → 0 Yi1 0 Yi2 . UiNi i = 1. . 0 Ui1 0 Ui2 . . .

Pi0 é igual a algum dos Pk (k = 1. 2. basta mostrar que: ´ ³ bP E YAc1 = E ! µ 0¶ m m Yi 1 X 1 X Yi0 E = 0 m i=1 Pi m i=1 Pi0 "M # m M X X Yk X 1 Pk = Yk = Y = m i=1 k=1 Pk k=1 Ã Assim. um estimador não viciado da média Y é dado por: P y Ac1 m 1 X Yi0 = m N i=1 Pi0 Variância do estimador de total .84 CAPÍTULO 2. m. · · · . · · · . bP Para mostrar que YAc1 é não viciado. M). 2. para obter um estimador não viciado do total Y da população basta tomar: XY0 i P bAc1 = 1 Y m i=1 Pi0 m onde: Pi0 é a probabilidade de seleção associada ao i-ésimo conglomerado selecionado. A partir dos conglomerados selecionados pode-se calcular as seguintes estatísticas: Yi0 = Ni X j=1 0 0 Yij Média da característica y no conglomerado Ci0 : Yi = 0 Yi0 Ni0 Variância da característica y em Ci0 : i 1 X 0 0 Si = 0 (Yij − Y i )2 Ni − 1 j=1 02 N0 Agora. AMOSTRAGEM DE CONGLOMERADOS i = 1.

5.2. notando que: M XY2 i i=1 Pi −Y 2 = ! ÃM M X Yi X Yi2 2 Pi − 2 Pi Y + Y Pi = Pi2 Pi i=1 i=1 i=1 ¶ M X µY 2 Yi i = − 2 + Y 2 Pi 2 Pi Pi i=1 ¶2 M X µ Yi 2 = − Y Pi = SeP Pi i=1 M XY2 i i=1 M X Pi2 Pi − 2Y 2 + Y 2 . PROBABILIDADES DESIGUAIS DE SELEÇÃO 85 µ³ ´ ´2 ¶ ³ P P b b YAc1 V YAc1 = E −Y2 Ã !2  m XY0 1 i −Y2 = E 0 m i=1 Pi   ¶2 X X 0 0 m µ m m Yi Yk  1 X Yi0  −Y2 E = + 0 0 2 m Pi Pi0 Pk  i=1 i=1 k=1 1 = m2 m X i=1 E µ Yi Pi0 ¶ 0 2 1 + 2 m i6=k m X X m i=1 k=1 i6=k E µ Yi0 Yk0 0 Pi0 Pk ¶ −Y2 ¶2 µ 0¶ µ 0¶ M µ Yk Yi 1 X Yi 1 E m Pi + 2 m(m − 1)E −Y2 = 0 0 2 m Pi m Pi Pk i=1 1 X Yi2 (m − 1) 2 Y −Y2 = + m i=1 Pi m M 1 X Yi2 Y 2 = − m i=1 Pi m ! ÃM 1 X Yi2 −Y2 = m i=1 Pi M Porém.

86 CAPÍTULO 2. escreve-se: ´ ³ bP v YAc1 = ¶2 m X µY 0 1 i P bAc1 0 − Y m (m − 1) i=1 Pi # " m µ 0 ¶2 ´2 ³ X Y 1 i bP = − m YAc1 0 m (m − 1) i=1 Pi Daí. AMOSTRAGEM DE CONGLOMERADOS ³ ´ S2 bP V YAc1 = eP m ³ ´ bP e um estimador não viciado de V YAc1 é obtido por: onde: s2 eP ³ ´ s2 bP v YAc1 = eP m Segue-se que: ¶2 m µ 0 1 X Yi P b = 0 − YAc1 m − 1 i=1 Pi ³ ´ ´ ³ bP bP Para mostrar que v YAc1 é não viciado para V YAc1 . segue-se que: Ã ´i h ³ bP E v YAc1 = E = = = = = = ¶2 ! m X µY 0 1 i bP 0 − YAc1 m (m − 1) i=1 Pi ! Ãm ´2 ³ X µ Y 0 ¶2 1 i bP E − mE YAc1 0 m (m − 1) i=1 Pi ! Ã M µ ¶ µ ³ ´ ³ ³ ´´2 ¶ X Yi 2 1 bP bP Pi − m V YAc1 + E YAc1 m m (m − 1) Pi i=1 ! ÃM µ ¶ ´ ³ X Yi 2 1 bP Pi − V YAc1 − Y 2 (m − 1) i=1 Pi ! ÃÃ M ! ³ ´ XY2 1 i bP − Y 2 − V YAc1 Pi (m − 1) i=1 ³ ³ ´ ³ ´´ 1 bP bP mV YAc1 − V YAc1 (m − 1) ³ ´ P bAc1 V Y .

Fundamentalmente. M). PROBABILIDADES DESIGUAIS DE SELEÇÃO Probabilidades proporcionais a uma medida de tamanho 87 Até agora tratamos de um desenho onde a seleção dos conglomerados é feita com probabilidades desiguais. as Pi devem ser aproximadamente proporcionais aos totais dos conglomerados. erados. i=1 . existem 3 maneiras para fazer isto: 1. Fazer as probabilidades Pi proporcionais a uma medida de tamanho dos conglomerados. Isto é. M) X Xi . Acontece que os totais Yi são desconhecidos e não podem ser utilizados para determinação das probabilidades de seleção. sem preocupação a respeito do cálculo dessas probabilidades. porém tentando fazer com que elas tenham valores aproximadamente iguais àqueles sugeridos pela definição anterior. 2.2. o estimador YAc1 teria variância zero. Fazer as probabilidades Pi proporcionais aos tamanhos Ni dos conglomNi (i = 1. · · · . 2. · · · . Esta solução é boa quase sempre. Agora vamos atentar para esse problema e procurar um conjunto de probabilidades que traga uma estimação eficiente.5. Assim é que será necessário definir as Pi a partir de outra forma. conhecida para todos os conglomerados e correlacionada com a característica y de interesse: Pi = onde: X = M P Xi (i = 1. Pi = N entretanto não é sempre viável pois em certas situações os tamanhos Ni também não são conhecidos para todos os conglomerados. se as probabilidades Pi fossem exatamente proporcionais aos totais bP Yi dos conglomerados. Para tanto consideremos: ¶2 M µ ³ ´ 1 X Yi P b V YAc1 = Pi −Y m i=1 Pi Pi = segue-se que: Yi Y Nesta expressão. x. se tomarmos: 2  M ³ ´ 1 X  Yi  bP V YAc1 =  Y − Y  Pi = 0 m i=1 i Y Logo. 2.

Tk+1 ] . Seja u o número selecionado. Exemplo 2. Tk+1 ] então incluir na amostra o conglomerado k + 1. Fazer as probabilidades Pi exatamente proporcionais aos valores da mesma característica y observadas num censo anterior. AMOSTRAGEM DE CONGLOMERADOS Exemplo: se o conglomerado é uma partição geográfica. 2. 3. Algoritmo para seleção da amostra com probabilidade proporcional ao tamanho (método dos totais cumulativos . K ∈ {1. Se esta for ruim. Selecionar um número aleatoriamente no intervalo [1. donde se pode obter uma amostra contendo várias repetições de uma mesma unidade da população. X]. Verificar em que intervalo (Tk . este desenho não deve ser melhor que amostragem com equiprobabilidades.seleção aleatória) 1. O estatístico examina a situação e recomenda o uso de probabilidades proy porcionais a x sempre que os valores puderem ser admitidos aproximadax bP mente constantes. 3. este desenho pode ser pior que amostragem com equiprobabilidades. o número selecionado caiu. · · · . no sentido de que não há proporcionalidade entre y e x. repetir o processo a partir da etapa 2. 2. M} . usar a área total x do conglomerado como medida de tamanho.5 . M} M X i=1 T0 = 0 e X = Xi 2. Deve ser enfatizado que o sucesso da adoção da alternativa da amostragem com probabilidades proporcionais ao tamanho depende fortemente do acerto na escolha da medida de tamanho. · · · . Calcular os totais parciais acumulados Tk dados por: Tk = K X i=1 Xi ∀ K ∈ {1. a amostra está selecionada. pois neste caso a variância de YAc1 deverá ser pequena. Caso u ∈ (Tk . Note-se que o procedimento é com reposição. Caso contrário. Caso a amostra não tenha sido completada. Pode ser demonstrado que em certas condições.88 CAPÍTULO 2.

como aproximação. Algoritmo para seleção da amostra com probabilidade proporcional ao tamanho (método dos totais cumulativos . 3. Observe que o conglomerado 7 foi selecionado duas vezes. então o primeiro conglomerado a ser selecionado é o número 7. pode-se usar a seleção sistemática. 79 e 294. (Cochran pág. 7 e 10 estão também designados para a amostra. linha 1 e coluna 17). Divide-se X em partes sendo m seleção sistemática. a probabilidade de inclusão do conglomerado i na amostra é: m Xi Xi = X X m X o intervalo da amostra para fins de 1. Numa população de 10 quarteirões. Os números aleatórios seguintes menores ou iguais a 301 são: 15. Se M é grande. 19. Seleção dos quarteirões da amostra n do medidas medida designação quarteirão de tamanho acumulada da amostra 1 50 50 x 2 12 62 3 20 82 x 4 31 113 5 10 123 6 60 183 7 55 238 xx 8 13 251 9 30 281 10 20 301 x o Selecionar aleatoriamente um número entre 1 e 301. . 218. Logo. selecionar uma amostra de 5 quarteirões com probabilidade proporcional ao número de domicílios no quarteirão. os conglomerados 1. PROBABILIDADES DESIGUAIS DE SELEÇÃO 89 Suponha-se que os conglomerados são quarteirões e que desejamos amostrar os domicílios. a probabilidade de um conglomerado ser selecionado mais de uma vez é muito pequena e.2.seleção sistemática) Se a seleção é proporcional a uma medida de tamanho.5. O número selecionado é 226.

2. com i 6= j. 2. M. M} ti =  0 se Ci não ∈ a amostra . π k > o. Cj ) pertença a amostra em qualquer ordem seja π ij . Horvitz e Thompson (1952) desenvolveram uma teoria geral de amostragem com probabilidades desiguais de seleção e sem reposição. 2. Se o número aleatório é 22.2 = 142. Ci . ∀ i = 1. Seleção dos conglomerados com probabilidades desiguais e sem reposição Suponha agora que a amostra de m conglomerados tenha sido selecionada mediante algum procedimento aleatório sem reposição. X = 60. 213. 4.3. AMOSTRAGEM DE CONGLOMERADOS ¸ · X .1 +60. Somando-se ao ponto de partida o intervalo vai determinar o 2o conglomerado da amostra. 2. 60. · · · . m e j = 1.1. e assim por diante até selecionar os m conglomerados. ∀ k = 1. baseada no uso de um estimador não viciado de total populacional.2 = 273. 2. m. 142. 2. que correspondem respectivamente. · · · . m ponto esse que vai determinar o 1o conglomerado da amostra.5. 3. dado pela seguinte expressão: m XY0 i bHT = Y π0i i=1 com π 0i igual a algum dos π k . 2. · · · . aos conglomerados 1.9.2 + 22. Seleciona-se aleatoriamente um ponto de partida no intervalo 1. pertença a amostra seja π i .2 = 213. e a probabilidade de que o par de conglomerados (Ci . M.5. tal que a probabilidade de que o conglomerado i. 7 e 9.90 CAPÍTULO 2. Caso particular de equiprobabilidade: π i = M b A variância de YHT é dada pela seguinte expressão: i6=j M M M ³ ´ X (1 − π ) X X (πij − π i π j ) i 2 bHT = V Y Yi + Yi Yj πi πiπj i=1 i=1 j=1 Prova: Seja ti a indicadora se o conglomerado i ∈ a amostra:   1 se Ci ∈ a amostra i ∈ {1.7 + 60. 6. · · · . 82. os conNo exemplo anterior m glomerados selecionados são aqueles cujos totais cumulativos são: 22.9 + 60.5 = 82. m ∀ i = 1.7. · · · .

l = 1.2. com probabilidade π i . . Assim. · · · . ∀ k = 1. ti tem distribuição binomial para uma amostra de tamanho m. M e l 6= k. PROBABILIDADES DESIGUAIS DE SELEÇÃO 91 Então. · · · . 2. tj ) = E (ti tj ) − E (ti ) E (tj ) = π ij − π i πj Logo: b YHT = m XY0 i π 0i i=1 = M X Yi i=1 πi ti M M M ´ XY ³ X Yi X i bHT = E Y E (ti ) = πi = Yi = Y π π i=1 i i=1 i i=1 ´ ³ bHT V Y = V = ! ÃM M M M X Yi XY2 X X Yi Yj i ti = V (ti ) + COV (ti . tj ) π π2 ππ i i=1 i i=1 i=1 j=1 i j i6=j M XY2 i π2 i i=1 M XY2 i i=1 π i (1 − π i ) + M M X X Yi Yj i=1 j=1 i6=j πiπj (π ij − π i π j ) = πi (1 − π i ) + M M X X Yi Yj i=1 j=1 i6=j πi πj (πij − π i π j ) ´ ³ b Um estimador não viciado da V YHT é dado por: i6=j ¢ m m m ¡ ³ ´ X (1 − π 0 ) 0 X X π 0ij − π 0i π 0j i b v YHT = Yi 2 + Yi0 Yj0 π 0i π 0i π 0j i=1 i=1 j=1 com π0ij igual a algum dos π kl . 2. E (ti ) = π i V (ti ) = π i (1 − π i ) COV (ti . π kl > o.5. M.

Permite a computação de um estimador para o total populacional que tem variância sempre inferior ao estimador padrão da amostragem com probabilidades desiguais com reposição. M2 . Estes procedimentos podem ser classificados por diferentes modos. considerando o tamanho da amostra de conglomerados fixo. Hanif e Brewer (1980) apresentam uma lista de vários procedimentos de seleção com probabilidades desiguais sem reposição. tais como: classificação na maneira da seleção.92 CAPÍTULO 2. em m grupos de tamanhos M1 . 4. Uma descrição e comparações deste método com métodos de seleção com probabilidades desiguais sem reposição pode ser vista em Lima (1985). Dentre os procedimentos apresentados destaca-se o método dos Grupos Aleatórios de Rao Hartley e Cochran (1962). Divide-se a população composta de M conglomerados. · · · . Este fato é justificado pelas dificuldades matemáticas encontradas na avaliação dos πij probabilidade de inclusão conjunta da i-ésima e j-ésima unidades na amostra. m X i=1 Mi . Método dos Grupos Aleatórios de Rao Hartley e Cochran Propriedades: 1. Fornece fórmula exata da variância para qualquer tamanho de população e de amostra fixa. classificação por tipo de estimador apropriado. AMOSTRAGEM DE CONGLOMERADOS Grande parte dos procedimentos de seleção com probabilidades desiguais e sem reposição que aparecem na literatura de amostragem apresentam expressões complexas ou aproximadas para os estimadores da variância. classificação por classe de equivalência (os procedimentos pertencem a mesma classe de equivalência quando as probabilidades de seleção conjunta de todas as combinações possíveis são idênticas). 2. aleatoriamente. Mm . Não acarreta computação árdua para seleção ou para computaçãodo estimador da variância e da respectiva estimativa. Algoritmo 1. 3. M= onde m é o tamanho da amostra. Encontra-se disponível um estimador não viciado e sempre não negativo para a variância amostral do estimador do total. quaisquer que sejam os tamanhos de amostra e da população.

b A variância de YRHC é dada por: ¶ µm P 2 ! Mi − M ÃX 2 M ³ ´ Yi b V YRHC = i=1 −Y2 M (M − 1) Pi i=1 ´ ³ b e um estimador de v YRHC é dado por: ³ ´ b v YRHC = µm P i=1 Yi0 Mi2 −M M (M − 1) ¶ m X i=1 πi µ Yi b − YRHC Pi0 0 ¶2 2. Esta alternativa é praticamente equivalente à seleção dos conglomerados com proporcionais ao tamanho. isto é grupar os conglomerados em estratos homogêneos segundo alguma medida de tamanho. X Neste caso. o valor de uma medida de tamanho que permita separar os conglomerados em estratos homogêneos. Se a t-ésima unidade cair no grupo i.6. o estimador do total populacional é dado por: b YRHC = m X i=1 2. não parece haver vantagem nítida . ESTRATIFICAÇÃO DE CONGLOMERADOS 93 Se estiver sendo usada probabilidade proporcional ao tamanho Xi . então: Xt Pt = . independentemente.2. com probabilidade proporcional à probabilidade de seleção Pt da t-ésima unidade. Selecionar um conglomerado de cada um dos m grupos. para todos os M conglomerados da população. pois é indispensável conhecer.6 Estratificação de conglomerados Uma outra forma de controlar a variação dos tamanhos dos conglomerados é estratificá-los segundo alguma característica que meça seu tamanho. probabilidade real da seleção desta unidade é . então a P Pt Pi . para poder então selecionar a amostra.onde: πi = πi grupo i Yi0 πi Pi onde: é o valor da característica y no i-ésimo grupo. Em termos de eficiência em relação à seleção dos conglomerados com probabilidades proporcionais ao tamanho.

. . CLML YL1 YL2 . L mh i=1 hi . Mh P Yh = Yhi o total da característica y no estratro h. mL e investigando-se todas as unidades pertencentes aos conglomerados da amostra tem-se: Yh = 0 Denotando por Eh um estrato genérico (h = 1. . 2. . Y1m1 0 0 ··· CL1 0 CL2 . YLML Yh o total médio por conglomerado do estrato h. . . L). sem reposição de tamanhos m1 . m2 . . .Ac1 = ∀h = 1. · · · . E2 .1 Estimadores e respectivas precisões Inicialmente. pode-se estimar os totais dos estratos por: mh Mh X 0 b Y Yh. .94 CAPÍTULO 2. Mh Mh P 1 2 She = (Yhi −Y h )2 a variância entre os totais dos conglomerados Mh − 1 i=1 dentro do estrato h. sendo bastante semelhante os resultados obtidos com ambas as técnicas em termos da precisão final das alternativas. EL . tendo-se associado a cada conglomerado o total da característica y: E1 → → → EL → → → C11 C12 . Y1M1 ··· CL1 CL2 . suponhamos que os M conglomerados são grupados em L estratos E1 . i=1 C11 0 C12 . . 2. segue-se que: Mh o número de conglomerados no estrato h. . · · · . C1m1 0 E1 → → → Y11 0 Y12 . . . · · · . YLm 0 L 0 Como as amostras nos estratos são amostras de conglomerados em 1 estágio. C1M1 Y11 Y12 . AMOSTRAGEM DE CONGLOMERADOS de qualquer das duas alternativas.6. 2. Agora. CLmL 0 0 EL → → → YL1 0 YL2 . . selecionando-se em cada um dos L estratos amostras aleatórias simples de conglomerados. · · · . . .

L) Mh . 2.Ac1 = Assim pode-se estimar o total Y da população por: b est YAc1 = L X h=1 mh b Yh.Ac1 ) = L X M 2 (Mh − mh ) s2 h he Mh mh h=1 mh (∀h = 1.Ac1 = mh L X Mh X h=1 mh 0 Yhi i=1 Além disto. ESTRATIFICAÇÃO DE CONGLOMERADOS e tem-se que: b V (Yh.2. · · · .6. · · · .Ac1 ) = b v(Yh. 2. L L ³ ´ X ³ ´ X est bAc1 = bh.Ac1 ) = b v(Yh.Ac1 ) = 2 2 Mh (Mh − mh ) She ∀h = 1.Ac1 = E Y E Y Yh = Y h=1 h=1 L X h=1 L X M 2 (Mh − mh ) S 2 h he Mh mh h=1 e esta variância pode ser estimada por: b est v(YAc1 ) = L X h=1 b est V (YAc1 ) = b V (Yh. L Mh mh m s2 = he sendo: h X 1 2 (Y 0 − y h. L) for constante e igual Mh a f nos estratos (equivalendo a uma alocação proporcional nos estratos). 2. L Mh mh 95 b e a estimação não viciada de V (Yh. obtém-se: Se a fração de amostragem mh = f (∀h = 1.Ac1 ) pode ser feita por: onde: 2 Mh (Mh − mh ) s2 he ∀h = 1. · · · .Ac1 1 X 0 Yhi = mh i=1 Mh com: b Yh. 2.Ac1 ) mh − 1 i=1 hi y h. · · · .

100. 1.730) = 2.500 habitantes = m h=1 i=1 hi .3 pessoas por domicílio. de acordo com o Censo.96 CAPÍTULO 2. 1.960.890. 3. 1. AMOSTRAGEM DE CONGLOMERADOS L mh XX est 0 bAc1 = 1 Yhi Y f h=1 i=1 L X est 2 bAc1 ) = 1 − f V (Y Mh She f h=1 Exemplo 2. Foram formados 6 estratos. de acordo com a população do último Censo. 2.010 1. A tabela abaixo apresenta o número de setores na população e na amostra e o número de habitantes nos setores da amostra.090. 1.400. foi fixada uma amostra de 24 setores ou.450. 1.200. 870.800 habitantes. Estimar a população atual da localidade e o respectivo coeficiente de variação associado à essa estimativa. b est v(YAc1 ) = L 1−f X Mh s2 he f h=1 Estratos 1 2 3 4 5 6 Setores na Setores na população amostra (Mh ) (mh ) 90 2 100 2 140 3 250 5 295 6 325 6 Habitantes nos setores da amostra 0 (Yhi ) 3. A população total da localidade. 1. 900. existem 1. 1.520 1. o que corresponde à 24 1 fração de amostragem de 1200 = 50 . cujos números de setores por estrato constam da tabela abaixo. com base em pesquisa anterior). 1. 3060 2. 9.040. aproximadamente.320.990.200 setores censitários que vão ser considerados como conglomerados de domicílios. 1.310 980. Considerando as disponibilidades de tempo e custo.300.036. o que corresponde a uma média de 1.010.460. 1.910.5 (Nascimento (1981). pág 63) Em certa localidade. 930 Estimativa do número de habitantes da localidade: b est YAc1 L mh M XX 0 Y = 50 (40.120 2. 990.850. foi de 1.634 habitantes por setor ou 380 domicílios por setor ( na base de 4.120 domicílios. 2.

96 2.084 6 965 34.036. em virtude de não se dispor de nenhuma medida de tamanho com valores conhecidos para todos os conglomerados.2.Ac1 ) (s2 ) he 1 3.950 Estimativa da variância da estimativa do número de habitantes da localidade: b est v(YAc1 ) = L 1−f X Mh s2 = 49 (64.020 3.720 5 1.867 4 1.624 381. 0276 b 2.172 129.Ac1 ) mh − 1 i=1 m obtendo-se os seguintes resultados: Estratos Média da amostra Variância entre por setor os setores (y h.7.147.7 Estimador de razão Há situações práticas em que o controle da variação nos tamanhos dos conglomerados não pode ser feito mudando as probabilidades de seleção ou estratificando os conglomerados. ESTIMADOR DE RAZÃO 97 Em cada estrato calcula-se a média da amostra por setor.285 54.395) = 3.393 360. .500 Y est Ac1 o respectivo erro padrão é estimado por: q b est v(YAc1 ) = 56.098.Ac1 mh 1 X 0 Y = mh i=1 hi e a variância da amostra entre os setores de cada estrato h: s2 he h X 1 2 0 = (Yhi − y h.450 2 3.351 he f h=1 e o respectivo coeficiente de variação estimado por: q b est v(YAc1 ) 56.098.226.200 3 2. 96 b est cv(YAc1 ) = = = 0. no estrato h: y h.093.

Para que esse processo possa ser empregado. o processo mais comumente empregado é o da estimação por razão. lembrando que um estimador não viciado de Y é dado por: m X bAc1 = M Y0 Y m i=1 i Y Y = = i=1 M P N i=1 Yi Ni e também.1 Estimador de razão baseado no tamanho dos conglomerados Sabe-se que: M P Assim.7. Neste caso. basta que sejam conhecidos os valores Ni0 e Yi0 . notando que um estimador não viciado do tamanho total N é dado por: m X bAc1 = M N Ni0 m i=1 Segue-se que um estimador consistente de Y é dado por: b YAc1 b NAc1 m m P 0 M P 0 Yi Yi m i=1 i=1 = = P m m M P 0 Ni0 Ni m i=1 i=1 y Ac1 = R Aqui pode-se notar que este estimador depende só dos tamanhos Ni0 e dos totais Yi0 dos conglomerados da amostra. tamanho e total da característica y dos conglomerados da amostra. a alternativa que resta é a estimação por um outro processo. . AMOSTRAGEM DE CONGLOMERADOS Nestas situações. respectivamente. 2. não dependendo do tamanho total da população (N) como o estimador não viciado y Ac1 que vimos anteriormente.98 CAPÍTULO 2.

a variância do estimador de razão é dada por: b = V (R) ∼ b b Y R= b X 2 M − m SeR 2 MX m onde: e R= M Y X 2 SeR Supondo que m é suficientemente grande para tornar desprezível o vício do estimador de razão.2.7. um estimador consistente desta variância é dado por: v(y Ac1 ) = com: 1 X 0 0 R = (Yi − y Ac1 Ni )2 m − 1 i=1 m m R s2 eR = 1 X 02 0 R N (Y i − y Ac1 )2 m − 1 i=1 i . ESTIMADOR DE RAZÃO Variância de y Ac1 R 99 Se considerarmos uma amostra aleatória simples de m unidades de uma população de tamanho M. e substituindo X por N segue-se que: 2 M − m SeR R V (y Ac1 ) ∼ = 2 MN m 1 X = (Yi − R Xi )2 M − 1 i=1 com: 2 SeR Y 1 X = (Yi − Ni )2 M − 1 i=1 N M = = 1 X (Yi − Y Ni )2 M − 1 i=1 M M 1 X 2 Ni (Y i − Y )2 M − 1 i=1 M − m s2 eR 2 MN m Além disso.

m P com: R i=1 bR YAc1 = MN y Ac1 = MN P m i=1 Yi0 Ni0 bR V (YAc1 ) = 2 ¡ ¢2 ¢2 M − m SeR ¡ R MN V (y Ac1 ) ∼ MN = 2 MN m 2 M − m SeR = M2 M m Além disso. é imediata a obtenção do estimador de razão consistente para o total Y . pode ser estimado por: N Ac1 1 X 0 N = m i=1 i m A partir do que foi visto até agora.100CAPÍTULO 2. se o parâmetro que se deseja estimar é a proporção PA de unidades da população com certo atributo A. segue-se que um estimador de razão consistente de PA é dado por: m P 0 0 Ni PA i i=1 R pAc1 = P m Ni0 i=1 com: e 2 SeR 2 M − m SeR V (pR ) ∼ = Ac1 2 MN m M e o estimador dessa variância dado por: v(pR ) = Ac1 com: s2 = eR m 1 X 2 N (PA i − PA )2 = M − 1 i=1 i M − m s2 eR 2 MN m 1 X 02 0 N (P − pR )2 Ac1 m − 1 i=1 i A i . AMOSTRAGEM DE CONGLOMERADOS Se N não for conhecido.

é indispensável conhecer o total X da população e observar os totais Xi0 dos conglomerados da amostra.2 Estimador de razão baseado em uma característica que não seja o tamanho do conglomerado Aqui a característica auxiliar x que se utiliza para construir o estimador de razão é outra qualquer que não o tamanho dos conglomerados. o estimador de razão do total Y é dado por: m P i=1 bR YAc1 = P m i=1 Yi0 X Xi0 com: 2 M − m SeR bR = V (YAc1 ) ∼ M 2 M m 2 SeR 1 X = (Yi − R Xi )2 M − 1 i=1 M sendo: R= e bR = v(YAc1 ) ∼ M 2 m Y X M − m s2 eR M m com: s2 eR e 1 X 0 b 0 2 = (Y − R Xi ) m − 1 i=1 i Yi b YAc1 i=1 b R= = P m b XAc1 Xi0 i=1 m P 0 .7. ESTIMADOR DE RAZÃO 101 2.7.2. Para que o estimador de razão possa ser construído com esta característica x. Assim.

8. 2. U15 . 5. U5 . U3 . U17 } 2. U19 } C3 = {U4 .102CAPÍTULO 2. cujos valores associados a uma certa característica y são relacionadas a seguir: U1 ↓ Y1 q 66 U11 ↓ Y11 q 94 U2 ↓ Y2 q 70 U3 ↓ Y3 q 37 U13 ↓ Y13 q 85 U4 ↓ Y4 q 56 U14 ↓ Y14 q 65 U5 ↓ Y5 q 61 U15 ↓ Y15 q 92 U6 ↓ Y6 q 38 U16 ↓ Y16 q 49 U7 ↓ Y7 q 55 U17 ↓ Y17 q 10 U8 ↓ Y8 q 05 U9 ↓ Y9 q 23 U10 ↓ Y10 q 47 U19 ↓ Y19 q 31 U20 ↓ Y20 q 02 U12 ↓ Y12 q 51 U18 ↓ Y18 q 87 Grupando essas 20 unidades em 4 conglomerados como sugerido a seguir. U20 } C2 = {U2 . Há interesse em estimar a proporção de domicílios alugados e o intervalo dessa estimativa com 95% de confiança. U14 . Nesta pesquisa considerou-se como unidade de investigação o domicílio.8 Exercícios 2.786 domicílios. em que a proporção de pessoas com certo atributo P = 0. U6 .8. U8 . U16 . U12 . U18 } Comente o resultado!!! C4 = {U9 .2 Seja PN uma população de N = 20 unidades. U10 . U13 .1 Considere uma população de 100 conglomerados de mesmo tamanho de 4 unidades elementares.8. U7 .3 Segue-se uma tabela contendo os dados de uma amostra de 20 quarteirões selecionados aleatoriamente sem reposição entre os 270 quarteirões de uma cidade que continha 6. C1 = {U1 . Em uma amostra de 5 conglomerados foram obtidos os seguintes resultados: Conglomerado (i) 1 2 3 4 5 Unidades elementares 2 3 1 2 1 com o atributo (Ai ) Estime a eficiência da amostra de conglomerados em relação à amostragem aleatória simples. AMOSTRAGEM DE CONGLOMERADOS 2. U11 . . calcular o coeficiente de correlação intraclasse δ.

do exercício 2.8.8.239 20 X ´=1 ı Yi02 = 8. EXERCÍCIOS 103 Quarteirão No de (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total Domicílios No de Domicílios ¡ 0¢ (Ni0 ) Alugados Yi 5 3 9 5 18 5 68 52 32 21 48 34 11 3 1 0 1 0 4 0 29 17 31 14 5 0 2 0 4 2 102 54 20 11 15 11 1 0 29 23 435 255 20 X ´=1 ı Ni02 = 22.8.545 2. dentre os 270 quarteirões considerados na população que continha 6.8.3 (cuja seleção dos conglomerados havia sido com equiprobabilidade).786 domi-cílios.3. Estimar a proporção de domicílios alugados e comparar a precisão obtida com aquela do exercício 2. Justifique o resultado.2. .4 Segue-se uma tabela contendo os dados de uma amostra de 20 quarteirões selecionada com probabilidade proporcional ao número de domicílios.

Calcule também o intervalo dessa estimativa com 95% de confiança e compare com os intervalos obtidos nos exercícios 2. cujos resultados foram dados no exercício 2.3 e 2. utilizando o estimador de razão baseado no tamanho dos conglomerados.4. AMOSTRAGEM DE CONGLOMERADOS Quarteirão No de (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total Domicílios No de Domicílios (Ni0 ) Alugados (Yi0 ) 45 30 22 13 76 69 4 2 4 2 33 27 46 34 81 43 58 42 89 84 76 69 48 46 46 36 18 6 76 69 102 54 44 24 39 26 22 7 30 25 959 708 2.104CAPÍTULO 2. a partir da amostra aleatória simples de 20 quarteirões selecionada.8.8. .8.8.5 Estimar a proporção de domicílios alugados.3 deste capítulo.

2. EXERCÍCIOS 105 2.500 domicílios. Deseja-se selecionar uma amostra de m conglomerados para estimar o total de uma determinda característica. tendo-se examinado cada fruto das caixas selecionadas para verificar se estavam com bicho.8. Usando a fórmula aproxi-mada que relaciona a variância da amostra aleatória simples e da amostra de conglomerados em 1 estágio.8 Uma amostra aleatória simples sem reposição de 8 caixas de laranjas foi retirada de um lote que continha 1. Os dados observados foram: Caixa Total de frutos Total de frutos com na amostra na caixa bicho na caixa 1 50 4 2 40 21 3 45 6 4 55 30 5 70 50 6 65 4 7 35 20 8 40 15 Total 400 150 .30.8.7 Os habitantes de um bairro estão distribuídos em 170 quarteirões. com a mesma precisão da amostra aleatória simples. se o tamanho de cada conglomerado for conhecido? E se não for conhecido? 2.8. Quais as medidas que devem ser tomadas na definição do desenho amostral para controlar a variação do tamanho dos conglomerados. Sabendo-se que uma amostra aleatória simples de 500 domicílios anteriormente selecionada forneceu uma precisão de cerca de 10% (em termos do coeficiente de variação) para estimar o total de domicílios alugados e. que o coeficiente de correlação intraclasse foi estimado na mesma amostra em torno de 0. supondo conglomerados de igual tamanho: a) Estime a precisão que seria obtida para estimar o total de domicílios alugados se fosse selecionada uma amostra de quarteirões correspondente ao mesmo número de domicílios que a amostra aleatória simples. b) Determine o tamanho de amostra de quarteirões necessário para estimar o total de domicílios alugados no bairro em questão.6 É dada uma população com N unidades distribuídas em M conglomerados de tamanhos desiguais. onde se estima que há um total de 8. 2.000 caixas.8.

para atingir o valor da variância estimada com a primeira amostra.200 unidades elementares. b) Calcule o intervalo com 95% de confiança para a estimativa obtida em a) e dê a sua opinião a respeito da dimensão da amostra utilizada.000 o número de conglomerados na segunda amostra. . ( s2 = 625). 89 (2) Uma amostra aleatória de 180 conglomerados selecionados dentre 90. ela teria a mesma precisão estimada para estimar a média da característica y que a segunda amostra. c) O estimativa da variância da segunda amostra pode ser reduzida.106CAPÍTULO 2.9 Compare as seguintes 2 amostras. eR 2. 01 Note que a variância estimada para estimar a média da característica y para a segunda amostra é quase 10 vezes maior que a da primeira amostra. justificando a escolha para cada item.) a) O coeficiente de correlação intraclasse dos 90. AMOSTRAGEM DE CONGLOMERADOS a) Estime a proporção de frutos com bicho no lote. d) Se a primeira amostra for reduzida para 1. Isto indica que: (complete com (V) se a afirmativa for verdadeira e (F) se for falsa. cada uma delas baseada em 3. (1) Uma amostra aleatória simples de 3.000 unidades. com cada conglomerado contendo N = 20 unidades elementares e y Ac1 = 524 e v(y Ac1 ) = 102.600 unidades elementares selecionadas de uma população com 1.000 conglomerados. b) Todos os elementos dentro de cada conglomerado são iguais (Yij = Yik ∀ j e k).600 unidades elementares com: y = 513 e v(y) = 10. aumentando em menos de 1.000 conglomerados é maior que zero.800.8.

8. sendo M P Pi = 1 e os (m − 1) conglomerados restantes da amostra foram i=1 selecionados com probabilidades iguais. e M P zi = m. EXERCÍCIOS 107 2.2.000 conglomerados e 50. b) Qual estimativa é provavelmente melhor? Justifique. sendo que todas as seleções foram sem reposição.8. 2.10 De uma população com 10.000 unidades elementares uma amostra aleatória simples sem reposição de 10 conglomerados foi selecionada.8.11 De uma população formada por M conglomerados foi selecionada uma amostra de m conglomerados com o seguinte procedimento: o 1o conglomerado foi selecionado com probabilidades desiguais Pi . a) Obtenha a probabilidade zi de que o conglomerado Ci pertença a amostra. b) Prove que: i=1 .025 45 a) Dê 2 estimativas da média por unidade elementar. Desses conglomerados temos as seguintes informações: Conglomerado Valor da característica Total de unidades y no conglomerado i no conglomerado i (i) 1 80 3 2 110 4 3 95 5 4 55 3 5 150 5 6 120 6 7 175 7 8 90 4 9 50 3 10 100 5 Total 1.

108CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS .

1. ela pode ser vista como 109 . A subamostragem mencionada consiste na seleção de amostras de unidades elementares de π N dentro de cada um dos conglomerados da amostra. Neste capítulo será estudada uma maneira de reduzir a influência do tamanho dos conglomerados na eficiência da amostra de conglomerados em 1 estágio.1 3. porque o coeficiente de correlação intraclasse δ costuma ser positivo. Na exposição seguinte será adotada a seguinte terminologia: conglomerado = unidade primária de amostragem (U P A ou UP ) unidade elementar = unidade secundária de amostragem (USA ou U S). ao invés de investigar todas as unidades desses conglomerados.Capítulo 3 Conglomerados em 2 estágios 3. Assim. comparada a uma amostra aleatória simples de mesmo tamanho. Por exemplo. Esta solução consiste em fazer subamostragem nos conglomerados da amostra. O plano amostral de conglomerados em 2 estágios (Ac2) é constituído de uma amostra de conglomerados com subamostragem.1 Probabilidades iguais de seleção Introdução e definições básicas Quando foi estudada a eficiência da amostragem de conglomerados em 1 estágio em relação ࣠amostragem aleatória simples. se πN é uma população com N unidades. se os quarteirões de uma cidade são considerados conglomerados de domicílios. selecionando-se uma amostra de quarteirões e depois uma amostra de domicílios em cada quarteirão da amostra se obtém uma amostra de conglomerados em 2 estágios. mostrou-se que o efeito ¡ ¢ ¤ de conglomeração 1 + N − 1 δ costuma determinar uma perda de precisão da amostra de conglomerados em 1 estágio. constatou-se ainda que a perda da precisão é tanto maior quanto maior o tamanho do conglomerado. De fato.

.1 apresenta uma ilustração da seleção das unidades de uma amostra de conglomerados em 2 estágios. .110 se segue: U S11 U S12 . . .. .. Nm 0 0 0 unidades. .. 0 USm1 0 USm2 . . 0 Y2N 0 2 . . portanto: M X i=1 Ni = N Agora. n2 . N2 . · · · . . US2N2 U P2 → → → Y21 Y22 . . seleciona-se uma amostra aleatória simples de unidades secundárias. . . . . . . em cada UP da amostra de 1o estágio. 0 US1N1 0 UP1 → → 0 Y11 0 Y12 . . . a amostra resultante é: ª © y11 . ym2 . · · · . 0 YmNm 0 → → 0 . 0 UPm → → ym1 ym2 . sem reposição de m unidades primárias: Amostra de 1o estágio 0 U S11 0 U S12 . . U SM1 U SM2 . . y1n01 1 → . . . . us00 0 1n y11 y12 . tem-se as subamostras de tamanho n1 . . U SMNM Assim verifica-se que na UPi há Ni unidades secundárias (USij ) e. us00 m1 us00 m2 . obtendo-se: Amostra de 2o estágio us00 11 us00 12 0 U P1 → → . nm . ym n0m 2 → . . YMNM . 0 Y1N 0 1 0 US21 0 US22 . .. . · · · . A figura 3.. . . . . . U SmNm 0 → E agora.. .. us00 n0m m → Finalmente. . US1N1 CAPÍTULO 3. UPM → → → YM1 YM2 . . seleciona-se uma amostra aleatória simples. . . us00 0 2n us00 21 us00 22 0 UP2 → → y21 y22 .. . y2n02 .. CONGLOMERADOS EM 2 ESTÁGIOS UP1 → → → Y11 Y12 . . ao invés de se ter os conglomerados na amostra com N1 .. . Y2N2 . . . y12 . . 0 US2N 0 2 0 U P2 → → 0 Y21 0 Y22 . · · · .. ym1 . Y1N1 US21 US22 . . . · · · . 0 U Pm → → 0 Ym1 0 Ym2 . ym n0m 0 0 0 E assim.. y1n01 . .

1. · · · . 2.1: Ilustração da seleção das unidades de uma Ac2 Neste caso tem-se: UPs M = 10 e m = 6 UP s No de U Ss No de U Ss No de USs da UPi selecionadas da UPi0 selecionadas 0 0 (Ni ) (UPi ) (Ni ) (UPi ) da U Pi0 (n0i ) 0 0 UP1 N1 = 4 U P1 N1 = 4 n01 = 2 N2 = 4 UP2 0 0 0 N3 = 5 U P2 N2 = 5 n2 = 3 UP3 0 0 UP4 N4 = 5 U P3 N3 = 5 n03 = 2 N5 = 3 UP5 0 0 0 N6 = 3 U P4 N4 = 3 n4 = 2 UP6 0 0 N7 = 3 U P5 N5 = 3 n05 = 2 UP7 N8 = 3 UP8 0 0 UP9 N9 = 2 U P6 N6 = 2 n06 = 1 N10 = 4 UP10 A fração de amostragem correspondente à seleção equiprovável das unidades primárias no 1o estágio é representada por: f1 = m M e a fração de amostragem de 2o estágio para cada unidade primária selecionada é representada por: f2i = n0i Ni0 (∀i = 1. PROBABILIDADES IGUAIS DE SELEÇÃO 111 Figura 3.3. m) .

ou seja: f2i = f2 (∀i = 1. dada por f1 f2 . 2. há que se notar que o tamanho final da amostra é uma variável aleatória n.2 Parâmetros da característica y Vamos definir agora a notação dos parâmetros de π N quando a população está representada de acordo com a configuração de conglomerados definida: Total da característica y em U Pi : Yi = Ni X j=1 Yij (∀i = 1. M) sendo: Yij o valor da característica y associada à j-ésima unidade secundária da unidade primária i. · · · . representando-a por f2 . · · · . 2.1. qualquer unidade da população tem a mesma probabilidade de pertencer à amostra. 3. com: m X n0i n= i=1 n = E (n) = E n0i ! =E Ãm X i=1 f2 Ni0 ! M 1 X Ni = f1 f2 N = f2 m M i=1 No caso de fração de amostragem constante no 2o estágio. CONGLOMERADOS EM 2 ESTÁGIOS Na situação usual (mais simples) é comum fazer a fração de amostragem do 2o estágio constante.112 CAPÍTULO 3. M) . · · · . 2. m) Os valores da variável aleatória n dependem das unidades primárias selecionadas no 1o estágio. Média da característica y em UPi : Yi Ni Yi = (∀i = 1. Tem-se que: Ãm X i=1 Além disto.

serão definidas as seguintes estatísticas da amostra: Total da característica y em UPi0 : Yi0 = Ni X j=1 0 0 Yij (∀i = 1. · · · . M) Total da característica y em toda população: Y = M X i=1 Yi Média da característica y por unidade da população: Y = Y N Média da característica y por conglomerado: Y = Y M Variância da característica y em toda população: i 1 XX S = (Yij − Y )2 N − 1 i=1 j=1 M N 2 3.3 Estatísticas da amostra em cada estágio De acordo com o desenho de amostragem de conglomerados em 2 estágios. m) 0 sendo: Yij o valor da característica y associada à j-ésima unidade secundária da unidade primária selecionada i.1. PROBABILIDADES IGUAIS DE SELEÇÃO Variância da característica y dentro da UPi : Si2 i 1 X = (Yij − Y i )2 Ni − 1 j=1 113 N (∀i = 1. 2. .1. · · · .3. 2.

que no caso é desconhecido visto se dispor apenas de uma amostra das unidades de UPi0 . m) 3.114 CAPÍTULO 3. No nosso caso. Entretanto. Para isso. m) Variância da característica y na subamostra de UPi0 : s2 i i 1 X = 0 (yij − y i )2 ni − 1 j=1 n0 (∀i = 1. O princípio consiste consiste em ir construindo o estimador de dentro para fora (ou de baixo para cima). CONGLOMERADOS EM 2 ESTÁGIOS Média da característica y em UPi0 : Yi = 0 Yi0 Ni0 (∀i = 1.4 Estimadores de total e médias e respectivas variâncias Estimadores de total e médias Trata-se de obter estimadores para os parâmetros de π N . · · · .1. essa amostra pode ser usada para estimar Yi0 . será empregado um princípio de construção de estimadores não viciados a partir do desenho da amostra cuja aplicabilidade é geral na amostragem. 2. · · · . Média da característica y na subamostra de U Pi0 : yi n0i yi = (∀i = 1. a aplicação deste princípio resulta no seguinte raciocínio: Seja U Pi0 uma unidade primária qualquer selecionada da amostra. · · · . · · · . 2. 2. O total de y em U Pi0 é dado por Yi0 .levando em conta que: . m) sendo: yij o valor da característica y associada à j-ésima unidade secundária selecionada da unidade primária selecionada i. 2. 2. · · · . m) Total da característica y na subamostra de UPi0 : yi = ni X j=1 0 yij (∀i = 1. m) Variância da característica y em U Pi0 : i 1 X 0 0 Si = 0 (Y − Y i )2 Ni − 1 j=1 ij 02 N0 (∀i = 1.

e depois a esperança sobre todas as possíveis seleções de amostras de unidades primárias. · · · . Ym . . · · · . yi n0i da amostra na UPi0 . Assim.3. UPm . Ym . utiliza-se esperanças condicionais.1. e ii) são conhecidos os valores yi1 . Assim um estimador não viciado de Yi0 é dado por: b Yi0 ni Ni0 Ni0 X yij = Ni0 y i = 0 yi = 0 ni ni j=1 0 115 (∀i = 1. Y20 . ´ ³ b b YAc2 é um estimador não viciado de Y. yi2 . isto é. o estimador de total conhecido da Ac1 para o total da população 0 depende somente dos totais dos conglomerados da amostra: Y10 . · · · . seguese que um estimador do total Y é dado por: b YAc2 ni m m m M X b 0 M X Ni0 M X Ni0 X yi = yij Y = = m i=1 i m i=1 n0i m i=1 n0i j=1 m MX 0 Ny = m i=1 i i 0 Para fazer essa demonstração. E YAc2 = Y. 2. dado que as UPs da amostra são selecionadas com equiprobabilidade. e é dado por: m X bAc1 = M Y Y0 m i=1 i Usando as idéias anteriormente expostas. · · · . · · · . PROBABILIDADES IGUAIS DE SELEÇÃO i) a amostra é aleatória simples na U Pi0 . Y20 . m) Por outro lado. e lembrando que na Ac2 os b0 b b totais dos conglomerados da amostra são estimados por Y10 . lembrando que: Se Z e X são variáveis aleatórias então: E (Z) = EX [E (Z |X )] Neste caso é conveniente considerar internamente a esperança condicionada sobre todas as possíveis seleções de subamostra quando se fixa uma 0 0 dada seleção de unidades primárias U P1 .

· · · .UPm m i=1 i i m i=1 i ³ ´ bAc1 = Y = E Y Um estimador não viciado para Y é dado por: y Ac2 pois.··· . ¡ ¢ E y Ac2 = E à b YAc2 N ! = 1 ³b ´ Y E YAc2 = =Y N N m m b YAc2 M X 0 1 X 0 Ny = Ny = = M mM i=1 i i m i=1 i i E (y Ac2 ) = E à Variância dos estimadores de total e das médias b Na obtenção da expressão da variância de YAc2 também será utilizado o emprego de esperanças condicionais. CONGLOMERADOS EM 2 ESTÁGIOS Segue-se.U Pm E YAc2 |UP1 .U P 0 V YAc2 |UP1 .UPm E YAc2 |U P1 . segue-se que: ³ ´ h ³ ´i 0 0 bAc2 = EU P 0 . · · · . então que: ´ ³ ³ ´´ ³ 0 0 b b 0 0 E YAc2 = EUP1 .··· . U Pm + b V Y m 1 h ³ ´i 0 0 b 0 0 +VU P1 . U Pm b YAc2 M ! = Y 1 ³b ´ E YAc2 = =Y M M .UPm E m i=1 i i à ! m MX 0 0 0 0 E (Ni y i |UPi ) = EUP1 . · · · .UPm m i=1 à ! à ! m m MX 0 0 MX 0 0 0 0 0 NY Y = EU P1 .··· .U Pm = EUP1 . m m b M X 0 YAc2 1 X 0 Ny = Ny = = N mN i=1 i i mN i=1 i i Um estimador não viciado para Y é dado por: y Ac2 pois. Deve-se lembrar que: Se Z e X são variáveis aleatórias então: V (Z) = EX [V (Z |X )] + VX [E (Z |X )] Daí.116 CAPÍTULO 3.··· .··· . UPm à à !! m MX 0 0 0 0 N y |UPi = EUP1 .··· .··· . o que irá facilitar bastante essa dedução.

U P 0 YAc1 = M 2 M − m Se b E Y m 1 M m 2 Se Por outro lado: 1 X = (Yi − Y )2 M − 1 i=1 M ³ ´ 0 0 b V YAc2 |UP1 . UPm = M b E Y Y 0 = YAc1 m i=1 i 117 Segue-se que: V 0 0 UP1 . · · · . UPm = V Ã m M 2 X 02 N V (y i |UPi0 ) = m2 i=1 i m M 2 X 02 Ni0 − n0i Si02 N m2 i=1 i Ni0 n0i m MX 0 N y |UPi0 m i=1 i i ! = Logo: " # m h ³ ´i M 2 X 02 Ni0 − n0i Si02 0 0 b 0 0 0 0 N EU P1 .··· .U Pm V YAc2 |UP1 . · · · . · · · .··· . foi demonstrado anteriormente que: m ³ ´ X 0 0 bAc2 |UP1 . UPm = VU P 0 .1.U Pm m2 i=1 i Ni0 n0i · ¸ m 0 0 02 M2 X 02 Ni − ni Si EUPi0 Ni = m2 i=1 Ni0 n0i ¸ m M · 2 M2 X X 1 2 Ni − ni Si Ni = 2 m i=1 i=1 Ni ni M M M X 2 Ni − ni Si2 N = m i=1 i Ni ni E assim. PROBABILIDADES IGUAIS DE SELEÇÃO Porém.3. UPm = EU P1 .UPm onde: h ³ ´i h i 2 0 0 bAc2 |U P1 . obtém-se finalmente: M ´ ³ 2 M − m Se M X 2 Ni − ni Si2 b N V YAc2 = M 2 + M m m i=1 i Ni ni .··· . · · · .··· .

tem em termos de unidades elementares f2 % do número de unidades elementares da Ac1. 2. como no plano amostral de conglomerados em 2 estágios é feita a subamostragem. como será visto mais adiante. ii) Se ni = Ni (∀i = 1. em média. Segue-se. as amostras não têm o mesmo tamanho em termos de unidades elementares. O tamanho da Ac2. a 2a componente da variância é nula. A maneira correta de comparar os 2 desenhos de amostragem é fixando o tamanho total da amostra. e não o número de conglomerados da amostra. CONGLOMERADOS EM 2 ESTÁGIOS onde as parcelas do 2o membro representam as ”componentes” da variância devidas ao 1o e ao 2o estágios de seleção. em termos de unidades elementares. Uma análise pouco cuidadosa do problema a partir deste resultado poderia levar à conclusão de que: ´ ´ ³ ³ b bAc2 ≥ V YAc1 V Y M ´ ³ ´ ³ X Ni − ni Si2 b bAc2 = V YAc1 + M Ni2 V Y m i=1 Ni ni posto que: Isto é verdadeiro se o número de conglomerados m for o mesmo nos dois planos amostrais. . que as variâncias dos estimadores das médias y Ac2 e y Ac2 são. respectivamente.118 CAPÍTULO 3. · · · . respectivamente: ! Ã b ¡ ¢ YAc2 1 ³b ´ V y Ac2 = V = 2 V YAc2 N N Ã ! ³ ´ b YAc2 1 b V (y Ac2 ) = V = 2 V YAc2 M M Note-se que: i) Se m = M então. imediatamente. ou seja: ³ ³ ´ ´ 2 M − m Se b b V YAc2 = M 2 = V YAc1 M m e este plano amostral equivale ao de uma amostra de conglomerados em um estágio. ou seja: M ´ X ´ ³ ³ Ni − ni Si2 b bAc2 = Ni2 V Y = V Yest Ni ni i=1 e este plano amostral equivale ao de uma amostra estratificada. Porém. m) então. a 1a componente da variância é nula.

5 Estimadores das variâncias dos estimadores de total e médias Em primeiro lugar. PROBABILIDADES IGUAIS DE SELEÇÃO 119 3. V Y Para esta prova. vamos mostrar que: s2 e M 1 P 2 Ni − ni Si2 N e M i=1 i Ni ni ¶ M µ m P 2 Ni − ni Si2 M P 0 2 Ni0 − n0i s2 i Ni Ni = .1.1. ii) E m i=1 Ni0 n0i Ni ni i=1 2 i) E (s2 ) = Se + e Demostração da parte (i): Ã E(s2 ) = e = = = ! m 1 X 0 E (N y − y Ac2 )2 m − 1 i=1 i i ! Ã m X 1 E (Ni0 y i − y Ac2 )2 m−1 ! Ã i=1 m X 1 2 E (Ni0 y i ) − m (y Ac2 )2 m−1 ! Ã i=1 m X ¡ ¢ m 1 2 E E y2 (Ni0 y i ) − Ac2 m−1 m−1 i=1 Segue-se que: . propondo o seguinte estimador: viciado para a V Y m ´ ³ 2 X 0 N 0 − n0 s2 bAc2 = M 2 M − m se + M Ni 2 i 0 i i0 v Y M m m i=1 Ni ni m onde: 1 X 0 = (N y − y Ac2 )2 m − 1 i=1 i i ´ ³ b A seguir será demonstrado que o estimador v YAc2 é não viciado para ³ ´ bAc2 . vamos nos ocupar para a obtenção de um estimador não ³ ´ bAc2 .3.

··· .120 CAPÍTULO 3.··· .U Pm Ãm X à i=1 m X à i=1 m X ! ³ ´ 2 0 0 E (Ni y i ) |UPi i=1 0 0 = EU P1 . segue-se que: . CONGLOMERADOS EM 2 ESTÁGIOS E Ãm X i=1 2 (Ni0 y i ) ! à Ãm !! X 2 0 0 0 0 = EU P1 .··· .U Pm ! ¡ 0 ¢2 − n0i Si02 0 0 Ni Y i + = EU P1 .U Pm Ni0 n0i i=1 i=1 µ ¶ ³¡ 0 0 02 ¢2 ´ 02 Ni − ni Si 0 0 0 0 = mEU P1 .··· .U Pm E (Ni y i ) |U Pi 0 0 = EU P1 .U Pm Ni + mEU P1 .··· .U Pm Ni Y i Ni0 n0i M M X µ Ni − ni S 2 ¶ 1 ¢2 m X¡ i 2 Ni Ni Y i = m + Ni ni M M i=1 i=1 N0 Ni02 i M M m X 2 Ni − ni Si2 mX 2 N Y = + M i=1 i Ni ni M i=1 i m ³ ´ X 2 2 0 0 V (Ni y i ) |UPi + [E (Ni0 y i |UPi0 )] i=1 m X ! Por outro lado. segue-se que: ¢ ¡ E y2 = V (y Ac2 ) + [E (y Ac2 )]2 Ac2 ! " à !#2 à b b YAc2 YAc2 + E = V M M ! " à !#2 à b b YAc2 YAc2 + E = V M M ( ) M 2 M X 2 Ni − ni Si2 M − m Se 1 M2 N + = +Y2 M2 M m m i=1 i Ni ni = M 2 M − m Se 1 X 2 Ni − ni Si2 2 Ni + +Y M m mM i=1 Ni ni Assim.··· .

3. PROBABILIDADES IGUAIS DE SELEÇÃO 121 ! Ãm X ¡ ¢ m 1 2 E E y2 E(s2 ) = (Ni0 y i ) − e Ac2 m−1 m−1 i=1 ) ( M M m X 2 Ni − ni Si2 mX 2 1 N Y + + = m − 1 M i=1 i Ni ni M i=1 i ) ( M 2 m M − m Se 1 X 2 Ni − ni Si2 2 N − + +Y m−1 M m mM i=1 i Ni ni ¾X ½ M m Ni − ni Si2 m 1 Ni2 + − = m − 1 mM i=1 Ni ni (m − 1) M M 2 X m m m M − m Se 2 Yi2 − Y − + m−1 m−1 M m (m − 1) M i=1 # "M M m 1 X 2 1 X 2 Ni − ni Si2 2 N Y − MY + + = M i=1 i Ni ni (m − 1) M i=1 i − 2 m M − m Se m−1 M m # "M M ¢2 m 1 X¡ 1 X 2 Ni − ni Si2 N Yi − Y E(s2 ) = + + e M i=1 i Ni ni (m − 1) M i=1 − 2 m M − m Se m−1 M m µ ¶ M m M −1 M −m 1 X 2 Ni − ni Si2 2 N Se + − = M i=1 i Ni ni M Mm (m − 1) µ ¶ M mM − m − M + m m 1 X 2 Ni − ni Si2 2 Se N = + M i=1 i Ni ni Mm (m − 1) µ ¶ M m−1 mM 1 X 2 Ni − ni Si2 2 Se N = + M i=1 i Ni ni (m − 1) Mm = M 1 X 2 Ni − ni Si2 2 N + Se M i=1 i Ni ni Agora resta a demonstração de (ii): .1.

CONGLOMERADOS EM 2 ESTÁGIOS ! !! m M X 0 2 Ni0 − n0i s2 i 0 0 0 N = EU P1 .U Pm E |UPi m i=1 i Ni0 n0i à m ! X 0 N 0 − n0 E (s2 ) M i 0 0 Ni 2 i 0 i EUP1 .··· .UPm = m Ni ni i=1 M X 2 Ni − ni Si2 1 N m = m i=1 i Ni ni M M E m M X 0 2 Ni0 − n0i s2 i Ni 0 m i=1 Ni n0i à à M M m X 2 Ni − ni Si2 N = m M i=1 i Ni ni = Finalizando: ! à m ´i h ³ 2 X 0 N 0 − n0 s2 M − m E (se ) M b E v YAc2 Ni 2 i 0 i i0 +E = M2 M m m i=1 Ni ni # " M 1 X 2 Ni − ni Si2 2M − m 1 2 N S + + = M M m e M i=1 i Ni ni + M X i=1 M X i=1 Ni2 Ni − ni Si2 Ni ni Ni2 Ni − ni Si2 Ni ni = M + 2M Ni − ni Si2 Ni ni i=1 µ ¶X M 2 Ni − ni Si2 M −m 2 M − m Se Ni2 = M + +1 M m m Ni ni i=1 Ni2 M 2 M X 2 Ni − ni Si2 M − m Se N + M m m i=1 i Ni ni ´ ³ bAc2 = V Y M X M 2 X Ni − ni Si2 − m Se 2M − m 1 1 Ni2 +M + M m M m M i=1 Ni ni = M2 .122 à CAPÍTULO 3.UPm |UPi0 = 0 m Ni ni à i=1 ! m X 0 N 0 − n0 S 0 2 M 0 0 Ni 2 i 0 i i0 EUP1 .··· .··· .

6 Amostra autoponderada Na amostragem de conglomerados em 2 estágios. se e somente se: n N = ⇐⇒ P {U Sij ∈ amostra} = n0i n = 0 Ni N n0 Mn m n0i ⇐⇒ i0 = 0 M Ni Ni mN i=1 n0i Ni i=1 . PROBABILIDADES IGUAIS DE SELEÇÃO 123 3. dada por: n m n = f1 f2 = f = MN N O que veremos a seguir é como se define amostra autoponderada e. Isto é usual devido principalmente à simplicidade que resulta em termos de fórmulas dos estimadores. Supondo-se que: f21 6= f22 6= · · · 6= f2m Sabe-se que a probabilidade de U Sij pertencer a amostra é dada por: P {USij ∈ amostra} = m n0i M Ni0 ∀i. isto é. existe uma fração de amosm tragem no 1o estágio (f1 = M ) e existem frações correspondentes ao 2o estágio 0 n (f2i = Ni0 ).1.3. i Todos os estimadores que trabalhamos anteriormente foram preparados nessa hipótese. j Foi dito anteriormente que é comum na prática trabalhar com uma fração de amostragem f2 constante em todos os conglomerados. neste caso.1. como também à simplicidade de operacionalização da seleção da amostra. devemos ter: f2 = onde: n= m P n N M P N= e m M Daí resulta que todas as unidades secundárias terão a mesma probabilidade de pertencer à amostra. P {USij ∈ amostra} = Definição Diz-se que a amostra de conglomerados em 2 estágios é autoponderada se e somente se as unidades secundárias tiverem a mesma probabilidade de inclusão na amostra. que podem ser diferentes. como se modificam os estimadores de total e da respectiva variância da amostragem de conglomerados em 2 estágios.

124

CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Adaptação dos estimadores do total e respectiva variância b A expressão do estimador de total YAc2 pode ser reescrita como: b YAc2
ni m m ni M X Ni0 X M N XX yij = yij = m i=1 n0i j=1 m n i=1 j=1 m ni m ni N XX 1 XX yij = yij = n i=1 j=1 f i=1 j=1
0 0 0 0

b e a expressão da variância de YAc2 fica:

M ³ ´ 2 X Ni − ni Si2 bAc2 = M 2 M − m Se + M V Y Ni2 M m m i=1 Ni ni µ ¶X M 2 M N 2 M − m Se Ni Si2 + −1 = M M m m n i=1 ¶ M µ 2 M N N −n X 2 M − m Se Ni Si2 + = M M m m n N i=1 M 1 X Ni Si2 = MN i=1

fazendo:
2 Sd

Segue-se que:

ou, em termos das frações de amostragem: ¶ µ µ ¶ ³ ´ 1 1 − f2 2 2 b V YAc2 = M Sd − 1 Se + N f1 f1 f2 Notando-se que: s2 d
m 1 X 0 2 Ni si = mN i=1

¶ 2 ¶ 2 µ µ ³ ´ ¢2 N − n Sd M − m Se ¡ 2 b V YAc2 = M + MN M m mn N

´ ³ bAc2 é um estimador não viciado de segue-se a expressão adaptada de v Y ¶ ¶ µ µ ´ ³ ¢2 N − n s2 M − m s2 ¡ e d 2 b v YAc2 = M + MN M m mn N
2 Sd ,

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO ou ainda, em termos das frações de amostragem: ¶ µ ¶ µ ³ ´ 1 − f2 2 1 2 b sd v YAc2 = M − 1 se + N f1 f1 f2

125

Uma vez mais convém ressaltar que a vantagem da amostra autoponderada advém da facilidade prática de seleção da amostra e do cálculo dos estimadores e suas respectivas precisões. Exemplo 3.1 (Nascimento (1981), pág. 80) Em determinada área, de acordo com o último Censo Demográfico, há 150 setores com aproximadamente 36.400 domicílios. Seleciona-se uma amostra de 364 domicílios, com o objetivo de estimar o número de habitantes da área. Isto corresponde a uma fração geral de amostragem: 364 1 = 36.400 100

f=

36.400 ∼ = 243 domicílos por setor na área. 150 Serão selecionados com equiprobabilidade 10 setores, o que corresponde a uma fração de amostragem de 1o estágio de: Há em média 10 1 = 150 15

f1 =

Para que a amostra seja autoponderada deve-se ter: f1 f2 = f . Logo:
1 100 1 15

f2 =

f = f1

= 15%

Supondo que a amostra forneceu os seguintes dados, estimar o número total de habitantes da área e sua precisão.

126

CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Setores Domicílios Domicílios da Moradores nos Variância de y da no setor subamostra domicílios da na subamosno setor (n0i ) subamostra (yi ) tra (s2 ) amostra (Ni0 ) i 1 320 48 168 4,018 2 210 32 138 5,224 3 180 27 130 5,905 4 400 60 222 1,044 5 250 38 201 2,840 6 221 33 149 4,345 7 120 18 97 6,000 8 500 75 300 2,012 9 262 39 199 3,484 10 238 36 108 3,000 Total 2.701 406 1.712 b YAc2
m ni 1 XX 1 yij = 1 (1.712) = 171.200 habitantes = f i=1 j=1 100
0

s2 e

¶ µ µ ¶ ´ ³ bAc2 = M 1 − 1 s2 + N 1 − f2 s2 v Y e d f1 f1 f2 µ ¶ µ 15 ¶ 1 − 100 1 3, 657 = 150 1 − 1 166.929, 41 + 36.400 1
15 100

1 (1.502.364, 65) = 166.929, 41 9 b YAc2 171.200 y Ac2 = = = 1.141, 33 M 150 m 1 X 0 2 1 Ni si = s2 = (8.886, 353) = 3, 657 d 10 (243) mN i=1 =

1 X 0 = (N y − y Ac2 )2 m − 1 i=1 i i
m

= 350.551.750, 8 + 11.314.558, 1 = 361.866.308, 9 r ³ ´ bAc2 v Y b YAc2

Logo: ´ ³ bAc2 = cv Y

= 11, 11%

o dimensionamneto da amostra pode ser feito fixando-se uma precisão desejada.1. e possibilita a solução do problema de determinação dos tamanhos de amostra segundo os dois critérios já definidos de maneira simples.1. Na prática. e calculando-se o número de conglomerados da amostra. . que indica o custo da aplicação do desenho da amostra para os tamanhos de 1o e 2o estágios a serem escolhidos. as despesas dever ser atribuídas a cada um dos custos definidos como segue: Custo fixo: Cf . b) minimizar o custo com variância fixada. através da expressão da variância. como também o número de unidades secundárias da subamostra em cada unidade primária selecionada.planejamento e orientação do trabalho. C1 é o custo unitário por unidade primária selecionada. C2 é o custo unitário por unidade secundária selecionada. o dimensionamento consiste em determinar não só o número de unidades primárias (conglomerados) na amostra de 1o estágio.3. Uma solução para o problema pode ser obtida utilizando-se a expressão da variância e introduzindo-se uma função custo. Na amostragem de conglomerados em 2 estágios. mas a adequada para muitas situações práticas. Definição de uma função custo A função custo que vamos considerar não é a única possível. Função Custo: CT = Cf + C1 m + C2 mn onde: Cf é o custo fixo.7 Dimensionamento da amostra de conglomerados em 2 estágios Na amostragem de conglomerados em um estágio. Aqui será considerado o caso simples em que o tamanho médio das unidades primárias N e o tamanho médio da subamostra n são determinados de acordo com um dos critérios possíveis: a) minimizar a variância com custo fixado. PROBABILIDADES IGUAIS DE SELEÇÃO 127 3. incluindo os salários do pessoal técnico e as despesas de administração.

.preparação de mapas e outras informações que não dependam do tamanho da amostra a ser selecionada. devem ser incluídas aqui todas as despesas diretamente relacionadas com o número de unidades secundárias na amostra.despesas de seleção das unidades primárias.impressão do material para a amostra de unidades primárias.impressão de tabelas e treinamento de pessoal de campo que não dependa do tamanho da amostra a ser selecionada.gastos de transporte para as unidades primárias e entre as mesmas. as despesas que não variam com o processo de seleção nem com o tamanho da amostra. Afinal.despesas de transporte dentro das unidades primárias. . .tempo de treinamento para investigação das unidades primárias.preparação de roteiros de viagem para as unidades primárias. Custo de seleção das unidades primárias: C1 m . . . Custo de seleção das unidades secundárias: C2 mn . devem ser incluídas aqui todas as despesas que variam com o número de unidades primárias na amostra. . Afinal. Enfim. . devem ser incluídas como custo fixo.custo de entrevista de cada unidade secundária. .128 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS .impressão do material referente às unidades secundárias da amostra.

Tomando as derivadas parciais em relação a m e a n e igualando a zero vem: S2 ∂F = − d 2 + λC2 m = 0 (3.3) De (2) obtém-se: ¢ 2 ¡ 2 λ (C1 + C2 n) Nm2 n = S e Nn + N − n Sd (3.1) ∂n mn 2 ∂F S N − n Sd =− e − + λ (C1 + C2 n) = 0 ∂m m2 N m2 n De (1) obtém-se: 2 λC2 m2 n2 = Sd 2 (3. vamos resolver o problema de determinação dos tamanhos de amostra segundo o critério de minimização da variância com o custo fixado.1. tem-se: ¢ 2 ¡ 2 =⇒ C1 N + C2 nN − N C2 n + C2 n2 Sd = S e C2 N n2 ¡ ¢ 2 2 2 =⇒ (C1 + C2 n) N Sd = S e C2 N n2 + N − n C2 n Sd ¡ ¢ 2 2 S e Nn + N − n Sd λ (C1 + C2 n) Nm2 n = 2 λC2 m2 n2 Sd ¢ 2 ¡ 2 S e Nn + N − n Sd (C1 + C2 n) N =⇒ = 2 C2 n Sd . Para tanto. considere-se a seguinte função Lagrangeana: F = V (y Ac2 ) + λ (Cf + C1 m + C2 mn − CT ) que pode ser reescrita como: 2 M − m S e N − n Sd F = + + λ (C1 m + C2 mn − C) M m N mn 2 onde: C = CT − Cf λ é o multiplicador de Lagrange. PROBABILIDADES IGUAIS DE SELEÇÃO Tamanho de amostra com custo fixado e mínima variância 129 Agora.4) Dividindo-se (4) por (3).2) (3.3.

vem: v u u =t (3. ´ ii) Para achar notimo . Pequenas variações deste C2 valor têm pouca influência sobre o valor de notimo . visto que notimo ´ ´ r C1 depende de .6) substituindo-se na expressão (6) o valor notimo . ou seja. basta conhecer a razão ´ C1 . se cresce a parte do ´ custo referente à seleção das unidades primárias. cabe aumentar notimo ´ e diminuir motimo .5) ∂F = C1 m + C2 mn − C = 0 ∂λ =⇒ m (C1 + C2 n) = C C C1 + C2 n =⇒ m = (3. CONGLOMERADOS EM 2 ESTÁGIOS 2 2 =⇒ C1 N Sd = S e C2 N n2 − C2 n2 Sd 2 Sd 2 =⇒ C1 N ³ 2 ´ 2 = C2 n S e N − Sd 2 2 C N Sd ³ 12 ´ 2 C2 S e N − Sd 2 C N Sd ³ 12 ´ 2 C2 S e N − Sd =⇒ n2 = =⇒ notimo ´ Derivando a F em relação a λ. obtém-se o valor ótimo de m: ´ motimo = ´ C = C1 + C2 notimo ´ v u u C1 + C2 t C 2 C N Sd ³ 12 ´ 2 C2 S e N − Sd (3.130 CAPÍTULO 3. C2 .7) Assim pode-se observar que: i) notimo cresce se C1 cresce em relação a C2 .

então notimo é a solução para n da equação ´ C = C1 + C2 n =⇒ notimo = ´ C − C1 C2 e motimo = 1 ´ . então: a notimo = m´ximo de n = N ´ implicando que motimo = ´ C C1 + N C2 .1.3.Se C > C1 + C2 N. notimo pode ser obtido considerando a função custo: ´ C = m (C1 + C2 n) . PROBABILIDADES IGUAIS DE SELEÇÃO iii) o valor de notimo pode ser estimado por: ´ b´ notimo pois: ¡ ¢ 2 E s2 = Sd d µ ¶ ¶ µ N − n s2 s2 s2 d d d 2 2 E se − − = E se − n N n N µ 2¶ ¡ ¢ S2 sd 2 = Se − d = E s2 − E e N N Note-se que isto vale somente se: s2 − e s2 d >0 n v uC s2 u 1 µ d 2¶ =u t C2 s s2 − d e n 131 e se isto não ocorrer.Se C ≤ C1 + C2 N .

Quanto ao valor ótimo de m é obtido fixando-se V (y Ac2 ) e substituindo-se notimo no lugar de n.132 CAPÍTULO 3.9) É imediato notar que estas equações são idênticas àquelas anterior1 mente obtidas com µ = . a solução para o valor ótimo λ de n é a mesma. CONGLOMERADOS EM 2 ESTÁGIOS Tamanho de amostra com variância fixada e custo mínimo Aqui o problema a resolver é minimizar a função: G = C + µ V (y Ac2 ) onde: µ é o multiplicador de Lagrange. seja fixando o custo e minimizando a variância. Em conseqüência. Assim: G = (C1 m + C2 mn) + µ à 2 M − m S e N − n Sd + M m N mn 2 ! Tomando as derivadas parciais em relação a m e a n e igualando a zero vem: ∂G S2 = C2 m − µ d 2 = 0 ∂n mn ∂G = C1 + C2 n − µ ∂m à 2 Se N − n Sd + m2 N m2 n 2 (3.8) ! =0 (3. seja fixando a variância e minimizando o custo. ´ 2 M − m S e N − n Sd V (y Ac2 ) = + M m N mn µ ¶ 2 µ ¶ 1 1 Sd 1 1 2 Se + =⇒ − − = V (y Ac2 ) m M n N m ¶ ¶ µ µ 1 1 1 1 2 2 2 Sd = V (y Ac2 ) + S e Se + =⇒ − m n N M ¶ µ 1 1 2 2 Sd Se + − n N m= 1 2 V (y Ac2 ) + S e M 2 .

12) . Tamanho de amostra em função do coeficiente de correlação intraclasse 2 Se 1 Considere as expressões já encontradas no caso de amostragem de conglomerados em 1 estágio: (M − 1) S e 1 2 Sd − M N δ= MN − 1 2 S MN ¢ ¡ 2 2 MN − 1 S 2 = (N − 1) M Sd + N (M − 1) S e 1 2 (M − 1) S e Sd − M N δ= (N − 1) 2 M − 1 2 Sd + Se M N Logo: 1−δ = 2 Sd 2 2 (3.10) (3.1. PROBABILIDADES IGUAIS DE SELEÇÃO µ 133 ¶ 1 2 Sd + − notimo N ´ motimo = ´ 1 2 V (y Ac2 ) + S e M sendo que V (y Ac2 ) deve ser fixada. obtém-se: (N − 1) 2 M − 1 2 Sd + Se M N ou 2 2 Sd Sd 1−δ ∼ = = 2 1 2 2 δ 1 2 (M − 1) S e S Se − Sd − N d M N Assim. pode-se escrever: v v u u 2 2 N Sd Sd u C1 uC ³ 2 ´ =u 1µ ¶ notimo = t ´ t C2 1 2 C2 S N − S 2 2 e d S Se − N d notimo = ´ r C1 1 − δ C2 δ (3.3.11) Substituindo-se (11) em (10).

uma vez mais.00. A fração de amostragem do 1o estágio é: m= m 62 1 = = M 740 12 Considerando que cada setor tem em média N = 30 estabelecimentos. a fração de amostragem do 2o estágio é: f1 = n 6 1 = = 30 5 N Logo. CONGLOMERADOS EM 2 ESTÁGIOS E assim verifica-se. sendo os setores as unidades primárias e os estabelecimentos produtores as unidades secundárias. a fração geral de amostragem é: µ ¶µ ¶ 1 1 1 f = f1 f2 = = 12 5 60 f2 = . sendo R$5. Logo: 30.00 de modo que a função custo é: C = 300m + 30mn A quantia total para a pesquisa é R$ 35.00 para a parte fixa dos custos. Exemplo 3.000. 201 δ = 0. 201 e O custo da investigação de um estabelecimento foi orçado em R$ 30. 201 ∼ notimo = = 10 =6 ´ C2 δ 0.2 (Nascimento (1981).000.000 = 62 setores 300 + 30(6) correspondendo a um total de 6 (62) = 372 estabelecimentos produtores na amostra.134 CAPÍTULO 3. a importância prática de conhecer o valor do coeficiente de correlação intraclasse. Trata-se de estimar a produção total de café da área. através e uma amostra de conglomerados em 2 estágios. 88) Em certa área existem 740 setores censitários rurais. De uma pesquisa anterior sabe-se que para a característica ”produção de café ” e o setor como conglomerado tem-se: C1 = 10 C2 Logo. pág. o tamanho da subamostra em cada setor selecionado é: r r C1 1 − δ 1 − 0.

1.13) Substituindo-se (14) em (13) tem-se: ¢ ¤ ¡ M N − 1 S2 £ 1+ N −1 δ (M − 1) N N (3. Para atingir esse objetivo é necessário.3.14) ¡ ¢ ¢ ¤ ¡ MN −1 2£ 2 S 1+ N −1 δ MN − 1 S 2 = (N − 1) M Sd + N µ ¶ ¡ ¡ ¢ MN −1£ ¢ ¤ 2 1 + N − 1 δ S 2 = (N − 1) M Sd =⇒ MN − 1 − N á ¢£ ¡ ¢ ¤! MN − 1 N − 1 − N − 1 δ 2 S 2 = (N − 1) M Sd =⇒ N ! á ¢¡ ¢ MN − 1 N − 1 (1 − δ) 2 S 2 = (N − 1) M Sd =⇒ N ¢¡ ¢ ¡ MN − 1 N − 1 (1 − δ) 2 2 S =⇒ Sd = (N − 1) MN ¢ ¡ MN − 1 (1 − δ) 2 2 S =⇒ Sd = MN Lembrando que a variância V (y Ac2 ) é dada por: 2 M − m S e N − n Sd V (y Ac2 ) = + M m N mn 2 . recordando as seguintes expressões: ¡ ¢ 2 2 MN − 1 S 2 = (N − 1) M Sd + N (M − 1) S e Se = 2 (3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 135 3. Assim.8 Efeito de conglomeração O objetivo desta seção é a comprovação de que a amostragem de conglomerados em 2 estágios pode ser mais precisa que a amostragem de conglomerados em 1 estágio. escrever a expressão da variância V (y Ac2 ) em termos do coeficiente de correlação intraclasse δ. no entanto. Isto será feito comparando-se os respectivos efeitos de conglomeração em relação à amostragem aleatória simples. o que será feito somente para o caso em que o tamanho médio por conglomerado N for admitido constante para os M conglomerados.

CONGLOMERADOS EM 2 ESTÁGIOS e supondo as seguintes aproximações: M −m ∼ =1 M obtém-se: e 2 N −n ∼ =1 N (3.136 CAPÍTULO 3. De imediato segue-se que: .16) S2 é a expressão aproximada para a variância da mn média de y da amostragem aleatória simples de tamanho mn (desprezandose a correção de população finita). segue-se que: Se lembrarmos que V (y Ac2 ) ∼ V (y AAS ) [1 + ( n − 1) δ] = Donde se conclui que o efeito de conglomeração da amostragem de conglomerados em 2 estágios é dado por [1 + ( n − 1) δ] .15) S S2 V (y Ac2 ) ∼ e + d = m mn ¢ ¡ ¡ ¢ ¤ S2 M N − 1 £ 1 MN − 1 (1 − δ) 2 S V (y Ac2 ) ∼ 1+ N −1 δ + = mn mN (M − 1) N MN Mas pela hipótese em (15) tem-se: MN − 1 ∼ =1 MN Logo: ¡ ¢ ¤ S2 £ 1 V (y Ac2 ) ∼ 1+ N −1 δ + (1 − δ) S 2 = mn mN " # ¢ ¡ N −1 δ S2 1 1 V (y Ac2 ) ∼ δ+ − + = m N n n N ¢ ¡ N −1 1 −→ 0 e −→ 1 se N for grande =⇒ N N Então: V (y Ac2 ) ∼ = S2 [ n δ + 1 − δ] mn S2 [1 + ( n − 1) δ] = mn e MN −1 ∼ =1 (M − 1) N (3.

No exercício 3. de modo que este fator não deve ser ignorado na determinação dos tamanhos da amostra. a subamostragem melhora e eficiência. . Isto é. então o custo Vale o comentário: se f1 cresce e. tomando menos unidades primárias ( f1 deve decrescer e f2 crescer). 201 = 1 + 5(0. a amostra deve ter mais unidades primárias e subamostras menores (f1 deve crescer e f2 decrescer).2. A eficiência da amostragem de conglomerados em 2 estágios em relação à amostragem aleatória simples de mesmo tamanho é dada por: V (y AAS ) ∼ 1 Ef = = 1 + ( n − 1) δ V (y Ac2 ) 3. fazer amostragem de conglomerados em 1 estágio. 201) ∼ 2 = Para baixar esse efeito de conglomeração. podem ser repetidas na amostragem de conglomerados em 2 estágios. o que implica em ter m grande. posto que se substitui N por n no efeito de conglomeração. No entanto. as diversas formas de controle da variação de tamanho enunciadas na amostragem de conglomerados em 1 estágio.2 Controle de variação de tamanho das UPAs Se o coeficiente de correlação intraclasse é positivo. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 137 £ ¡ ¢ ¤ i) se δ > 0 =⇒ [1 + ( n − 1) δ] << 1 + N − 1 δ que é o efeito de conglomeração na amostragem de conglomerados em 1 estágio. uma vez que a variância do estimador: M ³ ´ 2 2 X 2 Ni − ni Si bAc2 = M 2 M − m Se + M V Y N M m m i=1 i Ni ni ainda depende da variabilidade das unidades prrimárias. o efeito de conglomeração é: 1 + ( n − 1) δ = 1 + (6 − 1)0. Logo é interessante manter n pequeno.3. poderia reduzir a relação de C1 ou partir para a definição de uma nova unidade primária com custos C2 menor δ. a influência da variação do tamanho das unidades primárias ainda persiste na estimação e total. C1 >> 1. Desse modo.2. isto é. como em geral C2 da pesquisa tende a crescer bastante. £ ¡ ¢ ¤ ii) se δ < 0 =⇒ [1 + ( n − 1) δ] > 1 + N − 1 δ Logo. a melhor alternativa é fazer n = N.

yi é o total da característica y na subamostra de U Pi0 . selecionase uma subamostra com igual probabilidade de seleção e sem reposição. 2. Em cada uma dessas unidades primárias da amostra de 1o estágio. 2. · · · . n0i é o número de unidades secundárias selecionadas na UPi0 . M). · · · . · · · . Valem as considerações feitas na Ac1. m) . M). · · · .1 Probabilidades desiguais de seleção das unidades primárias Seja Pi a probabilidade de seleção da unidade primária i (i = 1. M) N ou à probabilidade proporcional a uma medida de tamanho definida por: Pi = Xi (i = 1. M) X Seleciona-se uma amostra de m unidades primárias de acordo com as probabilidades de seleção Pi e com reposição. 0 yi yi = 0 = ni j=1 ni P yij 0 ni (∀i = 1. Pi0 é igual a algum dos Pk (k = 1. 2. com relação à probabilidade proporcional ao tamanho do conglomerado.138 CAPÍTULO 3. 2. · · · . Ni0 é o número de unidades secundárias na UPi0 . 2. Um estimador não viciado do total da característica y é dado por: X N0 i bp = 1 YAc2 y m i=1 Pi0 i m onde: Pi0 é a probabilidade de seleção associada à i-ésima unidade primária selecionada (U Pi0 ). yij é o valor da característica y na j-ésima unidade selecionada da U Pi0 . definida por: Pi = Ni (i = 1. CONGLOMERADOS EM 2 ESTÁGIOS 3.2.

´ h ³ ´i ³ 0 0 b p |UP1 .··· .··· .UPm E !# # m 1 X Ni0 0 0 E (y i |UPi0 ) = VU P1 .U Pm m i=1 Pi0 " # m ³ ´ 1 X Ni0 0 bP 0 0 Y i = V YAc1 = VU P1 .UPm E + m i=1 Pi0 i " Ã !# m 1 X Ni0 0 0 y |UPi0 +EU P1 .U Pm m i=1 Pi0 " # " # m m 1 X Ni0 0 1 X Yi0 0 0 0 0 EU P1 .U Pm m i=1 Pi0 ¶2 M µ 1 X Yi − Y Pi = m i=1 Pi " .··· .··· .U Pm V YAc2 |UP1 . · · · .··· . CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS Para mostrar ³ ´ bp E YAc2 = 139 = = = = Um estimador não viciado da média da característica y por unidade pop³ ´ ulacional Y é dado por: y Ac2 = bp Variância de YAc2 p ´ ³ b b p é não viciado.U Pm Y = EUP1 .··· . UPm + bp 0 0 V YAc2 = VU P1 . UPm " Ã !# m 1 X Ni0 0 0 y |U Pi0 = VU P1 .··· .··· .··· .··· .UPm m i=1 Pi0 i m i=1 Pi0 h i P bAc1 = Y 0 .UPm E YAc2 h ³ ´i 0 0 bp 0 0 +EU P1 .··· .U Pm V m i=1 Pi0 i " Ã 1 X Ni0 y |U Pi0 m i=1 Pi0 i m 0 0 VUP1 .2. basta mostrar que: E Y p que YAc2 Ac2 = Y ! Ã m 1 X Ni0 E y m i=1 Pi0 i " Ã !# m 1 X Ni0 0 0 y |UPi0 EU P1 . · · · .3.··· .U Pm E m i=1 Pi0 i " # m 1 X Ni0 0 0 E (y i |UPi0 ) EU P1 .U P 0 EU P1 Y m 1 X Ni0 y Nm i=1 Pi0 i m Mas.

140 e CAPÍTULO 3.U Pm m2 i=1 Pi0 Ni0 n0i ¶2 M µ Ni − ni Si2 1 X Ni m Pi = m2 i=1 Pi Ni ni " 1 X Ni2 Ni − ni Si2 = m i=1 Pi Ni ni M " 1 m2 Ãm µ ¶ X N0 2 i Pi0 V (y i |UPi0 ) !# Logo.··· . ¶2 M µ M ´ ³ 1 X Yi 1 X Ni2 Ni − ni Si2 p b V YAc2 = − Y Pi + m i=1 Pi m i=1 Pi Ni ni ´ ³ bp Um estimador não viciado de V YAc2 é dado por: ´ ³ bp v YAc2 = ³ ³ ´´ ´ ³ bp bp = V YAc2 : Prova que E v YAc2 ³ ³ ´´ bp E v YAc2 = E à ¶2 m X µ N 0y 1 i i bp − YAc2 m (m − 1) i=1 Pi0 ¶2 ! m X µ N 0y 1 i i bp − YAc2 m (m − 1) i=1 Pi0 ! Ãm µ ´2 ³ X N 0 y ¶2 1 i i bp E − m YAc2 = m (m − 1) Pi0 ! à mi=1 µ ¶2 ´2 ³ X Ni0 y i 1 bp E = − mE YAc2 m (m − 1) i=1 Pi0 .··· . CONGLOMERADOS EM 2 ESTÁGIOS 0 0 EUP1 .U Pm à i=1 µ ¶ !# 0 m 2 Ni0 − n0i Si 2 1 X Ni0 0 0 = EU P1 .UPm V " à 1 X Ni0 y |U Pi0 m i=1 Pi0 i m !# 0 0 = EU P1 .··· .

··· .UPm E |UPi0 0 Pi " µµ ¶ ¶ µ µ 0 ¶¶2 # 0 Ni y i Ni y i 0 0 = EUP1 .UPm  + 0 0 0 Pi Ni ni Pi0 M M X µ Ni ¶2 Ni − ni S 2 X µ Ni Y i ¶2 i Pi + Pi = Pi Ni ni Pi i=1 i=1 e ³ ³ ³ ´2 ´ h ³ ´i2 ´ bp bp bp bp E YAc2 = V YAc2 + E YAc2 = V YAc2 + Y 2 então: ³ ³ ´´ bp E v YAc2 = ! ¶2 ´2 ³ Ni0 y i p b E − mE YAc2 Pi0 i=1 m ´2 ³ X µ N 0 y ¶2 m 1 i i bp E E YAc2 − m (m − 1) i=1 Pi0 m (m − 1) ! ÃM µ ¶ M X Ni 2 Ni − ni S 2 X µ Ni Y i ¶2 1 i Pi + Pi + = m − 1 i=1 Pi Ni ni Pi i=1 ´ 1 ³ ³bp ´ V YAc2 + Y 2 − m−1 ! ÃM µ ¶ M X Ni 2 Ni − ni S 2 X µ Yi ¶2 1 i Pi + Pi − Y 2 + = m − 1 i=1 Pi Ni ni Pi i=1 ´ ³ 1 p b V YAc2 − m−1 1 m (m − 1) Ãm X µ .··· .··· .UPm V |UPi0 |UPi0 + E 0 0 Pi Pi  !2  à µ 0 ¶2 0 0 02 0 0 Ni − ni Si Ni Ni Y i  0 0 = EUP1 .3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS mas: µ ¶2 141 E Ni0 y i Pi0 " µ # ¶2 0 Ni y i 0 0 = EUP1 .

num esquema de amostragem em 2 estágios com probabilidade desigual no primeiro estágio e equiprobabilidade no segundo estágio é dada por: 0 0 n P {USij ∈ amostra} = mPi i0 ∀i. nNi0 . j Ni Com este plano amostral.142 CAPÍTULO 3. então: N 0 n 0 n mPi i0 = =f Ni N m P 0 ni dá o tamanho pré-fixado. então: mNPi0 Ãm ! X E n0i = i=1 i=1 ! ÃM µ ¶ M M X Ni 2 Ni − ni S 2 X µ Yi ¶2 X i 2 Pi + Pi − Y Pi Pi Ni ni Pi i=1 i=1 i=1 ´ ³ 1 bp V YAc2 − m−1 ÃM µ ¶ ¶2 ! M X Ni 2 Ni − ni S 2 X µ Yi 1 i Pi + Pi = −Y m − 1 i=1 Pi Ni ni Pi i=1 ´ ³ 1 p b V YAc2 − m−1 ³ ³ ´ ´ µm − 1¶ ³ ´ 1 1 p p bp b b V YAc2 mV YAc2 − V YAc2 = = m−1 m−1 m−1 ³ ´ bp = V YAc2 1 m−1 n E mN = nmN =n mN ! Ãm X N0 i Pi0 i=1 ! Ãm M X X Ni n Pi = mN i=1 i=1 Pi Adaptação dos estimadores do total e da respectiva variância . em média. CONGLOMERADOS EM 2 ESTÁGIOS ³ ³ ´´ bp E v YAc2 = Amostra autoponderada A probabilidade de uma unidade secundária qualquer (USij ) pertencer a amostra. Tem-se. a amostra é autoponderada se essa probabilin dade é constante e igual a fração de amostragem geral . pois: se n0i = Observe que.

Ni0 o número de fazendas no i-ésimo povoado selecionado.2. faz-se uma listagem das Ni0 fazendas de gado e seleciona-se uma subamostra de fazendas com tamanho suficiente 1 das fazendas. ³ ´ bp v YAc2 = = ¶2 m X µ N 0y 1 i i bp − YAc2 m (m − 1) i=1 Pi0  2 n0 m i 0 X X N 1 bp  i yij − YAc2  0 0 m (m − 1) i=1 Pi ni j=1  2 0 n0 m m ni i X mX XX 1 1  yij − yij  m (m − 1) i=1 f j=1 f i=1 j=1  0 2 0 ni m ni m 2 X X XX m 1  yij − yij  2 m (m − 1) f i=1 j=1 m i=1 j=1  0 2 0 ni m m ni X X XX m 1  yij − yij  2 m i=1 j=1 (m − 1) f i=1 j=1 = = = Exemplo 3. selecionam-se 14. pág. com reposição e probabilidade de seleção proporcional à população do último Censo. com o para se obter uma fração geral de amostragem f = 100 objetivo de estimar o número total de cabeças de gado.3.3 (Nascimento (1981). n0i o número de fazendas na subamostra do i-ésimo povoado selecionado. . CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS bp A expressão do estimador de total YAc2 pode ser reescrita como: bp YAc2 ni m m m ni 1 X Ni0 1 X Ni0 1 X 1 XX y = yij = yij = m i=1 Pi0 i m i=1 Pi0 n0i j=1 f i=1 j=1 0 0 143 mesma expressão já encontrada com equiprobabilidades nos 2 estágios. 112) Numa determinada localidade com 53 povoados. Considerando: Pi0 a probabilidade de seleção do i-ésimo povoado selecionado. No povoado i da amostra.

0465 14 0.0489 0.100) = 3.230.0220 8 0.0325 0.0362 12 0.200 1 500 2 880 1 300 1 410 1 570 1 350 25 10.0187 6 0.0382 0.100 2 600 2 510 1 300 2 1.0249 9 0.0187 7 0.0729 0. CONGLOMERADOS EM 2 ESTÁGIOS yij o número de cabeças de gado na subamostra do i-ésimo povoado n0i n =f = 0 Ni N j=1 selecionado.0098 3 0.200 2 820 2 760 2 1. aplicou-se a fração de amostragem de 2o estágio.0197 0. = f i=1 j=1 m X i=1 ³ ´ bp v YAc2 = m (m − 1) f 2 = 14 (100)2 (3. obtendo-se as fazendas da subamostra e levantando.0154 0.0258 10 0.0465 Total 0 Ni0 19 23 31 40 54 54 39 55 46 83 74 70 60 60 - n0 i 0 Ni 0.0385 0.559. em cada uma.2747 0.0026 2 0.0146 4 0.400Pi0 Feita a seleção dos 14 povoados e a listagem das fazendas. 77 (1000) 13  0 2 n0 ni m X i X 1 X  yij − yij  m i=1 j=1 j=1 .500 bp YAc2 m ni 1 XX yij = 100 (10.305.500) = 1.000 cabeças de gado.0428 0.050. o número de cabeças de gado.144 yi = ni P 0 CAPÍTULO 3.0277 0.0167 5 0. Pi0 Povoados (i) 1 0.0298 11 0.0382 0.0240 0.0154 - n0i yi 5 2.0370 13 0.0193 0. e a igualdade: mPi0 obtém-se a fração de amostragem de 2o estágio: ¶µ ¶ µ n0i 1 1 1 = = 0 0 Ni mPi 100 1.

em cada unidade primária i. 1797 145 Estimação de proporção e Suponha que a população seja dividida nas classes A e A. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS r ³ ´ bp v YAc2 = 188. a M Ai Um estimador não viciado para estimar a proporção PA = por: pp Ac2 = p y Ac2 i=1 N é dado onde: a0 pi = 0i é a proporção de A na subamostra. com Ai e Ai unidades.4 1X 0 a = n i=1 i m m ¶2 m X µ N0 1 p i pi − pAc2 = m (m − 1) i=1 N Pi0 n n0i =f = 0 Ni N ´2 X ³m 0 1 p a − pAc2 = m (m − 1) i=1 n i . A subamostra de tamanho ni fica também dividida nas duas classes com ai e ei unidades. e A unidade primária i fica dividida nas classes. ni Um estimador não viciado de V (pp ) é dado por: Ac2 v (pp ) Ac2 1 X Ni0 1 X Ni0 yi = pi = Nm i=1 Pi0 N m i=1 Pi0 m m Se a amostra é autoponderada.3. ocorre a condição: mPi0 logo: pp Ac2 v (pp ) Ac2 Exemplo 3.659.2. 24 ´ ³ bp cv YAc2 = r ³ ´ bp v YAc2 bp YAc2 = 0. respectivamente.

Deseja-se estimar a proporção das fazendas cujo tipo de criação de gado é para corte e o coeficente de variação associado a essa estimativa. Os valores obtidos na subamostra foram: Povoados No de fazendas No de fazendas com da amostra na subamostra criação de gado para corte 1 5 3 2 2 1 3 2 1 4 2 0 5 2 2 6 2 1 7 1 0 8 2 1 9 1 0 10 2 0 11 1 0 12 1 0 13 1 0 14 1 1 Total 25 10 pp = Ac2 1 X 0 10 a = = 0. Suponha que as fazendas da subamostra foram classificadas de acordo com o tipo de criação de gado: para corte ou não ( para leite e/ou reprodução). CONGLOMERADOS EM 2 ESTÁGIOS Considere o exercício 3. 40 n i=1 i 25 m .3.146 CAPÍTULO 3.

Basta considerar as expressões do item anterior e adaptá-las a um estrato genérico h. A seleção das unidades primárias.2. dentro de cada estrato é feita com probabilidade proporcional ao tamanho. acrescentando aos símbolos um índice h (h=1. L).2.· · · .3.2 Estratificação das unidades primárias e seleção com probabilidades desiguais de seleção A estratificação das unidades primárias é feita grupando em mesmo estrato as unidades primárias de tamanhos aproximadamente iguais. Recorde que o estimador de Y num esquema com 2 estágios de seleção e probabilidades desiguais de seleção no 1o estágio (sem considerar a estratificação das unidades de 1o estágio) e com reposição e equiprobabilidades no 2o estágio é dado por: 1 X Ni0 bp y YAc2 = m i=1 Pi0 i m .2. 0187076 q v (pp ) = 0. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS m 147 v (pp ) Ac2 = = = = = = = ´2 X ³m 0 1 ai − pp Ac2 m (m − 1) i=1 n Ãm ! X ³ m 0 ´2 1 a − m (pp )2 Ac2 m (m − 1) i=1 n i à m µ 0 ¶2 ! X a m (pp )2 i − Ac2 m − 1 i=1 n m õ ¶ ¡ 10 ¢2 ! 1 14 (9 + 4 + 1 + 1 + 1 + 1 + 1) − 25 13 14 (25)2 µ ¶ µ ¶ 100 14 18 (14) − 100 14 18 = − 13 625 625 (14) 13 625 (14) µ ¶ µ ¶ µ ¶ 1 18 (14) − 100 1 152 1 18 (14) − 100 = = 13 625 13 625 13 625 0. 1367757 Ac2 cv (pp ) Ac2 p v (pp ) Ac2 = = 0. 342 pp Ac2 3. O processo para definir os estimadores é muito simples.

148

CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

No estrato h, o estimador do total do estrato h, Yh , é dado por:
mh 0 1 X Nhi bp y Yh.Ac2 = 0 mh i=1 Phi hi

conseqüentemente, o estimador de Y é dado por: b p.est YAc2 =
L X h=1

bp Recorde-se que a variância de YAc2 é:

bp Yh.Ac2 =

mh L X 1 X N0 hi y 0 mh i=1 Phi hi h=1

´ ³ bp No estrato h, a variância do estimador do total do estrato h, V Yh.Ac2 , é dado por: ¶2 Mh µ Mh ´ ³ 2 2 1 X Yhi 1 X Nhi Nhi − nhi Shi p b V Yh.Ac2 = − Yh Phi + mh i=1 Phi mh i=1 Phi Nhi nhi

¶2 M µ M ´ ³ 1 X Ni2 Ni − ni Si2 1 X Yi bp V YAc2 = − Y Pi + m i=1 Pi m i=1 Pi Ni ni

b p.est conseqüentemente, a variância de YAc2 é dada por:
L ³ ´ X ³ p ´ b p.est = b V YAc2 V Yh.Ac2 h=1

´ ³ b p.est O estimador da V YAc2 é dado por:
L ³ ´ X b p.est = v YAc2 h=1

¶2 Mh Mh L L X 1 X µ Yhi X 1 X N 2 Nhi − nhi S 2 hi hi = − Yh Phi + mh i=1 Phi mh i=1 Phi Nhi nhi h=1 h=1

¶2 m X µN0 y 1 hi hi bp − Yh.Ac2 0 mh (mh − 1) i=1 Phi

Amostra autoponderada A probabilidade de uma unidade secundária qualquer do estrato h pertencer a amostra, num esquema de amostragem em 2 estágios é dada por:

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS
0

149

n mh Phi hi 0 Nhi
0

Esta probabilidade pode ser constante no estrato ou variar de estrato para estrato. , neste caso: n nh mh Phi hi = (h = 1, 2, · · · , L) 0 Nh Nhi
0 0

ou ser constante para todos os estratos: n n mh Phi hi = 0 N Nhi
0 0

(h = 1, 2, · · · , L)

No primeiro caso, a amostra é autoponderada no estrato e no segundo caso é autoponderada em geral.

3.2.3

Estimador de razão

Estuda-se agora o estimador de razão, tendo como característica auxiliar o tamanho das unidades primárias, num esquema de amostragem de conglomerados em 2 estágios com equiprobabilidade nos 2 estágios. Sabe-se que a média por unidade secundária é:
M P

Yi = Ni

Y =

i=1

o que mostra que Y pode ser entendida como uma razão de duas médias. Um estimador consistente de Y é obtido substituindo-se o numerador e denominador por estimadores não viciados. R Desse modo, representando por y Ac2 esse estimador consistente, tem-se:
m m P 0 1 P 0 Ni y i Ni y i m i=1 i=1 = = P m m 1 P 0 0 Ni Ni m i=1 i=1

i=1 M P

Y N

y Ac2 cuja variância é dada por:

R

150

CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS ¶2 M µ ³ ´ M − m S2 Ni − ni Si2 1 X Ni R eR V y Ac2 = + 2 Mm i=1 N Ni ni MN m
2 SeR

e um estimador consistente para essa variância é: ¶2 ¶2 0 m µ m µ ³ ´ ´2 Ni − n0i Si02 M − m X Ni0 ³ 1 X Ni0 R R y i − y Ac2 + v y Ac2 = Mm (m − 1) i=1 N Mm i=1 N Ni0 n0i Estimador de razão para o total Y :  Ni y i  R bAc2 = MN y R = MN  i=1  Y Ac2 m  P 0  Ni
i=1

´2 1 X 2³ N Yi−Y = M − 1 i=1 i
M

m P

0

bR e a variância de YAc2 é dada por:
2M

´ ³ ¢2 ³ R ´ ¡ bR V YAc2 = MN V y Ac2 = M

M 2 − m SeR M X 2 Ni − ni Si2 N + M m m i=1 i Ni ni

e um estimador consistente para essa variância é: µ ¶µ ¶X m ´ ³ ´2 ³ M2 M − m 1 R R b Ni02 y i − y Ac2 + v YAc2 = m M m − 1 i=1
m M X 0 2 Ni0 − n0i s02 i N + m i=1 i Ni0 n0i

M2 M >> , então a expressão acima pode ser Supondo M >> m =⇒ m m aproximada para:
m ´ M2 µM − m¶ µ 1 ¶ X ³ ´2 ³ R R b Ni02 y i − y Ac2 v YAc2 ∼ = m M m − 1 i=1

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS ou ³ ´ s2 bR = v YAc2 ∼ M 2 eR m
m

151

com s2 = eR

´2 1 X 02 ³ R Ni y i − y Ac2 m − 1 i=1

Amostra autoponderada Sabe-se que a condição para que a amostra seja autoponderada é dada pela igualdade: n m ni = =f M Ni N n de ou seja, todas as unidades secundárias têm a mesma probabilidade N pertencer à amostra. Nesta condição, tem-se:
m ni PP i=1
0

R y Ac2

sendo f2 =

n a fração de amostragem de 2o estágio. N Para o estimador da variância aproximada de ³ ´ s2 R v y Ac2 ∼ eR = 2 N m com M >> m e m ´2 1 X 02 ³ R Ni y i − y Ac2 s2 = eR m − 1 i=1  2 n0 m i P 0P Ni yij   n0i m  1 X Ni02 X i=1 j=1   yij − = m 02  P 0  m − 1 i=1 ni  j=1  Ni
i=1

N i=1 j=1 = m n P 0 Ni

yij

yij 1 i=1 j=1 = m f2 P 0 Ni
i=1

m ni PP

0

1 = m−1

µ

¶2 m  n0i mN X X  yij −  nM i=1  j=1

i=1

m P

Ni

i=1

yij    m P 0   Ni
j=1

0

ni P

0

2

152 ou

CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS  2

Exemplo 3.5 Suponha que se deseja estimar o consumo médio semanal por domicílio (em unidades de produto) de determinado produto para alimentação. Dispõe-se de um mapa da localidade onde podem ser identificados 400 quarteirões, que serão considerados unidades primárias de amostragem. Sabese que existem na localidade cerca de 26.000 domicílios dando uma média de 65 domicílios por quarteirão. Seleciona-se uma amostra autoponderada de 650 domicílios com 2 estágios de seleção e com equiprobabilidade em cada 1 estágio, tendo fixado a fração de amostragem do 1o estágio em , o que 8 implicou na seleção de 50 quarteirões. n 1 650 = . Logo a fração de amostragem do 2o = Neste caso f = N 26.000 40 f 1 = . estágio é dada por: f2 = f1 5 Sabendo-se que:
m P

n0 m ³ ´ X X  i s2 m R  v y Ac2 ∼ eR = yij − = 2 (m − 1) n2 i=1  j=1 N m 

i=1

m P

Ni

i=1

yij    m P 0   Ni
j=1

0

ni P

0

i) o número de domicílios nos quarteirões da amostra é

i=1

Ni0 = 3.152;

ii) o número de domicílios selecionados na subamostra dos quarteirões m P 0 ni = 710; selecionados é
i=1

iii) o total de unidades consumidas nos domicílios selecionados na sub0 m ni PP yij = 1.910; e que amostra dos quarteirões selecionados é
i=1 j=1

 n0 i P  yij − iv)  i=1 j=1
m P

i=1

m P

Ni

i=1

yij    m P 0  = 4.500.  Ni
j=1

0

ni P

0

2

3.3. EXERCÍCIOS a estimativa do consumo médio semanal por domicílio é dada por: yij 1 i=1 j=1 1.910 = m P 0 = (5) 3.152 = 3, 03 f2 Ni
i=1 m ni PP
0

153

R y Ac2

e a estimativa aproximada da variância é dada por: 

³ ´ R v y Ac2 ∼ = =

n m X X  i m  yij − (m − 1) n2 i=1  j=1 
0

i=1

m P

Ni

i=1

50 (4.500) = 0, 0091 49 (710)2 r ³ ´ R v y Ac2 y Ac2
R

yij    m P 0   Ni
j=1

0

ni P

0

2

³ ´ R cv y Ac2 =

= 0, 031

3.3

Exercícios

3.3.1 Compare a precisão de uma amostra de conglomerados em 2 estágios (Ac2) com a fração de subamostragem de 50% com a de uma amostra de conglomerados em um estágio (Ac1)de igual tamanho, supondo que o tamanho médio do conglomerado é de 50 unidades e que o coeficiente de correlação intraclasse é igual a 0,1. Indicar se há ganho ou perda relativa da Ac2 em relação a Ac1. (Devem ser usadas as fórmulas aproximadas relacionando as variâncias da Ac1 com a amostra aleatória simples (AAS), e da Ac2 com a AAS). 3.3.2 Os habitantes de um bairro estão distribuídos em 149 quarteirões, onde se estima que há um total de 8.500 domicílios. Deseja-se estimar o número total de domicílios alugados no bairro. a) Represente esquematicamente a população de interesse, definindo adequadamente:

154 CAPÍTULO 3. 3. d) Considerando o esquema apresentado em c). e • unidades secundárias. Utilize os dados observados.3.3 Deseja-se selecionar uma amostra de m conglomerados. CONGLOMERADOS EM 2 ESTÁGIOS • unidades primárias. sabendo-se que: 2 Sd = 49. média por unidade da população e variância global). b) Para uma característica genérica y. c) Defina um esquema de amostragem de conglomerados em 2 estágios que permita selecionar uma amostra probabilística das unidades da população com o objetivo de estimar o total de domicílios alugados no bairro. e uma expressão para a variância desse estimador. média e variância). e • a notação dos parâmetros da população (total. obtenha um estimador não viciado para o total de domicílios alugados no bairro. com reposição. 5 S e = 9. nos quais será selecionada uma subamostra de n unidades em cada conglomerado da amostra. C0 = 300.3.000. C1 = 9 e C2 = 1 encontre os valores ótimos do número de conglomerados da amostra e do número de unidades a serem selecionadas por conglomerado. Uma amostra autoponderada foi selecionada com fração geral f = 2%. defina: • a notação dos parâmetros das unidades primárias (total. de uma população de 90 conglomerados. um bairro continha 100 quarteirões dos quais 10 foram selecionados com probabilidade proporcional a um dado tamanho. total médio por unidade primária. mostrados a seguir: . 045 2 N = 20 3.4 Numa grande cidade. Assume-se que a função custo é da forma: Ct = C0 + C1 m + C2 mn Dado que Ct = 1. Será usada amostragem aleatória simples sem reposição em ambos os estágios para estimar a média por unidade elementar de uma dada característica.

De um censo anterior se conhece o número de domicílios por quarteirão. c) Estime o no médio de pessoas por cômodo nos domicílios do bairro.3. a) Defina um esquema de amostragem de conglomerados em 2 estágios que permita selecionar uma amostra probabilística das unidades da população com o objetivo de estimar o total de domicílios alugados no bairro. .000 domicílios. 3. O orçamento e o tempo disponíveis para fazer a pesquisa permitem que se realize cerca de 300 entrevistas. EXERCÍCIOS 155 Quarteirão na amostra 1 2 3 4 5 6 7 8 9 10 Total no de pessoas dos no de cômodos nos domidomicílios selecionados cílios selecionados nos nos quarteirão da amostra quarteirões da amostra 115 60 80 52 82 58 93 56 105 62 109 51 130 72 93 48 109 71 95 58 1. onde se estima que há um total de 9.5 Os habitantes de um bairro estão distribuídos em 150 quarteirões. b) Estime o no total de comôdos dos domicílios do bairro e o respectivo coeficiente de variação. Deseja-se estimar o número total de domicílios alugados no bairro. e uma expressão para a variância desse estimador. b) Considerando o esquema apresentado em a).3.3. apresente um estimador não viciado para o total de domicílios alugados no bairro.011 588 a) Estime o no total de pessoas no bairro e o respectivo coeficiente de variação.

. Foram selecionadas 6 unidades primárias no primeiro estágio e a fração de subamostragem é de 10%.6 De uma população de 100 conglomerados de 40 elementos cada um foi selecionada uma amostra de 2 estágios. c) O que você faria para diminuir a contribuição dessa componente de variância devida ao 1o estágio? 3. Sabendo-se que para uma determinada característica y: i=1 m P yi = 84 s2 = 1. custo de unidade de primeiro estágio ou custo de unidade de segundo estágio.7 Uma pesquisa é realizada com a finalidade de fornecer informações sobre a produção de uma certa planta que só pode ser produzida com autorização do governo. Como nem todos os municípios possuem produtores dessa planta. Essas permissões são concedidas pelas prefeituras dos municípios. CONGLOMERADOS EM 2 ESTÁGIOS 3. As permissões concedidas no início da estação de cultivo foram usadas como fonte de informação. 65 e a) Calcule a estimativa de total para a característica y e o respectivo coeficiente de variação. 33 d s2 = 1338. A amostra será feita em 2 estágios: primeiramente seleciona-se uma amostra de municípios. cada município selecionado terá um entrevistador exclusivo. os entrevistadores visitarão as prefeituras dos municípios selecionados. visitarão as fazendas coletando os dados necessários. Indique com um X na coluna apropriada se os custos podem ser considerados parte do custo geral. (Marque um único X para cada item de custo apresentado). A seguir.3. A seguir você encontrará alguns itens que compõem o custo da pesquisa. com seleção aleatória sem reposição em cada estágio.156 CAPÍTULO 3. em seguida.3. b) Calcule a participação da componente da variância devida ao 1o estágio. preparando então uma lista dos produtores que têm permissão e selecionarão uma amostra de produtores.

foi decidido utilizar uma amostra de conglomerados com subamostragem. e) Seleção da amostra de municípios com permissão.3. feita pelos supervisores. g) Verificação do trabalho de campo dos entrevistadores. · · · .3. Em ambos os estágios foi empregado o procedimento de seleção com probabilidades iguais sem reposição. EXERCÍCIOS 157 Item (descrição) a) Impressão dos questionários. d) Viagem aos municípios que fornecem permissão selecionados. f) Obtenção de informação dos produtores selecionados. para selecionar amostra de produtores. Com objetivo de esvalor de N = i=1 timar a proporção de unidades elementares pertencentes a uma certa classe. h) Crítica dos questionários coletados. M).000. Geral 1o estágio 2o estágio 3.3. j) Preparação e divulgação dos resultados finais da pesquisa. c) Obtenção da lista de municípios que fornecem permissão. b)Treinamento dos entrevistadores. i) Preparação de um programa para tabulação dos resultados. O M P Ni é conhecido e igual a 1. 2. .8 Uma população está formada por N unidades elementares agrupadas em 50 conglomerados de tamanho desiguais Ni (i = 1.

São fornecidos. d) Comente as vantagens e desvantagens do estimador usado em c) em relação ao usado em b).896 N2 = 43. 20 e 60. 3. ainda. 20 a) Dê a probabilidade de que a unidade elementar j do conglomerado i pertença a amostra e determine o número de unidades elementares selecionadas em cada conglomerado. 3. foram obtidos os seguintes valores para o número de elementos que pertencem à classe em questão: 1.625 N4 = 10. totalizando uma amostra de 1000 trabalhadores.9 Para estudar as condições de vida dos trabalhadores que vivem em uma área industrial. 67 m − 1 i=1 5 5 X i=1 s2 e Ni02 Ni0 − n0i s2 i = 118. os seguintes resultados: 1 X 0 2 = (Ni y i − y Ac2 ) = 318. No 2o com fração amostral f2i = Ni . 2 e 3. c) Dê as estimativas definidas em b) utilizando o estimador de razão. 78 Ni0 n0i 5 X i=1 ³ ´2 R Ni02 y i − y Ac2 = 53. adotando o tamanho dos conglomerados como variável auxiliar. b) Estime a proporção de unidades elementares que pertençam à classe e o respectivo coeficiente de variação.391 h=1 . Em cada estrato da amostra foram selecionadas 4 fábricas com probabilidade proporcional ao número de trabalhadores obtidos de um período anterior e de cada fábrica selecionada foi selecionado aleatoriamente um certo número de trabalhadores. CONGLOMERADOS EM 2 ESTÁGIOS No 1o estágio foram selecionados 5 conglomerados com os seguintes 4 valores de Ni : 6.158 CAPÍTULO 3. 2.774 4 P Nh = 91. Sabe-se que foram definidos 4 estratos e que o número de trabalhadores conhecidos de um período anterior em cada estrato é dado por: N1 = 5. 8.3. 10. foi selecionada uma amostra estratificada com 2 estágios de seleção.096 N3 = 31.

3. EXERCÍCIOS 159 Determine o número de trabalhadores a serem selecionados em cada fábrica de tal modo a ter uma amostra autoponderada. 3. .3.3.10 Explique qual a vantagem de se fazer uma amostra de conglomerados em 2 estágios ao invés de uma amostra de conglomerados em um estágio.

160 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS .

De cada unidade primária da amostra selecionase uma amostra de unidades secundárias. Mas no entanto. mi . j = 1. tendo a U Sij 00 probabilidade de seleção Pij . Associado à U Tijk (unidade terciária) a observação yijk . da USij da amostra selecionam-se 00 nij unidades terciárias com equiprobabilidade.obtém-se a amostra final. 161 . · · · . Assim. · · · . r. Seleciona-se uma amostra de r unidades primárias. De cada U Pi0 da amostra selecionam-se m0i unidades secundárias.2 Seleção com probabilidades desiguais Seja Pi a probabilidade de seleção da unidade primária UPi (i = 1. 2. k = 1. mais se torna complicada a expressão da variância do estimador. constituída pelo conjunto: ¯ n o 00 ¯ 0 yijk ¯ i = 1. R) .Capítulo 4 Conglomerados em 3 estágios 4. De cada unidade secundária da 00 amostra seleciona-se uma amostra de unidades terciárias. · · · . Desse modo na UPi0 seleciona-se uma amostra de m0i unidades secundárias. Finalmente. · · · . 2. nij sendo: n= mi r XX i=1 j=1 0 nij 00 4. 2. Seja U Pi0 a i-ésima unidade primária da amostra.1 Introdução A dificuldade de cadastramento para seleção da amostra se reduz à medida em que aumenta o número de estágios. na U Sij 00 seleciona-se uma amostra de nij unidades terciárias. 2. à medida em que aumenta o número de estágios.

o estimador do total da UPi0 é dado por: mi 00 X Nij bp = 1 Yi 00 y m0i j=1 Pij ij 0 logo. isto é: 0 0 00 0 00 rPi0 m0i Pij 00 b YAc3 mi r R X Mi0 X 00 N y = r i=1 m0i j=1 ij ij nij n =f 00 = N Nij 00 b bp Neste caso.2. o estimador YAc3 assume a mesma forma do estimador YAc3 : b bp YAc3 = YAc3 mi ij r 1 XXX yijk = f i=1 j=1 k=1 0 n 00 O capítulo seguinte apresenta alguns métodos especiais para a estimação das variâncias de estimadores que são em geral aplicados em desenhos amostrais complexos. . o estimador não viciado de Y é dado por: bp YAc3 Caso particular de equiprobabilidade no 1o e 2o estágios: Pi0 = 1 1 00 e Pij = 0 R Mi 0 mi r r 00 1 X 1 b p 1 X 1 1 X Nij Y = = 00 y r i=1 Pi0 i r i=1 Pi0 m0i j=1 Pij ij 0 Amostra autoponderada (caso genérico) nij A probabilidade da UTijk pertencer a amostra é dada por: rPi mi Pij 00 Nij A amostra será autoponderada se esta probabilidade for constante e igual a fração geral de amostragem.1 Estimador não viciado de Y Considerando o processo em 2 estágios.162 CAPÍTULO 4. CONGLOMERADOS EM 3 ESTÁGIOS 4.

unidades secundárias.3. média por unidade secundária e média por unidade da população). média por unidade secundária e média por unidade da população). . defina: .000 estudantes. c) Defina um esquema de amostragem de conglomerados em 3 estágios que permita selecionar uma amostra probabilística das unidades da população com o objetivo de estimar a proporção de alunos aprovados no último ano no município. média por unidade primária. definido adequadamente: unidades primárias.4. d) Considerando o esquema apresentado em c). com uma média de 20 turmas por escola e estima-se que há um total de 10. . EXERCÍCIOS 163 4.3 Exercícios 4. b) Para uma característica genérica y.1 Os estudantes de 1o grau de um determinado município estão distribuídos em 15 escolas.3.a notação dos parâmetros para uma dada unidade primária (total. a característica y. Deseja-se estimar a proporção de alunos aprovados no último ano no município. unidades terciárias. a) Represente esquematicamnete a população de interesse. obtenha um estimador não viciado para a proporção de alunos aprovados no último ano no município.a notação dos parâmetros da população (total.

CONGLOMERADOS EM 3 ESTÁGIOS .164 CAPÍTULO 4.

Para alguns planos amostrais.2 Problemas para estimar variâncias Para os casos ”regulares”.) não fornecem estimadores de variância diretamente. estimadores de variância estão disponíveis nos livros-texto de Amostragem. Algumas vezes. e portanto sujeitos ao erro amostral. 165 . problemas inesperados podem ser detectados mediante análise das estimativas de variância: valores suspeitos (”outliers”). Entretanto. 5. Com uma estimativa de variância para cada estimativa de parâmetro de interesse.Capítulo 5 Estimação de variâncias 5. não se terá indicação da precisão das estimativas. etc. Tentação: é fácil ”esquecer” que os resultados das pesquisas são baseados apenas em uma amostra da população. a estimação de variâncias é uma componente essencial da abordagem de inferência utilizada: sem estimativas de variância. SPSS. etc.1 Porque é importante estimar variâncias? Em amostragem. BMDP. as probabilidades de inclusão conjuntas (de segunda ordem) podem ser nulas (como na amostragem sistemática) ou difíceis de calcular (como no caso de alguns planos amostrais com probabilidades desiguais). os pacotes estatísticos tradicionais (SAS. é fácil obter intervalos de confiança e fazer inferências estatísticas adequadas: Estimativas de variância são também essenciais para comunicar aos usuários da pesquisa sobre a qualidade e precisão dos resultados. MINITAB. celas raras. nem mesmo para planos amostrais comuns tais como AAS e AES.

166

CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS

Em muitos casos, estimadores dos parâmetros de interesse são ”não lineares” (isto é, não são médias, totais ou proporções). Exemplos incluem razões, correlações, coeficientes de regressão, quantis de distribuições, etc. Alguns estimadores de variância podem fornecer valores negativos (como é o caso do estimador de variância de Horvitz-Thompson em alguns planos amostrais com probabilidades desiguais).

5.3

Métodos para estimar variâncias

Wolter (1985) enfatiza ambas a teoria e aplicações de vários métodos para estimar variâncias.

5.3.1

Método de Linearização de Taylor ou δ-método

Um dos primeiros métodos, desenvolvido para fornecer estimadores de variância para estimadores não lineares. A hipótese básica deste método é que o parâmetro de interesse possa ser representado como uma função de K totais populacionais, isto é: θ = f (Y1 , · · · , YK ) yik são totais poulacionais para váriáveis de pesquisa

onde YK =

i=1

yk , k = 1, · · · , K. O estimador amostral do parâmetro θ é dado por b = f (Y1 , · · · , YK ) b b θ

N P

n P yik b onde YK = é o estimador de Horvitz-Thompson do total Yk , k = i=1 π i 1, ..., K. Quando f é uma função linear, é fácil obter expressões de variância para b Isto ocorre por causa da linearidade de f , já que neste caso θ.

θ = a0 +

e consequentemente b = a0 + θ

K X k=1

ak Yk

K X k=1

b ak Yk

5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS

167

Portanto, neste caso podemos usar propriedades de combinações lineares de variáveis aleatórias para obter ³ ´ V b = V θ = Ã
K X k=1

a0 +

K X k=1

a2 V k

Dessa forma, um estimador para a variância de pode ser facilmente obtido substituindo as variâncias e covariâncias na expressão acima por seus respectivos estimadores não viciados, levando a:
K K K ³ ´ X ³ ´ XX 2 b = bk + b b v θ ak v Y ak aj cov(Yk , Yj ) k=1 k=1 j6=k

K K ³ ´ XX bk + b b Y ak aj COV (Yk , Yj ) k=1 j6=k

b ak Yk

!

θ Para funções de fato não lineares, a idéia é aproximar o estimador b por bL , obtida mediante expansão da função f em uma quantidade linearizada θ série de Taylor em torno do ponto (Y1 , · · · , YK ), e desprezando-se o termo do resto, isto é: K ´ X ³ b ∼ bL = θ + b ak Yk − Yk θ=θ
k=1

onde

para k = 1, ..., K. θ Para amostras grandes, o estimador não linear b terá comportamento bL , e portanto podemos usar a varsemelhante ao do estimador linearizado θ iância deste estimador linearizado como aproximação para a variância do θ estimador b . Isto é: ³ ´ ³ ´2 ³ ´2 V b = E b − θ ∼ E bL − θ θ θ θ = ÃK ! ´ 2 X ³ b ak Yk − Yk = E
k=1

b ¯ b ∂f (Y1 , · · · , YK ) ¯ ak = ¯Y1 ,··· ,YK =Y1 ,··· ,YK b ∂ Yk

=

K X k=1

a2 V k

K K ³ ´ XX bk + b b Y ak aj COV (Yk , Yj ) k=1 j6=k

168

CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS

θ A variância aproximada de b pode então ser obtida, bastando para isso calcular as derivadas da função f e substituir na expressão acima. θ Um estimador para a variância de b pode então ser facilmente obtido usando
K K K ³ ´ X ³ ´ XX b b v b = θ ak b a a b2 v Yk + bk bj cov(Yk , Yj ) k=1 k=1 j6=k

a onde os valores de bk são as estimativas das derivadas ak obtidas substib b tuindo os totais Y1 , · · · , YK pelas respectivas estimativas Y1 , · · · , YK . Notas:

1. Linearização de Taylor pode ser trabalhosa, pois para cada parâmetro ou estimador de interesse é necessário calcular derivadas e fórmulas específicas. 2. Muitas estatísticas de interesse não podem ser facilmente escritas como funções lineares de totais, como por exemplo a mediana e os quantis de uma distribuição. 3. Apesar disso, vários pacotes computacionais usam este método para estimar variâncias e desvios padrões para diversas estatísticas, tais como médias e totais para domínios, razões, coeficientes de regressão, e até mesmo quantis.

5.3.2

Método do Conglomerado Primário (Ultimate Cluster - Hansen et al, 1953)

O termo conglomerado primário (ultimate cluster) é usado para denotar o agregado de unidades incluídas na amostra de uma unidade primária. O valor agregado da característica y para o i-ésimo conglomerado primário é yi ;e o tamanho do i-ésimo conglomerado primário é ni . Esta definição de conglomerado primário é válida para qualquer número de estágios de amostragem. Supondo que um município é amostrado como unidade primária e um conjunto de 5 setores contendo 200 domicílios cada é selecionado do município como unidades secundárias e 20 domicílios são selecionados de cada setor selecionado. O conglomerado primário consiste do total da amostra de 100 domicílios selecionados do município. A idéia central deste método para estimar variâncias de médias e totais, em planos amostrais de múltiplos estágios, é considerar apenas a variação entre informações disponíveis a nível das unidades primárias de amostragem (UPAs),

tanto das unidades primárias como das demais unidades de amostragem. L.. Trata-se de idéia simples. h = 1. o estimador de Conglomerados Primários aqui apresentado pode fornecer uma aproximação razoável da variância de aleatorização desejada.. L P P Mh Yhi é dado Um estimador não viciado do total populacional Y = h=1 i=1 por L mh b X X Yhi b YCP = πhi h=1 i=1 e um estimador não viciado da variância correspondente é dado por L ³ ´ X b v YCP = h=1 h mh X mh − 1 i=1 m à mh b P Yhi b onde Yh = para h = 1. h = 1. e supor que estes tivessem sido selecionados por amostragem com reposição da população de UPAs. e que pelo menos dois destes sejam selecionados em cada estrato (caso esta condição não seja satisfeita para alguns estratos. i=1 π hi Embora muitas vezes a seleção das unidades primárias seja feita sem reposição.. O requisito fundamental para aplicação deste método é que estejam disponíveis estimadores não viciados dos totais da(s) variável(is) de interesse para cada um dos conglomerados primários selecionados. estes podem ser agrupados). Denote por π hi a probabilidade de inclusão na amostra da i-ésima UPA b (conglomerado primário) do estrato h. . . conglomerados e com probabilidades desiguais (com ou sem reposição). MÉTODOS PARA ESTIMAR VARIÂNCIAS 169 isto é. Considere um plano amostral em vários estágios. e por Yhi um estimador não viciado do total Yhi da característica de interesse y na i-ésima UPA do estrato h.3.... L. . b b Yhi Yh − π hi mh !2 . a nível dos conglomerados primários. tais como SUDAAN. a base metodológica de vários pacotes especializados para estimação de variâncias.. STATA. Este método fornece. porém bastante poderosa. pode ser também aplicado em combinação com Linearização de Taylor para obter estimativas de variâncias para estatísticas não lineares que possam ser escritas como funções de totais. Embora este método tenha sido proposto para estimar variâncias de médias e totais em planos amostrais de múltiplos estágios (portanto complexos).. com mh ≥ 2 unidades primárias selecionadas do estrato h. pois permite acomodar grande variedade de planos amostrais estratificados..5. entre outros. L. juntamente com a Linearização de Taylor. CENVAR e PC-CARP.

não somente para aqueles que podem ser escritos como funções de totais. onde G é o número de replicações. ´2 G X ³b θg − bR θ G − 1 g=1 . O segredo é construir sua amostra de tamanho n mediante a seleção de n G amostras independentes de tamanho cada uma. É válida para qualquer estimador. se θ é o parâmetro alvo.3. Aplicação: US Consumer Price Index (CPI) .3 Métodos de Replicação A idéia de métodos de replicação para estimar variâncias em Amostragem não é nova. θ Então. ESTIMAÇÃO DE VARIÂNCIAS Isso ocorre porque planos amostrais sem reposição geralmente são mais eficientes que planos de mesmo tamanho com reposição. em comparação com os estimadores de variância que procuram incorporar todos os estágios do plano amostral. e bg é um estimador não viciado baseado na réplica g. O resultado acima vale para qualquer plano amostral adotado para selecionar cada réplica.170 CAPÍTULO 5. A abordagem de replicação é bastante geral. Aplicações práticas ”exatas” dessa técnica são raras. e foi primeiramente proposta por Mahalanobis em 1939. b) Se G for pequeno. o estimador de variância pode ser instável. usando o mesmo plano G amostral.usa 3 réplicas de um plano amostral com estratificação detalhada e múltiplos estágios de conglomeração. 5. Esta aproximação é bastante usada na prática por sua simplicidade. é imediato notar que: X bg bR = 1 θ θ G g=1 G G é um estimador não viciado de θ e ³ ´ v bR = θ θ é um estimador não viciado da variância do estimador de replicação bR . devido as seguintes causas: a) algumas vezes é caro e inconveniente selecionar de fato G amostras independentes segundo o mesmo plano amostral. entretanto.

Note que a divisão da amostra em grupos deve considerar o plano amostral. 1956). Freqüentemente as UPAs são alocadas nos grupos aleatórios carregando todas as unidades amostrais a elas subordinadas. com a amostra completa (no caso.5. MÉTODOS PARA ESTIMAR VARIÂNCIAS 171 Método dos Grupos Aleatórios Algumas vezes. são calculados os ”pseudoG θ valores” b(g) dados por θ onde. Um outro estimador de variância empregado com o método de grupos aleatórios é o que considera diferenças em relação a um estimador de amostra θ. usando a mesma forma funcional que se teria aplicado θ). Estima-se a variância usando um dos estimadores: b(g) = Gb − (G − 1) bg θ θ θ . Em seguida.3. então o estimador de variância proposto serve como uma aproximação para a variância do estimador.esta opção requer amostras grandes o bastante em cada estrato para permitir a subdivisão em G grupos. Sob planois amostrais estratificados. há duas alternativas: a) aplicar o método de grupos aleatórios para estimar as variâncias dentro dos estratos. completa b a saber: ³ ´ v b = θ ´2 G X ³b θg − b θ G − 1 g=1 G Método Jackknife Este método foi inventado como uma técnica para redução de vício na estatística clássica (Quenouille. A idéia consiste em dividir a amostra em G grupos mutuamnete exn clusivos. bg é uma estimativa de θ obtida da amostra após a exclusão das unidades do grupo g. ou b) aplicar o método de grupos aleatórios à amostra como um todo. cada um de tamanho . A situação é mais complicada nesse caso. a amostra é subdividida em grupos após a seleção. Consulte Wolter (1985). preservando a estratificação quando da divisão da amostra em grupos . Se as amostras nos diversos grupos puderem ser consideradas como ”aproximadamente independentes”. o estimador b Planos amostrais estratificados não estão cobertos imediatamente pela descrição acima. 1949.

podem se tornar trabalhosos de programar. BMDP. θ onde bJK = G g=1 Notas: ³ ´ vJ2 b = θ θ 1. Com planos amostrais de múltiplos estágios.172 CAPÍTULO 5. estimador alternativo ao estimador de amostra completa b ³ ´ ³ ´ θ θ 2. 3. eliminam-se UPAs inteiras da amostra de cada vez. MINITAB. O estimador de Jackknife bJK de θ poderia ser utilizado como um θ. Alternativa: usar pacotes prontos.) calculam variâncias supondo que as observações amostrais são IID (independentes . b) evidência empírica (limitada). Programas desenvolvidos ”sob medida” custam mais caro e aumentam risco de erros e prazos de obtenção de resultados. Freqüentemente se toma n = G e se elimina uma observação da amostra de cada vez. Isto é. os estimadores de variância coincidem com estimadores usuais. Problema: pacotes padrões (SAS. mesmo para estimadores lineares. SPSS. excluem-se ao mesmo tempo todas as unidades a ela subordinadas. Cálculos de variâncias. se uma UPA é excluída. 5. vJ2 b é um estimador mais conservador da variância do que vJ1 b . 4. etc. Justificativas para o estimador Jackknife de variância: a) quando a estatística for linear.4 Sistemas para estimação de variâncias A maior parte das pesquisas realizadas por agências de estatísticas oficiais usam alguma forma de plano amostral estratificado em múltiplos estágios. ESTIMAÇÃO DE VARIÂNCIAS ³ ´ vJ1 b = θ ´2 X³ 1 b(g) − bJK θ θ G (G − 1) g=1 G G ´2 X³ 1 b(g) − b θ θ G (G − 1) g=1 G 1 Pb θ(g) .

. . Solução: usar pacotes especializados para estimação de variâncias em amostras complexas. e portanto IGNORANDO a natureza complexa do plano amostral empregado para obter os dados.5. e não em como calcular.Prof.computação eficiente. Isto geralmente levaria a obter estimativas dos desvios padrões severamente viciadas. . Em alguns casos. Alguns pacotes atualmente disponíveis incluem: • SUDAAN (Research Triangle Institute) • WESVARPC (Westat Inc. Djalma Galvão Pessoa) Vantagens de usar pacotes especializados prontos incluem: . especialmente com planos amostrais muito conglomerados.algoritmos numéricos exaustivamente testados. .cálculo de estimativas para proporções. médias de domínios e suas diferenças.4. médias e totais e seus desvios padrões facilmente tratados. . reduzindo as chances de erros de cálculo. etc. correlações. coeficientes de regressão.usuário pode se concentrar no que calcular. .mais barato que desenvolvimento local. Desvantagens de usar pacotes especializados prontos incluem: .) • GES (Statistics Canada) • STATA (Stata Corporation) • CENVAR (US Bureau of Census) • Biblioteca ADAC (Análise de Dados Amostrais Complexos) do Sistema R (Coordenação de Métodos e Qualidade / Diretoria de Pesquisas / IBGE . a subestimação das variâncias pode ser bastante grande.desvios padrões disponíveis para estatísticas tais como razões de médias. SISTEMAS PARA ESTIMAÇÃO DE VARIÂNCIAS 173 e identicamente distribuídas)..testes de hipóteses e p-valores também disponíveis.

Uso de pacotes especializados para estimação de variâncias é altamente recomendável. ESTIMAÇÃO DE VARIÂNCIAS .Você provavelmente não consegue fazer melhor sem pacotes. Conclusões . apenas calculam. mais treinamento do pessoal usuário.Poupe seu tempo e esforço para melhorias verdadeiras do processo de pesquisa. . . . .necessário investir na aquisição e manutenção da licença do pacote.174 CAPÍTULO 5.pacotes não avaliam estimativas.Vantagens devem mais que compensar desvantagens. .resultados produzidos precisam ser editorados antes de servir para publicação.integração com outros pacotes pode ser difícil.pacotes não podem fazer tudo. .abrangência limitada . . . dadas restrições de tempo e recursos.

Nestes casos a teoria estudada até aqui supõe que é conhecida a informação prévia para a formação dos estimadores mencionados. 175 . e como se pode obter estimadores mais precisos. A dupla amostragem (ou amostragem em duas fases) pode ser generalizada para qualquer número de fases. que nos permite melhorar a precisão das estimativas. sob certas condições. diferentemente da amostragem em múltiplos estágios onde há uma hierarquia das unidades de amostragem que variam de estágio para estágio. em que com um baixo custo pode-se observar uma ou várias características gerais das unidades que nos proporcione a(s) informação(ões) que necessitamos. o mesmo ocorre. Esta técnica é conhecida como dupla amostragem ou amostragem em 2 fases. Na prática pode não ser viável. relativamente grande. em muitos casos é conveniente o uso de informações adicionais sobre uma variável auxiliar.1 Descrição da técnica Como visto.Capítulo 6 Dupla amostragem 6. como a estratificação produz amostras mais representativas. Em uma 2a fase selecionamos uma subamostra da 1a . então coloca-se a possibilidade de selecionar uma 1a amostra. Na amostragem multifásica se utiliza as mesmas unidades de amostragem em todas as fases. em que observamos a(s) característica(s) objeto de estimação. Vimos por exemplo. com os estimadores de razão e com o uso de probabilidades desiguais de seleção. dando lugar à amostragem multifásica.

Em amostragem com reposição a variância dos estimadores toma a forma: V = k1 k2 + 0 n n que é válida para amostragem sem reposição quando as frações são pequenas. menor que n0 .2 Considerações sobre o custo É evidente que a conveniência desta técnica de amostragem depende dos custos. deve-se calcular a variância correspondente com a aplicação da dupla 2 amostragem e compará-la com a de uma amostra de uma só fase ( σ0 . e se fizermos dupla amostragem: C = c0 n0 + c n igualando os custos totais. se C 0 nhos n = 400 e n = 6. tomaríamos uma amostra do tamanho necessário para a precisão desejada e com ela faríamos as estimações. e que o custo por unidade da 2a amostra de tamanho n << n0 é c (c0 << C). ou é muito baixo.000. 1. Esta variância pode ser minimizada para um custo total dado e nos fornece. mas não é o único parâmetro a ser considerado. no caso n da estimação da média com amostragem aleatória simples). se a observação da característica que nos interessa não tem custo. c0 É óbvio que quanto menor for a relação mais favorável é o uso da dupla C amostragem. os tamanhos ótimos de n0 e n. Para isso.176 CAPÍTULO 6. DUPLA AMOSTRAGEM 6. o tamanho n0 = 1. Suponha que dispomos de um pressuposto custo total C. c0 = 0.000 é equivalente aos tamaPor exemplo. com o aumento de informação adquirida na 1a fase. que o custo por unidade da 1a amostra de tamanho n0 é c0 . A questão que se coloca é decidir se compensa a diminuição do tamanho efetivo da amostra. que corresponde a uma amostra aleatória simples em uma fase com o mesmo custo total. A diminuição de n0 − n = 600 unidades no tamanho da amostra efetiva produzirá uma perda em precisão. Nestas condições temos: se selecionarmos uma só amostra: C = c n0 . tem-se: n0 = n + c0 0 n c Logo. com a técnica de dupla amostragem a observação efetiva se faz com uma amostra de tamanho n. através dos multiplicadores de Lagrange. .

nas quais n01 . Sejam n01 .6. · · · . n02 . · · · . DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 177 6. wL são fixos. w2 . assim como para estimar a proporção de unidades da população pertencentes a cada estrato. supondo que a população seja estratificada em L estratos.est = y d. n0L onde n0h é o número de unidades na amostra (da 1a fase) em cada estrato h e a respectiva proporção: wh = n0h n0 A segunda fase consiste em tomar uma subamostra aleatória de tamanho nh ≤ n0h em cada estrato h. através de um esquema aleatório.3. independentemente.3 Dupla amostragem para estratificação Seleciona-se a 1a amostra de tamanho n0 .est = E = E ( Ã L X h=1 L X h=1 wh y h Ew wh y h ! = Ã L X h=1 !) L X h=1 =E Ã L X h=1 wh Ew (y h ) L X h=1 ! wh Y h E (wh ) Y h = Wh Y h = Y onde: Ew (T ) expressa a esperança matemática de uma estatística T condicionada ao conjunto de amostras da 1a fase.est é não viciado. Utiliza-se essa amostra para estratificar as unidades. pois: ¢ ¡ E y d. tomando: yh nh de forma que resulta no estimador para a média: yh = y d. · · · . . atendendo a uma ou várias características que observamos. O estimador usual da média em amostragem estratificada é: y est = L X h=1 Wh y h em dupla amostragem os Wh são estimados pelos wh obtidos da 1a amostra e com a 2a amostra estimamos as médias. n0L são fixos e para um dado n0 . n02 . w1 .

wk ) as V (wh ) e COV (wh . são dadas por: V (wh ) = e COV (wh ) = − Logo: ( L ) L X ¡ ¢2 Wh (1 − Wh ) X Wh Wj Yh Y hY k − n0 n0 h=1 h6=k ( L ) L L L X ¡ ¢2 X X g0 X ¡ ¢2 Y h Wh − Y h (Wh )2 − Y h Wh Y k Wk = 0 n h=1 h=1 h6=k k=1  !2  Ã L L  X g0 X ¡ ¢2 Y h Wh − Wh Y h = 0  n  h=1 h=1 ( L ) ¢2 ¡ g0 X Wh Y h − Y = 0 n h=1 N − n0 Wh Wj N − 1 n0 N − n0 Wh (1 − Wh ) N −1 n0 ¢¢ ¡ ¡ V Ew y d. N −1 Por outro lado. DUPLA AMOSTRAGEM ¡ ¢ ¡ ¡ ¢¢ ¡ ¡ ¢¢ V y d. wk ) em amostragem sem reposição. usando a distribuição hipergeométrica para L classes.est = V Ew y d.178 CAPÍTULO 6.est ¡ ¡ ¢¢ V Ew y d.est + E Vw y d. tem-se: .est = g0 sendo: g 0 = N − n0 .est = V = Ã L X h=1 wh Y h ! L X h=1 ¡ ¢2 Y h V (wh ) + Ã L ! X ¡ ¢2 Y h wh =V h=1 L X h6=k Y h Y k COV (wh .

est = E = E = Ã Vw S2 = (1 − fh ) h nh h=1 Portanto: ¡ ¢ g0 V y d. Se a amostra é com reposição na 1a fase temos: L ¡ ¢ X S2 V y d. Observe que n0 aparece no denominador na expressão da variância. Se a amostra é com reposição nas 2 fases: L ¢ X σ2 ¡ h V y d. .est = nh h=1 µ ¶ L ¢2 ¡ Wh (1 − Wh ) 1 X 2 Wh + Wh Y h − Y + 0 n0 n h=1 fórmula aproximada para nh pequeno em relação a Nh .3. ∀h e n0 pequeno em relação a N no caso sem reposição. razão pela qual convém estudar os tamanhos ótimos em função do custo.est = (1 − fh ) h nh h=1 µ ¶ L ¢2 ¡ Wh (1 − Wh ) 1 X 2 Wh + Wh Y h − Y + 0 n0 n h=1 fórmula aproximada para n0 pequeno em relação a N em caso sem reposição. quanto maior n0 (n0 < N) a perda de precisão pelo uso da dupla amostragem diminui. Obviamente o custo aumenta. Portanto.est = 0 n ( L X L X h=1 L X Ã L X h=1 Ã L X h=1 wh y h !! =E 2 Sh (wh )2 (1 − fh ) 2 Sh nh ! Ã L X = (wh )2 Vw (y h ) (1 − fh ) nh ¡ ¢ 2 V (wh ) + Wh µ h=1 L X h=1 ! 2 Sh nh E (wh )2 (1 − fh ) g0 Wh (1 − Wh ) 2 + Wh 0 n ¶ ) L µ ¶ 2 X ¢2 ¡ Sh g 0 Wh (1 − Wh ) 2 Wh Y h − Y + (1 − fh ) + Wh nh n0 h=1 h=1 onde: fh é a fração de amostragem da 2a fase. DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 179 ¡ ¡ ¢¢ E Vw y d. supondo que a seleção foi com probabilidades iguais e sem reposição nas fases.6.

então g 0 = 0 e a fórmula geral da variância do estimador de dupla amostragem fica: L 2 ¡ ¢ X 2S V y d.est = n0 n0 − 1 ) ( L L X s2 ³ ¢2 wh ´ 1 X ¡ h 2 wh + 0 + 0 wh y h − y d.est) = wh pAh . o estimador não viciado Yd.est é dado por: ¢ ¡ v y d.est e a ³ ¡ ¢ b variância V Yd.3. se observa todas as unidades da população para efetuar a estratificação. Observe que se na amostra da 1a fase n0 = N.est = (1 − fh ) Wh h nh h=1 que coincide com a variância de uma amostra estratificada usual em uma única fase.est nh n n h=1 h=1 ¡ ¢ Estimador não viciado para V y d.180 CAPÍTULO 6.3.2 Estimação de uma proporção na dupla amostragem para estratificação Se se deseja estimar uma proporção PA de um atributo A na população.1 Um estimador não viciado para a variância do estimador da média em dupla ¢ ¡ amostragem para estratificação com reposição V y d.est = wh + 0 + 0 wh y h − y d. 6.est .est n0 ∼ = 1 se n0 não for pequeno. o estimador não viciado na dupla amostragem é: L X h=1 pA(d. DUPLA AMOSTRAGEM b Para o total Y´ = NY . isto é. então: n0 − 1 L L ¡ ¢ X s2 ³ 2 wh ´ 1 X ¡ ¢2 h v y d.est nh n n h=1 h=1 6. sendo PAh a correspondente proporção no estrato h.est = N y d.est = N 2 V y d.

est) 6.est) = (1 − fh ) nh n0 h=1 ( L ) g0 X Wh (PAh − PA )2 + 0 n h=1 181 sendo: Nh PAh QAh ∼ PAh QAh = Nh − 1 Em amostragem com reposição nas 2 fases.est) ´ ³ ¡ ¢ b V Ad.4. o estimador é: b Ad. = = ¶ L X PAh QAh µ ¡ ¢ Wh (1 − Wh ) 2 V pA(d. Com este procedimento de dupla amostragem cabe considerar duas possibilidades: . escolhida convenientemente de modo que sua relação com y seja linear pelo menos aproximadamente. DUPLA AMOSTRAGEM PARA ESTIMADORES DE RAZÃO sendo: pAh a proporção amostral do atributo A na 2a fase. definida em todas as unidades da população.est = NpA(d. Em dupla amostragem utiliza-se a 1a amostra de tamanho n0 para obter uma boa estimativa de X (ou de X) e a 2a amostra de tamanho n para estimar y e x. ou sem reposição e tamanhos amostrais pequenos com relação à população (fh ∼ 0 e g0 ∼ 1). Desta forma o estimador de razão para a média em dupla amostragem é: y y d.6.R = x0 x sendo x0 a média estimada usando as informações da amsotra da 1a fase.est = N 2 V pA(d.est) = Wh + nh n0 h=1 ( L ) 1 X Wh (PAh − PA )2 + 0 n h=1 2 Sh = e Para o total do atributo A = N PA .4 Dupla amostragem para estimadores de razão O estimador usual de razão para a média Y utiliza como informação previamente conhecida da média X (ou total) de uma característica x. µ ¶ L X ¡ ¢ PAh QAh g0 Wh (1 − Wh ) 2 Wh + V pA(d.

y) e (x. as covariâncias se anulam entre (x. x0 ). 2. x Podemos escrever para o cálculo aproximado da variância do estimador: ¡ ¡ ¢ª2 ¢ © V y d.R − Y X ∼ b= utilizando as aproximações: R ∼ R e = 1. x0 ) No caso em que as amostras das 2 fases são independentes. Em ambos casos con0 siderar n ≤ n . DUPLA AMOSTRAGEM 1. resultando: ¡ ¢ V y d. a 2a amostra é uma amostra aleatória da população selecionada independentemente da 1a . a 2a amostra é uma subamostra aleatória da 1a .R = E (y − R x) + R x0 − X © ¡ ¢ª = V (y − R x) + R x0 − X ¡ ¡ ¢¢ © ¡ ¢ª = V (y − R x) + V R x0 − X + 2R COV (y − R x) x0 − X = V (y) + R2 V (x) − 2R COV (x. ³ ´ ¡ ¢ b y b Em qualquer caso: E y d. x0 ) − 2R2 COV (x. y) + R2 V ( x0 ) ¡ ¢ 1© 2 ª 1 V y d.R = V (y) + R2 V (x) − 2R COV (x. Para calcular o erro médio quadrático que coincida com a variância quando ³ ´ Y b E R =R= X y 0 b b x − Y = R x0 − Y = R x0 − RX x b = R x0 − RX + RX − RX ´ ³ ¡ ¢ b b = X R − R + R x0 − X ´ ¡ ¢ X³ b x + R x0 − X b y−R = x = temos: y d.R = σ y + R2 σ 2 − 2R σ xy + 0 R2 σ 2 x x n n .R = X E R e será não viciado se R = for x não viciado. y) + R2 V ( x0 ) + +2R COV (y.182 CAPÍTULO 6.

x0 ) = COV (y. DUPLA AMOSTRAGEM PARA PROBABILIDADES DESIGUAIS183 fórmula válida para amostragem com reposição (no caso de sem reposição. usar fator de correção de populações finitas). 6.então V y d. Para o caso¡ em que a 2a amostra de tamanho n é uma subamostra 0¢ aleatória da 1a n ≤ n temos que calcular as covariâncias. x0 ) = E (y.R reduz à variância do estimador de razão em uma única fase. ¡ ¢ Se n0 = N =⇒ COV (x. é dado por: 1 X yi b Y = n i=1 Pi n . x0 ) σ xy = n0 analogamente: COV (x. x0 ) − E (y ) E ( x0 ) = E (Ew0 (y. x0 ) − E (y 0 ) E (x 0 ) = COV (y 0 .5. Fixando a amostra da 1a fase: Ew0 (y) = y 0 e Ew0 (x) = x0 por y e x serem médias de subamostras aleatórias =⇒ COV (y. x0 ) = 0.6. x0 )) − E (Ew0 (y )) E (Ew0 ( x0 )) = E (y 0 . seja Mi .5 Dupla amostragem para probabilidades desiguais O estimador usual do total Y . x0 ) = Logo: ¡ ¢ ª 1© 2 V y d.R = σ y + R2 σ 2 − 2R σ xy + x n 1 1 − 0 2R2 σ 2 + 0 2R σ xy x n n ª 1© 2 σ y + R2 σ 2 − 2R σ xy + = x n 1 2 2 R σx + n0 ª 1 © 2R σ xy − R2 σ 2 x 0 n σ2 x n0 admitindo com reposição. com probabilidades de seleção das unidades proporcionais a uma medida de tamanho.

· · · . y 0 é o total da amostra da 1a fase. Supondo que a 1a amostra seja selecionada com probabilidades iguais e sem reposição e a 2a amostra com probabilidades proporcionais ao tamanho e com reposição. Mn0 . com: Pi = M Se não se conhece a priori os tamanhos das unidades da população. para formar o estimador de dupla amostragem baseado em: i=1 Mi Mi = Pi como esstimador de N 0 M M n0 e o estimador não viciado de total fica da forma: b Ydp = Ã n n X N M 0 yi NM 0 X yi = n0 n Mi nn0 i=1 Mi i=1 onde: Ew0 indica a esperança da 1a amostra fixa com probabilidade proporcional ao tamanho. tomando n0 . para obter informação acerca dos tamanhos M1 . tomada com probabilidades iguais. Nestas condições se toma uma subamostra de tamanho sendo M 0 = n < n0 . a variância do estimador de total é dada por: ³ ´ b V Ydp = N n0 − 1 X Pi N − 1 nn0 i=1 N ³ ´ b E Ydp = E N Ew0 n0 Ã n !! µ ¶ X M 0 yi N 0 y =Y =E n Mi n0 i=1 µ Yi −Y Pi ¶2 + N (N − n0 ) 2 Sy n0 se n0 é grande então n0 − 1 ∼ = 1 então: n0 ¶2 N ³ ´ 1 X µY N (N − n0 ) 2 i bp = V Yd Pi Sy + −Y n i=1 Pi n0 . podemos tomar uma amostra aleatória da população de tamanho n0 com probabilidades iguais.184 CAPÍTULO 6. DUPLA AMOSTRAGEM Mi . M2 . n0 P Mi .

11. M. 428-440. [6] Fieller.E. and Madow. William G. A. (1995). Divisão de Metodologia. C. M. (1932). 33: 350-74.J. C. (1977). C. Sampling Techniques. Metodologia de expansão da amostra do censo demográfico de 1991: uma descrição resumida. e Särndal. New York: John Wiley & Sons. L. [3] Cochran. (1992). Sampling with unequal probabilities without replacement. S. J. C. Journal of Official Statistics. Sample Survey Methods and Theory ( vol. Hurvitz. The distribution of the index in a normal bivariate population. Hayward.theory and software implementation. EUA..C.R. (1994). Journal of Official Statistics. 48: 317-35. 376-382. New York: John Wiley & Sons. [7] Hanif. William N. and Brewer. Methodological principles for a generalized estimation system at Statistics Canada. [9] Hartley. 87. 10. [4] Deville. Biometrika. e Nordberg. third edition. Sampling with unequal probabilities without replacement. (1994). [2] Andersson. H. International Statistical Review.Bibliografia [1] Albieri. K. e Särndal. 185 .A. (1953). Rio de Janeiro: IBGE.E. I and II). Hidiroglou.O.G. e Dias. W. 181-204.W. V. et alli. Morris H. 395-406. [5] Estevao.Voorburg: Holand. [8] Hansen. E. (1980). (1962). Annals of Mathematical Statistics.R. 24. Calibration estimators in survey sampling. Journal of the American Statistical Association. A method for variance estimation of non-linear functions of totals in surveys .

G. IBGE/ENCE.L.N. e Wretman.. P. Aproximate Tests of Correlation in Time Series. [19] Pessoa. (1981). (1998). Jour. Rio de Janeiro: IBGE. Biometrika 43. B.C. W. D. J. 440-444. L.M. Stat.H.G. P.Tese de Mestrado)..A. [12] Kish. (1942). 511-531. (1992). 13.V. B. (Informes de Matemática Série D-015/85 . Swensson. (1939). [11] IBGE (1983). SUDDAN user’s manual .. Amostragem de Conglomerados.G. M.J.H. (1965) Survey Sampling. New York: John Wiley & Sons. Model assisted survey sampling.release 6. Análise de dados em planos amostrais complexos. and Thompson. New York: Springer-Verlag. [15] Nascimento. Sampling Theory.N. 68-84. e LaVange.E. Barnwell.C. Metodologia do censo demográfico de 1980. E.(1985). 353-360. Sankhya 4. e Silva.M. New Delhi: Tata McGrawHill. Des.0.N. 47. L. Seleção de amostra com probabilidades desiguais o método dos grupos aleatórios.L. Stat. Ann.. [23] Silva. (1992). Journal of the Royal Statistical Society. B 11. Rio de Janeiro: Série Relatórios Metodológicos.professional software for survey data analysis for multi-stage sample designs .. [21] Särndal. [18] Paulson. [13] Lima. . (1952). Notes on Bias in Estimation. D. Bombay. v. [17] Quenouille.. Amer. 663-685. [16] Quenouille. [22] Shah. (1996). A Sample Survey of the Acreage Under Jute in Bengal. B.186 BIBLIOGRAFIA [10] Horvitz. Minicurso do SINAPE 1998. (1949). D. [20] Raj. C. North Carolina: Research Triangle Institute. (1968). Planejamento. Assoc. 4. J. A generalization of sampling without replacement from a finite universe. Math. Rio de Janeiro: IMPA. Hunt. estimação e análise de dados em pesquisas por amostragem: desvendando a realidade brasileira com o ”telescópio da estatística”. [14] Mahalanobis. P. P. (1956). M. A note on the estimation of some mean values for a bivariate distribution.

. [26] Silva.. (1989). Diretoria de Pesquisas.. K. 62. Moura.M.N. F. Journal of Official Statistics. Introduction to Variance Estimation. Série Textos para Discussão. [27] Silva. New York: John Wiley & Sons. (1985).N. (1996).. P. T. e Skinner. Bianchini. [30] Thompson.R. Silva.J. Holt. Rio de Janeiro: IBGE. Variable selection for regression estimation in finite populations.L. tese de doutorado. Artigo submetido para publicação no Journal of the American Statistical Association.N.S. (1992). P. [32] Wolter. S.M. Uma proposta de metodologia para a expansão da amostra do censo demográfico de 1991.BIBLIOGRAFIA 187 [24] Silva.0.L. J.J. Analysis of Complex Surveys. Sampling. [28] Silva.N. Rockville: Westat. [25] Silva. version 1. [31] Westat (1995). New York: Springer-Verlag.N.A. C.B. Southampton: Department of Social Statistics. (1993). Utilizing auxiliary information in sample survey estimation and analysis. (1996). Chichester: Wiley. P. n.K. 277-294. 11. C. [29] Skinner. L.N. S.M. (1995). and Smith. Estimating distribution functions with auxiliary information using poststratification. C. D. P. e Jooris. Z. Frame problems and survey design for the Brazilian annual retail and wholesale trade survey. University of Southampton.L. D. . P. Artigo submetido para publicação na revista Estadística. A user’s guide to WesVarPC. (1995).L.F. e Skinner. e Albieri.L.