You are on page 1of 16

INSTITUTO SUPERIOR DE CIÊNCIAS E EDUCAÇÃO À DISTÂNCIA

FACULDADE DE ENGENHARIA E AGRICULTURA


LICENCIATURA EM DESENVOLVIMENTO AGRÁRIO

AS MATÉRIAS DE AMOSTRAGENS E ESTIMAÇÃO

Esperança da Paz Inácio


Ano de frequência: 1º

PEMBA, MARÇO DE 2023 1


Índice

Introdução ................................................................................................................................................ 2

Teoria da amostragem – distribuição amostral dos estimadores ............................................................. 3

Distribuição amostral das médias ............................................................................................................ 4

Teorema do limite central ........................................................................................................................ 5

Aplicações ............................................................................................................................................... 6

Dimensionamento de uma amostra .......................................................................................................... 7

Distribuição amostral da soma, ou diferença, entre duas médias ............................................................ 7

Distribuição amostral das proporções ...................................................................................................... 8

Aplicação ................................................................................................................................................. 8

Distribuição amostral da soma, ou diferença, entre duas proporções ...................................................... 9

Estimação................................................................................................................................................. 9

Estimação por ponto ................................................................................................................................ 9

Estimação por intervalo ......................................................................................................................... 10

Intervalos de confiança para a média de uma população normal com variância conhecida ................. 11

Amostras Grandes - População Normal ou não Normal ....................................................................... 12

Intervalo de confiança para a proporção ................................................................................................ 13

Conclusão .............................................................................................................................................. 14

Referências bibliográficas ..................................................................................................................... 15

1
Introdução

A amostragem e a estimação são dois conceitos fundamentais em estatística que estão intimamente
relacionados. A aceitação envolve a selecção de uma parte da população para ser tratada, enquanto
a interrupção é o processo de usar as informações transitórias na amostra para fazer inferências
sobre a população como um todo.

Existem diferentes técnicas de experimentação, sendo a mais comum a experimentação aleatória


simples, em que cada elemento da população tem a mesma chance de ser seleccionado para a
amostra técnicas incluem a inscrição estratificada, em que
a população é dividida em estratos e, em seguida, uma amostra é selecionada em cadaestrato de
acordo com uma técnica de inscrição diferente, e a adesão por conglomerados, em que a
população é dividida em grupos ou conglomerados, e uma amostra de conglomerados
é seleccionada aleatoriamente para ser disciplinada.

Após seleccionar uma amostra, os dados são colectados e, em seguida, as estimativas são feitas
usando esses dados. A restrição pode ser feita para um único parâmetro, como a média ou
proporção da população, ou para vários parâmetros simultaneamente.

Objectivo geral:

 Conhecer matéria de amostragem e estimação.

Objectivos específicos:

 Descrever amostragem e estimação;

 Analisar sobre as propriedades estimadores.

Metodologia
Quanto a metodologia usada para elaboração deste trabalho foi necessária a consulta de obras
bibliográficas e pesquisas feita na internet, que consistiu na recolha, critica e interpretação dos dados
cujas referências estão citadas dentro do trabalho e na referência bibliográfica.

2
Teoria da amostragem – distribuição amostral dos estimadores

A teoria da amostragem é um estudo das relações existentes entre uma população e as amostras dela
extraída. É útil em:
 Estimação de parâmetros populacionais;
 Determinação das causas de diferenças observadas entre amostras.
Constitui o que chamamos de estatística indutiva ou inferência estatística que consiste em
inferir conclusões importantes sobre uma população a partir da análise de resultados observados em
amostras aleatórias. Como toda conclusão deduzida a partir da amostragem é acompanhada de um
grau de incerteza ou risco, o problema fundamental da inferência estatística é medir este grau de
incerteza ou risco das generalizações.

Parâmetro: medida numérica que descreve uma população. Genericamente representado por θ.
Exemplos: média ( ), variância ( 2 ).
Estatística ou estimador: medida numérica que descreve uma amostra. Genericamente
representado por ˆ. Exemplos: média ( x ), variância ( S 2 ).
Estimativa: valor numérico de um estimador.
Erro amostral: erro que ocorre pelo uso da amostra. Denotado por e definido por:   ˆ  .

Uma distribuição amostral é a distribuição de probabilidade de um estimador (ou estatística) da


amostra formada quando amostras de tamanho n são colhidas várias vezes de uma população.
Por exemplo, se o estimador da amostra for a sua média, a distribuição será uma distribuição
amostral de médias das amostras.

n x1

n x2 Distribuição
amostral de
n x3 x

n x4


Repetir esse processo
População para todas as amostras
de tamanho n

Para cada distribuição amostral pode-se calcular a média, o desvio-padrão, etc.

3
Distribuição amostral das médias

Consideremos o seguinte problema.


Seja X o peso real de pacotes de café, enchidos automaticamente por uma máquina. Sabe-se
que a distribuição de X pode ser representada por uma normal, com parâmetros  e  2 .
Suponhamos que a máquina esteja regulada para encher os pacotes segundo uma distribuição
normal com média 500 gramas e desvio padrão de 10 gramas, isto é, X ~ N 500,100 . Sabemos
que, às vezes, a máquina desregula-se e quando isto acontece o único parâmetro que se altera é a
média, permanecendo a mesma variância. Para manter a produção sob controle iremos recolher uma
amostra de 100 pacotes e pesá-los. Como essa amostra nos ajudará a tomar uma decisão?
Usaremos a média x da amostra como informação pertinente para uma decisão. Mesmo que a
máquina esteja regulada, dificilmente x será igual a 500 gramas, dado que os pacotes apresentam
certa variabilidade de peso. Mas se x não se afastar muito de 500 gramas, não existirão razões para
suspeitarmos da qualidade do procedimento de produção. Só iremos pedir uma revisão se o erro
amostral ( x – 500) for “muito grande”.
O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas.
Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito
grande de vezes, sob a condição de a máquina estar regulada, teríamos idéia do comportamento da
variável x , e saberíamos dizer se aquele valor observado é ou não um evento raro de ocorrer. Caso
o seja, é mais fácil suspeitar da regulagem da máquina do que do acaso.
Portanto é importante conhecer as propriedades da distribuição da variável x .

As médias x das amostras de tamanho n retiradas de uma população com média e desvio
padrão  formam a distribuição amostral com os seguintes parâmetros:

  
O valor esperado ou média é igual à média populacional: E x   x   .

  2 à variância populacional dividida pelo tamanho da amostra:
A variância2 é igual
 
Var(x) x .
n
OBS: Se a população é finita e de tamanho N conhecido, e se a amostragem é feita sem

reposição, então Var(x)   


2
x 
2 N n
  .
n N 1
Temos, portanto, para desvio padrão das médias amostrais:

  x   , se a população é infinita, ou se a amostragem é feita com reposição;
n
N n

  x   , se a população é finita, ou se a amostragem é feita sem reposição.
n N 1

Observemos pelas fórmulas apresentadas que quanto maior o tamanho da amostra, menor será a
variância de x , ou seja, o estimador x será mais preciso à medida que o tamanho da amostra
aumentar.

4
Teorema do limite central

Se de uma população com parâmetros ( , 2 ) for retirada uma amostra de tamanho


suficientemente grande, a distribuição de x será aproximadamente normal, seja qual for a forma da
distribuição da população.
Ou seja,
 2    2  N  n 
x  N  , n  ou x  N  , n  N 1   
     

com distribuições padronizadas dadas por:


xi  

Zi   ou Zi  xi  

  N n
n n N 1



5

Aplicações

1. Voltando ao problema inicial, onde uma máquina enchia pacotes cujos pesos seguiam uma
distribuição normal N(500,100). Colhendo-se uma amostra de n = 100 pacotes e pesando-os, x
terá uma distribuição normal com média 500 e variância 100/100 = 1. Logo, se a máquina
estiver regulada, a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500 g de
menos de 2 gramas será
   
P x  500  2  P 498  x  502  P(2  z  2)  95%
Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498,502). Caso isto ocorra,
podemos considerar como um evento raro, e será razoável supor que a máquina esteja
desregulada.

2. Admite-se que as alturas de 3000 estudantes do sexo masculino de uma universidade são
normalmente distribuídas, com a média 172,72 cm e o desvio padrão 7,62 cm. Se forem obtidas
80 amostras de 25 estudantes cada uma, quais serão a média e o desvio padrão esperados da
distribuição amostral das médias resultantes se amostragem for feita: (a) com reposição; (b)
sem reposição?

Solução:

O número de amostras de 25 elementos que podem ser obtidas teoricamente de um grupo de


3000 estudantes, com e sem reposição, é: (3000)25 e C3000,25, respectivamente, muito maiores do que
80. Por isso não se obtém uma verdadeira distribuição amostral das médias, mas apenas uma
experimental. Apesar disso, visto que o número de amostras é grande, haverá uma concordância
muito estreita entre as duas distribuições amostrais.
 
(a)  x    172,72 cm e  x 


7,62
 1,524 cm.
n 25
 
(b)  x    172,72 cm e  x 
 N  n 7,62 3000  25
  1,518 cm, que é apenas
n N 1 25 3000 1
ligeiramente menor que 1,524 cm e pode, portanto, para todos os fins práticos, ser considerado igual
ao da amostragem com reposição.

Conclusão: pode-se considerar esta distribuição amostral experimental das médias


aproximadamente normal, com a média 172,72 cm e desvio padrão 1,524 cm.

3. Em quantas amostras do problema anterior pode-se esperar que a média se encontre:


(a) entre 169,67 cm e 173,48cm;
(b) abaixo de 170,00 cm?

Resp: (a) o número esperado de amostras é 80  0,6687  53 .


(b) o número esperado de amostras é 80  0,0375  3 .

6
Dimensionamento de uma amostra

Muitas vezes é importante sabermos qual deverá ser o tamanho de uma amostra de modo a
obter um erro de estimação  previamente estipulado com determinado grau de confiança dos
resultados obtidos.

Exemplo: Seja X : N 1200,840 . Qual deverá ser o tamanho de uma amostra de tal forma que
P 1196  x  1204  0, 90 ?
  x   1200

Solução: Se   1200 e   840  
2
840 28, 98
  x   
 n n
Para o intervalo dado temos que   x    4
x   4
Como z  e z  z 0,45  1, 64 , segue-se que 1, 64   n  141,13 .
  x 

28, 98
n
Concluímos que, se retirarmos uma amostra de 141 elementos da população X, teremos 90% de
confiança que x estará no intervalo (1196,1216) e P  x  1196  0, 05 ou P  x  1216  0, 05 ;
isto significa que o risco que corremos de que o valor da média caia fora do intervalo anterior é de
10%.

Distribuição amostral da soma, ou diferença, entre duas médias

Sejam duas populações independentes com distribuição amostral das médias dadas por
 1 2   2 2 
x1  N  1,  e x2  N   2 , .
 n 1   n 2 

Considerando amostras independentes das duas populações, temos:


  2  2 
 

x1  x 2  N  1  2 , 1  2 
 n1 n2 
  x  x       
  será z 
1 2 1 2
A distribuição normal padrão para x1  x 2 i


1 2
2 2

 n1 n2

Aplicação: Numa escola A, os alunos submetidos a um teste obtiveram média 70 com desvio
padrão 10. Em outra escola B, os alunos submetidos ao mesmo teste obtiveram média 65 com
desvio padrão 15. Se colhermos na escola A uma amostra de 36 alunos e na B, uma de 49 alunos,
qual é a probabilidade de que a diferença entre as médias seja superior a 6 unidades? Resp. 0,3557

7
Distribuição amostral das proporções

Consideremos uma população infinita onde a probabilidade de ocorrência de um evento


(denominado seu sucesso) é p, enquanto a de sua não ocorrência (fracasso) é q = 1 – p. Tomemos
todas as amostras possíveis de tamanho n extraídas desta população e, para cada amostra,
determinemos a proporção p̂ de sucessos.
Temos, portanto, o parâmetro p̂ que expressa a probabilidade, ou proporção, ou freqüência
relativa, de determinado evento da população.
x nº de casos favoráveis ao evento na amostra
p̂  
n nº total de casos da amostra

Obtemos assim uma distribuição amostral das proporções.


Para amostras suficientemente grandes, a distribuição amostral de p̂ é aproximadamente
normal com
 média:  p̂   p ,
pq
 desvio padrão:   p̂   ,
n
onde: p = verdadeira probabilidade populacional de “sucessos”
q=1–p
n = tamanho da pq
amostra.

Assim, p̂  e sua distribuição normal padronizada é expressa por Z  .
N  p,  i
p̂i  p
n
  pq
 n
Aplicação

Verificou-se que 2% das ferramentas produzidas por certa máquina são defeituosas. Qual é a
probabilidade de, em uma remessa de 400 dessas ferramentas, revelarem-se defeituosas:
(a) 3% ou mais;
(b) 1,5 % ou menos?

Solução:
 pq 0, 02  0, 98
Temos:  p̂   p  0, 02 e  p̂     0, 007 .
n 400
0, 03  0, 02
(a) Calculando a variável padronizada z para p̂ 1 = 0,03: z1   1, 43
0, 007
P( p̂  0, 03)  P  z  1, 43  0, 5  0, 4236  0, 0764 ou 7,64%

0, 015  0, 02
(b) Calculando a variável padronizada z para p̂ 1 = 0,015: z1   0, 71
0, 007
P( p̂  0, 015)  P  z  0, 71  0, 5  0, 2611  0, 2389 ou 23,89 %

8
Distribuição amostral da soma, ou diferença, entre duas proporções

Sabemos da distribuição amostral das proporções que para amostras suficientemente grandes,

p̂   p1q1   p2q2 
ˆ
1 N  p1,  e p2  N  p2 , .
 n1   n2 
Considerando amostras independentes das duas populações, temos:
 p̂  p̂
N  p   p ,
p1q1 p2 q2 

1 2  1  2
 


 n 1 n2 
 p̂1  p̂2    p1  p2  .
A distribuição normal padrão para  p̂1  p̂2  será zi 
p1q1 p2q2

n1 n2

Estimação

Um dos métodos para realizar inferências a respeito dos parâmetros é a estimação, que
determina estimativas dos parâmetros populacionais.
Existem dois tipos de estimação de um parâmetro populacional: estimação por ponto e a
estimação por intervalo.

Estimação por ponto

A partir das observações, usando o estimador, procura-se encontrar um valor numérico único
(estimativa) que esteja bastante próximo do verdadeiro valor do parâmetro.
Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo, mas
a distribuição por amostragem dos estimadores torna possível o estudo das qualidades do estimador.

ESTIMADORES PONTUAIS DOS PRINCIPAIS PARÂMETROS POPULACIONAIS


Parâmetro Estimador
Média () 1n
x   xi

n i1
Variância ( 2) S 
2 1  
n x  x 2

n 1 i1 i
Desvio padrão () S
1 n i
 
 x x 2
n 1 i1
Proporção (p) x
p̂  , onde
n
x = número de elementos da amostra que possuem a
característica
n = tamanho da amostra

9
Exemplo: Para avaliar a taxa de desemprego em determinado estado, escolhe-se uma amostra
aleatória de 1000 habitantes em idade de trabalho e contam-se os desempregados: 87. Estimar a
proporção de desempregados em todo o estado.
87
p̂   0, 087
1000

Estimação por intervalo

Procura determinar um intervalo que contenha o valor do parâmetro populacional, com certa
margem de segurança. Este procedimento permite julgar a magnitude do erro que podemos estar
cometendo.
Com base na amostra, uma maneira de expressar a precisão da estimação é calcular os limites
de um intervalo, o Intervalo de Confiança (IC), tais que (1  ) seja a probabilidade de que o
verdadeiro valor do parâmetro esteja contido nele.
Portanto,
 : grau de desconfiança, nível de incerteza ou nível de significância.
1  : coeficiente de confiança ou nível de confiabilidade;

Formalizando, se denotarmos o parâmetro de interesse por , desejamos obter um intervalo


com limite inferior I e limite superior S tal que

P(I <  < S) = 1  ,

onde  é um valor pequeno, ou seja 1  é próximo de 1.

Os limites deste intervalo são variáveis aleatórias, pois dependem da amostra selecionada. Um
intervalo deste tipo é denominado intervalo de 1 - α (100)% confiança para o parâmetro .
Valores de  mais comumente usados são
 = 0,10 1 –  = 0,90 ou 90%
 = 0,05 1 –  = 0,95 ou 95%
 = 0,01 1 –  = 0,99 ou 99%
A precisão com que se conhece  depende da amplitude deste intervalo dada por S – I. Quanto
menor esta amplitude melhor determinado estará o parâmetro.

A figura abaixo ilustra o conceito de intervalo de confiança.

INTERVALOS DE CONFIANÇA
AMOSTRA
1 ( )
2 ( )
3 ( )
4 ( )
5 ( )
6 ( )
7 ( )
...



10

O verdadeiro valor do parâmetro estará contido em 1  (100) % desses intervalos.


Observe que algumas estimativas intervalares incluem e outras não incluem o verdadeiro valor
do parâmetro da população. Ao retirarmos uma amostra e calcularmos um intervalo de confiança,
não sabemos na verdade se o parâmetro da população se encontra naquele intervalo calculado. O
importante é saber que se está utilizando um método com 1  (100) % de probabilidade de
sucesso.

Intervalos de confiança para a média de uma população normal com variância conhecida

Consideremos uma população normal com média desconhecida que desejamos estimar e com
variância conhecida, X  N ?, 2  .
Procedimento para a construção do IC:
1. Retiramos uma amostra casual simples de n elementos.
2. Calculamos a média da amostra x .

3. Calculamos o desvio padrão da média amostral: .
n
4. Fixamos o nível de significância , e com ele determinamos z , tal que
 
P  z  z    , ou seja, P  z  z    e P  z  z   .
2 2
Logo, devemos ter P  z  z   1 



2
1  2

 z  z 

 de 1  (100)%
Neste caso o Intervalo de Confiança   para  é dado por:
xz , xz 
   
 n n 
Usando uma notação mais simples, teremos IC   , 1   %    1 ,  2  .

Exemplos:

1. A duração de vida de uma peça de equipamento é tal que   5 horas. Foram amostradas
aleatoriamente 100 dessas peças, obtendo-se média de 500 horas. Desejamos construir um intervalo
de confiança para a verdadeira duração média da peça com um nível de 95% de confiança.

Solução: Temos   5, n  100, x  500, 1  100  95% .

11
O gráfico da distribuição normal padrão será:

D istribuição N orm al (0 ,1 )

0 ,95
z = 1,96 corresponde à área 0,475
0 ,025 

-1 ,96 0 1 ,96

Substituindo os dados na fórmula, temos o intervalo de confiança solicitado,


P 499, 02    500, 98  95% ,
significando que com 95% de confiança a duração média da peça está entre 499,02 e 500,98 horas.
Portanto, se fossem construídos intervalos dessa mesma maneira, para um grande número de
amostras, em 95% dos casos os intervalos incluiriam  .

Para os casos de populações finitas, multiplica-se o desvio padrão pelo fator de correção,
gerando o IC:
 

 x  z   N  n x  z
N 1 ,
 N  n 

 n n N 1 

2. Admitindo os mesmos dados do exemplo anterior, consideremos como população a produção
de 1000 peças. Nesse caso o intervalo para a média será (499,07;500,93), conforme os cálculos
abaixo.
  500 1, 96  5 . 1000 100 e   500 1, 96  5 . 1000 100
1000 1 1000 1
1 2
100 100

Logo, o intervalo (499,07;500,93) contém a duração média das 1.000 peças com 95% de
confiança.

Amostras Grandes - População Normal ou não Normal

Se n é suficientemente grande (em geral, n > 30), mesmo sem conhecermos a distribuição da
população, os limites do Intervalo de Confiança para a média ( ) poderão ser calculados com base
na distribuição Normal padrão. Da mesma forma podemos utilizar o desvio padrão amostral S no
lugar de  (desvio-padrão populacional), caso este não seja conhecido.

12
Intervalo de confiança para a proporção
x
p̂  tem distribuição aproximadamente
Lembremos quepqquando
 p populacional é conhecida, n
normal, p̂  . Para construirmos o IC para p desconhecida, determinamos p̂ na amostra
N  p, 
 n 

e consideramos  pˆ 
p̂q̂
.

n
p̂  p
Logo, ao nível  de significância, P  z  z   1  , onde z   .

Desenvolvendo os cálculos, como foi feito para a média, chegamos à formula do IC para a
proporção p populacional.

IC  p, 1   %    p , p  = p̂  z
p̂q̂
; p̂  z p̂q̂ 
1 2  
n  
 n 
Exemplo:
Para se estimar a porcentagem de alunos de um curso favoráveis à modificação do currículo
escolar, tomou-se uma amostra de 100 alunos, dos quais 80 foram favoráveis.
a. Faça um IC para a proporção de todos os alunos do curso favoráveis à modificação ao
nível de 4% de significância.
b. Qual o valor do erro de estimação ocorrido no intervalo acima?

Solução: Dados n = 100, x = 80,  = 4%, temos que


0,8  0, 2
p̂  0,80 , q̂  0, 20 e  pˆ   0, 04 .
100
a. z  z0,48  2, 05  IC p, 96%  0, 718; 0,882
Temos uma confiança de 96% que de 71,8% a 88,2% dos alunos do curso serão favoráveis à
modificação curricular.

b. z  p̂  p  z    z 
 

 p̂ p̂

  2, 05  0, 04  0, 082   8, 2%
O erro de estimação cometido em (a) é de 8,2% para 96% de confiança e uma amostra de
100 alunos.

13
Conclusão

A amostragem e a estimação são dois conceitos fundamentais em estatística que estão intimamente
relacionados. A aceitação envolve a selecção de uma parte da população para ser tratada, enquanto
a interrupção é o processo de usar as informações transitórias na amostra para fazer inferências
sobre a população como um todo.

Existem diferentes técnicas de experimentação, sendo a mais comum a experimentação aleatória


simples, em que cada elemento da população tem a mesma chance de ser seleccionado para a
amostra técnicas incluem a inscrição estratificada, em que
a população é dividida em estratos e, em seguida, uma amostra é selecionada em cadaestrato de
acordo com uma técnica de inscrição diferente, e a adesão por conglomerados, em que a
população é dividida em grupos ou conglomerados, e uma amostra de conglomerados
é seleccionada aleatoriamente para ser disciplinada.

Após seleccionar uma amostra, os dados são colectados e, em seguida, as estimativas são feitas
usando esses dados. A restrição pode ser feita para um único parâmetro, como a média ou
proporção da população, ou para vários parâmetros simultaneamente.

14
Referências bibliográficas

BUSSAB, Wilton de O. (2006). Estatística Básica. (5ª ed). São Paulo: Saraiva

MARTINS, Gilberto de A. (2005). Estatística Geral e Aplicada. (3ª ed). São Paulo: Atlas

MORETTIN, L. (2000). Estatística Básica – Volume 2 – Inferência. São Paulo: Pearson Makron
Books

SPEIGEL, Murray R. (1993). Estatística. (3ª ed). São Paulo: Pearson Makron Books, 1993.

15

You might also like