INFERÊNCIAS PARA DUAS POPULAÇÕES NORMAIS INDEPENDENTES

Prof. Moisés Balassiano

O objetivo principal do estudo das diferenças entre duas populações é estimar os parâmetros que expressem tais diferenças e testar hipóteses sobre as possíveis diferenças entre esses parâmetros, por meio dos dados obtidos das respectivas amostras, o que significa, basicamente, avaliar se: 1. as médias são iguais; 2. as variâncias são iguais; e 3. as distribuições são homogêneas, isto é, têm a mesma distribuição. Duas populações podem ter médias e variâncias iguais e mesmo assim diferirem na forma como a característica estudada se comporta. Como exemplo podemos estar interessados em comparar as proficiências em Estatística dos alunos das turmas de economia e de administração do curso de graduação, submetidos a um mesmo exame. Suponha que os resultados de ambas as turmas levaram a uma média de 6,0 pontos e uma variância de 12 pontos2. No entanto, numa turma nenhuma nota se repetiu para qualquer par de alunos, enquanto na outra observou-se uma distribuição de freqüência aproximadamente simétrica. Não poderíamos concluir, então, que essas populações sejam iguais. Suponha que duas populações independentes tenham, na característica estudada, 2 distribuições Y1 ~ N(µ1 ; σ1 ) e Y2 ~ N(µ2 ; σ 2 ). Uma amostra de tamanho n1 é extraída 2 da primeira população e outra de tamanho n2 da segunda. As amostras permitem o cálculo de n1 1 n1 1 2 2 Y1 = Y1i e S1 = ∑ ∑ ( Y1i − Y1 ) na primeira amostra, e ( n1 − 1) i =1 n1 i =1 Y2 = 1 n2

∑ Y2i e S22 =
i =1

n2

n2 1 2 ∑ ( Y2i − Y2 ) na segunda amostra. ( n 2 − 1) i =1

Defina a estatística Y = ( Y1 − Y2 ) a diferença das médias das amostras. Pode-se provar que Y é um estimador não tendencioso da diferença das médias das populações. Assim, E(Y) = E ( Y1 − Y2 ) = E ( Y1 ) - E ( Y2 ) = µ1 - µ2 σ2 σ2 VAR(Y) = VAR ( Y1 − Y2 ) = VAR ( Y1 ) + VAR ( Y2 ) = 1 + 2 n1 n 2 Como Y1 e Y2 são normais, Y1 e Y2 são também normais, o que faz com que Y tenha distribuição normal com os parâmetros acima. Assim como no caso do estudo de apenas uma população, no qual a variância da 2 característica podia, ou não, ser conhecida, as variâncias σ1 e σ 2 podem, também, ser 2 conhecidas ou não. Além disso, no caso de duas populações, essas variâncias podem ainda ser consideradas iguais ou diferentes. A razão de tais distinções é tão somente devida às questões relativas à distribuição de amostragem a ser utilizada. Quando conhecemos as variâncias populacionais a distribuição das diferenças entre as médias será normal, caso contrário será t de Student, quando as variâncias forem iguais, ou aproximadamente t, como será visto adiante, quando as variâncias forem diferentes.

Teste da Igualdade das Variâncias
Na prática, na maioria das vezes não conhecemos as variâncias populacionais. Nesse caso devemos estimá-las. Caso a hipótese de que as variâncias populacionais são iguais não venha a ser rejeitada, podemos estimar a variância populacional, comum às duas distribuições. Portanto, antes de fazer qualquer inferência sobre as diferenças entre as médias devemos testar a igualdade das variâncias das duas distribuições, ou seja: 2 Ho: σ1 = σ 2 , contra uma das alternativas 2 2 2 H1: σ1 ≠ σ 2 , ou 2 H1: σ1 < σ 2 , ou 2 2 H1: σ1 > σ 2 . 2 Sabemos que: 2 (n1 − 1) S1 U= tem distribuição χn-1, e 2 σ1 (n 2 − 1) S2 2 V= tem distribuição χn-2. 2 σ2 Logo U (n1 − 1) F= tem distribuição F de Snedecor, com n1 – 1 graus de liberdade no V (n 2 − 1) numerador e n2 – 1 graus de liberdade no denominador (F(n1-1; n2-1)).
2 2 Assumindo Ho como verdadeira, σ1 = σ 2 = σ , calculamos o valor de F, acima, por 2 2 S1 , e rejeitamos Ho quando Fc < Fα/2, ou Fc > F1-α/2, para o teste bilateral, S2 2 Fc < Fα , para o teste unilateral inferior e quando Fc > F1-α para o teste unilateral superior.

meio de Fc =

Caso não consigamos rejeitar Ho, concluímos que as variâncias populacionais são iguais e podemos estimar a variância conjunta (pooled) das duas distribuições por meo de: ˆ σ 2 = S2 = p (n1 − 1) S + (n 2 − 1) S = n1 + n 2 − 2
2 1 2 2

∑ (Y
i =1

n1

1i

− Y1 ) + ∑ (Y2i − Y2 ) 2
2

n2

n1 + n 2 − 2

i =1

.

Alternativamente, podemos simplesmente comparar o valor-p, verdadeira significância do teste, com o nível de significância, α, estabelecido para o teste. Rejeitamos Ho quando o valor-p (Sig) for inferior a α.

Intervalo de Confiança para a Diferença entre as Médias Populacionais
Para a construção de intervalos de confiança para a diferença entre as médias populacionais temos que: ICµ1 − µ 2 ( ( Y1 − Y2 ) − ε Y ; ( Y1 − Y2 ) + ε Y ) , onde 2 σ1 σ 2 εY = zα + 2 , quando conhecemos as variâncias populacionais, e 2 n1 n 2 ε Y = t α Sp
2

1 1 + , quando não conhecemos as variâncias iguais das populações. n1 n 2

A literatura indica que quando n1 + n2 > 30 podemos aproximar a distribuição t à Normal. No entanto, os pacotes estatísticos geralmente ignoram essa regra e operam de acordo com a distribuição t de Student, razão pela qual este teste é identificado, nesses pacotes, como t-test para populações independentes.

Teste da Igualdade Entre as Médias Populacionais
Muitas vezes queremos saber até que ponto podemos dizer que as médias populacionais são, ou não, iguais. Para isso testamos Ho: µ1 = µ2 (µ1 - µ2 = 0), contra uma das alternativas H1: µ1 ≠ µ2 (µ1 - µ2 ≠ 0), ou H1: µ1 < µ2 (µ1 - µ2 < 0), ou H1: µ1 > µ2 (µ1 - µ2 > 0). Como sempre, assumimos a hipótese nula como verdadeira e, com base na distribuição amostral da estatística a ser testada, procedemos ao teste para confirmar, ou não, a veracidade da hipótese assumida. Como já visto, a distribuição amostral da estatística irá depender do conhecimento, ou não, das variâncias populacionais, bem como o fato de tais variâncias serem, ou não, iguais. De qualquer modo, o ponto de partida é o conhecimento que a distribuição amostral da estatística diferença entre as médias das amostras é:  σ2 σ2  Y = ( Y1 − Y2 ) ~ N (µ1 − µ 2 ); 1 + 2  .  n1 n 2    1. Variâncias Conhecidas Nesse caso, assumindo Ho como verdadeira, isto é, µ1 - µ2 = 0, Y1 − Y2 Z= ~ N(0 ; 1) 2 . σ1 σ 2 + 2 n1 n 2

Rejeitamos Ho, ao nível de significância α, quando |zc| > |zα| ( ou zα/2), ou então quando o valor-p for menor do que α, concluindo que as médias das duas distribuições não são iguais. Caso contrário, não podemos rejeitar a hipótese nula, concluindo pela igualdade das médias populacionais, baseados nas duas amostras.

2. Variâncias Desconhecidas
2.1. Variâncias Iguais Quando não conhecemos as variâncias populacionais e o teste da igualdade das variâncias não rejeita Ho, calculamos a variância conjunta (pooled) das amostras, s 2 , e procedemos ao teste. Nesse caso, porém, a estatística p t= Y1 − Y2 1 1 Sp + n1 n 2 ~ t ( n1 + n 2 − 2) .

Rejeitamos Ho, ao nível de significância α, quando |tc| > tα ( ou tα/2), ou então quando valor-p for menor do que α, concluindo que as médias das duas distribuições não são iguais. Caso contrário, não podemos rejeitar a hipótese nula, concluindo pela igualdade das médias populacionais, baseados nas duas amostras. Para provarmos a distribuição de amostragem da diferença entre as médias, lembre que a estatística t de Student é definida como N (0 ; 1) t= 2 χ df . df Como Z= Y1 − Y2
2 σ1 σ 2 + 2 n1 n 2

~

N(0 ; 1)

e σ 2 2 então, assumindo a igualdade das variâncias populacionais, σ1 = σ 2 = σ , 2
2

T=

(n1 + n 2 − 2) S2 p

~ χ (2n 1 + n 2 − 2 ) ,

t=

Z T = (n1 + n 2 − 2)

Y1 − Y2 1 1 σ + n1 n 2 (n1 + n 2 − 2) S2 p σ 2 (n1 + n 2 − 2)

Y1 − Y2 Y1 − Y2 1 1 σ + 1 1 ~ tn1+n2-2. = n1 n 2 = S + p n1 n 2 Sp σ

2.2. Variâncias Diferentes

2 Se o teste da igualdade das variâncias populacionais rejeitar Ho, isto é, σ1 ≠ σ 2 , 2 a distribuição amostral da estatística diferença entre as médias, Y1 − Y2 2 S1 S2 , + 2 n1 n 2 não será mais t de Student. Welch (Biometrika, 1937), no entanto, mostra que, ainda assim, esta estatística é aproximada pela distribuição t de Student, mas com df graus de liberdade, expresso como (A + B) 2 B2 , df = A 2 + n1 − 1 n 2 − 1

R=

2 S1 S2 e B = 2 . O número de graus de liberdade deve ser arredondado n1 n2 para a realização do teste e a rejeição de Ho segue os critérios já estabelecidos para os testes anteriores.

onde: A =

Finalmente, quando as populações não são normais e a característica estudada possui nível de mensuração pelo menos ordinal, podemos comparar as duas populações através do teste não paramétrico de Wilcoxon (ver Bussab, p: 366).

O material acima deve ser entendido como Notas de Aula e NÃO foi elaborado para substituir a bibliografia do curso. O aluno é encorajado a buscar na bibliografia os exemplos, indispensáveis para o melhor entendimento do exposto, tentar fazer os exercícios elaborados e, finalmente, se aventurar aos exercícios propostos.