Estudos de Contrastes em ANOVA Moisés Balassiano A rejeição de Ho num estudo de Análise de Variância de efeitos fixos leva o investigador a uma

conclusão importante: a de que existe pelo menos um tratamento que na amostra considerada mostrou um efeito diferenciado dos demais. O próximo passo consiste na identificação do(s) tratamento(s) responsável(is) pela rejeição. O procedimento adotado para esse tipo de investigação é o das comparações múltiplas que visa identificar tratamentos, ou grupos deles, cujas médias difiram significativamente, ou cuja dimensão dos seus contrastes seja elevada. Como exemplo, suponha que quatro tipos de treinamento sejam testados: presencial diário; presencial nos finais de semana; programado à distância; e pela Internet. Suponha, ainda, que os resultados tenham levado à rejeição de Ho. Podemos testar, a partir desse experimento, uma infinidade de possíveis contrastes para tentar identificar o possível motivo dessa rejeição, tais como a diferença simples entre as médias dos métodos 1 e 4, presencial diário e pela Internet, ou, ainda, grupos de tratamentos, de modo a se avaliar se os métodos de treinamento presencias, 1 e 2, diferem dos métodos de ensino à distância, 3 e 4. Note que para os dois casos acima podemos definir combinações lineares entre as médias dos tratamentos para avaliar a significância entre as diferenças. No primeiro caso definimos Ho: µ1 - µ4 = 0, enquanto no segundo Ho: µ1 + µ2 - µ3 - µ4 = 0. Para o primeiro contraste do exemplo acima podemos definir um vetor, digamos c, cujos componentes seriam (1 0 0 -1)’, enquanto para o segundo teríamos c = (1 1 –1 –1)’. Definimos, então, contraste como uma combinação linear envolvendo as médias dos tratamentos, isto é, C = ∑ c i µ i ,sujeita à restrição Σci = 0.
i =1 I

A Soma dos Quadrados de um contraste, na amostra, é expressa através de  I  K  ∑ c i Yi     i =1  , que tem apenas 1 grau de liberdade. Quando o desenho experimental SQ c = I ∑ c i2
i =1 2

 I   ∑ n i c i Yi     . não é balanceado, a Soma dos Quadrados dos contrastes será SQ c =  i =1 I ∑ n i c i2
i =1

2

O teste do contraste é realizado, como sempre, através da razão entre a Média dos Quadrados dos Contrastes e a Média dos Quadrados dos Erros. Essa razão tem distribuição F1,n-I para os desenhos experimentais com apenas 1 Fator. Um aspecto importante na definição do teste estatístico é o fato do estudo dos contrastes ter sido planejado antes ou depois do experimento. Essa definição torna-se importante para a definição do nível de significância a ser adotado para o teste. Quando estudamos apenas um contraste, é óbvio que o teste será, como visto acima, tão somente um teste de diferença de médias simples e toda inferência a ser feita será baseada na estatística diferença entre médias de amostras independentes, que terá distribuição Normal ou t de Student, dependendo do tamanho da amostra. Isso significa dizer que as hipóteses a serem testadas serão baseadas num valor calculado para a diferença entre as médias das amostras, que será comparada com o valor crítico para se avaliar as divergências entre a amostra e o hipotético valor da diferença na população. Da mesma forma, construir um intervalo de confiança para a diferença entre as médias na população consiste em se calcular

1

um intervalo de valores plausíveis para as possíveis diferenças entre as médias na população, com base nas médias amostrais. No entanto, quando mais do que um contraste está sendo investigado simultaneamente, deixamos de trabalhar com um vetor dos coeficientes e passamos a trabalhar com uma matriz C dos contrastes estudados, onde cada linha corresponde ao respectivo vetor do contraste a ser analisado. Consequentemente, ao invés de um ponto sobre a reta dos números reais, os contrastes múltiplos serão agora um ponto no espaço tdimensional dos contrastes e a distribuição de probabilidade do estimador passa a ser T2 de Hotteling. O Intervalo de Confiança torna-se , então, a se configurar numa Região de Confiança, cuja dimensão será igual ao número de contrastes sendo investigados, isto é, t. A forma da região irá depender de como os contrastes são analisados. Há vários métodos para se analisar contrastes. O presente material irá restringir-se aos principais, ou seja, Scheffé, Tuckey e Duncan. Todos esses métodos são definidos para análises de contrastes feitos após a realização do experimento e uma pré investigação dos seus resultados. Método de Investigação de Contrastes de Scheffé O método proposto por Scheffé consiste em se avaliar todos os contrastes possíveis quando da realização de um experimento. Segundo esse método, o nível de significância controlado será igual a α para todos os contrastes, ou seja, esse método controla o nível de significância global do experimento como um todo. Suponha que I tratamentos tenham sido definidos para um certo experimento e que um conjunto de t contrastes tenha sido escolhido para análise. Esses contrastes, na população, são definidos através de Γ = C.µ. Então, o to. contraste é expresso como Γt = c1t µ1 + c2t µ2 + ... +cIt µI para t = 1, 2, ... , m. ˆ Esse conjunto, na amostra, é definido como Γ = C Y . O to. contraste na amostra é expresso por: ˆ Γt = Ct = c1t y 1 + c2t y 2 + ... +cIt y I para t = 1, 2, ... , m,
I  2  c SQ Γ = MQE ∑  it  . cujo desvio padrão é expresso por SQCt = ˆ   i =1  n i  O número de desvios que irá permitir construir um intervalo de valores cujas diferenças não serão significativas para um particular contraste é fornecido pela multiplicação do desvio padrão acima pelo fator ( I − 1). Fα ,( I −1),( n − I ) . Logo o intervalo de confiança para

esse contraste será (Ct ± SQCt. ( I − 1). Fα ,( I −1),( n − I ) ). Caso o intervalo contenha o zero, não há evidência de que ele seja significativamente diferente de zero, caso contrário, pode ser considerado como uma das possíveis razões para a rejeição de Ho. A Região Simultânea de Confiança de todos os contrastes pode ser obtida considerando-se todos os intervalos como acima definidos e terá uma probabilidade de pelo menos (1 - α) de que todos os intervalos sejam verdadeiros. Note que esse método incorpora os procedimentos para se analisar todos os possíveis contrastes. O próximos métodos consideram apenas os contrastes entre pares de médias e não grupos delas como Scheffé.

2

Teste de Amplitudes Múltiplas de Duncan Como sabemos, sob Ho todas as médias são iguais, o que vale dizer que os grupos são homogêneos. Sendo assim, cada um dos I grupos definirá uma estatística Yi cujo valor σ 2 MQE , já que = n n homogeneidade significa que os grupos provêm de uma mesma distribuição. Quando o tamanho das células não é igual, devemos substituir n pela média harmônica dos tamanhos das células, isto é: I nh = I  1 . ∑ n    i =1  i  Para aplicarmos esse método devemos dispor as médias dos grupos em ordem crescente (decrescente) e obtermos o valor de r(α, p, f) na tabela específica, onde α é o nível de significância para o experimento, p é a ordem do contraste (p = 2, 3, ... , I) e f o número de graus de liberdade da Soma dos Quadrados dos Erros. Esses valores são transformados num conjunto de (I – 1) amplitudes de significação mínima, R2, ... RI, crescentes, através de Rp = r( α, p, f). S Y . Todas as diferenças entre as médias são, então, testadas segundo o seguinte procedimento: (i) Toma-se a maior média e calculam-se todos os (I – 1) contrastes em relação a ela, sempre do maior para o menor. Os resultados são confrontados com os valores Rp (p = I, ...,2). Assim, o maior contraste é confrontado com RI, o segundo maior com R(I-1), até o menor contraste envolvendo a maior média, que será confrontado com R2. (ii) Toma-se, então, a segunda maior média e repete-se o procedimento acima, confrontando os valores dos contrastes com Rp, agora p = (I – 1), ... , 2, e assim sucessivamente até o último contraste envolvendo as duas menores médias, que será confrontado com R2. Sempre que o contraste for maior do que as amplitudes de significância mínima, Rp, devemos rejeitar Ho, concluindo pela sua significância. esperado será µ, comum a todos os grupos, e variância σ 2 = Y Teste de Tukey Tukey propôs um método de comparações múltiplas baseado na amplitude padronizada, que independe do número de médias que serão contrastadas. O procedimento requer a utilização de q(α, I, f), obtido em tabela própria, para poder chegar ao valor crítico para todas as comparações dos contrastes entre as médias. Um contraste será significativamente diferente de zero quando seu valor calculado exceder a Tα = q(α, i, f) S Y . Assim, utilizamos um único valor crítico para julgar a significância de todas as comparações. Considere, a título de exemplo, o caso citado em Montgomery (1991 p. 60) no qual um engenheiro de desenvolvimento de produto está interessado em maximizar a resistência da elasticidade de uma nova fibra sintética que será usada na fabricação de camisas para homens. O engenheiro conhece, através de experiências passadas que essa resistência é afetada pela percentagem de algodão na fibra. Ele suspeita que aumentando essa percentagem a resistência da fibra estará aumentando. Ele sabe, também, que o conteúdo de algodão deve variar entre 10 e 40% para se obter um produto com uma certa qualidade desejável. Ele decide, então testar a resistência de amostras de fibras contendo cinco diferentes níveis de 3

algodão: 15; 20; 25; 30 e 35%. Cinco amostras de tecidos de cada nível de conteúdo de algodão são testadas e as resistências, medidas em libras/polegadas2, anotadas (ver p. 50 para detalhes do experimento). Algodão (%) 15 20 25 30 35 1 7 12 14 19 7 2 7 17 18 25 10 Observações 3 15 12 18 22 11 Médias 4 11 18 19 19 15 5 9 18 19 23 11 9,8 15,4 17,6 21,6 10,8 15,0

4 Com o auxílio da Ferramenta de Análise do MS-EXCEL rodou-se uma ANOVA de 1 fator, estando os resultados apresentados a seguir: Fontes de Variação Algodão (%) Erros Total SQ 475,76 161,2 636,96 gl 4 20 24 MQ F valor-P F crítico

118,94 14,756824 0,0000091 2,8660807 8,06

O teste estatístico consiste em averiguar: Ho: µ1 = µ2 = µ3 = µ4 = µ5 , contra a alternativa H1: µi ≠ µi’ para algum i ≠ i’= 1,2,3,4,5. Considerando o valor-p acima, decidimos pela rejeição de Ho, ao nível de 1% de significância, concluindo que as percentagens de algodão afetam o nível de resistência do tecido. Isso é o máximo que podemos extrair do EXCEL. No entanto, podemos ainda utilizálo na busca dos motivos que levaram à rejeição da hipótese nula. Contrastes segundo Scheffé Aplicando o conceito de comparações múltiplas para investigar a significância dos contrastes, foram construídos os intervalos de confiança para cada um dos 10 contrastes simples envolvendo as médias dos 5 grupos estudados. Para tal, foram calculados os seguintes valores: MQE = 8,06 (extraída da tabela de ANOVA) F.05,4,20 = 2,87 (extraído da tabela da distribuição F) ( I − 1).F.05,4,20 = 3,3882  número de desvios SCt = = 1,7956  desvio padrão dos contrastes n ε = SCt . ( I − 1).F.05,4,20 = 6,0837  erro amostral Abaixo encontram-se os resultados:

∑c MQE.

2 i

4

Contrastes Y4 − Y3 Y4 − Y2 Y4 − Y5 Y4 − Y1 Y3 − Y2 Y3 − Y5 Y3 − Y1 Y2 − Y5

Valor 4,0 6,2 10,8 11,8 2,2 6,8 7,8 4,6

Lim inf Lim sup -2,0837 10,0837 0,1163 12,2837 4,7163 16,8837 5,7163 17,8837 -3,8837 8,2837 0,7163 12,8837 1,7163 13,8837 -1,4837 10,6837 * * * * *

5,6 -0,4837 11,6837 Y2 − Y1 1,0 -5,0837 7,0837 Y5 − Y1 Conforme assinalado acima, cinco intervalos não contêm o zero. Os contrastes relativos aos respectivos intervalos nos levam à rejeição da hipótese nula. Contrastes segundo Duncan Seguindo os procedimentos definidos para as amplitudes de significância mínima de Duncan, teríamos os seguintes passos: (i) Ordenamos crescentemente as médias dos grupos; 8,06 (ii) Cálculo do desvio padrão da estatística média da amostra: S Y = 5 =1,2696; (iii) Determinação do valor de r(.05,p,20) para p=2,3,4,5 da tabela dos valores de r: r(.05,2,20) = 2,95; r(.05,3,20) = 3,10; r(.05,4,20) = 3,18 e r(.05,5,20) = 3,25; (iv) Obtenção dos valores das amplitudes de significância mínima: R2 = r(.05,2,20). S Y = 2,95.1,2696 = 3,74 R3 = r(.05,3,20). S Y = 3,10.1,2696 = 3,94 R4 = r(.05,4,20). S Y = 3,18.1,2696 = 4,04 R5 = r(.05,5,20). S Y = 3,25.1,2696 = 4,13 (v) Determinação dos contrastes e teste estatístico Contrastes Valor Lim inf Lim sup 21,6 – 9,8 = 11,8 > 4,13 * Y4 − Y1 4,04 * Y4 − Y5 21,6 – 10,8 = 10,8 > Y4 − Y2 Y4 − Y3 Y3 − Y1 Y3 − Y5 Y3 − Y2 Y2 − Y1 Y2 − Y5 Y5 − Y1 21,6 – 15,4 = 6,2 > 21,6 – 17,6 = 4,0 > 17,6 – 9,8 = 7,8 > 17,6 – 10,8 = 6,8 > 17,6 – 15,4 = 2,2 < 15,4 – 9,8 = 5,6 > 15,4 – 10,8 = 4,6 > 10,8 – 9,8 = 1,0 < 3,94 3,75 4,04 3,95 3,75 3,94 3,75 3,75 * * * * * *

5

Notamos que exceto por dois contrastes todos os demais mostraram-se significativos a 5%. A razão principal para tal é que o teste de Duncan requer diferenças mais elevadas para poder detectar contrastes significativos na medida em que o número de médias inseridas na amplitude aumenta.
C:/Word/Apostila/Anova/Contrastes.doc

6