Professional Documents
Culture Documents
Bioestatı́stica, 2007 1
Exemplo:
Um biólogo está interessado em estudar 3 variedades diferentes de trigo. O
objectivo é averiguar se o tamanho médio dos grão se pode considerar igual
para as três variedades. Para tal foram seleccionados 15 campos considerados
homogéneos (mesmo tipo de solo e de condições climáticas) que foram divididos
em três grupos de 5, de forma aleatória. As 3 variedades foram atribuı́das
aleatoriamente a cada um dos grupos de campos e ao fim de 3 meses de
crescimento foi feita uma colheita de grãos de cada campo e calculado o peso
médio da cada colheita.
Bioestatı́stica, 2007 2
Planeamento equilibrado
• total de N = gn observações.
Bioestatı́stica, 2007 3
Análise de Variância simples - Efeitos fixos
As observações são designadas por Yij onde i = 1, . . . , g identifica o grupo e
j = 1, . . . , n identifica a posição de cada observação dentro do seu grupo.
• τP
i representa a diferença entre a média total e a média de cada grupo
g
( i=1 τi = 0), e
Bioestatı́stica, 2007 4
Pressupõe-se que
Isto significa que cada grupo provém de uma população Normal com uma certa
média µi, mas todos com a mesma variância σ 2.
Hipóteses a testar
ou equivalentemente
Bioestatı́stica, 2007 5
Resumindo:
Pressupostos exigidos:
1. Temos g grupos de observações independentes (g amostras aleatórias) sendo
os grupos independentes entre si.
2. Cada grupo de observações deve provir de uma distribuição Normal.
3. A variância das g populações deve ser a mesma.
Hipóteses a testar
Modelo:
Yij = µi + ǫij = µ + τi + ǫij , ǫij ⌢ N (0, σ)
Bioestatı́stica, 2007 6
Ideia de base
Para testar estas hipóteses recorre-se a uma análise das variâncias dos vários
grupos e daı́ o nome ANOVA. A ideia de base é a seguinte: Vamos estimar a
variância σ 2 por dois métodos diferentes, um que não depende da veracidade
de H0 e outro que sim. Depois comparamos as duas estimativas. Se os grupos
tiverem todos a mesma média (H0 verdadeiro) as duas estimativas deverão ser
próximas, senão deverão diferir significativamente.
Bioestatı́stica, 2007 7
Uma forma de estimar σ 2, sem depender da veracidade de H0, consiste em
calcular para cada grupo a variância amostral corrigida (estimativa de σ 2) e
tomar a média das várias estimativas que se obtêm.
Se pensarmos agora que as médias são todas iguais (H0 verdadeiro) estamos
perante um conjunto de g amostras todas da mesma população. Sabemos que
V ar[X̄] = σ 2/n e podemos obter uma ”amostra”de g médias amostrais (uma
para cada grupo). Calculando a variância amostral desta ”amostra”de médias
amostrais temos uma estimativa de σ 2/n. Multiplicando por n temos uma
estimativa de σ 2 .
Mas esta última estimativa só é boa se H0 for verdadeira. Senão fica muito
inflaccionada. Assim, ao dividir a última estimativa pela primeira devemos
obter um valor próximo de 1 se H0 for verdadeiro e muito maior que 1 caso
contrário.
Bioestatı́stica, 2007 8
Partição da soma de quadrados
Seja
n
X yi·
yi· = yij ȳi· =
j=1
n
g X
n
X y··
y·· = yij ȳ·· =
i=1 j=1
N
g X
X n
SST = (yij − ȳ··)2.
i=1 j=1
g X
X n g
X g X
X n
(yij − ȳ·· )2 = n (ȳi· − ȳ·· )2 + (yij − ȳi·)2
|i=1 j=1 {z } | i=1
{z } |i=1 j=1 {z }
SST SSG SSE
Bioestatı́stica, 2007 9
g X
X n g
X g X
X n
(yij − ȳ·· )2 = n (ȳi· − ȳ·· )2 + (yij − ȳi·)2
i=1 j=1 i=1 i=1 j=1
| {z } | {z } | {z }
SST SSG SSE
Seja
SSG SSE
M SG = , e M SE = .
g−1 g(n − 1)
Então,
sob H0 sob H1
Pg 2
2 n i=1 τi
E[M SG] = σ E[M SG] = σ + 2
g−1
E[M SE ] = σ 2 E[M SE ] = σ 2
SST tem N − 1 = gn − 1 graus de liberdade.
SSG tem g − 1 graus de liberdade.
SSE tem g(n − 1) graus de liberdade.
Bioestatı́stica, 2007 10
Pode-se mostrar que sob H0
SSG 2 SSE 2
⌢ χ g−1 e ⌢ χ g(n−1) ,
σ2 σ2
M SG
⌢ Fg−1,g(n−1)
M SE
Bioestatı́stica, 2007 11
Tabela de ANOVA
Soma de Média de
Fonte de Variação g.l. Fobs p
quadrados quadrados
M SG
Entre Grupos SSG g−1 M SG M SE (·)
Dentro dos grupos SSE g(n − 1) M SE
Total SST gn − 1
Bioestatı́stica, 2007 12
Exemplo:
18
tensªo arterial
16
14
12
10
N= 40 40 40 40
tratamento
Bioestatı́stica, 2007 13
TRATAMENTO: 1,00 placebo TRATAMENTO: 2,00 teste
19,5 17,0
19,0
16,0
18,5
valores esperados
valores esperados
15,0
18,0
17,5 14,0
17,0
13,0
16,5
12,0
16,0
15,5 11,0
15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 11,0 12,0 13,0 14,0 15,0 16,0 17,0
16,0 16,0
valores esperados
valores esperados
15,0 15,0
14,0 14,0
13,0 13,0
12,0 12,0
12,0 13,0 14,0 15,0 16,0 17,0 12,0 13,0 14,0 15,0 16,0 17,0
Bioestatı́stica, 2007 14
Test of Homogeneity of Variances
tensão arterial
Levene
Statistic df1 df2 Sig.
1,182 3 156 ,318
ANOVA
tensão arterial
Sum of
Squares df Mean Square F Sig.
Between Groups 283,126 3 94,375 97,550 ,000
Within Groups 150,923 156 ,967
Total 434,049 159
Bioestatı́stica, 2007 15
Análise de Variância simples - Efeitos aleatórios
Modelo:
Yij = µi + ǫij = µ + τi + ǫij ,
p
Yij ⌢ N (µi = µ + τi, σ 2 + στ2 ).
Hipóteses a testar
H0 : στ2 = 0 vs H1 : στ2 > 0.
Bioestatı́stica, 2007 16
Mantém-se a relação
g X
X n g
X g X
X n
(yij − ȳ·· )2 = n (ȳi· − ȳ·· )2 + (yij − ȳi·)2
|i=1 j=1 {z } | i=1
{z } |i=1 j=1 {z }
SST SSG SSE
Agora
sob H0 sob H1
E[M SG] = σ 2 E[M SG] = σ 2+nστ2
E[M SE ] = σ 2 E[M SE ] = σ 2
Sob H0
M SG
F = ⌢ Fg−1,g(n−1).
M SE
M SG − M SE
σ̂τ2 =
n
Bioestatı́stica, 2007 17
Exemplo:
Pretende-se estudar se o consumo de combustı́vel de um automóvel da Marca A
depende da velocidade com que o automóvel se desloca. Para tal seleccionaram-
se aleatoriamente 3 valores de velocidade e efectuou-se uma experiência envol-
vendo 60 automóveis distribuı́dos aleatoriamente em 3 grupos homogéneos.
9
7
consumo
4
N= 20 20 20
20 45 110
velocidade
Bioestatı́stica, 2007 18
Descriptives
consumo
ANOVA
consumo
Sum of
Squares df Mean Square F Sig.
Between Groups 2,786 2 1,393 2,855 ,066
Within Groups 27,808 57 ,488
Total 30,594 59
Bioestatı́stica, 2007 19
Comparações múltiplas
Uma vez rejeitada H0 o que fazer para procurar identificar quais os grupos que
causam as diferenças?
Considerar todas as comparações de pares de médias envolvidos na ANOVA
para procurar detectar quais os grupos que provocam a rejeição de H0 na tabela
n!
de ANOVA. Em n grupos há 2!(n−1)! comparações de pares de médias distintos.
Dois problemas:
1. Cálculo do nı́vel de significância de cada comparação e do nı́vel de sig-
nificância do conjunto de comparações que se está a efectuar em simultâneo.
2. As comparações não são todas independentes.
Bioestatı́stica, 2007 20
Importante lembrar:
Bioestatı́stica, 2007 21
Método de Bonferroni
α — tamanho total das comparações múltiplas,
αm — tamanho de cada comparação individual
Ri = {a i-ésima hipótese nula é rejeitada quando é verdadeira}.
α = P {R1 ou R2 ou . . . ou Rm} ≤ mαm,
Bioestatı́stica, 2007 22
Exemplo:
Multiple Comparisons
Mean
Difference
(I) tratamento (J) tratamento (I-J) Std. Error Sig.
LSD placebo teste 3,3540* ,21994 ,000
captorex 2,9099* ,21994 ,000
hiperten 2,8540* ,21994 ,000
teste placebo -3,3540* ,21994 ,000
captorex -,4440* ,21994 ,045
hiperten -,5000* ,21994 ,024
captorex placebo -2,9099* ,21994 ,000
teste ,4440* ,21994 ,045
hiperten -,0560 ,21994 ,800
hiperten placebo -2,8540* ,21994 ,000
teste ,5000* ,21994 ,024
captorex ,0560 ,21994 ,800
Bonferroni placebo teste 3,3540* ,21994 ,000
captorex 2,9099* ,21994 ,000
hiperten 2,8540* ,21994 ,000
teste placebo -3,3540* ,21994 ,000
captorex -,4440 ,21994 ,271
hiperten -,5000 ,21994 ,146
captorex placebo -2,9099* ,21994 ,000
teste ,4440 ,21994 ,271
hiperten -,0560 ,21994 1,000
hiperten placebo -2,8540* ,21994 ,000
teste ,5000 ,21994 ,146
captorex ,0560 ,21994 1,000
Bioestatı́stica, 2007 23
Método de Tuckey
Bioestatı́stica, 2007 24
Exemplo:
Multiple Comparisons
Mean
Difference 95% Confidence Interval
(I) tratamento (J) tratamento (I-J) Std. Error Sig. Lower Bound Upper Bound
placebo teste 3,3540* ,21994 ,000 2,7828 3,9252
captorex 2,9099* ,21994 ,000 2,3388 3,4811
hiperten 2,8540* ,21994 ,000 2,2828 3,4252
teste placebo -3,3540* ,21994 ,000 -3,9252 -2,7828
captorex -,4440 ,21994 ,185 -1,0152 ,1271
hiperten -,5000 ,21994 ,109 -1,0712 ,0712
captorex placebo -2,9099* ,21994 ,000 -3,4811 -2,3388
teste ,4440 ,21994 ,185 -,1271 1,0152
hiperten -,0560 ,21994 ,994 -,6271 ,5152
hiperten placebo -2,8540* ,21994 ,000 -3,4252 -2,2828
teste ,5000 ,21994 ,109 -,0712 1,0712
captorex ,0560 ,21994 ,994 -,5152 ,6271
*. The mean difference is significant at the .05 level.
Bioestatı́stica, 2007 25
Teste de Dunnett
Bioestatı́stica, 2007 26
Exemplo:
Multiple Comparisons
Dependent Variable: tensão arterial
Dunnett t (2-sided)a
Mean
Difference 95% Confidence Interval
(I) tratamento (J) tratamento (I-J) Std. Error Sig. Lower Bound Upper Bound
teste placebo -3,35399* ,21994 ,000 -3,8757 -2,8323
captorex placebo -2,90994* ,21994 ,000 -3,4317 -2,3882
hiperten placebo -2,85399* ,21994 ,000 -3,3757 -2,3323
*. The mean difference is significant at the .05 level.
a. Dunnett t-tests treat one group as a control, and compare all other groups against it.
Bioestatı́stica, 2007 27
ANOVA simples não paramétrica — Teste de Kruskal-Wallis
Temos
• g grupos;
• ni observações no grupo i;
Pg
• total de N = i=1 ni observações.
Yij = µi + ǫij ,
i = 1, . . . , g, j = 1 . . . , nj onde os erros ǫij são v.a.’s contı́nuas com a mesma
distribuição, e µi representa a mediana do grupo i.
Bioestatı́stica, 2007 28
Pressupostos exigidos:
Hipótese a testar
Bioestatı́stica, 2007 29
Procedimento:
g 2 g
12 X N +1 12 X R2 i·
T = ni R̄i· − = − 3(N − 1).
N (N + 1) i=1
2 N (N + 1) i=1
ni
Bioestatı́stica, 2007 30
Exemplo:
12
10
nivel 8
0
N= 10 10 10 10 10
vinho
Bioestatı́stica, 2007 31
Ranks
NIVEL
Chi-Square 2,901
df 4
Asymp. Sig. ,575
a. Kruskal Wallis Test
b. Grouping Variable: VINHO
Bioestatı́stica, 2007 32