You are on page 1of 22

1

Métodos Não-Paramétricos
Isabel Fraga Alves
Departamento de Estatística e Investigação
Operacional
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
2
Programa
 Introdução
 Análise de Dados Categorizados
• Teste do Qui-Quadrado
• Teste de Ajustamento
• Tabelas de Contingência
• Teste de Independência
• Teste de Homogeneidade
 Estatística Não-Paramétrica
• Introdução: O problema geral da localização relativo a 2 amostras
• Amostras emparelhadas
• Teste dos Sinais (pequenas e grandes amostras)
• Teste de Wilcoxon (pequenas e grandes amostras)
• Uso das “Ordens” para Comparar Populações: Amostras Independentes
• 2 Populações: O Teste de Mann-Whitney (pequenas e grandes amostras)
• Mais de 2 Populações:
• O Teste de Kruskal-Wallis (pequenas e grandes amostras)
• Teste de Friedman (pequenas e grandes amostras)
• Uso das “Ordens” para Testar Independência e Aleatoriedade
• Teste de Spearman (pequenas e grandes amostras)
• Teste dos “Runs” para Aleatoriedade (pequenas e grandes amostras)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
3
Bibliografia
 CONOVER, W. J. (1999) - Practical Nonparametric Statistics, 3rd ed. Wiley.
 DANIEL, W. W. (1990) - Applied Nonparametric Statistics, 2nd ed. PWS-Kent.
 Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com
complementos de Excel, SPE.
 DeGroot, Morris H. - Probability and statistics (1986 ) - 2nd ed Massachusetts Addison-
Wesley.
 Pestana e Velosa (2006) - Introdução à Probabilidade e à Estatística, I, Fundação
Gulbenkian. 2ª ed.
 SIEGEL, S. and Castellan, N. Y. (1988) - Nonparametric Statistics for the Behavioral
Sciences. McGraw-Hill.
 * Wackerly, D., Mendenhall, W. and Scheaffer, L. (2007) –
Mathematical Statistics with Applications. Duxbury Press; 7th ed.
* Manual Recomendado para consulta das Tabelas ao longo dos slides.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
4
Introdução
 O que é a Estatística ?
 Estudo da Incerteza
 Como a quantificar? Que podemos fazer com ela?
 As experiências repetidas
sob o que pensamos serem as condições
não resultam sempre da mesma forma…!
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
5
Tipos de Experiências
 Causais ou Determinísticas
 Ex: Deixar cair uma pedra no rio
 Aleatória ou Estocástica
 Ex: O Tempo que vou Esperar pelo Autocarro
 Como posso “prever” o resultado?
Com Estatística quantificamos e medimos o “imprevisível”!
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
6
Estatística: produz afirmações numéricas relativamente a
situações sujeitas a INCERTEZA.
 Exemplos:
• Quem irá ganhar as próximas eleições?
• Estarão os clientes da PT satisfeitos com o serviço
prestado?
• Qual das duas pastas dentífricas é mais eficiente que a
outra para prevenir as cáries?
• Qual a previsão da quantidade de precipitação para o
próximo inverno?
• Após a monitorização de pacientes com doenças
cardíacas, como decidir acerca dos factores que
afectam a sua saúde ?
2
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
7
Como e Que Respostas ?
 Para responder a estas perguntas frequentemente usamos modelos
probabilísticos, que são modelos matemáticos para lidar com incerteza.
 São recolhidos Dados para explorar uma População, o objectivo
de nosso estudo.
 Quando é recolhida uma amostra grande é necessário produzir resumos
das informações nela contidas. Existem ferramentas gráficas e numéricas
que são normalmente utilizadas pelos estatísticos
•AMOSTRA
•Estatística Descritiva
 Inferência Estatística - faz generalizações válidas para a População,
a partir de Amostras.
(enquanto na Previsão - é apresentada uma afirmação sobre o Futuro.)
 Dados - observações de determinadas quantidades de interesse.
 Variáveis - incerteza acerca dos seus verdadeiros valores.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
8
Tipos de Variáveis
VARIÁVEL
QUALITATIVA QUANTITATIVA
DISCRETA
NOMINAL ORDINAL
CONTÍNUA
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
9
Tipos de Variáveis (cont.)
 QUANTITATIVA vs. QUALITATIVA : variáveis com /
sem representação numérica e ordenação natural
única (por exemplo, a pressão arterial versus religião).
 DISCRETA vs. CONTÍNUA: variáveis quantitativas
com / sem lacunas conceptuais entre os seus valores
(por exemplo, número de crianças numa família versus
pressão arterial).
 ORDINAL vs. NOMINAL: variáveis qualitativas com
/ sem ordenação (eventualmente não única) dos seus
valores (a satisfação do cliente versus religião).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
10
De modo geral,
 as variáveis qualitativas estão mais ligadas aos
modelos não-paramétricos
enquanto que
 as variáveis quantitativas aos modelos
paramétricos.
Tipos de Variáveis (cont.)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
11
 As variáveis qualitativas podem ainda ser classificadas de acordo com:
 VARIÁVEL CATEGORIZADA – (Categórica, Nominal ou de Classe)
• nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino,
macho ou fêmea; o estado civil, solteiro, casado, divorciado, viúvo; o curso, primário,
secundário, colegial, universitário, pós-graduação, etc.
Representa o nível mais simples e mais elementar de medição. Os indivíduos de uma
população ou amostra são medidos mediante uma certa característica que pode ser
categoria, nome ou classe.
 Características binárias ou dicotomizadas:
• presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno
ou maligno, etc.
Essas características são mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar
em um único nome, categoria ou classe, e também são exaustivas, pois devem atingir todos os
indivíduos da população ou amostra em estudo, sem excepção.
 A variável categórica é qualitativa e não se presta aos cálculos aritméticos
comuns: soma, subtracção, multiplicação e divisão.
Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica
(x=y então y=x); transitiva (x=y e y=z então x=z).
Tipos de Variáveis (cont.)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
12
 VARIÁVEL ORDINAL –
• no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no
sexo, F,M ou M,F; no curso, primário- secundário-superior ou superior-
secundário-primário; em uma quantificação, leve-moderado-intenso ou intenso-
moderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação
de dados numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc.
Os indivíduos de uma população ou amostra são classificados de acordo
com as diversas categorias de uma determinada característica e em
seguida são ordenados. Esta ordenação pode ser crescente ou
decrescente, ou igualmente, ascendente ou descendente.
 A variável ordinal também é qualitativa.
• Sabe-se que um indivíduo ou coisa é maior ou menor do que outro, porém não se
sabe o quanto é maior nem o quanto é menor. São comuns as expressões
comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso,
menos intenso; mais alto, mais baixo; preferível; etc.
Na escala ordinal utilizam-se as comparações maior do que (>) e menor do
que (<). As operações aritméticas comuns (adição, subtracção,
multiplicação e divisão) não são aplicáveis.
Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e
y>z então x>z).
Tipos de Variáveis (cont.)
3
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
13
 VARIÁVEL INTERVALAR –
• os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames
laboratoriais, medidas diversas, etc.
 A escala intervalar é verdadeiramente quantitativa. A medição é feita
directamente em números reais, obtidos mediante a comparação com um
determinado valor fixo, denominado unidade. O nome intervalar está
ligado aos intervalos entre as categorias da variável e aqui se sabe
exactamente o quanto uma categoria é menor ou maior que outra,
ou ainda se há igualdade entre elas.
 As operações aritméticas comuns (soma, subtracção, multiplicação e
divisão) são aplicáveis.
 A variável intervalar reúne todas as propriedades dos dois tipos anteriores
de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y
então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>),
transitiva (x>y e y>z então x>z).
Tipos de Variáveis (cont.)
ESTATÍSTICA NÃO
PARAMÉTRICA
Extremamente interessante para
análises de dados qualitativos.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
15
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
 Média
 Mediana
 Moda
 Média Amostral - é a soma de
todos os valores de uma amostra
dividida pelo nº de elementos da
amostra (dimensão).
 É aplicada em variáveis quantitativas.
 A média amostral é a
contrapartida empírica do Valor
Médio da População ou da
Variável, µ.
1
1
n
i
i
X X
n
=
=
¿
1 2
( . .) - , , ,
n
amostra aleatoria a a X X X
1 2
- , , ,
n
amostra observada x x x
1
1
n
i
i
x x
n
=
=
¿
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
16
 Mediana Amostral - É o valor da
amostra que ocupa a posição central,
quando todos os valores estão
ordenados em ordem crescente ou
decrescente.
 Se n for ímpar, a mediana ( Med )
será o valor que ocupa a posição
central na amostra ordenada. Esta
posição pode ser calculada por
(n+1)/2.
 Se n for par, a Med será calculada
pela média aritmética dos dois valores
centrais na amostra ordenada da
amostra. A posição de cada um desses
dois valores centrais pode ser
calculada por n/2 e n/2+1.
 A Mediana é muito utilizada nos
cálculos não-paramétricos.
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
1
:
2
: 1:
2 2
1
2
n
n
n n
n n
x n impar
Med
x x n par
+
+
¦
¦
¦
=
´
¦ ¹
¦ +
´ `
¦ ¹ ) ¹
1: 2: :
ordenada -
n n n n
amostra observada
x x x s s s
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
17
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
 Moda - É o valor da
variável que
corresponde à
frequência máxima.
 A moda pode ter um
ou mais valores,
unimodal, bimodal,...,
multimodal, conforme
existam uma, duas, ou
mais frequências iguais,
dos valores da variável.
 Dados:
 25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51
(n=13)
 média
 mediana
 moda
53.9 x =
1 2
-
( , , , )
(25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 )
n
amostra observada
x x x =
1: 2: :
ordenada -
(22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99)
n n n n
amostra observada
x x x s s s =
46 Med =
83 Mo =
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
18
Localização: Mediana vs. Média
 Razões para usar a mediana:
• É menos influenciada por valores extremos
• Se as distribuições são simétricas, a média e a
mediana populacional coincidem
 Média vs. Mediana
• 5 6 6 7 7 8 10
• Média = 7 Med = 7
• 5 6 6 7 7 8 50
• Média = 8.43 Med = 7
4
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
19
 Distinguir
• Metodologias Paramétricas
&
• Metodologias Não-Paramétricas
 Explicar uma
• Variedade de Testes Não-Paramétricos
 Resolver
• Problemas de Testes de Hipóteses usando Testes Não-
Paramétricos
Objectivos do Curso
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
20
Quadro Geral
 Até este ponto, todos os testes que têm utilizado estão
sujeitos a suposições sobre a distribuição subjacente aos
dados. Especificamente, é assumido que os dados são normais
para usar o teste-t, por exemplo.
 Poder-se-ia usar a teoria de grandes amostras e o Teorema
do Limite Central, mas isso ainda apenas se verifica
Assintoticamente
 O que é que acontece se não estamos dispostos ou não é sensato
fazer as suposições de normalidade sobre a distribuição subjacente
e temos uma amostra de dimensão pequena ?
n ÷·
TESTE DE HIPÓTESES
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
22
E muitos mais…!
Testes de Hipóteses - Metodologias
Teste de
Hipóteses -
metodologias
Não-Paramétricas Paramétricas
Teste - z
Teste
Kruskal-Wallis
Teste
Wilcoxon
Teste - t ANOVA
etc
etc
Amostra emparelhada
Teste-t
emparelhado
Testes de Hipóteses - Metodologias
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
24
Estatística Não-Paramétrica
 Muitos dos testes estatísticos não-paramétricos
respondem à mesma série de questões tal como os
testes paramétricos.
• Com testes não-paramétricos as hipóteses podem ser
flexibilizadas consideravelmente.
• Por conseguinte, são utilizados métodos não-paramétricos
para situações que violem os pressupostos de procedimentos
paramétricos.
5
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
25
Testes Paramétricos
 Testes Paramétricos
• Incidem explicitamente sobre um ou mais parâmetros de uma
ou mais populações;
• A distribuição de probabilidades da estatística de teste pressupõe
uma forma particular das distribuições populacionais;
• As variâncias são homogéneas;
• Os erros ou resíduos são aleatórios e independentes e têm
distribuição normal com variância finita e constante.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
26
Testes Não-Paramétricos
 Testes Não Paramétricos
• Requerem menos pressupostos em relação à
população;
• Não exigem normalidade;
• Não se baseiam em parâmetros da distribuição (logo, não
necessitam variâncias homogéneas);
• Ligeiramente menos eficientes que os testes
paramétricos;
• Baseiam-se nas estatísticas ordinais (e não nos
valores das observações);
• Mais fáceis de aplicar.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
27
Testes Não-Paramétricos
Poucos Pressupostos Relativos à População
 Facilidade de implementação
 Maior Perceptibilidade
 Aplicável em Situações Não Abrangidas Pela Normal
 Mais Eficientes quando as Populações não têm Distribuição Normal
 Os resultados podem ser tão exactos como nos procedimentos paramétricos
Vantagens
As hipóteses testadas por testes não-paramétricos tendem a ser
menos específicas;
Não têm Parâmetros, Dificultando Comparações Quantitativas
entre Populações
Escasso Aproveitamento de Informação da Amostra
Pode ser de Difícil Cálculo à mão para Grandes Amostras
Tabelas não amplamente disponíveis
Desvantagens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
28
• Não incorpora as suposições restritivas, características dos
testes paramétricos.
• Os dados não precisam estar normalmente distribuídos
(Distribution-Free). É necessário, apenas, que eles sejam
ordenáveis.
• Muitas vezes, são baseados nas ordens das observações e não
nos seus valores, como no caso paramétrico.
• Podem ser aplicados para variáveis quantitativas e qualitativas.
• Menos sensíveis aos erros de medida e rápidos para pequenas
amostras.
Estatística Não-Paramétrica - Distribuição Livre
TESTE DE HIPÓTESES
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
30
PRINCIPAIS CONCEITOS
HIPÓTESE ESTATÍSTICA
• Trata-se de uma suposição quanto ao valor de um parâmetro
populacional, ou quanto à natureza da distribuição de
probabilidade de uma variável populacional.
TESTE DE HIPÓTESES
• É uma regra de decisão para rejeitar ou não rejeitar uma
hipótese estatística com base nos elementos amostrais
6
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
31
TEORIA POPPERIANA - Falseabilidade (ou refutabilidade)
 “Science can't prove anything. It can only disprove things.”
A ciência não pode provar nada. Só pode refutar coisas.
• Considere o exemplo do famoso Cisne Negro (black swan):
• Um cientista gasta sua vida observando cisnes. Observa que todos
os cisnes que jamais viu são brancos. Com base nesta evidência
empírica, ele postula uma teoria de que “todos os cisnes são
brancos”.
• Um dia viaja para a Austrália e vê - UPS! - um Cisne Negro.
• A sua teoria é refutada. Mas isso não significa que não era
ciência quando a estabeleceu. Agora, pode estabelecer uma teoria
nova: “Os cisnes podem ser brancos ou pretos”.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
32
Karl Popper(1902- 1994) - UM FILÓSOFO INOVADOR
 Sir Karl Raimund Popper foi filósofo da ciência austríaco naturalizado
britânico e um professor da London School of Economics.
 Formou-se em matemática, física e filosofia da ciência britânica.
 Uma das pessoas mais influentes da filosofia da Ciência durante o século
XX.
 POPPER E A REFUTAÇÃO
• Uma hipótese só é científica se puder ser colocada em questão
(“refutada”).
• Isto significa que deve ser sempre possível realizar uma observação
que prove que a hipótese é falsa
• Uma teoria científica não poderá em nenhuma circunstância ser
declarada “verdadeira”
 A teoria científica mais não é do que uma hipótese; uma conjectura, que um dia será
refutada e substituída por uma outra.
“ What really makes science grow is new ideas, including false ideas.” –Karl Popper
 SÓ APRENDEMOS QUANDO ERRAMOS.
 OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS,
MAS A PROBABILIDADE DE ESTAREM ERRADOS.
• Para fazerem isso estabelecem uma hipótese nula.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
33
Data Analysis and Research for Sport and Exercise Science: A Student Guide
By Craig Williams, Chris Wragg, Routledge ed., 2003. pag 6
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
34
PRINCIPAIS CONCEITOS
 TIPOS DE HIPÓTESES
• H
0
, hipótese nula, a hipótese estatística a ser testada
• H
1
, hipótese alternativa
A HIPÓTESE NULA É UMA AFIRMAÇÃO DE COMO O MUNDO
DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA.
• Ex: A hipótese nula expressa uma igualdade, enquanto a
hipótese alternativa é dada por uma desigualdade.
0 1
: 1.5 . : 1.5 H m vs H m µ µ = =
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
35
Testes de Hipóteses – Erros
 EXISTEM DOIS TIPOS DE ERRO:
• Erro tipo 1 - rejeição de uma hipótese nula verdadeira
• Erro tipo II – não rejeição de uma hipótese nula falsa
• “não rejeiçao ” “não rejeição”
• A probabilidade o do erro tipo I é denominada
“nível de significância” do teste.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
36
Realidade
Decisão
H
0
verdadeira H
0
falsa
Não rejeitar
H
0
Decisão
correcta
Erro tipo II
Rejeitar
H
0
Erro tipo I
Decisão
correcta
o = P( erro tipo I ) = P(rejeitar H
0
| H
0
verdadeira) = P(ET e RR | H
0
verd.)
nível de significância ou tamanho do teste
| = P(erro tipo II)= P(não rejeitar H
0
| H
0
falsa) = P(ET e RA | H
0
falsa)
1-| = potência do teste ÷ Probabilidade de não cometermos um erro do tipo II
Testes de Hipóteses – Erros
ET:= Estatística de Teste
RR:= Região de Rejeição
RA:= Região de Não Rejeição
REGRA de TESTE: ETe RR então Rejeitar H
0
7
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
37
p -Value
 O resultado foi significativo?
 Quão pequeno tem de ser o p-value, para se rejeitar a
hipótese nula?
• Se p-value < 5 % estatisticamente significativo.
• Se p-value < 1 % altamente significativo.
 Os investigadores devem
• resumir os dados,
• dizer qual o teste usado e
• reportar o p-value (em vez de apenas o comparar com os valores de 1 % ou 5 % )
 No caso de se estabelecer à partida o nível de significância o e se o
TESTE indicar a aceitação de H
0
, diz-se que
Ao nível de significância o não se pode rejeitar H
0 .
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
38
TIPOS DE TESTE
 Qui-Quadrado
 Teste dos Sinais
 Teste de Wilcoxon
 Teste de Mann-Whitney
 Teste de Kruskal-Wallis
 Teste de Spearman
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
39
TESTE DO QUI-QUADRADO- Teste de Independência
 Testes não paramétricos que medem o grau de dependência entre
duas variáveis aleatórias.
 Não assumem nenhum tipo de distribuição.
 Assume observações de frequência de variáveis categóricas. As
variáveis da amostra estão “divididas” em categorias.
 As observações das duas variáveis são agrupadas em classes
independentes (disjuntas).
 Tipicamente, os dados do teste estão representados em tabelas de
contingência 2 x 2. No entanto podemos ter mais do que 2
dimensões.
 Testes a estudar
• Teste do Χ
2
(qui-quadrado)
• Teste exacto de Fisher
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
40
TESTE DO QUI-QUADRADO- Teste de Independência
 Dados bivariados (X
i
, Y
i
), i=1, ...,n, tendo (X, Y) f.d. conjunta
F(x,y) com marginais F
1
(x) = F(x,+∞) e F
2
(y)=F(+∞,y).
 Pretendemos testar
• H
0
: F(x,y)=F
1
(x) F
2
(y) ¬(x,y)eR
2
vs. H
1
: F(x,y)≠F
1
(x) F
2
(y) para
algum (x,y)eR
2
 Isto é, face a uma amostra aleatória (X
i
, Y
i
), i=1,...,n,
pretendemos testar a independência do par (X,Y).
 Para obter a estatística de teste começamos por dividir o
suporte da variável aleatória X em L classes A
1
, A
2
, ..., A
L
,
disjuntas e o suporte da variável aleatória Y em C classes B
1
, B
2
,
..., B
C
, disjuntas.
 Representemos por
• N
ij
= # { (X
k
, Y
k
): X
k
e A
i
; Y
k
e B
j
},i=1,…,L; j=1,…,C.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
41
TESTE DO QUI-QUADRADO- Teste de Independência


X\Y
B
1
B
2
… B
j
… B
C
A
1
N
11
N
12 …
N
1j …
N
1C N
1 .
A
2
N
21
N
22 …
N
22 …
N
2C
N
2 .

A
i
N
i1
N
i2 … N
ij

N
iC N
i .

A
L
N
L1
N
L2 …
N
L2 …
N
LC
N
L .
N
.1
N
. 2
N
. j
N
.C
N
..
=n
[ ; ]
ij i j
p P X A Y B = e e
.
.
[ ]
[ ]
i i
j j
p X A
p Y B
= e
= e
0 . . 1 . .
: , ( , ) . : ( , ),
ij i j ij i j
H p p p i j vs H i j p p p = ¬ - =
1
L
j ij
i
N N
-
=
=
¿
1
C
i ij
j
N N
-
=
=
¿
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
42
TESTE DO QUI-QUADRADO- Teste de Independência
 Com as frequências esperadas e
ij
desconhecidas, utiliza-se
 Estatística de Teste (ET):
 Regra de Decisão:
Ao nível o , Rejeitar a hipótese nula de Independência se o valor da
• ET > (quantil da qui-quadrado com (L-1) x (C-1) graus de liberdade)
2
2
0 ( 1)
1 1
( )
, tem uma distribuição assintótica de um .
L C
ij ij
LC
i j ij
N e
sob H
e
_
÷
= =
÷
¿¿
[ ; ]
ij i j
p P X A Y B = e e
. .
[ ] [ ]
i i j j
p X A p Y B = e = e
. . ij ij i j
e np np p = =
. . . .
. .
ˆ ˆ ˆ ˆ
j i j i
ij ij i j
N N N N
e np np p n
n n n
= = = =
2
2 2
0 ( 1)( 1)
1 1
ˆ ( )
, tem uma distribuição assintótica de um .
ˆ
L C
ij ij
L C
i j ij
N e
X sob H
e
_
÷ ÷
= =
÷
=
¿¿
1
2
( 1)( 1) L C
o
_
÷
÷ ÷
8
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
43
TESTE DO QUI-QUADRADO- Teste de Independência
Regra prática:
 Como a distribuição da estatística de teste é assintótica,
convém que as células não tenham valores esperados
muito pequenos.
 Como regra prática, utiliza-se a seguinte:
• No máximo, 20% das células podem ter frequência esperada <5
• e nenhuma célula deve ter frequência esperada <1.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
44
TESTE DO QUI-QUADRADO- Teste de Independência
Exemplo 6: Dependência entre bairro e escolha do
sabor de pasta de dentes
Dados: H0: a preferência pelo sabor
independente do bairro;
H1: a preferência pelo sabor depende do
bairro
o = 5%
_
2
(L-1)(C-1)= _
2
(4-1)(3-1) = _
2
(6)
Frequência esperada = (soma da linha i) x (soma da coluna j)/(total de observações)
. .
ˆ
i j
ij
N N
e
n
=
Sabor
Bairros
A B C
Limão 70 44 86 200
Chocolate 50 30 45 125
Hortelã 10 6 34 50
Menta 20 20 85 125
150 100 250 500
2
2 2
0 ( 1)( 1)
1 1
ˆ ( )
, tem uma distribuição assintótica de um .
ˆ
L C
ij ij
L C
i j ij
N e
X sob H
e
_
÷ ÷
= =
÷
=
¿¿
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
45
TESTE DO QUI-QUADRADO - Teste de Independência
Exemplo 6: (cont.)
Tabela de frequências esperadas
x
2
=37.88
_
2
0.95
(6)=12.6
x
2
> _
2
0.95
(6)
Decisão: rejeita-se H0.
SABOR
BAIRRO
A B C
Limão 60 40 100
Chocolate 37.5 25 62.5
Hortelã 15 10 25
Menta 37.5 25 62.5
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
46
Em 1956, o número de pessoas que morreram de tuberculose em Inglaterra e Gales foi
5375. Destas, 3804 foram homens e 1571 eram mulheres; 3534 homens e 1319 mulheres
morreram de tuberculose do sistema respiratório, enquanto o restante morreu de outras
formas de tuberculose. Os dados estão na seguinte tabela de contingência:
H
0
: tipo de tuberculose (TB) que causa a morte a estes indivíduos é independente
do seu sexo.
e
11
= (4853 x 3804) / 5375 = 3434.6; etc.
Χ
2
= (3534 – 3434.6)
2
/ 3434.6 + (1319 – 1418.4)
2
/ 1418.4 + … + (252 – 152.6)
2
/ 152.6 = 101.35
Para o=0.05 temos Χ
2
0.95
(1)(1)=3.84. Rejeitamos H
0
se Χ
2
> 3.84 o que é o caso.
Conclusão: Há evidência de uma associação entre tipo de TB e sexo.
Observação: p-value < 0.00001.
Exemplo com tabela de contingência 2 x 2
Homens Mulheres Total
TB no SR 3534 1319 4853
Outras TB 270 252 522
Total 3804 1571 5375
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
47
Correcção de Yates para tabelas 2x2
 No caso específico de tabelas 2 x 2 devemos usar a
Correcção de Yates para continuidade.
 Para o problema anterior, Yates Χ
2
= 100.39.
2
2 2
2
1 1
ˆ ( 0.5)
*
ˆ
ij ij
i j ij
N e
X
e
= =
÷ ÷
=
¿ ¿
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
48
 No R, temos:
x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T)
et<-chisq.test(x)
names(et)
et
et$expected
#quantil
qchisq(0.05,1, ncp=0, lower.tail = F)
#p-valor
pchisq(100.3915,1, ncp=0, lower.tail = F)
#density
plot(density(rchisq(500,df=1)))
points(qchisq(0.05,1, ncp=0, lower.tail = F),0,pch=19,col=2)
TESTE DO QUI-QUADRADO - Teste de Independência
9
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
49
Teste Exacto de Fisher
 O teste ideal para aplicar com tabelas de contingência
de dados pequenos esparsos e não balanceados.
 Embora seja aplicável noutras situações, vamos sempre
usar em tabelas 2 x 2 .
 É um teste exacto, portanto um p-value exacto.
 A ideia geral é considerando a tabela de observações,
“gerar” as tabelas com as mesmas margens, que são
mais extremas que a observada, na mesma direcção da
nossa observação ie, que a proporção TB do tipo SR
nas mulheres é menor que proporção TB tipo SR nos
homens.
Teste Exato de Fisher
Característica
(sim)
Característica
(não)
Total
Population 1 a A-a A
Population 2 b B-b B
a+b A+B-a-b
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
50
H0: a proporção com a característica de interesse é a mesma nas duas
populações
Bilateral
H1: a proporção com a característica de interesse não é a mesma nas duas
populações (no R: fisher.test(x))
Unilateral
H1: a proporção com a característica de interesse na população 1 é menor que
na população 2 (no R: fisher.test(x,alternative=“less”))
H1: a proporção com a característica de interesse na população 1 é maior que
na população 2 (no R: fisher.test(x,alternative=“greater”))
Teste Exacto de Fisher (cont.)
Para o exemplo anterior temos no R:
x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T)
fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value < 2.2e-16
alternative hypothesis: true odds ratio is not equal
to 1
95 percent confidence interval:
2.073019 3.014822
sample estimates:
odds ratio
2.500202
Teste dos Sinais
Contrapartida não-paramétrica para
Teste-t para amostras
emparelhadas
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
53
Amostras Emparelhadas - O Teste dos Sinais
População X População Y
1 1 2 2
( , ), ( , ), , ( , )
n n
X Y X Y X Y
0 1
: localizaçao de localizaçao de . : localizaçao de localizaçao de
( > ) ou ( < )
H X Y vs H X Y = =
| | | |
0
, 0 0 1/ 2; sobH P D P D > = < =
{ }
| |
0
: =# : 0 ; , ( , 1/ 2),
com :
i i
M D D sob H M Binomial n p
p P X Y
> · =
= >
Diferenças: : ; : ;
i i i
D X Y D X Y = ÷ = ÷
0 1
: ( ) 0 . : ( ) 0
( > ) ou ( < )
H Med D vs H Med D = =
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
54
Amostras Emparelhadas - O Teste dos Sinais
(pequenas amostras)

 Região de Rejeição para:
• Unilateral Rejeitar para os maiores valores de M (m)
• Unilateral Rejeitar para os menores valores de M (m)
• Bilateral Rejeitar para os menores e maiores valores de M (m)
 No R:
P[Binomial(n,1/2)<=m]=pbinom(q=m,size=n,prob=.5,lower.tail = F)
 Observação: Sempre que se verificarem ligações, isto e, valores Xi=Yi, esses valores
são desprezados, diminuindo-se a dimensão da amostra.
| | ( ,1/ 2) , P Binom p valu ia m l n e = > ÷
0 1
: 1/ 2 . : 1/ 2 (ou 1/ 2 ou 1/ 2) H p vs H p p p = > < =
| | ( ,1/ 2) , P Binom p valu ia m l n e = s ÷
1
: 1/ 2 H p >
1
: 1/ 2 H p <
1
: 1/ 2 H p =
| | | | 2 ( ,1/ 2) 2 ( ,1/ 2) , p value m P Binomial n ou P Binomial n m = s = > ÷
10
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
55
Exemplo - Cancro pancreático
 Quando os pacientes têm Cancro pancreático, muitas vezes a
cirurgia é necessária para remover a parte do pâncreas que tem o
cancro. Quando estas cirurgias são concluídas, o cirurgião tem a
opção de fazer uma cirurgia mais complexa para preservar o baço
(preservação baço) ou para remover o baço como parte de
cirurgia (Esplenectomia).
 Um estudo foi feito para comparar as duas opções cirúrgicas em
termos de resultados de saúde, ónus de custo e tempo na equipa
cirúrgica.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
56
Questão
 Uma pergunta para cada técnica é determinar o efeito da cirurgia
sobre a contagem de plaquetas em pacientes. As plaquetas estão
envolvidas na coagulação dos pacientes; por vezes, aos pacientes
em cirurgia são dados medicamentos para limitar a quantidade de
coagulação durante a cirurgia.
 Uma grande mudança no número de plaquetas pode ser um sinal
de que a cirurgia foi particularmente difícil.
 Para cada técnica, os cirurgiões pretendiam determinar se há uma
diferença significativa na pre e post contagem de plaquetas de
cirurgia.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
57
Exemplo - Cancro pancreático(cont.)
 Em primeiro lugar, vamos ver o
grupo de preservação baço
 Observe que temos
observações emparelhadas para
cada um dos pacientes
 Estamos interessados na
diferença entre duas medições
 Será que efectivamente há uma
diferença?
Paciente Pre Post Dif
1 260 223 37
2 216 149 67
3 427 224 203
4 217 181 36
5 613 708 -95
6 245 197 48
7 371 303 68
8 236 168 68
9 421 312 109
10 677 521 156
11 363 202 161
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
58
Histograma
 Uma vez que temos dados
emparelhados, poderíamos
utilizar o teste-t emparelhado.
 O que se pode dizer sobre a
distribuição das diferenças?
 A suposição de normalidade
do t-teste emparelhado
parece adequada?
 A diferença na contagem de
plaquetas pode ser variável e
conter outliers…
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
59
 A hipótese nula para a nossa investigação é que não há
nenhuma diferença na contagem de plaquetas, antes e após a
cirurgia.
 Para o t-teste de duas amostras, isto seria escrito como
H
0
: diferença média (pre-post) é igual a zero (d = 0)
 Neste caso, temos outliers, portanto, a média não é uma boa
medida de tendência central.
 Que medida se deve usar alternativamente?
 Como podemos estabelecer e testar a hipótese nula
adequada?
Exemplo - Cancro pancreático(cont.)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
60
Teste dos Sinais
 O teste não-paramétrico mais simples é o
Teste dos Sinais
 H
0
: mediana de diferenças (pre-post) = 0
 H
1
: mediana de diferenças (pre-post) ≠ 0
 Sob a hipótese nula, seria de esperar o mesmo número de sinais
positivos e negativos.
 Se a maioria ou todas as diferenças são positivas, haveria algumas provas
contra a hipótese nula.
 Até que ponto podem ser significativas?
| | | |
0
: ; , 0 0 1/ 2;
i i i i i
D X Y sobH P D P D = ÷ > = < =
{ }
| |
0
: =# : 0 ; , ( , 1/ 2),
com :
i i
M D D sob H M Binomial n p
p P X Y
> · =
= >
11
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
61
Teste dos Sinais
 Agora incluímos a coluna
dos SINAIS
 Se não houve realmente
nenhum efeito da terapia,
seria de esperar que iria
haver um número igual de
sinais (+ , - )
 O que se pode ver sobre
os sinais das diferenças?
 Há uma diferença
significativa entre os dois
grupos?
 Como se pode calcular o
p-value ?
Paciente Pre Post Dif SINAL
1 260 223 37
+
2 216 149 67
+
3 427 224 203
+
4 217 181 36
+
5 613 708 -95
-
6 245 197 48
+
7 371 303 68
+
8 236 168 68
+
9 421 312 109
+
10 677 521 156
+
11 363 202 161
+
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
62
Teste dos Sinais
 O p-value é a probabilidade de se obter o valor observado ou algo mais
extremo sob a hipótese nula
• (p = 1/2).
 Para o Teste dos Sinais, esta é a probabilidade do número observado de
sinais positivos ou mais. Para fazer o teste bilateral, devemos ter em
conta também os valores extremos do outro lado.
 Hipótese nula e alternativa:
 p-value:
0 1
: 1/ 2 . : 1/ 2 H p vs H p = =
| | 2 ( ,1/2) , 11, 10 P Binomial n p valu n e m m = = ÷ = >
> 2*pbinom(q=10, size=11, prob=.5, lower.tail = F)
[1] 0.0009765625
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
63
Exemplo - Cancro pancreático(conclusão)
Teste dos Sinais
 Dados Emparelhados, o = 5%
 Hipóteses
• H
0
: mediana das diferenças = 0 (p = 1/2)
• H
1
: mediana das diferenças ≠ 0 (p ≠ 1/2)
 M teve o valor observado de m = 10 (# sinais +)
• p-value = 0.001
Rejeitar a hipótese nula
 Conclusão:
Há uma diferença significativa entre os valores de plaquetas pré e
pós-cirurgia para pacientes que tinham a cirurgia de
preservação baço.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
64
Teste dos Sinais – Grandes amostras
 n “grande” , ie, n ÷+·
 Nas aplicações, para n > 25
/ 2
(0,1)
(1 ) 1/ 2
d
M np M n
np p n
÷ ÷
= ÷÷÷
÷
N
/ 2
(0,1)
1/ 2
M n
Z
n
÷
~ ·N
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
65
Teste dos Sinais – Grandes amostras
 Hipótese nula e alternativa
bilateral:
 p-value:
 Região de Rejeição, ao nível
de significância o :
0 1
: 1/ 2 . : 1/ 2 H p vs H p = =
| |
| |
/ 2 / 2 / 2
2 2 2{1 ( )},
1/ 2 1/ 2 1/ 2
/ 2 / 2
2 2 2 ( ).
1/ 2 1/ 2
M n n n
P P Z z z z
n n n
M n n
ou P
m m
p value
m
P Z z z
n n
( ÷ ÷ ÷
= > ~ > = ÷u =
(
¸ ¸
( ÷ ÷
= s ~ s = u
(
¸ ¸
÷
1
/2 /2 /2
, : (1 /2), quantil da Normal(0,1) Z z ou Z z z
o o o
o
÷
> s÷ =u ÷
/ 2 o / 2 o
/ 2
z
o / 2
z
o
÷
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
66
Teste dos Sinais – Grandes amostras
 Hipótese nula e alternativa unilateral :
 p-value:
 Região de Rejeição, ao nível de significância o :
0 1
: 1/ 2 . : 1/ 2 H p vs H p = >
| |
/ 2 / 2 / 2
1 ( ), .
1/ 2 1/ 2 1/ 2
m m
p
M n n n
P P Z z z z
n n n
value
( ÷ ÷ ÷
= > ~ > = ÷u =
(
¸ ¸
÷
1
/ 2
, : (1 ), quantil da Normal(0,1), :
1/ 2
M n
Z z z Z
n
o o
o
÷
÷
> = u ÷ =
o
z
o
12
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
67
Teste dos Sinais – Grandes amostras
 Hipótese nula e alternativa unilateral :
 p-value:
 Região de Rejeição, ao nível de significância o :
0 1
: 1/ 2 . : 1/ 2 H p vs H p = <
| |
/ 2 / 2 / 2
( ), .
1/ 2 1/ 2 1/ 2
m m
p
M n n n
P P Z z z z
n
value
n n
( ÷ ÷ ÷
= s ~ s = u =
(
¸ ¸
÷
1
/ 2
, : (1 ), quantil da Normal(0,1), :
1/ 2
M n
Z z z Z
n
o o
o
÷
÷
s ÷ = u ÷ =
o
z
o
÷
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
68
Teste dos Sinais – Grandes amostras
EXEMPLO - Sessenta alunos matricularam-se num curso de inglês. Na primeira aula aplica-se um
teste que mede o conhecimento da língua. Após seis meses, aplica-se um segundo teste. Os
resultados mostram que 35 alunos apresentaram melhora (35 +), 20 se conduziram melhor no
primeiro teste (20 -) e 5 não apresentaram modificações (5 “0”). Será que o curso melhorou o
conhecimento de inglês?
H0: O curso não alterou o conhecimento de inglês
H1: O curso melhorou o conhecimento de inglês
o= 5%
Cálculo da variável
m - número de sinais positivos (35);
n – tamanho da amostra descontado os empates (60-5=55)
Z
1-0.05
= Z
0.95
= 1.64, logo se rejeita Ho, ie, o curso não melhorou o conhecimento de inglês
No R: > qnorm(0.95)
/ 2
1/ 2
M n
Z
n
÷
=
/ 2 35 55/ 2
2.02
1/ 2 1/ 2 55
n
z
m
n
÷ ÷
= = =
Teste de Wilcoxon
Contrapartida não-paramétrica para
Teste-t para amostras
emparelhadas
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
70
Amostras Emparelhadas - O Teste de Wilcoxon
(pequenas amostras)
 População X População Y


 O Teste de Wilcoxon é uma extensão do Teste de Sinais. É mais interessante
pois leva em consideração a magnitude da diferença para cada par.
 O teste de sinal analisa apenas o sinal das diferenças, mas o Teste de Wilcoxon
usa o sinal e ordena as diferenças.
1 1 2 2
( , ), ( , ), , ( , )
n n
X Y X Y X Y
0 1
: distribuiçao de distribuiçao de . : localizaçao de localizaçao de

(Teste Bilateral)

H X Y vs H X Y = =
( > ) ou ( < ) (Teste Uni late ral)
: ; : ;
i i i
Diferenças D X Y D X Y = ÷ = ÷
0 1
: ( ) 0 . : ( ) 0
( > ) o
(Teste Bilateral
u ( < )
)
(Teste Unilateral)
H Med D vs H Med D = =
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
71
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
1. Obter as diferenças, D
i
= X
i
- Y
i
2. Obter os Valores Absolutos das diferenças, |D
i
|
3. Desprezar as diferenças de Valor 0 (empates)
diminuindo do mesmo número de unidades, a
dimensão da amostra.
4. Atribuir Ordens, onde a Menor = 1
5. Atribuir Ordens para diferenças „-‟ e „+‟
6. Somar as Ordens „+‟ (T
+
) & Ordens „-‟ (T
-
)
• Estatística de Teste
• T
-
ou T
+
(Teste Unilateral)
• Estatística de Teste
• T:=min(T
-
, T
+
) (Teste Bilateral)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
72
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
 Motivação para a Região de Rejeição:
• Sob a validade de H
0
,
• é de esperar que a soma das ordens positivas (T
+
) não
difira grandemente da soma das ordens negativas (T
-
).
• Uma soma “grande” para as ordens positivas (T
+
)
relativamente a soma das ordens negativas (T
-
),
implica que a Mediana das Diferenças, Med(D), tenha
uma pequena probabilidade de ser igual a zero.
13
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
73
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Rejeitar H
o
se T ≤ T0 (Tabela 9), com
T:=min(T
-
, T
+
)
H
o
: Med(D) =0 (As distribuições de X e de Y são idênticas)
Teste Bilateral
H
1
: Med(D)= 0 (As distribuições de X e de Y diferem na localização)
No R:
wilcox.test(x,y,alternative = c("two.sided"),paired =T)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
74
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Rejeitar H
0
se T
-
≤ T0
H
o
: Med(D) = 0 (As distribuições de X e de Y são idênticas)
Teste Unilateral
H
1
: Med(D) > 0
(A distribuição de X tem
localização à direita da
localização de Y)
H
1
: Med(D) < 0
(A distribuição de Y tem
localização à direita da
localização de X)
Rejeitar H
0
se T
+
≤ T0
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
75
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
 n “grande” , ie, n ÷+·
 Nas aplicações, para n > 25
( 1) / 4
(0,1)
( 1)(2 1) / 24
d
T n n
n n n
+
÷ +
÷÷÷
+ +
N
( 1) / 4
(0,1)
( 1)(2 1) / 24
T n n
Z
n n n
+
÷ +
~ ·
+ +
N
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
76
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
1
/ 2 / 2 / 2
, : (1 / 2), z ou z z
o o o
o
÷
> s ÷ = u ÷ Z Z quantil da N(0,1)
ie, Rejeitar H
o
se |Z| > z
o/2
Teste Bilateral
H
o
: Med(D) = 0 (As distribuições de X e de Y são idênticas)
H
1
: Med(D)= 0 (As distribuições de X e de Y diferem na localização)
( 1) / 4
:
( 1)(2 1) / 24
n n
n n n
÷ +
=
+ +
+
T
Z
p-value:
 Região de Rejeição, ao nível de significância o :
| | 2 2{1 ( )}. P Z z z = > = ÷u
/ 2 o / 2 o
/ 2 zo / 2 zo ÷
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
77
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
1
, : (1 ) z z
o o
o
÷
> = u ÷ Z
Teste Unilateral
H
o
: Med(D) = 0 (As distribuições de X e de Y são idênticas)
H
1
: Med(D)> 0
(localização de X à direita
da localização de Y)
p-value:
 Região de Rejeição, ao nível de significância o :
| | 1 ( ). P z z > = ÷u Z
H
1
: Med(D)< 0 (localização
de X à esquerda da
localização de Y)
1
, : (1 ) z z
o o
o
÷
s ÷ = u ÷ Z
| | ( ). P z z = u s Z p-value:
o
zo
o
zo ÷
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
78
Exemplo - Cancro pancreático
 Agora, podemos analisar o
grupo que teve intervenção
cirúrgica com Esplenectomia
 Novamente, temos
observações emparelhadas
sobre cada um dos
pacientes, e estamos
interessados na diferença
entre duas medições de
plaquetas.
 Será que há uma diferença
significativa?
Patient Pre Post
1 492 375
2 297 382
3 272 325
4 367 585
5 206 181
6 284 237
7 338 273
8 212 243
9 161 147
10 384 326
11 224 214
12 251 292
13 224 263
14
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
79
Exemplo - Cancro pancreático - Teste de Wilcoxon
 A hipótese nula para a nossa
investigação é que não há nenhuma
diferença na contagem de plaquetas, antes e
após a cirurgia com Esplenectomia .
• H
0
: Med(D) = 0
• H
1
: Med(D) ≠ 0
 Rejeitar Ho se T ≤ T
0
(Tabela 9),
com
T:=min(T- , T+)
 Valor observado de T = 44
 T
0
(Tabela 9): n=13
• Two-sided p=0.10
• T
0
=21
• Então: T >T
0,
 não se rejeita H
0.
Conclusão: Não há nenhuma evidência de
uma diferença entre o pré e pós contagem
plaquetas para os pacientes que tinham
uma Esplenectomia durante sua cirurgia.
Pacient
e
Pre Post Di |Di| Ordem T+ T-
1 492 375 117 117 12 12
2 297 382 -85 85 11 11
3 272 325 -53 53 8 8
4 367 585 -218 218 13 13
5 206 181 25 25 3 3
6 284 237 47 47 7 7
7 338 273 65 65 10 10
8 212 243 -31 31 4 4
9 161 147 14 14 2 2
10 384 326 58 58 9 9
11 224 214 10 10 1 1
12 251 292 -41 41 6 6
13 224 263 -39 39 5 5
44 47
No R:
x=c(492,297,272,367,206,284,338,212,161,384,224,251,224)
y=c(375,382,325,585,181,237,273,243,147,326,214,292,263)
wilcox.test(x, y ,alternative = c("two.sided"),paired =T)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
80
Conclusões
 Os nossos testes de hipóteses mostram que:
• os doentes a partir do grupo de preservação baço tinham uma
mudança significativa na sua contagem de plaquetas após cirurgia (rej H0)
• e os pacientes do grupo Esplenectomia não têm uma mudança
significativa na sua contagem de plaquetas após cirurgia (não rej H0).
 Estes resultados podem mostrar que a cirurgia de
preservação baço é difícil para o paciente e outras
medidas devem ser investigadas para garantir que esta
cirurgia não é excessivamente agressiva para os de
pacientes.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
81
Comentários
 Quando nós temos dados emparelhados e os pressupostos
de um teste-t emparelhado não forem pressupostos, temos
duas maneiras para elaborar o teste de hipóteses sobre a
localização:
• O Teste de Wilcoxon é sempre preferido ao Teste dos
Sinais já que usa mais informação contida nos dados (já que usa as
ordens).
• O Teste de Wilcoxon tem muito mais potência do que o
Teste dos Sinais para detectar uma diferença significativa.
• Não há uma grande perda de potência no Teste de Wilcoxon
comparado a um teste-t quando se mantém a suposição de
normalidade.
• Por outro lado, o Teste de Wilcoxon é muito mais potente do que
o teste-t quando não é válida a suposição de normalidade.
Teste Mann-Whitney
Contrapartida não-paramétrica para
Teste-t para amostras
independentes
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
83
Teste Mann-Whitney – pequenas amostras independentes
1. Testes para Duas Populações, X e Y, Independentes
2. Corresponde ao Teste-t para 2 valores médios
3. Pressupostos
Amostras Aleatórias Independentes (dimensões n
1
e n
2
)
Populações Contínuas
4. Aproximação Normal se n
i
> 10
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
84
Teste Mann-Whitney – pequenas amostras independentes
 H
0
: X e Y têm distribuição idêntica
 H
1
: As distribuições de X e Y diferem na Localização
• T
1
= Soma das Ordens das Observações da amostra 1
na amostra conjunta de dimensão n=n
1
+ n
2
• T
2
= Soma das Ordens das Observações da amostra 2
na amostra conjunta de dimensão n=n
1
+ n
2
15
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
85
U
1
= n
1
n
2
+ - T
1
n
1
(n
1
+ 1)
2
U
2
= n
1
n
2
+ - T
2
n
2
(n
2
+ 1)
2
Teste Mann-Whitney – pequenas amostras independentes


Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
86
Teste Mann-Whitney – procedimento
1. Atribuir Ordens para as n=n
1
+ n
2
Observações
Amostrais
• Se n
1
≠ n
2
, considera-se o índice 1 para a menor
dimensão (n
1
)
• Menor Ordem = 1, Maior Ordem = n
• Valores Iguais (ligações) são subsituídos pela
respectiva média das ordens.
2. Somar as Ordens, T
i
, i=1,2, para cada Amostra
• A distribuição exacta da ET, U , pode ser calculada
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
87
Teste Bilateral
H
1
: As duas populações, X e Y, diferemna localização
Rejeitar H
0
ao nível ose o valor observado de U , u, for tal que
p-value = 2 P[U < u ] s o
Teste Mann-Whitney – pequenas amostras independentes
Procedimento:
1. Assumir que n
1
≤ n
2
(inverter as amostras se
necessário)
2. Determinar U
1
e U
2
3. U := min (U
1
,U
2
)
4. Usar os valores da Tabela 8 para testar H
0
vs H
1
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
88
Procedimento:
1. Assumir que n
1
≤ n
2
(inverter as amostras se
necessário)
2. Determinar U
1
e U
2
3. Usar os valores da Tabela 8 para testar H
0
vs H
1
Teste Unilateral
H
1
: A população 1 (X) está
localizada à direita da
população 2 (Y)
Rejeitar H
0
ao nível o se o valor
observado de U
1
, u
1
, for tal
que
p-value=P[U < u
1
]s o, com
U = U
1
Teste Unilateral
H
1
: A população 1 (X) está
localizada à esquerda da
população 2 (Y)
Rejeitar H
0
ao nível o se o valor
observado de U
2
, u
2
, for tal
que
p-value=P[U < u
2
]s o, com
U = U
2
Teste Mann-Whitney – pequenas amostras independentes
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
89
Z:=
U
2
- µ
U
o
U
2
2
Teste Mann-Whitney – grandes amostras independentes
 Aproximação à Normal


n
1
n
2
2
µ
U
=
2
n
1
n
2
(n
1
+ n
2
+ 1)
12
o
U
=
2
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
90
Teste Mann-Whitney – grandes amostras independentes
Rejeitar H
o
se | Z| > Z
o/2
H
1
: As distribuições de X e Y diferem na Localização
Teste Bilateral
H
0
: X e Y têm distribuição idêntica
Determine U
2
= n
1
n
2
+ - T
2
n
2
(n
2
+ 1)
2
Z
o/2
:= u
-1
(1- o/2), u(.) f.d. da N(0,1)
/ 2 o / 2 o
/ 2 zo / 2 zo ÷
16
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
91
Teste Mann-Whitney – grandes amostras independentes
H
0
: X e Y têm distribuição idêntica
Determinar U
2
= n
1
n
2
+ - T
2
n
2
(n
2
+ 1)
2
Teste Unilateral
H
1
: A população 1 (X) está
localizada à direita da
população 2 (Y)
Rejeitar H
0
se Z> z
o
Teste Unilateral
H
1
: A população 1 (X) está
localizada à esquerda
da população 2 (Y)
Rejeitar H
0
se Z< -z
o
o
zo
o
zo ÷
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
92
Teste Mann-Whitney– Exemplo
 Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as
taxas (% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as
taxas são 85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a
mesma distribução de probabilidade ao nível de .10 ?
 H0: Distribuição Idêntica
 Ha: Localização Diferente
 o = .10
 n1 = 4 n2 = 5
 Pontos críticos:
Estatística de Teste :
Decisão:
Conclusão:
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
93
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 85
82 82
77 94
92 97
88 ... ...
Soma
das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
94
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 82
77 94
92 97
88 ... ...
Soma
das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
95
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 82
77 2 94
92 97
88 ... ...
Soma
das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
96
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 3 82 4
77 2 94
92 97
88 ... ...
Soma
das Ordens
17
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
97
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 3 3.5 82 4 3.5
77 2 94
92 97
88 ... ...
Soma
Das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
98
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94
92 97
88 ... ...
Soma
Das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
99
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94
92 97
88 6 ... ...
Soma
Das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
100
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94
92 7 97
88 6 ... ...
Soma
Das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
101
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94 8
92 7 97
88 6 ... ...
Soma
das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
102
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94 8
92 7 97 9
88 6 ... ...
Soma
Das Ordens
18
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
103
Teste Mann-Whitney– Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94 8
92 7 97 9
88 6 ... ...
Soma
Das Ordens
19.5 25.5
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
104
Teste Mann-Whitney– Exemplo
 Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas
(% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são
85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma
distribução de probabilidade ao nível de .10 ?
 H0: Distribuição Idêntica
 Ha: Localização Diferente
 o = .10
 n1 = 4 n2 = 5
Estatística de Teste :
T1 = 5 + 3.5 + 8+ 9 = 25.5
(Amostra de dimensão mais pequena)
p-value= 2P[ U1< 4.5 ] >2P[ U1< 4] =2x 0.0952
Decisão:
Não Rejeitar ao nível de o = 10%
Conclusão:
Não existe evidência estatística que nos permita duvidar que as 2
Fábricas têm Taxas de Produção Idênticas, ao nível de 10%.
1 1
1 1 2 1
( 1) 4 5
4 5 25.5 4.5
2 2
n n
U n n T
+ ×
= + ÷ = × + ÷ =
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
105
Teste Mann-Whitney– Exemplo
 Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas
(% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são
85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma
distribução de probabilidade ao nível de .10 ?
 H0: Distribuição Idêntica
 Ha: Localização Diferente
 o = .10 n1 = 4 n2 = 5
No R:
x<-c(71, 82, 77, 92, 88)
y<-c(85, 82, 94, 97)
wilcox.test(x, y ,alternative = c("two.sided"),paired =F)
Wilcoxon rank sum test with continuity correction
data: x and y
W = 4.5, p-value = 0.2187
alternative hypothesis: true location shift is not equal to 0
Teste de Kruskal-Wallis
Contrapartida não-paramétrica para
ANOVA completely
randomized
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
107
Teste de Kruskal-Wallis
 A análise da variância leva em consideração que
• as variáveis são independentes,
• tem uma distribuição normal com uma variância
comum (homogeneidade das variâncias)
• média constante em cada coluna.
 O teste Kruskal-Wallis é um método não
paramétrico.
• Não leva em consideração formas específicas de
distribuição.
• Contrapartida não-paramétrica para
ANOVA completely randomized
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
108
Teste Kruskal-Wallis
 Trata-se de um teste para decidir se
k amostras de dimensões ni, i=1,…,k, (k>2) independentes
provêmde
• Ho: k populações com distribuições idênticas.
versus
• H1: pelo menos duas das k populações diferem
na localização.
 Considerar a amostra global das n = ∑n
i
observações e
atribua Ordens.
 Calcular as Somas das Ordens R
i
, para cada amostra
i=1,…,k.
19
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
109
Teste Kruskal-Wallis
 Estatística de Teste:
• Semempates
• Com empates( Siegel & Castellan ‟88, pg.210)
g := nº de grupos de empates distintos
tj := nº de valores empatados no grupo j de
empates, j=1,…,g
2
* 2
1 1
12 12
3( 1) ( ) ,
( 1) ( 1)
/ e ( 1) / 2
k k
i
i i
i i i
i i i
R
H H n n R R
n n n n n
R R n R n
= =
= = ÷ + = ÷
+ +
= = +
¿ ¿
*
3
1
3
( )
1
g
j j
j
H
H
t t
n n
=
=
÷
÷
÷
¿
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
110
Teste Kruskal-Wallis – Grandes Amostras
 Sob a hipótese nula, Estatística de Teste H
segue aproximadamente um Qui-Quadrado com g.l.= k-1
 Decisão: Rejeitar Ho se o valor da ET de K-Wé
“grande”
Rejeitar hipótese nula Ho se H > χ
2
k-1, 1-α
χ
2
k-1, 1-α
 Deve-se usar apenas quando a mais pequena das
dimensões n
i
≥ 5.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
111
Teste Kruskal-Wallis – Pequenas Amostras
 Quando k= 3 e n
i
s 5, sem empates:
 os Quantis w
c
, c =0.90, 0.95, 0.99 da
distribuição exacta da ET K-W estão
tabelados na
• Tabela A8 (Conover ‟80)
 Decisão: (ao nível α)
Rejeitar hipótese nula Ho se H > w
1-α
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
112
Teste de Kruskal-Wallis
 Primeiramente, os dados são convertidos em “ordens”.
 Considere os 4 Tratamentos seguintes, A, B, C, D, cada
um com cinco réplicas.
 Podemos dizer que esses valores são provenientes da
mesma distribuição?
 Ou seja, não existe uma diferença significativa entre os
Tratamentos?
Tratamentos A B C D
27 48 11 44
14 18 0 72
8 32 3 81
18 51 15 55
7 22 8 39
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
113
Teste de Kruskal-Wallis
 Ordenação
•Nota:
As diferenças nos pontos médios (Ri/ni) indicam diferenças nos grupos.
i
i
i
i
i
i
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
114
Teste de Kruskal-Wallis
 A hipótese nula é que todos os grupos vêem da
mesma população.
 Seja n = 20, o tamanho da amostra total.
 A Estatística de Teste é
 Para nosso exemplo
2
*
1
12
3( 1)
( 1)
k
i
i i
R
H n
n n n
=
= × ÷ +
+
¿
| |
*
12
259.2 884.45 92.45 1479.2 3 (21) 14.6
20 21
H
(
= + + + ÷ × =
(
× ¸ ¸
20
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
115
Teste de Kruskal-Wallis
 Factor de Correcção:
Com g = 2 (valores 8 e 18), t1 = t2 = 2 (dois valores 8 e dois valores 18),
 A Estatística de Teste corrigida é
 Para nosso exemplo
14.6
14.622
0.9985
H = =
*
2
3
1
3
( )
1
j j
j
H
H
t t
n n
=
=
÷
÷
÷
¿
2
3
3
1
3 3
( )
2(2 2) 12
1 1 1 0.9985
20 20 7980
j j
j
t t
n n
=
÷
÷
÷ = ÷ = ÷ =
÷ ÷
¿
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
116
Teste de Kruskal-Wallis
DECISÃO:
Logo, a hipótese nula deve ser rejeitada, ou seja,
as amostras não pertencem a mesma população.
 Comparação deste valor com o quantil _2 com (k -1=3)
graus de liberdade.
 Da tabela do _2 com 3 graus de liberdade temos
• χ
2
3, 0.95
=7.81 para 95%.
• Como H = 14.622
χ
2
3
7.81 14.5
χ
2
3, 0.95
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
117
Teste de Kruskal-Wallis
No R:
aa <- c(27,14,8,18,7) # tratamento A
bb <- c(48,18,32,51,22) # tratamento B
cc <- c(11,0,3,15,8) # tratamento C
dd <- c(44,72,81,55,39) #tratamento D
grupo <- factor(rep(1:4, each=5),labels = c("A","B","C","D"))
grupo
r<-rank(c(aa,bb,cc,dd))
R<-tapply(r,grupo,sum)
R
n=20
hstar= (12/(n*(n+1))) * sum(R^2/5) - 3*(n+1)
hstar
#Fator de correção
t=c(2,2)
correction=1-sum(t^3-t)/(n^3-n)
correction
h=hstar/correction
h
#h sob ho segue qui-quadrado com k-1 graus de liberdade=3
p.valor<-pchisq(h,df=3,lower.tail=F)
p.valor
quantil<-qchisq(p=0.95, df=3, lower.tail = TRUE)
quantil
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
118
Teste de Kruskal-Wallis
No R:
kruskal.test(list(aa,bb,cc,dd))
Outro exemplo
## Mucociliary efficiency from the rate of removal of
## dust in normal subjects, subjects with obstructive
## airway disease, and subjects with asbestosis.
x <-c(2.9, 3.0, 2.5, 2.6, 3.2) # normal subjects
y <-c(3.8,2.7,4.0,2.4)# with obstructive airway disease
z <-c(2.8, 3.4, 3.7, 2.2, 2.0) # with asbestosis
Teste do Coeficiente de
correlação ordinal de
Spearman
contrapartida não-paramétrica do
coeficiente de correlação
amostral de Pearson
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
120
 População X População Y (contínuas)
1 1 2 2
( , ), ( , ), , ( , )
n n
X Y X Y X Y
0
: relação ( ) entre e , ie,
e
Não existe associaçao
independente sã o s
H X Y
X Y
Teste do Coef de correlação ordinal de Spearman
1
. : entre exi e ste associaçao (Teste Bilateral) vs H X Y
1
. : entre exist e e associaçao directa (Teste Unilateral) vs H X Y
1
. : entre existe associaçao inversa (Teste Unilateral) e vs H X Y
21
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
121
Teste do Coef de correlação ordinal de Spearman
 O coeficiente de correlação ordinal de
Spearman Rs é a contrapartida não-paramétrica do
coeficiente de correlação amostral de Pearson, em que
os Xi‟s e os Yi‟s sao substituídos pelas suas ordens.
• Para obter r(Xi)=ordem de Xi e r(Yi)= ordem de Yi,
ordenam-se as amostras dos Xi‟s e os Yi‟s separadamente.
 Observação:
 Num modelo paramétrico e Normal, X e Y são independentes sse o
coeficiente de correlção ρ=corr(X,Y)=0, ie,
• testar Ho é equivalente a testar Ho: ρ =0, pelo que e natural usar o coeficiente
de correlacao amostral.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
122
Teste do Coef de correlação ordinal de Spearman
 Coeficiente de correlação ordinal de Spearman Rs:
 Observação: Se o nº de empates for pequeno relativamente ao
nº de pares (Xi,Yi) o erro resultante desta última expressão é
pequeno.
=
= ÷
÷
= ÷
¿
2
1
2
na Se houver ,
6
1 ,
( 1)
com ( )
o
( ).
n
i
i
i i i
S
d
n n
d r x r
empat
y
es
R
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
123
Teste do Coef de correlação ordinal de Spearman
 Região de Rejeição (Pequenas Amostras):
 p-value= 2 min[P(R
S
≤r
S
), P(R
S
≥r
S
)] (Teste Bilateral)
 = P(R
S
≥ r
S
)
 = P(R
S
≤ r
S
) (Testes Unilaterais)
 Observação: Se o nº de empates for pequeno relativamente ao nº
de pares (Xi,Yi) o erro resultante desta última expressão é pequeno.
 Grandes Amostras: para um nº de pares (Xi,Yi) elevado,
pode ser aproximada pela N(0,1). n-1
S
R
÷ > s > ÷
÷ > s
0
0 0 0 0
0 0
Tabela 11,
Teste Bilateral

Com escolhido criteriosamente na
Rejeitar H , se { } | |
} { Testes Unilater { } a s i
S S S
S S
r
r ou r r
r ou r
R R R
R R
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
124
Teste de Spearman - Exemplo
 Cinco professores de Ciências do
ensino básico foram classificados
por um júri de acordo com sua
capacidade pedagógica.
 Esses mesmos professores
realizaram um "exame nacional
para professores".
 Existe acordo entre a classificação
do júri e a classificação no exame?
 Se a Ordenação do Júri é baixa
(melhor professor), seria de
esperar a Classificação elevada
no exame para professores;
 pelo que colocamos na hipótese
alternativa uma associação inversa
entre as variáveis Ordenação do
Júri e Classificação no Exame.
Professor 1 2 3 4 5
Ordenação
do Júri
4 2 3 1 5
Classificação
no Exame
72 69 82 93 80
0
1
: ) entre e
.
: entre e

Não existe associaçao
e

xiste as

sociaçao inversa
(Teste Unilateral)
H X Y
vs
H X Y
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
125
Professor
1 2 3 4 5
Ordenação do Júri 4 2 3 1 5
Classificação no Exame 72 69 82 93 80
R(xi) 4 2 3 1 5
R(yi) 2 1 4 5 3
di 2 1 -1 -4 2
Teste de Spearman - Exemplo
 Ordenar os Resultados dos Exames (a 1ª variavel já está na
forma ordenada). Não há empates.
0
1
) entre e
.
entre e

Não exis

te associaçao
existe asso

ci

açao inversa
(Teste Unilateral)
:

:

H
H
X Y
vs
X Y
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
126
Teste de Spearman - Exemplo
 Com nível de significância=0.05, n=5
 Rejeita-se H0 se Rs <=0
2
2
1
2 2
6
6 6(26)
1 1 1 0.3.
( 1) ( 1) 5(25 1)
S
n
i
i i
d
d
n n n n
r
=
¿
÷ = ÷ = ÷ = ÷
÷
=
÷ ÷
¿
22
Teste de Spearman - Exemplo
No R:
a <- c(4,2,3,1,5)
b <- c(72, 69,82,93,80)
cor.test(a, b, method="spearman",alternative="less")
Spearman's rank correlation rho
data: a and b
S = 26, p-value = 0.3417
alternative hypothesis: true rho is less than 0
sample estimates:
rho
-0.3
> ?cor.test
Teste de Spearman - Exemplo
Decisão: Não Rejeitar Ho.
Não existe evidência suficiente que indique uma
associação negativa entre Ordenação do Júri e
Classificação no Exame, ao nível de significância de
5%.