Professional Documents
Culture Documents
DEPARTAMENTO DE ESTATÍSTICA
CURITIBA
Estado do Paraná - Brasil
2004
Prefácio
Este material baseia-se em vários livros e artigos citados e tem como objetivo apre-
sentar um texto introdutório sobre a Análise de Dados Discretos. Ele pode ser usado
em cursos de Bacharelado em Estatı́stica, bem como em outros cursos de graduação
e de pós-graduação, em que os alunos tenham conhecimentos básicos de probabili-
dade, inferência e regressão bem como tenham, também, noções de alguns testes não-
parámetricos.
O texto se originou de notas de aulas da disciplina Análise de Dados Discretos,
ministrada no curso de Bacharelado em Estatı́stica da Universidade Federal do Paraná,
com o propósito de apresentar métodos para a descrição, análise e modelagem de dados
em que a variável resposta de interesse seja categórica. Diversos exemplos são apresen-
tados e discutidos no decorrer do texto a fim de facilitar o entendimento dos conceitos,
métodos e modelos apresentados.
O manuscrito foi preparado usando o LaTex e as ilustrações e resultados es-
tatı́sticos foram obtidos no pacote estatı́stico R. O texto não está livre de erros e
imperfeições e, desse modo, comentários, crı́ticas e sugestões dos leitores, que possam
contribuir para uma futura edição revisada do mesmo, são bem-vindos.
Página
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Escalas de Mensuração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Dados Obtidos nos Delineamentos Amostrais . . . . . . . . . . . . . . . . . 4
1.2.1 Dados históricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Dados experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Dados de levantamentos amostrais . . . . . . . . . . . . . . . . . . . . . . 5
2 TABELAS DE CONTINGÊNCIA 2 × 2 . . . . . . . . . . . . . . . . . . . . 6
2.1 Modelo produto de Binomiais independentes . . . . . . . . . . . . . . . . . 6
2.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Modelo Produto de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Modelo Hipergeométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Estudos freqüentes e modelos probabilı́sticos associados . . . . . . . . . . . 9
2.5.1 Estudos de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Estudos Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.3 Estudos cross-sectional ou tranversais . . . . . . . . . . . . . . . . . . . . 14
2.5.4 Ensaios clı́nicos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Estatı́sticas de teste e Medidas de Associação . . . . . . . . . . . . . . . . . 16
2.6.1 Estatı́sticas Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6.2 Testes Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.3 Diferença nas proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.4 Risco relativo e odds ratio (razão de chances) . . . . . . . . . . . . . . . 19
ii
2.6.5 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.6 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 TABELAS DE CONTINGÊNCIA: OUTRAS DIMENSÕES . . . . . . . . . 27
3.1 Conjunto de tabelas de contingência 2 × 2 . . . . . . . . . . . . . . . . . . 27
3.1.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Medidas de associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Conjunto de tabelas de contingência 2 × r . . . . . . . . . . . . . . . . . . 30
3.2.1 Associação em uma única tabela de contingência 2 × r . . . . . . . . . . 31
3.2.1.1 Escolha dos escores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 Associação em um conjunto de tabelas de contingência 2 × r . . . . . . . 34
3.3 Conjunto de tabelas de contingência s × 2 . . . . . . . . . . . . . . . . . . . 35
3.3.1 Associação em uma única tabela de contingência s × 2 . . . . . . . . . . 36
3.3.2 Associação em um conjunto de tabelas de contingência s × 2 . . . . . . 37
3.4 Tabelas de contingência s × r . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.1 Testes para associação geral em tabelas s × r . . . . . . . . . . . . . . . . 38
3.4.1.1 Situação 1: variável resposta nominal . . . . . . . . . . . . . . . . . . . 38
3.4.1.2 Situação 2: variável resposta ordinal . . . . . . . . . . . . . . . . . . . . 39
3.4.1.3 Situação 3: ambas as variáveis ordinais . . . . . . . . . . . . . . . . . . 39
3.4.2 Teste exato para associação geral em tabelas s × r . . . . . . . . . . . . . 40
3.4.3 Medidas de associação em tabelas s × r . . . . . . . . . . . . . . . . . . . 40
3.4.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.4.1 Local de moradia e afiliações polı́tico partidárias . . . . . . . . . . . . . 41
3.4.4.2 Medicamentos para dor de cabeça e perı́odo sem dor . . . . . . . . . . . 41
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza . . . . . . . . . 43
3.4.4.4 Tipo de veı́culo adquirido e fonte de propaganda. . . . . . . . . . . . . . 43
3.4.5 Concordância entre observadores . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.1 Estatı́stica Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.2 Exemplo: concordância entre o diagnóstico de dois neurologistas . . . . 46
3.5 Conjunto de tabelas de contingência s × r . . . . . . . . . . . . . . . . . . . 47
iii
Melhora
Medicamento Sim Não Total
Novo 40 20 60
Placebo 16 48 64
Melhora
Sexo Tratamento Acentuada Alguma Nenhuma Total
Feminino Ativo 16 5 6 27
Feminino Placebo 6 7 19 32
Masculino Ativo 5 2 7 14
Masculino Placebo 1 0 10 11
“não melhora”. Grupar categorias é usual durante uma análise se, é claro, a resposta
dicotômica resultante for também de interesse.
Coluna
Linha A B Totais
A n11 n12 n1+
B n21 n22 n2+
Totais n+1 n+2 n
Se, por exemplo, o experimento for realizado de modo que n1+ e n2+ sejam
amostras aleatórias obtidas de dois grupos independentes e de tamanhos fixos (isto é, de
tamanhos estabelecidos antes da execução do experimento), tem-se duas distribuições
binomiais independentes associadas à Tabela 3, uma para cada linha. O modelo proba-
bilı́stico associado à Tabela 3, nessa situação, será, portanto, o modelo produto de
binomiais independentes de modo a ter-se:
Giolo, S. R. Análise de Dados Discretos 7
i) uma variável aleatória N11 com distribuição Bin(n1+ , p11 ) associada a 1a linha da
tabela e,
2 2 n
pijij
( )
Y Y
P (N11 = n11 , N21 = n21 ) = ni+ ! . (1)
i=1 j=1 nij !
Se, no entanto, o experimento for realizado de modo que apenas n seja uma
amostra aleatória de tamanho fixo tem-se, associado à Tabela 3, a distribuição Multi-
nomial descrita pela função de probabilidade:
P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) = P (Nij = nij )
2 n
Y pijij
= n! (2)
i,j=1 nij!
2
X 2
X
sendo, nij = n e pij = 1.
i,j=1 i,j=1
Sexo
Armadilha Machos Fêmeas Total
Alaranjada 246 17 263
Amarela 458 32 490
Total 704 49 753
Nesse experimento, o número de insetos que chegam às armadilhas, seja macho
ou fêmea, é um número (contagem) aleatório, caracterizando, assim, a distribuição de
Poisson. Assume-se, então, que Nij ∼ Poisson(λij ) independentes, i, j = 1, 2, de modo
que associado à Tabela 4, tem-se a distribuição Produto de Poisson descrita pela função
de probabilidade:
n
2 Y
Y 2
e−λij λijij
P (Nij = nij ) = (3)
i=1 j=1 nij !
2
Y 2
Y
ni+ ! n+j !
C n1+ C n2+ i=1 j=1
P (N11 = n11 ) = n11 n n21 = 2 2
. (4)
Cn+1 YY
n! nij !
i=1 j=1
Em sı́ntese tem-se:
Câncer de Pulmão
Fumante Sim Não Totais
Sim 75 45 120
Não 21 56 77
Totais 197
Note que os totais marginais n1+ e n2+ são fixos e, portanto, tem-se associado à
Tabela 6 o modelo produto de Binomiais independentes, uma Binomial para cada linha
da tabela.
Giolo, S. R. Análise de Dados Discretos 12
2.5.2 Estudos Caso-Controle
Grupos
Fumante Casos: com câncer Controles: sem câncer Totais
Sim 75 45
Não 21 56
Totais 96 101 197
Giolo, S. R. Análise de Dados Discretos 14
Observe que, comparativamente ao estudo de Coorte, um estudo caso-controle
apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+ . Para a Tabela 7 tem-
se, também, o modelo Produto de Binomiais independentes, uma Binomial, contudo,
para cada coluna da respectiva tabela.
Sı́ntomas
Sexo Sim Não Totais
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080
Resposta
Tratamento Favorável Não favorável Totais
Novo 29 16 45
Padrão 14 31 45
Totais 43 47 90
(ni+ ) (n+j )
E(Nij | H0 ) = = mij
n
e a variância:
Para uma amostra suficientemente grande, n11 tem aproximadamente uma dis-
tribuição Normal, o que implica que:
(n11 − m11 )2
Q= (5)
v11
2
2 X
X (nij − mij )2 n
QP = = Q. (6)
i=1 j=1 mij (n − 1)
Muitas vezes, contudo, as freqüências observadas nas caselas da tabela são muito
pequenas inviabilizando, assim, o uso da distribuição Qui-quadrado. Métodos exatos
baseados na distribuição hipergeométrica são usados, nessas situações, para testar a
hipótese de associação.
O teste exato de Fisher, em que o valor p é determinado somando-se as probabi-
lidades das tabelas que são pouco prováveis, dado que as marginais são fixas, é, então,
utilizado.
e a variância
RRnovo|placebo = 2, 67
OR = 1, 011
Não há, portanto, evidências estatı́sticas para a rejeição da hipótese nula e, desse
modo, pode-se concluir que a atração de machos e fêmeas não é influenciada pela cor
da armadilha. A atração de machos e fêmeas, da espécie coletada, é semelhante tanto
usando-se armadilhas alaranjadas quanto armadilhas amarelas sendo que, os machos,
apresentam, em média, atração maior às armadilhas do que as fêmeas.
OR = 4, 44
(vi) Tabela 9: referente a um ensaio clı́nico realizado para comparar dois medica-
mentos usados no tratamento de infecções severas. Para esse estudo tem-se H0 : não
existe associação entre tratamento e a resposta do paciente. Para testá-la, os seguintes
resultados das estatı́sticas de teste e medidas de associação foram obtidos:
RR(novo | padrão) = 2, 07
52 100
Sensibilidade = = 0, 867 e Especificidade = = 0, 833.
60 120
Resultado do exame
Status + - Totais
Doença presente 52 8 60
Doença ausente 20 100 120
em torno de 87% dos casos positivos e 83% dos casos negativos. O exame deixou,
contudo, de detectar em torno de 13% dos casos positivos (taxa de falsos negativos =
8/60 = 0,1333) e em torno de 17% dos casos apresentou resultado positivo erronea-
mente (taxa de falsos positivos = 20/120 = 0,1667). A taxa bruta de concordância
(poder preditivo) do exame foi de 152/180 = 0.844 (84.4%). Dos 72 resultados posi-
tivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder preditivo positivo
do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado, dos 108 resultados nega-
tivos apresentados pelo exame, 100 estavam corretos fornecendo, assim, para o poder
preditivo negativo do exame, um valor de 100/108 = 0,926 (92,6%).
Seria, desse modo, recomendável que o teste fosse realizado mais de uma vez,
em cada paciente, para evitar que um paciente doente não seja tratado ou que, um
paciente livre da doença seja tratado indevidamente. Se, contudo, o medicamento a
ser utilizado não apresenta efeitos colaterais, recomenda-se um segundo teste somente
para os pacientes que apresentarem resultado negativo. Como cada doença apresenta
suas peculiaridades, deve-se analisar, para cada uma delas, o que é de fato relevante.
Em determinadas situações, por exemplo, há um interesse maior em testes com alta
sensibilidade e, especificidade, relativamente inferior.
Após
Antes Aprova Reprova Totais
Aprova 20 5 25
Reprova 10 10 20
Totais 30 15 45
Tabela 12. Resultados de um ensaio clı́nico realizado para comparar dois medica-
mentos usados no tratamento de infecções respiratórias severas.
Resposta
Centro Tratamento Favorável Não favorável Totais
1 Novo 29 16 45
1 Padrão 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrão 24 21 45
Totais 61 29 90
Note que a tabela acima é, na realidade, um conjunto de duas tabelas de con-
tingência 2 × 2 e em que, as mesmas questões de uma única tabela, são de interesse.
Ou seja, existe associação entre tratamento e a resposta do paciente e, se existe, qual a
intensidade dessa associação?
Como o interesse concentra-se na associação global entre o tratamento e a resposta,
poder-se-ia pensar em somar as freqüências das linhas correspondentes a cada trata-
mento obtendo-se, assim, uma única tabela de contingência 2 × 2. Os pesquisadores
Giolo, S. R. Análise de Dados Discretos 28
notaram, contudo, que os pacientes apresentaram comportamentos acentuadamente di-
ferentes em cada centro e que este deveria ser, portanto, considerado na análise. Em
alguns casos, a estratificação pode ter sido planejada, em outros surge após a coleta dos
dados.
Uma análise estratificada é, desse modo, a estratégia a ser adotada nessas
situações. Em tal análise, examina-se a associação entre as duas variáveis de interesse
controlando-se, ou ajustando-se, para o efeito de centro.
Coluna
Linha A B Totais
A nh11 nh12 nh1+
B nh21 nh22 nh2+
Totais nh+1 nh+2 nh
nh1+ nh+1
E(Nh11 | H0 ) = = mh11
nh
q q !2 q !2
X X X (nh1+ nh2+ )
nh11 − mh11 (ph11 − ph21 )
h=1 h=1 h=1 nh
QM H = q = q
X X
vh11 vh11
h=1 h=1
em que,
2
h (nh12 + nh21 )(nh12 nh21 )/nh
P
+ .
2( h (nh12 nh21 )/nh )2
P
ORM H = 4, 028
Tabela 14. Resultado de um ensaio clı́nico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumatóide.
Melhora
Sexo Tratamento Nenhuma Alguma Acentuada Totais
Feminino Ativo 6 5 16 27
Feminino Placebo 19 7 6 32
Totais 25 12 22 59
Masculino Ativo 7 2 5 14
Masculino Placebo 10 0 1 11
Totais 17 2 6 25
Tabela 15. Resultado de um ensaio clı́nico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumatóide.
Melhora
Tratamento Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
A vantagem desses escores sobre os escores inteiros é que o analista não se respon-
sabiliza diretamente pela seleção dos escores. Ele usa os dados para obtê-los.
Para muitos conjuntos de dados, a escolha dos escores apresentam pequeno efeito
nos resultados. Escolhas diferentes de escores inteiros usualmente fornecem resultados
similares. Isso pode, contudo, não acontecer quando os dados são muito desbalanceados,
tal como quando algumas categorias apresentam muito mais observações do que outras.
Giolo, S. R. Análise de Dados Discretos 34
Com os escores padronizados (midranks) isso também ocorre, uma vez que aquelas
categorias apresentando poucas observações, em relação as demais, apresentarão escores
muito próximos. A conseqüência disto é que as distâncias entre os nı́veis da variável
resposta podem vir a ser consideradas muito mais próximas do que elas realmente são.
Como pode ser visto, a escolha dos escores não é uma tarefa tão simples. Agresti
(1990, 1996) recomenda que os dados sejam analisados usando diversos razoáveis con-
juntos de escores para determinar se conclusões importantes dependem das escolhas
feitas. O pesquisador é, sem dúvida, de fundamental importância para o entendimento
das distâncias entre os nı́veis da variável resposta e conseqüente escolha adequada dos
escores.
j=1 nh1+
é o escore médio para o tratamento Ativo na h-ésima tabela. Sob a hipótese nula de
não associação f+1 tem valor esperado dado por:
2
X
E(f+1 | H0 ) = nh1+ µh = µ∗
h=1
e variância,
2
X nh1+ (nh − nh1+ )
V (f+1 | H0 ) = vh = v ∗
h=1 (nh − 1)
3 3
!
(ahj nh+j ) nh+j
(ahj − µh )2
X X
em que µh = e vh = .
j=1 nh j=1 nh
Giolo, S. R. Análise de Dados Discretos 35
P2 P3
Se os tamanhos amostrais n+i+ = h=1 j=1 nhij são suficientemente grandes,
então f+1 tem distribuição aproximadamente normal e a quantidade
(f+1 − µ∗ )2
QSM H =
v∗
Tabela 16. Resultado de um estudo realizado com adolescentes para investigar fa-
tores que afetam o uso do tabaco.
Pai usa Consciência do risco Não usa tabaco Usa tabaco Totais
Não Mı́nima 59 25 84
Não Moderada 169 29 198
Não Substancial 196 9 205
Totais 424 63 487
Sim Mı́nima 11 8 19
Sim Moderada 33 11 44
Sim Substancial 22 2 24
Totais 66 21 87
i=1 j=1 n
em que, sob H0 ,
3 n 2 n
i+ +j
E(f¯ | H0 ) =
X X
ci aj = µ c µa
i=1 n j=1 n
e
3 2
(aj − µa )2 (n+j /n)
( )
n
i+
V (f¯ | H0 ) =
X
2
X
(ci − aj )
i=1 n j=1 (n + 1)
em que rac é o coeficiente de correlação de Pearson. Por este fato QCS é denominada
estatı́stica da correlação. Ainda, QCS tem distribuição aproximada Qui-quadrado com
1 grau de liberdade.
Para os dados da primeira tabela de contingência 3 × 2 da Tabela 16 obteve-
se QCS = 34, 28 (p < 0,0001), concluindo-se, portanto, haver uma forte associação
(correlação) entre consciência do risco de fumo e uso de tabaco.
Mantel (1963) também propôs uma estatı́stica de teste para a associação de duas
variáveis que são ordinais em um conjunto de tabelas s × 2, baseada nos escores a e c
assumidos para as colunas e linhas das tabelas. Esta estatı́stica é expressa por:
" " #2
2
f¯h − E(f¯h | H0 )
Pq Pq 1/2
h=1 nh h=1 nh (vhc vha ) rca.h
QCSM H = = Pq
n2h var(f¯h | H0 )
Pq h i
h=1 h=1 n2h vhc vha /(nh − 1)
Para testar a hipótese nula de não existência de associação geral em uma tabela
de contingência s × r pode-se usar:
que, quando todas as caselas apresentarem valores esperados maiores que 5, tem
distribuição aproximada Qui-quadrado com (s -1)(r - 1) graus de liberdade.
Giolo, S. R. Análise de Dados Discretos 39
ii) a estatı́stica Q que, como para uma tabela de contingência 2 × 2, é obtida por:
(n − 1)
Q= QP
n
ni+ (f¯i − µa )2
Ps
(n − 1) i=1
QS =
n va
2
QCS = (n − 1) rac
3.4.4 Exemplos
Local de Moradia
Partido Polı́tico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 548 836 2570
Horas de alı́vio
Tratamento 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrão 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Claramente, número de horas é uma variável resposta ordinal. Nesses casos, o teste
escore médio, como visto anteriormente, é indicado para testar a hipótese nula de não
associação entre medicamento e a intensidade do alı́vio de dor de cabeça. Utilizando-se,
portanto, os escores a = (0, 1, 2, 3, 4) obteve-se QS = 13, 7346 ( p = 0,00104, g.l = 2).
Assim, há evidências estatı́sticas de associação entre tratamento e o número de horas
de dor de cabeça. Pode-se, desse modo, concluir que pelo menos dois tratamentos
diferem entre si. Quais deles diferem? Observe que f¯1 = 1, 36, f¯2 = 2, 64 e f¯3 = 2, 41
fornecendo indı́cios de que o placebo difere dos tratamentos novo e padrão. Não parece
haver indı́cios, contudo, de diferenças entre os tratamentos novo e padrão.
Considerando-se, então, a tabela com somente as linhas correspondentes aos trata-
mentos padrão e novo tem-se QS = 0,465 (p = 0,495, g.l. = 1). Conclui-se, desse modo,
que os tratamentos novo e padrão não diferem entre si. Para as demais comparações
obtiveram-se: i) placebo versus novo: QS = 8, 6 (p = 0,0034, g.l. = 1)
ii) placebo versus padrão: QS = 11, 66 ( p = 0,0006, g.l. = 1).
Observe, neste exemplo, que existe várias caselas com número esperado menores
que 5 o que inviabiliza a utilização das estatı́sticas Q e QP , mas não inviabiliza o uso da
estatı́stica QS . Este é, portanto, um exemplo que mostra a vantagem em se considerar
a escala ordinal dos dados utilizando-se uma estatı́stica de teste mais apropriada.
Giolo, S. R. Análise de Dados Discretos 43
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza
Limpeza
Tratamento Baixa Média Alta Totais
Água pura 27 14 5 46
Água + trat. padrão 10 17 26 53
Água + dose dupla trat. padrão 5 12 50 67
Totais 42 43 81 166
Ambas as variáveis são, nesse caso, ordinais e como foi visto, a estatı́stica da
correlação QCS é indicada. Tomando-se, desse modo, os escores a = (1, 2, 3) e c = (1,
2, 3) para as categorias das variáveis limpeza e tratamento, respectivamente, obteve-se
QCS = 50,6 (p < 0,0001, g.l.= 1). Conclui-se, portanto, que o tratamento e limpeza
estão associados e que a limpeza aumenta com a dosagem de aditivo adicionado à agua.
Anúncio publicitário
Tipo de carro TV Revista Jornal Radio Totais
Sedan 4 0 0 2 6
Esportivo 0 3 3 4 10
Utilitário 5 5 2 2 14
Totais 9 8 5 8 30
tal teste para os dados desse exemplo obteve-se um valor p = 0,0473 (bilateral). Não
existe teste exato de Fisher unilateral para tabelas s × r. Conclui-se, nesse caso, haver
evidências de associação ao nı́vel de significância de 5%. Para nı́veis de significância
menores não é possı́vel concluir pela existência de associação entre o tipo de carro
comprado e tipo de anúncio publicitário.
Π0 − Π e
κ̂ =
1 − Πe
Ps Ps nii
sendo Π0 = i=1 pii = i=1 n a probabilidade de concordância com, pii a probabi-
lidade de um indivı́duo ser classificado na categoria i por ambos os observadores e,
Ps Ps ni+ n+i
Πe = i=1 (pi+ )(p+i ) = i=1 n n
a probabilidade de concordância sob H0 em que
H0 : não há concordância entre os observadores.
Como Π0 = 1 quando existir concordância perfeita (todos os elementos fora da
diagonal são iguais a zero), κ será igual a 1 quando existir concordância perfeita entre
os observadores e, κ será igual a 0 quando a concordância for aquela esperada sob
H0 . Assim quanto mais próximo de 1 for o valor de κ, maior concordância existirá
entre os observadores. É possı́vel obter valores negativos para κ mas isto, raramente
ocorre. Considera-se, em geral, κ < 0,4 como concordância fraca, κ entre [0,4; 0,8)
como concordância moderada e κ ≥ 0,8 como concordância forte.
A variância assintótica do coeficiente Kappa pode ser estimada por:
(A + B − C)
var(κ̂) =
((1 − Πe )2 n)
h i2
em que A = pii 1 − (pi+ + p+i )(1 − κ̂) , B = (1 − κ̂)2 ) pij (p+1 pj+ )2 e
P PP
i i6=j
h i2
C = κ̂ − Πe (1 − κ̂) . Um intervalo de confiança para κ pode, portanto, ser obtido por:
q
κ̂ ± zα/2 (var(κ̂))
| escore(i) − escore(j) |
wij = 1 −
escore(dim) − escore(1)
em que escore(i) é o escore para a i-ésima linha, escore(j) é o escore para a j-ésima coluna
e dim é a dimensão da tabela s × s.
A variância assintótica do coeficiente Kappa ponderado pode ser estimada por:
h i2 h i2
pij wij − (w̄i+ + w̄+j )(1 − κ̂w ) − κ̂w − Πe (w)(1 − κ̂w )
P P
i j
var(κ̂w ) =
(1 − Πe (w))2 n
√
κ̂(w) ± zα/2 var(κ̂w )
Neurologista 1
Neurologista 2 1 2 3 4 Totais
1 38 5 0 1 44
2 33 11 3 0 47
3 10 14 5 6 35
4 3 7 3 10 23
Totais 84 37 11 17 149
Giolo, S. R. Análise de Dados Discretos 47
Para esses dados obteve-se:
((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/149 2 )
κ̂ =
1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/1492 ))
κ̂ = 0, 2079.
Doença coronária
Idade (X = x) Não (Y = 0) Sim (Y = 1) Totais E(Y | x)
20-29 9 1 10 0,10
30-34 13 2 15 0,13
35-39 9 3 12 0,25
40-44 10 5 15 0,33
45-49 7 6 13 0,46
50-54 3 5 8 0,63
55-59 4 13 17 0,76
60-69 2 8 10 0,80
Totais 57 43 100 0,43
0.8
0.7
0.6
0.5
E[Y|x]
0.4
0.3
0.2
0.1
30 40 50 60
Idade(em anos)
observado na Figura 1. Observe ainda, nesta mesma figura, que a mudança em E(Y | x)
por unidade de mudança em x torna-se progressivamente menor quando E(Y | x) torna-
se próxima de zero ou de um. A curva em forma de “S” lembra a distribuição acumulada
de uma variável aleatória, o que motivou o uso da distribuição logı́stica para fornecer
um modelo para E(Y | x).
Giolo, S. R. Análise de Dados Discretos 50
A função de distribuição logı́stica é descrita por:
1 exp{x}
F (x) = =
1 + exp{−x} 1 + exp{x}
em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua correspondente
representação gráfica é mostrada na Figura 2.
1.2
1.0
0.8
F(x)
0.6
0.4
0.2
0.0
−20 −10 0 10 20
A função de distribuição logı́stica toma valores entre zero e um; assume o valor
zero em uma parte do domı́nio das variáveis explicativas, um em outra parte do domı́nio
e cresce suavemente na parte intermediária possuindo uma particular curva em forma
de “S”. Se comparada a Figura 1 pode-se notar as similaridades.
Outras funções de distribuição possuem as caracterı́sticas acima mencionadas. A
função logı́stica foi escolhida, no entanto, basicamente por duas razões: (i) do ponto
de vista matemático é extremamente flexı́vel e fácil de ser usada e, (ii) conduz a in-
terpretações simples. Para descrever a variação entre os θ(x) = E(Y | x), foi, então,
proposto o modelo de regressão logı́stico expresso por:
1
θ(x) = P (Y = 1 | x) = (
p
)
X
1 + exp − β0 + β k xk
k=1
( p
X
)
exp β0 + β k xk
k=1
= ( p ) (7)
X
1 + exp β0 + β k xk
k=1
Giolo, S. R. Análise de Dados Discretos 51
em que Yi = 1 significa a presença da resposta, x representa as covariáveis (fatores de
risco), isto é, x = (x1 , x2 , · · · , xp ), o parâmetro β0 é o intercepto, e βk (k = 1, · · · , p)
são os p parâmetros de regressão. Observe que este modelo retornará uma estima-
tiva da probabilidade do indivı́duo ter a resposta dado que o mesmo possui, ou não,
determinados fatores de risco. Conseqüentemente,
(
p
X
)
exp − β0 + β k xk
k=1
1 − θ(x) = (
p
)
X
1 + exp − β0 + β k xk
k=1
1
= ( p )
X
1 + exp β0 + β k xk
k=1
retornará uma estimativa da probabilidade do indivı́duo não ter a resposta dado que o
mesmo possui ou não determinados fatores de risco.
Observe, ainda, que fazendo-se:
! p
θ(x) X
log = β0 + β k xk
1 − θ(x) k=1
tem-se um modelo linear para o logito, isto é, para o logaritmo neperiano da razão entre
θ(x) e 1 - θ(x). O logito é, na realidade, o logaritmo de uma odds e, este fato, permitirá
que odds ratios sejam, portanto, obtidas pelo modelo (será tratado em detalhes mais
adiante).
No contexto de modelos lineares generalizados, uma função, monótona e derivável,
que relaciona a média ao preditor linear é denominada de função de ligação. Assim,
θ(x)
η = log 1−θ(x)
, é a função de ligação canônica para a modelo Binomial.
Além de apresentar uma forma linear, o modelo logı́stico apresenta a propriedade
Pp
útil de que todos os valores (β0 + k=1 βk xk ), pertencentes ao intervalo (-∞, + ∞),
terem um correspondente, no intervalo (0, 1), para θ(x). Probabilidades preditas por
este modelo são, desse modo, restritas a assumirem valores entre 0 e 1. O modelo,
portanto, não produz probabilidades negativas bem como probabilidades maiores que 1.
Giolo, S. R. Análise de Dados Discretos 52
Outra diferença importante entre um modelo de regressão linear e o modelo de
regressão logı́stico refere-se à distribuição condicional da variável resposta. No modelo
de regressão linear é assumido que uma observação da variável resposta pode ser ex-
pressa por y = E(Y | x) + ε em que a quantidade ε é chamada erro e é assumida ter
distribuição Normal com média zero e variância constante. Este não é o caso quando
a resposta é dicotômica ( Y = 1 ou 0 ). O valor da variável resposta dado x é expresso
por y = θ(x) + ε e, como a quantidade ε pode assumir somente um de dois possı́veis
valores, isto é, ε = 1 - θ(x) para y = 1 ou, ε = - θ(x) para y = 0, segue que ε tem
distribuição com média zero e variância dada por θ(x) 1- θ(x) , isto é, a distribuição
condicional da variável resposta segue uma distribuição Binomial com probabilidade
dada pela média condicional θ(x).
A estimação dos parâmetros em regressão logı́stica é, em geral, feita pelo método
da máxima verossimilhança. Para aplicação deste método é necessário construir ini-
cialmente a função de verossimilhança a qual expressa a probabilidade dos dados ob-
servados como uma função dos parâmetros desconhecidos. Os estimadores de máxima
verossimilhança dos parâmetros serão os valores que maximizam esta função.
Para encontrar esses valores no modelo de regressão logı́stico, considere a variável
resposta Y codificada como zero ou um. Da expressão (7) pode-se, então, obter a
probabilidade condicional de que Y seja igual a 1 dado x, isto é, θ(x) = P(Y = 1 | x)
e, em conseqüência, a probabilidade condicional de que Y seja igual a zero dado x,
isto é, 1 - θ(x) = P(Y = 0 | x). Assim, θ(xi ) será a contribuição para a função de
verossimilhança dos pares (yi , xi ) em que yi = 1 e 1 - θ(xi ), a contribuição dos pares
em que yi = 0.
Assumindo-se que as observações são independentes tem-se a seguinte expressão
para a função de verossimilhança:
n
Y yi 1−yi
L(β) = θ(xi ) 1 − θ(xi ) (8)
i=1
Giolo, S. R. Análise de Dados Discretos 53
As estimativas de β serão os valores que maximizam a função de verossimilhança
dada em (8). Algebricamente é mais fácil trabalhar com o logaritmo desta função, isto
é, com:
n
X
l(β) = log L(β) = yi log θ(xi ) + (1 − yi ) log 1 − θ(xi )
i=1
para j, l = 0, 1, .., p.
A matriz contendo o negativo dos termos dados nas equações (9) e (10) será
denotada por I(β) e é chamada matriz de informação. As variâncias e covariâncias
Giolo, S. R. Análise de Dados Discretos 54
dos coeficientes estimados serão obtidas pela inversa dessa matriz e será denotada por
Σ(β) = I −1 (β). O j-ésimo elemento da diagonal dessa matriz, denotado por σ 2 (βj ),
corresponde a variância de β̂j e, o elemento na j-ésima linha e l-ésima coluna, dessa
matriz, denotado por σ(βj , βl ), corresponde a covariância entre β̂j e β̂l . Os estimadores
das variâncias e covariâncias, denotados por Σ̂(β̂), são obtidos por avaliar Σ(β) em β̂.
Em notação matricial, a matriz de informação I(β) = X’VX em que X é uma
matriz com n linhas e p + 1 colunas contendo um vetor de uns e as covariáveis
dos indivı́duos, e V é uma matriz diagonal de n linhas e n colunas com elementos
θ(x)(1 − θ(x)) na diagonal. Isto é,
1 x11 · · · x1p
1 x21 · · · x2p
X=
.. .. .. ..
. . . .
1 xn1 · · · xnp
e
θ(x1 )(1 − θ(x1 )) 0 ··· 0
0 θ(x1 )(1 − θ(x2 )) · · · 0
V =
.. .. .. ..
.
. . . .
0 0 · · · θ(xn )(1 − θ(xn ))
Considerando-se o ponto médio para cada intervalo de idade, isto é, x = 25, 32,
38, 43, 47, 53, 57 e 65, e ajustando-se o modelo de regressão logı́stica para os dados
da Tabela 23 foram obtidas as estimativas β̂0 = -5,123 (s.e. = 1,110) e β̂1 = 0,1058
(s.e. = 0,023).
Note que a razão das verossimilhanças é multiplicada por −2 log. Isto é feito para
que se obtenha uma quantidade cuja distribuição é conhecida (no caso a distribuição
qui-quadrado) de modo que, tal quantidade, possa ser usada para a realização de testes
de hipóteses. Em regressão logı́stica a estatı́stica:
" #
verossimilhança do modelo sob estudo
D = −2 log
verossimilhança do modelo saturado
RV = 2 log(LCC ) − 2 log(LSC ).
Tabela 24. Exemplo de uma tabela de Diferença de Deviances para um experimento com duas
covariáveis contı́nuas X1 e X2 .
Tabela 25. Tabela de diferença de deviances para os dados sobre doença coronária.
Sob a hipótese H0 de que o modelo se ajusta bem aos dados, QP e QL são aproxi-
madamente qui-quadrado com graus de liberdade igual ao número de linhas na tabela
de dados menos o número de parâmetros no modelo. Na prática, essas estatı́sticas serão
aproximadamente qui-quadrado se:
podendo-se, então, obter, a partir deste, algumas estimativas, tais como, por exemplo:
θ(xi )
Observe que exp{logito(θ(xi ))} = = odds (tratada anteriormente).
(1 − θ(xi ))
Pode-se, então, obter a odds ratio para, por exemplo, os indivı́duos com idades 65 e 26
anos, isto é,
concluindo-se, assim, que indivı́duos com 65 anos de idade tem odds 61,9 vezes maior
de doença coronária do que a odds dos indivı́duos com 26 anos.
Esses resı́duos são conhecidos como resı́duos de Pearson, uma vez que a soma
deles ao quadrado resulta em QP . Exame dos valores residuais ci auxiliam a deter-
minar quão bem o modelo se ajusta aos grupos individuais. Freqüentemente, resı́duos
excedendo o valor 2,0 (ou 2,5) indicam falta de ajuste.
Similarmente, a deviance residual é um componente da estatı́stica deviance e é
expressa por:
" ! !#1/2
ni1 ni+ − ni1
di = sinal(ni1 − ŷi1 ) 2 ni1 log + 2(ni+ − ni1 ) log
ŷi1 ni+ − ŷi1
em que ŷi1 = (ni+ ) θ̂i1 . A soma das deviances residuais di ao quadrado resulta na
estatı́stica deviance QL . A partir do exame dos resı́duos deviance pode-se observar a
presença de resı́duos não usuais (demasiadamente grandes) bem como a presença de
outliers ou, ainda, padrões sistemáticos de variação indicando, possivelmente, a escolha
de um modelo não muito adequado.
0.4
0.2
0.0
30 40 50 60
idade
4.5 Exemplos
4.5.1 Exemplo 1
logit(θ11 ) β0 1 0 0
β0
logit(θ21 ) β0 + β2 1 0 1
= = β
1
logit(θ ) β + β1 1 1 0
31 0
β2
logit(θ41 ) β0 + β 1 + β2 1 1 1
Pode-se, desse modo, obter a odds ratio para pacientes do sexo masculino versus
as do sexo feminino por:
Similarmente, a odds ratio para alto ECG versus baixo ECG é determinado por:
Modelos seqüenciais g.l. Deviance residual Dif. Deviance Dif. g.l. valor p
Nulo 3 11,9835
X1 : sexo 2 4,8626 7,1209 1 0,00762
X2 : ECG 1 0,2141 4,6485 1 0,03108
Tabela 32. Valores θi1 observados e preditos pelo modelo, deviance residual e resı́duo de Pearson.
Tem-se, então, que a odds ratio dos pacientes do sexo masculino versus a dos
ˆ (m/f ) =
pacientes do sexo feminino pode ser estimada, como visto anteriormente, por OR
e1,277 = 3,586. Homens, nesse estudo, têm, portanto, odds 3,5 vezes maior de doença
coronária arterial do que a odds das mulheres. De modo análogo, a odds ratio estimada
ˆ = e1,0545 = 2,871. Então, pacientes com
de ECG ≥ 0,1 versus a de ECG < 0,1 é de OR
ECG ≥ 0,1 têm odds aproximadamente 3 vezes maior de doença coronária arterial do
que a odds daqueles pacientes com ECG < 0,1. De um modo geral, pacientes do sexo
masculino e com ECG ≥ 0,1 são os mais propensos a apresentaram doença coronária
arterial.
Intervalos de confiança para as odds ratio podem ser obtidos usando-se as pro-
ˆ (m/f ) é dado por
priedades assintóticas de β̂i . Assim, por exemplo, o I.C.95% para OR
(e(1,277−1,96∗0,498) , e(1,277+1,96∗0,498) ) = (1,35; 9,51). Analogamente, para a odds ratio de
ECG ≥ 0,1 versus ECG < 0,1, tem-se o intervalo, a 95% de confiança, de (1,082; 7,618).
Giolo, S. R. Análise de Dados Discretos 66
A interação entre sexo e ECG, quando incluı́da no modelo, mostrou-se não signi-
ficativa com correspondente valor p, associado ao teste da razão de verossimilhanças,
de 0,6436.
4.5.2 Exemplo 2
Neste exemplo dados de um estudo sobre infecções urinárias (Koch et al., 1985),
que encontram-se apresentados na Tabela 33, serão analisados.
Observe que três tratamentos foram aplicados aos pacientes que apresentaram,
no diagnóstico, infecção urinária complicada, ou não, de ser curada. A resposta é,
portanto, dicotômica, a covariável diagnóstico apresenta duas categorias e a covariável
tratamento três categorias. É importante notar que uma covariável com L categorias
deve ser representada por (L - 1 ) parâmetros.
O modelo com os efeitos principais (diagnóstico e tratamento) e a interação entre
eles será, portanto, representado matricialmente por:
logit(θ11 ) 1 1 1 0 1 0 β0
logit(θ21 ) 1 1 0 1 0 1 β1
logit(θ31 ) 1 1 0 0 0 0 β2
=
logit(θ41 ) 1 0 1 0 0 0 β3
logit(θ51 ) 1 0 0 1 0 0 β4
logit(θ61 ) 1 0 0 0 0 0 β5
Giolo, S. R. Análise de Dados Discretos 67
Uma vez que o modelo considerado é o saturado, isto é, seu número de parâmetros
é igual ao número de grupos (linhas) da tabela de dados, o teste de qualidade de ajuste
não se aplica a este modelo porque não existem graus de liberdade disponı́veis. Ajustar
esse modelo, contudo, permite que seja determinada a existência, ou não, do efeito
da interação. Na Tabela 34 é apresentado as diferenças de deviances dos modelos
seqüenciais ajustados.
Tabela 34. Tabela de Diferença de Deviances para o estudo sobre infecções urinárias.
Tabela 38. Logitos e odds obtidos a partir do modelo de regressão logı́stico ajustado.
Pela Tabela 48 tem-se, por exemplo, que a odds ratio de diagnóstico de infecção
ˆ = eβ̂1 = 0,3822 e, portanto, a
complicada versus a de infecção não complicada é de OR
odds de cura, se a infecção for diagnosticada como não complicada, é de (1/0,3822) = 2,6
vezes maior do que a odds de cura no caso de infecções diagnosticadas como complicadas.
Ainda, a odds de ser curado com o tratamento A, quando comparado ao tratamento C, é
de eβ̂2 = 1,79 vezes maior bem como, a odds de ser curado com o tratamento B, quando
comparado ao tratamento C, é de eβ̂3 = 4,76 vezes maior. De modo análogo, tem-se que
a odds de cura com o tratamento B, comparado ao tratamento A, é de eβ̂3 −β̂2 = 2,65
vezes maior.
Giolo, S. R. Análise de Dados Discretos 70
4.5.3 Exemplo 3
sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se ∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2;
Observe que diversos valores da covariável idade são únicos o que implica que, na
construção de uma tabela de contingência considerando-se as 3 covariáveis, existirão
diversas caselas com somente uma observação. Isso significa que o tamanho amostral
requerido pelas estatı́sticas de teste QL e QP não serão atendidos e não poderão, desse
modo, serem calculadas. Este fato é muito comum quando se tem a presença de co-
variáveis contı́nuas. Para esses casos, estratégias alternativas encontram-se disponı́veis.
Um modelo de interesse para os dados apresentados é aquele com os termos sexo,
Giolo, S. R. Análise de Dados Discretos 71
ECG e idade e, possivelmente, as interações entre eles. Um cuidado que se deve ter,
no entanto, é quanto ao número de parâmetros envolvidos. Alguns analistas sugerem
que haja pelo menos 5 observações, da resposta que ocorre com menor freqüência, para
cada parâmetro sendo considerado. Nesse estudo tem-se 37 indivı́duos que apresentaram
resposta não e 41 que apresentaram resposta sim. Assim, tem-se 37/5 = 7,4 o que sugere
que em torno de 7 a 8 parâmetros podem ser considerados.
Na Tabela 40 é apresentado as diferenças de deviances dos modelos seqüenciais
ajustados para os dados do estudo descrito.
Tabela 40. Tabela das diferenças de deviances dos modelos de regressão logı́stica seqüências
ajustados ao estudo sobre doenças coronárias.
.
X1 = sexo; X2 = ECG e X3 = idade
Pela tabela de diferença das deviances tem-se, portanto, que o teste da RV , rela-
tivo a hipótese nula de que a interação tripla é não significativa, o que eqüivale a testar
a hipótese H0 : β7 = 0, resultou em RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo,
não há evidências para a rejeição da hipótese H0 . De modo análogo, para o teste da
hipótese nula H0 : β4 = β5 = β6 = 0 (interações duplas) tem-se RV = 1,289 (p =
0,7317, g.l. = 3) e, assim, não há evidências para a rejeição da hipótese nula. Como há
evidências de que as interações tripla e duplas não são necessárias no modelo, testou-se
as hipóteses:
a) H0 : β3 = 0 em que RV = 8,626 (p = 0,0033, g.l.= 1)
b) H0 : β2 = 0 em que RV = 6,760 (p = 0,0093, g.l.= 1)
c) H0 : β1 = 0 em que RV = 6,086 (p = 0,0136, g.l.= 1)
Giolo, S. R. Análise de Dados Discretos 72
concluindo-se, portanto, haver evidências para rejeitar as três hipóteses nulas testadas.
O modelo a ser ajustado será, portanto, aquele que considera os efeitos princi-
pais de sexo, ECG e idade. Os respectivos parâmetros estimados, para este modelo,
encontram-se apresentados na Tabela 41.
2
residuos de Pearson
deviance residual
1
1
0
0
−1
−1
−2
−2
0 20 40 60 80 0 20 40 60 80
Index Index
0
−1
−2
−2 −1 0 1 2
Percentis
O poder preditivo do modelo pode, ainda, ser obtido com a finalidade de avaliar
a qualidade do modelo ajustado. Para isso, faz-se necessário estabelecer uma probabi-
lidade, denominada “ponto de corte”, a partir da qual se estabeleça que:
31+25
a) valor preditivo do modelo = 78
= 0, 7179
31 25
b) valor preditivo + = 43
= 0, 7209 e valor preditivo - = 35
= 0, 7143
12 10
c) falsos positivos = 37
= 0, 3243 e falsos negativos = 41
= 0, 2439
31
d) sensibilidade do modelo = 41
= 0, 7561
25
e) especificidade do modelo = 37
= 0, 6757
Grau de melhora
Sexo Tratamento Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
Uma possı́vel estratégia de análise desses dados seria criar uma variável resposta
dicotômica combinando duas das categorias de respostas. Contudo, visto que existe
uma ordem natural das categorias de resposta, faz sentido considerar uma estratégia
que leve em conta essa ordenação. Considere, desse modo, as quantidades:
em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos são distintos bem
como existem diferentes conjuntos de parâmetros de regressão para cada logito.
Com a suposição de odds proporcionais tem-se que β k = β para todo k, simpli-
cando, assim, o modelo para:
πhi1 = θhi1
πhi3 = 1 − θhi2 .
Esse modelo é muito similar aos modelos descritos anteriormente, exceto pela
existência de dois parâmetros de intercepto, correspondendo as duas funções logito
sendo modeladas para cada subpopulação. O parâmetro β01 é o intercepto do primeiro
logito cumulativo e o parâmetro β02 é o intercepto do segundo logito cumulativo, β1 é
Giolo, S. R. Análise de Dados Discretos 79
o efeito (incremento) do sexo feminino e β2 é o efeito (incremento) do tratamento A.
Sexo masculino e o placebo compreendem a casela de referência.
Na Tabela 44 são apresentadas as diferenças de deviances dos modelos seqüenciais
ajustados, podendo-se observar, desta tabela, que a interação entre sexo e tratamento
é não significativa uma vez que RV = 0,3084 (p = 0,5786, g.l. = 1). Já para os efeitos
principais de sexo e tratamento obtiveram-se RV = 3,8053 (p = 0,051) e RV = 16,0812
(p = 6,06e−7 ), respectivamente, podendo-se, desse modo, concluir que ambos os efeitos
são significativos e devem, portanto, permanecer no modelo.
X1 = sexo, X2 = tratamento
ou, ainda,
n o
exp β̂0k + 1, 3187 sexo + 1, 7973 tratamento
θ̂hik = n o, k = 1, 2.
1 + exp β̂0k + 1, 3187 sexo + 1, 7973 tratamento
Tabela 46. Probabilidades cumulativas (θhik ) e não-cumulativas (πhij ) preditas pelo modelo.
Sexo Tratamento θ̂hi1 θ̂hi2 π̂hi1 = θ̂hi1 π̂hi2 = θ̂hi2 - θ̂hi1 π̂hi3 = 1 - θ̂hi2
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597
exp(β1 ). Assim, pacientes do sexo feminino têm odds e1,3187 = 3, 738 vezes maior de
mostrar melhora acentuada do que pacientes do sexo masculino. Ainda, pacientes re-
cebendo o tratamento A têm odds eβ̂2 = e1,8128 = 6,13 vezes maior de mostrar melhora
acentuada do que os pacientes recebendo placebo e, pela suposição de odds propor-
cionais assumida para o modelo ajustado, esta é também a odds ratio para melhora
acentuada ou alguma melhora versus nenhuma melhora.
Tabela 48. Fórmulas das odds obtidas para o modelo de odds proporcionais ajustado.
Melhora acentuada versus Melhora acentuada ou alguma
Sexo Tratamento alguma ou nenhuma versus nenhuma
F A exp{β01 + β1 + β2 } exp{β02 + β1 + β2 }
F Placebo exp{β01 + β1 } exp{β02 + β1 }
M A exp{β01 + β2 } exp{β02 + β2 }
M Placebo exp{β01 } exp{β02 }
Um modelo de regressão logı́stica também pode ser usado para modelar os dados
quando a variável resposta for nominal. Nesses casos, contudo, ajusta-se um modelo
para os logitos generalizados e não para os logitos cumulativos.
Para tratar este modelo, considere os dados apresentados na Tabela 49 referente
a um estudo realizado com crianças para determinar qual programa de aprendizado
elas preferem bem como se, tal preferência, estaria associada com a escola e o perı́odo
escolar (padrão ou com atividades em tempo integral).
Preferência aprendizado
Escola Perı́odo Individual Grupo Sala Aula Totais
1 Padrão 10 17 26 53
1 Integral 5 12 50 67
2 Padrão 21 17 26 64
2 Integral 16 12 36 64
3 Padrão 15 15 16 46
3 Integral 12 12 20 44
Uma vez que as categorias da variável resposta não apresentam uma ordenação,
o modelo de odds proporcionais não é apropriado. Assim, o logito generalizado, usado
nessas situações, é definido como:
" #
πhij
logithij = log
πhir
Giolo, S. R. Análise de Dados Discretos 83
para j = 1, 2, · · · , (r − 1). Cada logito é, portanto, formado com a probabilidade de
cada categoria sobre a última categoria de resposta. Os logitos generalizados para uma
resposta com três categorias, como é o caso do exemplo sobre o programa escolar, são
expressos, portanto, por:
" # " #
πhi1 πhi2
logithi1 = log , logithi2 = log
πhi3 πhi3
em que k indexa os 2 logitos. Note que para cada logito desse modelo, existem diferentes
interceptos e diferentes conjuntos dos parâmetros de regressão β k . Assim, enquanto
para o modelo de odds proporcionais estimam-se múltiplos parâmetros de interceptos
para os logitos cumulativos mas um único conjunto de parâmetros correspondendo às
covariáveis, para o modelo de logitos generalizados estimam-se múltiplos conjuntos de
parâmetros tanto para o intercepto quanto para as covariáveis.
Como múltiplas funções resposta (logitos) estão sendo modeladas para cada sub-
população (cada linha da tabela de contingência), existe um número maior de graus
de liberdade associados a cada efeito. A forma matricial do modelo é, também, um
tanto mais complicada devido à necessidade de se levar em consideração tais funções
múltiplas. Contudo, o procedimento de modelagem é o usual, isto é, ajusta-se o modelo,
examinam-se as estatı́sticas de qualidade de ajuste do modelo ajustado e, se necessário,
reduz-se o modelo. Note que, como mais de um logito está sendo predito por subpo-
pulação, o tamanho amostral necessita ser grande o suficiente para acomodar o número
de logitos sendo modelados. Problemas de estimação dos parâmetros serão certamente
encontrados em situações em que não existem dados suficientes para justificar a análise
de logitos generalizados. Em tais situações, simplificar a estrutura da variável resposta
para uma razoável resposta dicotômica e proceder a uma análise de regressão logı́stica
dicotômica pode ser uma alternativa plausı́vel.
Giolo, S. R. Análise de Dados Discretos 84
5.2.1 Logitos generalizados ajustados aos dados do programa escolar
X1 = escola, X2 = perı́odo
Note que os graus de liberdade para modelar dois logitos são duas vezes os graus de
liberdade esperados ao modelar-se um único logito. Isso ocorre porque simultaneamente
são modeladas duas funções resposta (logitos) em vez de uma e, conseqüentemente, o
número de parâmetros a serem estimados são duplicados. Assim, em um modelo de
logitos generalizados, os graus de liberdade associados aos efeitos são determinados
multiplicando-se por (r -1) o número de graus de liberdade esperado para modelar um
logito, sendo r o número de categorias da variável resposta.
Como a interação apresentou-se não significativa, o modelo de efeitos principais,
Giolo, S. R. Análise de Dados Discretos 85
em notação matricial, fica expresso por:
logit111 1 0 1 0 0 0 1 0
logit112 0 1 0 1 0 0 0 1
logit121 1 0 1 0 0 0 −1 0 β01
logit122 0 1 0 1 0 0 0 −1 β02
logit211 1 0 0 0 1 0 1 0 β11
logit212 0 1 0 0 0 1 0 1 β12
=
logit221 1 0 0 0 1 0 −1 0 β21
logit222 0 1 0 0 0 1 0 −1 β22
logit311 1 0 −1 0 −1 0 1 0 β31
logit312 0 1 0 −1 0 −1 0 1 β32
logit321 1 0 −1 0 −1 0 −1 0
logit322 0 1 0 −1 0 −1 0 −1
Erro Chi-
Efeito Parâmetro Estimativa Padrão Quadrado valor p
Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001
β02 -0,6589 0,1367 23,23 < 0, 0001
escola β11 -0,7992 0,2198 13,22 0,0003
β12 -0,2786 0,1867 2,23 0,1356
β21 0,2836 0,1899 2,23 0,1352
β22 -0,0985 0,1892 0,27 0,6028
perı́odo β31 0,3737 0,1410 7,03 0,0080
β32 0,3713 0,1353 7,53 0,0061
Giolo, S. R. Análise de Dados Discretos 86
Pela Tabela 52 é possı́vel observar que a escola 1 apresenta o maior efeito dentre
as escolas, particularmente para o logito comparando aprendizado individual ao apren-
dizado em sala de aula. O perı́odo escolar apresenta efeitos similares em ambos os
logitos.
As odds ratios também podem ser usadas nos modelos de logitos generalizados para
facilitar a interpretação do modelo. Para o modelo considerado, as odds encontram-se
apresentadas na Tabela 53.
Odds
Escola Perı́odo Individual/Sala aula Grupo/Sala aula
1 Padrão eβ01 +β11 +β31 eβ02 +β12 +β32
1 Integral eβ01 +β11 −β31 eβ02 +β12 −β32
2 Padrão eβ01 +β21 +β31 eβ02 +β22 +β32
2 Integral eβ01 +β21 −β31 eβ02 +β22 −β32
3 Padrão eβ01 −β11 −β21 +β31 eβ02 −β12 −β22 +β32
3 Integral eβ01 −β11 −β21 −β31 eβ02 −β12 −β22 −β32
AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons, 1990.
MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the Mantel-
Haenszel procedure, Journal of the American Statistical Association, v.58,
p.690-700, 1963.
MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from retro-
spective studies of disease, Journal of the National Cancer Institute, v.22,
p.719-748, 1959.
Giolo, S. R. Análise de Dados Discretos 90
MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-
Haenszel one-degree of freedom ch-square test and a related rapid procedure,
American Journal of Epidemiology, v.112, p.129-143, 1980.
SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Manual de
Ecologia dos Insetos. São Paulo: Agronômica Ceres, 1976, 419p.