Professional Documents
Culture Documents
(aula 2) Profa Alcione Miranda dos Santos Departamento de Sade Pblica UFMA
Algumas vezes, experincia prvia ou consideraes tericas em foco podem ajudar o analista a especificar o conjunto de preditoras. Uma grande quantidade de julgamento e de experincia com o fenmeno sendo modelado geralmente necessria para selecionar um conjunto apropriado de variveis preditoras para um modelo de regresso mltipla.
Regresso Forward
Regresso Stepwise
Provavelmente, a tcnica mais utilizada de seleo de variveis. O procedimento constri iterativamente uma seqncia de modelos de regresso pela adio ou remoo de variveis em cada etapa. O critrio para adicionar ou remover uma varivel em qualquer etapa geralmente expresso em termos de um teste parcial F. A regresso stepwise comea formando um modelo com uma varivel, usando a varivel preditora que tenha a mais alta correlao com a varivel de resposta.
O comando sw usado para regresso stepwise. sw regress y x1 x2 x3 x4, pr(.05) sw regress y x1 x2 x3 x4, pe(.05) sw regress y x1 x2 x3 x4, pe(.05) pr(.1)
A opo pr a probabilidade para remover uma varivel. A opo pe a probabilidade para a entrada de uma varivel.
-----------------------------------------------------------------------------tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------idade | .6503912 .1279417 5.08 0.000 .3804578 .9203247 acuidade | -.4538341 .0928187 -4.89 0.000 -.6496644 -.2580038 _cons | 126.5642 10.09118 12.54 0.000 105.2736 147.8547
------------------------------------------------------------------------------
Regresso Forward
O procedimento de seleo forward uma variao da regresso stepwise, e est baseado no princpio de que as variveis preditoras devem ser adicionadas ao modelo uma de cada vez at que no haja mais variveis preditoras. A seleo progressiva uma simplificao da regresso stepwise que omite o teste parcial F de remoo do modelo das variveis que foram adicionadas em etapas prvias. Essa uma potencial fraqueza da seleo forward.
Testando as suposies
Predizer y e os resduos
predict yest, xb predict res, resid
(valores preditos sero armazenados na varivel yest) (resduos sero armazenados na varivel res)
Linearidade
Linearidade significa que a relao entre as variveis independentes e dependente linear. A linearidade facilmente examinada utilizando:
Grficos de Disperso Grfico de resduos
de resduos construdo no
No linearidade
rvfplot, yline(0)
Se uma relao no-linear encontrada, a abordagem mais direta transformar uma ou as duas variveis de modo a ter linearidade. Vrias transformaes podem ser usadas:
EQUAO
TRANSFORMAO
VARIVEL X
VARIVEL Y
Y = a + bx ln y = ln a + bx Y = a + b.ln x ln y = ln a + b.ln x
x x ln x ln x
y ln Y y ln y
Homoscedasticidade
A presena de varincias desiguais (heteroscedasticidade) uma das violaes mais comuns das suposies. O diagnstico feito com grficos de resduos ou testes estatsticos. A representao grfica dos resduos (estudantizados) versus os valores previstos e a sua comparao com o grfico nulo mostra um padro consistente se a varincia no for constante.
heteroscedasticidade Grfico nulo
Vrios programas estatsticos disponibilizam testes estatsticos para heteroscedasticidade. Por exemplo, o STATA fornece o teste Cook-Weisberg (testa se a varincia dos erros constante). Comando: hettest Exemplo: Considerando o exemplo 1, temos:
hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of tempo chi2(1) Prob > chi2 = = 0.14 0.7089
Se ocorrer heteroscedasticidade, duas aes corretivas so possveis: Transformaes para estabilizao da varincia; Se for possvel atribuir a violao a uma nica varivel dependente, usar o mtodos dos mnimos quadrados ponderados poder ser empregado.
Algumas transformaes que estabilizam a varincia: 1) y 2) log y 3) arcsen
Normalidade
Talvez a violao mais freqentemente encontrada seja a no normalidade da variveis independentes e dependentes ou ambas O diagnstico mais simples para o conjunto de variveis independentes um histograma de resduos. Um mtodo mais eficiente o uso de grficos de probabilidade normal. Tambm pode ser utilizado Shapiro Wilk. o Teste Distribuio normal
-5
0 Inverse N ormal
10
Colinearidade
Colinearidade correlacionadas significa que as variveis independentes so A colinearidade pode ser detectada, dentre outros modos, atravs da matriz de correlao entre as varveis. Outra tcnica usada o fator de inflao de variao (variance inflator factor), cujos altos valores indicam a sua existncia .
sendo Rj resulta da regresso de Xj com as outras variveis. Sugere-se, no entanto, quando ocorrer colinearidade, que algumas variveis explicativas sejam retiradas do estudo e/ou que se tente obter maior nmero de observaes.
Erros Independentes
A correlao de resduos um problema que pode surgir quando as observaes so efetuadas ao longo do tempo. Neste caso, conveniente utilizar a estatstica de teste de Durbin-Watson.
Se esses pontos que influenciam forem pontos ruins, ou errneos de algum modo, ento eles devem ser eliminados.
Vrios mtodos de deteco de observaes influentes so propostos. Entre eles, citamos a medida da distncia Cook.
MEDIDA DA DISTNCIA COOK
uma medida da distncia ao quadrado entre a estimativa usual de mnimos quadrados de , baseada em todas n observaes, e a estimativa obtida quando o i -simo ponto for removido. Para cada observao i, calculada a distncia Di, valor de Di > 4/ n indica que o ponto exerce influncia.
-----------------------------------------------------------------------------tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------idade | .0951472 .5941671 0.16 0.875 -1.158436 1.34873 sexo | -9.944194 8.144006 -1.22 0.239 -27.12654 7.238157 acuidade | -.2873334 .4653876 -0.62 0.545 -1.269215 .6945486 _cons | 147.2193 47.56397 3.10 0.007 46.8681 247.5705 ------------------------------------------------------------------------------
25
30 idade
35
40