Aula 2

Anlise de Regresso
(aula 2) Profa Alcione Miranda dos Santos Departamento de Sade Pblica UFMA
Seleo de Variveis na Regresso Mltipla

Um problema importante em muitas aplicaes da anlise de regresso envolve selecionar o conjunto de variveis independentes ou preditoras a ser usado no modelo.
Algumas vezes, experincia prvia ou consideraes tericas em foco podem ajudar o analista a especificar o conjunto de preditoras. Uma grande quantidade de julgamento e de experincia com o fenmeno sendo modelado geralmente necessria para selecionar um conjunto apropriado de variveis preditoras para um modelo de regresso mltipla.
Procedimentos Computacionais para a Seleo de Variveis

Regresso Stepwise
Regresso Forward
Regresso Stepwise
Provavelmente, a tcnica mais utilizada de seleo de variveis. O procedimento constri iterativamente uma seqncia de modelos de regresso pela adio ou remoo de variveis em cada etapa. O critrio para adicionar ou remover uma varivel em qualquer etapa geralmente expresso em termos de um teste parcial F. A regresso stepwise comea formando um modelo com uma varivel, usando a varivel preditora que tenha a mais alta correlao com a varivel de resposta.
O comando sw usado para regresso stepwise. sw regress y x1 x2 x3 x4, pr(.05) sw regress y x1 x2 x3 x4, pe(.05) sw regress y x1 x2 x3 x4, pe(.05) pr(.1)
A opo pr a probabilidade para remover uma varivel. A opo pe a probabilidade para a entrada de uma varivel.
Exemplo: Considere o exemplo 2.

sw regress tempo idade sexo acuidade, pr(0.1) pe(0.05) begin with full model p = 0.1152 >= 0.1000 removing sexo Source | SS df MS -------------+-----------------------------Model | 1139.02973 2 569.514867 Residual | 233.970266 17 13.7629568 -------------+-----------------------------Total | 1373 19 72.2631579 Number of obs F( 2, 17) Prob > F R-squared Adj R-squared Root MSE = = = = = = 20 41.38 0.0000 0.8296 0.8095 3.7098
-----------------------------------------------------------------------------tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------idade | .6503912 .1279417 5.08 0.000 .3804578 .9203247 acuidade | -.4538341 .0928187 -4.89 0.000 -.6496644 -.2580038 _cons | 126.5642 10.09118 12.54 0.000 105.2736 147.8547
------------------------------------------------------------------------------
Regresso Forward
O procedimento de seleo forward uma variao da regresso stepwise, e est baseado no princpio de que as variveis preditoras devem ser adicionadas ao modelo uma de cada vez at que no haja mais variveis preditoras. A seleo progressiva uma simplificao da regresso stepwise que omite o teste parcial F de remoo do modelo das variveis que foram adicionadas em etapas prvias. Essa uma potencial fraqueza da seleo forward.
Suposies do Modelo de Regresso

Todo modelo probabilstico requer o estabelecimento de premissas sob as quais o mesmo deve funcionar. Muitas vezes, no entanto, tais premissas so violadas e o pesquisador deve proceder de modo a fazer as alteraes necessrias. As premissas bsicas para o modelo de regresso so:
Linearidade do fenmeno medido Varincia constante dos termos de erro (Homoscedasticidade) Normalidade dos erros Erros independentes Ausncia de colinearidade Ausncia de observaes aberrantes
Testando as suposies
Predizer y e os resduos
predict yest, xb predict res, resid
(valores preditos sero armazenados na varivel yest) (resduos sero armazenados na varivel res)
Fazer os grficos dos resduos versus valores preditos

linear? varincia constante? independentes?
Linearidade
Linearidade significa que a relao entre as variveis independentes e dependente linear. A linearidade facilmente examinada utilizando:
Grficos de Disperso Grfico de resduos
O grfico facilmente STATA:
de resduos construdo no
No linearidade
rvfplot, yline(0)
Se uma relao no-linear encontrada, a abordagem mais direta transformar uma ou as duas variveis de modo a ter linearidade. Vrias transformaes podem ser usadas:
TIPO Linear Exponencial Logartmica Potncia
EQUAO
TRANSFORMAO
VARIVEL X
VARIVEL Y
Y = a + bx Y = a.ebx Y = a + b.ln x Y = a.xb
Y = a + bx ln y = ln a + bx Y = a + b.ln x ln y = ln a + b.ln x
x x ln x ln x
y ln Y y ln y
Homoscedasticidade
A presena de varincias desiguais (heteroscedasticidade) uma das violaes mais comuns das suposies. O diagnstico feito com grficos de resduos ou testes estatsticos. A representao grfica dos resduos (estudantizados) versus os valores previstos e a sua comparao com o grfico nulo mostra um padro consistente se a varincia no for constante.
heteroscedasticidade Grfico nulo
Vrios programas estatsticos disponibilizam testes estatsticos para heteroscedasticidade. Por exemplo, o STATA fornece o teste Cook-Weisberg (testa se a varincia dos erros constante). Comando: hettest Exemplo: Considerando o exemplo 1, temos:
hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of tempo chi2(1) Prob > chi2 = = 0.14 0.7089
Se ocorrer heteroscedasticidade, duas aes corretivas so possveis: Transformaes para estabilizao da varincia; Se for possvel atribuir a violao a uma nica varivel dependente, usar o mtodos dos mnimos quadrados ponderados poder ser empregado.
Algumas transformaes que estabilizam a varincia: 1) y 2) log y 3) arcsen
Normalidade
Talvez a violao mais freqentemente encontrada seja a no normalidade da variveis independentes e dependentes ou ambas O diagnstico mais simples para o conjunto de variveis independentes um histograma de resduos. Um mtodo mais eficiente o uso de grficos de probabilidade normal. Tambm pode ser utilizado Shapiro Wilk. o Teste Distribuio normal
Exemplo: Retornemos ao exemplo 1. Vamos verificar se

os resduos so normalmente distribudos.
Primeiramente, vamos construir o grfico de probabilidade normal.
regress tempo idade predict res, resid qnorm res
10 -10 -10 -5 Residuals 0 5
-5
0 Inverse N ormal
10
Realizando o teste Shapiro Wilk, obtemos o seguinte resultado: swilk res

Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -----------+------------------------------------------------res | 20 0.93816 1.464 0.768 0.22126
Podemos concluir que os resduos so normalmente distribudos.
Colinearidade
Colinearidade correlacionadas significa que as variveis independentes so A colinearidade pode ser detectada, dentre outros modos, atravs da matriz de correlao entre as varveis. Outra tcnica usada o fator de inflao de variao (variance inflator factor), cujos altos valores indicam a sua existncia .
sendo Rj resulta da regresso de Xj com as outras variveis. Sugere-se, no entanto, quando ocorrer colinearidade, que algumas variveis explicativas sejam retiradas do estudo e/ou que se tente obter maior nmero de observaes.
Erros Independentes
A correlao de resduos um problema que pode surgir quando as observaes so efetuadas ao longo do tempo. Neste caso, conveniente utilizar a estatstica de teste de Durbin-Watson.
Exemplo: Considere o exemplo 2. Voc diria que as

variveis independentes so correlacionadas?
Vamos calcular o fator de inflao de variao, no STATA regress tempo idade sexo acuidade VIF Variable | VIF 1/VIF -------------+---------------------acuidade | 1.34 0.746053 idade | 1.21 0.824128 sexo | 1.13 0.887324 -------------+---------------------Mean VIF | 1.23 NOTA: Valores VIF acima de 4, indicam variveis correlacionadas. tolerncia
Identificao de Observaes Influentes

Quando usamos regresso mltipla, ocasionalmente se encontra que algum subconjunto de observaes influentes. Algumas vezes, essas observaes que influenciam esto relativamente longe da vizinhana onde o resto dos dados foi coletado
Se esses pontos que influenciam forem pontos ruins, ou errneos de algum modo, ento eles devem ser eliminados.
Vrios mtodos de deteco de observaes influentes so propostos. Entre eles, citamos a medida da distncia Cook.
MEDIDA DA DISTNCIA COOK
uma medida da distncia ao quadrado entre a estimativa usual de mnimos quadrados de , baseada em todas n observaes, e a estimativa obtida quando o i -simo ponto for removido. Para cada observao i, calculada a distncia Di, valor de Di > 4/ n indica que o ponto exerce influncia.
Exemplo: Considere o exemplo 2, acrescido de observao

discrepante.
regress tempo idade sexo acuidade
Source | SS df MS -------------+-----------------------------Model | 868.222607 3 289.407536 Residual | 5238.34882 17 308.138166 -------------+-----------------------------Total | 6106.57143 20 305.328571 Number of obs = 21 F( 3, 17) = 0.94 Prob > F = 0.4435 R-squared = 0.1422 Adj R-squared = -0.0092 Root MSE = 17.554
-----------------------------------------------------------------------------tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------idade | .0951472 .5941671 0.16 0.875 -1.158436 1.34873 sexo | -9.944194 8.144006 -1.22 0.239 -27.12654 7.238157 acuidade | -.2873334 .4653876 -0.62 0.545 -1.269215 .6945486 _cons | 147.2193 47.56397 3.10 0.007 46.8681 247.5705 ------------------------------------------------------------------------------
Vamos identificar a existncia de informaes influentes.

180 100 20 120 tempo 140 160
25
30 idade
35
40
Calculando a medida de distncia: predict d1, cooksd list d1 if d1>4/4.58,clean

Aula 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aula 2

Uploaded by

Copyright:

Available Formats

Anlise de Regresso

Seleo de Variveis na Regresso Mltipla

Procedimentos Computacionais para a Seleo de Variveis

Exemplo: Considere o exemplo 2.

Suposies do Modelo de Regresso

Fazer os grficos dos resduos versus valores preditos

O grfico facilmente STATA:

TIPO Linear Exponencial Logartmica Potncia

Y = a + bx Y = a.ebx Y = a + b.ln x Y = a.xb

Exemplo: Retornemos ao exemplo 1. Vamos verificar se

Realizando o teste Shapiro Wilk, obtemos o seguinte resultado: swilk res

Podemos concluir que os resduos so normalmente distribudos.

Exemplo: Considere o exemplo 2. Voc diria que as

Identificao de Observaes Influentes

Exemplo: Considere o exemplo 2, acrescido de observao

Vamos identificar a existncia de informaes influentes.

Calculando a medida de distncia: predict d1, cooksd list d1 if d1>4/4.58,clean

You might also like