You are on page 1of 35

Anlise de Regresso

Profa Alcione Miranda dos Santos


Departamento de Sade Pblica
UFMA

Introduo


Uma das preocupaes estatsticas ao analisar dados,


a de criar modelos que explicitem estruturas do fenmeno
em observao.

O modelo de regresso um dos mtodos estatsticos


mais usados para investigar a relao entre variveis.

Anlise de regresso: metodologia estatstica que


estuda (modela) a relao entre duas ou mais variveis.

Tipos de Modelos de Regresso

Uma varivel
dependente

Modelo
Regresso

Multiplo
Multplo

Simples

Linear

Duas ou mais variveis


dependentes

No
Linear

Linear

No
Linear

A presena ou ausncia de relao linear pode


ser investigada sob dois pontos de vista:


Quantificando a fora dessa relao:


correlao.

Explicitando a forma dessa relao:


regresso.

Coeficiente de Correlao de Pearson




A correlao calculada independente da unidade de medida das


variveis.
A tcnica usada para calcular este coeficiente, supe que a associao
entre as variveis seja linear, ou seja, expressa por uma reta ou linha.
Se a relao apresentada no diagrama de disperso no for do tipo
linear, o coeficiente de correlao de Pearson no deve ser calculado.

Frmula:
n

( x x)( y
i

r=

y)

i =1
n

i =1

i =1

2
2
(
x

x
)

(
y

y
)
i
i

Coeficiente de correlao de Pearson




O coeficiente de correlao pode variar entre 1


(correlao negativa perfeita) e +1 (correlao positiva
perfeita).

Valores negativos do coeficiente de correlao indicam


uma correlao do tipo inversa, isto , quando x
aumenta y diminui.

Valores positivos do coeficiente de correlao ocorrem


quando x e y variam no mesmo sentido, isto , quando x
aumenta y aumenta ou quando x diminui y tambm
diminui.

Exemplo 1: Um psiclogo est investigando a relao entre o tempo que


um indivduo leva para reagir a um estmulo visual (Y) com o sexo (W), idade
(X) e acuidade visual (Z, medida em porcentagem).
X : idade
Y : tempo de reao

130

120

110

Modelo de regresso

Pelo grfico: mdia de Y aumenta


conforme as pessoas envelhecem

100

90
20

30

40

Correlao entre Y e X = 0,7681

Correlao no STATA


Comando: corr y x

Para o exemplo anterior, temos

corr tempo idade


(obs=20)
|
tempo
idade
-------------+-----------------tempo |
1.0000
idade |
0.7681
1.0000

Diagramas de disperso

Comando STATA: scatter y x

Modelo de regresso linear simples


yi = 0 + 1xi +ei ,

i=1,...,n

sendo
yi: valor da varivel dependente (resposta) para o i-simo elemento da
amostra;
xi: valor (conhecido) da varivel independente ou preditora para o i-simo
elemento da amostra;
0 e 1 so parmetros desconhecidos;
ei: erro amostral.
Suposio: os erros amostrais so independentes com distribuio N(0, 2), i=1,2,...,n.
Esta suposio deve ser verificada!!! (como??)

Modelo de regresso linear simples


Amostra Aleatria

Populao

Yi = 0 + 1 X i + i

$
$

Y ii = $ 00 + $ 11X ii + $ ii

Erro amostral


O erro amostral uma varivel aleatria no observvel, e


estimado pelos resduos, isto , a diferena entre o valor observado
Y, e o estimado pela reta Y , isto

i =1

i = (Y Y ) 2
2

i =1

Estimao dos parmetros




Qual modelo de regresso deve ser ajustado?

60
40
20
0

20

40

X
60

Estimao dos parmetros




Mtodo de mnimos quadrados


Objetivo: minimizar a soma dos quadrados dos erros

SQ(0, 1)= (yi- Yi )2


= (yi- 0 - 1xi)2
Para que a soma dos quadrados dos erros tenha um valor mnimo, devem-se aplicar
os conceitos de clculo diferencial com derivadas parciais.

Portanto, os estimadores dos parmetros so:


n

1 =

xi yi nx y

i =1
n

=
2
i

x nx

SS

xy

SS

xx

i =1

0 = y 1 x
Reta ajustada:

y i = 0 + 1 xi

Interpretao dos parmetros




Intercepto 0 - valor esperado para a varivel


dependente yi quando xi igual a zero

Coeficiente angular 1 - variao esperada na


varivel resposta, quando a varivel
independente aumenta uma unidade.

Exemplo 1:

Um psiclogo est investigando a relao entre o tempo que o


indivduo leva para reagir a um certo estimulo (em segundos) e algumas de suas
caractersticas tais como sexo, idade (em anos completos) e acuidade visual
(medida em porcentagem). O resultado de 20 indivduos esto mostrado na tabela
abaixo (Adaptado de Bussab, 1986).
i

tempo

sexo

idade

acuidade

tempo

sexo

idade

acuidade

96

20

90

11

109

30

90

92

20

100

12

100

30

80

106

20

80

13

112

35

90

100

20

90

14

105

35

80

98

25

100

15

118

35

70

104

25

90

16

108

35

90

110

25

80

17

113

40

90

101

25

90

18

112

40

90

116

30

70

19

127

40

60

10

106

30

90

20

117

40

80

1.Tempo de reao varivel dependente ou resposta


idade varivel independente

modelo de regresso linear simples


2. Tempo de reao varivel dependente ou resposta
sexo, idade, acuidade visual var. independentes

modelo de regresso linear mltipla

Primeiramente, vamos considerar um modelo de regresso linear


simples, sendo X : idade e Y : tempo de reao

90

100

Tempo
110

120

130

20

25

30
idade

35

Dados: n=20, yi= 2150, xi=600, xiyi=65400, xi2=19000

40

Estimao dos parmetros:


65400 20.30.107,5

1 =
= 0,90
2
19000 20.30

0 = 107,50 0,90.30 = 80,50

Reta ajustada:

y i = 80,50 + 0,90 xi

Interpretao 1 : Para um aumento de 1 ano na


idade, o tempo mdio de reao aumenta 0,90.
Dada a reta ajustada, podemos prever, por
exemplo, o tempo mdio de reao para pessoas
de 20 anos
Valor predito

y ( 20) = 80,50 + 0,90.20 = 98,50


Vantagem: permite estimar o tempo mdio de reao para idades no
observadas
Valor predito

y ( 33 ) = 80 ,50 + 0,90 .33 = 110 , 20

NOTA: A estimativa pode ser melhorada com a construo de intervalos de confiana

Anlise de Varincia para o MRLS




No desenvolvimento de um teste ANOVA, considere a definio de


trs tipos de resduos, ou fontes de variao, expressos pelas
seguintes Somas dos Quadrados (SQ):
TOTAL cuja soma dos quadrados dada por:
_

SQT = (Y Y ) 2
RESDUOS com a soma dos quadrados expressa atravs de:

SQE = (Y Y ) 2 = (Y 0 1 X ) 2 = e 2
MODELO, resultante das distncias entre os valores do modelo e a mdia:
_

SQR = (Y Y ) (Y Y ) =(Y Y ) 2
2

A tabela ANOVA para o MRLS definida de acordo com o que se


apresenta em seguida.

Fontes de
Variao
Regresso
Resduo
Total

g.l.
1
n-2
n-1

SQ

SQM

SQR

SQR
1

SQR
SQE/(n-2)

SQE

SQE
n-2

SQT

SQT
n-1

Regresso Linear Simples no STATA




Comando: regress y x1

No exemplo anterior, temos


regress tempo idade

SQR

Source |
SS
df
MS
-------------+-----------------------------Model |
810
1
810
Residual |
563
18 31.2777778
-------------+-----------------------------Total |
1373
19 72.2631579

Number of obs
F( 1,
18)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

20
25.90
0.0001
0.5899
0.5672
5.5927

SQE
-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.9
.1768552
5.09
0.000
.5284409
1.271559
_cons |
80.5
5.451045
14.77
0.000
69.04778
91.95222
------------------------------------------------------------------------------

Aps executado o comando regress, os valores preditos podem ser


obtidos usando o comando predict. Por exemplo,

regress tempo idade


predict yest
label var yest valores preditos tempo
list yest

Regresso Linear Mltipla


A anlise de uma regresso mltipla segue, basicamente, os mesmos critrios
da anlise de uma regresso simples.
Vamos supor que temos X1, X2,..., Xp-1 variveis preditoras. Definamos modelo
de regresso multplo, em termos das variveis preditoras:

Yi = 0 + 1 X i1 + 2 X i 2 + ... + p 1 X i , p 1 + i
Sendo:
0, 1,..., p-1, parmetros desconhecidos;
i erro amostral
Suposio: os erros amostrais so independentes com distribuio N(0, 2), i=1,2,...,n.

Exemplo 2:

Considere novamente o exemplo 1. Vamos agora,

trabalhar com as seguintes variveis:


X1: idade

X2: sexo

X3: acuidade Y: tempo

Assim, o modelo de regresso linear mltiplo ser dado por

Yi = 0 + 1 X i1 + 2 X i 2 + 3 X i ,3 + i
Observe que, agora dispomos de variveis quantitativas e qualitativas no
modelo.
Uma ferramenta til no processo de escolha preliminar das possveis variveis
explicativas que devero entrar no modelo a matriz de correlao entre as
variveis quantitativas.

Para nosso exemplo, temos a seguinte matriz de correlao:


pwcorr tempo idade acuidade, sig

|
tempo
idade acuidade
-------------+--------------------------tempo |
1.0000
|
|
idade |
0.7681
1.0000
|
0.0001
|
acuidade | -0.7553 -0.3990
1.0000
|
0.0001
0.0814
|

Ajustando o modelo de regresso com estas variveis, temos:


regress tempo idade sexo acuidade
Source |
SS
df
MS
-------------+-----------------------------Model | 1173.60282
3 391.200941
Residual | 199.397178
16 12.4623236
-------------+-----------------------------Total |
1373
19 72.2631579

Number of obs
F( 3,
16)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

20
31.39
0.0000
0.8548
0.8275
3.5302

-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.679224
.1229709
5.52
0.000
.4185374
.9399106
sexo | -2.791534
1.675998
-1.67
0.115
-6.344491
.7614219
acuidade | -.4014109
.0937644
-4.28
0.001
-.6001826
-.2026393
_cons |
125.4305
9.626618
13.03
0.000
105.023
145.838
------------------------------------------------------------------------------

Reta ajustada:

Yi = 125,43 + 0,68 X i1 2,79 X i 2 0,40 X i ,3

Tambm podem ser calculados os valores preditos:


regress tempo idade sexo acuidade
predict yest
label var yest valores preditos tempo
list yest

Avaliao do Modelo


Algumas avaliaes devem ser realizadas para se ter alguma idia da


eficcia e adequao do modelo.

Dentre as tcnicas utilizadas para avaliar a eficcia do modelo, o


coeficiente de correlao seria uma primeira possibilidade.

Outra medida de adequao o coeficiente de determinao do


modelo.

A determinao do melhor modelo, ou do modelo que melhor se


ajusta aos dados, est relacionada com a estimativa dos parmetros
que tornem os resduos to prximos de zero quanto possvel.

Deve-se ento, testar a significncia estatstica dos parmetros do


modelo.

Avaliando a significncia do parmetro


Hipteses:

H 0 : k = 0
H a : k 0
Estatstica de teste:

tcal =

k
s(k )

Critrio do teste:
Se |tcal| t(1-/2;n-p), aceita-se a hiptese nula, caso contrrio rejeita-se a
mesma.
Nota: Quando no dispomos da tabela t-student, podemos utilizar o p-valor,
fornecido por vrios programas estatsticos. Se p-valor menor que o nvel de
significncia, rejeitamos H0.

Considere o modelo de regresso mltipla ajustado anteriormente:

Yi = 125,43 + 0,68 X i1 2,79 X i 2 0,40 X i ,3


Para determinarmos quais parmetros so estatisticamente significantes,
basta observar o p-valor fornecido na tabela ANOVA.
regress tempo idade sexo acuidade
Source |
SS
df
MS
-------------+-----------------------------Model | 1173.60282
3 391.200941
Residual | 199.397178
16 12.4623236
-------------+-----------------------------Total |
1373
19 72.2631579

Number of obs
F( 3,
16)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

20
31.39
0.0000
0.8548
0.8275
3.5302

-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.679224
.1229709
5.52
0.000
.4185374
.9399106
sexo | -2.791534
1.675998
-1.67
0.115
-6.344491
.7614219
acuidade | -.4014109
.0937644
-4.28
0.001
-.6001826
-.2026393
_cons |
125.4305
9.626618
13.03
0.000
105.023
145.838
------------------------------------------------------------------------------

Apenas a varivel sexo no estatisticamente significante, considerando


um nvel de significncia de 5%.

Coeficiente de Determinao


Ao se analisar a reta de regresso


observamos que os pontos (xi, yi)
esto distribudos acima e abaixo da
mesma.
O coeficiente de determinao deve
ser interpretado como a proporo de
variao total da varivel dependente
que explicada pela variao da
varivel independente X.
O coeficiente de determinao, no
caso univariado, igual ao quadrado
do coeficiente de correlao.

Coeficiente de determinao
nn

Observe que o coeficiente de


determinao sempre positivo,
enquanto que o coeficiente de
correlao pode admitir valores
negativos e positivos.

22

rr ==

nn

(YY YY ) (YY YY)


22

22

ii

ii

ii==11

ii==11
nn

(YY YY )

22

ii

ii==11

==

SQE
SQE
SQT
SQT

Coeficiente de Determinao no STATA




No exemplo 1, temos
regress tempo idade

Source |
SS
df
MS
-------------+-----------------------------Model |
810
1
810
Residual |
563
18 31.2777778
-------------+-----------------------------Total |
1373
19 72.2631579

Number of obs =
F( 1,
18) =
Prob > F
=

R-squared

20
25.90
0.0001

Adj R-squared =
Root MSE
=

0.5899
0.5672
5.5927

-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.9
.1768552
5.09
0.000
.5284409
1.271559
_cons |
80.5
5.451045
14.77
0.000
69.04778
91.95222
------------------------------------------------------------------------------

R2 x 100 = 59% ( porcentagem de varincia explicada pelo modelo).

Coeficiente de Determinao no STATA




No exemplo 2, temos
regress tempo idade sexo acuidade
Source |
SS
df
MS
-------------+-----------------------------Model | 1173.60282
3 391.200941
Residual | 199.397178
16 12.4623236
-------------+-----------------------------Total |
1373
19 72.2631579

Number of obs =
F( 3,
16) =
Prob > F
=

20
31.39
0.0000

R-squared

Adj R-squared =
Root MSE
=

0.8275
3.5302

0.8548

-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.679224
.1229709
5.52
0.000
.4185374
.9399106
sexo | -2.791534
1.675998
-1.67
0.115
-6.344491
.7614219
acuidade | -.4014109
.0937644
-4.28
0.001
-.6001826
-.2026393
_cons |
125.4305
9.626618
13.03
0.000
105.023
145.838
------------------------------------------------------------------------------

You might also like