You are on page 1of 25

ANLISE DE REGRESSO E CORRELAO

Quando se consideram observaes de 2 ou mais variveis surge


um ponto novo:
O estudo das relaes porventura existentes entre as variveis.

A anlise de regresso e correlao compreendem a anlise de


dados amostrais para saber se e como um certo conjunto de variveis
est relacionado com outra varivel.

Anlise de regresso: estuda o relacionamento entre uma varivel


chamada a varivel dependente e outras variveis chamadas variveis
independentes. Este relacionamento representado por um modelo
matemtico , isto , por uma equao que associa a varivel dependente
com as variveis independentes. Este modelo designado por modelo
de regresso linear simples se define uma relao linear entre a
varivel dependente e uma varivel independente. Se em vez de uma,
forem incorporadas vrias variveis independentes, o modelo passa a
denominar-se modelo de regresso linear mltipla.

1
Anlise de correlao: dedica-se a inferncias estatsticas das
medidas de associao linear que se seguem:

coeficiente de correlao simples: mede a fora ou grau de


relacionamento linear entre 2 variveis.

coeficiente de correlao mltiplo: mede a fora ou grau de


relacionamento linear entre uma varivel e um conjunto de outras
variveis.

As tcnicas de anlise de correlao e regresso esto intimamente


ligadas.

2
REGRESSO LINEAR SIMPLES

Vamos considerar a situao em que duas variveis esto ligadas


por um relacionamento linear. A relao entre elas pode ser descrita
matematicamente atravs do seguinte modelo:

Y = 0 + 1 X + E
sendo,

X a varivel explicativa ou independente medida sem erro (no


aleatria);

E a varivel aleatria residual na qual se procuram incluir todas as


influncias no comportamento da varivel Y que no podem ser
explicadas linearmente pelo comportamento da varivel X;

0 e 1 parmetros desconhecidos do modelo (a estimar).

Y a varivel explicada ou dependente (aleatria);

Exemplo:

Suponhamos que estamos interessados em desenvolver um modelo


para descrever a temperatura da gua do mar. A temperatura (Y)
depende em parte da profundidade da gua (X).

No estamos interessados em fazer inferncias acerca da


profundidade da gua, mas sim, em descrever o comportamento da
temperatura da gua sabendo partida o valor exacto da sua
profundidade.

3
Se fixarmos a profundidade da gua em xi , a temperatura vai variar
devido a outras influncias aleatrias. Assim, para cada xi fixo estamos
a lidar com uma varivel aleatria Yi de mdia Yi ( Yi depende de xi,
pois a temperatura mdia da gua profundidade xi , deve de ser
diferente da temperatura mdia profundidade xj xi ).

Num estudo de regresso temos n observaes da varivel X:


x1,x2,,xn (assume-se que estas observaes so medidas sem erro).

Temos ento n variveis aleatrias Y1, Y2, ..., Yn tais que:

Yi = 0 + 1x i + E i i=1,...,n .

Admite-se que E1, E2,..., En so variveis aleatrias independentes


de mdia zero e varincia 2.

Ento, para qualquer valor xi de X, Yi uma varivel aleatria


de mdia Yi = 0 + 1 x i e varincia 2.

Isto significa que para um dado xi podemos calcular a mdia de Yi,


Yi = 0 + 1 x i , que depende de xi , e o desvio padro que no

depende do valor xi fixado. uma medida da disperso dos valores de


Yi volta da sua mdia Yi .

Os dados para a anlise de regresso e correlao simples so da


forma:
4
(x1, y1), (x2, y2),..., (xn, yn)

onde xi o valor da varivel X e yi a correspondente observao da


varivel aleatria Yi (i=1,...,n).

Cada observao obedece seguinte relao:

y i = 0 + 1x i + i i=1,...,n .


Yi
Realizao da v.a. Ei

De facto, o valor observado de uma varivel aleatria (yi),


usualmente difere da sua mdia ( Yi ) por uma quantidade aleatria i.

Com os dados constroi-se o DIAGRAMA DE DISPERSO, este deve


exibir uma tendncia linear para que se possa usar a regresso linear.
Portanto este diagrama permite decidir empiricamente se um
relacionamento linear entre X e Y deve ser assumido.

Por anlise do Diagrama de Disperso pode-se tambm concluir


(empiricamente) se o grau de relacionamento linear entre as variveis
forte ou fraco, conforme o modo como se situam os pontos em redor de
uma recta imaginria que passa atravs do enxame de pontos. A
correlao tanto maior quanto mais os pontos se concentram, com
pequenos desvios, em relao a essa recta.

A partir dos dados disponveis estimamos 0 e 1 e substitumos


estes parmetros tericos pelas suas estimativas b0 e b1 para obter a
equao de regresso estimada:
5
y = Y / x = b 0 + b1x

Esta equao estima o valor mdio de Y para um dado valor x de X,


mas usada para estimar o prprio valor de Y. De facto, o senso comum
diz-nos que uma escolha razovel para predizer o valor de Y para um
dado x de X, o valor mdio estimado Y / x . Por exemplo, se
quisssemos predizer a temperatura da gua do mar a uma profundidade
de 1000 metros uma escolha lgica a temperatura mdia a esta
profundidade:

y = Y / x =1000 = b 0 + b1 1000

Estimao pelo mtodo dos mnimos quadrados

Cada par (xi,yi) satisfaz a

y i = b 0 + b1x i + d i
onde
d i = y i y i = y i (b 0 + b1x i )

o i-simo resduo, isto , a distncia vertical do ponto (xi,yi) recta de


regresso estimada.

Este mtodo consiste em escolher b0 e b1 de modo a minimizar a


soma dos quadrados dos resduos di. Desta forma estamos

6
essencialmente a escolher a recta que se aproxima o mais possvel de
todos os pontos dos dados simultaneamente.

Soma dos quadrados n n


= SSE = d i = ( y i b 0 b1x i ) 2
2

dos resduos i =1 i =1

Para determinar b0 e b1 de modo a minimizar SSE:

n
SSE
= 0


n
i 0 1 i = x i yi n x y
b 2 ( y b b x ) 0
b1 = i =1
= "
SSE
0 i 1 n
=0
n
2 ( y i b 0 b1x i ) x i = 0 x i
2
nx 2
b1 i =1 i =1
b 0 = y b1x

x mdia dos valores observados de X

y mdia dos valores observados de Y

7
REGRESSO LINEAR MLTIPLA

O modelo de regresso linear mltipla postula a existncia de uma


relao linear entre uma varivel dependente ou explicada Y e k
variveis independentes ou explicativas X1,...,Xk a qual pode ser
traduzida pela seguinte expresso:

Y = 0 + 1X1 + " + k X k + E

sendo,

X1,...,Xk as variveis explicativas ou independentes medidas sem erro


(no aleatrias);

E a varivel aleatria residual na qual se procuram incluir todas as


influncias no comportamento da varivel Y que no podem ser
explicadas linearmente pelo comportamento das variveis X1,...,Xk e
os possveis erros de medio;

0 , 1,..., k os parmetros desconhecidos do modelo (a estimar).

Y a varivel explicada ou dependente (aleatria);

Exemplo:
8
Consideremos as seguintes variveis:

Y Volume de vendas efectuadas durante um dado perodo de tempo


por um vendedor;

X1Anos de experincia como vendedor;

X2Score no teste de inteligncia.

Se fixarmos o valor x1i para os anos de experincia X1 (por


exemplo x1i=4 anos) e outro valor x2i para o score no teste de
inteligncia X2 (por exemplo x2i=3), o volume de vendas vai variar
devido a outras influncias aleatrias. Isto , vendedores com 4 anos de
experincia e score 3 no teste de inteligncia, podem apresentar volumes
de vendas diferentes.

Assim, para x1i e x2i fixos Yi uma varivel aleatria de mdia Yi .

Temos n valores de cada varivel independente:

i=1 i=2 ... i=n

X1 x11 x12 ... x1n

X2 x21 x22 ... x2n

# # # % #

Xk xk1 xk2 ... xkn

9
Temos ento n variveis aleatrias,

Y1 = 0 + 1x11 + " + k x k1 + E1

Y2 = 0 + 1x12 + " + k x k 2 + E 2

Yn = 0 + 1x1n + " + k x kn + E n

Em notao matricial,

Y1 1 x11 x 21 " x k1 0 E1
Y 1 x x 22 " x k 2 1 E 2
=
2 12 +
# # # # % # # #

NYn 1 x1n x 2 n " x kn k E n

N N
Y X E

Y vector das respostas aleatrias

X Matriz significativa do modelo

Vector dos parmetros do modelo

EVector dos erros aleatrios

Outra forma de escrever o modelo ento,

Y=X+E

10
Admite-se que E1, E2,..., En so variveis aleatrias independentes
de mdia zero e varincia 2.

Ento, para quaisquer valores x1i, x2i,...,xki fixos, Yi uma


varivel aleatria de mdia Yi = 0 + 1 x1i + ... + k x ki e varincia

2.

Isto significa que para um conjunto de valores fixos x1i, x2i,...,xki de


X1,...,Xk , podemos calcular a mdia de Yi,
Yi = 0 + 1 x1i + ... + k x ki , que depende de x1i, x2i,...,xki . O desvio

padro uma medida da disperso dos valores de Yi volta da sua


mdia Yi e sempre o mesmo quaisquer que sejam os valores das

variveis independentes que fixemos.

Os dados para a anlise de regresso e correlao mltipla so da


forma:

(y1, x11, x21,...,xk1), (y2, x12, x22,...,xk2) ,..., (yn, x1n, x2n,...,xkn).

Cada observao obedece seguinte relao:

y i = 0 + 1x1i + 2 x 2i + ... + k x ki + i i=1,...,n .




Yi
Realizao da v.a. Ei

11
Temos ento o seguinte sistema de equaes,

y1 = 0 + 1x11 + " + k x k1 + 1
y = + x + " + x +
2 0 1 12 k k2 2

#
y n = 0 + 1x1n + " + k x kn + n

Em notao matricial o sistema pode ser representado por,

y1 1 x11 x 21 " x k1 0 1
y 1 x x 22 " x k 2 1 2
2 = 12 +
# # # # % # # #

Ny n 1 x1n x 2 n " x kn k n

N N
y X

y vector das observaes da varivel dependente

X Matriz significativa do modelo

Vector dos parmetros do modelo

Vector das realizaes da varivel aleatria residual

Isto ,

y=X+

12
A partir dos dados disponveis (observados) estimamos 0 , 1,...,
k e substitumos estes parmetros tericos pelas suas estimativas b0,
b1, ...,bk para obter a equao de regresso estimada:

y = Y / x1, x 2 ,..., x k = b 0 + b1x1 + b 2 x 2 + ... + b k x k

Esta equao estima o valor mdio de Y para um conjunto de


valores x1, x2,...,xk fixo, mas usada para estimar o prprio valor de Y.
Por exemplo, se quisssemos predizer o volume de vendas de um
vendedor com 4 anos de experincia e score 3 no teste de inteligncia,
uma escolha lgica seria o volume mdio de vendas dos vendedores
com estas caractersticas:

y = Y / x1 = 4, x 2 = 3 = b 0 + b1 4 + b 2 3 .

Estimao pelo mtodo dos mnimos quadrados

Associado a cada observao (yi, x1i, x2i,...,xki) est um resduo,

d i = y i y i = y i (b 0 + b1x1i + b 2 x 2i + ... + b k x ki )

Este mtodo consiste em escolher b0, b1,..., bk de modo a minimizar


a soma dos quadrados dos resduos di.

Soma dos n n
= SSE = d i = ( y i b 0 b1x1i b 2 x 2i ... b k x ki )
2 2

quadrados dos i =1 i =1

resduos

13
Para determinar b0, b1,..., bk de modo a minimizar SSE resolve-se o
sistema de equaes:
SSE SSE SSE
=0 = 0 " =0
b 0 b1 b k

b0 0
b
Obtm-se o vector b = 1 = X t X
#
( )
1 t
X y estimativa para = 1 .
#

b k k
0


O estimador obviamente, = 1 = X t X
#
( )
1
XtY.

k

Para k=1 (no caso da regresso simples) teramos,


b
(
b = 0 = XtX )
1
Xt y
b1
onde X tem apenas 2 colunas (pois k=1), mas como vimos b0 e b1
podem tambm ser determinados por,
n
x i yi n x y
i =1
b1 = n
e b 0 = y b1x .
xi 2
nx 2

i =1

Cada coeficiente de regresso estimado bi , i=1,...,k (estimativa de


i), estima o efeito sobre o valor mdio da varivel dependente Y de
uma alterao unitria da varivel independente Xi, mantendo-se
constantes todas as restantes variveis independentes.

14
COEFICIENTE DE CORRELAO E DE DETERMINAO

Seja y a mdia dos valores observados para a varivel dependente.


Para uma qualquer observao yi tem-se:

( y i y) = ( y i y i ) + ( y i y)

Pode-se mostrar que elevando ao quadrado ambos os membros e


somando para todas as observaes resulta que:
n n n
( y i y) 2
= ( y i y i ) + ( y i y) 2
2

i =1 i =1 i =1

SST = SSE + SSR

SST Soma dos quadrados totais

SSE Soma dos quadrados dos resduos

SSR Soma dos quadrados da regresso

Isto :

Variao total Variao que o Variao


de Y volta da ajustamento no explicada pelo
= +
sua mdia consegue explicar ajustamento

Coeficiente de determinao r2:

15
SSR SST SSE SSE
r2 = = =1
SST SST SST

r2 a proporo de variao da varivel dependente Y que


explicada pelo modelo, isto pela equao de regresso ajustada, ou
equivalentemente, a proporo da variao de Y explicada em termos
lineares pelas variveis independentes.

Note que:

0r21;

r21 (prximo de 1) significa que grande parte da variao de Y


explicada linearmente pelas variveis independentes.

r20 (prximo de 0) significa que grande parte da variao de Y


no explicada linearmente pelas variveis independentes.

Neste sentido este coeficiente pode ser utilizado como uma medida
da qualidade do ajustamento, ou como medida da confiana depositada
na equao de regresso como instrumento de previso:

r20 modelo linear muito pouco adequado

r21 modelo linear bastante adequado

raiz quadrada de r2 d-se o nome de:

16
coeficiente de correlao simples (se est envolvida apenas
uma varivel independente)
coeficiente de correlao mltiplo (se esto envolvidas pelo
menos 2 variveis independentes)

Coeficiente de Correlao Simples

r = r2

uma medida do grau de associao linear entre as variveis X e


Y.

-1r1;

r>0 (positivo) indica que as duas variveis tendem a variar no


mesmo sentido, isto , em mdia um aumento na varivel X
provocar um aumento na varivel Y;

r<0 (negativo) indica que as duas variveis tendem a variar em


sentido inverso, isto , em mdia um aumento na varivel X
provocar uma diminuio na varivel Y;

r=1 e r=-1 indicam a existncia de uma relao linear perfeita


entre X e Y, positiva e negativa respectivamente;

17
r=0 indica a inexistncia de qualquer relao ou tendncia linear
entre X e Y podendo no entanto existir uma relao no linear
entre elas. Isto , possvel que as duas variveis estejam
fortemente associadas (movimentos numa varivel esto
associados a movimentos na outra) sem que o relacionamento
seja linear.

r pode ser calculado a partir da seguinte frmula:


n n
b 0 y i + b1 y i x i ny 2
i =1 i =1
r = r2 = n
com o sinal do declive b1.
yi 2
ny 2

i =1

Coeficiente de Correlao Mltiplo

uma medida do grau de associao linear entre Y e o conjunto de


variveis X1, X2,...,Xk.

0r1;

r=1 indica a existncia de uma associao linear perfeita, isto ,


Y pode ser expresso exactamente como combinao linear de X1,
X2,...,Xk;

r=0 indica a inexistncia de uma relao linear entre a varivel


dependente Y e o conjunto de variveis independentes X1,
X2,...,Xk.

18
PROPRIEDADES DOS ESTIMADORES DOS MNIMOS
QUADRADOS E TESTES DE HIPTESES

O mtodo dos mnimos quadrados fornece estimativas pontuais b0,


b1,...,bk para 0, 1,..., k . Os estimadores que fornecem estas
estimativas so:

0


(
= 1 = X t X
#
)
1
XtY .

k

Se os erros Ei alm de serem independentes com valor esperado nulo


e varincia constante - 2, seguirem uma distribuio normal, ento
pode-se mostrar que os estimadores 0 , 1 ,..., k so tais que:

( )
E i = i i=1,...,k;

( )
Var i = 2 c ii

onde cii o elemento diagonal da linha i+1 da matriz X t X ( )1


.

Na regresso simples estas varincias podem ser dadas por:


n
xi2
( )
Var 0 = 2 n
i =1
e ( )
Var 1 = 2 n
1
;
n xi n 2x 2
2
xi 2
nx 2
i =1 i =1

Cada i tem distribuio normal: i ~ N(i, 2 c ii ).


19
( )
Como, em geral, 2 desconhecido estimamos Var i por S 2 que
i

se obtm substituindo nas formulas anteriores 2 pelo seu estimador,


SSE
S2 = .
n k 1

Ento,

SSE
S 2 = S2 c ii = c ii .
i n k 1

20
Testes sobre os coeficientes de regresso

Ocasionalmente, poder ser de suspeitar que uma varivel


explicativa particular no muito til, isto , que a sua influncia sobre
a varivel dependente no significativa. Para saber se este o caso
testamos a hiptese nula de que o coeficiente para esta varivel nulo:

H 0 : i = 0
.
H1 : i 0

Sabemos que

i ~ N(i, 2 cii ),
ento
i i
~ N(0,1) .
c ii

Como 2 desconhecido, substitumos pelo seu estimador

SSE
S=
n k 1
vindo,
i i i i
= ~ t n k 1 .
S S c ii
i

A estatstica do teste, se H0 verdadeira, :

i 0 i 0
= ~ t n k 1 .
S S c ii
i

21
Se H0 for rejeitada ento temos evidncia de que i0, isto a
varivel explicativa Xi til na predio do valor da varivel
dependente.

Se H0 no for rejeitada ento a varivel explicativa Xi geralmente


retirada da equao de regresso pois no influncia significativamente
a varivel resposta Y.

Mais geralmente, podemos testar a hiptese nula de que o coeficiente


seja igual a um determinado valor i0:

H 0 : i = i 0
.
H1 : i i 0

A estatstica do teste, se H0 verdadeira, :

i i 0 i i 0
= ~ t n k 1 .
S S c ii
i

Poderiam tambm ser conduzidos testes unilaterais em vez de testes


bilaterais:

H 0 : i = i 0 H 0 : i = i 0
.
H1 : i > i 0 H1 : i < i 0

22
Teste F para testar a significncia da regresso

Este teste serve para saber se a regresso ou no significativa.

A hiptese nula :

H0: a equao de regresso no explica a variao na varivel


resposta

ou equivalentemente,

H0: no existe relao linear entre a varivel dependente e o


conjunto de variveis independentes utilizadas

Matematicamente:

H 0 : 1 = 2 = ... = k = 0
.
H1 : pelo menos um i 0

Pode-se mostrar que se H0 for verdadeira, a estatstica do teste

SSR k SSR k
F= = ~ Fnk k 1 .
SSE (n k 1) S2

Note que,

SSR k n k 1 SSR n k 1 SSR SST


F= = =
SSE (n k 1) k SSE k SSE SST

n k 1 R2
= .
k 1 R 2

23
Rejeitamos H0 para valores grandes da estatstica do teste F. parte
n k 1
da constante a estatstica F a razo entre a variao explicada
k
e a no explicada em Y. natural que digamos que a regresso
significativa s quando a proporo da variao explicada grande. Isto
ocorre s quando a razo F grande. Por esta razo devemos sempre
rejeitar H0 para valores de F muito grandes.

Se H0 no for rejeitada ento o mesmo que dizer que o conjunto de


variveis explicativas contribuem pouco para a explicao da variao
da varivel dependente.

Na regresso simples para testar a significncia da regresso


consideramos as hipteses,

H 0 : 1 = 0
H1 : 1 0

e portanto a estatstica teste a usar pode ser,

1 0
~ t n 2 .
S Sob H0
1

24
Os resultados descritos podem ser convenientemente resumidos na
tabela da ANOVA seguinte:

Fonte de Soma dos Graus de Quadrados Razo F


variao Quadrados Liberdade Mdios
n
Devido  k SSR
SSR= ( y i y )2
Regresso i =1
k

n
Devido aos  n-k-1 SSE SSR k
SSE= (y i y i )2 = S2 F=
resduos i =1
n k 1 S2

Total n n-1
SST= (y i y )2
i =1

25

You might also like