Professional Documents
Culture Documents
i i i i BX A Y Y Y E i + = =
6
0
1
=
=
n
i
i E
Na realidade qualquer linha
produz o valor zero dos resduos
__ __
X B A Y i + =
Se substrairmos a equao 2 da 1 temos:
(equao 2)
i i i
i
i
E X X B Y Y + = ) (
__
Ento somando todas as observaes temos que:
0 0 0 ) ( ) (
__ __
1
= =
=
b X X B Y Y
i
i
n
i
i
H duas alternativas:
(1) Encontrar A e B para minimizar os valores
absolutos dos resduos,
(2) ou, encontrar A e B para minimizar o quadrado
dos resduos.
i
E
2
i
E
(equao 3)
7
Os quadrados so mais faceis de manipular
matematicamente usaremos do que valores
absolutos, e so utilizados mais frequentemente.
Mas a regresso por least absolute values (LAV)
tambm pode ser til na medida em que mais
resistente a outlying observations.
A regresso por mnimos quadrados minimiza a
soma dos resduos ao quadrado considerando todas
as observaes, ou seja, procuramos valores de A e
B que mnimizem:
2
1
2
) ( ) , (
i i
n
i
i
BX A Y E B A S = =
=
Os coeficientes da regresso por mnimos quadrados
podem ser obtidos da seguinte forma:
___ __
X B Y A =
( )
|
.
|
\
|
|
.
|
\
|
|
.
|
\
|
=
=
2
___
__ ___
2
2
X X
Y Y X X
X X n
Y X Y X n
B
i
i i
i i
i i i i
8
Os dados sobre peso declarado e medido
apresentados no primeiro scatter plot desta aula
podem ser usados para exemplificar o calculo dos
coeficientes da regresso:
n = 101
23 , 57
101
5780
__
= = Y
74 , 56
101
5731
__
= = X
4435
__ ___
=
|
.
|
\
|
|
.
|
\
|
Y Y X X
i i
4539
2
___
=
|
.
|
\
|
X X
i
9771 , 0
4539
4435
= = B
789 , 1 74 , 56 9771 , 0 23 , 57 = = A
A regresso por mnimos quadrados para estes dados
sobre peso medido e declarado :
declarado peso medido peso _ 9771 , 0 79 , 1 _ + =
B = 0,977 significa que um aumento de 1 kg no peso
declarado est associado em mdia um aumento de
0,97 kg no peso medido.
A inteseo A o valor ajustado de Y quando X = 0.
9
Erro padro dos erros:
Alm de calcular a linha dos mnimos quadrados
importante saber qual a proximidade da linha em
relao aos pontos. Para tanto, podem ser utilizas a
varincia dos erros e erro padro dos erros:
2
2
2
=
n
E
S
i
E
2
2
=
n
E
S
i
E
Correlao simples:
O coeficiente de correlao uma medida relativa do
ajuste:
Em que medida nossa predio de Y melhora quando
baseamos esta predio na relao linear entre Y e
X?
Uma medida relativa exige um ponto de
comparao:
Em que medida Y pode ser previsto se X no for
considerado?
10
No levar em considerao X (varivel
independente) implica em estimar a equao:
' '
E A Y
i
+ =
Os valores ajustados so constantes (no mudam).
Para ajustar esta constante tambm podemos empregar
o mtodo dos mnimos quadrados para diminuir os erros.
( )
2
' 2 '
) (
= = A Y E A S
i i
O valor de A que minimiza essa soma dos quadrados
simplesmente a mdia da varivel dependente
__
Y
.
Y
X
i
(X
i
, Y
i
)
X
i BX A Yi + =
__
Y
i Y Y
i
__
Y Y
i
__ ^
Y Y
i
11
3.2 Calculando o coeficiente de determinao (R
2
)
Tendo em vista que a variao de Y deve-se tanto ao efeito de X quando ao erro aleatrio,
podemos partir a soma total dos quadrados em uma distribuio de escores entre um
componente sistemtico e outro aleatrio.
Inicialmente crie um desvio subtraindo a mdia
do valor observado Y
i
. Em seguida
adicione e diminua o valor predito pela regresso linear (
) (
) (
)
Assim, cada observao tem dois componentes:
1.
A esquerda temos a soma total dos quadrados, ou SQ
total
. Os dois termos a esquerda
representam a soma dos quadrados da regresso e a soma dos quadrados dos erros.
SQ
total
= SQ
regresso
+ SQ
erro
3.2.1 O coeficiente de determinao
O coeficiente de determinao da regresso indica a proporo da variao todal de Y
que determinada pela relao linear com X. Seu smbolo R
2
YX
(ou R ao quadrado) que
obtido pela seguinte formula:
12
Ou
Assim, o R-quadrado igual a 1 menos a razo entre a soma do quadrado dos erros e a
soma total dos quadrados. Elevar ao quadrado implica em restringir a variao de R
2
YX
ao
intervalo entre 0 e 1. Quando SQ
erro
for zero R
2
YX
= 1, ou seja, toda variao em Y
explicada pela varivel dependente. Quando SQ
erro
= SQ
total
(ou seja, toda variao se deve
ao erro) R
2
YX
= 0. Uma vez que SQ
regresso
= SQ
total
SQ
erro
, h uma quarta formula para R-
quadrado:
Uma formula simples de ser calculada para a relao bi variada a que faz a razo
entre o quadrado da covarincia dividido pelo produto das duas varincias:
13
.
Y
X
i
(X
i
, Y
i
)
X
i BX A Yi + =
__
Y
i Y Y
i
__
Y Y
i
__ ^
Y Y
i
3.2.2 O coeficiente de correlao:
A raiz quadrada de R
2
YX
, que resume a relao linear entre duas variveis continuas,
chamada de Coeficiente de Correlao de Pearsons (em homenagem ao estatstico Karl
Pearsons). Sua formula :
O coeficiente de correlao til porque ele mostra a direo da relao entre X e Y.
Um valor positivo ou negativo atribudo a r
YX
para indicar a direo da covarincia. Este
sinal deve ser igual ao sinal do coeficiente da regresso (b
YX
). O coeficiente de correlao
de Pearsons simtrico como mostra a formula abaixo:
14
)(
) ( )
4) Precaues na anlise da associao
a) Extrapolao: predizer valores de y para valores de x fora da abrangncia dos
dados
b) Cuidado com pontos influentes (outliers):
c) Correlao no sinnimo causa (causalidade):
Exemplo crime e educao (agresti)
Nmero de afogados e consumo de sorvete na Australia (agresti)
d) Paradoxo de Simpson
e) O efeito de variveis escondidas (no mensuradas) na associao
Sempre h essa possibilidade
f) Variveis que confundem o efeito (duas independentes associadas)