You are on page 1of 18

Revisão de Regressão Linear

Múltipla
HO 450 - Tópicos Especiais em Teoria Econômica
Prof. Alexandre Gori Maia
Instituto de Economia - UNICAMP
Ementa
Regressão Múltipla – Definição e Interpretação
Método de Mínimos Quadrados Ordinários
Análise de Variabilidade – Soma dos Quadrado, Tabela ANOVA, R2,
teste F e teste t
Multicolinearidade
Variáveis Binárias

Bibliografia
1
Maia, A. G. 2013. Apostila de Econometria. Instituto de Economia,
UNICAMP.
Regressão Múltipla - Definição
Seja a função de regressão: Yi    1 X1i  1 X 2i  ...   k X ki  ei
Pressupomos que a variável dependente Y será determinada por k
variáveis independentes X mais um erro aleatória e.
O modelo de regressão estabelece a relação esperada na
população (função de regressão populacional). Como usualmente
estimamos a relação com base em dados da amostra, trabalhos
com a função de regressão amostral.
Yi    1 X1i   2 X 2i  ei
Y
Yi  ˆ  ˆ1 X1i  ˆ2 X 2i  eˆi
Os parâmetros  e  estabelecem a
relação esperada na população e os
estimadores ^ e ^ estimam valores com
base em observações de uma amostra. 2
Analogamente, e representa os erros na
X2 população e ê os resíduos estimados com
X1 base nos valores da amostra.
Regressão Múltipla - Interpretação
• Em um modelo de regressão linear, os coeficientes angulares
s captarm o efeito parcial de uma variável independente
sobre a variável dependente. Em outras palavras, qual seria a
variação marginal em Y para uma variação unitária
(pressupostamente marginal ) em Xj, mantendo-se constante
as demais variáveis independentes;
Seja a função: Yi    1 X1   2 X 2  ei

E[Y / X1  0, X 2  0]  
Y
Y
 1
X 1
Y
 2
X 2
3
X1 X2
Mìnimos Quadrados Ordinários
• Obtém os estimadores da função de regressão de tal forma
que os erros sejam mínimos ;
Seja a função: Yi    1 X1   2 X 2  ...   k X k  ei

E a equivalente matricial: y  Xβ  e

Que representa o sistema:  Y1   1 X 11 X 21 ... X k1     e1 


      
 Y2   1 X 12 X 22 ... X k2  1   e2 
 ...    ... ... ...

... ...  ...   ... 
      
Y   1 X
 n  1n X 2n ... X kn   k   en 

yn1 Xnp p1 en1

O objetivo do MQO é minimizar a função: EQT  eˆ T eˆ


4
EQT
Minimizando, chegaremos a:  0  βˆ  ( XT X) 1 ( XT y )
βˆ
MQO – PROC REG
• O procedimento REG ajusta uma função de regressão por
MQO;
• A especificação do modelo é dada pelo comando MODEL;
Obtém as estimativas de MQO para o modelo das
emissões de CO2 (CO2) em função do PIB (GDP) e da
participação da setor secundário no PIB (Setor2)

• As estimativas são apresentadas na janela de OUTPUT:

O intercepto negativo não tem interpretação econômica (não existe país com
PIB nulo!). As estimativas dos parâmetros sugerem que, mantendo-se constante
a participação do setor secundário, cada aumento de 1 US$ no PIB per capita 5
implicará um acréscimo médio de 0,0003 ton nas emissões per capitas de CO2.
Analogamente, cada variação percentual na participação do setor secundário
implicará um acréscimo médio de 0,1 ton per capita de CO2, ceteris paribus.
Análise de Variabilidade
• A variabilidade total de Y representa a diversidade de valores que Y
pode assumir;
• Uma parcela da variabilidade de Y pode ser explicada isoladamente
pela variável independente X1, outra explicada isoladamente por X2 e
outra explicada conjuntamente por X1 e X2;
• A variabilidade não explicada por X será refletida nos erros do modelo
de regressão;

Efeito isolado Efeito isolado


de X1 em Y Variabilidade
total de Y de X2 em Y

Variabilidade
Variabilidade total de X2
total de X1 6

Efeito conjunto de X1
e X2 sobre Y
Soma dos Quadrados
• Permitem avaliar a qualidade Y
STQ
do ajuste; n
STQ   (Yi  Y )2  yT y  nY 2
• Bons modelos implicam i 1
X1 X2
variabilidade relativamente
baixa dos resíduos (SQRes) e
variabilidade relativamente alta
do ajuste de regressão (SQReg); SQ Re g  n (Yˆ  Y)2  βˆ T XT y  nY 2 Y
 i
i 1
SQReg
Y X1 X2

Y n Y
SQ Re s   (Yi  Yˆi )2  yT y  βˆ T XT y SQRes
i 1

^ X1 X2 7
Y

X
Coeficiente de Determinação
• Estima a proporção da variabilidade da variável dependente Y
que é explicada pelo conjunto das k variáveis independentes
do modelo de regressão X.
Y
SQ Re g SQ Re s
R2   1
STQ STQ
X1 X2

Escala de R2:

0 A relevância do R2 depende muito do tipo de 1 8


Independência variável dependente (Y) sendo analisada Relação
linear linear exata
Teste F
• Estima a significância do ajuste, ou seja, qual a probabilidade de
erro (p) se afirmarmos que o modelo contribui para explicar a
variabilidade da variável dependente (rejeitar H0).

Dado o modelo: Y    1 X1  ...   k X k  e


SQReg /k
F
H 0 : 1  ...   k  0
 SQRes /[n-(k  1 )] p
E as hipóteses: 
H1 : Pelo menos um  k  0
 F
Rejeitar H0 Rejeitar H0 Rejeitar H0 Não Rejeitar H0

Y Y Y Y

X1 X2 X1
X2
X1 X2 X1 X2

10 20 1=0 20 10 2=0 1=0 2=0


Nenhuma variável 9
X1 e X2 contribuem Apenas X2 contribui Apenas X1 contribui
contribui para explicar
para explicar Y. H0 para explicar Y. H0 para explicar Y. H0
Y. H0 não deveria ser
deveria ser rejeitado deveria ser rejeitado deveria ser rejeitado
rejeitado
Tabela Anova
• Resume os resultados da Análise de Variância do modelo.
• Valores de p pequenos (usualmente menores que 5%) indicam
que o modelo contribui significativamente para explicar a
variabilidade da variável dependente;

Fonte gl SQ QM F p
SQReg QM Reg
Regressão k βˆ T XT y  nY 2 valor p
k QM Res
SQRes
Resíduos n(k+1) yT y  βˆ T XT y n  (k  1)

Total n1 yT y  nY 2 10
Tabela ANOVA – PROC REG
• A tabela ANOVA é automaticamente apresentada com a
execução do procedimento REG;

O valor p para o teste F da tabela ANOVA sugere que, se afirmarmos que pelo
menos uma das variáveis independentes (PIB ou Setor2) contribui para explicar
a variabilidade da emissão de CO2, estaríamos sujeitos a um erro inferior a
0,01%. Ou seja, podemos afirmar que o ajuste é significativo.
O R2 indica que 51,4% da variabilidade de CO2 são explicados conjuntamente
pelas variáveis independentes no ajuste.
11
Teste t
• Estima a significância de cada coeficiente do modelo, ou seja, qual a
probabilidade de erro (p) se afirmarmos que a j-ésima variável
independente contribui isoladamente para explicar a variabilidade
da variável dependente (rejeitar H0).
Onde:
Dado o modelo: Y    1 X1  ...   k X k  e Sβˆ2  ( XT X) 1ˆ 2
 H 0 :  j  0 t  ˆ j Sˆ p/2 p/2
e:
E as hipóteses:  j y T y  βˆ T XT y
 H1 :  j  0 ˆ 
2

t n  (k  1)
Rejeitar 1=0 e 2=0 Rejeitar apenas 2=0 Rejeitar apenas 1=0 Não Rejeitar 1=0 e 2=0

Y Y Y Y

X1 X2 X1
X2
X1 X2 X1 X2

10 20 1=0 20 10 2=0 1=0 2=0


X1 e X2 contribuem Nenhuma variável 12
Apenas X2 contribui Apenas X1 contribui
para explicar Y. Os contribui para explicar
para explicar Y. H0 :2=0 para explicar Y. H0 :1=0
dois testes t deveriam Y. Nenhum dos testes t
deveria ser rejeitado deveria ser rejeitado
ser rejeitados deveria ser rejeitado.
Tabela t– PROC REG
• Os testes t para cada coeficientes são automaticamente
apresentados com a execução do procedimento REG;

Os valores t são iguais às estimativas dos parâmetros divididas pelos respectivos


erros padrão. Tanto o teste t para o coeficiente associado à variável GDP
quanto o associado à variável Setor2 são significativos.
Em outras palavras, a probabilidade de err ao afirmarmos, por exemplo, que a
variável GDP contribui isoladamente para explicar a variabilidade de CO2 é
inferior a 0,01%. Resultado análogo é observado para o coeficiente associado à
variável Setor2.
13
Multicolinearidade
• Quando as variáveis independente estão fortemente relacionadas
(multicolinearidade), o efeito parcial de um regressor sobre o
regressando pode ser muito pequeno e sua estimativa tende a ser
insignificante se a amostra não for suficientemente grande;
• Quando a relação entre variáveis independentes é perfeita, dizemos
que há colinearidade perfeita e é impossível estimar os efeitos
parciais;

Efeito isolado Efeito isolado


de X1 em Y Variabilidade de X2 em Y Variabilidade
total de Y total de Y

Efeito Efeito
conjunto de conjunto de
X1 X2 Variabilidade X1 e X2 sobre
X1 e X2 sobre X1 de X
conjunta 1 Y 14
Y
e X2
Variáveis Binárias – 2 Categorias
• Para representarmos duas categorias nominais (A e B) em
um modelo de regressão, precisamos de apenas uma
variável binária D;
• A referência da análise será dada por D=0;

Yi    1 X i   2 Di  ei

Categoria Di
A 1
B 0
Y A
O coeficiente 2 indicaria quanto Y seria, B
em média, maior (ou menor) para a
2
categoria A (D=1) que para a categoria de
 X
referência B (D=0), independente do valor
15
de X. Para A:Yi  (   2 )  1 X i  ei
Para B:Yi    1 X i  ei
Variáveis Binárias – Múltiplas Categorias
• Para representarmos k categorias nominais, precisamos de
k-1 variáveis binárias D’s.
• A referência da análise será dada por uma das categorias.

Yi    1 X i   2 D1i  3 D2i  ei
Categoria D1i D2i
A 1 0
B 0 1
C 0 0 A
Y
O coeficiente 2 indicaria quanto Y seria, B
em média, maior para a categoria A (D1=1) 2
C
3
que a categoria de referência C (D1=0 e
D2=0), independente do valor de X. O  X
coeficiente 3 indicaria quanto Y seria, em Para A: Yi  (   2 )  1 X i  ei
16
média, maior para a categoria B (D2=1) que Para B: Yi  (  3 )  1 X i  ei
a categoria de referência C. Para C: Yi    1 X i  ei
Variáveis Binárias - Exemplo
• Para verificarmos se as emissões de CO2 são diferentes entre
os grupos de países devemos criar as variáveis binárias e
incorporá-las no procedimento REG:
A categoria pobre foi utilizada como
referência. Assim, os coeficientes das
binárias indicarão diferenças entre as
emissões dos países ricos e médios em
relação aos pobres.

• As estimativas de MQO seriam:

17
Há diferenças significativas entre as emissões de grupos de países e ricos e
médios em comparação com os pobres, independente do PIB e da participação
do setor industrial.
Exercícios
1) A partir de informações sobre a taxa de mortalidade nas UF
brasileiras em 2000, pede-se
a) Ajuste um modelo por MQO para a taxa de mortalidade como
função dos anos de estudo, percentual de pobres e índice de
desigualdade;
b) Analise os efeitos parciais das variáveis;
c) Analise a significância do ajuste;
d) Analise a significância dos coeficientes parciais estimados;
e) Refaça o ajuste selecionando as variáveis que achar mais
relevantes para explicar a taxa de mortalidade;
f) Verifique se, independente dos fatores de controle, a taxa de
mortalidade dos estados muito desiguais é significativamente
diferentes da dos demais estados;
g) Verifique se, independente dos fatores de controle, as taxas de
mortalidade das regiões brasileiras são significativamente 18
diferentes da observada na região Sudeste;