You are on page 1of 10

UNIDADE DE INTERAÇÃO E APRENDIZAGEM 3 | UIA 3

Qualidade de Ajuste e Violação das Premissas do Modelo Linear

 Aula 09 | Qualidade do Ajuste do Modelo


 Aula 10 | Normalidade
 Aula 11 | Multicolinearidade e a Violação das Premissas do Modelo Linear
 Aula 12 | Heterocedasticidade e a Violação das Premissas do Modelo Linear

AULA 09 | QUALIDADE DOS AJUSTES DO MODELO

Construída uma reta de regressão que melhor se ajusta aos pontos (x, y) e verificado as hipóteses, o próximo
passo é verificar a qualidade desse ajustamento, ou seja, verificar o quão bem uma reta de regressão amostral é
adequada aos dados.

Se todas as observações (x, y) se situassem exatamente na reta de regressão, obteríamos um ajustamento


perfeito (como na figura abaixo), mas isso raramente acontece.

O que se tem quase sempre, são diversas observações (x, y) fora da reta de regressão (figura abaixo),
ocasionando os resíduos em torno da reta. O que se espera é que esses resíduos    sejam os menores possíveis.

Uma boa regressão é aquela que ajuda a explicar uma grande proporção da variância de Y.
QUALIDADE DO AJUSTE DO MODELO DE REGRESSÃO LINEAR

A qualidade de um ajuste linear, pode ser verificado pelo:

 Coeficiente de determinação r²;


 Análise de variância do modelo, teste F;
 Análise dos resíduos.

1. COEFICIENTE DE DETERMINAÇÃO r2

Uma das formas de avaliar a qualidade do ajuste do modelo é através do coeficiente de determinação. Este
coeficiente indica quanto o modelo foi capaz de explicar os dados coletados.
O coeficiente de determinação verifica, dentro de todas as variações possíveis da variável dependente Y
(explicadas ou não), a porcentagem de variações que são explicadas pela variável independente X, ou seja, o
coeficiente de determinação nada mais é do que um cálculo simples de proporção.

Então, podemos escrever o coeficiente como

VARIAÇÃO EXPLICADA DE Y
r2 
VARIAÇÃO TOTAL Y

2
O coeficiente de determinação r varia entre 0 e 1, indicando, em porcentagem, o quanto o modelo consegue
2
explicar os valores observados. Quanto maior o r , mais explicativo é o modelo, melhor ele se ajusta à
amostra.
2
Por exemplo, se o r de um modelo é 0,8234, isto significa que 82,34% da variável dependente Y consegue ser
explicada pelas variáveis independentes X presentes no modelo.
2
Para montar r , observe primeiramente no gráfico abaixo os seguintes dados:

 y i = valores observados.
 ŷ i = valores estimados
 y = média dos valores observados.
No gráfico temos três diferenças com relação a y i , ŷ i e y :

 yi  y = diferença entre os valores observados e a média das observações.


 yˆ i  y = diferença entre os valores estimados e a média das observações.
 yi  yˆ i = diferença entre os valores observados e os valores estimados (que nada mais é do que o
resíduo).

Observe ainda que:


yi  y = ( yˆ i  y ) + ( yi  yˆ i )

Elevando ao quadrado e somando cada termo, temos:

 ( y  y)  ( yˆ  y) +  ( y  yˆ i ) (I)
2 2 2
i
= i i

onde

 Soma Total dos Quadrados da diferença (STQ) entre y i e y , que representa a variação total de Y.

SQT   ( yi  y ) 2

 Soma Total dos Quadrados da diferenças entre ŷ i e y ou Soma Quadrática Explicada (SQE)

SQE   ( yˆ i  y ) 2

Observe que a diferença entre ŷ i e y indica-nos a diferença entre a média das observações e o valor
estimado para cada observação. Esta é a parte que é explicada pelo modelo de regressão linear. Quanto
menor for a diferença, maior poder explicativo detém o modelo, pois os valores estimados ŷ i se
aproximariam cada vez mais da média das observações y i e consequentemente das próprias observações.
 Soma Total dos Quadrados da diferença entre y i e ŷ i , que nada mais é do que a Soma Quadrática dos
Resíduos (SQR)
SQR   ( yi  yˆ i )
2

Neste caso, poderíamos escrever:

SQR  i (soma quadrática dos resíduos)


2

O resíduo representa a variação de Y que não é explicada pelo modelo. Ou seja, o erro é a diferença entre o valor real,
que não observamos, e o valor estimado. Representa outras influências na variável Y além da exercida pela variável X.
Portanto, SQR calcula a parte que não é explicada pelo modelo.

Portanto, a equação (I) acima mostra que a variação total dos valores observados de Y em torno da sua média
podem ser divididos em duas partes:

 uma atribuída à linha de regressão e a outra atribuída a foças aleatórias porque nem todas as observações
efetivas de Y se situam sobre a linha ajustada. Isso pode ser visto no gráfico acima.

2
Voltando ao coeficiente de determinação r , definido no início,

r 
VARIAÇÃO EXPLICADA DE Y
2

SQE

 ( yˆ i  y)2
VARIAÇÃO TOTAL Y SQT (y i
 y)2

Ou seja, o coeficiente de determinação é dado por

r 
2 SQE

 ( yˆ i  y)2 (II)
SQT (y i
 y)2

De modo alternativo, também podemos escrever o coeficiente de determinação como abaixo. A equação (I) na
página 3 pode ser escrita como:

SQT = SQE + SQR


SQT – SQE = SQR
Dividindo por SQT, temos:

SQT SQE SQR


 
SQT SQT SQT
SQR
1 r 2 
SQT
SQR
1 r 2 
SQT

SQR (III)
r 2  1
SQT

Notemos que 0  r 1 (ou 0%  r  100%) .


2 2
FÓRMULAS ALTERNATIVAS PARA CALCULAR O COEFICIENTE DE DETERMINAÇÃO

Além das fórmulas apresentadas em (II) e (III) na seção anterior, podemos calcular o coeficiente de
2
determinação r por outras fórmulas.

 Fórmula do coeficiente de correlação de Pearson

Na UIA1 – Aulas 01 e 02, foi apresentado o coeficiente de correlação de Pearson r , definido por:

n.  x. y   x. y
r

n.  x 2
  x 
2
  n . y 2
  y 
2

Podemos calcular o coeficiente de determinação, elevando ao quadrado o valor de r de Pearson. Por exemplo,
se r = 0,9195, então o coeficiente de determinação é dado por

r 2  (0,9195) 2  0,8455 ou 84,55%


 Podemos calcular o coeficiente de determinação também pela seguinte fórmula:

r 
 ( x  x )  ˆ
2 i
2
2
(IV)

 ( y  y) 2 1
i

Onde,

 ̂1 é o coeficiente angular da reta de regressão estimada.


 x média dos valores da variável independente X.
OBSERVAÇÕES:

 O coeficiente de determinação r é, portanto, uma medida descritiva da qualidade do ajuste obtido. Em


2

2
geral referimo-nos ao r como a quantidade de variabilidade nos dados que é explicada pelo modelo de
regressão ajustado. Entretanto, o valor do coeficiente de determinação depende do número de
2 2
observações n. O valor de r tende a crescer quando n diminui. Se n = 2, tem-se sempre r = 1.

 O r deve ser usado com precaução, pois é sempre possível torná-lo maior pela adição de um número
2

suficiente de termos ao modelo. Assim, se, por exemplo, não há dados repetidos (mais do que um valor
2
y para um mesmo x) um polinômio de grau (n – 1) dará um ajuste perfeito r = 1 para n dados. Quando
2
há valores repetidos, o r não será nunca igual a 1, pois o modelo não poderá explicar a variabilidade
devido ao erro puro.

 Embora r aumente com a adição de termos ao modelo, isto não significa necessariamente que o
2

novo modelo é superior ao anterior. A menos que a soma de quadrados residual do novo modelo seja
reduzida por uma quantidade igual ao quadrado médio residual original, o novo modelo terá um
quadrado médio residual maior do que o original, devido a perda de 1 grau de liberdade. Na realidade
esse novo modelo poderá ser pior do que o anterior.
 A magnitude de r , também, depende da amplitude de variação da variável dependente x.
2

2
Geralmente, r aumentará com maior amplitude de variação dos valores de x e diminuirá,
2
caso contrário. Assim, um valor grande de r poderá ser grande simplesmente porque x variou em uma
2
amplitude muito grande. Por outro lado r poderá ser pequeno porque a amplitude dos valores de x foi
muito pequena para permitir que uma relação com y fosse detectada.

 Em geral, também, r não mede a magnitude da inclinação da reta. Um valor grande de r não
2 2

significa uma reta mais inclinada. Além do mais, ele não leva em consideração a falta de ajuste do
modelo; ele poderá ser grande, mesmo que y e x estejam não linearmente relacionados. Dessa forma, vê-
2
se que r não deve ser considerado sozinho, mas sempre aliado a outros diagnósticos do modelo, como
por exemplo a análise de variância do modelo (teste F) e análise dos resíduos.

Exemplo 1 – Os dados da tabela abaixo se referem à renda semanal (X) de 10 famílias e suas despesas de
consumo (Y).
RENDA (X) CONSUMO (Y)
(US$) (US$)
70 80
65 100
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260

(A) Construa o modelo de regressão que melhor se ajusta aos dados da tabela.
(B) Verifique a qualidade do ajustamento do modelo.

-SOLUÇÃO-
RENDA (X) CONSUMO (Y) X.Y X² ( yi  y ) 2 ŷi ( yˆ i  y ) 2
(US$) (US$)
80 70 5600 6400 1681 65,1818 2099,3058
100 65 6500 10000 2116 75,3636 1269,9504
120 90 10800 14400 441 85,5455 647,9339
140 95 13800 19600 256 95,7273 233,2562
160 110 17600 25600 1 105,9091 25,9174
180 115 20700 32400 16 116,0909 25,9174
200 120 24000 40000 81 126,2727 233,2562
220 140 30800 48400 841 136,4545 647,9339
240 155 37200 57600 1936 146,6364 1269,9504
260 150 39000 67600 151 156,8182 2099,3058
1700 1110 205500 322000 8890 1110 8552,7273

(A) A reta de regressão é dada por Yˆ  ˆ0  ˆ1 X , onde

n X .Y   X 
.  Y  10(205500)  (1700)(1110)
ˆ1    0,5091
n X 2   X  10(322000)  (1700) 2
2

e
ˆ0 
 Y   X .ˆ
1

1110  (1700)(0,5091)
 24,4545 e
n 10

Logo o modelo de regressão estimado é dado por Yˆ  24,4545  0,5091X .

(B) A qualidade do ajustamento é dado por

r2 
SQE

 ( yˆ i  y) 2
SQT (y i  y) 2
Primeiro temos que calcular a média de y.

y
Y 
1110
 111
n 10

Segundo, construir ( y i  y ) 2 (5ª coluna da tabela) e ( yˆ i  y ) 2 (7ª coluna). Antes tivemos que encontrar ŷi , que
são os valores de X substituídos na reta de regressão Yˆ  24,4545  0,5091X .

Assim, tomando o somatório da 5ª coluna e da 7ª, temos:

r2 
SQE

 ( yˆ i  y) 2

8552,7273
 0,9621
SQT (y i  y) 2
8890

Logo, podemos observar que o coeficiente de determinação é próximo de 1, o que mostra que o modelo de
regressão linear é bem explicativo. Em porcentagem, temos 96,21% das variações de Y sendo explicadas pela
variação de X.

OBSERVAÇÃO – O problema de utilizar a fórmula (II) para calcular o coeficiente de determinação é que
temos que ter a reta de regressão Yˆ  ˆ0  ˆ1 X .

Uma alternativa é calcular o coeficiente de determinação pelo coeficiente de correlação de Pearson, que é uma
fórmula que vocês já conhecem da UIA1. Tentem fazer por ela.
A fórmula (IV) também pode ser utilizada, mas neste caso temos que saber o coeficiente angular da reta de
regressão. Tente fazer por ela também.

2
COEFICIENTE DE DETERMINAÇÃO AJUSTADO OU r AJUSTADO
2
Algumas questões se impõem ao uso isolado do r como medida do ajustamento. Entre elas:

1- Em sua obtenção parte-se do pressuposto da boa especificação;


2
2- r depende do número de variáveis independentes. A adição de variável independente pode não ser
2 2
adequada, mas não deve baixar r . Ou seja, uma propriedade importante do r é que ele não decresce
2
com o aumento de variáveis explicativas X presentes no modelo. Quase invariavelmente, r aumenta e
nuca diminui quando o número de regressores X aumenta. Ou seja, uma variável X adicional não reduz
2
o valor de r , mesmo que elas não contribuam para o poder explicativo da regressão.

2
3- Além disso, o uso isolado do r tem valor limitado, pois pode ocorrer bom ajustamento (leia-se aqui:
2
bom r ) do modelo global porque variáveis independentes estão fortemente correlacionadas entre si.
2 2
Para evitar dificuldades na interpretação de r , alguns estatísticos preferem usar o rA2 ( r ajustado), definido
para uma equação com 2 coeficientes como

SQR / (n  k ) SQR  n  1 
rA2  1  ou rA2  1    (V)
SQT / (n  1) SQT  n  k 

onde
 n = tamanho da amostra ou de observações.
 k = número de parâmetros do modelo

Observe, que pela fórmula (III),

SQR SQR
r 2  1  r2  1 
SQT SQT
SQR 2
Substituindo na fórmula no quadro acima, também podemos escrever o r ajustado como
SQT

 n 1 
rA2  1  (r 2  1)   (VI)
nk 
2
Assim como o coeficiente de determinação r , quanto maior rA2 , mais a variável resposta é explicada pela
regressora X.

O acréscimo de variáveis não acarreta necessariamente um aumento em rA2 . O rA2 ajustado não corrige viés
2 2
de r na estimativa do r da população, mas penaliza inclusão de independentes. O rA2 pondera o coeficiente
de determinação pelo número de variáveis explicativas e pelo número de observações da amostra.

Além disso, o rA2 ajustado negativo indica adaptação ruim do modelo, relativo ao número de graus de
liberdade.

O rA2 ajustado auxilia na escolha de modelo sem variáveis independentes redundantes (entre modelos não-
aninhados). Indica-nos a percentagem de variação que o modelo explica tendo em conta as diversas variáveis
independentes. O coeficiente de determinação múltipla modificado para levar em conta o número de variáveis e
2
o tamanho amostral. Geralmente seu valor é menor do que o valor de r .

Exemplo 2 – Considere o exemplo 1, que relaciona à renda semanal (X) de 10 famílias e suas despesas de
consumo (Y).

2
O coeficiente de determinação é r = 0,9621. Além disso, n = 10 dados da amostra e k = 2, pois temos dois
parâmetros calculados ( ˆ e ˆ ).
0 1

Substituindo na fórmula (VI) acima, temos

 n 1   10  1 
rA2 1  (r 2  1)    1  (0,9621 1)   0,9573
nk  10  2 

2
Logo, o r ajustado é de 0,9573 ou 95,73%.
EXERCÍCIOS

1- Considere a seguinte tabela, que apresenta o bónus recebido pelos funcionários de uma dada empresa,
expresso em euros (Y), e o respectivo tempo de serviço, em meses (X).

X Y XY X² Y² (Y  Y ) 2 Yˆ (Yˆ  Y ) 2
56 148 8288 3136 21904 56,25 144,66 17,28
42 126 5292 1764 15876 210,25 128,79 137,24
72 160 11520 5184 25600 380,25 162,80 497,12
36 118 4248 1296 13924 506,25 121,98 342,89
63 149 9387 3969 22201 72,25 152,59 146,24
47 128 6016 2209 16384 156,25 134,45 36,56
55 150 8250 3025 22500 90,25 143,52 9,14
49 145 7105 2401 21025 20,25 136,72 14,28
38 115 4370 1444 13225 650,25 124,25 264,06
42 140 5880 1764 19600 0,25 128,79 137,24
68 152 10336 4624 23104 132,25 158,26 315,47
60 155 9300 3600 24025 210,25 149,19 75,55
628 1686 89992 34416 239368 2485 1686,00 1993,06

(A) Estime a reta de regressão do modelo, interpretando os seus valores.


(B) Avalie o ajuste pelo coeficiente de determinação e interprete o seu valor.
(C) Calcule o coeficiente de determinação ajustado.

Resposta: (A) Yˆ  81,17  1,13 X (B) 80,2% (C) 78,22%

2- Dados o tempo de serviço (X) de 10 funcionários de uma companhia de seguros e o número de clientes (Y)
que cada um possui, verifique se existe uma associação entre estas variáveis:

X Y X.Y X² Y²
2 48 96 4 2304
3 50 150 9 2500
4 56 224 16 3136
5 52 260 25 2704
4 42 168 16 1764
6 60 360 36 3600
7 62 434 49 3844
8 58 464 64 3364
8 64 512 64 4096
10 72 720 100 5184
57 564 3388 383 32496

(A) Monte a reta de regressão linear entre X e Y.


2
(B) Verifique a qualidade do ajuste pelo coeficiente de determinação r e interprete o resultado.
(C) Calcule o coeficiente de determinação ajustado.

Resposta: (A) Yˆ  39,408  2,9811X (B) 0,7522 (C) 0,7212


3- Seja X i o investimento em publicidade e Yi o lucro para uma certa empresa no ano i . Tem-se a tabela
seguinte em que os valores de X i e Yi estão em dezenas de milhares de euros:
Ano Xi Yi
1995 50 500
1996 40 400
1997 80 750
1998 100 900
1999 120 1 300
2000 90 800
2001 150 1 550
2002 140 1 600
2003 120 1 250
2004 160 1 750

Admitindo que o investimento em publicidade explica o lucro, em cada ano, e usando MRLS:

(A) Estime os parâmetros do modelo, interpretando os seus valores.


(B) Avalie o ajuste pelo coeficiente de determinação e interprete o seu valor.
(C) Calcule o coeficiente de determinação ajustado.

Resposta: (A) Yˆi  132,75  11,55 X i (B) 98%

4- Pretendendo estudar a relação entre o tempo (X) necessário a um consumidor para optar e o número de
produtos (Y) substitutos alternativos expostos a ele, foi observada uma amostra aleatória de 10
consumidores, da qual resultaram os seguintes dados.

X Y XY X² Y²
2 5 10 4 25
2 8 16 4 64
2 8 16 4 64
2 7 14 4 49
2 9 18 4 81
3 7 21 9 49
3 9 27 9 81
3 8 24 9 64
3 10 30 9 100
3 10 30 9 100
25 81 206 65 677

(A) Estime os parâmetros do modelo, interpretando os seus valores.


(B) Avalie o ajuste pelo coeficiente de determinação e interprete o seu valor.
(C) Calcule o coeficiente de determinação ajustado.

Resposta: (A) Yˆ  4,6  1,4 X (B) 23,44% (C) 13,87%