Professional Documents
Culture Documents
ap .
Análise de 1
Regressão
1.1 Introdução
Análise de regressão é uma técnica de modelagem utilizada para analisar a relação entre
uma variável dependente (Y) e uma ou mais variáveis independentes X1, X2, X3,..., Xn.
O objetivo dessa técnica é identificar (estimar) uma função que descreve, o mais
próximo possível, a relação entre essas variáveis e assim podermos predizer o valor que
a variável dependente (Y) irá assumir para um determinado valor da variável
independente X.
Exemplos de relação entre variáveis são o consumo em relação à taxa de
inflação; a produção de leite e temperatura ambiente; a resistência de um material e sua
composição química; o número de peças com defeitos e a experiência; receita e gasto
com publicidade e etc.
O modelo de regressão poderá ser escrito genericamente como:
Y = f ( X 1, X 2, X 3,..., Xn ) + ε ,
1,500
1,000
500
-
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Este modelo é utilizado quando existe uma relação linear entre a variável independente
e a variável dependente (neste caso apenas uma). A função que expressa esse modelo
será dada pela forma abaixo:
34
32
Yi = b0 + b1 X i + ε ,
30
28
26
24
22
20
20 22 24 26 28 30
O gráfico acima é uma representação desse modelo. Verifica-se pelo mesmo que
nem todos os pontos tocam a reta, e essa diferença é o erro (ε ), que pode ter sido
ocasionado por um erro de leitura dos dados; uma venda abaixo do preço real de
mercado; uma produção abaixo do esperado por uma estiagem não comum; retração do
consumo por uma subida inesperada na taxa de juros; e assim vai.
Mas supõe-se que em média esses erros tendem a se anular, ou seja:
E( ε i ) = 0
Uma vez escolhido o modelo de regressão, deve-se estimar seus parâmetros, neste
caso os coeficientes da equação da reta, b0 , b1 . Isso pode ser feito a partir da aplicação
do Método dos Mínimos Quadrados.
Tirando a média sobre a equação acima, temos:
Y = b0 + b1 X
uma vez que a média dos erros é zero.
ou ainda,
ε i = y i − b1 xi
Como o objetivo é estimar uma equação que minimize os erros, devemos então derivar
a equação acima em relação a b1 e igualar a zero. E como não se tem os verdadeiros
valores e sim uma amostra , ou seja o valor a ser determinado é um estimador do
verdadeiro valor populacional, a nova nomenclatura para b1 será b̂1 . Com isso temos:
0 = −2∑xi y i + 2bˆ1 ∑xi2
bˆ1 =
∑ xi y i
∑xi2
E o estimador b̂o , pode ser calculado a partir de:
bˆo = Y − bˆ1 X
Y X y x y2 x2 xy
1970 26 23 -2.9 -2 8.41 4 5.8
1971 25 21 -3.9 -4 15.21 16 15.6
1972 31 28 2.1 3 4.41 9 6.3
1973 29 27 0.1 2 0.01 4 0.2
1974 27 23 -1.9 -2 3.61 4 3.8
1975 31 28 2.1 3 4.41 9 6.3
1976 32 27 3.1 2 9.61 4 6.2
1977 28 22 -0.9 -3 0.81 9 2.7
1978 30 26 1.1 1 1.21 1 1.1
1979 30 25 1.1 0 1.21 0 0
Soma 289 250 0 0 48.9 60 48
Média 28.9 25 0 0 4.89 6 4.8
bˆ1 =
∑xi y i , assim bˆ = 48 = 0.8
∑xi2 1
60
Yˆ = 8.9 + 0.8 X
Continuação do exemplo 1
Y X y x y2 x2 xy Yˆ Y- Yˆ (Y- Yˆ )2
1970 26 23 -2.9 -2 8.41 4 5.8 27.3 -1.3 1.69
1971 25 21 -3.9 -4 15.21 16 15.6 25.7 -0.7 0.49
1972 31 28 2.1 3 4.41 9 6.3 31.3 -0.3 0.09
1973 29 27 0.1 2 0.01 4 0.2 30.5 -1.5 2.25
1974 27 23 -1.9 -2 3.61 4 3.8 27.3 -0.3 0.09
1975 31 28 2.1 3 4.41 9 6.3 31.3 -0.3 0.09
1976 32 27 3.1 2 9.61 4 6.2 30.5 1.5 2.25
1977 28 22 -0.9 -3 0.81 9 2.7 26.5 1.5 2.25
1978 30 26 1.1 1 1.21 1 1.1 29.7 0.3 0.09
1979 30 25 1.1 0 1.21 0 0 28.9 1.1 1.21
Soma 289 250 0 0 48.9 60 48 289 0 11
Média 28.9 25 0 0 4.89 6 4.8 28.9 0 1
Podemos perceber que as diferenças (Y- Yˆ ) são relativamente pequenas. Uma análise
mais cuidadosa pode ser feita através da aplicação de testes estatísticos, nesse caso
ANOVA (teste de variância) e teste t-Student.
Começaremos pela ANOVA, para tanto vamos precisar montar a tabela abaixo:
Tabela ANOVA
Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Médios (QM) Teste F
SQE= bˆ1 ∑ xi
2 2
1 SQE/g.l. SQEmed/SQRmed
∑ (Y − Ŷ )
2
SQR= n-2 SQR/g.l.
SQT= ∑ y
2
i n-1 SQE/g.l + SQR/g.l.
Obs: O grau de liberdade em relação ao SQE é devido a termos apenas uma variável independente; Em
relação a SQT, os graus devem ser iguais a variância amostral, ou seja, n-1 (onde n é o número da
elementos da amostra); E o grau de liberdade para SQR seria dado pela diferença entre este, ou seja n-2.
Onde,
Soma dos quadrados dos totais de y centrado
SQT = ∑ y i2
SQE
R2 =
SQT
Tabela ANOVA
Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Médios (QM) Teste F
SQE=38.4 1 38.4 27.83
SQR=11.0 8 1.38
SQT=49.4 7 7.06
Agora que já temos o valor de F, precisamos testar a hipótese nula que as variâncias são
diferentes, ou seja,
Ho = 1≠ 2
Como o F calculado é maior que o F crítico então se rejeita a hipótese Ho, o que
também quer dizer que as variâncias são iguais, e conseqüentemente o modelo de
regressão é válido.
Resolução
Yˆ = 8.9 + 0.8 X 1i
Uma outra maneira de fazer essa análise, porém sem as mesmas informações
seria utilizar o recurso de Adicionar Linha de Tendência... No menu Gráfico da barra de
menu do Excel.
Selecionado o modelo Linear, clicamos na aba “Opções” e marcamos as opções:
Exibir equação no gráfico e Exibir valor do R-quadrado no gráfico.
Resolução
O primeiro passo para avaliar se os dados podem ser ajustados por um modelo
linear é plotar suas variáveis em um gráfico.
10,000
8,000
6,000
4,000
2,000
-
0 5 10 15 20
Pelo gráfico percebe-se uma tendência que a relação entre a produção de carne
de frango (variável dependente, Y) e o tempo (variável independente, X) seja
Yˆ = 1146,99 + 416,30 X 1i
Regressão
Linear
10000.00
8000.00 Prod.Carne e
Frango
6000.00
4000.00
2000.00
0.00
1
13
11
15
8 y = 416.3x + 1147
R2 = 0.9688
7
4
Milhões de toneladas
2
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Fonte: ABEF (www.abef.com.br). Ano
Yi = b0 + b1 X i + b2 X 2i + ... + bk X ki + ε i
Y1 = b0 + b1 X 1 + b2 X 21 + ... + bk X k 1 + ε1
Y2 = b0 + b1 X 2 + b2 X 22 + ... + bk X k 2 + ε 2
... ... ... ... ... ... ...
Yn = b0 + b1 X n + b2 X 2 n + ... + bk X kn + ε n
bˆ = ( X ' X ) ( X 'Y )
−1
Pela equação acima, há necessidade que o produto X’X, tenha uma matriz
inversa, o que implica na condição obrigatória que nenhuma coluna da matriz X seja
combinação linear das outras.
Custo de Quilometragem
Manutenção (x1000)
832 6
73 7
647 9
553 11
Resolução 467 13
373
Nesse caso será feito diretamente análise sem plotar o gráfico. O procedimento
15
283⇒ Regressão. No campo
no software Excel é: Ferramenta ⇒ Análise de Dados 17
Intervalo X de Entrada deve ser preenchida com a faixa de valores das variáveis
independentes, que nesse caso são a quilometragem189
e o tempo do caminhão. 18
96 19
Da planilha de resultados se destacam os seguintes valores:
Resolução
Nesse exemplo será avaliada somente a produção para o mercado externo, o
gráfico que representa essa produção ao longo do ano pode ser visto logo
abaixo.
2,500
2,000
1,500
Dados reais
1,000
500
-
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Com isso feito o resultado pode ser visto na figura seguinte. Repare na qualidade
do ajuste, o valor do coeficiente de determinação foi de 0.99.
2,500