You are on page 1of 8

Regresso Linear em SPSS

1. No ficheiro Calor.sav encontram-se os valores do consumo mensal de energia, medido em milhes de unidades termais britnicas, acompanhados de valores de output, em milhes de kWh, de electricidade fornecida por uma central termo-elctrica em Inglaterra. 1.1. Construa um grfico de disperso que permita relacionar ambas as variveis com a inteno de identificar uma possvel relao linear. em SPSS: Graph / Interactive /Scatterplot

1 5,0 0 0
AA A A

A A A

Unidades fornecidas

1 2,5 0 0
AA

A A A A A

Da observao do grfico de disperso razovel afirmar que existe uma relao linear entre as duas variveis.

1 0,0 0 0
A

7 ,50 0

5 ,00 0
A A A

5 00 0 0

1 00 0 00

1 50 0 00

2 00 0 00

Calor Consumido (milhes de UBT)

1.2. Estabelea o modelo a ajustar aos dados Como do grfico de disperso podemos constatar que existe uma relao linear entre as duas variveis podemos usar um modelo de regresso linear para ajustar estes dados. Note que se seleccionamos no menu: Graph / Interactive /Scatterplot, o tab Fit como mtodo para ajustar os dados Regression podemos obter o grfico de disperso com a recta de regresso desenhada e a sua equao.

15,000

Unidades fornecidas = -0,87 + 0,00 * calor R-Square = 0,99


AA A A

A A A A

Linear Regression

Unidades fornecidas

12,500

A AA A A A A

10,000
A A

7,500

5,000
A A A

50000

100000

150000

200000

Calor Consumido (milhes de UBT)

Note que o valor do declive na recta de regresso 0.00, mas isto devido aproximao usada. Como poderemos verificar logo este valor diferente de 0, porem um valor muito pequeno, da ordem de 10-5

Mas de uma forma mais geral, a anlise de regresso linear no SPSS efectuada atravs do menu: em SPSS: Analize / Regression /Linear

O mtodo do mnimo dos quadrados o mtodo implementado em SPSS para estimar os coeficientes de regresso Com as opes do SPSS seleccionadas podemos obter como output a seguintes 4 tabelas:
b Variables Entered/Removed

Model 1

Variables Entered Calor Consumid o (milhes a de UBT)

Variables Removed .

Method Enter

a. All requested variables entered. b. Dependent Variable: Unidades fornecidas

Model Summary Adjusted R Square ,994 Std. Error of the Estimate ,282649

Model 1

R ,997(a)

R Square ,995

O coeficiente de correlao R=0, 997 1, pelo que evidente a existncia de uma relao linear entre as variveis em estudo

a Predictors: (Constant), Calor Consumido (milhes de UBT) O teste realizado pela ANOVA : H0: b1 = 0 vs. H1: b1 0 Como o p-value=0 para q.q. nvel de significncia rejeita-se H0 b1 0 a regresso linear tem significado para q.q. nvel de significncia

ANOVA(b) Sum of Squares 302,731 1,598

Model 1

df 1 20

Regression Residual Total

Mean Square 302,731 ,080

F 3789,321

Sig. ,000(a)

304,329 21 a Predictors: (Constant), Calor Consumido (milhes de UBT) b Dependent Variable: Unidades fornecidas Coefficients(a) Unstandardized Coefficients Model 1 (Constant) Calor Consumido (milhes de UBT) B -,869 7,20E-005 Std. Error ,201 ,000 ,997 Standardized Coefficients Beta

Valores observados das estatsticas dos testes: para a ordenada na origem b0: t0obs = -4, 328 (T0 tn-2 ) para o declive b1: t0obs = 61, 328 (T1 tn-2 )

t B -4,329 61,557

Sig. Std. Error ,000 ,000

a Dependent Variable: Unidades fornecidas


Modelo de Regresso Linear: unid. fornecidas = b0 + b1 x calor consumido + com erro N (0, 2) Estimativas dos coeficientes: b0 = -0, 869, b1 = 7,20 x 10-5 p-value para a ordenada na origem: 0 p-value para o declive: 0

1.3. Com base nos resultados obtidos responda as seguintes questes: a. Quais as estimativas do declive (b1) e da ordenada na origem (b0) da recta de regresso?

b0 = -0, 869

b1 = 7,20 x 10-5

b. Qual a equao da recta de regresso?

y = -0, 869 + 7,20 x 10-5 x


c. O valor do declive significativamente diferente de 0, ao nvel de significncia 5%? i. Escreva as hipteses em causa H0: b1 = 0 vs H1: b1 0

ii. Indique o valor do p-value do teste p-value = 0 iii. Conclua A hiptese nula rejeitada para q.q nvel de significncia. Concluise que o declive no nulo para q.q. nvel de significncia d. A ordenada na origem significativamente diferente de 0, ao nvel de significncia 5%? i. Escreva as hipteses em causa H0: b0 = 0 vs H1: b0 0 0

ii. Indique o valor do p-value do teste:

iii. Conclua: A hiptese nula rejeitada para q.q nvel de significncia. Concluise que a ordenada na origem no nula para q.q. nvel de significncia 1.4. Efectue os clculos necessrios para obter os p-values dos testes para os coeficientes de regresso mostrados na tabela dos coeficientes
Descriptive Statistics N Unidades fornecidas Calor Consumido (milhes de UBT) Valid N (listwise) 22 22 22 Minimum 3,173 55266 Maximum 15,852 233603 Mean 10,91527 163559,41 Std. Deviation 3,806819 52698,343

Da tabela das estatsticas descritivas obtemos n=22 O p-value para um teste bilateral igual a: 2P(T < tobs|H0) se tobs for reduzido 2P(T > tobs|H0) se tobs for elevado

O valor observado da estatstica do teste tobs considera-se reduzido (elevado) se a estimativa que se obtm para o parmetro a testar inferior (superior) ao valor especificado em H0 Teste de hiptese para a ordenada na origem b0 da recta de regresso: H0: b0 = 0 vs. H1: b0 0 t0obs = -4,329 (valor observado da estatstica do teste, ver tabela dos coeficientes ) o valor observado da estatstica do teste reduzido pois a estimativa que se obtm para b0 (-0.869) um valor inferior a 0 (o valor especificado em H0). Assim: p-value = 2 P(T<-4.329) = 2 tn-2(-4.329) = 2 (1- tn-2(4.329)) = 2 (1- CDF.T(4.329, 20)) = 2 x 0 = 0 Teste de hiptese para o declive b1 da recta de regresso: H0: b1 = 0 vs. H1: b1 0 t1obs = 61,777 (valor observado da estatstica do teste, ver tabela dos coeficientes) o valor observado da estatstica do teste elevado pois a estimativa que se obtm para b1 (7,20 x 10-5 ) um valor superior a 0 (o valor especificado em H0). Assim: p-value = 2 P(T>61.777) = 2 (1- P(T <61.557) = 2 (1- tn-2(61.557)) = 2 (1-CDF.T(61.557, 20)) = 2 x 0 = 0 1.5. Qual a proporo de variabilidade de Y explicada por x? Da tabela de ANOVA podemos obter o coeficiente de determinao R2 = ,995 (ver R square). Este coeficiente mede a quantidade de variabilidade explicada por x, isto , pelo modelo de regresso j que consiste na razo entre a soma dos quadrados devido aos resduos (SSR) e a soma dos quadrados total (SYY ).

Ento, R2 = ,995 quer dizer que 99.5% da variabilidade encontrada para y explicada por x e apenas os restantes 0,5% se devem a outros factores. Um bom ajuste do modelo deve reflectir-se num valor de R2 prximo de 1. Como neste caso o coeficiente de determinao bastante elevado (muito prximo de 1), podemos concluir que a relao linear entre as duas variveis forte.

1.6. Proceda anlise dos resduos com a inteno de validar os pressupostos do modelo. Pressupostos de regresso: os erros so independentes e identicamente distribudos com distribuio Normal de media zero e varincia 2. Uma vez que no conhecemos os erros temos que analisar a sua estimativa que dada pelos resduos:

Para validar que os resduos tm distribuio Normal: construir QQ-plot ou PP-plot dos resduos, realizar teste de ajustamento de Kolmogorov-Smirnov atravs do menu de Regresso Linear podemos fazer directamente um PP-plot dos resduos Para validar que os resduos so independentes e identicamente distribudos (so aleatrios e com varincia constante): construir grficos de resduos versus valores preditos ou observados. Todos estes grficos podem ser feitos atravs do menu de Regresso Linear:

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Unidades fornecidas

1,0

Expected Cum Prob

0,8

0,6

0,4

0,2

0,0 0,0 0,2 0,4 0,6 0,8 1,0

Observed Cum Prob

O PP-plot no nos d qualquer indicao que contrarie o pressuposto da normalidade dos resduos O grfico de disperso dos resduos em funo dos valores preditos estandardizados mostra-se bastante aleatrio Tambm podemos fazer um QQ-plot ou um teste de ajustamento de K-S para validar os pressupostos de normalidade dos resduos. Para isto devemos guardar os resduos numa nova varivel, usando a opo Save do menu de Linear Regression

Depois podemos escolher o menu Analyze \ Descriptive Statistics \ Explore com a opo Normality plots with tests

Usando a varivel RES-1 (os resduos guardados) e fazendo um QQ-plot e os testes de ajustamento de Kolmogorov-Smirnov e de Shapiro Wilk podemos concluir que os resduos tm distribuio Normal (o QQ-plot identifica um ajuste entre os quantis amostrais e os quantis de distribuio Normal e os testes de ajustamentos fornecem valores de p-values superiores aos nveis usuais de significncia.
Tests of Normality Kolmogorov-Smirnov(a) Unstandardized Residual Statistic ,085 df 22 Sig. ,200(*) Statistic ,982 Shapiro-Wilk df 22 Sig. ,940

* This is a lower bound of the true significance. a Lilliefors Significance Correction

You might also like