You are on page 1of 45

Planejamento de

Experimento
Caroline Ponce de Moraes
poncecefet@gmail.com

Programa

1) Regresso Linear Simples e Correlao


1.1 Mnimos Quadrados
1.2 Intervalo de Confiana e Teste em
1.3 Anlise da Regresso atravs da tabela ANOVA
1.4 Coeficiente de Determinao
1.5 Correlao

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Anlise de regresso uma tcnica estatstica utilizada para investigar
a relao existente entre variveis atravs da construo de uma
equao (um modelo).
De maneira geral, essa tcnica pode ser utilizada com vrios objetivos,
dentre os quais se pode destacar:
descrever a relao entre variveis para entender um processo ou
fenmeno;
prever o valor de uma varivel a partir do conhecimento dos valores
das outras variveis;
Vamos apresentar a partir de agora as principais tarefas implementadas
no software R sobre regresso.

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Como uma ilustrao, considere os dados da Tabela 11-1. Nessa tabela, y a pureza do
oxignio produzido em um processo qumico de destilao e x a porcentagem de
hidrocarbonetos presentes no condensador principal da unidade de destilao.
Tabela 11 .1 Nveis de oxignio e hidrocarbonetos.
Nmero da
observao
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
4

Nvel de
hidrocarboneto x (%)
0,99
1,02
1,15
1,29
1,46
1,36
0,87
1,23
1,55
1,40
1,19
1,15
0,98
1,01
1,11
1,20
1,26
1,32
1,43
0,95

Pureza do
oxignio y (%)
90,01
89,05
91,43
93,74
96,73
94,45
87,59
91,77
99,42
93,65
93,54
92,52
90,56
89,54
89,85
90,39
93,25
93,41
94,98
87,33
PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


1 Passo: Entrando com os dados no software Rstudio
Data.Frames so muito parecidos com matrizes, eles possuem linhas e colunas,
portanto tem duas dimenses. Entretanto, diferentemente de matrizes, cada
coluna pode armazenar elementos de diferentes tipos. Por exemplo: a primeira
coluna pode ser numrica enquanto a segunda pode ser constituda de
caracteres.

Data.Frames a melhor forma de se armazenar dados onde cada linha


corresponde a uma unidade, indivduo, ou pessoa, e cada coluna representa
uma medida realizada em cada unidade, isto , uma varivel.

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


1 Passo: Entrando com os dados no software Rstudio
#data.frame
dados1<-data.frame(pureza=c(90.01, 89.05 , 91.43 , 93.74 , 96.73 , 94.45 , 87.59 ,
91.77 , 99.42 , 93.65, 93.54, 92.52, 90.56, 89.54, 89.85,
90.39, 93.25, 93.41, 94.98, 87.33),
nivelhidro=c(0.99, 1.02, 1.15, 1.29, 1.46, 1.36, 0.87, 1.23, 1.55, 1.40,
1.19, 1.15, 0.98, 1.01, 1.11, 1.20, 1.26, 1.32, 1.43, 0.95))
attach(dados1)
#diagrama de dispersao
plot(pureza~nivelhidro)

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

10

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Assim, quando 2 for pequena, os valores observados de Y cairo perto da
linha, e quando 2 for grande, os valores observados de Y podero se
desviar consideravelmente da linha. Devido a 2 ser constante, a
variabilidade em Y, em qualquer valor e x, a mesma.
Temos que,

A inclinao, 1, pode ser interpretada como a mudana


na mdia de Y para uma mudana unitria em x. Alm
disso, a variabilidade de Y, em um valor particular de x,
determinada pela varincia do erro 2.

11

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

12

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

As estimativas de 0 e 1 , devem resultar em uma linha


que seja (em algum sentido) o melhor ajuste para os
dados.

13

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

14

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

15

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

16

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

17

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Para esboar a reta ajustada no diagrama de disperso, utilize a funo abline:
#reta ajustada
plot(pureza~nivelhidro)
abline(modelo,col = "red")

18

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


3 Passo: #Fazemos o resumo do modelo
summary(modelo)

19

# resultados do modelo #veja exemplo 11-1 no livro

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Propriedades dos Estimadores
Uma importante parte da verificao da adequao de um modelo de regresso linear a
realizao de um teste estatstico de hipteses, em relao ao parmetro do modelos, e a
construo de intervalos de confiana.
A sada que obtemos com o comando summary no R nos apresenta o erro padro estimado de
cada coeficiente (pag 271 erro padro estimado).

20

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

o erro padro do
coeficiente intercepto
> 1.593 (ver sada do
R)

21

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

o erro padro do
coeficiente nivelhidro
> 1.317 (ver sada do
R)

22

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Teste de Hiptese na Regresso Linear Simples
A sada que obtemos com o comando summary no R nos apresenta o teste t realizado para
cada um dos coeficientes.

As contas foram feitas no exemplo 11-2 do livro texto. Ver Figura 11-5 do livro.
(http://www.portalaction.com.br/analise-de-regressao/14-testes-e-intervalos-de-confianca-paraos-parametros)
23

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Tomando a deciso pelo p-valor

De acordo com o p-valor encontrado para os coeficientes, podemos dizer que existem fortes
evidncias para rejeitarmos Ho , ou seja, ao nvel de significncia de 5% podemos dizer que o
coeficientes da regresso so diferentes de zero.
24

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Um mtodo chamado anlise de regresso pode ser usado para testar a
significncia da regresso. O procedimento divide a varincia total na
varivel de resposta em componentes significativas, com base para o teste.

25

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

26

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

27

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

28

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao

29

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


4 Passo: Para construir os Intervalos de Confiana (95%) para os coeficientes da regresso,
utiliza-se o seguinte
comando:
#Calculamos os coeficientes estimados e os intervalos de confiana:
coef(modelo)
confint(modelo)

Interpretao prtica: Esse IC no inclui o zero; logo, existe uma forte evidncia ao nvel de
significncia de 5% de que a inclinao/intercepto no seja zero.

30

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


5 Passo: Intervalos de Confiana para Resposta Mdia e Individual:
Dado um novo conjunto de preditoras, X = X0, a fim de fazer inferncia sobre os valores preditos
das respostas mdia e individual de Y , utilize a funo predict(). Essa funo requer que o
segundo argumento seja um data frame com as covariveis nomeadas do mesmo modo que o
banco de dados original:
#Intervalos de Confiana para Resposta Media e Individual:

x0 = data.frame(nivelhidro=1)
predict(modelo,x0,interval="confidence")

Podemos conferir o resultado encontrado pelo software R com o do livro no exemplo 11-5.

31

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


6 Passo: Intervalos de Previso

Chamamos de predio a obteno de um valor de Y para um x que no pertence aos dados,


porm pertence ao intervalo de variao estudado.
#Intervalos de Previsao

x0 = data.frame(nivelhidro=1)
predict(modelo,x0,interval="prediction")

Podemos conferir o resultado encontrado pelo software R com o do livro no exemplo 11-6.

32

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Anlise Residual

33

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Anlise Residual

(a)

(b)

O grfico (a) apresenta a situao ideal, enquanto os padres (b), (c) e (d) representam
anomalias (ver c e d no livro pag 279). Se os resduos aparecerem como em (b), a varincia das
observaes pode esta crescendo com o tempo ou com a magnitude de yi ou xi. Transformao
de dados na resposta y frequentemente usada para eliminar esse problema.
As transformaes largamente usadas para estabilizar a varincia incluem o uso de raiz(y), ln(y)
ou 1/y como a resposta.

34

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Anlise Residual
Para avaliar as suposies de que os erros possuem varincia constante e so no
correlacionados entre si, construa os grficos de Resduos versus Valores Ajustados da
Varivel Resposta e Resduos versus Valores da Varivel Explicativa":

35

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Anlise Residual
Importante: Sempre busquem entender os valores encontrados.

36

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Anlise Residual
Importante: Sempre busquem entender os valores encontrados.

37

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Para exibir os Valores Ajustados e os Resduos do ajuste, digite os comandos:
> modelo$residuals
> modelo$fitted.values

38

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Outra maneira de avaliar a heterocedasticidade dos erros realizar algum teste de
homocedasticidade. Para avaliar a suposio de normalidade dos erros, deve-se construir o
grfico da Probabilidade Normal dos Resduos:

39

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Considere, tambm o Teste de Normalidade de Shapiro Wilk:

Portanto, como o Valor P do teste alto, no rejeita-se a hiptese de normalidade dos resduos
e, por consequncia, conclui-se que os erros so normalmente distribudos.
Formulao da Hiptese:

40

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Coeficiente de determinao

41

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Coeficiente de determinao

42

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Coeficiente de determinao

43

PTC Proprietary Do not reproduce without permission 2003 PTC

Regresso Linear Simples e Correlao


Correlao Linear
Para calcular o Coeficiente de Correlao Linear de Pearson entre as variveis, utilize a funo
cor:

44

PTC Proprietary Do not reproduce without permission 2003 PTC

Obrigada!

Caroline Ponce de Moraes