You are on page 1of 10

Anlise de Regresso

Notas de Aula

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

Modelos de Regresso
Modelos de regresso so modelos matemticos que relacionam o comportamento de uma varivel Y com outra X. Quando a funo f que relaciona duas variveis do tipo f (X) = a + b X temos o modelo de regresso simples. A varivel X a varivel independente da equao enquanto Y = f (X) a varivel dependente das variaes de X. O modelo de regresso chamado de simples quando envolve uma relao causal entre duas variveis. O modelo de regresso multivado quando envolve uma relao causal com mais de duas variveis. Isto , quando o comportamento de Y explicado por mais de uma varivel independe X1, X2, ....Xn. Os modelos acima (simples ou multivariados) simulam relacionamentos entre as variveis. Esse relacionamento poder ser do tipo linear (equao da reta ou do plano) ou no linear (equao exponencial, geomtrica, etc.). A anlise de regresso compreende, portanto quatro tipos bsicos de modelos; - linear simples; - linear multivariado; - no linear simples; - no linear multivariado. Para que serve determinar a relao entre duas variveis? 1 - Para realizar previses sobre o comportamento futuro de algum fenmeno da realidade. Neste caso extrapola-se para o futuro as relaes de causa-efeito j observadas no passado entre as variveis. Pode-se, por exemplo, prever a populao futura de uma cidade simulando a tendncia de crescimento da populao no passado. 2 - Pesquisadores interessados em simular os efeitos sobre uma varivel Y em decorrncia de alteraes introduzidas nos valores de uma varivel X tambm usam este modelo. Por exemplo: de que modo a produtividade (Y) de uma rea agrcola alterada quando se aplica certa quantidade (X) de fertilizante sobre a terra. No exemplo acima o pesquisador seleciona n pedaos de terra x1, x2, x3,....xn, aos quais so aplicadas quantidades definidas de fertilizante. Em seguida, medem-se as quantidades colhidas em cada pedao de terra y1, y2, y3, ....yn, obtendo assim pares de valores (x1,y1) (x2,y2), ......(xn, yn) que podem ser plotados em um grfico cartesiano chamado de diagrama de disperso. Diagrama de Disperso Ao se plotar num grfico cartesiano os pares de informao referente a cada observao obtemos uma nuvem de pontos definidos pelas coordenadas x e y de cada ponto. Essa nuvem, por sua vez, definir um eixo ou direo que caracterizar o padro de relacionamento entre X e Y. A regresso ser linear se observada uma tendncia ou eixo linear na nuvem de pontos cartesianos. A relao entre as variveis ser direta (ou positiva) quando os valores de Y aumentarem em decorrncia da elevao dos valores de X . Ser inversa (ou negativa) quando os valores de Y variarem inversamente em relao aos de X. A figura 1 mostra o diagrama de disperso referente as variveis X e Y. O diagrama mostra uma relao direta entre as variveis, ou seja: o crescimento de Y est diretamente ligado ao crescimento de X.

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

Figura 1
x y ____________ 30 430 21 335 35 520 42 490 37 470 20 210 8 195 17 270 35 400 25 480

Modelos de Regresso Linear


Regresso o processo matemtico pelo qual derivamos os parmetros a e b de uma funo f (X). Estes parmetros determinam as caractersticas da funo que relaciona Y com Xque no caso do modelo linear se representa por uma reta chamada de reta de regresso. Esta reta explica de forma geral e teoricamente a relao entre X e Y. Isto significa que os valores observados de X e Y nem sempre sero iguais aos valores de Xe Y estimados pela reta de regresso. Haver sempre alguma diferena, e essa diferena significa; (1) que as variaes de Y no so perfeitamente explicadas pelas variaes de X ou; (2) que existem outras variveis das quais Y depende ou; (3) que os valores de X e Y so obtidos de uma amostra especfica que apresenta distores em relao a realidade. Esta diferena em estatstica chamada de erro ou desvio. O processo de regresso significa, portanto, que os pontos plotados no grfico so definidos, modelados ou regredidos, a uma reta que corresponde menor distncia possvel entre cada ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mnimo possvel os somatrios dos desvios entre Y e Y. Veja a figura 2 abaixo. Y = +X Y = a + b X equao da reta a partir dos dados coletados equao da reta a partir das estimativas

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

Figura 2
x2 900 441 1.225 1.764 1.369 400 64 289 1.225 625 8.302

x 30 21 35 42 37 20 8 17 35 25 Somas b= a= 270 9,7381 117,0702 Y

y 430 335 520 490 470 210 195 270 400 480 3.800 =

x.y 12.900 7.035 18.200 20.580 17.390 4.200 1.560 4.590 14.000 12.000 112.455 117,07 + 9,74 x

Projeo 409,21 321,57 457,91 526,07 477,38 311,83 194,98 282,62 457,91 360,52

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

Mtodo dos Mnimos Quadrados o mtodo de computao matemtica pelo qual se define a curva de regresso. Esse mtodo definir uma reta que minimizar a soma das distncias ao quadrado entre os pontos plotados (X, Y) e a reta (X,Y). Pelo mtodo dos mnimos quadrados calculam-se os parmetros a e b da reta que minimiza estas distncias ou as diferenas (ou o erro) entre Y e Y. Esta reta chamada de curva de regresso. Erro = E = (Y- Y) E12 + E22 + E32 + ..... + En2 = Mnimo Erro Total = (Y-Y) 2 Y = a + bX Diferena entre o valor levantado Y (na amostra) e o estimado Y(pela reta de regresso) Objetivo do modelo de regresso Hiptese de trabalho Equao da reta de regresso que minimiza o erro

(1) (2) (3) (4)

Substituindo (4) em (3)


(5)

(Y- a - bX) 2

Para que a soma dos quadrados dos erros tenha um valor mnimo, devem-se aplicar os conceitos de clculo diferencial com derivadas parciais. Como as incgnitas do problema so os coeficientes "a" e "b" estrutura-se um sistema de duas equaes. Assim aplicando os conceitos acima referidos monta-se o sistema de equaes normais que permitir extrair os valores de a e b, e ------ = - 2 (Y- a - bX) a - 2 Y + 2 a + 2 bX Y = a + bX
(6)

Y = Na + b X

Equao Normal N tamanho da amostra Equao Normal

Y+bX (7) a = -----------------N


(8)

XY = a X + b X2

(9)

N XY - X. Y b = --------------------------a X2 - X2

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

Os valores a e b acima correspondem aos parmetros da equao de regresso que minimiza as diferenas entre os valores de Y (levantados) e os de Y (estimados pela regresso). Portanto, o problema de fitting (ajustar) uma reta que melhor se adeque nuvem de dados se reduz em calcular os parmetros a e b da equao de regresso. GRAU DE UTILIDADE DA RETA DE REGRESSO A reta de regresso que se obtm atravs do mtodo dos mnimos quadrados apenas uma aproximao da realidade, ela um modo til para indicar a tendncia dos dados. Mas at que ponto a reta de regresso obtida til para avaliar a realidade? Duas medidas podem indicar o quanto til ou aproximado da realidade a reta: erro padro da estimativa; coeficiente de determinao Erro Padro da Estimativa O erro padro da estimativa Se mede o desvio mdio entre os valores reais de Y e os valores estimados Y. Ele informa de modo aproximado a extenso do erro entre os valores obtidos das estimativas e os valores de Y fornecidos pela amostra. Se medido na unidade de Y. O que se busca conseguir o menor valor possvel de Se. Pode-se interpretar o Se como um desvio padro dos resduos, pois assumindo que estes resduos so "normalmente distribudos", pode-se dizer ento que 68% dos pontos (plotados) encontramse dentro de 1 desvio padro: -1 Se 1; e que 95% dos pontos encontram-se dentro de 2 desvios padro: -2 Se 2. Sendo os desvios normalmente distribudos a frmula de Se obtida da definio da varincia da amostra Se2, com n-2 graus de liberdade: (Y Y)2 ----------------------- = N-2 (Y Y)2

Se2

Se

N2

Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados estivem todos contidos numa reta teremos uma reta de regresso coincidente com os dados

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

levantados. Nesse caso a somatria dos desvios ao quadrado ser zero e, o ajuste da reta ser completo. A reta de regresso explica perfeitamente a relao entre X e Y. O erro padro existir sempre que o poder de explicao da reta no for completo. O valor do erro significa ento que existem outros fatores que interferem no comportamento de Y alm da varivel X.

Coeficiente de Determinao
Ao se analisar a reta de regresso observamos que os pontos (xi, yi) esto distribudos acima e abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y - a reta de regresso) e com o valor mdio de Y (Y* -reta paralela ao eixo X). Como podemos observar a diferena entre o valor de Y e o valor de Y* (valor mdio de Y) o desvio total do ponto em relao a sua mdia. A soma dos desvios ao quadrado de todos os pontos em relao a mdia de Y chamada de Variao Total. Isto : (Y Y*)2 A diferena entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi,yi) isto a distancia entre o ponto Y e a reta de regresso, chamada de Variao No Explicada pela reta de regresso. Isto : (Y Y)2 J a diferena entre o valor Y (estimativa de Y) situado sobre a reta de regresso e o valor mdio de Y* (situado sobre a reta paralela ao eixo x) conhecida como Variao Explicada pela reta de regresso. Isto : (Y Y*)2 Conforme mostra a Figura 3,

Variao Total = Variao Explicada + Variao no Explicada

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

Figura 3 yi yi Y* y* Y= a+ bX xi Conclui-se que: (Y Y*)2 = (Y Y)2 + (Y Y*)2 O Coeficiente de Determinao r2 Definido pela seguinte relao: (Y Y*)2 =
_______________________

Y Variao no Explicada Y Variao Explicada

(Y Y*)2 (Y Y*)2

= r2 =

Variao Explicada Variao Total

CLCULO DO COEFICIENTE DE DETERMINAO

x y 30 430 21 335 35 520 42 490 37 470 20 210 8 195 17 270 35 400 25 480 Mdia y 380 b 9,74 a 117,07

Projeo 409,21 321,57 457,91 526,07 477,38 311,83 194,98 282,62 457,91 360,52 Soma

Explicada 853,48 3.413,93 6.069,21 21.337,07 9.483,14 4.646,74 34.234,14 9.483,14 6.069,21 379,33 95.969,39

Variao No explicada 432,04 180,33 3.855,77 1.301,20 54,49 10.369,96 0,00 159,23 3.353,01 14.274,58 33.980,61 Coeficiente de Determinao F observado

Total 2.500 2.025 19.600 12.100 8.100 28.900 34.225 12.100 400 10.000 129.950 0,7385 22,5939

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

O coeficiente de determinao deve ser interpretado como a proporo de variao total da varivel dependente Y que explicada pela variao da varivel independente X. Tomando o exemplo acima se pode concluir que 73,85 % das variaes de Y so explicadas pela variao de X.

Coeficiente de Correlao
O coeficiente de determinao igual ao quadrado do coeficiente de correlao. Assim a partir do valor do coeficiente de determinao podemos obter o valor do coeficiente de correlao. No exemplo acima para um coeficiente de determinao r2 = 0,738 obtemos o coeficiente de correlao, r = 0,85. O coeficiente de determinao sempre positivo, enquanto que o coeficiente de correlao pode admitir valores negativos e positivos. Valores de r igual ou prximos de 1 ou 1 indica que exige uma forte relao entre as variveis: no primeiro caso a relao direta, enquanto que no segundo a relao inversa. Valores prximos de Zero, significa que existe pouco relacionamento entre as variveis. Portanto, -1 r +1 O coeficiente de determinao indica o quanto a reta de regresso explica o ajuste da reta, enquanto que o coeficiente de correlao deve ser usado como uma medida de fora da relao entre as variveis Resumindo: - Os valores de r esto limitados entre -1 r +1 - O coeficiente de correlao tem um valor nico para a populao ou amostra. - Coeficiente de correlao padroniza dentro dos horizontes acima as variaes da covarincia - Por isso o coeficiente de correlao pode ser expresso: Cov (X,Y) rX,Y = X Y onde,

X Y Cov (X,Y)

desvio padro da varivel X desvio padro da varivel Y Covarincia de X e Y

Universidade de So Paulo Faculdade de Arquitetura e Urbanismo Estatstica Aplicada

10

Erro Padro do Coeficiente b, (Sb)


O erro padro do coeficiente b indica o grau de aproximao entre o coeficiente b da equao de regresso e o coeficiente da populao. Essa variao existe porque embora os dados sejam retirados da populao h sempre variaes entre os dados da amostra e os dados da populao. A frmula abaixo mede a diferena entre b e : S2b Sb ------------------ = --------------------(n-1) x Var (x) (n-1) x Var (x)

Sb =

S2b =

Pela frmula acima se pode concluir que o erro padro do coeficiente b: diretamente proporcional ao erro padro da estimativa Se, e; e inversamente proporcional ao valor do desvio padro de x e o tamanho da amostra menos 1.

You might also like