Professional Documents
Culture Documents
Notas de Aula
Modelos de Regresso
Modelos de regresso so modelos matemticos que relacionam o comportamento de uma varivel Y com outra X. Quando a funo f que relaciona duas variveis do tipo f (X) = a + b X temos o modelo de regresso simples. A varivel X a varivel independente da equao enquanto Y = f (X) a varivel dependente das variaes de X. O modelo de regresso chamado de simples quando envolve uma relao causal entre duas variveis. O modelo de regresso multivado quando envolve uma relao causal com mais de duas variveis. Isto , quando o comportamento de Y explicado por mais de uma varivel independe X1, X2, ....Xn. Os modelos acima (simples ou multivariados) simulam relacionamentos entre as variveis. Esse relacionamento poder ser do tipo linear (equao da reta ou do plano) ou no linear (equao exponencial, geomtrica, etc.). A anlise de regresso compreende, portanto quatro tipos bsicos de modelos; - linear simples; - linear multivariado; - no linear simples; - no linear multivariado. Para que serve determinar a relao entre duas variveis? 1 - Para realizar previses sobre o comportamento futuro de algum fenmeno da realidade. Neste caso extrapola-se para o futuro as relaes de causa-efeito j observadas no passado entre as variveis. Pode-se, por exemplo, prever a populao futura de uma cidade simulando a tendncia de crescimento da populao no passado. 2 - Pesquisadores interessados em simular os efeitos sobre uma varivel Y em decorrncia de alteraes introduzidas nos valores de uma varivel X tambm usam este modelo. Por exemplo: de que modo a produtividade (Y) de uma rea agrcola alterada quando se aplica certa quantidade (X) de fertilizante sobre a terra. No exemplo acima o pesquisador seleciona n pedaos de terra x1, x2, x3,....xn, aos quais so aplicadas quantidades definidas de fertilizante. Em seguida, medem-se as quantidades colhidas em cada pedao de terra y1, y2, y3, ....yn, obtendo assim pares de valores (x1,y1) (x2,y2), ......(xn, yn) que podem ser plotados em um grfico cartesiano chamado de diagrama de disperso. Diagrama de Disperso Ao se plotar num grfico cartesiano os pares de informao referente a cada observao obtemos uma nuvem de pontos definidos pelas coordenadas x e y de cada ponto. Essa nuvem, por sua vez, definir um eixo ou direo que caracterizar o padro de relacionamento entre X e Y. A regresso ser linear se observada uma tendncia ou eixo linear na nuvem de pontos cartesianos. A relao entre as variveis ser direta (ou positiva) quando os valores de Y aumentarem em decorrncia da elevao dos valores de X . Ser inversa (ou negativa) quando os valores de Y variarem inversamente em relao aos de X. A figura 1 mostra o diagrama de disperso referente as variveis X e Y. O diagrama mostra uma relao direta entre as variveis, ou seja: o crescimento de Y est diretamente ligado ao crescimento de X.
Figura 1
x y ____________ 30 430 21 335 35 520 42 490 37 470 20 210 8 195 17 270 35 400 25 480
Figura 2
x2 900 441 1.225 1.764 1.369 400 64 289 1.225 625 8.302
y 430 335 520 490 470 210 195 270 400 480 3.800 =
x.y 12.900 7.035 18.200 20.580 17.390 4.200 1.560 4.590 14.000 12.000 112.455 117,07 + 9,74 x
Projeo 409,21 321,57 457,91 526,07 477,38 311,83 194,98 282,62 457,91 360,52
Mtodo dos Mnimos Quadrados o mtodo de computao matemtica pelo qual se define a curva de regresso. Esse mtodo definir uma reta que minimizar a soma das distncias ao quadrado entre os pontos plotados (X, Y) e a reta (X,Y). Pelo mtodo dos mnimos quadrados calculam-se os parmetros a e b da reta que minimiza estas distncias ou as diferenas (ou o erro) entre Y e Y. Esta reta chamada de curva de regresso. Erro = E = (Y- Y) E12 + E22 + E32 + ..... + En2 = Mnimo Erro Total = (Y-Y) 2 Y = a + bX Diferena entre o valor levantado Y (na amostra) e o estimado Y(pela reta de regresso) Objetivo do modelo de regresso Hiptese de trabalho Equao da reta de regresso que minimiza o erro
(Y- a - bX) 2
Para que a soma dos quadrados dos erros tenha um valor mnimo, devem-se aplicar os conceitos de clculo diferencial com derivadas parciais. Como as incgnitas do problema so os coeficientes "a" e "b" estrutura-se um sistema de duas equaes. Assim aplicando os conceitos acima referidos monta-se o sistema de equaes normais que permitir extrair os valores de a e b, e ------ = - 2 (Y- a - bX) a - 2 Y + 2 a + 2 bX Y = a + bX
(6)
Y = Na + b X
XY = a X + b X2
(9)
N XY - X. Y b = --------------------------a X2 - X2
Os valores a e b acima correspondem aos parmetros da equao de regresso que minimiza as diferenas entre os valores de Y (levantados) e os de Y (estimados pela regresso). Portanto, o problema de fitting (ajustar) uma reta que melhor se adeque nuvem de dados se reduz em calcular os parmetros a e b da equao de regresso. GRAU DE UTILIDADE DA RETA DE REGRESSO A reta de regresso que se obtm atravs do mtodo dos mnimos quadrados apenas uma aproximao da realidade, ela um modo til para indicar a tendncia dos dados. Mas at que ponto a reta de regresso obtida til para avaliar a realidade? Duas medidas podem indicar o quanto til ou aproximado da realidade a reta: erro padro da estimativa; coeficiente de determinao Erro Padro da Estimativa O erro padro da estimativa Se mede o desvio mdio entre os valores reais de Y e os valores estimados Y. Ele informa de modo aproximado a extenso do erro entre os valores obtidos das estimativas e os valores de Y fornecidos pela amostra. Se medido na unidade de Y. O que se busca conseguir o menor valor possvel de Se. Pode-se interpretar o Se como um desvio padro dos resduos, pois assumindo que estes resduos so "normalmente distribudos", pode-se dizer ento que 68% dos pontos (plotados) encontramse dentro de 1 desvio padro: -1 Se 1; e que 95% dos pontos encontram-se dentro de 2 desvios padro: -2 Se 2. Sendo os desvios normalmente distribudos a frmula de Se obtida da definio da varincia da amostra Se2, com n-2 graus de liberdade: (Y Y)2 ----------------------- = N-2 (Y Y)2
Se2
Se
N2
Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados estivem todos contidos numa reta teremos uma reta de regresso coincidente com os dados
levantados. Nesse caso a somatria dos desvios ao quadrado ser zero e, o ajuste da reta ser completo. A reta de regresso explica perfeitamente a relao entre X e Y. O erro padro existir sempre que o poder de explicao da reta no for completo. O valor do erro significa ento que existem outros fatores que interferem no comportamento de Y alm da varivel X.
Coeficiente de Determinao
Ao se analisar a reta de regresso observamos que os pontos (xi, yi) esto distribudos acima e abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y - a reta de regresso) e com o valor mdio de Y (Y* -reta paralela ao eixo X). Como podemos observar a diferena entre o valor de Y e o valor de Y* (valor mdio de Y) o desvio total do ponto em relao a sua mdia. A soma dos desvios ao quadrado de todos os pontos em relao a mdia de Y chamada de Variao Total. Isto : (Y Y*)2 A diferena entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi,yi) isto a distancia entre o ponto Y e a reta de regresso, chamada de Variao No Explicada pela reta de regresso. Isto : (Y Y)2 J a diferena entre o valor Y (estimativa de Y) situado sobre a reta de regresso e o valor mdio de Y* (situado sobre a reta paralela ao eixo x) conhecida como Variao Explicada pela reta de regresso. Isto : (Y Y*)2 Conforme mostra a Figura 3,
Figura 3 yi yi Y* y* Y= a+ bX xi Conclui-se que: (Y Y*)2 = (Y Y)2 + (Y Y*)2 O Coeficiente de Determinao r2 Definido pela seguinte relao: (Y Y*)2 =
_______________________
(Y Y*)2 (Y Y*)2
= r2 =
x y 30 430 21 335 35 520 42 490 37 470 20 210 8 195 17 270 35 400 25 480 Mdia y 380 b 9,74 a 117,07
Projeo 409,21 321,57 457,91 526,07 477,38 311,83 194,98 282,62 457,91 360,52 Soma
Explicada 853,48 3.413,93 6.069,21 21.337,07 9.483,14 4.646,74 34.234,14 9.483,14 6.069,21 379,33 95.969,39
Variao No explicada 432,04 180,33 3.855,77 1.301,20 54,49 10.369,96 0,00 159,23 3.353,01 14.274,58 33.980,61 Coeficiente de Determinao F observado
Total 2.500 2.025 19.600 12.100 8.100 28.900 34.225 12.100 400 10.000 129.950 0,7385 22,5939
O coeficiente de determinao deve ser interpretado como a proporo de variao total da varivel dependente Y que explicada pela variao da varivel independente X. Tomando o exemplo acima se pode concluir que 73,85 % das variaes de Y so explicadas pela variao de X.
Coeficiente de Correlao
O coeficiente de determinao igual ao quadrado do coeficiente de correlao. Assim a partir do valor do coeficiente de determinao podemos obter o valor do coeficiente de correlao. No exemplo acima para um coeficiente de determinao r2 = 0,738 obtemos o coeficiente de correlao, r = 0,85. O coeficiente de determinao sempre positivo, enquanto que o coeficiente de correlao pode admitir valores negativos e positivos. Valores de r igual ou prximos de 1 ou 1 indica que exige uma forte relao entre as variveis: no primeiro caso a relao direta, enquanto que no segundo a relao inversa. Valores prximos de Zero, significa que existe pouco relacionamento entre as variveis. Portanto, -1 r +1 O coeficiente de determinao indica o quanto a reta de regresso explica o ajuste da reta, enquanto que o coeficiente de correlao deve ser usado como uma medida de fora da relao entre as variveis Resumindo: - Os valores de r esto limitados entre -1 r +1 - O coeficiente de correlao tem um valor nico para a populao ou amostra. - Coeficiente de correlao padroniza dentro dos horizontes acima as variaes da covarincia - Por isso o coeficiente de correlao pode ser expresso: Cov (X,Y) rX,Y = X Y onde,
X Y Cov (X,Y)
10
Sb =
S2b =
Pela frmula acima se pode concluir que o erro padro do coeficiente b: diretamente proporcional ao erro padro da estimativa Se, e; e inversamente proporcional ao valor do desvio padro de x e o tamanho da amostra menos 1.