You are on page 1of 6

ANLISE DE REGRESSO LINEAR: ABORDAGEM TRADICIONAL E ESPACIAL EM UM ESTUDO DE CASO

Ana Julia Righetto1, Vilma Mayumi Tachibana2


1 Programa

de Ps-Graduao em Estatstica e Experimentao Agronmica ESALQ/USP 2 Departamento de Matemtica, Estatstica e Computao FCT/UNESP ajrighetto@usp.br; vilma@fct.unesp.br

1 INTRODUO Em vrios experimentos deseja-se averiguar como uma mudana ocorrida em uma ou mais variveis ditas independentes (ou explicativas) afeta outra varivel, geralmente, denominada de dependente (ou resposta). Essa relao funcional entre as variveis pode ser obtida pela tcnica denominada anlise de regresso. Recentemente esta tcnica vem sendo muito utilizada na anlise espacial de dados para obter um modelo que acrescente a informao de agrupamento espacial, caso no houver aleatoriedade espacial da varivel resposta de interesse. Abordando anlise de regresso linear, em sua forma tradicional e em anlise espacial, para a realizao deste estudo trabalhou-se com duas variveis explicativas, idade e instruo, e renda como varivel resposta. So variveis scio-econmicas coletadas pelo IBGE no municpio de Presidente Epitcio SP, no Censo 2000. Estas variveis fazem parte dos resultados do questionrio da amostra, aplicado a 10% dos domiclios, e do questionrio bsico aplicado a toda populao; referentes aos 47 setores censitrios do municpio. Inicialmente, uma anlise de regresso linear mltipla foi realizada para ajustar um modelo no qual a varivel renda explicada em funo das variveis idade e grau de instruo; em seguida, a dependncia espacial foi incorporada ao modelo. Os resultados obtidos tambm foram apresentados em forma de ndices que medem a associao espacial global e local, grfico de espalhamento e mapas, facilitando possveis identificaes de agrupamentos, reas de transio e casos incomuns. 2 METODOLOGIA 2.1 Modelo Clssico de Regresso Linear Seja o modelo de regresso linear mltipla (MRLM) dado por: , (1) em que Y o vetor de varivel resposta, X a matriz de variveis explicativas, o vetor de parmetros do modelo (coeficientes ou pesos das variveis explicativas) e o vetor dos resduos com distribuio Normal multivariada de dimenso n com mdia 0 e covarincia 2 . escolhidos pelo critrio de mnimos quadrados so dados por: Os coeficientes = (XX)-1 XY .
Obtido essas estimativas, testa-se a significncia das variveis explicativas. Ou seja, a escolha entre um modelo completo com todas as variveis explicativas ou um modelo reduzido sem um subgrupo de variveis, respondendo a pergunta: Vale a pena acrescentar os termos extras ao modelo?. Sempre que se acrescentam mais termos no modelo, diminui-se o erro de ajuste, restando saber se tal aumento significativo. preciso verificar se os termos extras contribuem para a melhor descrio da varivel Y,

caso contrrio, Charnet et al. (1999) recomendam, por parcimnia, optar pelo modelo reduzido. Alm disso, deve-se realizar a anlise de resduos, para comprovar que os mesmos atendem aos pressupostos do modelo: so aleatrios, tm distribuio normal e no so autocorrelacionados. 2.2 Regresso Linear Espacial A anlise espacial de dados consiste em um estudo quantitativo de fenmenos localizados em determinado espao, sendo que a localizao dos dados muito importante em sua anlise ou interpretao dos resultados. Segundo Druck et al. (2004), compreender a distribuio espacial de dados provindos de fenmenos ocorridos no espao constitui, nos dias atuais, um grande desafio para esclarecer questes centrais em diversas reas do conhecimento, seja na rea da sade, em ambiente, em geologia, em agronomia, entre tantas outras reas. Vrios tipos de dados de interesse podem caracterizar problemas de anlise espacial e Assuno (2001) classifica-os de acordo com uma tipologia de quatro categorias: dados de processos pontuais; dados de interao espacial; dados de rea e dados de superfcie aleatria. Na situao de dados espaciais, quando est presente a autocorrelao espacial, as estimativas do modelo devem incorporar essa estrutura espacial, uma vez que a dependncia entre as observaes altera o poder explicativo do modelo. A significncia dos parmetros usualmente superestimada, e a existncia de variaes em larga escala pode at mesmo induzir a presena de associaes esprias (DRUCK et al., 2004). Com dados espaciais pouco provvel que a hiptese das observaes no correlacionadas seja verdadeira, quando a dependncia espacial estiver presente. Na regresso espacial preciso investigar os resduos em busca de sinais de estruturas espaciais, por meio de anlise grfica, mapeamento dos resduos ou teste de autocorrelao, como o ndice de Moran. O ndice global de Moran I uma medida de autocorrelao considerando-se o primeiro vizinho e tem a seguinte expresso:

em que: n o nmero de reas (por exemplo: nmero de setores censitrios), zi o valor do atributo considerado na rea i, z o valor mdio do atributo na regio de estudo e wij os elementos da matriz normalizada de proximidade espacial, denotada por W. Esta matriz uma ferramenta bsica para estimar a variabilidade espacial de dados de rea, seus elementos pelo mtodo da rainha so medidas de distncia entre duas reas e assumem valores 1 (para zonas com fronteiras) e 0 (quando no h fronteira). Geralmente, as linhas desta matriz so normalizadas, para que a soma dos pesos de cada linha seja igual a 1. O valor deste ndice pertence ao intervalo [-1, 1]; se o valor estiver entre 0 e +1 indica correlao direta e se estiver entre 0 e 1, correlao inversa, ou seja, quando h homogeneidade entre localidades prximas, I tende a ser positivo, enquanto se as localidades prximas forem dissimilares, o ndice tende a ser negativo. A hiptese nula do teste de independncia espacial, e neste caso o valor do ndice nulo. Para este trabalho foram utilizados os modelos de regresso permitem incorporar efeitos espaciais de forma global (como um nico parmetro). Existem duas opes para tratar a autocorrelao global num modelo de regresso: Modelo espacial autoregressivo misto (SAR) ou Modelo do erro espacial (CAR), que so descritos a seguir, baseados em Druck et al. (2004).

2.2.1 Modelo Espacial Auto-Regressivo Misto No modelo espacial auto-regressivo misto (Spatial AutoRregressive SAR ou Spatial Lag Model), considera-se a dependncia espacial adcionando-se ao modelo de regresso um novo termo na forma de uma relao espacial para a varivel resposta, ou seja, a auto a autocorrelao espacial ignorada atribuda varivel resposta Y. O modelo expresso da seguinte forma: (3) Em W que a matriz de proximidade espacial, o produto WY expressa a dependncia espacial em W e o coeficiente espacial auto-regressivo. A hiptese nula para a no existncia de autocorrelao = 0. Em termos de componentes individuais, esse modelo expresso como: (4) sendo wij elemento da matriz de proximidade espacial. 2.2.2 Modelo do Erro Espacial Este modelo, tambm conhecido como Spatial error model ou ainda Conditional AutoRegressive CAR, considera que os efeitos espaciais so um rudo, ou pertubao, isto , fator que precisa ser removido. Neste caso, os efeitos de autocorrelao espacial so associados ao termo de erro e o modelo expresso da seguinte forma:
(5) Nas expresses dadas em (5) tem-se: W a componente do erro com efeitos espaciais, o coeficiente autoregressivo e a componente do erro com varincia constante e no correlacionada. A hiptese nula para a no-existncia de autocorrelao que = 0, isto , o termo de erro no espacialmente correlacionado. 2.2.3 Diagnstico de Modelos com Efeitos Espaciais Primeiramente, uma anlise grfica dos resduos deve ser realizada para ser avaliada a qualidade do ajuste de regresso. Mapear os resduos importante no diagnstico do modelo, buscando indcios de ruptura dos pressupostos de independncia. Segundo Druck et al. (2004), uma elevada concentrao de resduos positivos (ou negativos) em alguma parte do mapa um bom indicador da presena de autocorrelo espacial. Para um teste quantitativo, o mais usado o ndice I de Moran. Os estimadores e os diagnsticos tradicionais de regresso no levam em conta os efeitos espaciais, assim, na regresso espacial as inferncias, como por exemplo, as indicaes de qualidade de ajuste, baseadas no coeficiente de determinao (R2) no so confiveis. O mtodo mais usual de seleo de modelos de regresso baseia-se nos valores de mxima verossimilhana dos diferentes modelos, ponderando pela diferena no nmero de parmetros estimados. Nos modelos com estrutura de dependncia espacial ou temporal utilizam-se os critrios de informao em que a avaliao do ajuste penalizada por uma funo do nmero de parmetros. Cabe observar que necessrio ainda levar em conta o nmero de parmetros independentes ao se incluir funes espaciais nos modelos (DRUCK et al., 2004). A comparao de modelos normalmente feita utilizando-se o logaritmo da mxima verossimilhana (LMV) e o nmero de coeficientes de regresso (k). H vrios critrios, sendo os mais utilizados informao de Akaike (AIC) e Bayesiano de Schwarz. O Critrio de Informao de Akaike (AIC) expresso da seguinte forma: AIC = -2*LMV + 2k (6)

Pelo critrio de Akaike, o melhor modelo o que possuir menor valor de AIC. O Critrio Bayesiano de Schwarz (SBC) expresso por: SBC = -2*LMV + k * ln(N), (7) em que N o nmero de observaes. Assim como o critrio de Akaike, pelo critrio de Schwarz o melhor modelo aquele que possuir o menor valor de SBC. 3 ANLISE O municpio de Presidente Epitcio foi dividido em 47 setores censitrios e neste estudo retirou-se um setor em que no havia moradores. Os elementos wij da matriz de proximidade espacial W foram definidos segundo o critrio de contigidade da rainha, que de acordo com Upton e Fingleton (1985) recebem valor 1 quando o setor i e o setor j compartilham cantos e arestas e 0 em outros casos. Esses valores foram padronizados, de modo que a soma dos pesos wij em cada linha i era igual a 1. Os dados scio-econmicos dos responsveis pelos domiclios no municpio foram obtidos usando-se o programa ESTATCART. As variveis deste estudo so: Renda (varivel resposta), Idade e Instruo (variveis explicativas). Para aplicao do modelo de regresso, testou-se a normalidade da varivel Renda, verificando-se que esta no possua distribuio normal. Foi realizada a transformao raiz quadrada na varivel e criou-se uma nova varivel denominada Renda_raiz que pelo teste de normalidade Shapiro-Wilk normal a um nvel de significncia de 10%. Prosseguindo, realizou-se uma anlise exploratria de dados e clculo dos ndices de Moran local e global, em cada varivel para avaliar a hiptese de dependncia espacial.

Figura 1 Scatter plot do ndice de Moran das variveis Idade (A), Instruo (B) e Renda_raiz (C)

Em relao as variveis de interesse, nota-se que as mesmas indicam uma forte dependncia espacial que pode ser confirmada pelos valores do ndice de Moran: 0,6473 para a varivel Idade; 0,1959 para a varivel Instruo e 0,4055 para a varivel Renda_raiz. A Figura 1 apresenta os grficos de disperso dessas variveis, no eixo x o valor do setor censitrio e no eixo y a mdia dos vizinhos. As autocorrelaes das variveis deste estudo so significativas e o p-valor das variveis Renda_raiz e Idade 0,0010 e da varivel Instruo 0,0080. A Figura 2 mostra o mapa da distribuio da varivel Renda_raiz esquerda e ao lado direito o mapa de autocorrelao espacial local (LISA), destacando um agrupamento de setores com rendas altas (em vermelho) e outro agrupamento de setores com rendas baixas (em azul). As figuras deste trabalho foram elaboradas no GeoDa.

(A) (B) Figura 2 Mapa da distribuio (A) e da autocorrelao espacial local (LISA) (B) da varivel Renda_raiz.

O modelo clssico de regresso linear mltipla expresso da seguinte forma Renda_raiz = 41,835 + 0,977 Idade + 4,398 Instruo (8) 2 Neste modelo, o coeficiente de determinao R = 0,653 e o coeficiente de determinao ajustado R2aj = 0,636. Estes valores indicam que grande parte da variabilidade da varivel Renda_raiz explicada pelo modelo ajustado. As duas variveis explicativas do modelo so significativas (p-valor <0,0001). Outras medidas referentes ao ajuste do modelo foram obtidas: Log da Verossimilhana = -144,553; Critrio Bayesiano de Schwarz (SBC) = 300,592 e Critrio de Informao de Akaike = 295,106. Os resduos do modelo possuem distribuio normal e no esto distribudos aleatoriamente pelo municpio de Presidente Epitcio-SP, como se observa na Figura 3 (A) e (B) que representa a distribuio dos resduos em quantis e a distribuio do desvio padro dos valores absolutos dos resduos, respectivamente. Nota-se que h uma concentrao de maiores erros na regio urbana e no centro da cidade, indicando que h dependncia espacial. Sendo assim, deve-se seguir a anlise levando em considerao o efeito espacial do modelo.

Figura 3 Mapa da distribuio (A) e do desvio padro (B) dos resduos do modelo ajustado em (8).

Pelo diagnstico de autocorrelao espacial sugerido por Anselin (2005), o modelo escolhido foi o do erro espacial (CAR ou Spatial error mode) dado por: Renda_raiz = 44,895 + 1,013 Idade + 4,653Instruo 0,434W_Resduo (9) O pseudo-coeficiente de determinao R2 = 0,676; e todas as variveis explicativas so importantes no modelo. Outras medidas referentes ao modelo foram calculadas e comparadas com as medidas do modelo de regresso clssica dada em (8): o Log de verossimilhana para este modelo -143,576 que um valor maior do que o Log dado no modelo (8), indicando que o ajuste foi melhor; a medida dada pelo Critrio Bayesiano de Schwarz

(SBC) 298,638 e do Critrio de Informao de Akaike (AIC) 293,152; ambos os valores so menores do que os valores do modelo clssico, indicando tambm um melhor ajuste. Para este modelo, a estatstica I de Moran dos resduos 0,0972 que pode ser considerado igual a zero ao nvel de significncia de 10%, indicando que a incluso da varivel W_resduo no modelo, eliminou a autocorrelao espacial. Os valores de renda_raiz ajustados pelo modelo dado em (9) so apresentados na Figura 4 (A), na qual observa-se que as rendas mais baixas (em amarelo) esto na regio rural do municpio e as mais altas esto na regio central de Presidente Epitcio - SP. Pela Figura 4 (B), nota-se que na zona rural esto os setores com menor renda cercados por setores com menor renda (cor azul) e que mais ao centro esto os setores com maiores renda cercados de setores com rendas tambm maiores (cor vermelha).

(A)

(B)

Figura 4 Mapa da distribuio (A) e da autocorrelao espacial local (LISA) (B) para Renda_raiz.

4 CONSIDERAES FINAIS Dias et al. (2002) apresentam alguns problemas que podem surgir ao trabalhar com dados agregados por rea, como setores censitrios, pois as reas so pequenas e normalmente so agregadas em um mesmo setor grupos sociais distintos como favela e reas nobres. Neste trabalho no houve problemas em utilizar setores censitrios definidos pelo IBGE, pois em Presidente Epitcio no existiu esses problemas. O modelo clssico de regresso linear gerou resduos que esto correlacionados no espao, necessitando-se da construo de um novo modelo que eliminasse esse aspecto, alm de incorporar esses efeitos espaciais. O modelo de regresso de erro espacial CAR obtido apresentou melhores resultados do que o modelo de regresso clssico, alm de possibilitar apresentar os resultados da estimativa em forma de mapas. 5 REFERNCIAS BIBLIOGRFICAS [1]ANSELIN, L. Exploring spatial data with GeoDaTM: a Workbook. University of Illinois, Urbana-Champaign, 2005. [2] ASSUNO, R. M. Estatstica espacial com aplicaes em epidemiologia, economia, sociologia. In 7 ESCOLA DE MODELOS DE REGRESSO, So Carlos: Universidade Federal de So Carlos, 2001. 130p. [3] CHARNET, R. et al. Anlise de modelos de regresso linear com aplicaes. So Paulo: Unicamp, 1999. 354p. [4] DIAS, T.L., OLIVEIRA, M.P.G., CMARA, G., CARVALHO, M.S. Problemas de escala e a relao rea-indivduo em anlise espacial de dados censitrios. Informtica Pblica. Belo Horizonte, V. 1, no. 4, p. 89-104, 2002. [5]DRUCK, S. et al. Anlise espacial de dados geogrficos. Braslia, EMBRAPA, 2004 (ISBN: 85-7383-260-6). [6] UPTON, G.; FINGLETON, B. Spatial Data Analysis by Example, volume I Point pattern and quantitative data, Chischester: John Wiley & Sons, 1985.

You might also like