You are on page 1of 4

XII Escola de Modelos de Regress ao, Fortaleza-CE, 13-16 Marco 2011

Escolha do corte otimo para correc ao de matrizes de vari ancias e covari ancias
segundo m etodo GMM espacial de Conley.
Pedro Henrique Melo Albuquerque
1
and Alexandre Xavier de Carvalho Ywata
2
and Rafael
Dantas Guimar aes
3
1. INTRODUC

AO Nas ultimas d ecadas, umconjunto cada vez maior de ferramentas analticas
para tratamento de dados espaciais tem surgido na literatura especializada. (LeSage e Pace
(2010))
Estas ferramentas t em auxiliado pesquisadores em diferentes campos da ci encia a lidar
com a crescente disponibilidade de bases de dados georreferenciados. De fato, diferente-
mente dos modelos de s eries temporais, por exemplo, uma base de dados totalmente nova e
detalhada, com dados cross-section espaciais, pode surgir de um ano para o outro.
Particularmente, os dados provenientes do maior provedor de informac oes estatsticas do
Brasil - o IBGE - possuem abrang encia regional como: unidades federativas, municpios, areas
de ponderac ao e setores censit arios, e a estimac ao de modelos de regress ao utilizando esses
dados pode ser prejudicada devido a possvel depend encia espacial entre as observac oes,
uma vez que o pressuposto mais comum da an alise econom etrica e que os dados s ao i.i.d
(independentes e identicamente distribudos). Todavia, no caso de dados espaciais (region-
ais), frequentemente o pressuposto de independ encia n ao se sustenta, j a que observac oes
espacialmente pr oximas podem ser muito mais parecidas do que com outras observac oes
mais distantes.
O pressuposto de distribuic ao id entica das observac oes tamb em pode n ao ser dedigno,
uma vez que os dados regionais podem n ao ser estacion arios, havendo assim uma mudanca
no regime estoc astico ao longo do espaco. Dados regionais (espaciais em geral) s ao caracter-
izados pela presenca de depend encia (autocorrelac ao espacial) e heterogeneidade (estrutura
espacial diferenciada).
Esses efeitos espaciais s ao importantes na an alise econom etrica, posto que podem in-
validar as metodologias e resultados usuais, subestimando ou superestimando erros-padr ao,
levando assim a uma infer encia err onea sobre o modelo em estudo.
Este trabalho tem como principal objetivo apresentar uma proposta para escolha do corte
otimo segundo a metodologia de Conley (1999) para a correc ao da matriz de vari ancias e
covari ancias dos par ametros estimados. Al em disso, apresenta-se uma simulac ao computa-
cional com o objetivo de estudar o m etodo do GMM Espacial em uma situac ao controlada e a
aplicac ao do m etodo de reamostragem Jackknife para a determinac ao do corte otimo em uma
situac ao pr atica.
Dividimos ent ao esse trabalho da seguinte forma: sec ao 2 apresenta a metodologia utilizada
-GMM de Conley- a qual corrige possveis depend encias espaciais e possibilita a adic ao de
vari aveis instrumentais. Na sec ao 3 apresentamos os resultados obtidos utilizando por meio
de simulac ao e a proposta de reamostragem na pr atica utilizando o software IpeaGEO desen-
volvido pelo Instituto de Pesquisa Econ omica e Aplicada. Finalmente, na sec ao 4 apresentare-
mos a conclus ao do trabalho e uma agenda de trabalhos futuros.
2. METODOLOGIA Nesta sec ao, uma discuss ao sobre o procedimento de Conley (1999) e
apresentada, por meio do qual se permite a estimac ao de modelos gerais via m etodo de mo-
mentos generalizados, na presenca de autocorrelac ao espacial nas observac oes. Considera-
se a forma geral do modelo de regress ao (linear ou n ao-linear) y
i
= m(x

i
,

) + u
i
.
O termo u
i
e um termo de erro que possui m edia zero. O vetor x

i
de dimens ao p 1 e um
vetor de vari aveis explicativas, e

corresponde a um vetor de par ametros desconhecidos do


modelo de dimens ao p 1.
Associac ao Brasileira de Estatstica - XII EMR - Marco 2011
XII Escola de Modelos de Regress ao, Fortaleza-CE, 13-16 Marco 2011
A partir do vetor de vari aveis instrumentais, podem-se ent ao escrever as condic oes de
momento (momentos populacionais):
{E(u
i
)z

i
} =
_
E
_
y
i
m(x

i
,

)
_
z

i
_
= 0

Para prosseguir a estrat egia de estimac ao, substituem-se os momentos populacionais por
seus equivalentes amostrais, obtendo-se:
1
n
n

i=1
__
y
i
m(x

i
,

)
_
z

i
_
= 0

Assumindo-se algumas condic oes de regularidade (Hansen(1982)), quando o n umero de


coecientes e exatamente igual ao n umero de instrumentos, diz-se que o modelo e exatamente
identicado e e possvel encontrar um vetor

de coecientes para o qual a igualdade acima e


satisfeita.
No entanto, quando a dimens ao de z

i
e maior do que o n umero de coecientes, a proba-
bilidade de se obter uma amostra para a qual a igualdade seja exatamente satisfeita e zero
(conjunto de medida nula). Uma alternativa ent ao e encontrar o vetor

que minimiza a forma


quadr atica:
J(

) =
_
1
n
n

i=1
_
y
i
m(x

i
,

)
_
z

i
_

_
1
n
n

i=1
_
y
i
m(x

i
,

)
_
z

i
_
A matriz e uma matriz positiva denida qualquer. O estimador GMM e denido como:

GMM
= arg min

J(

)
Pode-se mostrar que o estimador GMM e consistente (assumindo que as devidas condic oes
de regularidade s ao satisfeitas). Eci encia e obtida utilizando-se a matriz otima =
1
,
onde:
= Cov
__
y
i
m(x

i
,

)
_
z

i
_
Na pr atica, quando n ao h a depend encia entre as observac oes, pode-se estimar por in-
term edio da express ao:

=
1
n
n

i=1
__
y
i
m(x

i
,

)
_
z

i
___
y
i
m(x

i
,

)
_
z

i
_
No entanto, quando h a possveis depend encias entre as observac oes para os vetores cor-
respondentes ` as condic oes de momento, o estimador supracitado para n ao e mais v alido.
No caso de as observac oes para y
i
, x

i
e z

i
acontecerem em perodos discretos de tempo
igualmente espacados, Newey e West (1987) prop oem uma correc ao n ao-param etrica e ro-
busta para o estimador

. Este estimador foi revisitado em Andrews (1991) e Andrews e
Monahan (1992).
Conley (1999) prop os umestimador robusto tanto para heteroscedasticidade quanto autocorrelac ao
espacial, no caso de dados cross-section, espacialmente distribudos, seguindo os mesmos
princpios que Newey e West (1987). De maneira geral, o estimador proposto por Conley tem
express ao:
Associac ao Brasileira de Estatstica - XII EMR - Marco 2011
XII Escola de Modelos de Regress ao, Fortaleza-CE, 13-16 Marco 2011

=
1
n
n

i=1
n

j=1
K(i, j)
__
y
i
m(x

i
,

)
_
z

i
___
y
i
m(x

i
,

)
_
z

i
_
onde
K(i, j) =
_ _
1
D
H
(i,j)
L
H
_ _
1
D
V
(i,j)
L
V
_
, se D
H
(i, j) < L
H
e D
V
(i, j) < L
V
.
0 , caso contr ario.
O valor D
H
(i, j) corresponde ` a dist ancia horizontal entre unidades i e j, o valor D
V
(i, j)
corresponde ` a dist ancia vertical entre i e j, L
H
e a dist ancia de corte horizontal, e L
V
e a
dist ancia de corte vertical.
Em geral, a minimizac ao de J(

) n ao resulta em uma soluc ao explcita, devendo ser feita


via algoritmos num ericos. Uma excec ao ocorre no caso de modelos lineares; neste caso, o
estimador GMM pode ser escrito em forma fechada, sem haver necessidade de minimizac ao
num erica.
A exibilidade da estimac ao via GMM, na formulac ao y
i
m(x

i
,

), permite o tratamento de
modelos n ao-lineares, com formulac oes param etricas comumente encontradas na literatura.
Uma vez estimado o vetor de coecientes

, pode-se proceder como processo de infer encia


a partir da matriz de covari ancia dos estimadores, estim avel a partir da express ao:

V(

) =
_

_
n
_
_
1
n
n

i=1

_
y
i
m(x

i
,

)
_
z

i
_
_

1
_
_
1
n
n

i=1

_
y
i
m(x

i
,

)
_
z

i
_
_
_

_
1
3. RESULTADOS E DISCUSS

AO Essa sec ao tem como objetivo a avaliac ao do modelo


GMM espacial de Conley por meio de simulac ao, tornando mais evidente a import ancia da
correc ao espacial em uma situac ao controlada, avaliando inclusive a robustez do m etodo al em
de uma proposta metodol ogica para determinac ao do corte otimo para o kernel suavizador da
matriz de vari ancias e covari ancias estimada dos par ametros.
O processo gerador dos dados segue um Spatial Mixed Model(LeSage e Pace(2010)):
y

= Wy

+X

+ u

onde nesta simulac ao a matriz X e uma realizac ao de uma normal multivariada com vetor de
m edias igual (15, 54, 198) e matriz de vari ancias e covari ancias dada por:
=
_
_
9.0 7.2 9.0
7.2 16.0 12.0
9.0 12.0 25.0
_
_
33
A simulac ao foi realizada utilizando

= (5.76, 1.75, 0.001), = 0.8, W e a matriz de vizinhanca


do tipo Queen
1
gerada pelo grid regular de polgonos (10 10) e u

e uma normal multivariada


com vetor de m edias zero e matriz de vari ancias e covari ancias igual a
2
I, com
2
= 1.
Geraram-se em seguida 1000 datasets variando apenas o erro

por meio de simulac ao.


Ap os esse processo estimaram-se as vari ancias dos par ametros e seus respectivos vieses,
onde a matriz de vari ancias e covari ancias populacional dos par ametros possui a forma:
1
Neste tipo de matriz a vizinhanca e determinada caso haja pelo menos umponto emcomumentre os polgonos.
Associac ao Brasileira de Estatstica - XII EMR - Marco 2011
XII Escola de Modelos de Regress ao, Fortaleza-CE, 13-16 Marco 2011
V(

) =
_
_
_
n
_
1
n
n

i=1
_
x

i
x

i
_
_

1
_
1
n
n

i=1
_
x

i
x

i
_
_
_
_
_
1
onde = E
_
u
i
x

i
_
2
. Como o erro u e as covari aveis s ao independentes temos que o segundo
momento pode ser escrito da seguinte forma: E[u
i
]
2
E
_
x

i
_
2
=
2
u
_
+

_
, onde
2
u
= 1.
Assim e possvel obter a matriz de vari ancias e covari ancias populacional numericamente.
Para cada possvel percentual de corte obtemos para os par ametros o erro quadr atico m edio,
o qual apresentou um formato decrescente em func ao do corte utilizado.

E possvel notar que a escolha do percentual de corte e crucial para a obtenc ao de esti-
mativas consistentes. Newey e West (1987) sugerem para o caso de s eries temporais o corte
igual a T
1/3
, onde T e o tamanho da s erie. Assim como no caso apresentado, os autores argu-
mentam que a consist encia ocorre quanto maior for o corte proposto, entretanto, dependendo
da quantidade de observac oes, um corte muito alto pode ser redundante e um corte muito
baixo pode apresentar alto erro quadr atico m edio.
Na pr atica, estamos interessados em descobrir qual dever a ser o corte otimo, ou seja,
um percentual de corte que esteja pr oximo da assntota gerada pela curva do EQM versus
o percentual de corte. Entretanto, n ao se conhece usualmente a matriz de vari ancias e co-
vari ancias populacional dos par ametros. Desta forma uma proposta e a utilizac ao do Jackknife
espacial para a estimac ao do erro quadr atico m edio da matriz de vari ancias e covari ancias dos
par ametros para cada possvel percentual de corte, escolhendo, assim, o corte percentual que
seja o menor possvel mas que tamb em faca parte da assntota da consist encia do EQM.
Neste procedimento, cada polgono e deletado do conjunto de dados e uma matriz de
vari ancias e covari ancias e obtida. Ap os n passos, gera-se a estimativa do erro quadr atico
m edio para cada elemento da matriz calculando-se respectivamente a vari ancia das estimati-
vas e o quadrado do vi es m edio. Os gr acos gerados forneceram aproximadamente o mesmo
corte otimo, conhecidos os par ametros populacionais.
4. CONCLUS

OES A an alise espacial de dados e uma literatura relativamente recente com-
parada com os modelos cl assicos de regress ao e consequentemente ainda tem muito o que
ser desenvolvido e estudado.
Neste trabalho, simulou-se 1000 observac oes espacialmente correlacionadas com o intu-
ito de estudar como as estimativas das matrizes de vari ancias e covari ancias s ao alteradas
segundo crit erios de cortes nas dist ancias informativas e no caso de nenhuma correc ao.
Observou-se que o m etodo e muito sensvel tanto ` a escolha do corte quanto ` a dist ancia infor-
mativa m axima.
Apresentou-se tamb em uma proposta pr atica para a determinac ao do corte otimo segundo
crit erio estabelecido no texto, proposta essa que utiliza o m etodo de reamostragem Jacknife de
1 e 2 passos. Cabe ressaltar que essa proposta pode ser estendida ao Jackknife de k-passos,
onde k elementos s ao excludos da base de dados, entretanto, no caso de dados espacial-
mente correlacionados, sugere-se que essa exclus ao seja feita obedecendo os crit erios de
vizinhanca, mais especicamente, deve-se deletar as k observac oes mais pr oximas ou ainda
os polgonos de vizinhanca de ordem k.
O m etodo GMM espacial de Conley e capaz de corrigir a estrutura da matriz de vari ancias
e covari ancias na presenca de depend encia espacial, fornecendo assim, maior credibilidade
quanto a infer encia dos analistas que utilizam dados regionais em seus estudos. Entretanto,
encontrava-se em aberto na literatura qual deveria ser a dist ancia de corte do kernel. Este
texto supriu a lacuna antes existente uma vez que apresentou uma proposta metodol ogica
para a determinac ao do corte otimo para o modelo GMM espacial de Conley.
Associac ao Brasileira de Estatstica - XII EMR - Marco 2011

You might also like