Professional Documents
Culture Documents
=
)
`
=
n
i
T
p
Y y Y y
h
k
nh
(y) g
i i
p
1
2 2 /
2
1
) 2 (
1
,
onde k(
.
) a funo ncleo normal. Aps encontrar as estimativas de h
i
, estima-se a funo de
densidade de X, atravs da transformao inversa, isto :
| C | ) CX ( g ) x ( f
= ,
onde g a funo de densidade de Y e | C | denota o determinante da matriz C. Usando este
procedimento, e estimando a matriz de covarincias
pxp
pela matriz de covarincias amostral
pxp
S , o
ncleo estimador da funo de densidade multivariada do vetor X avaliada em x=(x
1
, x
2
, ..., x
p
),
considerando h
i
= h, i=1,2, ..., p, dado por:
( ) ( )
)
`
=
n
i
T
p
/
X x S X x
h nh
|S|
(x) f
i i
p
1
1
2 1
2 2 /
2
1
exp
) 2 (
.
Quando supusermos os parmetros de suavidade h
i
diferentes para cada varivel i, teremos:
(
(
|
|
\
|
|
|
\
|
=
=
n
i i
i
i
i
i
p
h
X x
S
h
X x
h n
S
x f
T
n
i
1
2 /
2
1
- exp
) 2 (
| |
) (
1
1
2 / 1
.
3. Escolha da Janela tima
Para se estimar a funo de densidade multivariada pelo mtodo do ncleo estimador, necessita-
se encontrar os valores de h
i
, i=1, 2, ..., p, que otimizem a estimativa da funo de densidade. Com
isso, tem-se uma grande procura pela implementao de mtodos automticos para a escolha de h
i
. A
busca da janela tima h
i
para a estimao da funo densidade multivariada pelo mtodo do ncleo
feita pelo mtodo univariado existente na literatura, uma vez que o propsito da transformao de Y
tornar as novas variveis no-correlacionadas, de modo que a otimizao da janela possa ser feita para
cada varivel individualmente. Dentre os vrios mtodos de seleo de h abordados na literatura,
encontram-se o mtodo plug-in modificado e o mtodo estabilizado de validao cruzada para
variveis aleatrias univariadas (Chiu, 1991). Neste artigo utilizamos apenas o mtodo plug-in
modificado o qual ser brevemente descrito na seo a seguir.
3.1. Medidas de Discrepncia
Estudos tm sido feitos relacionados escolha da janela tima para apenas uma varivel X com
funo de densidade f(.), tendo como o objetivo encontrar uma medida de discrepncia mnima e que
mantenha um equilbrio entre a varincia e o vcio. Uma medida global de discrepncia muito usada
o erro quadrtico mdio integrado (EQMI), e pode ser rescrita em funo do vcio quadrtico
integrado e da varincia integrada definida por:
( ) ( )
|
\
|
+ + + =
nh
h o dt t k
nh
dx x f k h EQMI
1
) (
1
) (
4
1
4
2 2
" 2
2
4
4
A partir dessa relao, o valor de h que minimiza o EQMI dado por:
( ) ( )
5 / 1
5 / 1
2 ' '
5 / 1
5 / 2
2 otimo
)) ( ( ) (
= n dx x f dt t k k h ,
onde
= dt ) t ( k t k
2
2
. A idia do mtodo plug-in modificado aproximar o nico termo desconhecido
( )
=
2
' '
) (x f G por:
d
n
G
\
|
=
0
2 4
1
| ) (
~
|
1
,
onde (.)
(
a funo caracterstica de X. Desta forma o estimador pelo mtodo plug-in modificado da
janela tima definido como:
( )
( )
5 / 1
p
"
p
'
p
(
(
+ = n
A
R
h
n
n
p
onde:
{ } { }
5 / 1
5 / 2
2
5 / 1
2
) ( ) (
= G dx x k x dx x k
P
,
)
`
= dx x k x dx x k x d
n
h n h R
n
) ( ) (
1
| ) (
~
| ) 24 ( ) (
~
4 2
0
2 6 6 5 / 2 1
e
{ } ) (
~
) ( ) (
) 4 ( ) (
~
2 1
2
2 4 1
h R dx x k h dx x k x G h h A
n n
+ =
.
Maiores detalhes sobre esse mtodo podem ser visto em Damasceno (2000).
4. Resultados
Com o objetivo de comparar o desempenho do ncleo estimador com os estimadores
multivariados paramtricos para densidades mutivariadas conhecidos na literatura, um pequeno estudo
simulado foi feito para a distribuio normal bivariada. Amostras de tamanhos iguais a n=40, n=100 e
n=1000 foram considerados para a implementao da metodologia do ncleo estimador e para a
estimao da janela
i
h de cada varivel, i=1,2. Conjuntos de teste de tamanhos m=50 e m=100 foram
usados para testar a metodologia, isto , estes conjuntos so gerados de acordo com a distribuio
normal bivariada e os valores reais da funo de densidade so comparados com a estimativa obtida
via ncleo estimador.
Os estimadores foram comparados em relao ao erro mdio, ao erro mdio absoluto, erro
quadrtico mdio e ao erro mdio relativo. Para a implementao computacional foi utilizado o
software S-Plus 2000
=
5 2
2 1
p p
. Estas amostras foram usadas para a estimao dos valores de h
1
-timo e
h
2
-timo. A determinao destas janelas foi feita usando-se as amostras transformadas pelo mtodo
descrito na seo 2. Na avaliao da qualidade de ajuste do mtodo do ncleo usou-se dois conjuntos
de testes com tamanhos m=50 e m=100 tambm gerados de acordo com a distribuio normal
bivariada especificada.
As
Tabela 1 e 2 apresentam os resultados obtidos para o caso em que m=50 e m=100
respectivamente. Nestes quadros FN denota a funo de densidade estimada pelo mtodo do ncleo,
5
FM a funo de densidade estimada pelo mtodo dos momentos e FMV a funo densidade estimada
por mxima verossimilhana. A Figura 1 apresenta os grficos gerados com os valores da funo de
densidade terica das m=50 observaes de teste bem como aqueles gerados com as estimativas da
funo densidade em cada mtodo de estimao discutido neste artigo. A Figura 2 apresenta os
grficos gerados com m=100. De acordo com estes resultados constatou-se que para pequenas
amostras os estimadores paramtricos foram melhores que o ncleo estimador. Para amostras maiores
(n 100) o ncleo estimador teve um comportamento melhor que os estimadores paramtricos.
Observou-se tambm que medida que o tamanho da amostra aumenta as estimativas das janelas
timas h
i
de cada componente tendem a ser similares. importante salientar que como os dados
gerados so normais j se esperava que os estimadores paramtricos apresentassem bons resultados. O
ponto relevante que o ncleo estimador apresentou resultados comparveis aos paramtricos e
qualidade superior para amostras maiores mostrando que pode ser um competidor para aquelas
situaes nas quais no se tem clareza de qual a forma matemtica da distribuio de probabilidades
que est gerando os dados amostrais. Finalmente, importante observar o efeito do tamanho de
amostra na construo do grfico da densidade da distribuio normal bivariada. Neste artigo o grfico
da distribuio terica foi feito com apenas 50 ou 100 observaes o que no caracteriza um tamanho
amostral adequado para se ver a superficie da distribuio normal original adequadamente uma vez
que os grficos gerados so bimodais. Para se ver a distribuio normal com mais propriedade
necessrio em torno de 400 a 500 observaes.
Tabela 1: Medidas de Desempenho dos Estimadores de Densidade - m=50.
Medidas de
Desempenho
Tamanho da
Amostra
FN
FM
FMV
40 0,016052 -0,001643 0,001322
Erro Mdio 100 0,016052 -0,017718 -0,016308
1000 -0,000131 0,002096 0,003096
40 0,022814 0,017515 0,017416
Erro Mdio Absoluto 100 0,016879 0,018735 0,017631
1000 0,001281 0,007194 0,007344
40 0,000820 0,000466 0,000449
Erro Quadrtico Mdio 100 0,000438 0,000494 0,000436
1000 0,000002 0,000008 0,000008
40 0,318589 0,300363 0,297589
Erro Mdio Relativo 100 0,304902 0,345070 0,323634
1000 0,023365 0,102619 0,091026
6
Tabela 2: Medidas de Desempenho dos Estimadores de Densidade - m=100.
Medidas de
Desempenho
Tamanho da
Amostra
FN
FM
FMV
40 0,014286 0,002094 0,004831
Erro Mdio 100 0,003713 0,003952 0,005019
1000 0,001049 0,001241 0,001126
40 0,017476 0,007486 0,008072
Erro Mdio Absoluto 100 0,010354 0,011102 0,010501
1000 0,001014 0,001517 0,001439
40 0,000628 0,000082 0,000102
Erro Quadrtico Mdio 100 0,000131 0,000141 0,000151
1000 0,000001 0,000003 0,000003
40 0,417187 0,148554 0,149276
Erro Mdio Relativo 100 0,232212 0,241907 0,244091
1000 0,028041 0,032042 0,030513
Funo de densidade terica
Yo ur t ext
Funo de densidade estimada
pelo mtodo do ncleo
Your t ext
h1-timo: 0.62194, h2-timo: 0.63416
Funo densidade estimada por
mxima verossimilhana
Y our t ext
Your t ext
Funo de densidade estimada
pelo mtodo dos momentos
Figura 1: Grficos de superfcie para as funes de densidade multivariadas, com a estimao da
janela h com n=40 observaes e o conjunto de testes m=50.
7
Your text
h1-timo: 0.46308,h2-timo:
0.48274
Funo de densidade estimada pelo mtodo do
ncleo
Your text
Funo densidade estimada
pelo mtodo dos momentos
Your text
Funo densidade
estimada por mxima
Figura 2: Grficos de superfcie para as funes de densidade multivariadas, com a estimao da
janela h com n=100 observaes e o conjunto de testes m=50.
Your
text
h1-timo:0.27902, h2-timo: 0.27256
Funo de densidade estimada pelo mtodo do
ncleo
Your
text
Funo de densidade
estimada pelo mtodo dos
momentos
Your
text
Funo densidade
estimada por mxima
verossimilhana
Figura 3: Grficos de superfcie para as funes de densidade multivariadas, com a estimao da
janela h com n=1000 observaes e o conjunto de testes m=50.
8
Funo de densidade terica
Yo ur t ext
h1-timo: 0.60992 h2-timo: 0.63391
Funo densidade estimada pelo mtodo do ncleo
Y our t ext
Funo de densidade estimada
pelo mtodo dos momentos
Your t ext
Funo densidade estimada
por mxima verossimilhana
Figura 4: Grficos de superfcie para as funes de densidade multivariadas, com a estimao da
janela h com n=40 observaes e o conjunto de testes m=100.
Funo densidade estimada pelo mtodo do ncleo
Your t ext
h1-timo: 0.48195 h2-timo: 0.47873
Y our t ext
Funo de densidade estimada
pelo mtodo dos momentos
Y our text
Funo densidade estimada
por mxima verossimilhana
Figura 5: Grficos de superfcie para as funes de densidade multivariadas, com a estimao da
janela h com n=100 observaes e o conjunto de testes m=100.
9
Funo densidade estimada pelo mtodo do ncleo
Your text
h1-timo: 0.27821, h2-timo: 0.27346
Y our t ext
Funo de densidade estimada
pelo mtodo dos momentos
Your t ext
Funo densidade estimada
por mxima verossimilhana
Figura 6: Grficos de superfcie para as funes de densidade multivariadas, com a estimao da
janela h com n=1000 observaes e o conjunto de testes m=100.
5. Simulao de Populao No-Normal
Este estudo avalia de forma mais completa o desempenho do mtodo de ncleo na estimao
de funes de densidades multivariadas, em situaes mais gerais de dados multivariados no normais.
Seja X e Y amostras aleatrias de tamanho n, onde X tem distribuio weibull com parmetros
e respectivamente e Y tem distribuio normal com parmetro X e 1. A funo de densidade
conjunta de X e Y dada por:
( )
2
2
1
1
2
1
) , (
y x
x
e e
x
y x f
\
|
|
|
\
|
=
Foram geradas 100 amostras aleatrias de tamanho n=25, n=50 e n=100 de acordo com a
distribuio weibull com parmetros 2,4 e 10 e a distribuio normal com desvio padro 1. Conjuntos
de testes de tamanhos m=100 foram usados para avaliar a metodologia. A Tabela 3 apresenta os
resultados das estimativas, FNI denota a funo de densidade estimada pelo mtodo do ncleo com
janelas timas iguais, FND denota a funo de densidade estimada pelo mtodo do ncleo com janelas
timas diferentes. A Tabela 4 apresenta medidas descritivas obtidas para os valores das janelas timas.
Ao avaliar esta metodologia em dados provenientes de populaes no normais pode-se observar que
as estimativas so bastante prximas dos valores tericos e satisfatrias tanto na simulao usando
janelas similares quanto janelas diferentes entre si.
10
Tabela 3. Medidas de Desempenho dos Estimadores de Densidade
Medidas
n =25
n=50 n=100
FNI FND FNI FND FNI FND
Erro Mdio 0,00353 0,00389 0,00260 0,00281 0,00213 0,00223
Erro Absoluto 0,00591 0,00627 0,00484 0,00501 0,00396 0,00409
Erro Quadrtico Mdio 0,00006 0,00006
0,00004 0,00004 0,00003 0,00003
Erro Absoluto Relativo 0,40030 0,43371 0,32660 0,34664 0,27402 0,28609
Tabela 4. Estatsticas descritivas para os parmetros de suavizao (h
i
)
Estatsticas
n =25
n=50 n=100
h
1
h
2
h
1
h
2
h
1
h
2
Mdia 0,7294 0,7169 0,5748 0,5790 0,4763 0,4753
Desvio Padro 0,0731 0,0763 0,0577 0,0461 0,0265 0,0339
Mnimo 0,4599 0,3998
0,3556 0,4007 0,3793 0,3669
Mximo 0,8060 0,8040 0,6431 0,6370 0,0,5303 0,5287
6. Consideraes Finais
Este estudo mostra que o ncleo estimador pode ser facilmente utilizado para a estimao de
funes de densidade multivariadas quando se utiliza o mtodo de transformao inversa proposto por
Fukunaga (1972). A simulao nos deu resultados promissores no sentido de que esta pode ser uma
metodologia com potencial para resolver problemas nos quais no se tem certeza sobre a forma
matemtica da funo de densidade geradora dos dados amostrais. O estudo mostra ainda que os
valores da janela tima so aproximadamente iguais com a qualidade da aproximao melhorando
medida que o tamanho da amostra aumenta. Este um resultado importante, pois pode diminuir o
tempo computacional exigido para a implementao do mtodo de estimao de h
i
nos casos em que o
nmero de variveis mais elevado. Neste caso, o problema seria simplificado escolhendo-se um
valor de h comum para todas as variveis. Este estudo, no entanto, apenas preliminar uma vez que
foi simulado um nico modelo normal bivariado. Futuramente, pretende-se, atravs de simulaes de
grande porte, avaliar de forma mais completa o desempenho do mtodo de ncleo na estimao de
funes de densidades multivariadas, em situaes nas quais se tm dados normais e em situaes
mais gerais de dados multivariados no-normais com diversas combinaes de parmetros.
Agradecimentos
Agradecemos CAPES Brasil e ao CNPq, pelo apoio financeiro que possibilitou a execuo deste
trabalho.
Referncias Bibliogrficas
(1) Atuncar, G.S. e Oliveira, P.J. (1999) Escolha da Janela tima em Estimao Funcional: Caso
Markoviano, Relatrio Tcnico, Departamento de Estatstica da UFMG.
(2) Atuncar, G.S. e Travassos, A.P.A. (1998) Implementao de Dois Mtodos de Escolha da
Janela tima em Estimao Funcional, Relatrio de Iniciao Cientfica, Departamento de
Estatstica da UFMG.
11
(3) Anderson, T.W. (1984) An introduction to Multivariate Statistical Analysis, 2
nd
ed. New
York:Wiley.
(4) Bowman, A. (1984) An alternative method of Cross-Validation for the Smoothing of Density
Estimates, Biometrics, (71) 353-360.
(5) Cooley, A. C, Maceachern, S.N. (1998) Classification via kernel produc testimators,
Biometrika, 85, 4, 823-833.
(6) Chiu, S.T. (1991) Bandwidth Selection for Kernel Density Estimation. The Annals of Statistics,
Vol. 33, 1883-1905.
(7) Damasceno, E.C. (2000) Escolha do Parmetro de Suavidade em Estimao Funciona,
Dissertao de Mestrado, Departamento de Estatstica da UFMG.
(8) Fukunaga, K. (1972) Introduction to Statistical Pattern Recognition, New York: Academic
Press.
(9) Hand, D. J. (1982) Kernel Discriminant Analysis. New York: Wiley.
(10) Johnson, R. A., Wichern, D.W. (2002) Applied Multivariate Statistical Analysis, 5
th
ed. New
Jersey.
(11) Rudemo, M. (1982) Empirical choice of histograms and kernel density estimators,
Escandinavian Journal of Statistics, 9, 65-78.
(12) Scott, D.W. (1992) Multivariate Density Estimation: Theory, Pratice, and Visualization. New
York: Wiley.
(13) Silverman, B.W. (1986) Density Estimation for Statistics and Data Analysis. Chapman and
Hall, London.
(14) Simonoff, J.S. (1996) Smoothing Methods in Statistics. Springer Series in Statistics.
(15) Travassos, A.P.A. (2003) Problemas de Fronteiras dos Ncleos Estimadores e suas
abordagens, Dissertao de Mestrado, Departamento de Estatstica da UFMG.
(16) Wand, M.P. & Jones. M.C. (1995) Kernel Smoothing Monographs on Statistics and Applied
Probability 60, Chapman and Hall.
(17) Woodroofe, M. (1970) On choosing a delta sequence, Annals of Mathematical Statistics, 41,
1665-1671.