You are on page 1of 16

CAP ITULO 2 MAPAS AUTO-ORGANIZAVEIS 2.

1 Redes Neurais Articiais

A Redes Neurais Articiais constituem-se em modelos computacionais paralelos baseados numa unidade atmica, o neurnio (Figura 2.1). Em geral, estes modelos possuem inspio o rao neurobiolgica, porm, na prtica, so algoritmos computacionais representando, ca o e a a de maneira bastante elementar, o mecanismo de funcionamento cerebral. Atualmente, existe uma extensa variedade de RNAs dispon veis.

FIGURA 2.1 Modelo bsico de um neurnio j com entrada xk , pesos sinpticos wj , a o a n de ativao J e sa f (J). vel ca da

As RNA so caracterizadas pela arquitetura, pela caracter a stca dos neurnios que as como pem e pela regra de treinamento usada para absoro do conhecimento. Cada neurnio o ca o j possui um vetor de dados de entrada xk = [1 , 2 , ..., n ]T , uma ativao interna J, ca uma funo de ativao f (J) e os pesos sinpticos wj = [wj1 , ..., wjd ]T , que conectam os ca ca a elementos de xk ao neurnio j. Existem variaes deste modelo bsico, assim como vrias o co a a funes de ativao. As RNAs so formadas pela combinao destas unidades bsicas. co ca a ca a As RNAs apresentam como vantagens as caracter sticas de adaptabilidade, generalizao ca e tolerncia a ru a dos, dentre outras (Haykin, 2001). Estas caracter sticas so extremaa mente importantes quando aplicadas a problemas geogrcos, dada a natureza complexa a 31

e ruidosa dos mesmos. Kohonen (2001) prope a diviso das redes neurais em trs categorias: redes de transfeo a e rncia de sinal, redes de transferncia de estado e redes competitivas. e e Nas redes de transferncia de sinais a sa da rede depender, unica e exclusivae da a mente, do valor de entrada. Estas redes so usadas para transformao de sinais. So a ca a exemplos deste tipo de rede aquelas alimentadas adiante, como os Perceptrons de Mlu tiplas Camadas - Multi-Layer Perceptron-MLP (Rumelhart et al., 1986) e as redes de funo de base radial - Radial Basis Function-RBF (Bishop, 1995). Essas redes so usaca a das como identicadores e classicadores de padres, controle, avaliao de dados de o ca entrada etc. As redes de transferncia de estado tm como base os efeitos de relaxao. A e e ca retroalimentao e a no-linearidade so tal que garantem que o estado de atividade ca a a rapidamente convirja para um de seus valores estveis. Os valores de entrada acionam a o estado inicial de atividade, a rede ento inicia o processamento at chegar no estado a e nal. So exemplos deste tipo de rede, as redes de Hopeld (Fausett, 1994) e a mquina a a de Boltzman (Haykin, 2001). As principais aplicaes destas redes so: como funo de co a ca memria associativa e em problemas de otimizao, embora tambm sejam usadas no o ca e reconhecimento de padres. o As redes de aprendizagem competitiva esto baseadas no processo competitivo de a aprendizagem entre suas unidades. Uma das principais aplicaes destas redes a descoco e berta de agrupamentos de dados. Esto inclu a das nesta categoria as redes SOM (Kohonen, 2001) e ART - Adaptative Ressonance Theory (Fausett, 1994). A aprendizagem competitiva um processo adaptativo onde os neurnios, numa rede neural articial, tornam-se e o gradualmente sens veis a diferentes categorias de entrada e a conjuntos de amostras num dom nio espec co do espao de entrada. Este trabalho de pesquisa concentrou-se nesta c ultima categoria, mais especicamente no SOM. Nas sees seguintes sero descritos com co a mais detalhes, a arquitetura, o algoritmo de aprendizagem e as aplicaes do SOM. co 2.2 Mapas Auto-Organizveis a

O Mapa Auto-Organizvel de Kohonen uma RNA com duas camadas (Kohonen, 2001): a e a camada de entrada I e a de sa U . A entrada da rede corresponde a um vetor no da d espao d-dimensional em , representado por xk = [1 , ..., d ]T , k = 1, ..., n, sendo n o c nmero de vetores de entrada. Cada neurnio j da camada de sa possui um vetor de u o da cdigo w, tambm no espao o e c
d

, associado ao vetor de entrada xk , wj = [wj1 , ..., wjd ]T .

32

Os neurnios da camada de sa esto interconectados por uma relao de vizinhana o da a ca c que descreve a estrutura do mapa. Por exemplo, na Figura 2.2 tem-se um mapa com a camada de sa U , bidimensional, retangular, de dimenses N xM . Nesta gura somente da o esto representados os vetores de cdigo w, conectados ao neurnio j. a o o O SOM foi idealizado a partir da analogia com a regio do crtex cerebral humano. a o Descobriu-se que esta parte do crebro aloca regies espec e o cas para atividades espec cas e que, para uma determinada ativao cerebral, o grau de ativao dos neurnios diminu ca ca o a a ` medida que se aumentava a distncia da regio de ativao inicial (Kohonen, 2001). a a ca

FIGURA 2.2 Exemplo de um Mapa Auto-Organizvel bidimensional N xM , com ena trada xk .

Existem diferentes topologias para estruturao de um Mapa Auto-Organizvel, sendo ca a que a estrutura mais comum a de duas dimenses. Na Figura 2.3 v-se uma rede SOM e o e unidimensional (a), uma rede bidimensional com organizao hexagonal dos neurnios, ca o com 6-vizinhos (b) e uma rede bidimensional com disposio retangular dos neurnios, ca o com 4-vizinhos (c). Desde o seu surgimento, em 1982, o SOM vem sendo aplicado numa ampla variedade de problemas de engenharia, medicina etc. Destacam-se as potencialidades de visualizao ca de dados multivariados, anlise de agrupamentos, minerao de dados, descoberta de a ca conhecimento e compresso de dados (Kohonen, 2001). a

33

FIGURA 2.3 Diferentes topologias para estruturao dos mapas auto-organizveis: a) ca a unidimensional; b) bidimensional hexagonal; c) bidimensional retangular. 2.2.1 Aprendizagem padro ou sequencial a

O algoritmo bsico de treinamento do SOM consiste de trs fases. Na primeira fase, a e competitiva, os neurnios da camada de sa competem entre si, segundo algum critrio, o da e geralmente a distncia Euclideana, para encontrar um unico vencedor, tambm chamado a e de BMU (Best Match Unit). Na segunda fase, cooperativa, denida a vizinhana deste e c neurnio. Na ultima fase, adaptativa, os vetores de cdigo do neurnio vencedor e de sua o o o vizinhana so ajustados. c a A relao de vizinhana entre os neurnios estabelecida segundo alguma funo. O ca c o e ca principal objetivo da funo de vizinhana controlar o n de atuao dos neurnios em ca c e vel ca o torno do neurnio vencedor do processo competitivo. Seguindo o modelo neurobiolgico o o tem-se que o n de atuao dos neurnios vizinhos decai ` medida que o mesmo se vel ca o a distancia do BMU. Seja hj,i a vizinhana topolgica centrada no neurnio i e com um conjunto de neurnios c o o o cooperativos J, j J. Seja di,j a distncia lateral entre o neurnio vencedor i e o neurnio a o o j. Para que hj,i atenda aos requisitos neurobiolgicos, a mesma tem que ser simtrica em o e relao ao ponto de valor mximo (di,j = 0), e hj,i deve decair monotonicamente com o ca a aumento da distncia lateral (di,j ), decaindo para prximo de 0 quando di,j . a o A funo gaussiana hj,i = exp d2 /2 2 satisfaz estas exigncias e invariante ` transca e e a i,j lao. representa o raio da vizinhana topolgica e o grau que os neurnios vizinhos ca c o o do BMU participam do processo de aprendizagem adaptativa. A rede SOM converge mais rapidamente com este tipo de funo de vizinhana (Lo et al., 1991; Erwin et al., ca c 1992; Lo et al., 1993). (t) denido como uma funo monotonicamente decrescente e ca em funo do tempo (pocas), (t) = (0)exp(t/i ), sendo i uma constante. ca e

34

Seja o conjunto dos padres de entrada composto por xk , k = 1, ..., n, tem-se o algoo ritmo de aprendizagem padro ou seqencial, como segue: a u a) Os vetores de cdigo, wj = [wj1 , ..., wjp ]T , so iniciados linearmente (ver apno a e dice A). b) Para cada poca t e 1) Para todo xk , k = 1, ..., n, para o tempo discreto t, encontre o neurnio vencedor c segundo a distncia Euclideana: o a c = argminj { xk wj )} , j = 1, ..., m (2.1)

onde m corresponde ao numro de neurnios na rede. A ordem de e o apresentao dos padres deve ser aleatria. ca o o

2) Os vetores de cdigo wj do neurnio vencedor e dos seus vizinhos so, o o a ento, atualizados segundo a equao: a ca wji (t + 1) = wji (t) + (t) h (t) [xik (t) wij (t)] (2.2)

onde (t) uma funo que determina a taxa de aprendizagem na e ca iterao t e h (t) a funo que determina a vizinhana entre o neurnio ca e ca c o vencedor c e seus vizinhos. 2.2.2 Aprendizagem em lote

O algoritmo de aprendizagem em lote difere da aprendizagem seqencial quanto ` forma u a de atualizao dos vetores de cdigo, na ausncia da taxa de aprendizagem (t) e na ca o e no obrigatoriedade de apresentao aleatria dos padres. Neste algoritmo, os vetores a ca o o de cdigo so atualizados ao nal de cada poca. Em cada passo (poca) o conjunto de o a e e dados particionado de acordo com as regies de Voronoi dos vetores de cdigo do Mapa e o o neural, denido segundo o critrio de proximidade do vetor de cdigo com o conjunto de e o dados. Os vetores de cdigo w podem ser atualizado a partir das equaes que seguem o co (Vesanto, 2000):
nVi

si (t) =
j

xj

(2.3)

35

onde si representa o somatrio dos padres relativos ` regio de Voronoi Vi e nVi correso o a a ponde ao nmero de amostras do conjunto de Voronoi do neurnio i. u o
m j hji (t) sj (t) m j nVj hji (t)

wi (t + 1) =

(2.4)

Em virtude da ausncia do parmetro de aprendizagem (t) e do bom desempenho do e a algoritmo em lote (Costa, 1999; Vesanto, 2000) decidiu-se optar pelo mesmo no decorrer deste trabalho. A ausncia deste parmetro e a independncia do resultado quanto ` e a e a ordem de apresentao dos padres facilitam o processo de anlise por usurios no ca o a a a muito experientes na anlise com SOM. a 2.2.3 Consideraes sobre o treinamento do SOM co

Para o algoritmo de aprendizagem seqencial as apresentaes dos padres tm de ser u co o e de forma aleatria, para que seja garantida a uniformidade de apresentao de todos os o ca xk . Para o algoritmo em lote no existe esta restrio. a ca Dene-se uma poca como a apresentao completa do conjunto de padres ` rede. e ca o a A normalizao dos dados de entrada e vetores de cdigo no obrigatria (Demartines ca o a e o e Blayo, 1992), mas pode ser feita segundo a Equao 2.5, seja i o componente i do ca padro xk , ento: a a

i = i / xk

(2.5)

O processo competitivo o mais custoso em processo de treinamento. Geralmente tratae se de uma busca seqencial pelo neurnio vencedor. Este processo pode ser otimizado u o usando-se algum mecanismo heur stico para minimizar a busca (Costa, 1999), ou por meio da paralelizao do algoritmo (Openshaw e Turton, 1996). ca A determinao dos parmetros de aprendizagem em geral emp ca a e rica, fortemente baseada na experincia do usurio e em mtodos de tentativa e erro. Porm, algumas tcnicas e a e e e de determinao automtica dos parmetros de aprendizagem tm sido propostas, seja ca a a e por meio de algoritmos genticos (Silva e Rosa, 1999), ou mtodos numricos (Haese, e e e 1998; Haese e Goodhill, 2001). A taxa de aprendizagem (t), Equao 2.2, deve assumir ca um valor pr-xado, (0) < 1, e deve decair com o tempo t at um valor prximo de zero. e e o Analogamente, a funo de vizinhana h(t) tambm deve assumir um valor pr-xado, ca c e e h(0), adequado de forma que maximize a qualidade da formao do mapa. ca 36

A dimensionalidade do mapa auto-organizvel e seu tamanho (m) dependero do tipo a a de problema e propsito. A literatura mostra que a determinao do tamanho do SOM o ca um processo emp e rico (Flexer, 2001; Kohonen, 2001). Em geral, o SOM bidimensional N xM usado devido sua capacidade de projeo dos dados de dimenso p num Mapa e ca a bidimensional. Este trabalho est baseado unica e exclusivamente neste tipo de Mapa. a O tamanho da amostra de treinamento tambm auxilia o processo de deciso sobre o e a tamanho do Mapa. Para grandes volumes de dados, Mapas razoavelmente grandes so a mais adequados. Todavia, grandes Mapas comprometem o desempenho do algoritmo e Mapas muito pequenos comprometem a integridade da formao topolgica do SOM ca o (Costa, 1999; Flexer, 2001; Kohonen, 2001; Park et al., 2003). 2.2.4 Avaliao da qualidade da aprendizagem ca

Existe um conjunto razovel de mecanismos de avaliao da qualidade do Mapa gerado a ca aps o processo de aprendizagem. Escolheu-se duas destas mtricas, o erro da quantizao o e ca vetorial e o erro topolgico (Kohonen, 2001). o O erro de quantizao (Eq ) corresponde ` mdia do erro correspondente ` diferena ca a e a c entre o vetor de caracter sticas xk e o vetor de cdigo wBM U , vetor de cdigo vencedor o o no processo competitivo para o padro xk : a
n k=1

Eq =

xk wBM U n

(2.6)

O erro topolgico (Et ) procura avaliar o quanto a estrutura da grade aproxima padres o o prximos no espao de entrada. Considerando que, para cada padro xk tem-se o BMU o c a como o primeiro neurnio na ordem de competio na grade, o BMU2 corresponder ao o ca a segundo neurnio nesta escala. Assim, o erro topolgico corresponder ao percentual de o o a padres cujo BMU e BMU2 no so vizinhos na grade: o a a
n

1 Et = n

u(xk )
k=1

(2.7)

onde u(xk ) corresponde a 1, se o BMU e BMU2 no so vizinhos, e 0 caso contrrio. a a a 2.2.5 Propriedades

Uma vez conclu o processo de aprendizagem da rede SOM, o mapa de cdigos gerado, do o representado pelos vetores wj , mostrar caracter a sticas importantes do espao de entrada. c 37

Vejamos algumas delas (Kaski, 1997; Haykin, 2001; Kohonen, 2001): Propriedade 1. Ordenao topolgica. O mapa de caracter ca o sticas calculado pelo algoritmo SOM ordenado topologicamente, no sentido de que a localizao espacial de um e ca neurnio na grade corresponde a um dom o nio particular ou caracter sticas dos padres o de entrada. O inverso nem sempre verdadeiro. e Propriedade 2. Casamento de densidade. O mapa de caracter sticas reete variaes na co estat stica da distribuio da entrada, embora a distribuio das unidades do SOM no ca ca a seja exatamente a mesma da distribuio dos dados amostrais (para SOM 1D a densidade ca das unidades de sa proporcional a p(xk )2/3 em torno do ponto xk ). da e Propriedade 3. Seleo de caracter ca sticas. Pode-se armar que os Mapas AutoOrganizveis fornecem uma aproximao discreta das assim chamadas curvas principais, a ca e podem, portanto, ser vistos como uma generalizao no-linear da anlise de compoca a a nentes principais. Este trabalho baseou-se nessas propriedades para, atravs de mtodos distintos, proceder e e a a ` anlise exploratria de dados geoespaciais multivariados. o 2.3 Visualizao do Mapa Auto-Organizvel ca a

Aps o processo de aprendizagem do Mapa necessrio que se possa vericar visualmente o e a o resultado da ordenao topolgica. Destacam-se trs formas de representao visual. ca o e ca A primeira forma usa os vetores de cdigo como coordenadas no espao d-dimensional. o c Este processo pode ser aplicado quando d 3. A segunda forma atravs da matriz de e e distncia entre os vetores de cdigo. Esta matriz, em especial a matriz de distncia unia o a cada (Ultsch, 1993), pode ser analisada como uma imagem, o que facilita o processo de anlise. A terceira forma, os Planos de Componentes, usa os valores de cada componente a dos vetores de cdigo para colorir o Mapa Auto-Organizvel. Este mtodo permite que o a e seja avaliada a distribuio do componente no Mapa, aps a aprendizagem. ca o 2.3.1 Representao dos vetores de cdigo no espao ca o c
d

Para o caso onde os vetores de cdigo possuem dimenso d, menor ou igual a 3, pode-se o a usar os seus valores como coordenadas no espao d para visualizao da organizao c ca ca dos neurnios. Dado o conjunto de dados da Figura 2.4 (` esquerda), onde d = 3, correso a pondente a dois torides que formam um elo de corrente. Treinando-se uma rede 15x15 o hexagonal com aprendizagem em lote, pode-se visualizar o resultado nal do treinamento, usando os valores dos vetores de cdigo como coordenadas no espao o c 38
3

, Figura 2.4

(` direita). a

FIGURA 2.4 Do lado esquerdo tem-se os dados, sendo dois conjuntos de dados formando um elo de corrente; do lado direito tem-se a estrutura nal do SOM, aps treinamento, usando os valores dos vetores de cdigo, como o o 3 coordenadas no espao . c

Existem outras formas de projeo dos valores dos vetores de cdigo no espao 2 como ca o c atravs do mapa de Sammon ou atravs de outros mtodos de projeo (Kaski et al., e e e ca 1999; Kohonen, 2001). Todavia, estes mtodos no foram tratados neste trabalho. e a 2.3.2 Histograma

Os dados podem ser projetados no Mapa pesquisando-se, para cada xk , o seu respectivo BMU. A freqncia de ocorrncias de BMUs para um dado neurnio gera um histograue e o ma que reetir o n a vel de atividade H(i) deste neurnio. Destacam-se dois tipos de o histogramas, aquele que registra o nmero de BMUs aps a fase de aprendizagem e o u o que registra a freqncia de ocorrncias nesta fase. Ambas abordagens so uteis, todavia ue e a neste trabalho o n de atividade H(i) referir-se- ao primeiro tipo de histograma. vel a 2.3.3 Planos de Componentes

Para que se possa ter uma noo de como cada componente do vetor de caracter ca stica xk organizou-se no Mapa treinado, usa-se algum mtodo de colorao do SOM baseado nos e ca valores de cada componente. Para um dado componente j, de um Mapa bidimensional M xN , gera-se uma imagem f (x, y) com dimenses iguais `s do Mapa M xN , onde cada o a pixel corresponder ao valor do componente j na posio (x, y). Para imagens em escalas a ca de cinza pode-se convencionar o branco para valores mximos, preto para valores m a nimos e tons de cinza para valores intermedirios. a

39

2.3.4

Matriz de distncia unicada (U-Matriz) a

A matriz de distncias unicada, U-matriz (Ultsch, 1993), tem o objetivo de permitir a a deteco visual das relaes topolgicas entre os neurnios. Usa-se a mesma forma de ca co o o clculo de distncia usada no treinamento, distncia Euclideana, para calcular a distncia a a a a entre os vetores de cdigo dos neurnios adjacentes. O resultado gerado a partir da o o aplicao da U-matrix sobre o Mapa uma imagem f (x, y) onde o n de intensidade ca e vel de cada pixel corresponde a uma distncia calculada. Um Mapa 2-D N XM gera uma a imagem (2N 1)X(2M 1). Dado um Mapa bidimensional hexagonal encontra-se a U-matriz calculando-se as distncias dx, dy e dz (Figura 2.5), para cada neurnio. O valor du da U-matriz calculado a o e em funo dos valores dos elementos circunvizinhos do neurnio relativo ao du. O valor ca o du pode ser a mdia, mediana, valor mximo ou m e a nimo destes valores. O processo e anlogo para o caso de uma rede bidimensional retangular. a

FIGURA 2.5 Representao dos componentes da U-matriz dx, dy, dz e du para uma ca rede 3x3 hexagonal. Os c rculos representam os neurnios e os quadrados o representam os valores dos componentes.

A matriz de distncia unicada pode ser interpretada como uma imagem atravs da a e colorao dos pixels de acordo com a intensidade de cada componente da matriz. Valores ca altos correspondem a neurnios vizinhos dissimilares e valores baixos correspondem a o neurnios vizinhos similares. Regies com baixos valores do gradiente correspondem a o o vales que agrupam neurnios especializados em padres similares. Regies com valores o o o altos correspondem a fronteiras entre agrupamentos. Pelo fato da U-matrix gerar uma imagem relativamente complexa (Figura 2.6), sua principal aplicao a visualizao do mapa para separao manual dos agrupamentos. ca e ca ca 40

Porm, j existe alguma iniciativa para deteco automtica dos agrupamentos por meio e a ca a de tcnicas de processamento desta imagem (Costa, 1999; Costa e de Andrade Netto, e 2001).

FIGURA 2.6 Exemplo de gerao da imagem relativa a U-matriz, a partir de uma rede ca 3x3 hexagonal.

A U-matriz um mtodo cujo objetivo permitir a deteco visual das relaes topole e e ca co o gicas dos neurnios (Ultsch, 1993). Esta tcnica extremamente util quando se tem os o e e vetores de cdigo com dimenso maior que 3. Para estes casos no se pode representar o a a gracamente, ou pelo diagrama de Voronoi ou por superf cies de inuncia, a organizao e ca nal dos neurnios. o 2.4 Anlise exploratria de dados com Mapas Auto-Organizveis a o a

A anlise exploratria de dados consiste na busca por padres em dados amostrais a a o o partir de tcnicas de visualizao e de anlise de agrupamentos, dentre outras. Para o e ca a caso de problemas estatisticamente bem conhecidos, quanto maior o volume de dados amostrais melhor a acurcia da anlise. Para problemas complexos esta tarefa torna-se a a dif e exige que vrios mtodos sejam avaliados at que se chegue a algum resultado cil a e e conclusivo. Este trabalho baseou-se em trabalhos que aplicaram, de formas distintas, as propriedades dos Mapas Auto-Organizveis na anlise exploratria de dados (Kaski e a a o Kohonen, 1996; Kaski, 1997; Vesanto, 1997; Vesanto e Ahola, 1999; Vesanto, 1999; Kaski et al., 1999; Vesanto, 2000; Kohonen, 2001). Os estgios da anlise exploratria de dados com SOM compreendem a escolha do cona a o junto de dados, o pr-processamento dos dados, a parametrizao da rede e escolha de e ca bons Mapas neurais e a interpretao dos resultados (Kaski e Kohonen, 1996). Todas ca estas fases so cr a ticas e relevantes para a gerao de resultados conveis (Figura 2.7). ca a

41

FIGURA 2.7 Fluxograma do processo de anlise exploratria de dados com SOM. a o Todavia, destaca-se aqui a tarefa de interpretao dos resultados como a mais dif em ca cil, funo das variadas formas de anlise dispon ca a vel. 2.4.1 Seleo dos dados ca

A seleo dos dados a serem analisados depender da natureza do problema. O cuidado ca a nas fases de formulao do problema e seleo dos componentes de extrema importncia ca ca e a e segue os mesmos preceitos daqueles usados em qualquer tipo de anlise exploratria. a o 2.4.2 Pr-processamento e

Existem diversas tcnicas para pr-processamento do conjunto amostral de dados. Cada e e uma delas possui objetivo distinto e depende do dom nio do problema. Dentre os pre processamentos mais usados em conjunto com o SOM destacam-se a normalizao, a ca marcao de valores ausentes e a remoo de valores at ca ca picos. 2.4.3 Congurao da rede e seleo do Mapa ca ca

Assim como nas etapas anteriores, toda a parametrizao do Mapa Auto-Organizvel ca a depender do tipo de aplicao. Classicao de padres, controle, visualizao, deteca ca ca o ca ca o de agrupamento, cada tarefa exige que uma anlise posterior seja conduzida at que a e se chegue ` congurao ideal da rede neural. Como se aplicou somente o SOM bidimena ca sional, hexagonal, com funo de vizinhana gaussiana, com aprendizagem em lote, os ca c comentrios estaro restritos ` parametrizao relativa a este tipo de rede neural. Para a a a ca este tipo de rede precisa-se denir as dimenses da rede M xN , o raio inicial da funo o ca de vizinhana e o nmero de pocas do processo de aprendizagem. c u e 42

Uma forma de se avaliar a qualidade do Mapa atravs das medidas dos erros de quane e tizao e topolgico. Ou seja, para cada congurao de rede tem-se valores distintos ca o ca destes erros. Assim, pode-se construir dois grcos em a
2

, ambos tendo nos eixos das

ordenadas as conguraes de rede avaliadas e nos eixos das absissas os valores dos erros co de quantizao e topolgico. As redes candidatas sero aquelas com os menores valores ca o a para ambos os erros. Embora este seja um processo vlido, existem limitaes prticas a co a para o seu uso, como, por exemplo, a irregularidade da curva do erro topolgico. o Uma outra forma para determinar os parmetros iniciais da rede observar a formao a e ca nal do Mapa atravs de algum mtodo de visualizao. A U-matriz um dos mtodos e e ca e e mais completos para esta anlise. Todavia, observa-se que, para problemas complexos, a redes pequenas no conseguem exprimir, atravs da U-matriz, a estrutura do conjunto de a e dados amostrais (Costa e Netto, 2003). Porm, quanto maior a rede, melhor a U-matriz e exprime a estrutura real do conjunto de dados (Ultsch, 1999). Pode-se, tambm, usar e algum tipo de ndice de avaliao para o Mapa nal gerado. Para o caso de separao ca ca automtica do conjunto de dados em agrupamentos distintos pode-se usar alguma ma e trica de validao de particionamento de dados para vericar a eccia da rede neural. ca a Neste trabalho usou-se estas trs tcnicas para avaliao dos Mapas nas diferentes fases e e ca do processo de anlise exploratria dos dados geoespaciais. a o 2.4.4 Interpretao do Mapa neural ca

Neste trabalho o SOM usado para tarefas espec e cas como: deteco de dados at ca picos, anlise de componentes, anlise da distribuio espacial do fenmeno estudado, a a ca o deteco automtica de agrupamentos e anlise da dependncia espacial. As tcnicas do ca a a e e uso do SOM para a Anlise Espacial sero estudadas no Cap a a tulo 4. Nesta seo ser ca a abordado somente o uso do SOM para deteco de dados at ca picos, anlise de correlao a ca e signicncia de componentes e anlise simples de agrupamentos. a a 2.4.4.1 Deteco de dados at ca picos

Dados at picos identicados pelo SOM so, em geral, os mesmos detectados por proa cedimentos estat sticos como anlise de fatores e o k-mdias (Morlini, 1998?; Muoz e a e n Muruzbal, 1998). Isto deve-se ao fato de que os vetores de cdigo correspondem a uma a o aproximao da densidade dos dados de entrada; logo, tem-se que o problema de deteco ca ca de dados at picos no conjunto amostral de dados pode ser transferido para a deteco de ca dados at picos no conjunto de vetores de cdigo da grade de neurnios. o o Vetores de cdigo at o picos podem ser observados de diversas maneiras. Destacam-se os

43

mtodos de Morlini (1998), que usa a distncia mdia, para cada neurnio, do vetor de e a e o cdigo analisado para os seus vizinhos, identicando o vetor at o pico atravs dos maioe res valores para esta mdia, e de Muoz e Muruzbal (1998) que dene um uxo de e n a passos que devem ser seguidos para se detectar dados at picos num conjunto de dados, baseado em ferramentas auxiliares ao Mapa Auto-Organizvel. Uma outra forma de ana a lise atravs do uso da U-matriz, onde os vetores at e e picos so identicados por regies a o pequenas e separadas das demais regies por reas de transio. o a ca Justica-se o uso do SOM para a deteco de dados at ca picos devido ao fato de que este mtodo computacionalmente barato, de fcil interpretao e no est baseado em e e a ca a a modelos espec cos. O SOM robusto o suciente para gerar, a partir de congurae co es distintas, os mesmos resultados quanto ` identicao de vetores de cdigo at a ca o picos (Morlini, 1998?). 2.4.4.2 Anlise de componentes a

Durante o processo de aprendizagem os vetores de cdigo se aproximaro discretamente o a dos padres de entrada, mantendo a ordenao topolgica dos mesmos. Ou seja, estes o ca o vetores de cdigo so uma aproximao da distribuio de densidade dos padres de o a ca ca o entrada. A visualizao desses vetores de cdigo podem auxiliar no entendimento e na ca o contribuio de cada componente. Esta visualizao est relacionada com a anlise de ca ca a a componentes principais e est diretamente relacionada ` discriminao da inuncia de a a ca e cada componente no Mapa neural (Kohonen, 2001). Para analisar a contribuio de ca cada componente na formao dos agrupamentos do Mapa aps a aprendizagem usa-se ca o os Planos de Componentes. Os Planos de Componentes vm sendo amplamente usados e nesta tarefa (Kaski e Kohonen, 1996). Vesanto e Ahola (1999) propem um mtodo o e automtico para busca de componentes correlacionados. Este mtodo no foi usado neste a e a trabalho devido ao mesmo s se aplicar para um nmero muito grande de componentes o u a serem analisados. 2.4.4.3 Anlise simples de agrupamentos a

Um expediente comum na anlise de agrupamentos, usando o SOM, denir o nmero de a e u neurnios como o nmero de agrupamentos poss o u veis (Ultsch, 1993). Aps o treinamento o da rede, cada neurnio estar associado a um grupo de vetores de entrada. Embora seja o a um mtodo vlido, j que se trata de uma anlise exploratria de dados, este procedie a a a o mento impe uma restrio sobre a estrutura dos agrupamentos, pois assume-se uma o ca estrutura hiperesfrica para cada grupo de dados. Este mtodo aplicado para o caso e e e de redes pequenas, pois a separao manual de padres nessas redes mais fcil e menos ca o e a 44

trabalhosa. 2.5 Sumrio a

Os Mapas Auto-Organizveis so estruturas neurais articiais formuladas sobre o cona a ceito de auto-organizao de unidades bsicas (neurnios) segundo algum processo de ca a o aprendizagem competitiva. A escolha da topologia e do mecanismo de aprendizagem dependem de fatores como tipo do dado a ser analisado, grau de generalizao desejado, ca tipo de aplicao etc. So propriedades do SOM a ordenao topolgica, casamento de ca a ca o densidade e seleo de caracter ca sticas. Em funo das razes expostas neste cap ca o tulo foi denida como rede de trabalho o Mapa neural bidimensional, com disposio hexagonal da grade de neurnios, funo de vizica o ca nhana gaussiana e aprendizagem em lote. A avaliao dos Mapas ser de acordo com c ca a as medidas do erro de quantizao e topolgico. ca o Visualizao e anlise de agrupamentos so as principais aplicaes dos Mapas Autoca a a co Organizveis. Dentre as tcnicas existentes de visualizao foram usadas neste trabalho a e ca a U-matriz e os Planos de Componentes. Para anlise de agrupamentos ser usado um a a mecanismo de deteco automtica de agrupamentos exposto no Cap ca a tulo 3. Embora as ferramentas relacionadas com o SOM para anlise exploratria de dados a o sejam numerosas, as mesmas no cobrem todo o espectro de Anlise Espacial de Dados a a em Area. Um outro fator a ser analisado o quo automtico o processo pode ser para e a a que qualquer usurio do SOM possa proceder com a anlise, sem grandes esforos de a a c entendimento e interpretao dos resultados. ca Os trs prximos cap e o tulos abordam temas relativos a essas questes. O Cap o tulo 3 dedicou-se ` pesquisa de mtodos automticos de deteco de agrupamentos. Adaptaes a e a ca co e uso das tcnicas de anlise exploratria com o SOM foram extendidas no Cap e a o tulo 4, onde foram propostas tcnicas para proceder a Anlise Espacial de Dados em Area com e a o SOM. No Cap tulo 5 deu-se especial ateno aos mtodos de acesso ` base de dados ca e a geogrca, de forma a tornar ainda mais fcil o acesso e posterior anlise de dados a a a geogrcos. a

45

46