• Nenhum resultado encontrado

Crescer Quando Necessário Grow When Required (GWR)

Modelos Anteriores Relevantes

3.6 Crescer Quando Necessário Grow When Required (GWR)

Normalmente as redes com topologia dinâmica vistas na literatura adicionam um nodo (ou uma camada de nodos) na posição onde o erro acumulado é alto, ou onde há alguma necessidade de ajuste topológico. Estes nodos são adicionados após um número fixo de iterações, baseados em um parâmetro (λ ) pré-definido. Com isto a rede cresce sempre numa mesma taxa, não importando como os dados estão sendo apresentados, e continuam crescendo até o algoritmo atingir um critério de parada. A alteração desta taxa é levemente modificada pelo critério que a rede possa ter estabelecido para a remoção de nodos.

O modelo GWR (Marsland et al., 2002) contorna estas limitações das redes com cresci- mento ao utilizar um novo critério para inserir e inicializar um nodo. Ao invés de adicionar o novo nodo para dividir a região de um nodo que esteja com a maior taxa de utilização, ou com o maior erro acumulado, adiciona-se o novo nodo sempre que a entrada não for respondida por um nodo pré-existente com uma precisão determinada, além de se considerar a freqüência de disparos deste nodo.

3.6.1 Algoritmo

Seja A o conjunto de nodos do mapa auto-organizável, e C ⊂ A × A o conjunto de conexões entre os nodos do mapa. Seja P(ξξξ ) a distribuição de probabilidade dos dados de entrada ξξξ . E finalmente, seja wio vetor de pesos do nodo i com dimensão D.

1. Inicialize o conjunto A com duas unidades n1e n2em posições wn1 e wn2 pertencentes

a RDaleatoriamente selecionadas de P(ξξξ ).

A = {n1, n2} (3.22)

Inicialize o conjunto de conexões C com o conjunto vazio.

C = /0 (3.23)

2. Gere um sinal ξξξ de entrada, de acordo com P(ξξξ ).

3. Para todo nodo i na rede, determine os nodos s1, s2∈ A tais que

||ws1− ξξξ || ≤ ||wi− ξξξ ||, ∀i ∈ A (3.24)

||ws2− ξξξ || ≤ ||wi− ξξξ ||, ∀i ∈ A − {s1} (3.25)

onde wié o vetor de pesos do nodo i.

4. Se ainda não existir, insira a nova conexão entre s1e s2em C :

C = C ∪ {cs1,s2} (3.26)

Existindo ou não a conexão previa, sua idade passa agora a ser zero: age(s1,s2)= 0

5. Calcule a atividade do melhor nodo s1:

a(s1) = exp (−||ξξξ − ws1||) (3.27)

6. SE (a(s1) < aT) E (hs1< hT) ENTÃO deve-se adicionar um novo nodo entre os dois nodos

melhores (s1 e s2), de acordo com os passos abaixo, onde a(s1) é a atividade do nodo s1 e hs1 é o descontador de disparos do nodo s1.

(a) Adicione o novo nodo r ao conjunto A :

A = A ∪ {r} (3.28)

(b) Crie o vetor de pesos para o nodo r como a média entre o sinal de entrada ξξξ e o melhor nodo s1:

wr = (ws1+ ξξξ )/2 (3.29)

(c) Insira conexões entre (r, s1) e entre (r, s2), e remova a conexão entre (s1, s2): C = C ∪ {cr,s1, cr,s2} (3.30)

C = C − {cs1,s2} (3.31)

SENÃO (não houve uma inserção de um novo nodo), adapte as posições do vencedor s1e seus vizinhos topológicos diretos em direção a ξξξ , por frações de εbe εnda distância total e de uma taxa definida sobre a freqüência de disparos (hi), respectivamente.

∆ws1 = εb× hs1× (ξξξ − ws1) (3.32)

∆wi= εn× hi× (ξξξ − wi), ∀i ∈ N (s1) (3.33) onde 0 < εn< εb< 1 e hi é uma taxa com decaimento, definida sobre a freqüência de disparos do nodo i.

7. Incremente a idade de todas as conexões que emanam de s1:

age(s1,i)= age(s1,i)+ 1, ∀i ∈ N (s1) (3.34) onde N (s1) é o conjunto dos vizinhos topológicos diretos de s1.

8. Reduza o descontador de disparos hs1 do nodo vencedor s1, e hide seus vizinhos diretos,

segundo: hs1(t) = h (0)S(t) αb (1 − exp(−αbt/tb)) (3.35) hi(t) = h(0)−S(t) αn (1 − exp(−αnt/tn)) (3.36)

onde hi(t) é uma função que decai exponencialmente quando o nodo i dispara mais freqüentemente, h(0) é a força inicial, normalmente h(0) = 1, S(t) é a força do estímulo, normalmente S(t) = 1, e as outras constantes na equação controlam o comportamento da curva, com valores sugeridos em: αb= 1, 05; αn= 1, 05; tb= 3, 33 e tn= 14, 3.

9. Remova as conexões com idade superior a amax. Se esta operação resultar em unidades que não possuem mais nenhuma conexão, remova-as também.

10. Continue a partir do passo 2até que algum critério de parada tenha sido atingido (por exemplo, o tamanho da rede, ou alguma medida de performance).

3.6.2 Discussão

A Figura (3.16) (a) apresenta a estrutura topológica da distribuição de probabilidade dos pa- drões de entrada. É esta estrutura que a rede GWR deve tentar representar e generalizar. Na mesma figura, na parte (b), tem-se uma primeira fotografia do comportamento da rede GWR após lhe serem apresentados 80 padrões. Na parte (c) a rede GWR está praticamente conver- gindo para a representação topológica que era seu objetivo, após 320 padrões apresentados.

Este exemplo mostra o comportamento da rede GWR para uma base de dados com distribui- ção uniforme. A rede GWR tem como principal característica criar nodos muito rapidamente, nas áreas em que há necessidade segundo seus critérios, que se resumem em responder afirmati- vamente a duas questões: (1) o nodo vencedor está longe do padrão atual? (2) o nodo vencedor tem disparado muito? Caso estas duas condições sejam satisfeitas, imediatamente um nodo é criado. Em caso contrário, uma resposta negativa para a condição (1) indica que o vencedor representou bem o padrão atual, portanto não há necessidade de se criar um novo nodo para representá-lo; e uma resposta negativa para a condição (2), indica que o nodo vencedor está sendo subutilizado, o que significa que em vez de se criar um novo nodo, pode-se treinar este nodo para que melhor represente o padrão em questão. Estas duas questões mostram o papel desempenhado pelo descontador de disparos e pela atividade dos nodos.

Para medir a performance da rede GWR, Marsland et al. (2002) utilizaram duas funções de custo distintas, de modo que a combinação destas restrições pudesse indicar uma rede com melhor desempenho. Além destas duas medidas de custo, os autores, através de uma adaptação da função de medição de topologia deVillmann et al.(1997), ΦMA , mostraram que a rede GWR atinge o nível de “perfeitamente preservadora de topologia”, mais precisamente, no exemplo dado, a rede GWR atingiu ΦMA (0) = 0, 0023.

Figura 3.16 (a) Áreas com probabilidade positiva de ocorrência de um padrão de entrada. (b) Estrutura da rede GWR após 80 padrões apresentados à rede. (c) Estrutura da rede GWR após 320 padrões apresentados à rede. Parâmetros da simulação: aT= 0, 99, εb= 0, 05 e εn= 0, 0006 (Marsland et al.,

2002).

muito distantes uns dos outros.

E1=

i

j<i Ci, j· ||wi− wj||2 (3.37) onde: Ci, j= (

1 para (i, j) conectados.

0 caso contrário. (3.38)

Pode-se observar, para o exemplo dado, a comparação da estimativa E1, entre o modelo GWR e o modelo GNG, na Figura (3.17) (a). Como se vê, a rede GWR rapidamente diminui o erro E1antes de 80 iterações, e a partir deste ponto permanece abaixo da GNG até 320 iterações. O que significa dizer que esta rede mantém os nodos vizinhos a uma distância pequena já durante o início do processo de execução.

A Equação (3.39) apresenta a segunda medida de custo. Esta função retorna uma avaliação da capacidade da rede de minimizar as distâncias entre os padrões de entrada e os nodos que os respondem. Para o caso de ν → ∞, a medida de custo leva em conta somente o nodo vencedor (caráter vencedor-leva-tudo). E2=

k

i ||ξξξ − w||2· e −ν·||ξξξk−wi||2

j e−ν·||ξξξ −wj||2 (3.39)

(a) (b)

Figura 3.17 (a) Medida de erro E1 para as redes GWR e GNG. (b) Medida de erro E2 para as redes

GWR e GNGU (Marsland et al.,2002).

lity). Para esta função de custo, as redes mostram resultados semelhantes, sendo que o modelo GWR estabilizou após 80 apresentações de padrões. O nível em que se estabilizou é determi- nado pelo limiar de atividade aTque permite a inserção de novos nodos.

(a) (b)

Figura 3.18 (a) Medida de erro E1e (b) E2para as redes GWR e GNGU (Marsland et al.,2002).

Mais nítida é a qualidade das respostas para as medidas de custo E1e E2definidas quando há uma mudança brusca na distribuição de probabilidade (ou mapa de entrada) que a rede deve aprender. Na Figura (3.18), por exemplo, há uma mudança no mapa de entrada exatamente

Figura 3.19 GNGU antes (a) e depois (b) da mudança no mapa de entrada. GWR antes (c) e depois (d) da mesma mudança.

a partir da apresentação do padrão de número 8000. Pode-se observar que o modelo GNGU mantém, no caso do E1, vizinhos mais distantes e por muito mais tempo que o modelo GWR. Para o E2, a medida de custo da distância entre o padrão entrado e o nodo vencedor que o respondeu, observa-se que um mínimo pico de erro para o modelo GWR, que rapidamente se molda para representar o novo mapa de entrada.

A Figura (3.19) mostra o momento da mudança no mapa de entrada. No período anterior aos 8000 padrões apresentados, estes se localizavam nos cantos superior-esquerdo e inferior- direito. Após a apresentação do padrão número 8000, os padrões seguintes se localizavam nos cantos superior-direito e inferior-esquerdo. A rede GNGU manteve por um certo período do treinamento algumas conexões entre áreas distintas, como se pode ver na Figura (3.19) (b).

3.6.3 Limitações do GWR

A rede GWR é robusta em relação a mudanças em seus parâmetros, porém possui mais parâme- tros a se ajustar que os modelos GCS e GNG. Não há necessidade de se ajustar um parâmetro λ que indica a taxa de crescimento, como no GNG e GCS, pois a rede cresce sob demanda. Porém ainda é necessário ajustar uma idade limite para o envelhecimento/morte de conexões amax, informação de difícil definição. Também se faz necessário o ajuste da taxa de ativação limite aT e do limite de disparos de um nodo hT que juntos definem a taxa de crescimento da rede e acabam por substituir de forma sutil o parâmetro λ .

Ao inserir novos nodos, o algoritmo GWR se baseia nas condições mostradas na Ta- bela (3.1). A condição 4, única aceitável para a criação de um novo nodo, configura a en-

Tabela 3.1 Condições para inserção de novo nodo no GWR.

Cond. Atividade Disparos Insere

1 Alta Baixo Não

2 Alta Alto Não

3 Baixa Baixo Não

4 Baixa Alto Sim

trada de um padrão que está distante do nodo vencedor e este nodo vencedor está com alta quantidade de disparos (ou baixa quantidade de não-disparos, conforme o algoritmo). Como o modelo GWR e também seus antecessores, não faz distinção sobre informações heterogêneas que possam compor a descrição de estados representada por seus nodos, ocorrem distorções nas informações quando os nodos são modificados segundo a Equação (3.29), que considera a média aritmética entre vetores, assumindo uma linearidade nos dados representados. Um outro problema de deformação dos dados surge na condição 3, quando o algoritmo decide que um nodo vencedor que está distante do padrão representado e tem disparado pouco, assim mesmo deve treinar e se mover em direção ao padrão de entrada para representá-lo. Sucessivos passos de adaptação seguindo a Equação (3.33) minimizam a distância Euclidiana entre o padrão de entrada e a informação contida no nodo, e por isso diminuem também o erro quando compu- tado levando em conta esta distância. Entretando, as informações heterogêneas contidas no nodo são modificadas de forma linear, e o fato de se ter um erro menor não corresponde mais à qualidade da informação armazenada.

Nas condições 1 e 2 da Tabela (3.1), como a atividade do nodo vencedor está alta, o nodo está representando bem o padrão e a adaptação que lhe é feita para se ajustar ao novo dado de entrada é pequena e provavelmente se relaciona a minimizar efeitos de ruídos, portanto não acarretam grandes distorções.

Como nos modelos anteriores mostrados, a inserção dos nodos é feita para minimizar o erro global do mapa topológico, ao utilizar médias e mover os nodos pelo mapa indiscrimina- damente ao adaptá-los. A preocupação está na representação do mapa, e não na representação dos estados e conexões do sistema a ser identificado.

O método de remoção das conexões do GWR considera a utilização da conexão durante o treinamento. Uma conexão é considerada utilizada quando um dado padrão de entrada ativa o nodos extremos da mesma, um dos nodos como o vencedor do cálculo de proximidade e o outro nodo como segundo colocado. Conexões não utilizadas por um limite definido são removidas. A utilização das conexões tem o termo nomeado como idade em sentido figurado,

e sua pouca utilização ocasiona o envelhecimento e morte. Como visto no GNG, o uso de idade para a remoção de conexões pode acarretar no esquecimento de estados do sistema que foram treinados, informação valiosa para o mapeamento do espaço de estados.

O modelo SOM tem uma geometria pré-determinada nas suas conexões. O modelo TRN cria conexões, com o algoritmo CHL, baseadas em similaridades dos nodos após a distribuição destes pelo espaço de entrada feita pelo NG. O modelo GCS mantém uma malha de hiperte- traedros formada por suas conexões, enquanto que no modelo GNG e GWR as conexões são simplesmente indicadoras de vizinhanças, que podem desaparecer ou reaparecer conforme a utilização dos nodos por elas conectados. Uma vez que as informações representadas nos no- dos podem ser heterogêneas e agrupar critérios para a geração de trajetórias, faz-se necessária uma interpretação mais completa do papel das conexões no espaço de estados.

O modelo GWR não reduz a dimensão do espaço de estados, e consegue representá-lo com fidelidade em diferentes dimensões. Não apresenta defeitos topológicos para áreas desconexas ou côncavas, e consegue se adaptar rapidamente, de modo fractal. São características interes- santes para um modelo para geração de trajetórias de estados, tendo-se em conta as limitações expostas nesta seção.

3.7 Conclusões

Este capítulo tratou dos modelos mais relevantes da abordagem tencionada para a solução de problemas de geração de trajetórias de estado. Os modelos VITE, SOM, TRN, GCS, GNG e GWR foram apresentados, seus algoritmos descritos e discutidos, suas características e limita- ções foram analisadas.

Considerando esses diversos modelos apresentados, as suas propriedades, o modo como tratam inserções e remoções de nodos e conexões, a precisão e adequação das representação do espaço de estados, e as suas limitações quando se tem em mente a geração de trajetórias, no Capítulo4um novo modelo será proposto. O modelo é chamado STRAGEN (State Trajectory Generator) e objetiva conciliar as diversas necessidades e particularidades vistas até este ponto do trabalho.