Rede Neural Probabilística Incremental Baseada em Expectation Maximiza-

pectation Maximization (RNPI-EM)

3.4.1 Algoritmo

O problema de estimar a função densidade de probabilidade baseada em um conjunto de amostras obtidas sequencialmente, uma por vez, ao invés de obtê-las em lote, foi estudado em (Vlassis et al., 1999). Como resultado da pesquisa, os autores também propuseram um classificador baseado na Rede Neural Probabilística, que aprende de forma incremental à

medida que uma nova amostra de treinamento é obtida.

Nesta versão de aprendizado incremental da Rede Neural Probabilística, a camada de padrões de cada classe da rede neural é vista como um modelo de mistura de Gaussianas e os parâmetros do modelo são ajustados de forma incremental através de Expectation Maximiza-

tion. Sendo assim, a rede neural é composta por_{|C| modelos de mistura de Gaussianas, onde}

|C| é o número total de classes. Além disso, o número de Gaussianas, ou seja, o número de

neurônios, que compõe cada modelo é estimado à medida que novos dados são usados para treinamento. Para tanto, o algoritmo de treinamento da rede neural incorpora procedimentos de divisão, união e remoção de neurônios da rede.

O modelo de mistura de Gaussianas de uma classe cm, m= 1, . . . , |C|, da rede neural é

representado por: p(x) = Km

∑

j=1 ωjf(x, µj,Σj), (3.14)

onde Km é o número de kernels, ou neurônios, da camada de padrões da classe cm, ωj é o

peso do j-ésimo neurônio da camada de padrões da classe cm, tal que∑K_j₌₁m ωj= 1. A função f(x, µj,Σj) é a função de transferência do neurônio j, onde x é um vetor de entrada com d

dimensões, o vetor média µj possui d dimensões e a matriz de covariânciaΣj tem tamanho d_{× d.}

Essa função de transferência, também conhecida como função densidade de probabilidade da Gaussiana, é escrita como na Equação 3.15:

f(x, µj,Σj) = 1 q (2π)d_|Σ j| exp" −(x − µj) TΣ−1 j (x − µj) 2 # , (3.15)

onde _|Σj| e Σ−1_j são o determinante e a inversa de Σj, respectivamente. Por simplicidade

e devido ao grande esforço computacional para calcular _|Σj| e Σ−1_j , principalmente para

altos valores de d, os autores de (Vlassis et al., 1999) trabalharam com a suposição que as características são estatisticamente independentes. Assim, os valores de covariância entre características distintas são iguais a zero. Nesse caso,Σjé uma matriz diagonal (Duda et al.,

2001), como é mostrado na Equação 3.16:

Σj=       σ2 j,1 0 ··· 0 0 σ2_j_,2 _··· 0 .. . ... . .. ... 0 0 _··· σ2_j_,d       . (3.16)

Cada neurônio j da camada de padrões é composto por um vetor de média µj, uma matriz

diagonalΣje um peso de conexãoωj, entre j e o neurônio da camada de soma da classe cm.

Em (Vlassis et al., 1999) são deduzidas e apresentadas equações iterativas para atualizar esses parâmetros para cada neurônio, sempre que um novo dado x é usado para o treinamento. As Equações 3.17, 3.18 e 3.19 as apresentam para i= 1, . . . , d e j = 1, . . . , Km. Os índices t

e t+ 1 se referem aos valores atuais e futuros das grandezas.

µj,i,t+1= µj,i,t+ P_{( j | x)(x}i− µj,i,t) nωj,t , (3.17) σ2 j,i,t+1=σ2j,i,t+ P_{( j | x)}h(xi− µj,i,t+1)2−σ2_j_,i,t i nωj,t , (3.18) ωj,t+1=ωj,t+ P_{( j | x) −}ωj,t n , (3.19) onde: P_{( j | x) =} ωj,tf(x, µj,t,Σj,t) p(x) . (3.20)

Em seguida é atualizado o vetor de d dimensões do valor da curtose de cada neurônio usando a Equação 3.21. A curtose é o quarto momento estatístico e ele é usado para determi- nar se um neurônio deve ser dividido ou não. Uma explicação mais detalhada sobre a curtose é dada no Apêndice B. kj,i,t+1= kj,i,t+ P_{( j | x)} _x i−µj,i,t+1 σj,i,t+1 4 − kj,i,t− 3 nωj,t+1 . (3.21)

A constante n das equações anteriores pode ser vista como um procedimento de média móvel sobre as entradas anteriores. Quanto menor o valor de n, mais rápidas são as alterações dos valores dos parâmetros. Além disso, n influencia os testes estatísticos que estimam o número de neurônios, conforme mencionado a seguir.

Os procedimentos para estimar a quantidade de neurônios são apresentados nos próximos passos. Inicialmente é utilizado um teste estatístico para verificar a hipótese de que os dados de entrada seguem uma distribuição Gaussiana ou não. Assim, baseado no valor da curtose de cada dimensão do neurônio j, é aplicada a Equação 3.22 (i= 1, . . . , d).

qj,i= kj,i

r nωj

96 . (3.22)

Para as dimensões onde_|qj,i| < z1−α/2, a distribuição é considerada normal e nada é feito

nessas dimensões, sendo u o percentil da normal zu, eαo nível de significância do teste. No

entanto, para cada dimensão em que o teste indicar que a distribuição não é normal, o neurô- nio é dividido em dois, e novos parâmetros devem ser calculados para tal dimensão. Quando

um neurônio r é dividido em s e t para a dimensão i, os parâmetros dos novos neurônios para a dimensão i são calculados empregando as Equações 3.23 a 3.27. As demais dimensões são mantidas sem alterações e repetidas nos novos neurônios. Após o procedimento passar por todas as dimensões, os neurônios que sofreram divisão são removidos e os pesos são normalizados, tal que∑Km

j=1ωj= 1. µs,i= µr,i+σr,i, (3.23) µt,i= µr,i−σr,i, (3.24) σs,i =σt,i=σr,i, (3.25) ks,i = kt,i= 0, (3.26) ωs,i=ωt,i =ωr,i. (3.27)

O próximo passo é verificar se dois neurônios podem ser unidos ou não. Um critério razoável para unir dois neurônios em um é examinar a proximidade da variância e a média deles (Vlassis et al., 1999). Para verificar isso, inicialmente o teste estatístico F de Snedecor (Box, 1953; Markowski e Markowski, 1990) é aplicado para analisar a hipótese de variân- cias iguais e, se for obtido sucesso, então o teste estatístico t de Student (Zimmerman, 1997) é aplicado para médias iguais, supondo variâncias iguais. Se ambos os testes forem bem sucedidos, então os neurônios são unidos. Assim, para o teste F de Snedecor ser aplicado, primeiramente são selecionados os neurônios com a maior (p) e a segunda maior (q) proba- bilidade a posteriori. Depois é formada a razão da maior para a menor variância desses dois neurônios, como é mostrada na Equação 3.28. Esse procedimento deve ser realizado para todas as dimensões (i= 1, ..., d). Fi= σ2 p,i σ2 q,i (3.28)

Desde que Fi≥ 1, a hipótese de variâncias iguais é aceita se Fi satisfaz Fi< Fn,n,1−α/2,

onde n é a mesma constante usada para atualizar os parâmetros da rede. Se esse teste for bem sucedido para todas as dimensões, o teste estatístico t de Student é usado aplicando a Equação 3.29, na qual é assumida a variância comum σ2_i =σp,iσq,i. Se |ti| < z1−α/2 para

todas as dimensões, então a hipótese de médias iguais é aceita e os neurônios são unidos.

ti= √nωp  µp,i− µq,i σi √ 2 . (3.29)

De forma similar para o caso de divisão dos neurônios, nesse procedimento é necessário também obter os novos parâmetros do novo neurônio. Sejam p e q os neurônios que serão unidos e r o novo neurônio, os parâmetros são obtidos empregando as Equações 3.30, 3.31 e

AlgoritmoRede Neural Probabilística baseada emExpectation Maximization

1 para cada dado de entrada x= [x1, . . . , xd] pertencente a classe cmfaça

2 se classe cmnão tem recebido qualquer entrada ainda então

3 criar um novo neurônio j para a classe cm, ondeωj= 1, µj= x,σj,i= 1 e kj,i= 0, para i = 1, . . . , d

4 atualizar a probabilidade a priori da classe cm

5 calcular a partir da Equação 3.20 a probabilidade a posteriori para todos os neurônios da camada de padrões da classe cm

6 aplicar os testes 3.28 e 3.29 sobre os neurônios com a maior (p) e a segunda maior (q) probabilidade a posteriori

7 se teste for bem sucedido em todas as dimensões então

8 unir os dois neurônios em um usando 3.30, 3.31 e 3.32 para obter os parâmetros

9 excluir os neurônios p e q

10 normalizar os pesos, tal que∑Km j=1ωj= 1

11 para cada neurônio j, j= 1, . . . , Km, da classe cmfaça

12 atualizarωjusando 3.19

13 para cada dimensão i, i= 1, . . . , d faça

14 atualizar os parâmetros do neurônio j na dimensão i usando 3.17, 3.18 e 3.21

15 aplicar teste 3.22 sobre a dimensão i do neurônio j

16 se teste for bem sucedido então

17 dividir o neurônio j sobre a dimensão i nos neurônios s e t

18 calcular os novos parâmetros para a dimensão i usando 3.23, 3.24, 3.25, 3.26 e 3.27

19 normalizar os pesos, tal que∑Km j=1ωj= 1

20 remover neurônios com valores de pesos menores do que 1/n

21 normalizar os pesos, tal que∑Km j=1ωj= 1

Algoritmo 5: Algoritmo de treinamento da Rede Neural Probabilística apresentada em (Vlas- sis et al., 1999).

3.32. Então os neurônios p e q são eliminados e novamente os pesos são normalizados para obter∑Km j=1ωj= 1. µr,i = µp,i+ µq,i 2 , (3.30) σr,i= √σp,iσq,i, (3.31) ωr =ωp. (3.32)

Finalmente um passo de remoção de neurônios é realizado. O método adotado para realizar essa tarefa é usar um limiar sobre os valores dos pesos dos neurônios. Neurônios com pesos abaixo desse limiar são removidos.

O Algoritmo 5 ilustra todos os passos usados para treinar a Rede Neural Probabilística apresentada em (Vlassis et al., 1999).

Como mostrado no Algoritmo 5 linha 4, existe um procedimento de atualização da pro- babilidade a priori da classe que acabou de receber uma nova amostra de treinamento. Essa atualização da probabilidade deve ser feita tal que a probabilidade a priori das classes seja proporcional ao número de amostras usadas para treiná-las.

3.4.2 Vantagens e Desvantagens

Embora esta abordagem seja capaz de realizar muitos tipos de procedimentos e ajustar uma gama muito grande de parâmetros, ela apresenta alguns problemas. Primeiro, essa rede neural usa momento de alta ordem para decidir quando um neurônio deve ser dividido. No entanto, momentos de alta ordem são quase sempre menos robustos do que momentos de ordem menor (tais como média e variância), pois a estimativa deles tende a ser mais instável na presença de outliers (amostras inconsistentes com a distribuição do conjunto de amostras) (Welling, 2005). Isso agrava quando eles são calculados em modo incremental. Por essa razão, essas medidas devem ser usadas com cautela (Press et al., 2007).

Segundo, um neurônio pode ser dividido em até d neurônios, onde d é a dimensão do dado. Dessa forma, pode ocorrer uma explosão computacional, principalmente se a dimen- são dos dados for grande. Terceiro, o procedimento de divisão dos neurônios apresenta um problema devido ao grau de liberdade: existe um número de equações menor do que o nú- mero de parâmetros desconhecidos, então é necessário fazer suposições da forma como eles devem ser divididos. Finalmente, a calibração das médias e variâncias é incremental, de forma que os valores desses parâmetros têm uma imprecisão inerente adicionada a eles. Para poucas dimensões, esse problema não afeta significantemente o desempenho. No entanto, para altas dimensões, a propagação da incerteza pode prejudicar o desempenho da rede, principalmente por causa da matriz de covariância, que tem maior efeito sobre esta rede neural.

De forma geral, percebe-se que esta rede neural pode apresentar bons resultados para problemas que envolvem baixas dimensões, por outro lado, o seu desempenho para problemas de altas dimensões pode ser muito aquém do desejado.

No documento Modelo de aprendizado incremental baseado em uma rede neural com arquitetura adaptativa (páginas 54-59)