Proposta desta Tese - Modelo de aprendizado incremental baseado em uma rede neural com arquitet

Muitas das características almejadas para os SCEs são interessantes para tratar tarefas do mundo real. No entanto, tem sido observado na prática que, na tentativa de reter o máximo de informação possível, as redes dessa família tendem a possuir tamanho grande de arquitetura, e isto reduz a velocidade de classificação na parte de teste e aumenta o consumo de memória (Watts, 2009). Isso é um efeito indesejável para uma técnica de aprendizado de máquina.

Sendo assim, essa tese tem como hipótese o desenvolvimento de um modelo de aprendizado incremental com características semelhantes aos SCEs, mas com uma estrutura mais reduzida, necessitando então de menos recursos computacionais e capaz de obter uma re- lação satisfatória entre eficiência e eficácia. Satisfatória no sentido de possuir eficácia num nível semelhante aos de técnicas mais complexas, mas tão eficiente quanto às das técnicas que possuem pequenas estruturas.

Logo, o objetivo dessa tese é propor mecanismos para obter, de forma incremental, um modelo supervisionado para problemas de classificação. Esse modelo deverá, portanto, in- corporar várias das características dos SCEs, mas necessitando menos recursos computacionais que outros modelos da mesma família dos SCEs. Para alcançar tal modelo proposto, essa tese parte do princípio de, para obter uma estrutura reduzida, ser mais conveniente modelar a distribuição da fonte de dados (Vlassis e Likas, 1999; Yang et al., 2012) do que simples- mente estocar amostras de um determinado problema na estrutura (Bhatia e Vandana, 2010; Specht, 1990; Ludermir et al., 1999).

Além disso, esse trabalho se baseia na suposição de muitas distribuições na natureza pos- suírem uma forma aproximadamente semelhante a uma distribuição Gaussiana (Duda et al.,

2001). Logo, tais distribuições poderiam ser representadas por uma distribuição Gaussiana sem perda significante de informação. Ainda assim, mesmo se a distribuição das amostras de uma classe de um problema supervisionado não se assemelhar a uma Gaussiana, a separação de classes pode ser realizada sem a necessidade de modelar por completo a sua distribuição, mas somente certas regiões de borda das classes.

Com isso, é possível obter um modelo de tamanho compacto apresentando desempenho satisfatório. Um tamanho reduzido é possível, desde que o contorno de separação entre classes não seja geometricamente ou topologicamente muito complexo, o qual necessitaria de uma longa descrição dos contornos, possivelmente incluindo todos os dados de treinamento de cada classe (Ho, 2000).

Contudo, algumas distribuições de dados podem ser mais complexas e não serem representadas devidamente por uma simples Gaussiana. Nesses casos, tais distribuições podem ser modeladas através não de uma, mas com um conjunto de distribuições Gaussianas, co- nhecido na literatura como Modelo de Mistura de Gaussianas (MMG) (Bishop, 2006). Com um número adequado de Gaussianas, o MMG pode modelar diferentes tipos de distribuições de dados (Bishop, 2006).

Todavia, o MMG apresenta um grande problema, que é a determinação do número de Gaussianas para representar cada distribuição, e os métodos mais clássicos determinam uma quantidade fixa que não se altera ao longo do refinamento do modelo (McLachlan, 1987; Furman e Lindsay, 1994). Outra dificuldade existente diz respeito ao aprendizado incremental, pois os parâmetros de um MMG são inicialmente imprecisos quando são estimados de forma incremental, e essa imprecisão prejudica a qualidade do modelo obtido.

Para tratar esses problemas, o modelo proposto nesse trabalho possui mecanismos para determinar dinamicamente a quantidade necessária de componentes do MMG para uma de- terminada tarefa e, também, uma forma de reduzir os efeitos negativos das imprecisões dos parâmetros do MMG causados pelo aprendizado incremental.

Este modelo se chama Rede Neural Probabilística evolutiva (RNPe), e o seu nome é em homenagem à Rede Neural Probabilística (RNP) (Specht, 1990), cuja arquitetura e função de transferência dos neurônios são semelhantes à da rede neural proposta. Algumas caracterís- ticas da RNPe são semelhantes aos dos SCEs, tais como novas informações são adicionadas ao modelo de forma incremental através de uma amostra por vez, ao invés de ser por bloco de dados. O modelo pode aprender continuamente durante toda a sua existência, pois sua habilidade para aprender novas informações não tende a ser reduzida a zero. O modelo tem capacidade de alterar sua estrutura para se adaptar melhor a um determinado tipo de problema, e sua estrutura é flexível, sendo fácil inserir ou remover classes.

Assim, em contrapartida aos métodos mostrados na revisão de literatura (Seção 1.1), o sistema proposto apresenta as características de possuir controle eficiente do tamanho da arquitetura, permitindo uma dimensão reduzida e com baixo custo computacional; resultado satisfatório sobre bases de dados com grande quantidade de atributos; processo de aprendizado não se deteriorando em demasia com o tempo; capacidade de aprender com somente uma única apresentação dos dados; e, para aprender novas informações, não é necessário alterar toda a sua arquitetura.

Resultados experimentais indicaram que a RNPe obtém desempenho semelhante a algumas redes neurais incrementais e alguns modelos clássicos de aprendizado de máquina, com a vantagem de possuir uma estrutura mais reduzida e, assim, necessitando de menos recursos computacionais.

Além da RNPe, outras contribuições deste trabalho são:

• comparação da RNPe com outros algoritmos do ponto de vista de complexidade e

desempenho de classificação, usando várias bases de dados de benchmark de domínio público e de diferentes naturezas (Ciarelli et al., 2012; Oliveira et al., 2012);

• avaliação empírica da capacidade do modelo proposto de tratar o dilema da plastici-

dade e estabilidade (Ciarelli et al., 2012; Ciarelli et al., 2013);

• uma metodologia e métricas para medir o grau de estabilidade e plasticidade de um

algoritmo com aprendizado incremental (Ciarelli et al., 2013);

• análise sobre quais características das bases de dados facilitam ou dificultam a tarefa

de aprendizado incremental (Ciarelli et al., 2013);

• análise do uso de comitês de RNPes para o problema de classificação e seu uso em

tarefas de aprendizado semi-supervisionado.

No documento Modelo de aprendizado incremental baseado em uma rede neural com arquitetura adaptativa (páginas 30-32)