Ensemble de Redes Neurais - Synergy between artificial immune systems and probabilistic graphic

Ensemble ´e um paradigma de aprendizado em que propostas alternativas capazes de gerar a

solução para um determinado problema são combinadas para obter a solução final do problema (Hansen & Salamon, 1990; Krogh & Vedelsby, 1994). A essas propostas dá-se o nome de componentes do ensemble. Este paradigma originou-se do trabalho de Hansen & Salamon (1990) e foi aplicado primeiramente em problemas de classificação por meio de redes neurais. A combinação de múltiplos componentes é potencialmente vantajosa, pois diferentes componentes podem representar aspectos distintos e relevantes para a solução do problema. Várias redes neurais são treinadas independentemente e combinadas posteriormente para classificar os padrões de entrada. Os resultados mostram que a capacidade de generalização do sistema pode melhorar de forma significativa. Embora as redes neurais tenham sido as mais utilizadas como componentes de um ensemble, alguns trabalhos propuseram a combinação de outras técnicas, como sistemas fuzzy (Castro et al., 2005) e Máquinas de Vetores-Suporte (SVM, do inglês Support Vector Machine) (Zhang et al., 2005).

Na Figura 6.1, é apresentado um exemplo didático adaptado de Polikar (2006) que ilustra a vantagem do uso de ensembles para um problema de classificação de padrões. As fronteiras de decisão de três classificadores são apresentadas nas Figuras 6.1(a)(b)(c). Como pode ser observado, as três fronteiras de decisão são diferentes, o que leva os classificadores a acertarem e errarem a classificação de forma distinta. Entretanto, como mostrado na Figura 6.1(d), a combinação desses três classificadores, por meio do voto majoritário, possibilita gerar uma nova fronteira de decisão capaz de separar corretamente todas as amostras do conjunto de dados (Figura 6.1(e)). Apesar do

ensemble da Figura 6.1(e) ter classificado corretamente todas as amostras, ´e importante ressaltar que,

na prática, nem sempre os ganhos obtidos são tão expressivos.

Classificador 1 Classificador 2 Classificador 3

Classificadores: 1, 2 e 3 Ensemble

Fronteira de decisão

(a) (b) (c)

(d) (e)

Classificador 1 Classificador 2 Classificador 3

Classificadores: 1, 2 e 3 Ensemble

Fronteira de decisão

(a) (b) (c)

(d) (e)

6.2. ENSEMBLE DE REDES NEURAIS 75

Técnicas de ensemble têm sido aplicadas com sucesso a problemas de classificação, regressão e agrupamento (clustering). Entretanto, neste cap´ıtulo serão considerados apenas problemas de classificação, em que os componentes do ensemble são redes neurais.

Na Figura 6.2 ´e ilustrado o esquema de funcionamento de um ensemble de redes neurais. Cada componente do ensemble ´e um classificador constru´ıdo independentemente dos demais e pode atuar isoladamente. Para cada vetor de entrada𝑥 = (𝑥1, 𝑥2, ..., 𝑥𝑛), as sa´ıdas 𝑦𝑖, i=1,...,M, geradas pelos M

componentes s˜ao combinadas para produzir a sa´ıda do ensemble,𝑦𝑒.

y1 y2 yM ye x1 xn Σ ... ... ... ... ...

Figura 6.2: Ensemble de redes neurais.

O desempenho de um ensemble está vinculado à qualidade e diversidade do erro de seus componentes, isto é, cada componente do ensemble deve apresentar bom desempenho quando aplicado isoladamente e deve cometer erros distintos dos demais componentes para um mesmo padrão de entrada. É evidente que duas redes neurais de boa qualidade devem produzir a mesma sa´ıda para a maioria dos padrões. As redes devem, então, discordar quando elas tomam decisões erradas (Perrone & Cooper, 1993).

De forma geral, a construção de um ensemble envolve duas etapas sequenciais, a geração dos componentes candidatos e a combinação das sa´ıdas individuais de cada componente. Alguns trabalhos sugerem uma outra etapa, que consiste em selecionar, dentre os componentes gerados, somente alguns componentes. Cada etapa é brevemente descrita seguir:

∙ Gerac¸˜ao dos componentes candidatos

Esta etapa se encarrega de gerar individualmente cada componente candidato a fazer parte do

ensemble. Como descrito anteriormente, os componentes precisam apresentar bom desempenho e

serem diversos entre si. Técnicas para gerar componentes diversos e de bom desempenho podem ser divididas em duas categorias: (i) geração pelo pré-processamento dos dados de treinamento e (ii) geração pelo pré-processamento dos parâmetros e estrutura dos componentes candidatos.

76 CAP´ITULO 6. EXPERIMENTOS COM ENSEMBLES DE REDES NEURAIS

O objetivo das técnicas pertencentes à primeira categoria consiste em produzir dados de treinamento distintos, os quais podem levar à geração de componentes com capacidade de generalização diferente um dos outros. Entre essas técnicas, pode-se citar Bagging e Boosting.

Bagging foi proposta por Breiman (1996) e ´e baseada na amostragem bootstrap (Efron & Tibshirani,

1993). Ela gera v´arios subconjuntos de dados de treinamento distintos a partir do conjunto original e ent˜ao usa cada um desses conjuntos de dados para treinar uma rede neural.

Na técnica Boosting, proposta por Schapire (1990), os conjuntos de treinamento são reamostrados de forma adaptativa, de modo que amostras que mais contribuem para o erro de treinamento dos componentes já treinados têm sua probabilidade aumentada de comporem o conjunto de treinamento a ser empregado para a geração do próximo componente. Como se pode perceber, aqui a geração dos componentes é sequencial.

O pré-processamento dos parâmetros e estrutura, por sua vez, visa construir redes a partir de pontos de partida distintos. A abordagem mais comum é adotar redes neurais com diferentes topologias e diferentes valores para os vetores de pesos iniciais. Dessa forma, é esperado que diversas redes neurais sejam obtidas, uma vez que o desempenho da rede é altamente dependente do seu vetor de pesos iniciais e sua topologia.

∙ Combinac¸˜ao

Após a geração dos componentes do ensemble, o próximo passo é definir como as sa´ıdas individuais de cada um serão combinadas para formar a sa´ıda do ensemble. Existem muitas maneiras de se fazer isso, dependendo do tipo de problema abordado. Para tarefas de classificação, a abordagem mais usual é o voto majoritário (Hansen & Salamon, 1990), em que a classe indicada pela maioria dos componentes é a sa´ıda do ensemble, de acordo com a equação:

𝑦𝑒(𝑥) = 𝑘 𝑠𝑒 𝑘 = arg max 𝑘 ( _𝑀 ∑ 𝑖=1 𝐺𝑘_𝑖(𝑥) ) , (6.1)

em que𝑥 é o padrão de entrada, 𝑦𝑒(.) é a sa´ıda do ensemble, 𝑀 é a quantidade de componentes e 𝐺𝑘𝑖

é dado pela Equação (6.2), com𝑦𝑖(.) sendo a sa´ıda do 𝑖-ésimo componente:

𝐺𝑘_𝑖(𝑥) = ⎧ ⎨ ⎩ 1, se𝑦𝑖(𝑥) = 𝑘 0, se𝑦𝑖(𝑥)∕= 𝑘. (6.2)

∙ Selec¸˜ao dos componentes

Recentemente, muitas propostas tˆem sugerido e provado empiricamente que adicionar todos os componentes gerados na etapa anterior no ensemble pode degradar seu desempenho, n˜ao importando

No documento Synergy between artificial immune systems and probabilistic graphical models (páginas 92-95)