• Nenhum resultado encontrado

Um comitê de máquinas ou ensemble consiste de um conjunto de componentes (classifi- cadores), cada um representando uma proposta de solução, cujas classificações, no caso de problemas de classificação de padrões, ou estimativas, no caso de problemas de regressão, são combinadas de formas diversas visando um ganho de desempenho [44].

Este paradigma originou-se do trabalho de Hansen and Salamon [42], que mostraram que a habilidade de generalização pode ser significativamente melhorada por meio da composição de várias redes neurais artificiais, ou seja, treinamento independente de várias redes neurais artificiais e posterior composição das saídas individuais. Este incremento é conquistado caso alguns requisitos sejam atendidos pelos componentes do ensemble, os principais são [44]:

• cada um dos componentes deve apresentar bom desempenho quando tomado isolada- mente;

• o comportamento de cada componente deve ser o mais descorrelacionado possível frente aos demais.

Desta forma diferentes propostas de solução podem explorar diferentes aspectos relevantes de um problema, enquanto muitas vezes uma única proposta de solução não é capaz de explorar todos os aspectos relevantes simultaneamente. Esta é a mais forte motivação para o emprego de um comitê de máquinhas.

4.3.1

Geração de Componentes

Os resultados mais expressivos presentes na literatura empregam redes neurais artificiais como componentes, porém outros tipos de classificadores também podem ser utilizados para tal tarefa. O objetivo então é encontrar classificadores de bom desempenho e que generalizam de forma descorrelacionada (e.g. dois classificadores são considerados diversos se eles não apresentam os mesmos erros de classificação frente a um mesmo conjunto de amostras, ou seja, se as amostras classificadas erroneamente pelos classificadores diferem em algum grau).

relacionados [44], a aplicação de tais técnicas depende fortemente dos classificadores a serem utilizados como componentes do comitê de máquinas. Porém, de maneira geral, podem ser resumidos em:

• Pré-processamento de parâmetros e aspectos estruturais: onde a diversificação dos com- ponentes é alcançada modificando-se os parâmetros do classificador (caso este o possua) (e.g. pesos, arquitetura e/ou algoritmo de treinamento em redes neurais artificiais).

• Pré-processamento dos dados de treinamento: o objetivo aqui é produzir conjuntos de treinamento distintos, que podem conduzir a classificadores que generalizam de forma diversa mesmo que mantidos idênticos os parâmetros e aspectos estruturais do mesmo. Re-amostragem dos dados (Bagging) [15], re-amostragem adaptativa (Boosting) [91] e utilização de variáveis distintas são os métodos mais utilizados. Estas técnicas serão brevemente descritas a seguir.

1. Bagging 5 foi proposto por Breiman [15]. Nesta abordagem, são gerados vários

conjuntos de treinamento a partir de amostragem uniforme do conjunto original de dados, com reposição, e então se obtém uma proposta de solução a partir de cada um desses conjuntos de treinamento. Os conjuntos de treinamento têm o mesmo número de amostras do conjunto original, mas algumas amostras do conjunto original podem aparecer mais de uma vez, fazendo com que outras amostras não sejam selecionadas. Essa distinção aleatória entre os vários conjuntos de treinamento confere diversidade aos modelos de classificação ou regressão que são obtidos a partir de cada um desses conjuntos.

2. Boosting foi proposto por Schapire [91]. Nesta abordagem, os vários conjuntos de treinamento não são gerados a partir de uma amostragem uniforme com reposição, como no caso do bagging. A probabilidade de escolha de uma amostra depende da contribuição desta para o erro de treinamento dos componentes já treinados, isto é, caso uma amostra não tenha sido corretamente classificada pelos componentes já gerados, a probabilidade de escolha desta aumenta em relação às demais amostras, quando do treinamento de novos componentes. Conseqüentemente, esta amostra terá uma chance maior de ser escolhida para compor o conjunto de dados do próximo componente a ser gerado. Portanto, apenas o primeiro componente do ensemble é treinado a partir de uma amostragem uniforme do conjunto de dados original. É necessário, assim, que os vários componentes do ensemble sejam treinados seqüen- cialmente, visando redefinir a probabilidade de escolha das amostras na geração dos próximos conjuntos de treinamento.

3. Variáveis distintas: em algumas aplicações específicas é possível obter conjuntos de treinamento distintos pela simples consideração de um elenco de variáveis dife- rentes para o vetor de entrada. Desse modo, cada componente do ensemble toma um subconjunto de variáveis de entrada distinto dos demais, embora possa haver variáveis comuns entre eles. Uma abordagem muito comum é utilizar variáveis pro- venientes de fontes/técnicas distintas em cada um dos classificadores componentes do ensamble.

4.3.2

Métodos de Combinação

Quanto à combinação dos classificadores componentes, as abordagens predominantes são o voto baseado na pluralidade ou voto majoritário, média simples ou média ponderada [42]. O problema trata da combinação de M classificadores diferentes fj, j = 1, . . . , M , utilizados

para classificação do padrão x em K classes, U = {1, . . . , K}. A saída do j-ésimo classificador para a k-ésima classe será denotada por uk

j. A saída do comitê de máquinas será denotada por

ˆ

f (·). Logo, a combinação de múltiplos componentes pode ser vista como a determinação de ˆ

f (x) usando as saídas ˆfj(x) de todos os M componentes.

• Média simples e média ponderada: é um dos métodos mais populares de combinação. Ele se refere a uma combinação linear da saída dos componentes. Uma única saída pode ser criada a partir de um conjunto de saídas via média simples, ou por meio de uma média ponderada, a qual considera o desempenho relativo dos componentes a serem combina- dos. Neste método, a saída do comitê de máquinas será a classe com maior valor médio, conforme mostra a equação a seguir:

ˆ f (x) = max k∈U Sk (4.13) onde, Sk= 1 M M X j=1 αjukj (4.14)

sendo αj peso relativo de cada classificador. Este fica definido como αj = 1 o no caso de

média simples e αj = log e(fj) PM j=1e(fj) (4.15)

• Votação: O resultado apoiado pela maioria dos componentes é definido como a saída do comitê de máquinas, segundo a equação a seguir:

ˆ f (x) = k∗ (4.16) se k∗ = max k M X j=1 Gkj(x) ! (4.17) onde: Gkj(x) = ( 0 se ˆfj(x) 6= k 1 se ˆfj(x) = k (4.18)

Embora a votação tenha a vantagem de não requerer recursos computacionais ou espaço de memória extra, esta pode piorar o desempenho do comitê de máquinas, caso existam componen- tes com desempenho global ruim. Isto ocorre porque os rótulos de todos os componentes têm o mesmo peso, independente do seu desempenho global. O princípio de votação é exatamente o que é conhecido como votação majoritária.

Documentos relacionados