Construção de Comitês - Comitês de Máquinas

2.2 Comitês de Máquinas

2.2.1 Construção de Comitês

Comitês é um paradigma de aprendizado que visa oferecer um número finito de propostas de solução para um dado problema, denominadas componentes do comitês, que

têm suas saídas combinadas com a finalidade de alcançar uma solução única para o problema, a qual ofereça ganho de generalização em relação as respostas individuais de cada componente [Sollich & Krogh 1996]. De maneira sintetizada, podemos dizer que o termo "comitês"refere-se aos diferentes métodos de construção, seleção e combinação de má- quinas de aprendizado que tem como objetivo gerar soluções redundantes para a mesma tarefa; as condições das configurações de tais máquinas são geralmente dissimilares.

Comitês, geralmente, podem ser construídos em três passos [Coelho 2006]: geração dos componentes, seleção e combinação das saídas propostas pelos componentes. Se- gundo [de Moraes Lima 2004], há uma tendência de ganho de desempenho quando se adota uma metodologia baseada em três passos e não em dois como defendido por alguns autores, onde a seleção de componentes é suprimida. Esta afirmação é confirmada por [Zhou et al. 2002], que mostra que o uso de todos os componentes candidatos disponíveis no comitês pode acarretar uma degradação em seu desempenho.

Devido aos promissores resultados obtidos a partir das técnicas de construção de co- mitês e as diversas linhas de atuação de aprendizado de máquina, têm crescido o interesse por este conceito, de maneira que diversos outros tipos de componentes vem sendo ado- tados para compor o comitês, além de redes neurais artificiais [Sharkey 1999], visto que foi a partir delas que surgiu o conceito de comitês [Hansen & Salamon 1990].

A Figura 2.5 representa uma arquitetura geral de um comitês onde é evidenciado o fato de que todos os M componentes (previamente selecionados de um universo maior) arcam com o mesmo mapeamento de entrada e saída e há a existência de um módulo combinador. Cada novo padrão apresentado a entrada é tratado redundantemente, como citado acima, pelos diferentes módulos-componentes (árvores de decisão, máquina de vetor suporte, algoritmo bayseano etc), os quais produzem suas estimativas individuais. O módulo combinador, por sua vez, recebe esses resultados, e baseado em algum método (voto, média etc) busca originar à decisão consensual final. Para se combinar as respostas individuais, é comumente utilizado, em problemas de classificação de padrões, o voto majoritário ou ponderado; já em problemas de regressão, a média simples.

A abordagem de comitês vem sendo largamente utilizada na última década, tanto para problemas de regressão quanto para problemas de classificação de padrões, uma vez que os comitês são comprovadamente capazes de aumentar a capacidade de generalização e, com isso, de forma geral, o desempenho do sistema [Hansen & Salamon 1990]; [Zhou et al. 2000];[Zhou & Jiang 2003];[Inoue & Narihisa 2004]. Com vistas ao conceito que

Figura 2.5: Arquitetura geral de um ensemble

caracteriza os comitês, é facilmente intuitível que a combinação de múltiplos componentes seja vantajosa, já que componentes diferentes podem representar, de forma implícita, aspectos distintos e, ao mesmo tempo, fortemente relevantes para a solução de um dado problema. Conceitos e técnicas de comitês representam uma das principais direções em pesquisas na área de aprendizado de máquina, como visto em [Canuto 2001], [Coelho 2006], [Nascimento 2009], [de Oliveira 2008] e [Gama 1999].

Contudo, a melhora proporcionada pelos comitês, ou seja, aumento na capacidade de generalização e, consequente, melhora no desempenho total do sistema, se firma na quali- dade e diversidade do erro apresentado pelos seus componentes [Perrone & Cooper 1993], ou seja, cada um dos componentes em um comitê deve apresentar um bom desempenho quando aplicado isoladamente ao problema e, simultaneamente, cometer erros distintos, quando comparados com os demais componentes. Intuitivamente, pode-se perceber uma necessidade de se haver diversidade do erro entre os componentes, uma vez que, se com- binarmos vários componentes que apresentem erros coincidentes, um mesmo padrão de erro, certamente não teremos ganho de generalização, já que o fato deles errarem para um mesmo subconjunto de estímulos de entrada implica em acertos também coincidentes, o que faz com que sua combinação traga apenas um aumento no custo computacional, não havendo, desta forma, nenhuma contribuição para o sistema como um todo. A questão da diversidade em comitês será tratada na subseção seguinte.

Diversidade em Comitês

A ideia de se construir comitês é obter ganho de generalização a partir da combinação das respostas dadas por cada componente do comitês. Tal combinação é em vistas da minimização do erro final, uma vez que tais componentes quando aplicados isoladamente

produzem erro. Portanto, é necessário que haja diferença na generalização de cada componente, ou seja, diversidade [Kuncheva 2004], como citado na seção anterior, fazendo com que eles não apresentem erros coincidentes ou correlatos, e sim uma dissimilaridade do erro entre as demais regiões do problema. Desta forma, a diversidade das respostas podem contribuir ou influenciar na melhor hipótese. Com isso, quando se fala em comitês a questão da diversidade torna-se obrigatoriamente relevante, tornando-se um fator crucial para o sucesso dos comitês [Kuncheva 2004].

Durante a construção de um comitê várias técnicas para geração de diversidade podem ser aplicadas. Dentre as técnicas existentes, as mais citadas na literatura são aquelas que fazem uso de estratégias como:

• Métodos que atuam sobre o ponto de partida no espaço de hipóteses: os métodos inclusos neste grupo variam os pontos de partida da busca no espaço de hipóteses, influenciando dessa forma o ponto de convergência.

• Métodos que atuam sobre os dados de treinamento: através do fornecimento de conjuntos de dados de treinamento diferentes para cada um dos componentes do comitê, estes métodos buscam gerar componentes que produzam mapeamentos diferentes, visto que os estímulos de entrada serão distintos.

• Métodos que manipulam a arquitetura de cada componente: estes métodos variam a arquitetura de cada componente no comitê, de maneira que diferentes conjuntos de hipóteses estejam acessíveis para cada componente, ou seja, como os componentes do comitê possuem arquiteturas diferentes, os conjuntos de hipóteses associados a esses componentes também serão distintos, o que pode contribuir para a diversidade. Estes métodos dão origem aos denominados comitês heterogêneos [Canuto et al. 2005].

• Métodos que atuam sobre a forma de exploração do espaço de hipóteses: alterando a forma de exploração do espaço de hipóteses, esses métodos levam os diferentes componentes a convergirem para diferentes hipóteses, mesmo tendo um mesmo ponto de partida.

• Métodos híbridos: formados por alguma combinação dos métodos acima.

Esta dissertação se propõe utilizar a técnica de geração de diversidade já citada an- teriormente, a qual manipulam os dados de treinamento. Para efetivar a combinação de diversidade serão aplicados os métodos de comitês Bagging e Boosting. Mais detalhes sobre estes métodos de geração de comitês serão vistos em seções ao longo deste capítulo. Diversas métricas de avaliação da diversidade em comitês já foram propostas e podem ser divididas em dois grupos[Kuncheva 2004]: as que trabalham com o conceito de paridade(pairwise), as quais consistem em tomar a média de uma dada métrica de distância calculada sobre partes de componentes do comitê e as métricas que não trabalham com conceito de paridade(non-pairwise), baseadas em medidas sobre todo o grupo. Dentre as medidas pairwise podemos citar: Estatística-Q , coeficiente de correlação, medida de desacordo e medida de duplo-falso; dentre as métricas non-pairwise podemos citar: a medida de entropia E, a medida de dificuldade T, a variância de Kohavi-Wolpert, a medida de concordância, a diversidade generalizada e a diversidade de falha coincidente.

Entre as medidas estatísticas de relacionamento, a pairwise Estatística-Q uma vez usada para classificadores estatisticamente independentes, Q assumirá o valor 0. cada classificador k é representado por um vetor binário n-dimensional Ak= {Ak1, Ak2, ..., AkN},

Akn, sendo n correspondente ao tamanho do conjunto de exemplos D. Se a instância Di

for classificada corretamente, então Ak1 = 1, caso contrário Ak1 = 0. A Estatíticas-Q

avalia o grau de divergência entre dois classificadores k e k’ quaisquer mediante a equa- ção 2.1. O valor de N11 _{corresponde ao número de amostras classificadas corretamente}

por k e k’. N00 é o número de amostras classificadas incorretamente por k e k’. N10 é o número de amostras classificadas corretamente por k e incorretamente classificadas pelo classificador k’ . Já N01corresponde ao número de amostras classificadas incorretamente por k e corretamente classificadas pelo classificador k’. Quando os classificadores estão propícios a acertar ou errar os mesmos padrões, ou seja, são correlacionados, tendem a possuir valores de Q positivos. Quando os classificadores tendem a acertar ou errar pa- drões diferentes, ficam tendem a possuir valores de Q negativos. Em síntese, procuramos construir comitês que tendam a produzir valores de Q negativos. A Estatística-Q assumirá valores entre [−1,1].

QK.K′= N

11_N00_{− N}01_N10

Na Estatistica-Q, a diversidade do comitê Q(Ω) é dada pela média sobre todos os possí- veis acoplamentos entre pares de componentes [Coelho 2004], sendo calculado segundo a equação 2.2. Q(Ω) = 2 K(k − 1) k−1

∑

k=1 k

∑

k′_=k+1 Q(K.K′) (2.2) Na medida de Entropia E, o comitê é mais diverso para umz ∈ Z quando L/2 dos votos

são 0s (1s) e os outros L − [L/2] são votos 1s (0s). Caso todos sejam 0s ou todos sejam 1s, então todos concordaram e os classificadores não poderão ser consideradas diversos. Uma possível medida de diversidade pode ser obtida através da equação 2.3.

E= 1 N 2 L− 1 N

∑

j=1 min{( L

∑

i=1 yj,i) , ( L − L

∑

i=1 yj,i)} (2.3)

Os valores da Entropia E variam entre 0 e 1, onde 0 indica não diverso e 1 indica a mais alta diversidade possível.

Métodos de Geração dos Componentes

Na construção de comitês a etapa de geração dos componentes é de suma importância. Uma vez que esta metodologia é sustentada pela necessidade da existência de diversidade entre seus componentes, para que o comitê seja capaz de proporcionar ganho de acui- dade, na construção é preciso garantir que exista dissimilaridade entre eles. É encontrado na literatura vários métodos e técnicas que auxiliam na tarefa de construção de comitês e que trazem em si mecanismos para possibilitar a diversidade entre os componentes. Dentre estes métodos podemos citar o Bagging, proposto por [Breiman 1996], e o Boos- ting, proposto por[Freund 1996]. Estes métodos para construção de comitê farão parte dos objetos de pesquisa desta dissertação. Alguns trabalhos lançaram mão destes méto- dos como objeto de investigação, tais como: [Nascimento 2009],[de Moraes Lima 2004], [Coelho 2004], [Gama 1999] e [Martin 2008].

É importante ressaltar que a maior parte dos trabalhos que fazem uso de algum mé- todo para geração dos componentes de um comitê utiliza os métodos Bagging e Boosting, fazendo com que eles sejam os mais utilizados.

O método Bagging (bootstrap agregating) ou agregação bootstrap [Breiman 1996] é um dos representantes da técnica de re-amostragem de dados com reposição. Esta técnica gera conjuntos de treinamento distintos, os quais são utilizados para se obter componentes de um comitê. O fato dos conjuntos de treinamento serem distintos proporcionam a geração de componentes que generalizam de forma também distinta.

A diversidade provida pela técnica de agregação bootstrap [Efron & Tibshirani 1993] é a partir da redistribuição aleatória dos dados, ou seja, uma vez dispondo de um único conjunto de treinamento T com n amostras, é gerado, por re-amostragem uniforme, um subconjunto de dados T’ com n’ amostras, onde n = n′_{. A probabilidade de uma amostra}

do conjunto T ser escolhida para compor o conjunto T’ é igual para todas. Com isso, todas as amostras dos T’ conjuntos de treinamento gerados estão presentes no conjunto de treinamento T, de modo que a diferença entre os T’ conjuntos gerados está na presença de amostras repetidas e, consequentemente, ausência de algumas amostras que fazem parte do conjunto T. Assim, a probabilidade de uma amostra ser escolhida é de 1 − (1 − 1/n)n_{, 63.2 % do conjunto de dados T’ gerado é composto por amostradas únicas e o}

restante por amostradas duplicadas [Bauer & Kohavi 1998], não havendo praticamente nenhuma chance dos conjuntos de dados gerados serem idênticos. O processo de geração de componentes através do método Bagging é ilustrado na Figura 2.6.

Figura 2.6: Processo de geração de componentes via método Bagging (Nascimento, 2009).

No algoritmo Boosting [Freund 1996], o processo de treinamento ocorre de forma sequencial, uma vez que o conjunto de treinamento do componente seguinte é gerado com base no desempenho dos demais componentes já gerados. Com isso, a abordagem Boostingreduz tanto a variância quanto o bias, ao passo que o Bagging reduz apenas a variância [Friedman et al. 2000]. Isto se deve à atribuição de maior ênfase às amostras responsáveis pela queda de desempenho durante o treinamento, ou seja, as amostras que mais contribuem para o erro de treinamento dos componentes já treinado têm maior probabilidade de serem escolhidas para compor o conjunto de treinamento do componente seguinte, fazendo com que os últimos componentes gerados na sequencia possam arcar com as regiões mais difíceis do espaço de atributos [Coelho 2004].

Existem diversas varições da abordagem Boosting original[Schapire 1990]. Segundo [Haykin 2001] essas variações se distinguem pela implementação. São elas:

• Boosting por filtragem: originalmente citada por [Schapire 1990], envolve filtrar as instâncias de treinamento por diferentes versões de um algoritmo de aprendizado fraco. Essa abordagem assume a disponibilidade de uma grande (teoricamente, in- finita) fonte de instâncias, com as instâncias sendo descartadas ou mantidas durante o treinamento. Uma vantagem é a baixa requisição de memória comparada às ou- tras abordagens.

• Boosting por sub-amostragem: trabalha com uma instância de treinamento de tamanho fixo. As instâncias são amostradas novamente durante o treinamento, de acordo com uma determinada distribuição de probabilidade. O erro é calculado em relação à amostra de treinamento fixo.

• Boosting por ponderação: trabalha com uma amostra de treinamento fixo, mas assume que o algoritmo de aprendizagem fraca pode receber exemplos ponderados. O erro é calculado em relação às instâncias ponderadas. Neste contexto se enquadra o AdaBoost (derivado de Adaptative Boost) [Freund & Schapire 1995].

No algoritmo AdaBoost.M1 [Freund & Schapire 1999], dispondo de um conjunto de dados de treinamento T com n amostras, cada amostra x recebe um peso inicial wi = 1 = n. O primeiro classificador é treinado com todas as amostras. Em seguida, é testado utili- zando as mesmas amostras. O peso das amostras classificadas erroneamente, tem seu valor acrescido, já as amostras classificadas de forma correta tem seus pesos mantidos. O

classificador que acertar as amostras mais difíceis receberá um peso maior. Esse proce- dimento se repetirá até se completar N componentes (valor informado previamente), ou quando εN ≤ 0 ou εN ≥ 0.5, sendo εN o erro agregado. A resposta final do comitê é

resultante de um voto ponderado de todos os componentes. Na Figura 2.7 temos a ilus- tração do processo de geração de componentes via algoritmo Boosting.

Figura 2.7: Processo de geração de componentes via método Boosting (Nascimento, 2009).

Em todos os caso, tanto no algoritmo Bagging quanto no Boosting, a grande vantagem em se usar estes métodos de construção de comitê é a questão da diminuição do bias ou polarização [Gama 1999]; [Coelho 2004] e [Breiman 1996], que se constitui de certa forma a escolha efetuada pelos indutores na busca de uma hipótese, ou seja, a pre- dição escolhida pelos algoritmos de forma a generalizar os dados de treinamento.

Seleção de componentes

Uma vez de posse dos componentes postulantes a comporem o comitê treinados, técni- cas de meta-aprendizagem podem ser aplicadas para selecionar os melhores componentes que efetivamente contribuem para a eficácia do comitê.

Combinação de componentes

A categorização de métodos de combinação de classificadores (conhecida por comitê) , geralmente, é realizada sob duas vertentes complementares [Coelho 2004]: uma baseada em seleção e outra em fusão. O pressuposto no caso da seleção é que cada componente seja um especialista em alguma região local do espaço de atributos. No segundo caso, os métodos eleitos na fusão de classificadores assumem que todos os componentes são bem indicados para lidarem com todo o espaço de entrada e, consequentemente, as respostas de todos devem ser consideradas. O conhecimento implícito nos métodos de combinação pode ser explorado por técnicas de meta-aprendizagem para determinar o melhor método a ser utilizado como meta-classificador. Contudo, neste trabalho este não constitui um objetivo.

No documento Abordagem de construção de arquitetura homogênea para comitês via meta-aprendizagem (páginas 31-40)