Optimização paramétrica - Inteligência de Enxame

3.5 Inteligência de Enxame

4.1.1 Optimização paramétrica

A escolha dos parâmetros de uma MVS pode influenciar significativamente o seu desempenho. Os parâmetros em questão incluem, por um lado, o parâmetro C de regu- larização, utilizado na função objectivo para controlar o equilíbrio entre complexidade do modelo e número de erros, e, por outro lado, os parâmetros específicos da função de núcleo escolhida. Em muita da bibliografia da área a função de núcleo é a função de base radial gaussiana (FBR), a qual possui um único parâmetro (ou ) para definir. A técnica padrão para a escolha destes parâmetros consiste na utilização de um algori-

tmo de grelha. Este algoritmo define uma grelha de pontos sobre o espaço de procura, os quais são utilizados para treinar a máquina de vectores de suporte. O ponto cor- respondente ao melhor desempenho é escolhido para fornecer os valores definitivos dos parâmetros ou, alternativamente, uma grelha mais fina pode ser criada em torno deste ponto promissor, caso o desempenho não seja considerado satisfatório. Este algoritmo é, no entanto, pouco eficiente computacionalmente e facilmente fica preso em óptimos locais. Abordagens mais sofisticadas implicam a utilização de métodos de descida de gradiente, os quais implicam condições de diferenciabilidade sobre a função de núcleo e a medida de erro utilizada, além de não lidarem de forma adequada com possíveis óptimos locais.

Os algoritmos evolucionários são algoritmos de optimização global que facilmente po- dem ser aplicados a qualquer problema de optimização paramétrica. No contexto das máquinas de vectores de suporte, no caso mais simples, há apenas dois ou três parâme- tros para optimizar, não sendo por isso inesperado que existam na bibliografia diversas abordagens à selecção dos parâmetros das MVS, utilizando diversas técnicas evolucio- nárias. Nos parágrafos seguintes revemos algumas das abordagens mais interessantes ou paradigmáticas da bibliografia.

Friedrichs and Igel [2005] utilizam EE-AMC, uma estratégia evolutiva, para optimizar os parâmetros da função de núcleo gaussiana, a qual é generalizada através da utilização de uma matriz de rotação e escala. São testados três modelos diferentes, optimizando apenas o parâmetro base, permitindo a escala independente dos diversos componentes do vector de entrada e permitindo simultaneamente escala e rotação dos dados. A codificação real representa os valores da matriz e ainda o parâmetro C, sendo por isso abordado um problema mais complexo do que a simples optimização de dois parâme- tros. Uma investigação do desempenho obtido a partir dos parâmetros encontrados por um algoritmo de grelha permitiu observar que a optimização destes parâmetros pode ser um problema multimodal. Para vários conjuntos de dados de teste foi possível produzir melhorias em relação à optimização dos parâmetros base usando o algoritmo de grelha. Os melhores resultados foram obtidos pela abordagem que permite a escala independente dos diversos componentes do vector de entrada, sendo que a versão que permitia a rotação dos dados geralmente não produziu melhorias significativas em relação à versão anterior.

Também Runarsson and Sigurdsson [2004] utilizam estratégias evolutivas, mas apenas para evoluir o parâmetro C e o parâmetro de uma RBF. O aspecto interessante desta abordagem tem a ver com o facto de não utilizar validação cruzada ou um conjunto de teste para avaliar os indivíduos, antes utilizando vários critérios diferentes, com bases teóricas fortes, para estimar o desempenho em termos de erro de generalização das MVS resultantes. A medida de desempenho mais promissora parece ser (R2₊ 1

P ↵i,

4.1. OPTIMIZAÇÃO DE PARÂMETROS E CARACTERÍSTICAS 45 hiper-esfera centrada na origem que engloba todos os dados de treino no espaço de características.

Pai [2006] utiliza um algoritmo genético com representação binária para optimizar os parâmetros C e ✏ de uma MVS utilizada para regressão numérica, bem como o parâmetro da função de núcleo, no contexto da previsão de fiabilidade e previsão de falhas. A solução final revelou-se mais precisa do que vários outros modelos de regressão utilizados, bem como em relação a MVS não optimizadas. Já Wu et al [2007] optimizam C e utilizando um algoritmo genético com representação real, num problema de classificação de insolvência. O classificador baseado na MVS optimizada pelo AG revelou-se mais preciso do que vários outros modelos, incluindo MVS simples, redes neuronais e análise discriminante.

Também a optimização por enxames de formigas tem sido utilizada na optimização paramétrica das MVS, o que não é inesperado, já que a sua representação original, utilizando valores reais, bem como a simplicidade de implementação, se prestam facilmente a este tipo de aplicação. Lee et al [2006] optimizam os parâmetros de uma MVS de mínimos quadrados para um problema de identificação de sistemas não linea- res utilizando OEP. Guo et al [2008] fazem o mesmo, mas para diversos conjuntos de dados e comparando com outros classificadores. As MVS de mínimos quadrados, com os parâmetros optimizados, revelaram-se superiores em termos de precisão. Wang et al [2006] optimizam dois parâmetros da função de núcleo num problema de regressão nu- mérica, utilizando máquinas de vectores de suporte de mínimos quadrados. Finalmente de Souza et al [2006] utilizam optimização por enxames de partículas para optimiza- ção dos parâmetros de MVS para problemas de classificação múltipla. Neste caso é necessário optimizar um par de parâmetros para cada MVS.

Hong et al [2007] usam uma forma diferente de inteligência de enxame, uma versão do algoritmo de optimização por colónias de formigas, para optimizar os parâmetros do núcleo e da MVS num conjunto de problema de regressão numérica relacionados com a previsão de valores cambiais. A MVS com optimização de parâmetros obteve melhores resultados experimentais que vários outros modelos de regressão, incluindo redes neuronais.

Alguns autores tentaram comparar diversas abordagens evolucionárias num mesmo problema, ou conjunto de problemas. Rossi and de Carvalho [2008] comparam várias abordagens evolucionárias na optimização de MVS com função de núcleo gaussiana. A comparação é feita utilizando quatro conjuntos de dados de expressão genética, sendo que os métodos comparados incluem optimização por colónias de formigas, algoritmos genéticos, optimização por enxames de partículas e um algoritmo de selecção clonal (outra forma de computação natural). Os resultados obtidos são também comparados com os valores sugeridos pelo pacote de software que implementa as MVS, o qual usa uma procura em grelha paralela para optimizar os parâmetros. O desempenho dos

indivíduos é medido, como habitualmente, através do erro de generalização das MVS estimado por validação cruzada. Os resultados não são claros, com diversas abordagens a apresentar vantagem em problemas diferentes. As abordagens evolucionárias foram sempre competitivas com a procura em grelha, sendo inclusivamente menos dispendi- osas do ponto de vista computacional.

Gilsberts et al [2010] usam três algoritmos evolucionários diferentes para optimizar os parâmetros de uma formulação especial de MVS, as máquinas de vectores de suporte de mínimos quadrados. Os parâmetros são optimizados utilizando um AG com repre- sentação binária, outro com representação real e finalmente utilizando uma estratégia evolutiva. Um quarto modelo, que será discutido mais tarde, combina a optimização evolucionária de parâmetros com a evolução de combinações de funções de núcleo utilizando programação genética. Ao contrário de abordagens anteriores, os resultados experimentais nos conjuntos de dados testados, embora competitivos com os de um algoritmo de grelha utilizado (e necessitando de menos recursos computacionais), não resultaram em classificadores com desempenho claramente melhor.

No documento Optimização de métodos de núcleo utilizando algoritimos de enxame (páginas 66-69)