Optimização linear por enxames de partículas

4.3 Treino de MVS Utilizando Computação Evolucionária

4.3.1 Optimização linear por enxames de partículas

A primeira abordagem que encontramos na bibliografia ao treino de máquinas de vectores de suporte surge em [Paquet and Engelbrecht, 2003b], onde é proposta a optimi- zação dos parâmetros ↵ do problema dual, utilizando o algoritmo de optimização por enxame de partículas. Esta abordagem parte dos métodos de decomposição geralmente utilizados para resolver o problema de programação quadrática associado ao treino de uma MVS. Estes métodos resolvem de forma numérica (com excepção da OSM) um subproblema correspondente a um subconjunto dos exemplos de treino, processo que é repetido iterativamente até o óptimo ser encontrado.

Partindo da abordagem de base, também aqui a OEP é utilizada para resolver subpro- blemas sucessivos e não o problema global. Para tal foi desenvolvida uma versão linear do algoritmo, chamada optimização linear por enxames de partículas (OLEP), a qual introduz alterações ao algoritmo de OEP básico no sentido de satisfazer a restrição linear do problema de optimização. A ideia básica é que, estando a função a optimizar sujeita a restrições lineares do tipo Ap = b, o enxame deve ser obrigado a “voar” no hiperplano P de soluções admissíveis, {p 2 P|Ap = b}, consistindo portanto num método de preservação da admissibilidade das soluções.

O algoritmo garante tal comportamento ao iniciar o enxame de maneira a que a posição inicial p0

4.3. TREINO DE MVS UTILIZANDO COMPUTAÇÃO EVOLUCIONÁRIA 59 soluções admissíveis. Alterando as equações originais do algoritmo de OEP de maneira a obrigar a que as alterações de velocidade sejam combinações lineares dos vectores de posições e velocidades, o algoritmo garante que as partículas iniciadas no hiperplano Pnele se mantêm até o algoritmo terminar. As equações do OLEP são então:

vt+1_i = vit+ u(0, 1) (pti xti) + u(0, 2) (ptg xti) (4.1)

xt+1_i = xt_i+ v_it (4.2)

A diferença em relação às equações padrão está no facto de, em vez dos vectores de números aleatórios u(0, 1)e u(0, 2), termos as variáveis aletórias u(0, 1)e u(0, 2). A

satisfação das restrições de domínio das variáveis ↵ é garantida limitando o movimento das partículas ao hipercubo definido por aquelas restrições.

Esta abordagem à utilização de OLEP na resolução do problema de programação qua- drática de treino das MVS, sendo baseada nos métodos de decomposição, necessita de um método de selecção de subconjuntos óptimos das variáveis de optimização e res- pectivos exemplos de treino. É este o subconjunto das variáveis que vai ser optimizado em cada iteração geral do algoritmo, enquanto o valor das restantes se mantém fixo. Aqui é utilizado um critério baseado no declive da função objectivo, estando portanto dependente do facto da função de núcleo ser positiva semi-definida, resultando numa função objectivo com apenas um óptimo. Caso a função de núcleo não cumpra aquela propriedade, e a função objectivo seja multimodal, esta abordagem poderá ficar presa em qualquer óptimo local.

A abordagem foi testada num conjunto de dados de reconhecimento de caracteres, consistindo num conjunto de treino com 60000 imagens de dígitos, o que permite observar não só a viabilidade da abordagem, mas também o seu desempenho num problema de elevada dimensionalidade. Os resultados permitem concluir que os algoritmos de OEP podem ser utilizados com sucesso neste problema em particular, obtendo um desempenho comparável, em termos de classificação, com aqueles obtidos por dois algoritmos tradicionais de treino de MVS (OSM, SVMLight). Note-se no entanto que, em termos de complexidade temporal, os resultados experimentais sugerem que a OLEP necessita de muito mais tempo para fazer a optimização (superior a 10 vezes, em média). Por ou- tro lado a abordagem evolucionária revelou escalar melhor, em termos de complexidade computacional, do que as outras abordagens.

Consequentemente, esta primeira abordagem evolucionária ao treino de máquinas de vectores de suporte, se por um lado permite concluir da viabilidade da aplicação dos algoritmos de OEP para a optimização de MVS com funções de núcleo definidas semi- positivas e problemas com elevado número de exemplos, dificilmente pode ser consi- derada competitiva com os métodos clássicos, não trazendo vantagens significativas

- além de uma maior facilidade de implementação - que possam justificar o seu uso generalizado. Em trabalho subsequente [Paquet and Engelbrecht, 2003a, 2007] foram identificadas outras fraquezas desta abordagem, sendo a mais significativa a do algoritmo alterado, em determinadas circunstâncias, poder convergir prematuramente, com as partículas a explorarem apenas a linha que as liga ao melhor ponto encontrado até à data, em vez de todo o hiperplano de soluções possíveis.

Alterações adicionais introduzidas nestes trabalhos permitem atenuar este problema, permitindo às partículas explorar o hiperplano em torno do melhor ponto encontrado, de maneira a garantir a convergência para um mínimo local, embora os algoritmos resultantes não pareçam promissores em ambientes com múltiplos óptimos, tal como é salientado pelos resultados experimentais apresentados. Adicionalmente, estas alte- rações apenas foram testadas em problemas benchmark genéricos de optimização com restrições lineares, não se conhecendo quais as consequências da sua aplicação ao treino de MVS em particular.

Ainda na mesma linha de abordagem, mas mais recentemente, Li et al [2007] introdu- ziram na OLEP um mecanismo alternativo para evitar a convergência prematura do algoritmo, nomeadamente um operador de mutação adaptativo, aplicando-o ao treino de MVS para dois problemas benchmark de baixa dimensionalidade. Os resultados experimentais são, no entanto, pouco conclusivos, devido ao facto de os problemas serem relativamente simples e de as outras limitações da abordagem não serem trata- das, especialmente o facto de não ser utilizável com funções de núcleo não positivas semi-definidas.

Trabalhos sobre mecanismos de tratamento das restrições lineares, como [Monson and Seppi, 2005], sugerem que a preservação da validade das restrições através da OLEP, limitando as alterações de velocidade a combinações lineares das posições das par- tículas no enxame, podem não ser as mais adequadas. Com efeito, esta limitação diminui a capacidade exploradora do enxame ao reduzir as dimensões efectivas que podem ser exploradas ao número de partículas linearmente independentes (pensando nas coordenadas das partículas como vectores). À medida que as partículas convergem também essa dimensionalidade efectiva diminui, com algumas partículas a explorarem simplesmente uma trajectória linear que passa por g, à medida que as restantes pa- ram. Monson and Seppi [2005] apontam ainda que mesmo a utilização de estratégias de aumento da diversidade podem ser de pouco uso efectivo nesta situação, já que são as próprias equações alteradas que sobre-restringem o comportamento exploratório do enxame.

4.3. TREINO DE MVS UTILIZANDO COMPUTAÇÃO EVOLUCIONÁRIA 61

No documento Optimização de métodos de núcleo utilizando algoritimos de enxame (páginas 81-84)