Organização da Dissertação - Optimização de métodos de núcleo utilizando algoritimos de enxame

Após esta introdução, o restante desta dissertação encontra-se organizado da forma a seguir descrita. No próximo capítulo apresentamos de forma sumária a formulação clássica das máquinas de vectores de suporte e discutimos as consequências da utili- zação de funções de núcleo não positivas semi-definidas. O capítulo 3 consiste numa introdução à computação evolucionária, com particular ênfase na inteligência de enxame. No capítulo 4 resumimos as principais abordagens evolucionárias aos diversos aspectos inerentes à utilização de MVS presentes na bibliografia da área e discutimos as oportunidades de investigação em aberto. O capítulo 5 é dedicado à introdução do algoritmo de optimização predador-presa com batedores, bem como à descrição do ambiente experimental onde será testado, incluindo os diversos algoritmos utilizados para comparação e as diversas funções de teste. Os resultados experimentais obtidos pelos algoritmos de optimização e a sua discussão são apresentados no capítulo 6. No capí- tulo 7 descrevemos a adaptação do algoritmo genérico desenvolvido anteriormente ao problema específico do treino de máquinas de vectores de suporte e a sua integração no algoritmo global de optimização de MVS, o qual é igualmente apresentado. Também neste capítulo descrevemos o ambiente experimental onde testaremos os algoritmos, incluindo os diversos conjuntos de dados correspondentes a problemas de classificação e os algoritmos utilizados para comparação. No capítulo 8 apresentamos e discutimos os resultados obtidos pelos algoritmos de treino utilizando diversas funções de núcleo, bem como os resultados do algoritmo de optimização de MVS. Finalmente, o capí- tulo 9 inclui as conclusões finais retiradas deste trabalho, sendo ainda discutidas as perspectivas de trabalho futuro que o mesmo abre.

Capítulo 2

Máquinas de Vectores de Suporte

Na sua formulação mais habitual (ver, por exemplo, [Burges, 1998; Cristianini and Scholkopf, 2002; Shawe-Taylor and Cristianini, 2004]), as máquinas de vector de suporte, são mecanismos de classificação que, dado um conjunto de treino

T =_{(x1, y1), ..., (xn, yn)}, (2.1)

com xi 2 Rm e yi 2 {±1}, assumindo n exemplos com m atributos reais, procuram

aprender um hiperplano

hw, xi + b = 0, (2.2)

com w 2 Rm _{e b 2 R, que correctamente separe todos os exemplos da classe 1 dos da}

classe +1. Utilizando este hiperplano, uma nova instância x é classificada de acordo com

f (x) = sgn(hw, xi + b). (2.3)

Existem muitos métodos que permitem aprender o hiperplano em (2.2), e.g., através da regra de treino do perceptrão, mas, na sua generalidade, todos se baseiam na minimi- zação do risco empírico, aproximado pelo erro de classificação no conjunto de exemplos de treino. Como a figura 2.1 procura ilustrar, estes métodos podem encontrar uma infinidade de hiperplanos, todos com o mesmo desempenho nos dados de treino, mas cujo desempenho poderá ser diferente quanto testados em novas instâncias.

hw, xi + b = 0 yi = +1

yi = 1

hw0_{, x}_{i + b}0 _{= 0}

hw00_{, x}_{i + b}00_{= 0}

Figura 2.1: Quando os dados de treino são linearmente separáveis, existe uma infinidade de hiperplanos hw, xi + b = 0, com diferentes valores para w e b, que correctamente separam todos os exemplos com classe yi= 1(círculos preenchidos a branco)

dos exemplos com classe yi = +1 (círculos preenchidos a negro).

2.1 MVS para Dados Linearmente Separáveis

Um dos aspectos em que as máquinas de vector de suporte se diferenciam de outros métodos de classificação é no facto de, no seu treino, não ser apenas minimizado o risco empírico. É intuitivo considerar que, de todos os hiperplanos que correctamente classificam os exemplos de treino, aquele que mais distância apresentar em relação aos exemplos mais próximos é também aquele que melhor generalizará quando novos dados lhe forem apresentados para classificação. Podemos pensar que este é o hiperplano que apresenta uma maior margem de erro para novas instâncias, já que, ao maximizar a distância às regiões ocupadas por cada classe, garante uma maior tolerância no caso da classificação de novas instâncias que se encontrem entre essa região e o hiperplano classificador.

A maximização dessa distância, ou margem, entre o hiperplano discriminador e os exemplos mais próximos, é uma característica dos chamados métodos de margem larga1_,

dos quais as máquinas de vectores de suporte são uma instância. Maximizar a margem é uma forma de diminuir o chamado risco estrutural, o qual está relacionado com a qualidade da função de decisão. As máquinas de vectores de suporte procuram portanto minimizar o risco estrutural, o qual engloba não só o risco empírico, mas também uma medida da qualidade do classificador. De uma forma geral, esta abordagem procura evitar o sobre-ajustamento do classificador, dando preferência a funções de classifi-

2.1. MVS PARA DADOS LINEARMENTE SEPARÁVEIS 11 cação que aparentem ser mais promissoras do ponto de vista da sua capacidade de generalização para novos dados.

b kwk w hw, xi + b = +1 hw, xi + b = 0 hw, xi + b = 1 yi = +1 yi = 1

Figura 2.2: Hiperplano óptimo seleccionado para maximizar a margem, ou distância até aos exemplos mais próximos, num problema de classificação. O hiperplano é defi- nido pelo vector w, que lhe é perpendicular, e pelo limiar b. A distância do hiperplano à origem é dada por |b|

kwk. Os pontos mais próximos do hiperplano (assinalados com

um duplo círculo) são denominados vectores de suporte.

A figura 2.2 ilustra o hiperplano óptimo pretendido para uma máquina de vectores de suporte num problema de classificação binário. O treino ou optimização de uma máquina de vectores de suporte consiste na procura desse hiperplano de entre todos aqueles que classificam correctamente os exemplos. Para qualquer hiperplano que clas- sifique correctamente todos os pontos do conjunto de treino (xi, yi), verifica-se que:

8i : yi(hw, xii + b) > 0. (2.4)

Normalizando w e b de maneira a que os pontos mais próximos do hiperplano separador satisfaçam |hw, xi + b| = 1, podemos reescrever a equação (2.4) como:

8i : yi(hw, xii + b) > 1, (2.5)

Os exemplos mais próximos do hiperplano separador encontram-se, após esta norma- lização, sobre os hiperplanos hw, xii + b = 1 e hw, xii + b = 1, como se pode ver na

figura 2.2. A distância respectiva destes hiperplanos à origem é dada por |1 b| kwk e

| 1 b| kwk .

Como os hiperplanos são paralelos, a distância entre eles, denominada margem, é dada

por 2

Assim, o hiperplano classificador óptimo pode ser encontrado maximizando a margem

kwk, ou, de maneira a simplificar os cálculos posteriores, minimizando 1

2kwk sujeito

às restrições (2.5). O problema de optimização para uma MVS linear e um problema linearmente separável é então:

minimizar 1 2kwk

, (2.6)

sujeito a 8i : yi(hw, xii + b) > 1. (2.7)

No documento Optimização de métodos de núcleo utilizando algoritimos de enxame (páginas 31-35)