S UPPORT V ECTOR M ACHINES - Contribuições ao desenvolvimento de interfaces cérebro-computador

3.4 C LASSIFICAÇÃO

3.4.2 S UPPORT V ECTOR M ACHINES

As máquinas de vetores de suporte (SVMs) são estruturas muito úteis para solucionar problemas de classificação e regressão no contexto de aprendizagem de máquina e reconhecimento de padrões. Um sistema de classificação SVM segue dois estágios: treinamento e classificação. No treinamento, os dados rotulados são usados para determinar um hiperplano ótimo que permita a separação das classes. Uma vez definido o hiperplano ótimo, a SVM é capaz de operar a classificação de dados novos. Entretanto, determinar a superfície ótima de separação não é um problema trivial. Em 1965, Vapnik apresentou os conceitos envolvidos na definição do hiperplano ótimo como sendo uma função que permita distinguir as classes com máxima margem, conforme mostra a Figura 3.11 (VAPNIK, 1982).

Figura 3.11 – Separação de duas classes utilizando SVM.

Vapnik demonstrou que o hiperplano ótimo pode ser projetado usando somente os vetores de suporte, ou seja, os dados do vetor de treinamento que determinam as margens das classes. Esta solução assegura alta capacidade de generalização da SVM (CORTES; VAPNIK, 1995).

Para melhor compreensão, considere o problema de separação de duas classes, no qual o conjunto de dados de treinamento é linearmente separável. Seja 𝒙𝒊 a i-ésima entrada da matriz de dados e 𝑦_𝑖 o rótulo correspondente, que pode assumir valores +1 e -1. Então, existe um classificador com parâmetros 𝒘 e 𝑏 tal que:

PROCESSAMENTO DE SINAIS APLICADO A SISTEMAS BCI-SSVEP 79

{_𝒘𝒙𝒘𝒙𝒊+ 𝑏 ≥ +1 ⇒ 𝑦𝑖 = +1

𝒊+ 𝑏 ≤ −1 ⇒ 𝑦𝑖 = −1 (3.52)

Combinando as duas desigualdades, obtém-se:

𝑦𝑖(𝒘𝒙𝒊+ 𝑏) − 1 ≥ 0 ∀𝑖 (3.53)

Se os dados são linearmente separáveis, os dados limites se transformam nas igualdades da expressão (3.52), ou seja, os vetores de suporte são tais que satisfazem:

𝑦𝑖(𝒘𝒙𝒊+ 𝑏) = 1 (3.54)

Desta forma, o hiperplano ótimo, capaz de separar os dados de treinamento com a máxima margem, é dado por:

𝑔(𝒙) = 𝒘𝑇_{𝒙 + 𝑏 = 0} _(3.55)

sendo a distância entre as projeções das duas classes dada por: 𝐷(𝒘, 𝑏) = min {𝑥:𝑦=1} 𝒙. 𝒘 ‖𝒘‖− max{𝑥:𝑦=−1} 𝒙. 𝒘 ‖𝒘‖ (3.56)

O termo da minimização e maximização definem os vetores de suporte, para as classes 𝑦𝑖 = +1 e 𝑦𝑖 = −1, respectivamente. Note que há uma normalização com respeito ao vetor de pesos, dividindo-se por ||w||, de modo a evitar distorções na análise. Assim, para SVM, o hiperplano ótimo que maximiza a margem é aquele que, obedecendo às restrições de (3.52), possui norma mínima para o vetor de pesos 𝒘:

𝜌(𝒘𝒐, 𝑏𝑜) = 2

‖𝒘𝒐‖ (3.57)

O projeto de um classificador deste tipo leva a um problema de otimização de ordem quadrática, cuja solução pode ser encontrada por meio do lagrangiano:

𝐿(𝒘, 𝑏, 𝝀) =1

2𝒘𝑻𝒘 − ∑ 𝜆𝑖(𝑦𝑖(𝒘𝑻𝒙𝒊+ 𝑏) − 1) 𝑁

𝑖=1

(3.58) onde 𝝀 é o vetor dos multiplicadores de Lagrange e N é o número de dados do conjunto de treinamento. A obtenção dos parâmetros passa por um processo de minimização com respeito aos parâmetros do classificador 𝒘 e 𝑏 e por uma maximização com respeito aos multiplicadores de Lagrange, conforme segue:

𝜕𝐿 𝜕𝒘= 𝒘 − ∑ 𝜆𝑖𝑦𝑖𝒙𝑖 𝑁 𝑖=1 = 𝟎 (3.59) e 𝜕𝐿 𝜕𝑏= ∑ 𝜆𝑖𝑦𝑖 𝑁 𝑖=1 = 0 (3.60)

A equação (3.59) permite obter a expressão que determina o vetor de pesos ótimos como sendo uma combinação linear dos dados para os quais os multiplicadores de Lagrange são não nulos:

𝒘𝒐 = ∑ 𝜆𝑖𝑦𝑖𝒙𝑖 𝑁

𝑖=1

(3.61)

Substituindo as expressões (3.59) e (3.60) em (3.58), tem-se:

𝐿(𝝀) = ∑ 𝜆𝑖 − 1 2(𝒘𝒐𝑻𝒘𝒐) 𝑁 𝑖=1 (3.62)

A tarefa do projeto do classificador de máxima margem é equivalente a maximizar a expressão (3.62) com a restrição dada por (3.60) e a restrição determinada pela desigualdade 𝜆_𝑖 > 0, 𝑖 = 1, … , 𝑁 . Existem diferentes metodologias para solucionar esse problema, conforme apresentam (CRISTIANINI; SHAWE-TAYLOR, 2000) e (CORTES; VAPNIK, 1995).

A formulação do classificador linear de máxima margem fornece a base conceitual à teoria de SVMs. Como nem sempre as classes são linearmente separáveis no espaço original, a ideia da SVM é mapear um vetor de entrada n-dimensional em um espaço de alta dimensão, no qual as classes sejam linearmente separáveis. O mapeamento é definido por uma função não linear que projeta cada ponto 𝑥_𝑖 do vetor de entradas, em uma imagem 𝜙(𝑥𝑖) no espaço de características. Diferentes mapeamentos constroem diferentes SVMs. A Figura 3.12 ilustra um processo de classificação linear no espaço de características.

PROCESSAMENTO DE SINAIS APLICADO A SISTEMAS BCI-SSVEP 81

Figura 3.12 – Mapeamento do vetor de entrada em um espaço de alta dimensão para ilustrar a operação de uma SVM baseada em kernels.

No espaço na qual as classes são linearmente separáveis, o SVM simplesmente procura pelo hiperplano de máxima margem. Desta forma, a saída do classificador pode ser determinada por:

𝑓(𝒙) = 𝒘𝜙(𝒙) + 𝑏 (3.63)

e o vetor de pesos ótimos passa a ser:

𝒘_𝒐 = ∑ 𝜆_𝑖𝑦_𝑖𝜙(𝒙_𝑖) 𝑁

𝑖=1

(3.64)

de modo que a expressão do classificador pode ser reescrita como: 𝑓(𝒙) = ∑ 𝜆_𝑖𝑦_𝑖𝜙𝑇_(𝒙

𝑖)𝜙(𝒙) + 𝑏 𝑁

𝑖=1

(3.65)

Desta forma a operação do classificador depende da realização de produtos escalares 𝜙𝑇(𝑥_𝑖)𝜙(𝒙) em um espaço de alta dimensão. Em 1992, (BOSER; GUYON; VAPNIK) mostraram que, para se evitar o alto custo computacional de se trabalhar com os dados em um espaço de alta dimensão, era possível trabalhar com funções de kernel. Na prática, a etapa de treinamento de uma SVM é realizada no espaço de dados original usando funções de kernel. Uma função de kernel pode ser definida como:

𝐾(𝒖, 𝐯) = 𝜙𝑇_{(𝒖)𝜙(𝐯)} _(3.66)

O teorema de Mercer (CORTES; VAPNIK, 1995) apresenta uma condição necessária e suficiente para assegurar que a função de kernel, realmente, defina o produto escalar. Deve-se garantir que:

∬ 𝐾(𝒖, 𝒗)𝑔(𝒖)𝑔(𝒗)𝑑𝒖𝑑𝒗 > 0 (3.67) é satisfeito para todo g tal que:

∫ 𝑔2_{(𝒖)𝑑𝒖 < ∞} _(3.68)

Existem inúmeras funções de kernel que podem ser usadas no contexto de SVM, como:

 Kernel polinomial:

𝐾(𝒙, 𝒚) = 1 + 𝒙𝑇_𝒚 _(3.69)

 Kernel função de base radial (RBF):

𝐾(𝒙, 𝒚) = exp (−(𝒙 − 𝒚)𝑇(𝒙 − 𝒚)

2𝜎 ) (3.70)

com 𝜎 ≥ 0.

 Kernel multilayer perceptron (MLP): 𝐾(𝒙, 𝒚) = tanh(𝑃₁𝒙𝑇_{𝒚 + 𝑃}

2) (3.71)

com 𝑃₁ ≥ 0 e 𝑃₂ ≤ 0.

Após a escolha de uma função de kernel, a superfície de decisão pode ser definida como:

𝑓(𝒙) = ∑ 𝜆𝑖𝑦𝑖𝐾(𝒙, 𝒙𝑖) + 𝑏 𝑁

𝑖=1

(3.72)

Desta maneira, pode-se construir o classificador aplicando-se toda a dedução vista para se determinar os hiperplanos de máxima margem. A diferença é que a matriz de dados de entrada, ao invés de ser determinada por 𝐷_𝑖𝑗 = 𝑦_𝑖𝑦_𝑗𝑥_𝑖𝑇𝑥_𝑗, passa a ser dada por 𝐷_𝑖𝑗 = 𝑦_𝑖𝑦_𝑗𝐾(𝑥_𝑖, 𝑥_𝑗).

O número de vetores de suporte no modelo resultante é, geralmente, muito menor que o número de pontos do conjunto de treinamento. Uma vantagem da SVM é que, embora o treinamento envolva otimização não linear, a função objetivo é convexa e, portanto, a solução de otimização é relativamente direta.

PROCESSAMENTO DE SINAIS APLICADO A SISTEMAS BCI-SSVEP 83

No documento Contribuições ao desenvolvimento de interfaces cérebro-computador baseadas em potenciais evocados visualmente em regime estacionário (páginas 78-83)