Support vector machine - Aprendizado de máquina e aplicação do método de aprendizado supervisio

Uma máquina de vetores de suporte é um classificador formalmente definido por um hiperplano de separa¸cão. O objetivo do SVM é encontrar dentre todos os hiperplanos o que minimiza o risco emp´ırico, isto é, procura maximizar a margem do classificador linear. A figura 4 tem como exemplo três hiperplanos para a classifica¸cão dos dados, é poss´ıvel perceber que o classificador linear que possui a maior margem é o destacado em verde.

Figura 4: Poss´ıveis hiperplanos.

Na imagem que segue estão destacados e numerados por (2) os vetores de suporte, também conhecidos como pontos cr´ıticos. Já em azul claro, indicado pelo número (1), a margem do classificador linear.

Mas em situa¸cões reais, não permitir que alguns dados permane¸cam na margem definida pelos hiperplanos reduz a generaliza¸cão, incapacitando de lidar com conjuntos de treinamento mais gerais. Por isso, a ado¸cão das margens suaves, onde há o relaxamento de restri¸cões impostas ao problema de otimiza¸cão com a introdu¸cão de variáveis de folga. As SVMs obtidas permitindo a aplica¸cão desse procedimento que permite a ocorrência de alguns erros de classifica¸cão são referenciadas como SVMs com margens suaves.

As SVMs lineares de margens suaves admitem a presen¸ca de alguns ru´ıdos e outliers al´em de apresentar desempenho suficiente para problemas linearmente separ´aveis, mas alguns conjuntos de dados exigem fronteiras mais complexas que lineares.

Com o emprego de um procedimento motivado pelo teorema de Cover, é poss´ıvel a generaliza¸cão de SVMs para problemas não lineares.

Teorema 3.7.1 Teorema de Cover [8]

Um conjunto de dados não lineares em um espa¸co de alta dimensão é mais suscet´ıvel a ser linearmente separável do que em um espa¸co de menor dimensão, na condi¸cão de que o espa¸co não seja excessivamente povoado.

Mapeando as amostras de treinamento do espa¸co original e transformando por meio de uma fun¸cão para um espa¸co de maior dimensão, chamado de espa¸co de caracter´ısticas, se torna viável a aplica¸cão do SVM linear.

Na imagem que segue em 7(a), um exemplo do espa¸co de entrada, com os dados representados em IR2 por suas caracter´ısticas. Já em 7(b) apresenta em IR3 o espa¸co de caracter´ısticas onde os dados representados são transformados da fun¸cão Φ(X, Y ) = (X2,√2XY, Y2), tornando poss´ıvel uma separa¸cão dos dados por um plano.

Figura 6: Mapeamento de dados de entrada para um espa¸co de maior dimens˜ao.

(a) Espa¸co de entrada (b) Espa¸co de caracteristicas

Mas a fun¸cão Φ pode ter dimensão muito alta e ser custosa computacionalmente. Todavia, a informa¸cão relevante sobre o mapeamento é de como realizar o produto escalar

entre os pontos no espa¸co de caracter´ıstica, o que pode ser feito pela fun¸c˜ao kernel, desde que siga as condi¸c˜oes impostas pelo Teorema de Mercer [9].

Um kernel é uma fun¸cão cont´ınua que de duas variáveis x e y as mapeia para um valor real tal que, k(x, y) = k(y, x), isto é, uma fun¸cão simétrica. Mais detalhes no anexo 11.1. O objetivo da SVM é de encontrar um hiperplano que separe os dados do espa¸co caracter´ıstica de forma ótima. Para os dados não linearmente separáveis originalmente, a utiliza¸cão do Kernel evita o mapeamento expl´ıcito dado pela fun¸cão Φ e torna o problema linearmente separável. Pelo Teorema de Mercer [9], a fun¸cão Kernel recebe os pontos do espa¸co de entrada e calcula o produto escalar entre eles no espa¸co caracter´ıstica, desde que defina Kernel como matriz positivamente definida e que tenha autovalores maior do que zero.

Os Kernels mais utilizados s˜ao:

• Polinomial

K(x, y) = (γ.(xTy) + c)d,

onde os Kernels polinomiais com o parˆametro d = 1 ´e considerado Kernel Linear. • Radial

K(x, y) = e−γ||x−y||2 • Tangente Hiperb´olica

K(x, y) = tanh(γ.(xTy) + c),

as condi¸c˜oes de Mercer s˜ao satisfeitas apenas para alguns valores de γ e de c.

Para a obten¸cão de um classificador por meio do uso de SVMs, é preciso a escolha de uma fun¸cão Kernel e seus parâmetros, assim como de um algoritmo para a determina¸cão do hiperplano ótimo. A escolha do Kernel e dos parâmetros considerados tem efeito no desempenho do classificador obtido, pois eles definem a fronteira de decisão induzida.

4 Aplica¸c˜ao

Foi utilizado o pacote e1071[3], no R [2]. Segue as etapas para a aplica¸c˜ao do SVM no R:

Primeiro ´e necess´ario instalar o pacote e chamar a biblioteca.

install.packages("e1071", dependencies = T) library(e1071)

Então é criada uma amostra de teste e outra de treinamento. A amostra de teste é qual será utilizada para verificar a adequa¸cão do modelo, enquanto a amostra de treinamento é utilizada na cria¸cão do modelo. O tamanho da amostra de teste geralmente é menor que a amostra de treinamento, isto é, N ≥ n

amostra_teste = Amostra de tamanho n da popula¸c~ao de estudo

amostra_treinamento = Amostra de tamanho N da popula¸c~ao de estudo

Para a constru¸cão do modelo foi utilizado o tipo “C-classification” para a classifica¸cão da variável X , o pacote também tem op¸cão para regressão. No trabalho foram testados os modelos com kernel linear e radial, “linear” e “radial” respectivamente.

modelo_svm = svm(x ~ ., data=amostra_treinamento, method="C-classification", kernel="linear")

E poss´ıvel visualizar os vetores de suporte, a divis˜ao realizada pelo modelo e a real classifica¸c˜ao. Para observar graficamente a modelagem, utiliza-se o seguinte comando.

plot(x=modelo_svm, data=amostra_treinamento)

Então é realizada a predi¸cão com a amostra de teste. Utilizada para ver se o modelo está bem adequado para a popula¸cão real, e não só para a amostra de treinamento.

4.1 Duas popula¸c˜oes ambas com caracter´ıstica expo-

No documento Aprendizado de máquina e aplicação do método de aprendizado supervisionado support vector machine (páginas 39-44)