Support Vector Machine SVM - Algoritmos de Classificação

2 Referencial Teórico

2.2 Mineração de dados para explosões solares 1 Big Data

2.2.5 Algoritmos de Classificação

2.2.5.1 Support Vector Machine SVM

O Support Vector Machine (SVM) é um algoritmo sofisticado que pode ser utilizado em problemas que envolvam classificação ou regressão. É comum, encontrar implementações de

SVM em classificadores binários que possuam uma separação visível entre os padrões que definam as classes, e nestas situações o algoritmo encontra onde deve-se designar um hiperplano entre as classes, como mostra a Figura 9, de modo a permitir que as margens sejam otimizadas para encontrar as maiores distâncias possíveis entre os padrões das classes, utilizando os elementos mais próximas entre si, conforme pode ser acompanhado na Figura 10. (HAYKIN, 2001)

Figura 9 - Fronteira de decisão entre as classes linearmente separáveis

Figura 10 - Margem máxima da fronteira de decisão entre as classes linearmente separáveis

Fonte: GARETH et al., 2010

Estes elementos mais próximos entre si, porém de classes distintas, criam um pequeno subconjunto extraído da base utilizada para treinar o modelo, e são considerados os Vetores de Suporte, que estão ilustrados na Figura 11, e é com base na posição destes elementos que a margem otimizada é descoberta. (HAYKIN, 2001)

Figura 11 - Destaque para os Vetores de Suporte do hiperplano ótimo

Fonte: HAYKIN, 2001

O SVM também pode ser utilizado para elementos que não são linearmente separáveis, ou seja, seu padrão não possui uma fronteira de decisão definida ou também exista sobreposição de elementos. Ao aplicar técnicas de separação linear nos dados, existirá erros na saída da classificação. Como pode ser acompanhado na Figura 12 sendo que na Figura 12 (A) a projeção do ponto 𝑋𝑖 - pertencente à classe X - está do lado correto da fronteira de decisão mas dentro das margens; enquanto na Figura 12 (B) o ponto 𝑋𝑖 - pertencente à classe O - está do lado incorreto da fronteira de decisão, gerando o erro na classificação.

Figura 12 - Hiperplano ótimo entre classes que não são linearmente separáveis

Fonte: HAYKIN, 2001 2.2.5.2 Métodos de Avaliação de classificação

Avaliar a performance da descoberta de padrões descritivos e preditivos são diferentes. Cada tipo de paradigma de Aprendizagem de Máquina e seus objetivos de soluções também variam no método de validação. No caso de um Classificador, que faz parte do paradigma de aprendizagem supervisionada, os dados utilizados para treinar o modelo possuem os dados do atributo previsor e também do alvo. O método mais comum é, utilizando a base de treino e teste, comparar os resultados gerados pelo algoritmo com o que existe na variável alvo. Quanto mais o modelo preditivo responder corretamente na comparação com a classe real que está na variável alvo, mais assertivo está o algoritmo. (GOLDSCHMIDT et al., 2015)

Depois de se ter o modelo preditivo ajustado, é possível utilizá-lo para predizer exemplares desconhecidos. Estes exemplares não fazem parte da base de dados utilizada para treinar o modelo. A tarefa de teste apresenta os dados conhecidos para o algoritmo e recebe o resultado da classe predita. Esse resultado é comparado com o que existe na variável alvo e é medido o nível de assertividade do modelo. (SILVA, 2015)

Em problemas de classificação binária é utilizada uma matriz de tabulação cruzada dos resultados preditos com as classes originais observadas, conhecida como matriz de confusão, buscando entender a relação entre acertos e erros que o modelo apresenta. Esta matriz apresenta o número de Positivo Verdadeiro (True Positive - TP) que significa que a classe prevista e observada originalmente fazem parte da classe positiva, Falso Positivo (False Positive - FP) que significa que a classe predita retornou positivo mas a original observada era negativa,

Negativo Verdadeiro (True Negative - TN) os valores preditos e observados fazem parte da categoria negativa, e por fim, Falso Negativo (False Negative - FN) representa que o valor predito resultou na classe negativa mas o original observado era da classe positivo. (DOMIJAN et al., 2019)

Com base nos resultados da matriz de confusão, outros valores podem ser calculados. A taxa positiva verdadeira (True Positive Rate - TPR), ou sensibilidade, é a proporção de resultados corretamente classificados como positivo no resultado do modelo, comparado com todos os valores definidos como positivos observados na amostra, sendo calculado como 𝑇𝑃𝑅 =

𝑇𝑃

(𝑇𝑃+𝐹𝑁). A taxa negativa verdadeira (True Negative Rate - TNR), ou especificidade, é a

proporção de resultados classificados como negativos fora de todas as instâncias que não eram originalmente negativos e pode ser calculado com 𝑇𝑁𝑅 = 𝑇𝑁

(𝑇𝑁+𝐹𝑃). A taxa de falsos positivos

(False Positive Rate - FPR) é calculada por 𝐹𝑃𝑅 = 1 − 𝑇𝑁𝑅, e a taxa de falsos negativos (False Negative Rate - FNR) tem a formalização na equação 𝐹𝑁𝑅 = 1 − 𝑇𝑃𝑅. Um classificador que tenha bom desempenho dará um alto TPR e TNR e, conseqüentemente baixos, FPR e FNR. Para classificadores que fornecem saídas probabilísticas, a sensibilidade (TPR) pode ser aumentada diminuindo o limiar de p, mas isso aumenta automaticamente o FPR. A curva de característica de operação do receptor (Receiver Operating Characteristic - ROC) e a área sob a curva ROC (Area Under the ROC curve - AUC) são usados para comparar o desempenho de algoritmos em toda a faixa de limites normalizados entre 0 e 1. A curva ROC ideal tende ao canto superior esquerdo, resultando em alta TPR e baixa FPR, e o máximo. O valor possível para AUC é 1. (DOMIJAN et al., 2019)

Alguns outros métodos de avaliação também podem ser aplicados para mensurar a qualidade e assertividade das respostas do modelo desenvolvido. Métodos como Probability of Detection (POD) que pode ser calculado por 𝑃𝑂𝐷 = 𝑇𝐶

(𝑇𝐶+𝐹𝑁), False Alarm Rate (FAR) que é representado

pela equação 𝐹𝐴𝑅 = 𝐹𝐶

𝑇𝐶+𝐹𝐶, Heidke Skill Score (HSS) que possui a fórmula 𝐻𝑆𝑆 =

2∗[(𝑇𝐶∗𝑇𝑁)−(𝐹𝑁∗𝐹𝐶)]

(𝑇𝐶+𝐹𝑁)∗(𝐹𝑁+𝑇𝑁)+(𝑇𝐶+𝐹𝐶)∗(𝐹𝐶+𝑇𝑁) e mede a fração de predições corretas depois de ajustar as

previsões que seriam corretas devido à chance aleatória, e True Skill Score (TSS) que pode ser matematicamente representado por 𝑇𝑆𝑆 = 𝑇𝐶

(𝑇𝐶+𝐹𝑁)−

𝐹𝐶

(𝐹𝐶+𝑇𝑁) e combina a sensibilidade e

especificidade. É entendido que as métricas HSS e TSS são mais ajustadas que POD e FAR, com vantagens de utilizar todos os parâmetros como TC (todos os elementos classificados

corretamente), FN (taxa de falso negativo), FC (todos os elementos classificados de forma incorreta) e TN (taxa de falso positivo). Uma vantagem do TSS em comparação com o HSS, é que ele não sofre alteração em relação ao número de elementos categorizados da classe positiva no tamanho da amostra. (WINTER & BALASUBRAMANIAM, 2015)

Uma outra métrica de avaliação que permitiu validar a performance de desempenho do modelo é a Brier Score (BS). Este método é equivalente ao Erro Quadrado Médio (Mean Square Error - MSE) entre a probabilidade de previsão, 𝑓 (ou seja, 0–1) e o resultado binário dessa previsão, 𝑜 (ou seja, 0 ou 1). 𝐵𝑆 = 1 𝑁∑( 𝑁 𝑖=1 𝑓𝑖 − 𝑜𝑖)2

Onde 𝑁 é o número total de previsões e 𝑖 são os pares de previsão e observação realizados. E pode ser decomposto em outras três equações, sendo a confiabilidade representada pela equação: 1 𝑁∑ 𝑛𝑘 𝐾 𝑘=1 (𝑓_𝑘− 𝑜_𝑘)2

A segunda equação que pode ser derivada de BS é resolução e é representada pela equação: 1

𝑁∑ 𝑛 𝐾

𝑘=1

𝑘(𝑜𝑘− 𝑜)2

E por fim, a equação da incerteza que é representada por: 𝑜(1 − 𝑜)

Sendo assim, a decomposição de BS nestas equações pode ser representada por 𝐵𝑆 = 𝑐𝑜𝑛𝑓𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 − 𝑟𝑒𝑠𝑜𝑙𝑢çã𝑜 + 𝑖𝑛𝑐𝑒𝑟𝑡𝑒𝑧𝑎. Esta equação estende-se para Brier skill score (BSS), e é presentada pela equação

𝐵𝑆𝑆 = 1 − 𝐵𝑆 𝑖𝑛𝑐𝑒𝑟𝑡𝑒𝑧𝑎 (McCLOSKEY et al., 2018)

No documento http://tede.mackenzie.br/jspui/bitstream/tede/4279/5/DIEGO%20CANDILE%20DALLE%20NOGARE%5B1%5D (páginas 40-46)