M étodos de aprendizagem e classificaç ão

Testes e desenvolvimento do processo de classificac¸ ˜ao

4.3 M étodos de aprendizagem e classificaç ão

Ap ós a seleç ão de carater´ısticas, foram aplicados diversos algoritmos de classificaç ão para distinguir a observaç ão do primeiro v´ıdeo, codificado com o valor l ógico 0, do segundo v´ıdeo, codificado com o valor l ógico 1, correspondentes ao estado emocional calmo estress, respetivamente. Para al ém disso, foram otimizados os par âmetros dos algoritmos que se demonstraram mais adequados a este problema

espec´ıfico.

4.3.1 An ´alise discriminante linear

A an álise discriminante linear é conhecida como uma ferramenta de reduç ão de dimens ões, contudo

é tamb ém um m étodo robusto de classificaç ão. É caraterizado por ser um m étodo simples e por produzir resultados bons e interpret áveis. Quando s ão abordados problemas reais para serem resolvidos por uma classificaç ão autom ática, este costuma ser um dos primeiros m étodos utilizados para fazer uma avaliaç ão comparativa, antes de serem aplicados outros mais complexos.

Este m étodo pode ser utilizado para classificaç ão supervisionada, considerando um problema gen érico de classificaç ão com a vari ável aleat óriaX de uma dasK classes com densidadefk(x)emR^p. Uma regra discriminante tenta dividir a informaç ão em K regi ões R1,...,Rk que representam as diferentes classes. Atrav és destas regi ões, a classificaç ão feita com an álise discriminante consiste em alocarX a j, se oX estiver na regi ãoj. Posto isto, é necess ário saber a categoria em que oX est á. Para alocar oX a uma regi ão este m étodo pode seguir duas regras: a maior probabilidade e a bayesiana.

Na regra da maior probabilidade, assumindo que cada classe ocorre com igual probabilidade, oX ´e classificado comjsej=arg max_if_i(X).

Na regra bayesiana, sabendo a probabilidade de cada classe,πi,...,πk, oX é classificado comj se j =arg maxiπifi(X)[72]. Sendo que, a an álise discriminante linear aplicada, recorrendo à biblioteca sklearn[70], segue a regra bayesiana.

Os resultados obtidos com recurso a este m étodo, bem como os par âmetros otimizantes da mesma, podem ser observados na tabela4.1. Estes resultados ser ão explicitados em4.4.

Tabela 4.1: Resultados finais da an ´alise discriminante linear.

tol Partiç ões (k) Solver Exatid ão Precis ão Sensibilidade F1 score Tempo (s)

0,001 5 svd 0,9469 1 0,9142 0,9512 5,15

4.3.2 Regress ˜ao log´ıstica

A regress ão log´ıstica é um dos modelos lineares estat´ısticos mais frequentemente utilizados, en-quadrado na aprendizagem supervisionada para classificaç ão. Os modelos lineares consistem numa ou mais vari áveis independentes que t êm uma relaç ão com a vari ável dependente.

Existem tr ês tipos de regress ão log´ıstica, o bin ário, em que as vari áveis dependentes podem ter apenas 2 valores poss´ıveis, 1 ou 0; o ordinal, para vari áveis com categorias ordenadas; e o multinomi-nal, que é utilizado quando a vari ável dependente tem tr ês ou mais categorias n ão ordenadas. Dadas as carater´ısticas do problema a resolver, o tipo que melhor se adequa é o bin ário [73].

Deste modo, com o objetivo de melhorar os resultados finais, com recurso ao c ódigoA.10, foram alteradas as percentagens de treino e teste. Estas percentagens correspondem à quantidade de dados que é utilizada para aprendizagem e, posteriormente, para testar o algoritmo. Atribuindo ao par âmetro k, que representa o n úmero de conjuntos de dados, os valores 4, 5 e 6, as percentagens utilizadas de

treino e teste s ˜ao, respetivamente, 75% e 25%, 80% e 20% e 83,34% e 16,66%.

Para al ém disso, variou-se logaritmicamente o par âmetro de regularizaç ão,C, de 0,1 a 1000. Este par âmetro pode ser visto como a capacidade do classificador aceitar classificaç ões erradas no conjunto de dados, de forma a generalizar corretamente com os dados de treino, isto é, valores mais pequenos deC, traduzem-se numa maior regularizaç ão.

Por fim, testou-se v árias funç õessolver. Cadasolver tenta encontrar os pesos dos par âmetros que minimizam uma funç ão de custo, foram testados onewton-cg,lbfgs,liblinear,sagesaga.

Ap ós realizada a variaç ão de todos os par âmetros supra-referidos, obtiveram-se diversos resultados, sendo que, os 3 melhores resultados podem ser observados na tabela4.2.

Tabela 4.2:Resultados finais da regress ˜ao log´ıstica.

C Partiç ões Kernel Exatid ão Precis ão Sensibilidade F1 score Tempo(s)

1 5 lbfgs 0,9818 0,9714 1 0,9846 10,6247

0,1 5 lbfgs 0,9636 0,9428 1 0,9666 11,8165

100 6 liblinear 0,9629 0,9428 1 0,9686 7,5339

4.3.3 Support vector classification

O principal objetivo da Support Vector Classification (SVC) é criar uma fronteira num conjunto de dados composto por elementos pertencentes a duas classes diferentes. Esta é uma ferramenta de aprendizagem muito poderosa que se baseia num m étodo estat´ıstico com base na aprendizagem es-tat´ıstica e minimizaç ão do erro, a fim de obter a capacidade de identificar a classe de um novo conjunto de dados.

Mais concretamente, atrav és de vetores de carater´ısticas, é criado um hiperplano ou, por vezes, um conjunto de hiperplanos, que atua como um limite entre as classes. Na figura4.9 é poss´ıvel observar um exemplo de aprendizagem dos limites de decis ão (ou seja, do hiperplano) pelaSVC[74].

Figura 4.9:Representac¸ ˜ao de um exemplo de hiperplano.

O hiperplano ideal é representado pela equaç ão4.1.

W^TX+b= 0 (4.1)

Com:

X Vetor de carater´ısticas W Vetor normal ao hiperplano

b Offsetdo hiperplano com a origem

Posto isto, a fim de melhorar os valores finais de validaç ão, com recurso ao c ódigo A.11, foram alteradas as percentagens de treino e teste, tal como na regress ão log´ıstica (4.3.2). Para al ém disso, variou-se tamb ém logaritmicamente o par âmetro de regularizaç ão C de 0,1 a 1000, sendo que, tal como anteriormente referido, valores mais pequenos deste par âmetro traduzem-se numa maior regularizaç ão.

E poss´ıvel observar a variac¸ ˜ao desta margem na figura´ 4.10.

Figura 4.10: Variaç ão da margem com a mudança de C [75].

Por fim, testou-se v árias funç õeskernel. Este par âmetro foca-se na escolha das fronteiras do hiper-plano entre classes e, para este problema, foram testados oskernellinear,rbf,sigmoidepoly.

Desta forma, a variaç ão de todos os par âmetros supra-referidos levou a obter diversos resultados, sendo que, os 3 melhores resultados podem ser observados na tabela4.3.

Tabela 4.3:Resultados finais daSVC.

C Partiç ões Kernel Exatid ão Precis ão Sensibilidade F1 score tempo(s)

0,1 5 linear 0,9636 0,9428 1 0,9666 1,8947

0,1 6 linear 0,9629 0,9428 1 0,9686 2,6934

0,1 6 polinomial 0,9629 0,9428 1 0,9686 2,3256

4.3.4 Classificador ridge

A regress ão ridge é uma regress ão linear, por esse motivo, assume uma relaç ão linear entre as vari áveis de entrada e a vari ável de sa´ıda. Com uma única vari ável de entrada, esta relaç ão é re-presentada por uma linha, sendo que com mais dimens ões, esta relaç ão pode ser pensada como um hiperplano que liga as vari áveis de entrada à de sa´ıda. Os coeficientes do modelo s ão encontrados atrav és de um processo de otimizaç ão que procura minimizar a soma do erro quadr ático entre as pre-vis ões e os valores de sa´ıda.

O regressor deridge tem uma variante classificadora, oRidgeClassifier. Este classificador con-verte, primeiramente, as sa´ıdas bin árias a classificar em{-1, 1}e, de seguida, trata o problema como uma tarefa de regress ão, otimizando o objetivo supra-referido. A classe prognosticada corresponde ao sinal da previs ão do regressor.

Este modelo, apesar de n ão ser muito utilizado, pode levar a bastante bons resultados de validaç ão.

Para al ém disso, a perda de m´ınimos quadrados penalizada, utilizada peloRidgeClassifier, permite personalizar o m étodo para o problema a resolver com a alteraç ão dossolvers (auto, svd,cholesky, lsqr, sparse cg, sag e saga) com perfis de desempenho computacionais distintos, bem como, com o par âmetro Alpha que corresponde a _2C¹ , sendo C o par âmetro de regularizaç ão utilizado noutros modelos lineares como, por exemplo, a regress ão log´ıstica e aSVClinear [70].

Foram obtidos diversos resultados, atrav és da variaç ão de todos os par âmetros supra-referidos.

Destacam-se os 3 melhores resultados na tabela4.4.

Tabela 4.4:Resultados finais do classificadorridge.

C Partiç ões Kernel Exatid ão Precis ão Sensibilidade F1 score Tempo(s)

100 6 auto 0,9629 0,9428 1 0,9686 1,1385

100 6 cholesky 0,9629 0,9428 1 0,9686 1,2957

10 6 svd 0,9629 0,9428 1 0,9686 3,6520

4.3.5 Gradiente descendente estoc ´astico

Gradiente, em termos simples, significa declive ou inclinaç ão de uma superf´ıcie. Portanto, gradiente descendente significa, na sua forma mais literal, descer uma inclinaç ão para atingir o ponto mais baixo dessa superf´ıcie.

Na figura4.11, o ponto m´ınimo da par ábola ocorre emx= 1. O objetivo do algoritmo de descida de gradiente é encontrar o valor dexque minimizey, sendo quey é denominado como a funç ão objetiva, sobre a qual o algoritmo opera, para encontrar o m´ınimo absoluto [76].

Figura 4.11:Funç ão de par ábola em duas dimens ões [76].

O gradiente descendente é um algoritmo de otimizaç ão iterativo que encontra o menor valor de uma funç ão. Atrav és de iteraç ão cont´ınua, obt ém o gradiente de uma funç ão, aproximando-se gradualmente da soluç ão ótima, por forma a obter o melhor resultado e os respetivos par âmetros. O algoritmo, convencionalmente, treina todas as amostras de cada vez, o que prolonga o tempo de treino.

O gradiente descendente estoc ástico seleciona, em cada iteraç ão, de forma aleat ória, uma amostra para treino. Esta abordagem precisa de menos c álculos, por esse motivo, a velocidade de converg ência

é mais r ápida do que outros algoritmos, resultando num alto desempenho, quer no tempo de aprendi-zagem, bem como na alocaç ão de recursos computacionais [77].

Como a seleç ão da amostra é realizada de forma aleat ória, os resultados n ão s ão re-produz´ıveis.

Para al ém disso, estes variam significativamente para os mesmos par âmetros utilizados em cada ciclo de treino e teste. Apesar de ser poss´ıvel obter resultados bons para o problema em quest ão, cerca de 80% de exatid ão, por vezes, a gama da mesma fica entre 55% e 60%.

Destaca-se ainda a rapidez deste m étodo, por ser o único que apresenta as prediç ões em me-nos de 1 segundo, tornando-o mais r ápido que os supra-analisados. No entanto, esta caracter´ıstica

n ão é condiç ão suficiente para ser o m étodo utilizado para a resoluç ão deste problema, pois n ão se sobrep õem à aleatoriedade das m étricas de validaç ão.

No documento Incorporação de Biossensores no Soldado do Futuro (páginas 66-72)