• Nenhum resultado encontrado

M ´etodos de aprendizagem e classificac¸ ˜ao

Testes e desenvolvimento do processo de classificac¸ ˜ao

4.3 M ´etodos de aprendizagem e classificac¸ ˜ao

Ap ´os a selec¸ ˜ao de carater´ısticas, foram aplicados diversos algoritmos de classificac¸ ˜ao para distinguir a observac¸ ˜ao do primeiro v´ıdeo, codificado com o valor l ´ogico 0, do segundo v´ıdeo, codificado com o valor l ´ogico 1, correspondentes ao estado emocional calmo estress, respetivamente. Para al ´em disso, foram otimizados os par ˆametros dos algoritmos que se demonstraram mais adequados a este problema

espec´ıfico.

4.3.1 An ´alise discriminante linear

A an ´alise discriminante linear ´e conhecida como uma ferramenta de reduc¸ ˜ao de dimens ˜oes, contudo

´e tamb ´em um m ´etodo robusto de classificac¸ ˜ao. ´E caraterizado por ser um m ´etodo simples e por produzir resultados bons e interpret ´aveis. Quando s ˜ao abordados problemas reais para serem resolvidos por uma classificac¸ ˜ao autom ´atica, este costuma ser um dos primeiros m ´etodos utilizados para fazer uma avaliac¸ ˜ao comparativa, antes de serem aplicados outros mais complexos.

Este m ´etodo pode ser utilizado para classificac¸ ˜ao supervisionada, considerando um problema gen ´erico de classificac¸ ˜ao com a vari ´avel aleat ´oriaX de uma dasK classes com densidadefk(x)emRp. Uma regra discriminante tenta dividir a informac¸ ˜ao em K regi ˜oes R1,...,Rk que representam as diferentes classes. Atrav ´es destas regi ˜oes, a classificac¸ ˜ao feita com an ´alise discriminante consiste em alocarX a j, se oX estiver na regi ˜aoj. Posto isto, ´e necess ´ario saber a categoria em que oX est ´a. Para alocar oX a uma regi ˜ao este m ´etodo pode seguir duas regras: a maior probabilidade e a bayesiana.

Na regra da maior probabilidade, assumindo que cada classe ocorre com igual probabilidade, oX ´e classificado comjsej=arg maxifi(X).

Na regra bayesiana, sabendo a probabilidade de cada classe,πi,...,πk, oX ´e classificado comj se j =arg maxiπifi(X)[72]. Sendo que, a an ´alise discriminante linear aplicada, recorrendo `a biblioteca sklearn[70], segue a regra bayesiana.

Os resultados obtidos com recurso a este m ´etodo, bem como os par ˆametros otimizantes da mesma, podem ser observados na tabela4.1. Estes resultados ser ˜ao explicitados em4.4.

Tabela 4.1: Resultados finais da an ´alise discriminante linear.

tol Partic¸ ˜oes (k) Solver Exatid ˜ao Precis ˜ao Sensibilidade F1 score Tempo (s)

0,001 5 svd 0,9469 1 0,9142 0,9512 5,15

4.3.2 Regress ˜ao log´ıstica

A regress ˜ao log´ıstica ´e um dos modelos lineares estat´ısticos mais frequentemente utilizados, en-quadrado na aprendizagem supervisionada para classificac¸ ˜ao. Os modelos lineares consistem numa ou mais vari ´aveis independentes que t ˆem uma relac¸ ˜ao com a vari ´avel dependente.

Existem tr ˆes tipos de regress ˜ao log´ıstica, o bin ´ario, em que as vari ´aveis dependentes podem ter apenas 2 valores poss´ıveis, 1 ou 0; o ordinal, para vari ´aveis com categorias ordenadas; e o multinomi-nal, que ´e utilizado quando a vari ´avel dependente tem tr ˆes ou mais categorias n ˜ao ordenadas. Dadas as carater´ısticas do problema a resolver, o tipo que melhor se adequa ´e o bin ´ario [73].

Deste modo, com o objetivo de melhorar os resultados finais, com recurso ao c ´odigoA.10, foram alteradas as percentagens de treino e teste. Estas percentagens correspondem `a quantidade de dados que ´e utilizada para aprendizagem e, posteriormente, para testar o algoritmo. Atribuindo ao par ˆametro k, que representa o n ´umero de conjuntos de dados, os valores 4, 5 e 6, as percentagens utilizadas de

treino e teste s ˜ao, respetivamente, 75% e 25%, 80% e 20% e 83,34% e 16,66%.

Para al ´em disso, variou-se logaritmicamente o par ˆametro de regularizac¸ ˜ao,C, de 0,1 a 1000. Este par ˆametro pode ser visto como a capacidade do classificador aceitar classificac¸ ˜oes erradas no conjunto de dados, de forma a generalizar corretamente com os dados de treino, isto ´e, valores mais pequenos deC, traduzem-se numa maior regularizac¸ ˜ao.

Por fim, testou-se v ´arias func¸ ˜oessolver. Cadasolver tenta encontrar os pesos dos par ˆametros que minimizam uma func¸ ˜ao de custo, foram testados onewton-cg,lbfgs,liblinear,sagesaga.

Ap ´os realizada a variac¸ ˜ao de todos os par ˆametros supra-referidos, obtiveram-se diversos resultados, sendo que, os 3 melhores resultados podem ser observados na tabela4.2.

Tabela 4.2:Resultados finais da regress ˜ao log´ıstica.

C Partic¸ ˜oes Kernel Exatid ˜ao Precis ˜ao Sensibilidade F1 score Tempo(s)

1 5 lbfgs 0,9818 0,9714 1 0,9846 10,6247

0,1 5 lbfgs 0,9636 0,9428 1 0,9666 11,8165

100 6 liblinear 0,9629 0,9428 1 0,9686 7,5339

4.3.3 Support vector classification

O principal objetivo da Support Vector Classification (SVC) ´e criar uma fronteira num conjunto de dados composto por elementos pertencentes a duas classes diferentes. Esta ´e uma ferramenta de aprendizagem muito poderosa que se baseia num m ´etodo estat´ıstico com base na aprendizagem es-tat´ıstica e minimizac¸ ˜ao do erro, a fim de obter a capacidade de identificar a classe de um novo conjunto de dados.

Mais concretamente, atrav ´es de vetores de carater´ısticas, ´e criado um hiperplano ou, por vezes, um conjunto de hiperplanos, que atua como um limite entre as classes. Na figura4.9 ´e poss´ıvel observar um exemplo de aprendizagem dos limites de decis ˜ao (ou seja, do hiperplano) pelaSVC[74].

Figura 4.9:Representac¸ ˜ao de um exemplo de hiperplano.

O hiperplano ideal ´e representado pela equac¸ ˜ao4.1.

WTX+b= 0 (4.1)

Com:

X Vetor de carater´ısticas W Vetor normal ao hiperplano

b Offsetdo hiperplano com a origem

Posto isto, a fim de melhorar os valores finais de validac¸ ˜ao, com recurso ao c ´odigo A.11, foram alteradas as percentagens de treino e teste, tal como na regress ˜ao log´ıstica (4.3.2). Para al ´em disso, variou-se tamb ´em logaritmicamente o par ˆametro de regularizac¸ ˜ao C de 0,1 a 1000, sendo que, tal como anteriormente referido, valores mais pequenos deste par ˆametro traduzem-se numa maior regularizac¸ ˜ao.

E poss´ıvel observar a variac¸ ˜ao desta margem na figura´ 4.10.

Figura 4.10: Variac¸ ˜ao da margem com a mudanc¸a de C [75].

Por fim, testou-se v ´arias func¸ ˜oeskernel. Este par ˆametro foca-se na escolha das fronteiras do hiper-plano entre classes e, para este problema, foram testados oskernellinear,rbf,sigmoidepoly.

Desta forma, a variac¸ ˜ao de todos os par ˆametros supra-referidos levou a obter diversos resultados, sendo que, os 3 melhores resultados podem ser observados na tabela4.3.

Tabela 4.3:Resultados finais daSVC.

C Partic¸ ˜oes Kernel Exatid ˜ao Precis ˜ao Sensibilidade F1 score tempo(s)

0,1 5 linear 0,9636 0,9428 1 0,9666 1,8947

0,1 6 linear 0,9629 0,9428 1 0,9686 2,6934

0,1 6 polinomial 0,9629 0,9428 1 0,9686 2,3256

4.3.4 Classificador ridge

A regress ˜ao ridge ´e uma regress ˜ao linear, por esse motivo, assume uma relac¸ ˜ao linear entre as vari ´aveis de entrada e a vari ´avel de sa´ıda. Com uma ´unica vari ´avel de entrada, esta relac¸ ˜ao ´e re-presentada por uma linha, sendo que com mais dimens ˜oes, esta relac¸ ˜ao pode ser pensada como um hiperplano que liga as vari ´aveis de entrada `a de sa´ıda. Os coeficientes do modelo s ˜ao encontrados atrav ´es de um processo de otimizac¸ ˜ao que procura minimizar a soma do erro quadr ´atico entre as pre-vis ˜oes e os valores de sa´ıda.

O regressor deridge tem uma variante classificadora, oRidgeClassifier. Este classificador con-verte, primeiramente, as sa´ıdas bin ´arias a classificar em{-1, 1}e, de seguida, trata o problema como uma tarefa de regress ˜ao, otimizando o objetivo supra-referido. A classe prognosticada corresponde ao sinal da previs ˜ao do regressor.

Este modelo, apesar de n ˜ao ser muito utilizado, pode levar a bastante bons resultados de validac¸ ˜ao.

Para al ´em disso, a perda de m´ınimos quadrados penalizada, utilizada peloRidgeClassifier, permite personalizar o m ´etodo para o problema a resolver com a alterac¸ ˜ao dossolvers (auto, svd,cholesky, lsqr, sparse cg, sag e saga) com perfis de desempenho computacionais distintos, bem como, com o par ˆametro Alpha que corresponde a 2C1 , sendo C o par ˆametro de regularizac¸ ˜ao utilizado noutros modelos lineares como, por exemplo, a regress ˜ao log´ıstica e aSVClinear [70].

Foram obtidos diversos resultados, atrav ´es da variac¸ ˜ao de todos os par ˆametros supra-referidos.

Destacam-se os 3 melhores resultados na tabela4.4.

Tabela 4.4:Resultados finais do classificadorridge.

C Partic¸ ˜oes Kernel Exatid ˜ao Precis ˜ao Sensibilidade F1 score Tempo(s)

100 6 auto 0,9629 0,9428 1 0,9686 1,1385

100 6 cholesky 0,9629 0,9428 1 0,9686 1,2957

10 6 svd 0,9629 0,9428 1 0,9686 3,6520

4.3.5 Gradiente descendente estoc ´astico

Gradiente, em termos simples, significa declive ou inclinac¸ ˜ao de uma superf´ıcie. Portanto, gradiente descendente significa, na sua forma mais literal, descer uma inclinac¸ ˜ao para atingir o ponto mais baixo dessa superf´ıcie.

Na figura4.11, o ponto m´ınimo da par ´abola ocorre emx= 1. O objetivo do algoritmo de descida de gradiente ´e encontrar o valor dexque minimizey, sendo quey ´e denominado como a func¸ ˜ao objetiva, sobre a qual o algoritmo opera, para encontrar o m´ınimo absoluto [76].

Figura 4.11:Func¸ ˜ao de par ´abola em duas dimens ˜oes [76].

O gradiente descendente ´e um algoritmo de otimizac¸ ˜ao iterativo que encontra o menor valor de uma func¸ ˜ao. Atrav ´es de iterac¸ ˜ao cont´ınua, obt ´em o gradiente de uma func¸ ˜ao, aproximando-se gradualmente da soluc¸ ˜ao ´otima, por forma a obter o melhor resultado e os respetivos par ˆametros. O algoritmo, convencionalmente, treina todas as amostras de cada vez, o que prolonga o tempo de treino.

O gradiente descendente estoc ´astico seleciona, em cada iterac¸ ˜ao, de forma aleat ´oria, uma amostra para treino. Esta abordagem precisa de menos c ´alculos, por esse motivo, a velocidade de converg ˆencia

´e mais r ´apida do que outros algoritmos, resultando num alto desempenho, quer no tempo de aprendi-zagem, bem como na alocac¸ ˜ao de recursos computacionais [77].

Como a selec¸ ˜ao da amostra ´e realizada de forma aleat ´oria, os resultados n ˜ao s ˜ao re-produz´ıveis.

Para al ´em disso, estes variam significativamente para os mesmos par ˆametros utilizados em cada ciclo de treino e teste. Apesar de ser poss´ıvel obter resultados bons para o problema em quest ˜ao, cerca de 80% de exatid ˜ao, por vezes, a gama da mesma fica entre 55% e 60%.

Destaca-se ainda a rapidez deste m ´etodo, por ser o ´unico que apresenta as predic¸ ˜oes em me-nos de 1 segundo, tornando-o mais r ´apido que os supra-analisados. No entanto, esta caracter´ıstica

n ˜ao ´e condic¸ ˜ao suficiente para ser o m ´etodo utilizado para a resoluc¸ ˜ao deste problema, pois n ˜ao se sobrep ˜oem `a aleatoriedade das m ´etricas de validac¸ ˜ao.

Documentos relacionados