Modelos de Aprendizado N˜ ao Supervisionado

5.2 Avalia¸c˜ ao dos Algoritmos de Aprendizado

5.2.1 Modelos de Aprendizado N˜ ao Supervisionado

Na análise dos modelos não supervisionados, são selecionados os três resultados de maior desempenho para cada algoritmo, dos quais o melhor é selecionado e comparado com os

36 demais algoritmos n˜ao supervisionados, a fim de identificar o que gera resultado superior.

K-m´edias

O modelo K-médias aloca iterativamente os dados em k agrupamentos à medida que os centróides são atualizados. Uma vez estabelecidos três n´ıveis de classifica¸cão para os dados, k é definido com esse valor. O algortimo k-médias, por sua vez, pode ser variado entre “Elkan” e “EM” (maximiza¸cão de expectativas) [24], com inicializa¸cão “k- means ++” ou “aleatória”. O algortimo Elkan utiliza a desigualdade do triângulo para acelerar o modelo K-médias, em compara¸cão com seu formato original, semelhante ao de maximiza¸cão de expectativas. A sua inicializa¸cão se distingue quanto à forma de sele¸cão inicial dos k agrupamentos, de forma a acelerar, ou não, a convergência do modelo.

As Figuras 5.2(a), 5.2(b) e 5.2(c) identificam os três melhores resultados do modelo K-médias, para os quais a representa¸cão vetorial foi do tipo feature hashing. O resultado Pareto-ótimo é aquele que apresenta dominância sobre os demais resultados em rela¸cão `

as métricas utilizadas. O resultado mediano indica o que obteve segundo lugar quanto ao desempenho, e o resultado inferior é aquele que, dentre os três apresentados, demonstrou pior desempenho.

(a) Resultado Pareto-´otimo. (b) Resultado Mediano. (c) Resultado Inferior.

Figura 5.2: Os três resultados que apresentaram melhor desempenho para o modelo K- médias utilizaram a representa¸cão vetorial feature hashing, algoritmo EM com inicializa¸cão k-means ++ e aleatória.

Por meio dos gráficos, verifica-se que o modelo apresentou baixo desempenho, sendo a maior das métricas a de Completude, que mensura a porcentagem dos dados de uma mesma classe, ou n´ıvel de classifica¸cão, que são designados ao mesmo agrupamento. Se-

guindo a Completude, a V-Measure foi a segunda maior para os três resultados, o que é consistente com o fato de que o cálculo desta métrica considera tanto a Completude quanto a Homogeneidade. A Informa¸cão Mútua Ajustada, por sua vez, quantifica o quão semelhante é a informa¸cão presente nos agrupamentos à informa¸cão presente nas classes verdadeiras e demonstra que apenas aproximadamente 12.5% da informa¸cão é semelhante. Por fim, o Índice Rand Ajustado verifica que apenas 2.3%, aproximadamente, das classifica¸cões conferidas pelo modelo estão em concordância com as classifica¸cões originais, o que indica baixo desempenho.

Clusteriza¸c˜ao Hier´arquica

O modelo de clusteriza¸cão hierárquica, que trata os dados como agrupamentos individuais e, então, passa a fundi-los iterativamente, possui três parâmetros principais que podem ser variados, assim como o modelo k-médias. São estes: o número final de clusters desejados, o critério de agrupamento e a métrica de similaridade usada para isso.

Assim como feito no modelo K-médias, o número de clusters também é estabelecido como três em fun¸cão da quantidade de n´ıveis de classifica¸cão previamente determinados. O critério de agrupamento, por sua vez, pode ser do tipo ward, que minimiza a variância dos clusters que estão sendo unidos; do tipo average, que verifica a média das distâncias para cada uma das observa¸cões de cada dupla de agrupamentos; complete, que utiliza a distância máxima entre todas as observa¸cões de ambos agrupamentos; e, por fim, single, que verifica a distância m´ınima entre todas as observa¸cões dos clusters em questão. Uma vez estabelecido o critério de agrupamento, a métrica de similaridade pode variar entre euclidiana e cosseno.

As Figuras 5.3(a), 5.3(b) e 5.3(c) mostram os três melhores resultados para este modelo, considerando as poss´ıveis combina¸cões das variáveis. Assim como no modelo K- médias, a métrica mais expressiva foi a de Completude, e a menos expressiva a do Índice Rand Ajustado. Esse modelo apresenta desempenho superior ao K-médias, porém, ainda significativamente baixo.

(a) Resultado Pareto-´otimo. (b) Resultado Mediano. (c) Resultado Inferior.

Figura 5.3: Os três resultados que apresentaram melhor desempenho para o modelo de Clusteriza¸cão Hierárquica utilizaram a representa¸cão vetorial feature hashing.

Clusteriza¸cão Espacial Baseada em Densidade de Aplica¸cões com Ru´ıdo O algoritmo DBSCAN identifica regiões de alta densidade para um determinado raio, considerando métricas espec´ıficas de distância ou similaridade, e número m´ınimo de pontos para que as regiões sejam consideradas densas (n - samples).

Em vista das poss´ıveis combina¸cões dessas variáveis e o custo computacional exi- gido, foram calculados os resultados para os parâmetros dentro dos seguintes limites: 0.1 ≤ Raio ≤ 1.0, 3 ≤ n − samples ≤ 150 e métricas de distância: euclidiana, cosseno e manhattan. Diferentemente dos demais modelos não supervisionados citados, o DBSCAN não possui parâmetro para identifica¸cão do número de agrupamentos desejado. Assim, o próprio modelo estabelece quantos clusters serão formados à medida que é treinado, verificando também poss´ıveis outliers, isto é, pontos que não se encaixam em nenhum dos agrupamentos.

Para essas varia¸cões, os três melhores resultados são apresentados nas figuras 5.4(a), 5.4(b) e 5.4(c), em que verifica-se que o modelo apresentou baixo desempenho, sendo a maior das métricas a de Homogeneidade, que mensura a porcentagem dos dados em um agrupamento que fazem parte das mesmas classes, sendo seu valor aproximadamente de 30%. A Medida-V, em seguida, foi a segunda maior para os três resultados, o que é consistente com o fato de que o cálculo desta métrica considera tanto a Homogeneidade quanto a Completude. A Informa¸cão Mútua Ajustada demonstra que apenas aproximadamente 21% da informa¸cão é semelhante. O Índice Rand Ajustado, sendo o de menor valor, revela que as classifica¸cões atribu´ıdas pelo modelo apresentam concordância com os

r´otulos originais em torno de apenas 16%.

(a) Resultado Pareto-´otimo. (b) Resultado Mediano. (c) Resultado Inferior.

Figura 5.4: Os três resultados de melhor desempenho para o modelo DBSCAN aplicaram representa¸cão vetorial feature hashing, métrica de similaridade do cosseno, o m´ınimo de três amostras para que uma região fosse considerada densa e raios de 4.0, 0.3 e 6.0, respectivamente. Além disso, o modelo identificou a existência de 48 agrupamentos, no total.

Compara¸c˜ao dos modelos n˜ao supervisionados

Após a análise individual dos modelos, é poss´ıvel selecionar os melhores resultados de cada um e compará-los entre si, a fim de identificar aquele que obteve melhor desempenho.

Observando os gráficos 5.2(a), 5.3(a) e 5.4(a) verifica-se que o desempenho de todos os modelos de aprendizado não supervisionado foi baixo, segundo as métricas de avalia¸cão utilizadas, sendo o de melhor desempenho obtido pelo modelo DBSCAN.

Os resultados obtidos para o Índice Rand Ajustado em todos os três modelos revela que não foi poss´ıvel identificar a rela¸cão entre os documentos e os n´ıveis de classifica¸cão. Esta constata¸cão é consistente ao considerar que, ao não incluir as classes no treino dos modelos, existem inúmeras rela¸cões que podem ser identificadas e utilizadas como parâ- metro de agrupamento, tal qual a extensão dos arquivos, as palavras mais frequentes, os idiomas presentes, entre outros.

5.2.2 Modelos de aprendizado supervisionado

Na análise dos modelos supervisionados foi utilizada a fun¸cão GridSearch() da biblioteca Scikit-Learn, que identifica a melhor combina¸cão dos parâmetros para o estimador de

40 forma automática. Assim, para cada técnica de representa¸cão vetorial é aplicada a fun- ¸cão GridSearch(), de maneira que os três melhores resultados identificados correspondem `

aqueles gerados para os métodos de vetoriza¸cão. Com a sele¸cão da técnica de representa¸cão que favorece o melhor desempenho, os resultados são comparados com os demais modelos.

Na¨ıve Bayes

O modelo Na¨ıve Bayes se baseia no teorema de Bayes e considera a distribui¸cão de probabilidades dos termos. Existem diferentes op¸cões de algoritmos a se considerar, segundo a distribui¸cão de probabilidades. Na¨ıve Bayes Gaussiano, Multinomial, Complementar, Bernoulli e Categórico. Uma vez que esta distribui¸cão de probabilidades não é conhecida e devido à possibilidade de o conjunto de treino e de teste apresentarem valores negativos em fun¸cão da padroniza¸cão realizada previamente, o algoritmo selecionado foi o Na¨ıve Bayes Gaussiano, que aceita eventuais valores menores do que zero, e para o qual não há variáveis relevantes a serem iteradas. Observa-se o desempenho do modelo para os diferentes tipos de vetoriza¸cão conforme indicado pelas Figuras 5.5(a), 5.5(b) e 5.5(c).

(a) Bag-of-Words. (b) Tf-idf. (c) Feature Hashing.

Figura 5.5: Os resultados do modelo Na¨ıve Bayes considerando os métodos de representa¸cão vetorial distintos. Observa-se que os valores das métricas para a vetoriza¸cão Bag-of-Words e Feature Hashing são bastante próximos.

A partir da análise dos gráficos verifica-se que para a representa¸cão vetorial tf- idf, os valores das métricas de avalia¸cão foram consideravelmente mais baixos do que os das demais representa¸cões. As técnicas bag-of-words e feature hashing apresentaram resultados muito próximos, com o feature hashing sendo levemente superior à vetoriza¸cão

bag-of-words, para o qual apenas a m´etrica de Jaccard obteve resultado aproximado de 60%, sendo as restantes pr´oximas de 80%.

E poss´ıvel ainda examinar a curva ROC gerada para este modelo, com representa¸cão vetorial feature hashing, a fim de verificar a rela¸cão entre as taxas de verdadeiros positivos e falsos positivos. Os n´ıveis de classifica¸cão “Público”, “Uso Interno” e “Confi- dencial” são representados pelos números 0, 1 e 2 em todas as curvas ROC presentes nesta se¸cão. Por meio da Figura 5.6 observa-se que o desempenho obtido para os três n´ıveis de classifica¸cão foi muito próximo, e notavelmente alto, evidenciando que este modelo de aprendizado supervisionado entregou resultados excelentes, especialmente considerando que a distribui¸cão de probabilidades é desconhecida.

Figura 5.6: Curva ROC do modelo Na¨ıve Bayes considerando a vetoriza¸c˜ao feature hashing. O gr´afico indica as probabilidades dos documentos serem classificados corretamente.

Floresta Aleat´oria

Diferentemente do algoritmo Na¨ıve Bayes Gaussiano, este modelo permite a verifica¸cão de alguns parâmetros. As variáveis que foram consideradas neste trabalho são: o número de estimadores, isto é, de árvores de decisão, o critério de qualidade de uma divisão e o número máximo de termos, ou caracter´ısticas, a se considerar para cada divisão.

Para a floresta aleatória, o número de estimadores selecionado foi o padrão de 100 ´

arvores. O critério de qualidade da divisão pode ser estabelecido a partir da impureza Gini ou a partir do ganho de informa¸cão. O número máximo de caracter´ısticas analisadas

42 varia entre a quantidade original de termos, a raiz quadrada da quantidade de termos ou ainda o logar´ıtmo na base dois do n´umero de caracter´ısticas.

Os gráficos das Figuras 5.7(a), 5.7(b) e 5.7(c) mostram o desempenho do modelo para os diferentes métodos de representa¸cão vetorial, e verifica-se que o algoritmo apresenta um bom desempenho e valores próximos das métricas em cada técnica de vetoriza¸cão. Apesar disso, os resultados para o bag-of-words foram ligeiramente superiores aos demais.

(a) Bag-of-Words. (b) Tf-idf. (c) Feature Hashing.

Figura 5.7: Os resultados do modelo Floresta Aleatória considerando os métodos de representa¸cão vetorial distintos. O conjunto de parâmetros selecionado teve como critério de qualidade o ganho de informa¸cão e número máximo de termos igual à quantidade original. Os valores obtidos para representa¸cão tf-idf são consideravelmente próximos daqueles apresentados pela representa¸cão bag-of-words, sendo, entretanto, ligeiramente inferiores.

Investigando mais profundamente as métricas de avalia¸cão para este modelo, o gráfico 5.7(a) revela que este modelo obteve resultado superior ao Na¨ıve Bayes, com a maioria das métricas de avalia¸cão flutuando em torno de 85%, e apenas a métrica de Jaccard próxima a 80%.

E poss´ıvel ainda analisar a curva ROC para este modelo, verificando a rela¸cão entre as taxas de verdadeiros positivos e falsos negativos, conforme apresentado na Figura 5.8, em que observa-se que, para todos os n´ıveis de classifica¸cão, a probabilidade de um documento aleatório ser classificado corretamente é superior à 86%, o que é comprovado pela área abaixo da curva (AUC). A compara¸cão das curvas na Figura 5.8 com as presentes na Figura 5.6 evidencia que o modelo Floresta Aleatória possui maior assertividade do que o anterior.

Figura 5.8: Curva ROC do modelo Floresta Aleatória para vetoriza¸cão bag-of-words. Os valores de área abaixo da curva (AUC) revelam a assertividade do modelo em suas predi¸cões.

Em ambos os modelos, os melhores resultados são gerados a partir de métodos de representa¸cão vetorial distintos, os quais não consideram a rela¸cão de importância dos termos para cada documento e para o conjunto, de forma geral, como faz o tf-idf, que seria considerado um tratamento mais refinado ao conjunto de dados e, potencialmente, levaria à melhores resultados. Porém, os resultados anteriores não validam essa suposi¸cão.

k-Vizinhos mais pr´oximos

O modelo de aprendizado K-vizinhos mais próximos trabalha a partir da defini¸cão de um número k de pontos, considerados vizinhos devido à proximidade, para cada nova observa¸cão, de forma que sua classe é definida de acordo com os n´ıveis de classifica¸cão de seus vizinhos.

A instância deste modelo permite varia¸cão quanto aos seguintes parâmetros: nú- mero k de vizinhos, o peso atribu´ıdo a eles no momento da predi¸cão, o algoritmo, e a métrica de distância para escolha dos vizinhos.

Para sele¸cão do número k foi verificado o intervalo de 1 a 35, pois valores muito altos poderiam, porventura, prejudicar a escolha da classe correta para o documento, por incluir maior variedade de classifica¸cões. O peso atribu´ıdo aos vizinhos poderia ser feito de maneira uniforme, isto é, todos os vizinhos teriam a mesma influência quanto à predi¸cão da classe da observa¸cão em questão, ou o peso poderia ser considerado inverso

44 `

a distância. Assim, vizinhos mais próximos teriam maior influência na predi¸cão do que os mais afastados. Os algoritmos, por sua vez, poderiam variar entre: Ball Tree, KD Tree, brute-force, e auto, que decidiria o melhor algoritmo conforme o treinamento da instância. As métricas de distância consideradas, por fim, foram Euclidiana, Manhattan e Minkowski.

As Figuras 5.9(a), 5.9(b) e 5.9(c) mostram os resultados deste modelo para as diferentes formas de representa¸cão vetorial, os quais apresentam melhor desempenho para o algoritmo auto, e métrica Manhattan, divergindo apenas quanto ao número de vizinhos e seus pesos.

(a) Bag-of-Words. (b) Tf-idf. (c) Feature Hashing.

Figura 5.9: Os resultados do modelo k-Vizinhos mais próximos considerando os métodos de vetoriza¸cão distintos. Para a representa¸cão bag-of-words e tf-idf, o número de vizinhos selecionado pela fun¸cão GridSearch() é igual a um, e de peso uniforme. Para a vetoriza¸cão feature hashing, contudo, são considerados 34 vizinhos, cujos pesos são inversos à distância. A verifica¸cão dos gráficos na Figura 5.9 indica que os valores das métricas para os três resultados são muito próximos, sendo o melhor deles o modelo de representa¸cão bag-of-words, que supera os demais por uma diferen¸ca da ordem de grandeza de 10−2.

A curva ROC apresentada na Figura 5.10 considera a vetoriza¸cão bag-of-words e revela que os resultados obtidos são inferiores aos dos modelos anteriores, Na¨ıve Bayes e Floresta Aleatória.

Figura 5.10: Curva ROC do modelo K-vizinhos mais próximos para vetoriza¸cão bag-of- words. Os valores observados para a área abaixo da curva (AUC) de cada classe indicam menor probabilidade de os documento serem classificados corretamente do que os modelos anteriores.

M´aquinas de Vetor Suporte

O modelo de máquinas de vetor suporte opera por meio da defini¸cão de hiperplanos que segregam as diferentes classes observadas, buscando maximizar a distância entre elas. Este modelo é normalmente utilizado para casos de classes binárias, porém, pode ser adaptado para acomodar um número maior de classes, como é o caso.

As variáveis consideradas para as combina¸cões são o parâmetro de regulariza¸cão C, a fun¸cão de perda e a estratégia para múltiplas classes. O parâmetro C poderia assumir os seguintes valores: [0.1, 1.0, 10.0, 100.0, 1000.0], cujo valor padrão é 1.0. A fun¸cão de perda pode ser do tipo Perda Hinge, ou perda de articula¸cão, ou Perda Squared Hinge. A estratégia para múltiplas classes pode ser One-vs-Rest, onde são treinados n classificadores, em que n é o número de rótulos; ou pode ser Crammer Singer, nomeada conforme seus autores, que reduz o custo de memória e tempo de treinamento.

As Figuras 5.11(a), 5.11(b) e 5.11(c) apresentam os resultados deste modelo de acordo com a representa¸cão vetorial aplicada, em que é facilmente verificado que o melhor resultado é obtido para a técnica de representa¸cão vetorial feature hashing, cuja maioria das métricas apresenta valores em torno de 80%. A curva ROC para este método de vetoriza¸cão, mostrada na Figura 5.12, indica como menor probabilidade de classifica¸cão

46 correta aquela referente à classe de “Uso Interno”, próxima de 84%. Todavia, comparando- a com a figura 5.8, comprova-se que seu resultado ainda é superior ao do modelo SVM que, contudo, apresentou desempenho consideravelmente alto.

(a) Bag-of-Words. (b) Tf-idf. (c) Feature Hashing.

Figura 5.11: Os resultados do modelo SVM considerando os métodos de vetoriza¸cão distintos. Para os três modelos, o valor de C e a estrátegia para múltiplas classes foram 0.1 e One-vs-Rest, respectivamente. Divergindo apenas na fun¸cão de perda, a qual foi estabelecida como Hinge para os dois primeiros resultados e como Squared Hinge para o ´

ultimo.

Figura 5.12: Curva ROC do modelo SVM para representa¸c˜ao vetorial feature hashing, em que observa-se como menor probabilidade de atribui¸c˜ao de classe correta o valor de 84%.

Compara¸c˜ao dos Modelos Supervisionados

As Figuras 5.5(c), 5.7(a), 5.9(a) e 5.11(c) indicam os melhores resultados observados para cada um dos modelos de aprendizado supervisionado. Comparando-os com base nas métricas de avalia¸cão, verifica-se que nenhum dos modelos obteve valores superiores à 90%. Entretanto, o modelo de Floresta Aleatória apresentou melhor desempenho, com valores de 89,29%, aproximadamente, para todas as métricas com exce¸cão da de Jaccard, para a qual obteve o valor próximo a 80.65%. Dessa forma, de todos os modelos de aprendizado supervisionado, o que apresentou melhor desempenho foi o modelo Floresta Aleatória para representa¸cão bag-of-words.

5.2.3 Compara¸c˜ao dos Modelos N˜ao Supervisionados e Super-

visionados

Uma vez identificados os modelos que obtiveram melhor resultado considerando as respec- tivas métricas e os tipos de aprendizado, é poss´ıvel realizar a compara¸cão entre estes dois modelos após aplica¸cão de tratamento devido. Para isso, é feito um estudo de propor¸cões do modelo não supervisionado quanto à rela¸cão de abrangência dos agrupamentos. Con- siderando o modelo DBSCAN, que apresentou melhor desempenho entre os modelos de aprendizado não supervisionado, foram identificados 48 agrupamentos. Dessa forma, os 16 agrupamentos mais populosos foram categorizados como sendo pertencentes à classe X, os 16 clusters intermediários como integrantes da classe Y, e os últimos 16 pertencentes `

a classe Z. Tomando-se os n´ıveis de classifica¸cão originais, foi realizada uma equivalência quanto a sua propor¸cão em rela¸cão a quantidade de documentos pertencentes a cada n´ı- vel, e as classes X, Y e Z foram então nomeadas de acordo com as originais público, uso interno e confidencial.

Assim, foram então aplicadas ao novo modelo DBSCAN as mesmas métricas de avalia¸cão dos modelos supervisionados, de forma a compará-los apropriadamente. A figura 5.13, sem intervalo de confian¸ca devido à utiliza¸cão total do conjunto de dados, revela que este modelo apresenta desempenho inferior a 8% para todas as métricas. Portanto, seus resultados se mostram ´ınfimos quando comparados aos valores alcan¸cados pelos modelo supervisionados. Deste modo, o modelo floresta aleatória é identificado como o mais apropriado para categorizar os documentos do estudo em questão.

Figura 5.13: Avalia¸cão do modelo DBSCAN segundo as métricas de avalia¸cão dos modelos de aprendizado supervisionado

Cap´ıtulo 6

Conclus˜ao

Com a proposta de avaliar modelos de aprendizado não supervisionados e supervisionados no contexto de uma empresa cujas atividades diárias envolvem tratamento de dados sens´ı- veis, buscava-se identificar qual modelo melhor atende tal cenário, atribuindo classifica¸cões assertivas aos documentos considerados.

O estudo sobre o conjunto de dados indicou sua variedade em diversos aspectos,

No documento Avaliação de algoritmos de aprendizado de máquina aplicados à classificação de dados em nı́veis de confidencialidade (páginas 49-67)