M´ etricas de Avalia¸c˜ ao de Modelos Supervisionados

2.4 Aprendizado de m´ aquina

2.4.4 M´ etricas de Avalia¸c˜ ao de Modelos Supervisionados

Semelhantemente às métricas de avalia¸cão para os algoritmos não-supervisionados, as métricas para os algoritmos supervisionados são utilizadas para verificar a qualidade dos resultados gerados a partir dos modelos e a compará-los para identificar o que melhor se adequa ao conjunto de dados e contexto do estudo.

Acur´acia

A acurácia contabiliza a porcentagem de acerto na predi¸cão das classes, identificando a razão entre as predi¸cões corretas e todas as predi¸cões.

Jacccard

A m´etrica de Jaccard, ou Jaccard Score, trata os documentos como grupos distintos e avalia a interse¸c˜ao entre eles, conforme mostrado a seguir:

J (A, B) = |A ∩ B|

|A ∪ B|, (2.14)

onde A e B indicam os documentos em questão, |A∩B| é a interse¸cão entre os documentos e |A ∪ B| a união de ambos.

Precis˜ao

A precisão verifica a razão entre, dada uma classe alvo, as predi¸cões corretas para essa classe e o conjunto total de predi¸cões para ela, isto é, as corretas e incorretas. A rela¸cão é observada conforme a equa¸cão 2.15.

P recisao = P ositivosV erdadeiros

P ositivosV erdadeiros + F alsosV erdadeiros (2.15) Sensibilidade (Recall )

A sensibilidade verifica a razão entre, dada uma classe, as predi¸cões corretas para essa classe e o conjunto composto por predi¸cões corretas e predi¸cões que deveriam ter indicado esta classe. A razão é representada pela rela¸cão a seguir.

Sensibilidade = P ositivosV erdadeiros

P ositivosV erdadeiros + F alsosN egativos (2.16) F1-score

O f1-score retorna a média harmônica entre as métricas precisão e sensibilidade, em que é poss´ıvel atribuir pesos para cada item segundo sua importância.

Cap´ıtulo 3

Trabalhos Relacionados

A classifica¸cão de textos é explorada em diversos artigos e livros nos mais variados con- textos devido à abrangência de sua implementa¸cão. Este cap´ıtulo apresenta os principais artigos utilizados como referência para este trabalho e discorre brevemente sobre seus pontos-chaves.

Considerando o tema de leis de prote¸cão de dados e os impactos na administra¸cão da informa¸cão em meios digitais, Jefferson S. et al. exploram as mudan¸cas observadas no desenvolvimento de aplica¸cões web, analisando o desenvolvimento decentralizado baseado na plataforma Solid, “Social Linked Data”, que estipula a autonomia dos usuários sobre seus dados [18]. Welderufael T. et al., por sua vez, discorrem sobre os desafios no cumpri- mento das leis de privacidade dos dados e propõem o uso de aprendizado de máquina como facilitador na compreensão das diretrizes a serem seguidas pelos agentes de tratamento dos dados [6].

Observando a importância do pré-processamento na análise dos dados, isto é, a prepara¸cão dos dados anterior à sua utiliza¸cão como insumo para os modelos de aprendizado, Khan A. et al. abordam os passos envolvidos neste processo dentro do contexto de classifica¸cão de documentos. São destacados o processamento de linguagem natural, a sele¸cão de caracter´ısticas, a representa¸cão vetorial da informa¸cão, a redu¸cão de dimen- sionalidade da matriz de correla¸cão, bem como temas correlatos, tal qual Recupera¸cão de Informa¸cão (RI) [19]. Gomaa W. e Fahmy A. salientam a importância da escolha cuidadosa das métricas de similaridade [14] e apresentam as principais métricas, dentre elas a similaridade de Jaccard, do Cosseno, e distância Euclidiana, e verificam como a sua combina¸cão pode gerar resultados aperfei¸coados. A sele¸cão das métricas de similaridade

24 influencia nos resultados finais [11], pois é o parâmetro de segrega¸cão dos dados, sendo refletido na avalia¸cão do desempenho de diferentes representa¸cões, métricas e algoritmos combinados sobre um conjunto de dados.

Bakarov A., por sua vez, se aprofunda na representa¸cão dos termos por valores numéricos reais, conhecida como Word Embeddings. O autor apresenta uma revisão ex- tensa dos métodos de avalia¸cão dessa representa¸cão, refor¸cando os principais problemas conhecidos e propondo novas abordagens [20].

Corley C. e Mihalcea R. discorrem sobre a similaridade semântica entre os textos, em oposi¸cão à tradicional abordagem a partir da similaridade léxica amplamente empregada [21]. Os autores introduzem um algoritmo que combina as métricas de similaridade palavra-a-palavra para gerar uma métrica de similaridade semântica texto-a-texto e comprovam que os resultados obtidos apresentam desempenho superior aos encontrados quando utilizando a similaridade léxica.

Outros autores propõem diferentes métodos para melhorar o desempenho dos modelos de aprendizado de máquina no contexto de classifica¸cão de textos. Zhu Hong et al. documentam os resultados de sua abordagem única, que combina formas distintas de representa¸cão dos termos, com diversos classificadores e avalia a melhoria no desempenho [22]. Wagstaff K. e Rogers S., analogamente, exploram como aprimorar o algoritmo K- médias através do uso do conhecimento prévio quanto aos conjuntos de dados utilizados, visando restringir os agrupamentos por meio dessa informa¸cão [16]. Essa abordagem busca aproximar o processo de clusteriza¸cão de situa¸cões reais que, em sua maioria, direcionam o resultado final desejado.

Iwayama M. e Tokunaga T., por sua vez, abordam o modelo de clusteriza¸cão hierárquica propondo a utiliza¸cão de métrica de similaridade baseada na inferência Baye- siana [23],. Dessa forma, os textos são incorporados ao agrupamento que apresentar a maior probabilidade posterior, isto é, maior probabilidade de o documento pertencer ao agrupamento em questão. Os autores nomeiam este algoritmo de Hierarchical Bayesian Clustering (HBC) e comparam, então, os seus resultados com os de outros algortimos de clusteriza¸cão.

Kim M. e Sayama H. tamb´em exploram como gerar melhores resultados, todavia, a partir da perspectiva de refinamento do conjunto de treinamento utilizado para os modelos de aprendizado supervisionado. Os autores introduzem a ideia de que os dados

de treinamento podem ser aprimorados através da classifica¸cão por comunidades de rede, em oposi¸cão à classifica¸cão feita por seres humanos [7]. Nessas comunidades, os nós são constitu´ıdos por senten¸cas, cuja representa¸cão vetorial é no formato TF-IDF e similaridade do cosseno, a qual atribui um peso a cada nó. A análise dos resultados comprova a vantagem de tal abordagem.

Este trabalho, entretanto, propõe uma abordagem autônoma capaz de classificar em diferentes n´ıveis de confidencialidade a informa¸cão contida em uma base de dados real de uma institui¸cão financeira, avaliando o desempenho dos principais modelos de aprendizado supervisionado e não supervisionado, a fim de selecionar aquele que apresentar melhor resultado. Com isso, busca-se sugerir um método mais assertivo na classifica¸cão de documentos, alternativo à classifica¸cão manual (user-driven) e à utiliza¸cão de expres- sões regulares.

Cap´ıtulo 4

A Abordagem de Classifica¸c˜ao em

N´ıveis de Confidencialidade Proposta

O objetivo principal deste projeto é identificar o algoritmo de aprendizado de máquina que apresenta o melhor desempenho no contexto de classifica¸cão de documentos segundo n´ıveis de confidencialidade. Este cap´ıtulo detalha a estratégia implementada para alcan¸car esse objetivo, abordando o conjunto de dados utilizados, seu tratamento, a forma como os modelos são treinados e avaliados, e, por fim, comparados. Os tópicos apresentados seguem a sequência mostrada na Figura 2.1

4.1 Coleta dos dados

O conjunto de dados utilizados neste trabalho é formado por documentos reais prove- nientes de uma empresa do setor bancário, mediante autoriza¸cão prévia. A natureza confidencial dos dados armazenados em seu ambiente proporciona o contexto adequado quanto à presen¸ca de informa¸cões sens´ıveis e à necessidade de categorizá-las corretamente a fim de direcionar os tratamentos e prote¸cão devidos. Por se tratar de dados reais e conter documentos confidenciais, o conjunto de dados não é público e foi processado no per´ımetro de seguran¸ca estabelecido pelas normas de prote¸cão de dados da empresa. Portanto, os códigos desenvolvidos para teste e treino dos algoritmos são executados diretamente em um computador da institui¸cão.

Os documentos consistem em grupos de dados em formato n˜ao estruturado, sendo do tipo Word, Excel, PowerPoint e PDF. Para arquivos de extens˜ao PDF, em particular,

faz-se necessário a utiliza¸cão de Reconhecimento Óptico de Caracteres, Optical Character Recognition (OCR), a fim de evitar perda de informa¸cão no momento da leitura de tais documentos. Esse processo é realizado por meio da conversão de arquivos PDF para ima- gens de extensão .PNG, utilizando a ferramenta XpdfReader, sobre as quais é aplicado o reconhecimento óptico pela ferramenta Tesseract-OCR, que identifica os elementos textuais e os traduz para um arquivo de texto. Ambos mecanismos são ferramentas de código aberto, implementados no código desenvolvido no estudo.

O conjunto de dados abrange os três principais idiomas utilizados no banco: por- tuguês, inglês e espanhol, totalizando em 878 arquivos. Aos documentos que apresentam palavras pertencentes a mais de um idioma, é aplicado o mesmo tratamento dos arquivos em inglês, considerando as stopwords, entidades nomeadas e stemiza¸cão. Na Figura 4.1 observa-se a segrega¸cão do conjunto de dados conforme seus idiomas e extensões dos arquivos. Observando o gráfico, verifica-se que os arquivos, em sua maioria, são do tipo PDF e concentram-se nos idiomas português e inglês, o que é consistente com a realidade do banco de investimentos, cuja maioria dos escritórios estão localizados em território bra- sileiro. Além disso, apesar de possuir mais filiais na América Latina do que na América do Norte e Europa, a comunica¸cão entre escritórios é feita majoritariamente em inglês. Adicionalmente, observa-se que a quantidade de documentos cujo idioma não foi identificado é insignificante quando comparada com o restante do conjunto de dados. Isso indica que qualquer ru´ıdo ou efeito negativo que, porventura, poderiam ter sobre os resultados será m´ınimo.

Os arquivos podem ser classificados de acordo com três n´ıveis de confidencialidade aplicados neste estudo: público, interno e confidencial. O rótulo público aborda prin- cipalmente temas de conhecimento comum, facilmente obtidos na m´ıdia, na internet ou outros meios. Configura informa¸cões que não são propriedade da empresa ou que dizem respeito ao banco, porém, já foram publicadas à comunidade. O n´ıvel interno classifica dados relacionados às atividades diárias dos colaboradores, incluindo documentos de diferentes áreas variando desde pol´ıticas internas, relatórios de desempenho de ferramentas, comunicados internos, até arquivos do setor de negócios, que lidam diretamente com o mercado financeiro e informa¸cões de clientes. A classifica¸cão confidencial identifica documentos de conteúdo muito sens´ıvel, como dados pessoais de clientes, funcionários ou propriedade intelectual.

Figura 4.1: Visualiza¸cão da distribui¸cão dos arquivos conforme o idioma. Os idiomas para os quais é identificada maior quantidade de informa¸cão são o português e o inglês. Apenas uma pequena fra¸cão dos documentos não teve seu idioma identificado, não influenciando, portanto, significativamente na gera¸cão de ru´ıdos no conjunto total.

Após inspe¸cão do conteúdo, a classifica¸cão é atribu´ıda ao documento como meta- dado, por meio de uma propriedade customizada denominada “Sensitivity”. Essa classifica¸cão é utilizada como verdade básica pelo código para treinamento dos algoritmos.

A análise da Figura 4.2 revela que a maioria dos documentos pertence ao n´ıvel de classifica¸cão “Interno”, o que demonstra coerência com o contexto empresarial, em que uma parte significativa dos dados no ambiente são de uso interno e, em geral, irrestrito para os demais colaboradores da institui¸cão. Esta classe também é a única que apresenta arquivos de todos os idiomas considerados. Assim, é poss´ıvel inferir que, se houver dúvidas quanto à classifica¸cão de um documento, é plaus´ıvel que os modelos selecionem o rótulo “Interno”, estando provavelmente correto.

Figura 4.2: Distribui¸cão dos documentos conforme a classifica¸cão. A maioria dos arquivos se concentrou no n´ıvel de classifica¸cão de Uso Interno, sendo também o que engloba todos os idiomas considerados. As demais classes apresentaram menor quantidade e presen¸ca relevante do idioma português.

No documento Avaliação de algoritmos de aprendizado de máquina aplicados à classificação de dados em nı́veis de confidencialidade (páginas 35-43)