• Nenhum resultado encontrado

2.4 Aprendizado de m´ aquina

2.4.4 M´ etricas de Avalia¸c˜ ao de Modelos Supervisionados

Semelhantemente `as m´etricas de avalia¸c˜ao para os algoritmos n˜ao-supervisionados, as m´etricas para os algoritmos supervisionados s˜ao utilizadas para verificar a qualidade dos resultados gerados a partir dos modelos e a compar´a-los para identificar o que melhor se adequa ao conjunto de dados e contexto do estudo.

Acur´acia

A acur´acia contabiliza a porcentagem de acerto na predi¸c˜ao das classes, identificando a raz˜ao entre as predi¸c˜oes corretas e todas as predi¸c˜oes.

Jacccard

A m´etrica de Jaccard, ou Jaccard Score, trata os documentos como grupos distintos e avalia a interse¸c˜ao entre eles, conforme mostrado a seguir:

J (A, B) = |A ∩ B|

|A ∪ B|, (2.14)

onde A e B indicam os documentos em quest˜ao, |A∩B| ´e a interse¸c˜ao entre os documentos e |A ∪ B| a uni˜ao de ambos.

Precis˜ao

A precis˜ao verifica a raz˜ao entre, dada uma classe alvo, as predi¸c˜oes corretas para essa classe e o conjunto total de predi¸c˜oes para ela, isto ´e, as corretas e incorretas. A rela¸c˜ao ´e observada conforme a equa¸c˜ao 2.15.

P recisao = P ositivosV erdadeiros

P ositivosV erdadeiros + F alsosV erdadeiros (2.15) Sensibilidade (Recall )

A sensibilidade verifica a raz˜ao entre, dada uma classe, as predi¸c˜oes corretas para essa classe e o conjunto composto por predi¸c˜oes corretas e predi¸c˜oes que deveriam ter indicado esta classe. A raz˜ao ´e representada pela rela¸c˜ao a seguir.

22

Sensibilidade = P ositivosV erdadeiros

P ositivosV erdadeiros + F alsosN egativos (2.16) F1-score

O f1-score retorna a m´edia harmˆonica entre as m´etricas precis˜ao e sensibilidade, em que ´e poss´ıvel atribuir pesos para cada item segundo sua importˆancia.

Cap´ıtulo 3

Trabalhos Relacionados

A classifica¸c˜ao de textos ´e explorada em diversos artigos e livros nos mais variados con- textos devido `a abrangˆencia de sua implementa¸c˜ao. Este cap´ıtulo apresenta os principais artigos utilizados como referˆencia para este trabalho e discorre brevemente sobre seus pontos-chaves.

Considerando o tema de leis de prote¸c˜ao de dados e os impactos na administra¸c˜ao da informa¸c˜ao em meios digitais, Jefferson S. et al. exploram as mudan¸cas observadas no desenvolvimento de aplica¸c˜oes web, analisando o desenvolvimento decentralizado baseado na plataforma Solid, “Social Linked Data”, que estipula a autonomia dos usu´arios sobre seus dados [18]. Welderufael T. et al., por sua vez, discorrem sobre os desafios no cumpri- mento das leis de privacidade dos dados e prop˜oem o uso de aprendizado de m´aquina como facilitador na compreens˜ao das diretrizes a serem seguidas pelos agentes de tratamento dos dados [6].

Observando a importˆancia do pr´e-processamento na an´alise dos dados, isto ´e, a prepara¸c˜ao dos dados anterior `a sua utiliza¸c˜ao como insumo para os modelos de apren- dizado, Khan A. et al. abordam os passos envolvidos neste processo dentro do contexto de classifica¸c˜ao de documentos. S˜ao destacados o processamento de linguagem natural, a sele¸c˜ao de caracter´ısticas, a representa¸c˜ao vetorial da informa¸c˜ao, a redu¸c˜ao de dimen- sionalidade da matriz de correla¸c˜ao, bem como temas correlatos, tal qual Recupera¸c˜ao de Informa¸c˜ao (RI) [19]. Gomaa W. e Fahmy A. salientam a importˆancia da escolha cuidadosa das m´etricas de similaridade [14] e apresentam as principais m´etricas, dentre elas a similaridade de Jaccard, do Cosseno, e distˆancia Euclidiana, e verificam como a sua combina¸c˜ao pode gerar resultados aperfei¸coados. A sele¸c˜ao das m´etricas de similaridade

24 influencia nos resultados finais [11], pois ´e o parˆametro de segrega¸c˜ao dos dados, sendo refletido na avalia¸c˜ao do desempenho de diferentes representa¸c˜oes, m´etricas e algoritmos combinados sobre um conjunto de dados.

Bakarov A., por sua vez, se aprofunda na representa¸c˜ao dos termos por valores num´ericos reais, conhecida como Word Embeddings. O autor apresenta uma revis˜ao ex- tensa dos m´etodos de avalia¸c˜ao dessa representa¸c˜ao, refor¸cando os principais problemas conhecidos e propondo novas abordagens [20].

Corley C. e Mihalcea R. discorrem sobre a similaridade semˆantica entre os tex- tos, em oposi¸c˜ao `a tradicional abordagem a partir da similaridade l´exica amplamente empregada [21]. Os autores introduzem um algoritmo que combina as m´etricas de simila- ridade palavra-a-palavra para gerar uma m´etrica de similaridade semˆantica texto-a-texto e comprovam que os resultados obtidos apresentam desempenho superior aos encontrados quando utilizando a similaridade l´exica.

Outros autores prop˜oem diferentes m´etodos para melhorar o desempenho dos mo- delos de aprendizado de m´aquina no contexto de classifica¸c˜ao de textos. Zhu Hong et al. documentam os resultados de sua abordagem ´unica, que combina formas distintas de representa¸c˜ao dos termos, com diversos classificadores e avalia a melhoria no desempenho [22]. Wagstaff K. e Rogers S., analogamente, exploram como aprimorar o algoritmo K- m´edias atrav´es do uso do conhecimento pr´evio quanto aos conjuntos de dados utilizados, visando restringir os agrupamentos por meio dessa informa¸c˜ao [16]. Essa abordagem busca aproximar o processo de clusteriza¸c˜ao de situa¸c˜oes reais que, em sua maioria, direcionam o resultado final desejado.

Iwayama M. e Tokunaga T., por sua vez, abordam o modelo de clusteriza¸c˜ao hier´arquica propondo a utiliza¸c˜ao de m´etrica de similaridade baseada na inferˆencia Baye- siana [23],. Dessa forma, os textos s˜ao incorporados ao agrupamento que apresentar a maior probabilidade posterior, isto ´e, maior probabilidade de o documento pertencer ao agrupamento em quest˜ao. Os autores nomeiam este algoritmo de Hierarchical Bayesian Clustering (HBC) e comparam, ent˜ao, os seus resultados com os de outros algortimos de clusteriza¸c˜ao.

Kim M. e Sayama H. tamb´em exploram como gerar melhores resultados, todavia, a partir da perspectiva de refinamento do conjunto de treinamento utilizado para os modelos de aprendizado supervisionado. Os autores introduzem a ideia de que os dados

de treinamento podem ser aprimorados atrav´es da classifica¸c˜ao por comunidades de rede, em oposi¸c˜ao `a classifica¸c˜ao feita por seres humanos [7]. Nessas comunidades, os n´os s˜ao constitu´ıdos por senten¸cas, cuja representa¸c˜ao vetorial ´e no formato TF-IDF e similaridade do cosseno, a qual atribui um peso a cada n´o. A an´alise dos resultados comprova a vantagem de tal abordagem.

Este trabalho, entretanto, prop˜oe uma abordagem autˆonoma capaz de classificar em diferentes n´ıveis de confidencialidade a informa¸c˜ao contida em uma base de dados real de uma institui¸c˜ao financeira, avaliando o desempenho dos principais modelos de apren- dizado supervisionado e n˜ao supervisionado, a fim de selecionar aquele que apresentar melhor resultado. Com isso, busca-se sugerir um m´etodo mais assertivo na classifica¸c˜ao de documentos, alternativo `a classifica¸c˜ao manual (user-driven) e `a utiliza¸c˜ao de expres- s˜oes regulares.

Cap´ıtulo 4

A Abordagem de Classifica¸c˜ao em

N´ıveis de Confidencialidade Proposta

O objetivo principal deste projeto ´e identificar o algoritmo de aprendizado de m´aquina que apresenta o melhor desempenho no contexto de classifica¸c˜ao de documentos segundo n´ıveis de confidencialidade. Este cap´ıtulo detalha a estrat´egia implementada para alcan¸car esse objetivo, abordando o conjunto de dados utilizados, seu tratamento, a forma como os modelos s˜ao treinados e avaliados, e, por fim, comparados. Os t´opicos apresentados seguem a sequˆencia mostrada na Figura 2.1

4.1

Coleta dos dados

O conjunto de dados utilizados neste trabalho ´e formado por documentos reais prove- nientes de uma empresa do setor banc´ario, mediante autoriza¸c˜ao pr´evia. A natureza confidencial dos dados armazenados em seu ambiente proporciona o contexto adequado quanto `a presen¸ca de informa¸c˜oes sens´ıveis e `a necessidade de categoriz´a-las corretamente a fim de direcionar os tratamentos e prote¸c˜ao devidos. Por se tratar de dados reais e conter documentos confidenciais, o conjunto de dados n˜ao ´e p´ublico e foi processado no per´ımetro de seguran¸ca estabelecido pelas normas de prote¸c˜ao de dados da empresa. Portanto, os c´odigos desenvolvidos para teste e treino dos algoritmos s˜ao executados diretamente em um computador da institui¸c˜ao.

Os documentos consistem em grupos de dados em formato n˜ao estruturado, sendo do tipo Word, Excel, PowerPoint e PDF. Para arquivos de extens˜ao PDF, em particular,

faz-se necess´ario a utiliza¸c˜ao de Reconhecimento ´Optico de Caracteres, Optical Character Recognition (OCR), a fim de evitar perda de informa¸c˜ao no momento da leitura de tais documentos. Esse processo ´e realizado por meio da convers˜ao de arquivos PDF para ima- gens de extens˜ao .PNG, utilizando a ferramenta XpdfReader, sobre as quais ´e aplicado o reconhecimento ´optico pela ferramenta Tesseract-OCR, que identifica os elementos textuais e os traduz para um arquivo de texto. Ambos mecanismos s˜ao ferramentas de c´odigo aberto, implementados no c´odigo desenvolvido no estudo.

O conjunto de dados abrange os trˆes principais idiomas utilizados no banco: por- tuguˆes, inglˆes e espanhol, totalizando em 878 arquivos. Aos documentos que apresentam palavras pertencentes a mais de um idioma, ´e aplicado o mesmo tratamento dos arqui- vos em inglˆes, considerando as stopwords, entidades nomeadas e stemiza¸c˜ao. Na Figura 4.1 observa-se a segrega¸c˜ao do conjunto de dados conforme seus idiomas e extens˜oes dos arquivos. Observando o gr´afico, verifica-se que os arquivos, em sua maioria, s˜ao do tipo PDF e concentram-se nos idiomas portuguˆes e inglˆes, o que ´e consistente com a realidade do banco de investimentos, cuja maioria dos escrit´orios est˜ao localizados em territ´orio bra- sileiro. Al´em disso, apesar de possuir mais filiais na Am´erica Latina do que na Am´erica do Norte e Europa, a comunica¸c˜ao entre escrit´orios ´e feita majoritariamente em inglˆes. Adicionalmente, observa-se que a quantidade de documentos cujo idioma n˜ao foi identifi- cado ´e insignificante quando comparada com o restante do conjunto de dados. Isso indica que qualquer ru´ıdo ou efeito negativo que, porventura, poderiam ter sobre os resultados ser´a m´ınimo.

Os arquivos podem ser classificados de acordo com trˆes n´ıveis de confidencialidade aplicados neste estudo: p´ublico, interno e confidencial. O r´otulo p´ublico aborda prin- cipalmente temas de conhecimento comum, facilmente obtidos na m´ıdia, na internet ou outros meios. Configura informa¸c˜oes que n˜ao s˜ao propriedade da empresa ou que dizem respeito ao banco, por´em, j´a foram publicadas `a comunidade. O n´ıvel interno classifica dados relacionados `as atividades di´arias dos colaboradores, incluindo documentos de dife- rentes ´areas variando desde pol´ıticas internas, relat´orios de desempenho de ferramentas, comunicados internos, at´e arquivos do setor de neg´ocios, que lidam diretamente com o mercado financeiro e informa¸c˜oes de clientes. A classifica¸c˜ao confidencial identifica do- cumentos de conte´udo muito sens´ıvel, como dados pessoais de clientes, funcion´arios ou propriedade intelectual.

28

Figura 4.1: Visualiza¸c˜ao da distribui¸c˜ao dos arquivos conforme o idioma. Os idiomas para os quais ´e identificada maior quantidade de informa¸c˜ao s˜ao o portuguˆes e o inglˆes. Apenas uma pequena fra¸c˜ao dos documentos n˜ao teve seu idioma identificado, n˜ao influenciando, portanto, significativamente na gera¸c˜ao de ru´ıdos no conjunto total.

Ap´os inspe¸c˜ao do conte´udo, a classifica¸c˜ao ´e atribu´ıda ao documento como meta- dado, por meio de uma propriedade customizada denominada “Sensitivity”. Essa classifi- ca¸c˜ao ´e utilizada como verdade b´asica pelo c´odigo para treinamento dos algoritmos.

A an´alise da Figura 4.2 revela que a maioria dos documentos pertence ao n´ıvel de classifica¸c˜ao “Interno”, o que demonstra coerˆencia com o contexto empresarial, em que uma parte significativa dos dados no ambiente s˜ao de uso interno e, em geral, irrestrito para os demais colaboradores da institui¸c˜ao. Esta classe tamb´em ´e a ´unica que apresenta arquivos de todos os idiomas considerados. Assim, ´e poss´ıvel inferir que, se houver d´uvidas quanto `a classifica¸c˜ao de um documento, ´e plaus´ıvel que os modelos selecionem o r´otulo “Interno”, estando provavelmente correto.

Figura 4.2: Distribui¸c˜ao dos documentos conforme a classifica¸c˜ao. A maioria dos arquivos se concentrou no n´ıvel de classifica¸c˜ao de Uso Interno, sendo tamb´em o que engloba todos os idiomas considerados. As demais classes apresentaram menor quantidade e presen¸ca relevante do idioma portuguˆes.

Documentos relacionados