Um texto tão singular quanto a impressão digital: o uso de sistemas inteligentes para reconhecimento de autoria

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE

UNIVERSIDADEFEDERAL DORIOGRANDE DO NORTE

CENTRO DETECNOLOGIA

PROGRAMA DEPÓS-GRADUAÇÃO EMENGENHARIAELÉTRICA E DECOMPUTAÇÃO

Um texto tão singular quanto a impressão

digital: O uso de sistemas inteligentes para

reconhecimento de autoria

Marcella Andrade da Rocha

Orientador: Prof. Dr. Ricardo Alexsandro de Medeiros Valentim

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Mestre em Ciências.

(2)

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação da publicação na fonte. UFRN - Biblioteca Central Zila Mamede

Rocha, Marcella Andrade da.

Um texto tão singular quanto a impressão digital: O uso de sistemas inteli-gentes para reconhecimento de autoria/ Marcella Andrade da Rocha. - 2019

84 f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grande do Norte, Cen-tro de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica e de Computação, Natal, RN.

Orientador: Prof. Dr. Ricardo Alexsandro de Medeiros Valentim.

1. AVASUS - Dissertação. 2. Atribuição de autoria - Dissertação. 3. Algorit-mos de classificação - Dissertação. 4. Técnicas de análise léxica - Dissertação. 5. Análise de estilometria - Dissertação. I. Valentim, Ricardo Alexsandro de Medeiros. II. Título.

RN/UF/BCZM CDU 004.85:82.08

(3)

Um texto tão singular quanto a impressão

digital: O uso de sistemas inteligentes para

reconhecimento de autoria

Marcella Andrade da Rocha

Dissertação de Mestrado aprovada em 16 de agosto de 2019 pela banca examinadora composta pelos seguintes membros:

Prof. Dr. Ricardo Alexsandro de Medeiros Valentim (orientador) . DEB/UFRN

ProfaDraEloiza da Silva Gomes Oliveira . . . UERJ

Prof. Dr. Robinson Luis de Sousa Alves . . . IFRN

Prof. Dr. Aquiles Medeiros Filgueira Burlamaqui . . . UFRN

(4)

(5)

À minha filha, meu marido e a toda

minha família.

(6)

(7)

Agradecimentos

Ao meu orientador, professor Ricardo Alexsandro de Medeiros Valentim e ao meu co-orientador não oficializado, Giovani Ângelo Silva da Nóbrega, sou grata por toda a orien-tação, amizade e ajuda proporcionada.

À minha filha, Sophia Andrade Castelo Branco Araújo, meu marido, Emerson Castelo Branco de Araújo, principalmente por toda a paciência que tiveram comigo.

À meus pais, Marineusa Damasceno Andrade e Ronaldo da Rocha e meu irmão, Madson Rangel Andrade Rocha, mesmo de longe sempre me apoiaram e me motivaram a não desistir.

À minha amiga, Sthefani Wanzeller da Silva, além de ser uma grande e verdadeira amiga para a vida, me ajudava em tudo que eu precisava, mesmo distante.

Aos demais colegas do Laboratório, LAIS/UFRN, pelas sugestões e amizade. À minha família pela motivação durante esta jornada.

À CAPES, Fundação brasileira que incentiva a pesquisa científica para formação de mais profissionais aptos a beneficiar o Brasil.

(8)

(9)

Resumo

A Atribuição de Autoria, a ciência de inferir um autor para um determinado texto com base em suas características de escrita, é um problema com uma longa história e refere-se a tarefa de reconhecimento do autor de um texto em um grupo de autores candidatos. Neste trabalho, está sendo proposto o estudo do problema de atribuição e reconhecimento de autoria para fins de torná-lo uma ferramenta de uso na plataforma de ensino a distân-cia do Ministério da Saúde (MS), AVASUS. Serão apresentadas as técnicas de análise de texto e extração de características estilométricas dos autores que permitem que a autoria seja determinada em índices significativamente melhores, no qual os textos são maiores que 30 caracteres. Esta dissertação tem como alvo o AVASUS, onde os estudantes fazem os cursos da plataforma, compartilham seus interesses e pensamentos em forma de men-sagens nos fóruns e executam atividades que exigem textos sobre determinados temas na área da saúde. Essas produções escritas são o foco da aplicação de atribuição e reconheci-mento de autoria. As técnicas estudadas como proposta são um processo de dois estágios, onde no primeiro estágio, informações estilométricas são extraídas do conjunto de da-dos coletada-dos e no segundo estágio, diferentes algoritmos de classificação são treinada-dos e técnicas de análise léxicas, semânticas ou sintáticas são aplicadas para prever os autores dos textos. O esforço é para maximizar a precisão das previsões com quantidade ideal de dados e usuários em consideração.

Palavras-chave: AVASUS, Atribuição de Autoria, Algoritmos de Classificação, Téc-nicas de Análise Léxica, Análise de Estilometria.

(10)

(11)

Abstract

The Authorship Attribution, the science of inferring an author for a particular text based on their writing characteristics, is a problem with a long history. In this work, it is being proposed the study of the problem of attribution and recognition of authorship in order to make it a tool of use in the distance learning platform of the Ministry of Health (MS), AVASUS. The techniques of text analysis and stylometric characteristics of the authors will be presented, allowing the authorship to be determined in significantly better indexes, in which the texts are greater than 30 characters. This proposal targets AVASUS, where students take the courses of the platform, share their interests and thoughts in the form of messages in the forums and perform activities that require writing on certain topics in the health area. These written productions are the focus of the application of attribution and recognition of authorship. The techniques studied as a proposal are a two-stage process, where in the first stage, stylometric information is extracted from the collected data set and in the second stage, different classification algorithms are trained and lexical, semantic or syntactic analysis techniques are applied to predict the authors of the texts. The effort is to maximize the accuracy of predictions with optimal amount of data and users under consideration.

Keywords: AVASUS, Authorship Attribution, Classification Algorithms, Lexical Analy-sis Techniques, Estilometry AnalyAnaly-sis.

(12)

(13)

Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas v

Lista de Símbolos e Abreviaturas vii

1 Introdução 1 1.1 Objetivo . . . 2 1.2 Objetivos Específicos . . . 2 1.3 Contribuições . . . 2 1.4 Organização do texto . . . 3 2 Referencial Teórico 5 2.1 Ensino a Distância . . . 5 2.1.1 AVASUS . . . 6 2.2 Ramos da Linguística . . . 6 2.2.1 Fonologia . . . 6 2.2.2 Morfologia . . . 7 2.2.3 Lexicografia . . . 7 2.2.4 Sintaxe . . . 8 2.2.5 Semântica . . . 8 2.3 Pré-Processamento . . . 8 2.3.1 Normalização . . . 9 2.3.2 Part of speech . . . 10

2.4 Automatização da Análise de textos . . . 10

2.4.1 Padrões em texto . . . 10

2.5 Algoritmos de Machine Learning . . . 11

2.5.1 Naive Bayes . . . 11

2.5.2 Máquina de vetores de suporte . . . 12

2.5.3 K-Nearest Neighbor . . . 13

2.6 Métricas de avaliação . . . 14

2.6.1 Precisão geral . . . 14

2.6.2 Curva ROC . . . 15 i

(14)

3 Estado da Arte 17 3.1 Atribuição de Autoria . . . 17 3.1.1 Características estilométricas . . . 19 3.1.2 Características Híbridas . . . 20 3.1.3 Características Léxicas . . . 20 3.1.4 Características Sintáticas . . . 24 3.1.5 Características Semânticas . . . 25 3.2 Análise Forense . . . 26 3.3 Linha do Tempo . . . 27 4 Implementação 33 4.1 Visão Geral . . . 34

4.2 Base de Dados do AVASUS . . . 35

4.2.1 Dissimilaridade da Base de Dados . . . 37

4.3 Pré-Processamento . . . 38

4.3.1 Stopwords . . . 38

4.4 Extração de características . . . 39

4.5 Treinamento e Classificação . . . 41

4.6 Sistema de Reconhecimento de Autoria . . . 42

5 Resultados 43 5.1 Análise da Base do AVASUS . . . 43

5.2 Análise da extração de características . . . 44

5.3 Análise dos classificadores . . . 50

5.4 Discussão . . . 57

6 Conclusões 59 6.1 Limitações . . . 59

6.2 Trabalhos Futuros . . . 60

(15)

Lista de Figuras

2.1 Curva ROC. . . 15

3.1 Diagrama das características estilométricas e análise forense. . . 20

4.1 Modelo do sistema proposto. . . 35

4.2 Vetor de estilometria. . . 40

4.3 Esquema completo do sistema . . . 42

5.1 BoxPlot da distribuição das características unitárias . . . 45

5.2 BoxPlot da distribuição da frequência de letras . . . 46

5.3 BoxPlot da distribuição da frequência de dígitos . . . 47

5.4 BoxPlot da distribuição da frequência de Stopwords . . . 48

5.5 BoxPlot da distribuição da frequência de pontuação . . . 49

5.6 Curvas ROC dos Testes 1 a 4 . . . 53

5.9 Curvas ROC dos Testes 13 e 14 . . . 56

(16)

(17)

Lista de Tabelas

3.1 Palavras chaves utilizadas no estado da arte . . . 17

3.2 Linha do tempo do estado da arte anos 2013 a 2015 . . . 28

3.3 Linha do tempo do estado da arte anos 2016 a 2018 . . . 30

4.1 Amostra do banco de dados do AVASUS . . . 36

4.2 Configurações de teste do banco de dados do AVASUS . . . 36

4.3 Exemplo da Matriz Esparsa - TF(t,d) . . . 38

4.4 Conjunto de características para reconhecimento de autoria . . . 39

5.1 Resultados de classificação . . . 43

5.2 Conjuntos de Teste do banco de dados . . . 50

5.3 Resultados de classificação com várias configurações - SVM . . . 51

5.4 Resultados de classificação - Stopwords removidas . . . 52

5.5 Resultados de classificação - Stopwords incluídas . . . 52

(18)

(19)

Lista de Símbolos e Abreviaturas

ARVC Author Based Rank Vector Coordinates AVA Ambientes Virtuais de Aprendizagem

AVASUS Ambiente Virtual de Aprendizagem do Sistema Único de Saúde

BNB Bernoulli Naive Bayes

BoW Bag of Words

CMAR Multiple Association Rule CNN Convolutional Neural Network

DT Árvore de Decisão

EAD Educação/Ensino a Distância

FAR False Acceptance Rate

FCD Fast Compression Distance

FRR False Rejection Rate

GCP Gaussian Process Classification IAPB Author of Program Binaries IPD Documento de perfil integrado ISG Integrated Syntactic Graphs

KNN: k-Nearest Neighbor

LAIS Laboratório de Inovação Tecnológica em Saúde LDA Latent Dirichlet Allocation

LLNA Life-Like Network Automata

LR Logistic Regression

LSA Latent Semantic Analysis

(20)

MDA Multiple Discriminant Analysis

MNB Multinomial Naive Bayes

MS Ministério da Saúde

MVKD multivariate kernel density

NB Naive Bayes

NNLM Neural Network Language Model

PCFG Probabilistic Context Free Grammar PHR Phrasal tag percent

PNL Processamento de Linguagem Natural

POS Part of speech

RFE Recursive Feature Elimination ROC Receiver Operating Characteristic SEDIS Secretaria de Educação a Distância

SGTES Secretaria de Gestão do Trabalho e da Educação na Saúde

SMS Short Message Services

SOM Self-organizing maps

SVM Support Vector Machine

TF-IDF Term Frequency-Inverse Document Frequency UFRN Universidade Federal do Rio Grande do Norte UNASUS Universidade Aberta do SUS

(21)

Capítulo 1

Introdução

No início do século XIX, foi considerado difícil determinar a autoria de um docu-mento com menos de 1000 palavras. O número diminuiu significativamente e no início do século XXI foi considerado possível determinar a autoria de um documento de 250 palavras. A necessidade desse limite ser cada vez menor é exemplificada pela tendência de muitas técnicas de comunicação mais curtas, como Twitter, Facebook, Short Message Services (SMS) e fóruns. (Bhatnagar & Srinivasa 2013)

A atribuição de autoria exerce um papel importante em muitas aplicações, incluindo reconhecimento de autoria e investigação forense. As abordagens desse problema tentam identificar o autor de um documento por meio da análise do estilo de redação do indivíduo e/ou dos assuntos/tópicos sobre os quais ele costuma escrever. O problema tem sido extensivamente estudado e uma ampla gama de recursos tem sido explorada ((Hürlimann et al. 2015);(Stamatatos 2013);(Schwartz et al. 2013); (Seroussi et al. 2014)). Contudo, tem faltado a análise do comportamento das características em conjuntos de dados de plataformas EaD ou usando uma série de classificadores. Consequentemente, fica difícil determinar quais tipos de características serão mais úteis para um determinado conjunto de dados no reconhecimento de autoria.

A atribuição de autoria é uma tarefa única que está intimamente relacionada à repre-sentação do estilo de escrita e à categorização do texto dos indivíduos. Em alguns casos, onde há uma distinção clara entre os documentos escritos por diferentes autores, as ca-racterísticas relacionadas ao conteúdo, como aqueles usados na categorização de texto, podem ser eficazes. No entanto, é mais provável que as características baseados em es-tilo sejam eficazes para conjuntos de dados que contêm um conjunto de conteúdo mais homogêneo.

Tradicionalmente, a tarefa sobre a atribuição de autoria de um texto é feita em um dos dois cenários: O primeiro é o da pesquisa literária e/ou histórica em que a atribuição é solicitada para um texto de origem desconhecida. Em complemento, onde, geralmente identificam autores em potencial, o trabalho é o reconhecimento de autoria, isto é, a se-leção de um autor em um conjunto de autores conhecidos; O segundo ambiente para atribuição de autoria em textos é o da linguística forense, onde precisa ser determinado se um suspeito escreveu ou não um texto específico, provavelmente incriminatório, onde a tarefa é a verificação de autoria que ocorre confirmando ou negando a autoria por um único autor conhecido (Halteren 2007). A dissertação se concentra em parte nos dois

(22)

ce-2 CAPÍTULO 1. INTRODUÇÃO

nários citados, a verificação e o reconhecimento de autoria no Ensino a Distância (EAD), com o manuseio de um grande número de textos dos estudantes na plataforma AVASUS.

A automatização do sistema EAD está iniciando e logo não será necessário um tutor para as atividades, apenas inteligência artificial. O sistema EAD mesmo sendo incorpo-rado na internet não é completamente independente de intermediação humana de tutoria para ensino, correção e auxílio aos estudantes. O desenvolvimento de sistemas inteligen-tes está dominando o meio e automatizando diversos sistemas e isso envolve também o EAD, mas é um trabalho demasiadamente custoso, exige pesquisa em diversas áreas e será executado gradualmente. Com a automatização dos sistemas, as tarefas serão futu-ramente desempenhadas pelas máquinas através de inteligência artificial e implicará em redução de custos e qualidade por trazer resultados satisfatórios e segurança.

De acordo com o que possui hoje na plataforma AVASUS, melhorias são necessárias e devido a isso, a proposta do software do reconhecimento de autoria dos textos digitados pelos usuários nas atividades dos cursos irá enriquecer ainda mais o sistema e elevar a automatização do AVASUS, sendo assim um início para um sistema EAD totalmente mediado por tecnologia e inteligência artificial.

1.1 Objetivo

A finalidade deste projeto é o desenvolvimento de um programa computacional utili-zando sistemas inteligentes capaz de reconhecer e verificar a autoria de um texto digitado na plataforma AVASUS, introduzindo o conceito de “impressão digital” exclusiva de um autor e analisando o estilo padrão de escrita de cada usuário que digitar textos no sis-tema pelos cursos disponibilizados mostrando que tais “impressões digitais” são típicas de muitos autores.

1.2 Objetivos Específicos

O projeto irá envolver os seguintes objetivos pertinentes:

• Elaborar uma revisão bibliográfica de vários artigos científicos para a verificação de ocorrências internacionais relacionada ao reconhecimento de autoria;

• Extrair características para implementação de um vetor de estilometria para cada texto;

• Aplicar Algoritmos de Classificação;

• Designar e validar percentualmente no relatório gerado pelo algoritmo o desempe-nho/eficiência da classificação de autoria;

• Indicar através dos textos de teste qual o autor correspondente;

1.3 Contribuições

(23)

1.4. ORGANIZAÇÃO DO TEXTO 3

• Aplicação do reconhecimento de autoria como recurso para um Ambiente Virtual de Aprendizagem (AVA);

• Analisar textos e extrair características da língua portuguesa; • Identificar a "impressão digital"de escrita do autor;

• Ajuda a identificar e reconhecer textos copiados ou escritos por terceiros.

1.4 Organização do texto

A organização deste trabalho consiste em seis capítulos. O primeiro possui uma in-trodução com os objetivos e contribuições relevantes. O capítulo 2 aborda os ramos da linguísticas e a teoria do que é fundamental no reconhecimento de autoria, como etapa de pré-processamento e algoritmos utilizados na classificação de textos. O capítulo 3 aborda um breve estado da arte com os trabalhos mais relevantes entre 2013 a 2018. O capítulo 4 trata dos materiais e métodos descrevendo os conjuntos de procedimentos que são utilizados no projeto. O capítulo 5 traz os resultados adquiridos com o método. O capítulo 6 apresenta as conclusões alcançadas com os resultados do trabalho e, aponta os direcionamentos para pesquisas futuras e as limitações encontradas.

(24)

(25)

Capítulo 2

Referencial Teórico

Nesse capítulo serão descritos alguns conceitos e definições fundamentais, além de algumas técnicas utilizadas para o pré-processamento dos textos.

2.1 Ensino a Distância

No modelo de ensino tradicional, professores ou instrutores possuem o papel prin-cipal de compartilhar seu conhecimento e experiência, supondo que os alunos possuam conhecimento e habilidades básicas, onde a aprendizagem é avaliada através de exames e trabalhos. A Educação a Distância (EAD) veio antes da era da internet e os instrutores estavam disponíveis para responder as dúvidas pelo telefone ou correio, embora fosse pos-sível aprender em casa e com horário flexível, a falta de interatividade impedia o processo de aprendizagem.(Liñán & Pérez 2015).

Hoje o cenário da EAD está diferente e mais pessoas podem ter acesso a educação de qualidade apenas com o uso da internet por meio dos Ambientes Virtuais de Aprendi-zagem (AVA), que é o mecanismo de distribuição do conteúdo dos cursos como também o local para interação entre aluno e professor (ABED 2016). Sugestionado no modelo EAD foi criado o projeto AVASUS que consiste em uma plataforma de cursos EAD do Ministério da Saúde (MS), voltados para a capacitação de profissionais, professores, es-tudantes da área da saúde e também qualquer cidadão interessado nos temas disponíveis. O conteúdo é feito por instituições de ensino superior e entidades ligadas à área da saúde que produzem módulos educacionais de qualificação e formação técnica conforme as ne-cessidades da saúde pública no país. (Vieira et al. 2017)

O EAD envolve o ensino, aprendizagem e mediação por tecnologia. Não é recente o enredo da importância do tutor mas está mudando e surgindo novas visões e modelos sobre a tutoria e seu papel no ensino a distância. Um tutor auxilia o aluno na interme-diação dos conteúdos por meio da tecnologia, colaborando através de diálogos indivi-dualizados, estimulando, motivando, dando feedback, facilitando assim a aprendizagem, (do Nascimento e Maria Leal e Maria Spilker e Lina Morgado 2015) podendo também se responsabilizar pela correção das redações, tarefas e participar ativamente de fóruns de discussão.

E foi proposto metodologicamente em 2017 uma otimização do projeto AVASUS, no qual parte do sistema foi enriquecido através de um software de pós-atendimento

(26)

anali-6 CAPÍTULO 2. REFERENCIAL TEÓRICO

sando o feedback dos usuários do sistema ao final do curso respondendo um questionário. (Vieira et al. 2017). Sendo esse o início do aprimoramento da plataforma. Em seguida, estão mais detalhes sobre o AVASUS.

2.1.1 AVASUS

O AVASUS é um projeto desenvolvido com a cooperação entre a Secretaria de Gestão do Trabalho e da Educação na Saúde (SGTES) do MS e a Universidade Federal do Rio Grande do Norte (UFRN), onde, o Laboratório de Inovação Tecnológica em Saúde (LAIS) e a Secretaria de Educação a Distância (SEDIS) desenvolvem a plataforma. A plataforma possui 185 cursos ativos, 369.857 usuários cadastrados e 793.953 matrículas realizadas em cursos, o que demonstra que muitos usuários fazem mais de um curso na plataforma. O AVASUS pode ser acessado pelo site <https://avasus.ufrn.br/> (AVASUS 2019)(Nóbrega et al. 2016).

A plataforma AVASUS atualmente está na versão 2.0, essa nova versão possui um de-sign intuitivo e de fácil acesso, onde o usuário consegue navegar e chegar ao seu objetivo de forma rápida e simples utilizando o recurso "Navegabilidade com apenas um click". Nessa versão é possível ter acesso as ementas, resumos e outras informações sem ter a necessidade de estar matriculado. O estudante ao se matricular terá acesso a qualquer conteúdo e o direito de fazer seu próprio itinerário formativo, escolhendo módulos rela-cionados a sua formação. Para adquirir o certificado de conclusão é necessãrio completar 100% do módulo. Os módulos existentes foram desenvolvidos por instituições de ensino da Universidade Aberta do SUS (UNASUS) e tratam temas clínicos e de organização do processo de trabalho e são compostos por diferentes mídias (textos, áudios, vídeos) e podem ser acessados a qualquer momento (Nóbrega et al. 2016).

A versão 2.0 foi desenvolvida com tecnologia responsiva, melhorando a experiência do usuário, onde, ele consegue acessar o site de um smartphone, tablet ou computador sem que a navegação seja prejudicada (AVASUS 2019).

2.2 Ramos da Linguística

A linguagem é o meio ordenado para as pessoas se comunicarem, seja por um conjunto de frases, símbolos ou sinais. A linguística é a ciência que tem por objeto a linguagem humana e explora à totalidade da comunicação e suas modificações para identificar as ocorrências através do tempo.

A linguística computacional é um campo multidisciplinar que abrange métodos com-putacionais para manipulação da linguagem humana, também conhecida como processa-mento de linguagem natural. As áreas da linguística abrangem desde sons, sílabas até frases inteiras. (Mitkov 2005)

2.2.1 Fonologia

Fonologia é a parte da linguística que trata dos fonemas das línguas em geral e pode ser representado com símbolos ou caracteres. As unidades sonoras que são suficientes

(27)

2.2. RAMOS DA LINGUÍSTICA 7

para diferir os significados chamam-se fonemas.

A fonologia computacional ocorre quando a informação fonológica é tratada como uma sequência de símbolos, onde nesse caso ela é imediatamente passível de processa-mento usando modelos existentes.

2.2.2 Morfologia

Na linguística, morfologia trata da formação e classificação das palavras tanto na forma escrita quanto na fonêmica. A particularidade da morfologia é analisar as pala-vras isoladamente sem participação em frases ou períodos. Formalmente, as palapala-vras são definidas como a unidade mínima na linguagem, conhecida como morfema. As classes gramaticais ou classes de palavras são: Substantivo, Artigo, Adjetivo, Numeral, Pronome, Verbo, Advérbio, Preposição, Conjunção e Interjeição, divididas naquelas que variam em grau, gênero ou número e naquelas que não variam, variáveis e invariáveis, respectiva-mente.

A aplicabilidade explícita da morfologia computacional pode ser vista em sistemas baseados em análise e/ou geração de expressões na forma escrita ou falada. Estes variam da extração de mensagens e informações a sistemas de diálogo e tradução automática. Para muitas aplicações, apenas a morfologia flexional (Flexões e variações dos substan-tivos, adjetivos e verbos) é considerada. Outra tarefa importante é a lematização, isto é, uma técnica utilizada por buscadores de palavras em sites, que encontra a forma de di-cionário correspondente para uma dada palavra de entrada, pois para muitas aplicações um léxico de lema é usado para fornecer informação sintática e semântica mais detalhada para uma análise mais profunda.

A tarefa mais simples na morfologia computacional é pegar uma sequência de carac-teres ou fonemas como entrada e entregar uma análise como saída. A string de entrada (1) pode ser mapeada para uma sequência de morfemas implícitos (2).

1. Menininhos 2. Menin+inh+o+s

3. Base do número+grau+gênero+número

A vantagem é a simplicidade e a aplicabilidade de todos os fenômenos possíveis. A desvantagem é a redundância e a incapacidade de lidar com as formas não contidas no léxico (Mitkov 2005).

2.2.3 Lexicografia

A tarefa de elaboração de dicionários, vocabulários e outros foi revolucionada pela introdução da tecnologia computacional. Novas técnicas de lexicografia estão sendo uti-lizadas para compilar dicionários e listas de palavras de vários tipos. A lexicografia é de interesse especial para áreas de processamento de linguagem natural e recuperação de informação.

O termo Lexicografia computacional possui dois significados: 1. Exploração de dicionários humanos para fins computacionais; 2. Usar técnicas computacionais para compilar novos dicionários.

(28)

8 CAPÍTULO 2. REFERENCIAL TEÓRICO

2.2.4 Sintaxe

Na Sintaxe é estudada a organização das palavras nos períodos, orações, incluindo a relação lógica estabelecida entre as múltiplas combinações viáveis para se obter um significado íntegro e claro.

Em quase todas as línguas modernas, a ordem que tem sido dominante foi a do Sujeito, Verbo e Objeto em suas sentenças, como por exemplo a frase "O menino (Sujeito) pegou (Verbo) a bola (Objeto)". (Gell-Mann & Ruhlen 2011)

2.2.5 Semântica

Semântica é a fração da linguística que estuda os significados e/ou interpretação de diferentes elementos da linguagem como: palavras, sentenças, enunciados e expressões corporais da língua natural.

A semântica computacional é a área da linguística computacional que trata dos signi-ficados da linguagem como ponto central da modelagem, pelo qual, os signisigni-ficados das sentenças e frases são calculados de forma sistemática a partir de seus constituintes sin-táticos, dentro de uma abordagem computacional para o processamento de Linguagem Natural. Esta aplicação pode ser encarada em duas principais esferas. A primeira como explanação dos significados e a segunda como análise de como as representações semân-ticas de sentenças gramaticalmente complexas são reunidas com base no significado de seus componentes. (Mitkov 2005)

2.3 Pré-Processamento

Uma língua ou dialeto possui suas particularidades: as variações culturais e contex-tuais ocorridas com o tempo, o estilo de escrita do autor entre outras. Devido a isso foi criada a necessidade de pré-processar um texto antes de fazer qualquer análise. A causa de maior relevância para se utilizar pré-processamento é a existência de flexão ou modifica-ção de uma palavra para expressar variadas categorias gramaticais como número, gênero, modo, voz, tempo, aspecto, pessoa e caso que podem ou não existir dependendo do idi-oma e do tipo de palavra. Possui mais razões para pré-processar um texto, exemplificado na busca automática de palavras em um documento que tem as formas flexionadas, essas poderiam ser relevantes. O mesmo ocorre em tarefas de extração de palavras e sumariza-ção. As tarefas de pré-processamento mais relevantes existentes serão mencionadas em seguida.

O reconhecimento do início e do fim das frases de um texto é uma das tarefas mais custosas da fase de Pré-processamento e, geralmente, é a última a ser executada. Para ex-planar a pertinente dificuldade, pode-se exemplificar o aparecimento do "ponto final"no texto, que pode indicar o final de uma frase ou sentença, o aparecimento de uma abrevia-ção ou, mais esporadicamente, as duas coisas.

(29)

2.3. PRÉ-PROCESSAMENTO 9

2.3.1 Normalização

A normalização é o processo de diminuição do Léxico ou de transformar o texto em uma única forma canônica que se fundamenta na junção de tokens que partilham de um mesmo padrão. Comumente, a aplicabilidade dos métodos de normalização incorpora uma melhora no texto (Altheneyan & Menai 2014). Esta melhora muda dependendo do escopo, tamanho do texto e o que procura ter como saída do sistema. Os sistemas de classificação são bastante favorecidos com a diminuição do Léxico, dado que empregam como suporte teórico principal a Estatística. Conforme o modo de junção das palavras, os métodos de normalização podem ser variados. Posteriormente estão descritos de forma breve os principais:

Stemming

O stemming é o processo em que cada palavra seja adquirida na sua própria raiz ou steme centraliza-se na diminuição do léxico de cada palavra. Deste modo, o benefício principal é a retirada de sufixos que apontam a flexão da palavra, como tempo verbal e plural. Esse método é muito utilizado em algoritmos de busca, aplicado nas palavras em um procedimento chamado de conflação, com o objetivo de detectar as palavras que são provenientes da mesma origem. Posto que o stemming é capaz de cogitar um método por força bruta e regularmente é mais eficaz para unir palavras associadas. Logo a seguir, uma lista dos principais métodos utilizados: (Schutze 2008)

• Método de Porter; • Método de Lovins; • Método de Paice. • Método do stemmer S;

O método de Porter consiste em reconhecer diferentes inflexões relacionadas a uma mesma palavra e substitui-las por um radical comum, o método Lovins retira exclusi-vamente um único sufixo por palavra, removendo o maior sufixo conectado à ela (Flores 2009), o método de Paice pega uma amostra de palavras e divide-as em grupos conceituais que contenham palavras que sejam morfológica e semanticamente relacionadas (Xavier et al. 2013) e o método do stemmer S que limita-se na remoção dos finais das palavras, em geral sufixos formadores do plural. Os métodos utilizam a língua inglesa de referência (Flores 2009).

Lematização

A lematização é adequada para ver o uso das palavras em composições sem influência das flexões. Geralmente tem por objetivo remover apenas as flexões das palavras e entre-gar o lema base ou seu dicionário. A vantagem que este método possui é o de preservar a estrutura que apresenta o sentido nas palavras, de modo oposto ao método stemming.

(30)

2.3.2 Part of speech

Part of speech (POS), na gramática, é uma categoria de itens léxicos que possuem propriedades gramaticalmente similares. POS são substantivos, verbos, adjetivos, ad-vérbios, pronomes, preposições, conjunções, interjeições, numerais, artigos ou determi-nantes. Compreender o POS pode fazer diferença na definição do significado de uma sentença. (Mitkov 2005)

2.4 Automatização da Análise de textos

A automatização da análise de textos é uma tarefa necessária que aos poucos vem tomando espaço, devido ao aumento significativo do volume de textos gerado a cada dia na Internet. Assim diversas abordagens têm sido ofertadas.(Stamatatos et al. 2014) As técnicas de automatização da análise de textos são divididas em três partes:

1. Características Lexicais: palavras, n-gramas, gírias, palavras funcionais, dialetos, sinais de pontuação, n-grama de caracteres, sufixos frequentes, etc.

2. Características do texto: frases e palavras, espaços em branco, comprimento das linhas, caracteres não alfanuméricos, entre outros.

3. Características sintáticas: n-gramas função sintática, tipos de frase, complexidade morfológica, etc.

O item 2 geralmente é utilizado para análise de textos não-literários, como códigos fontes, em contrapartida, o item 3 necessita normalmente de conhecimentos peculiares em linguística. O item 1 é muito utilizado para o reconhecimento de autoria. Exem-plos de estudo utilizando elementos lexicais são muitos, usando caracteres,(Markov et al. 2016),(Stamatatos 2013), fonemas (Khomytska & Teslyuk 2018) e os morfemas,(Rao et al. 2017). Existem também os elementos léxicos n-gramas, que é uma subsequencia de nelementos de uma dada sequência e o papel sintático que uma palavra faz nas frases.

O representante destas técnicas é o Bag of Words (BoW) que retrata o texto como um conjunto generalizado das palavras, sem considerar a estrutura gramatical e ordenação das mesmas, mas mantém sua diversidade e associa a frequência em que elas ocorrem.

2.4.1 Padrões em texto

A Pesquisa de Processamento de Linguagem Natural (PNL) dedica-se ao desenvolvi-mentos de técnicas para extrair padrões em textos (Huang & Haralick 2009). Os padrões podem ser vistos como:

• Padrões sintáticos: partes de frases nominais, que são definidas por regras gramati-cais;

• Padrões semânticos: palavras polissêmicas, podem ser identificados pelos contextos da palavra.

(31)

2.5. ALGORITMOS DE MACHINE LEARNING 11

2.5 Algoritmos de Machine Learning

Vários algoritmos de Machine Learning, foram usados com sucesso na classificação de texto, entre os quais estão Naive Bayes, Máquinas de vetores de suporte, árvore de de-cisão (Al-Ayyoub et al. 2017), K-Nearest Neighbor, Random Forest (Otoom et al. 2014), Markov Decision Process(Ahmed et al. 2015), Recurrent Neural Network(Wang 2017), Regressão Logística (Bogdanova & Lazaridou 2014), entre outros. Os classificadores mais utilizados na literatura são Naive Bayes, Máquinas de vetores de suporte e K-Nearest Neighbor que estão descritos com mais detalhes nas próximas subseções.

2.5.1 Naive Bayes

O classificador Naive Bayes (NB) é um algoritmo probabilístico que é baseado no Te-orema de Bayes. Tornou-se popular na área de Machine Learning para categorizar textos fundamentado na frequência das palavras usadas. A probabilidade de uma mensagem d estar na classe c, P (c|d), é computada como

P(c|d) ∝ P (c)

m

∏

k=1

P(tk|c) (2.1)

onde P (tk|c) é a probabilidade condicional da característica tkque ocorre em uma

mensa-gem da classe c e P (c) é a probabilidade anterior de uma mensamensa-gem que ocorre na classe c.

O NB é um modelo de probabilidade simples e pode ser implementado de forma muito eficiente com uma complexidade linear. Aplica-se a uma suposição simplista de que a presença ou ausência de um recurso em uma classe é completamente independente de quaisquer outros recursos. Apesar do fato de que esta suposição simplista é muitas vezes imprecisa (em particular para problemas de domínio do texto), o NB é um dos clas-sificadores mais utilizados e possui várias propriedades que o tornam surpreendentemente útil e preciso. (Aggarwal & Zhai 2012)

Naive Bayes Binário

O Naive Bayes Binário atribui a representação de um vetor de atributos binários para cada documento de forma que cada atributo mostre no documento a ocorrência ou não de um evento. O termo φc,t na equação (2.2) refere-se a probabilidade da classe c apontar o

termo t ao menos uma vez no documento. P(d|c) =

_∏

t∈d

φc,t

_∏

t∈W,t /∈d

1 − φc,t (2.2)

(32)

Naive Bayes Multinomial

No Naive Bayes Multinomial cada vetor de atributos inteiros representa um docu-mento tipificando o número de vezes de cada ocorrência da amostra no docudocu-mento.

O classificador multinomial torna-se um classificador linear quando explícito em log-space: logp(C_k|x) ∝ log p(C_k n

∏

i=1 pxi ki) ! = logp (C_k) + n

∑

i=1 xi.logpki= b + w>kx (2.3)

onde b = logp (Ck) e wki= logpki.

2.5.2 Máquina de vetores de suporte

Máquina de vetores de suporte, do inglês, Support Vector Machine (SVM) tem sido considerado o algoritmo de aprendizagem supervisionado mais auspicioso na classifica-ção de textos. Trata-se de um classificador linear binário que utiliza modelos lineares para implementar limites de categorias não-lineares transformando um dado espaço de instân-cia em um linearmente separável por meio de mapeamentos não-lineares. No espaço transformado, um SVM constrói um hiperplano de separação que maximiza a distância entre as amostras de treinamento de duas categorias. Isso é feito selecionando dois hi-perplanos paralelos que são tangentes a pelo menos uma amostra de sua categoria; tais amostras nos hiperplanos tangenciais são chamadas de vetores de suporte. A distância entre os dois planos tangenciais é a margem do classificador, que deve ser maximizada e é por isso que um SVM linear também é conhecido como um classificador de margem máxima. O hiperplano de separação é obtido como um conjunto de pontos ~x satisfazendo a equação (2.4).

~

w·~x − b = 0 (2.4)

onde ~wé o vetor normal (não necessariamente normalizado) perpendicular ao hiperplano de separação e b é um escalar.

Hard-Margin

Caso os dados de treinamento sejam linearmente separáveis, é possível selecionar dois hiperplanos paralelos que separam as duas classes de dados, de maneira que a distância entre elas seja a maior possível. A margem é a região delimitada por dois hiperplanos. O classificador tem que buscar uma margem elevada no hiperplano e realizar erros marginais pequenos. Com um conjunto de dados normalizado ou padronizado, esses hiperplanos podem ser descritos pelas seguintes equações:

~

(33)

2.5. ALGORITMOS DE MACHINE LEARNING 13

e

~

w·~x − b = −1 (2.6)

Na equação (2.5) tudo aquilo que ficar sobre ou acima do limite é de uma classe, rotulada com 1. Na equação (2.6) tudo aquilo que ficar abaixo deste limite é da outra classe, rotulada com -1.

Soft-Margin

Nos casos em que no SVM os dados não são linearmente separáveis, é incluída a função de perda de articulação (2.7), que é usada para classificação de margem máxima.

max (0.1 − yi(~w·~xi− b)) (2.7)

Constata-se que yi é o i-alvo, isto é, 1 ou -1. E (~w·~xi− b) é a saída atual. Esta função é

zero se se ~xiestiver no lado correto da margem. Para os dados no lado errado da margem,

o valor da função é proporcional à distância da margem. Almeja-se minimizar nesse caso " 1 n n

∑

i=1 max (0, 1 − yi(~w·~xi− b)) # + λk~wk2 (2.8)

onde o λ define a mudança entre o aumento do tamanho da margem e garante que o ~xi

esteja no lado correto da margem. Dessa forma, para valores suficientemente pequenos de λ, o segundo termo na função de perda se tornará desprezível, logo, se procederá de modo parecido a Hard-Margin, se os dados de entrada forem linearmente classificáveis. (Herbrich 2001a)

2.5.3 K-Nearest Neighbor

O algoritmo de classificação fundamentado no vizinho mais próximo do inglês Nea-rest Neighbor, aprendizado baseado em instâncias é simples e eficiente. Assim como o classificador Naive Bayes, todo atributo tem precisamente a mesma interferência na deci-são. Outra adversidade é no banco de dados que pode ser espontaneamente corrompido por exemplos ruidosos.(Ian H. Witten 2005) Uma solução é o k-Nearest Neighbor ser adotado, no qual um pequeno número, fixo, de k vizinhos mais próximos serão encon-trados e utilizados juntos para determinar a classe da instância de teste por meio de uma escolha simples e dominante. Outro modo de testar o banco de dados em relação ao ruído é escolher os exemplos que são adicionados de maneira seletiva e criteriosa.

Caso seja grande o número de instâncias de treinamento, é mais usual utilizar k vi-zinhos mais próximos, mas obviamente isso é arriscado se houver poucas instâncias. Expõe-se que quando k e o número n de instâncias se tornam infinitos de tal forma que

k

n→ 0, a probabilidade de erro aproxima-se do mínimo teórico para o conjunto de dados. O algoritmo do vizinho mais próximo foi adotado como método de classificação mais empregado para reconhecer padrões.

(34)

No algoritmo k-Nearest Neighbor (KNN) os exemplos de treinamento são vetores em um espaço multidimensional de atributos. A etapa de treinamento limita-se em armazenar os vetores de atributos e os rótulos das classes das amostras de treinamento. Na etapa de classificação, k (uma constante definida pelo usuário) e um vetor de teste não rotulado é classificado atribuindo-se o rótulo que é mais frequente entre as k amostras de treinamento mais próximas a esse vetor de teste. (Herbrich 2001b)

2.6 Métricas de avaliação

Um algoritmo de classificação procurará gerar um classificador capaz de generalizar as informações que estão no conjunto de treinamento, com o intuito de classificar, em seguida, dados dos quais o rótulo seja desconhecido. Para tal, os modelos efetivados de-vem ser validados, visto que esses algoritmos geralmente estão dentro de um cenário e é essencial o monitoramento dos resultados. Várias técnicas para avaliação foram desenvol-vidas, dentre elas, duas das mais populares e aceitas para avaliar os modelos de Machine Learningdescritas aqui são: Precisão geral(Acurácia)(Hossin & Sulaiman 2015) e Curva ROC (Fawcett 2006) (Majnik & Bosni´c 2013).

2.6.1 Precisão geral

Geralmente, a métrica de precisão geral/acurácia mede a proporção de previsões cor-retas (positivos) em relação ao número total de instâncias avaliadas. Esta é a métrica mais trivial e deve ser utilizada em bancos de dados com proporções análogas de exemplos para cada classe. Com bancos de dados desproporcionais pode causar uma falsa impres-são de bom desempenho, pois, em um banco de dados em que 85% dos dados estejam contidos em uma classe, ao classificar todos os dados naquela classe de imediato se atinge uma precisão de 85%, mesmo que todos os dados das outras classes estejam classificados incorretamente. A precisão geral/acurácia (acc) pode ser calculada com a equação 2.9.

acc= T P+ T N

T P+ FP + T N + FN (2.9)

Cada elemento da equação está descrito como:

• T P verdadeiro positivo (True Positive), no qual o modelo prevê um caso positivo corretamente;

• T N verdadeiro negativo (True Negative), em que o modelo prevê um caso negativo corretamente;

• FP falso positivo (False Positive), quando o modelo prevê um caso negativo como positivo;

• FN falso negativo (False Negative), onde o modelo prevê um caso positivo como negativo.

(35)

2.6. MÉTRICAS DE AVALIAÇÃO 15

2.6.2 Curva ROC

Os gráficos ROC (Receiver Operating Characteristic) são uma ferramenta muito útil para visualizar e avaliar os classificadores. Eles são capazes de fornecer uma medida mais rica do desempenho de classificação do que medidas escalares, como precisão ou taxa de erro.

A curva ROC é uma medida de desempenho para problemas de classificação em várias configurações de limites. O ROC é uma curva de probabilidade e a área sob a curva representa o grau ou medida da separabilidade. Ela informa quanto o modelo é capaz de distinguir entre as classes. Quanto maior a área sob a curva, melhor o modelo é em distinguir entre as classes. A curva ROC, figura 2.1, é traçada com a Sensibilidade contra a Especificidade onde a Sensibilidade está no eixo das ordenadas e a Especificidade no eixo das abcissas. As curvas consideradas como satisfatórias estarão acima da linha diagonal tracejada (classificação aleatória) (Bradley 1997).

Para definir os termos usados na Curva ROC é calculada a Sensibilidade e a Especifi-cidade pelas equações 2.10 e 2.11, respectivamente.

Figura 2.1: Curva ROC.

(36)

16 CAPÍTULO 2. REFERENCIAL TEÓRICO Sensibilidade= T P T P+ FN (2.10) Especi f icidade= 1 − T N FP+ T N (2.11)

(37)

Capítulo 3

Estado da Arte

Com o objetivo de obter trabalhos correlatos foi realizada uma busca na literatura como ponto de partida, apresentando o estado da arte de 2013 a 2018, abordando os periódicos mais relevantes dentro desse período e consiste em demonstrar o que a pesquisa científica está fazendo de inovador na atribuição, reconhecimento de autoria e análise de textos. As pesquisas foram feitas nas bases de dados:

• Scielo; • ACM;

• Science Direct; • IEEE Xplore.

Os artigos foram organizados utilizando uma combinação das palavras chaves como mostrado na tabela 3.1. A Scielo não foi adicionada à tabela, pois, foram encontrados apenas 2 artigos relacionados ao tema.

Tabela 3.1: Palavras chaves utilizadas no estado da arte

Palavras Chaves ACM Science Direct IEEE Xplore

Authorship + Intelligence Systems 41 53 50

Authorship Attribution + Intelligence Systems 14 14 19

Authorship 132 652 341

Authorship Attribution 24 32 96

Authorship Identification Algorithm 3 10 19

Authorship Attribution + Stylometric Analysis 1 33 9

Authorship Recognition 28 13 50

Authorship Recognition + Intelligence Systems 28 24 4

Authorship Recognition + Machine Learning 6 5

-O Estado da Arte está organizado por temas pertinentes dentro da Atribuição de Au-toria.

3.1 Atribuição de Autoria

Identificar características de estilo distintas e únicas de cada autor em um documento de texto sempre foi uma das áreas de interesse das pesquisas em Atribuição de Autoria.

(38)

18 CAPÍTULO 3. ESTADO DA ARTE

Analisar se um documento foi realmente escrito por um autor estabelecido ou de quem é a autoria deste determinado texto são indagações relevantes e provocam a curiosidade dos pesquisadores. Para tal, modelos de textos de vários autores são reunidos e guardados em um banco de dados. A partir daí são extraídas as características de estilo de cada autor. É feito o reconhecimento de um determinado autor entre todos os autores que estão no con-junto do experimento. Pode-se citar os casos do texto questionado do Federalist Papers, utilizado em Cerra et al. (2014), da investigação de crimes digitais (Schmid et al. 2015) e da identificação de mensagens terroristas através da web. Muitos deles consideram con-juntos de dados coletados de fontes on-line, como sites, blogs, redes sociais, etc. Muitos seguem a mesma abordagem geral de pré-processar ou filtrar o texto, a fim de remover caracteres indesejados,dígitos, sinais de pontuação, etc. Então, a extração de característi-cas é feita e, se necessário, técnicaracterísti-cas de redução são aplicadas. Finalmente, classificadores padrões como Naive Bayes (NB), Árvore de Decisão (DT), K-Nearest Neighbor (KNN) e Support Vector Machine (SVM), entre outros, são usados com diferentes configurações de teste.

A Atribuição de Autoria no campo científico foi consideravelmente desenvolvida, no decorrer da última década, aproveitando os avanços nas áreas da computação como apren-dizado de máquina, recuperação de informação e processamento de linguagem natural. A diversidade de textos digitais disponíveis: mensagens de e-mail, blogs, fóruns on-line, códigos fonte, etc, aponta que a tecnologia existente, em virtude de uma ampla vari-edade de aplicações, pode ser capaz de lidar com textos ruidosos de diversos autores candidatos. (Stamatatos 2011) O termo Atribuição de Autoria está relacionado ao estilo e refere-se a tarefa de reconhecimento do autor de um texto em um grupo de autores candidatos, baseado em características relevantes extraídas do texto. Estilometria ocorre com a identificação de atributos relevantes que definem um espaço em que autores podem ser diferenciados uns dos outros. Os escritores utilizam a linguagem seguindo diferen-tes caminhos para expressar suas ideias e esta variação na linguagem faz a Atribuição de Autoria ser possível.

Em estudos recentes, por exemplo, Akimushkin et al. (2018),Albadarneh et al. (2015) e Al-Ayyoub et al. (2017) entre outros, grande parte dos algoritmos de Atribuição de Au-toria é fundamentado em um modelo de representação simplificada usado no processa-mento de linguagem natural e recuperação de informações, conhecido como bag of words (BoW). Na abordagem de BoW, os textos são representados pela frequência das palavras sem considerar a relação gramatical. Os algoritmos feitos utilizando BoW conjecturam que o estilo de um autor é basicamente descrito pela distribuição de probabilidade de cer-tas palavras, frases ou qualquer outra estrutura relevante. (Neme et al. 2015) A Atribuição de Autoria possui as seguintes tarefas, sendo a primeira o foco da proposta deste trabalho: • Verificação/Reconhecimento de autoria (ou seja, para decidir se um determinado texto foi escrito por um determinado autor, ou qual é a autoria do texto) (Brocardo et al. 2015).

• Detecção de plágio (isto é, comparar dois textos e encontrar semelhanças de escrita) (Franco-Salvador et al. 2016).

• Perfil do autor ou caracterização (ou seja, extração de informações sobre a idade, educação, sexo, ideologia, etc., do autor de um determinado texto). (Ashraf et al.

(39)

3.1. ATRIBUIÇÃO DE AUTORIA 19

2016)

• Detecção de inconsistências estilísticas (como pode acontecer na escrita colabora-tiva). (Tschuggnall & Specht 2013)

Em seguida, será concentrado no problema de verificação e reconhecimento de autoria expondo os critérios dos métodos de Atribuição de Autoria.

3.1.1 Características estilométricas

O estilo é um reflexo da variação individual ou em grupo na linguagem escrita. A variação de escrita individual é o resultado das escolhas do escritor, de um modelo fora do arranjo de todos os modelos disponíveis. As escolhas representam variações dentro de uma norma (diferentes maneiras “corretas” de dizer a mesma coisa), desvios de uma norma (erros) e idiossincrasias (formas específicas do autor). O estilo de um escritor é demonstrado por seu conjunto único de padrões gramaticais agregados, que geralmente é o resultado do uso recorrente (habitual) do escritor de algumas ou de todas as formas do conjunto. A estilística linguística é a análise científica de marcadores de estilo individuais, como observado e descrito no idioleto de um único escritor conforme identificados na linguagem ou dialeto de um grupos de escritores. A estilometria, também conhecida como fins de verificação de autoria para determinar o autor original de um determinado texto, é também a análise estatística de modificações nos estilos literários de autoria. (Sarwar, Yu, Tungare, Chitavisutthivong, Sriratanawilai, Xu, Chow, Rakthanmanon & Nutanong 2018) Métodos de análise estilométrica são categorizados em dois tipos: supervisionados e não supervisionados. Os métodos de análise estilométrica supervisionada exigem rótulos de classe de amostras de texto para classificação, enquanto métodos não supervisiona-dos classificam objeto desconhecido sem nenhuma informação prévia de classes (autores candidatos).

As características estilométricas são marcadores de estilo de escrita que podem ser usados para identificação do autor e discriminar efetivamente as obras literárias dos auto-res. Muitas características estilométricas foram usadas em estudos existentes, incluindo características sintáticas, semânticas e lexicais. As características sintáticas incluem parte da fala, estrutura das frases, etc. As características estruturais ou semânticas baseiam-se na organização do texto, ou baseiam-seja, a duração média de uma frabaseiam-se ou um parágrafo em termos de contagem de palavras. Os recursos lexicais incluem medidas estatísticas ba-seadas em caracteres e palavras de variações lexicais. Por exemplo, comprimentos de palavras e caracteres e riqueza de vocabulário (Vorobeva 2016). Nos tópicos seguintes estará descrito com mais detalhes o estado da arte das características estilométricas.

A Análise Forense voltada para sistemas objetiva o combate ao surto de crimes ci-bernéticos, onde torna-se necessário mais profissionais e organizações especializadas nas técnicas de análise forense para perícia de textos com informações ilegais. A revisão de literatura vai envolver desde a Atribuição de Autoria até a análise forense, figura 3.1.

(40)

Figura 3.1: Diagrama das características estilométricas e análise forense. Fonte:Abbasi & Chen (2005) (adaptada)

3.1.2 Características Híbridas

As características léxicas, sintáticas, semânticas e outras podem ser utilizadas em con-junto formando um concon-junto de características híbridas. Alguns trabalhos fizeram essa abordagem, o método retratado em Bogdanova & Lazaridou (2014) propõem uma nova tarefa de atribuição de autoria em várias línguas, onde o objetivo é determinar o autor de um documento escrito na linguagem Y, onde X 6= Y. Utiliza uma série de características híbridas estilísticas de linguagem cruzada para a tarefa, como as baseadas em sentimentos e marcadores emocionais (Pure HLF), 275 textos divididos para seis autores e a utilização dos classificadores LR, KNN e NB. O método de Otoom et al. (2014) aborda o problema da atribuição de autoria no texto árabe, utiliza um novo conjunto de características híbri-das, composto por: características léxicas, sintáticas, estruturais e de conteúdo específico para 456 textos e sete autores, utilizou os classificadores NB, SVM e outros.

3.1.3 Características Léxicas

Vários estudos obtiveram resultados utilizando características léxicas, Altheneyan & Menai (2014) e Shojaee et al. (2013a), esse último utilizou Hápax legómenon, palavra que aparece registrada apenas uma vez, e Hápax dilegómenon, palavra que aparece regis-trada duas vezes, em um idioma. Em particular, os n-gramas de caracteres são os mais populares devido a tolerância ao ruído e sua efetividade em documentos não-estruturados como e-mails, por exemplo. Embora os recursos n-gramas tenham se mostrado eficazes, a classificação baseada na mesma é complexa, ao mesmo tempo que o processamento de dados é demorado. (Brocardo et al. 2015)

A estilometria possui como uma de suas funções a atribuição de autoria, com o obje-tivo principal focado na denominação do autor do texto. Diferentes tipos de recursos ou medidas podem ser analisados para capturar as características lexicais: (Baron 2014)

• Medidas de complexidade; • Palavras funcionais/Stopwords; • Sintaxe e partes de fala;

(41)

3.1. ATRIBUIÇÃO DE AUTORIA 21

• Taxonomias lexicais funcionais; • Palavras contidas;

• N-gramas de caracteres.

Para determinar os atributos lexicais, medidas estatísticas como número total de ca-racteres ou palavras, número médio de palavras ou caca-racteres por frase, frequência de uso de letras ou palavras podem ser empregadas. O estilo de construção de sentenças, o uso de diferentes sinais de pontuação é descrito por características sintáticas. A lista mostrada abaixo consiste nos elementos lexicais e sintáticos e está dividida em dois subconjuntos e se mostra de boa qualidade para textos específicos:

• elementos lexicais - mas, e, não, dentro, com, no, em, de, isto, como, aquilo, o que, por, para, se;

• elementos sintáticos - ponto final, vírgula, ponto de interrogação, ponto de excla-mação, ponto e vírgula, dois pontos, parênteses, hífen.

Como pode ser notado, todos os elementos lexicais são palavras funcionais, enquanto os sintáticos são sinais de pontuação. A utilização desses elementos agrupados chama-se sequência de Tokens.(Baron 2014) Uma sequência de tokens agrupados é um modo na-tural e simples de visualizar o texto, onde cada token corresponde a um numeral, palavra ou sinal de pontuação. Os primeiros experimentos utilizando atribuição de autoria foram fundamentados com simples critérios, comprimento de palavra, comprimento de frase, frequências de palavras e riqueza de vocabulário. Esses recursos possuem uma vanta-gem relevante de conseguirem ser aplicados a qualquer idioma e qualquer corpus sem adição de requisitos, afora a acessibilidade de uma ferramenta para segmentar o texto em Tokens, um Tokenizer. Contudo, não seria seria uma tarefa trivial para todas as línguas naturais a exemplo do Chinês, que não há fronteiras separando as palavras. Em textos com uso abundante de abreviações ou acrônimos, por exemplo, mensagens de e-mail, uti-lizar esses recursos pode incluir em suas medidas um ruído considerável. (Altheneyan & Menai 2014)

Pesquisas produziram várias medidas de riqueza de vocabulário, Sarwar, Li, Rakthan-manon & Nutanong (2018), para quantificar a diversidade do vocabulário de um texto. No entanto, essas medidas dependem do idioma e só podem ser calculadas com preci-são quando as ferramentas de processamento de linguagem natural permitem a extração precisa de frases no respectivo idioma do texto. No entanto, as medidas de riqueza de vocabulário tentam compreender o uso do vocabulário e a complexidade da linguagem do autor. Várias medidas foram propostas, incluindo o número de Hápax legómenon ,Shojaee et al. (2013a), a razão entre o número de palavras diferentes (V) e o número de total de palavras no texto (N), isso significa que quanto maior for o número N, maior será a riqueza e a variedade do vocabulário e quanto menor for o número, mais pobre é o texto,Ashraf et al. (2016) e outras. O tamanho do vocabulário depende muito do tamanho do texto (à medida que o tamanho do texto aumenta, o vocabulário também aumenta).

Várias funções têm sido propostas para estabilizar o comprimento do texto, incluindo: -A medida K de Yule (Ashraf et al. 2016) que assume que a ocorrência de uma palavra é baseada no acaso e pode ser modelada de acordo com uma distribuição de Poisson; -A

(42)

Lei de Zipf (Markov et al. 2016), que mensura como as palavras são distribuídas dentro de um determinado texto; -A medida I de Yule, demonstrada na fórmula:

M₁M₁ M1M2

(3.1) onde M1é o número total de palavras em um texto e M2é a soma de formas de palavras

ponderadas com uma determinada frequência. Um resultado maior indica um vocabulário mais rico. (Neal et al. 2017)

Maior parte dos estudos de atribuição de autoria é, relativamente, fundamentada em atributos para representar o estilo de escrita. As palavras funcionais que são as mais utili-zadas na escrita como, por exemplo, artigos, preposições, pronomes, etc, geralmente são excluídas do conjunto de características dos métodos de classificação de textos. Logo, classificar textos usando características léxicas demanda uma dimensionalidade bem me-nor, ou seja, para se realizar a atribuição de autoria algumas centenas de palavras são necessárias em relação a tarefa de categorização textual, que utiliza milhares de palavras. Um modo que possui êxito e é simples para determinar um conjunto de características léxicas para atribuição de autoria é extrair do corpus do texto as palavras mais frequentes abrangendo também os textos dos autores candidatos. Assim, será feita uma análise sobre a quantidade de palavras frequentes que serão utilizadas como características de estilo.

Bag of words, é o classificador textual tradicional, que fornece uma solução simples e eficiente, mas desconsidera as informações contextuais do texto. Um experimento foi rea-lizado em Markov et al. (2017) utilizando BoW, obtendo uma precisão de 76,2% e 73,6% na base de teste CCAT_10, 46,0% e 55,0% na base de teste Guardian usando classifica-dores SVM e MNB, respectivamente. Utilizando a abordagem de n-gramas de caracteres superou a BoW em ambos os corpus para os classificadores em 1,8%-6,5%. Os n-gramas de caracteres são muito eficazes e muito conhecido na pesquisa de Atribuição de Autoria (Schwartz et al. 2013), (Gómez-Adorno et al. 2018), (Stamatatos 2018). Alguns traba-lhos,Sidorov et al. (2014), com o Syntactic n-grams (sn-gram),Peng et al. (2016a),com o binary n-gram, fazem essas variações ao método n-grama para alcançar resultados me-lhores. O Shrestha et al. (2017) utiliza uma Neural Network Language Model (NNLM), similar ao método n-gram, que é usada para responder a um dos modelos fundamentais de linguagem que ditam a melhor palavra-alvo, dado um contexto de palavras. Os carac-teres n-gramas são especialmente úteis para atribuição de autoria em micro-mensagens, uma vez que são relativamente tolerantes a erros de digitação e uso não padrão de pontu-ação. Nos n-gramas de palavras são usadas frases curtas e repetidas. Com a abordagem n-grama de caractere é possível capturar muitas particularidades do estilo de escrita, que são simples de ser extraídas de qualquer texto e em qualquer idioma (Markov et al. 2017). Contudo, n-gramas de caracteres nem sempre são melhores na precisão de classificação (Cerra et al. 2014). Em textos especialmente curtos a abordagem n-gramas de palavras se torna esparsa, pois a combinação das palavras não é encontrada, o que dificulta a classifi-cação pelos algoritmos.

Os autores Segarra et al. (2013) sugeriram a função redes de adjacência de palavra do inglês, Word Adjacency Networks (WANs), no qual os nós são palavras funcionais e os cantos representam a probabilidade de encontrar na proximidade ordenada uma

(43)

pala-3.1. ATRIBUIÇÃO DE AUTORIA 23

vra funcional de destino a palavra funcional de origem. A precisão alcançada por essa abordagem é maior que a obtida por outras metodologias tradicionais que dependem da frequência das palavras funcionais por exemplo. Em compensação as WANs obtém taxas de precisão razoáveis para textos pequenos. Em 2015, o Segarra et al. (2015) escreveu também sobre WANs.

Caracteres

Um texto é visto como uma simples sequência de caracteres. Deste modo, várias abordagens utilizando caracteres podem ser definidas, abrangendo contagem dos caracte-res alfabéticos, contagem de caractecaracte-res maiúsculos e minúsculos, contagem dos sinais de pontuação, contagem da frequência das letras, entre outros. Os caracteres estão acessí-veis em qualquer banco de dados e linguagem natural, Stamatatos (2013) mostrou que os caracteres produzem modelos mais eficazes e robustos do que aqueles baseados em carac-terísticas das palavras em condições de cross-topic, que é a mistura de temas ou tópicos em um documento, e cross-genre, par de documentos que combina elementos de dois ou mais gêneros diferentes. Na tarefa de verificação de autoria, neste caso, o gênero e/ou tópico podem diferir bastante entre os documento conhecidos e descohecidos, já que não é possível ter controle sobre gênero/tópico dos documentos.

Phani et al. (2017) e Markov et al. (2017) relataram resultados muito bons usando in-formações de n-grama de caracteres. Uma abordagem mais elaborada mas simples com-putacionalemente, é extrair os n-gramas de caractere mais frequentes. (Phani et al. 2017) utilizou bigramas e trigramas de caracteres mais frequentes. A vantagem da representação baseada em n-grama de caracteres é sua capacidade de tolerar o ruído. Principalmente nos casos em que os textos são ruidosos, contendo erros gramaticais ou com o uso estranho de pontuação, como geralmente acontece em e-mails ou em mensagens de fóruns.

Shrestha et al. (2017) é o primeiro trabalho a apresentar um modelo Convolutional Neural Network (CNN) baseado em n-gramas de caracteres para Atribuição de Autoria em textos curtos. A arquitetura proposta obtém como entrada uma sequência de n-gramas de caracteres que são então processados por três modulos: Um de inclusão de caracteres, um módulo convolucional e um módulo softmax. O módulo de inclusão de caracteres aprende uma representação vetorial contínua.

Howedi & Mohd (2014) utilizou n-grama de caracteres em seus experimentos, como sinais de pontuação, porque os sinais de pontuação podem apresentar o estilo do autor. Um exemplo, é que enquanto um autor pode utilizar pontos de exclamação com mais frequência em outros casos, um outro autor raramente os utiliza. Alguns autores usam ponto final mais frequentemente porque gostam de frases curtas, enquanto outros usam vírgulas mais vezes usando frases longas em seus textos. Estes tipos de detalhes nos textos têm importância vital na tarefa de reconhecimento de autoria. Assim, dois experimentos foram feitos, um incluindo todos os sinais de pontuação e outro excluindo-os.

Em um estudo recente, Stamatatos (2017), aborda um novo método que utiliza uma etapa de distorção do texto extraindo os atributos estilométricos que aumenta a eficácia da atribuição de autoria. Para essa distorção é fornecida uma nova versão do texto for-mada por tópicos neutros, mantendo a maior parte das informações relacionadas ao estilo

(44)

pessoal do autor. Dadas as palavras mais frequentes, o método transforma a entrada co-locando hashtags ou asteriscos se for letra ou dígito. Sendo W k uma lista das k palavras mais frequentes, a distorção do texto possui dois métodos: DV-MA, onde cada palavra não incluída em W k é substituída por um asterisco (*) em cada um dos caracteres e cada dígito no texto é substituído pelo símbolo (#) e DV-SA, onde cada palavra não incluída em W k é substituída pela ocorrência de cada palavra por um único asterisco () e cada sequência de dígitos no texto é substituída por um único símbolo #.

3.1.4 Características Sintáticas

Um recurso para apresentar um texto mais aprimorado é aplicar informações sintá-ticas. A reflexão é que os autores são tendenciados a usar inconscientemente padrões sintáticos similares. Portanto, a informação sintática é considerada uma "impressão digi-tal"confiável. Ademais, as pesquisas que utilizam palavras funcionais (Stopwords) pos-suem êxito como extratora de características do autor (Ebrahimpour et al. 2013). Em contrapartida, as características sintáticas requisitam ferramentas de processamento de linguagem natural desenvolvidas e precisas capazes de realizar análises sintáticas de tex-tos, isso significa que a extração de características sintáticas é um procedimento depen-dente do idioma e tais características produzirão conjuntos de dados ruidosos devido a erros inevitáveis feitos pelo analisador. Alguns trabalhos utilizam a extração de carac-terísticas sintáticas dos documentos e em parte deles, a tarefa é executada na etapa de pré-processamento,Abooraig et al. (2018),Vorobeva (2016), são exemplos.

A combinação das características sintáticas com as léxicas foi realizada em um ex-perimento por Shojaee et al. (2013b). Os conjuntos de exex-perimentos empregados foram utilizando apenas características sintáticas, outro usando somente as léxicas e por último a junção de ambas, para logo em seguida aplicarem o método de classificação na plataforma de Machine Learning WEKA, ferramenta com diferentes algoritmos de classificação. Os classificadores aplicados foram, Naive Bayes e Support Vector Machine com Sequential Minimal Optimization(SMO) implementado por meio de um núcleo polinomial para de-tecção de fraudes, opiniões enganosas que são introduzidas nos site do TripAdvisor sobre os 20 hotéis mais populares de Chicago.

A abordagem Varela et al. (2016), é embasada em características de níveis sintáticos, divididos em: essenciais (Sujeito, predicado e verbo), integrantes (Objeto direto, objeto indireto, voz passiva e ativa) e acessórios (Adjunto adverbial e adjunto adnominal). Para a aplicação do software foi utilizada uma base de dados formada de obras literárias em língua portuguesa de 150 autores. Realizaram-se dois experimentos, um independente e outro dependente do autor. No modelo independente, usaram o conceito de dicotomia (duas opções: autoria ou não autoria) das amostras do mesmo autor combinadas com as amostras de outros autores. No modelo dependente, para cada autor geraram um modelo de atribuição fundamentado em características sintáticas do estilo de escrita e utilizaram o conceito de policotomia (classificação do problema em vários modelos). Por fim, con-quistaram uma melhora de acurácia em relação a outros trabalhos, em que os autores fizeram comparação, para verificação e identificação de autoria.