Um Método para Desambiguação de Sentido e Substituição Lexical Apoiado em Dicionários e Embeddings

(1)

Um Método para Desambiguação de

Sentido e Substituição Lexical Apoiado

em Dicionários e Embeddings

Isaias Frederick Januario

Orientador: Álvaro Rodrigues Pereira Jr.

Dissertação submetida ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Ouro Preto para obtenção do título de Mestre em Ciência da

(2)

(3)

Universidade Federal de Ouro Preto

Instituto de Ciências Exatas e Biológicas

Departamento de Ciência da Computação

Programa de Pós-graduação em Ciência da Computação

Um Método para Desambiguação de

Sentido e Substituição Lexical Apoiado

em Dicionários e Embeddings

Isaias Frederick Januario

Dissertação submetida ao Programa de Pós-Graduação em Ciência da Compu-tação da Universidade Federal de Ouro Preto para obtenção do título de Mes-tre em Ciência da Computação.

Orientador: Prof. Dr. Álvaro Rodri-gues Pereira Jr.

Ouro Preto - MG

Dezembro - 2019

(4)

Januario, Isaias Frederick .

JanUm método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. [manuscrito] / Isaias Frederick Januario. - 2019.

Jan132 f.: il.: , tab..

JanOrientador: Prof. Dr. Álvaro Rodrigues Pereira Jr..

JanDissertação (Mestrado Acadêmico). Universidade Federal de Ouro Preto. Departamento de Computação. Programa de Pós-Graduação em Ciência da Computação.

JanÁrea de Concentração: Ciência da Computação.

Jan1. Processamento de linguagem natural (Computação). 2. Banco de dados. 3. Espaços vetoriais. I. Pereira Jr., Álvaro Rodrigues. II.

Universidade Federal de Ouro Preto. III. Título.

Bibliotecário(a) Responsável: Celina Brasil Luiz - CRB6-1589

SISBIN - SISTEMA DE BIBLIOTECAS E INFORMAÇÃO

J35m

(5)

(6)

(7)

ix

Resumo

A substituição lexical permeia diferentes atividades inerentes às áreas do Processamento de Linguagem Natural, como a simplificação de texto e expansão de consultas. A substituição tem sido explorada amplamente na literatura apresentando frequente evolução, princi-palmente quanto às fontes de dados utilizadas para a geração de potenciais substitutos que alimentam o processo. Naturalmente, di-cionários têm sido constantemente usados por agruparem conjuntos de sinônimos em sua estrutura. Entretanto, o caráter polissêmico das palavras inviabiliza a troca direta de uma determinada palavra por qualquer sinônimo a ela associado no dicionário, já que a troca requer a análise completa do contexto. Em outro nicho de fontes, os mode-los de espaço vetorial, tais como os embeddings, são utilizados para representar os termos a partir de seus contextos de aplicação. Em con-trapartida, representar as palavras considerando fatores meramente contextuais, em muitos casos, dá margem para uma aproximação de termos no espaço mesmo não sendo sinônimos. Portanto, as deficiên-cias mencionadas sugerem a junção de bases anotadas e embeddings como alternativa promissora para ganhos de resultados na tarefa de substituição. Assim, apresentamos um método de substituição utili-zando informações contidas em dicionários combinados−como as relações linguísticas estruturadas em taxonomias − para coleta de potenciais sinônimos. Nosso método mensura a preservação do signi-ficado da sentença modificada focando um escopo restrito da sentença original. Consideramos também o contexto completo para apoiar o processo de desambiguação extraindo aspectos como coocorrência de termos para alimentar operações vetoriais nos modelos com a inten-ção de destacar os melhores sinônimos em um conjunto previamente selecionado. Nosso método superou uma ampla gama de trabalhos conhecidos na literatura na predição do melhor substituto de palavras contidas em frases de uma consolidada base de experimentação.

(8)

(9)

xi

Abstract

Lexical substitution is involved with different areas of Natural Language Processing, such as text simplification and query expansion. Substitution has been studied extensively in the literature, with fre-quent evolution, mainly in the sources of potential substitutes that are input to the process. Of course, dictionaries have been used for grou-ping synonyms in their structure. However, the polysemic aspect of words makes it difficult to directly exchange a word for any synonym linked to it in the dictionary, since the exchange requires detailed analysis of the context. In another category of sources, vector space models, such as embeddings, are used to represent terms from their application contexts. On the other hand, representing words conside-ring purely contextual factors, in many cases, allows an approximation of terms in space even though they are not synonymous. Therefore, the mentioned problems suggest the joining of annotated bases and embeddings as a promising alternative for improving results. Thus, we present a substitution method using information contained in combined dictionaries−as the linguistic relations structured in taxo-nomies−to collect potential synonyms. Our method measures the preservation of the meaning of the modified sentence by focusing on a reduced scope of the original sentence. We also consider the entire context to help the disambiguation process by extracting aspects such as the co-occurrence of terms to feed vector operations in the models, aiming to highlight the best synonyms in a previously selected set. Our method surpassed an wide group of works in the literature in predicting the best substitute for words included in sentences from a well-known benchmark.

(10)

(11)

xiii

Declaração

Esta dissertação é resultado do meu próprio trabalho, exceto onde a referência explícita é feita ao trabalho de outros, e não foi submetida para outra qualificação nesta e nem em outra universidade.

(12)

(13)

xv

Agradecimentos

Aos meus pais, Caetano e Ivone, pelo infindável zelo.

Às minha irmãs, Lorena, Mayara e Tábata, principalmente às duas úl-timas (também pós-graduandas) – por tornarem leve a árdua e incerta caminhada em comum.

Ao professor Álvaro, por compartilhar a experiência e pelo exercí-cio da paciência.

Às professoras Andrea e Lucelene, pelas valiosas contribuições para o trabalho.

À Universidade Federal de Ouro Preto, pela oportunidade de for-mação no âmbito acadêmico e extra-acadêmico.

Aos amigos de UFOP, especialmente ao Arthur, Guilherme e Dênis -por vivenciarem o ambiente da UFOP e su-portarem meus constantes desabafos.

(14)

(15)

Sumário

Lista de Figuras xxi

Lista de Tabelas xxiii

Abreviaturas e Siglas 1 1 Introdução 3 1.1 Justificativa . . . 5 1.2 Definição do Problema . . . 7 1.3 Objetivos . . . 8 1.4 Contribuições . . . 8 1.5 Organização do texto . . . 9 2 Fundamentação Teórica 11 2.1 Conceitos Fundamentais . . . 11 2.1.1 Dicionário . . . 11 2.1.2 Thesaurus . . . 12 2.1.3 Ontologia . . . 12 2.1.4 Stemming . . . 12 2.1.5 Lematização . . . 13 2.1.6 Corpus Linguístico . . . 13

2.1.7 Desambiguação Lexical de Sentido (DLS) . . . 14

2.1.8 Substituição Lexical . . . 14 2.1.9 Relações linguísticas . . . 15 2.2 A Wordnet . . . 17 2.3 Modelos de Linguagem . . . 18 2.3.1 N-gram . . . 20 2.3.2 Bag-of-words (BOW) . . . 21 2.3.3 Skip-Gram . . . 21 xvii

(16)

xviii Sumário

2.3.4 Continuous Bag-of-words (CBOW) . . . 22

2.4 Modelo de Espaço Vetorial . . . 22

2.4.1 Análise Semântica Latente (LSA) . . . 23

2.4.2 Embeddings . . . 24

2.5 O uso dos recursos lexicais no processo de substituição . . . 25

2.6 A base de referência SemEval . . . 28

2.6.1 Sobre o processo de anotação . . . 29

2.6.2 Seleção das instâncias . . . 30

2.6.3 Subtarefas da competição . . . 30

2.6.4 Capacidade de desambiguação . . . 33

3 Trabalhos Relacionados 35 3.1 Abordagens para a desambiguação lexical de sentido . . . 36

3.2 Abordagens para sinônimos aproximados . . . 38

3.3 Abordagens de extração e ranking de sinônimos . . . 41

4 Método de Substituição Lexical e Desambiguação de Sentido 47 4.1 Seletor de Candidatos . . . 49

4.1.1 Seletor da Wordnet . . . 52

4.1.2 Seletor de Dicionário . . . 52

4.1.3 Verificador de Concordância . . . 53

4.2 Avaliador de Contexto . . . 56

4.2.1 Ponderador de Contexto Restrito . . . 56

4.2.2 Ponderador de Contexto Abrangente . . . 60

4.2.3 Combinador de Critérios . . . 63

5 Experimentos e Resultados 65 5.1 Configuração dos Experimentos . . . 65

5.1.1 Mensuração da correlação sintática . . . 66

5.2 Variação do comprimento do n-gram . . . 68

5.3 Variação de critérios de seleção e ordenação de sinônimos . . . 70

5.3.1 Avaliação da Seleção de Candidatos . . . 72

5.3.2 Ordenação de Candidatos . . . 76

5.4 Comparação com abordagens da literatura . . . 77

5.4.1 Avaliação na subtarefa Best . . . 79

(17)

Sumário xix

5.5 Resultados discriminados por função sintática . . . 85

5.5.1 Resultados para Substantivos . . . 85

5.5.2 Resultados para Advérbios . . . 87

5.5.3 Resultados para Verbos . . . 90

5.5.4 Resultados para Adjetivos . . . 92

5.6 Resultados da Desambiguação . . . 94

5.6.1 Precisão do Sistema . . . 94

5.6.2 Precisão entre Todos . . . 95

6 Conclusões e Trabalhos Futuros 97 6.1 Conclusões . . . 97

6.2 Trabalhos Futuros . . . 98

6.2.1 Novos modos de representação do contexto e da definição . . . 98

6.2.2 Tratamento Especializado para cada Função Sintática . . . 99

6.2.3 Inclusão em outros nichos de pesquisa . . . 99

(18)

(19)

Lista de Figuras

2.1 Um exemplo linguístico de hiperonímia: o termo “vehicle” possui um significado mais geral para um significado associado às palavras “car”, “motorcycle” e “bicycle”. . . 16 2.2 Na figura é demonstrada a taxonomia “é um” da ontologia da Wordnet.

Figura extraída de https://www.cs.princeton.edu/courses/archive/spring17/ cos226/assignments./wordnet.html. Link acessado em 1 de agosto de 2019. 19 2.3 Representação de um espaço vetorial tridimensional, com as dimensões

D1, D2 e D3. O espaço contém dois vetores, que são documentos (“doc1” e “doc2”). A distância entre os documentos sugere a proximidade se-mântica entre eles. . . 23 4.1 Fluxo de dados em alto nível com as interações entre as bases utilizadas

e componentes. As setas pontilhadas representam a alimentação sob demanda das bases pelos subcomponentes a elas interligados. . . 48 4.2 Ilustração das definições taxonomicamente distribuídas na Wordnet. . 49 4.3 Conceitos distintos na Wordnet (para t=“bar”), sendo um (Conceito 1)

referência como potencial provedor de bons substitutos. . . 54 4.4 Para os dois conceitos de t, verifica-se a lista de sinônimos dos

concei-tos adjacentes, mas com critérios de seleção. Palavras negritadas são candidatos. . . 55

(20)

(21)

Lista de Tabelas

4.1 Tipos de relações ontológicas consideradas na Wordnet durante a

sele-ção de candidatos através do auxílio de uma fonte secundária. . . 51

5.1 Variação do peso atribuído ao tamanho n-gram na ponderação do contexto. 69 5.2 Diferentes instâncias utilizadas realizando a combinação de recursos de seleção e ordenação. . . 72

5.3 Retirado de [71] para a combinação de recursos. . . 75

5.4 Retirado de [72] para a abordagem de Grafo de Centralidade.. . . 75

5.5 Métricas para subtarefas oot e best. . . 80

5.6 Resultados para as instâncias que contêm um substantivo substituível. 85 5.7 Resultados para as instâncias que contêm um advérbio substituível. . . 88

5.8 Resultados para as instâncias que contêm um verbo substituível. . . . 90

5.9 Resultados para as instâncias que contêm um adjetivo substituível. . . 93

5.10 Precisão da desambiguação dos métodos para somente as instâncias que viabilizam a construção de um inventários de candidatos que inclui o melhor substituto (Linha “total00 na tabela). . . 94 5.11 Resultado da desambiguação sobre as instâncias para as quais todas as

abordagens incluem o melhor substituto no seu conjunto de candidatos. 95

(22)

(23)

Lista de Algoritmos

1 Algoritmo de ponderação de candidatos aplicados a pequenos contex-tos, atribuindo maiores coeficientes às observações de frequência em maiores contextos. . . 59

(24)

(25)

“Nenhum homem pode entrar duas vezes no mesmo rio, pois na segunda vez o rio já não é o mesmo, tampouco o homem.”

(26)

(27)

Abreviaturas e Siglas

CALL Computer Assisted Language Learning ESA Explicit Semantic Analysis

LSA Latent Semantic Analysis MSL-DE Método de Substituição Lexical

baseado em Dicionários e Embeddings oot Out-of-Ten

PLN Processamento de Linguagem Natural PMI Pontwise Mutual Information

PPMI Positive Pontwise Mutual Information SemEval Semantic Evaluations

SVD Single Value Decomposition SVM Support Vector Machine WMD Word Mover Distance

(28)

(29)

Capítulo 1

Introdução

O idioma inglês é aquele de maior importância atualmente. Esta afirmação pode ser sustentada quando consideramos sua presença, no âmbito geográfico, sendo idioma oficial em dezenas de países. Outro fato relevante que faz do inglês um idioma importante é a produção de conteúdo na língua. Para exemplificar, em determinadas áreas de atuação, como o meio de produção científica, para aumentar o impacto de um determinado trabalho, a divulgação do mesmo na língua de maior penetração perante a comunidade científica faz-se imprescindível [53]1. Além deste meio, também é válido elencar outros, onde as categorias de conteúdo produzido recorrentemente são lançadas em inglês, tais como: filmes, livros, músicas, seriados de televisão, programas de computadores, telejornais, jogos, páginas web.

Destacada a demanda de universalização, tem se tornado cada vez mais frequente a busca do aprendizado do idioma para inclusão no ambiente global, visando a acessibilidade para o uso da informação, sendo esta comumente fornecida em inglês, para seus diversos fins. Deste modo, a língua inglesa tem se consolidada como aquela de maior abrangência, sendo adotada como segunda opção para aquelas pessoas que não a têm como primeira língua, na maioria das vezes.

Assim, ainda sob a perspectiva educacional, inúmeros métodos têm sido desen-volvidos. É o caso das ferramentas de aprendizagem de linguagem assistida por computador (CALL - Computer Assisted Language Learning), que é uma área dedicada à criação de métodos apoiados por software para o ensino e aprendizagem de um idioma diferente do nativo para um aprendiz.

1

Este artigo demonstra o crescimento do fator de impacto em até 58% de certos periódicos brasi-leiros após universalização das publicações, reescritas em inglês, quando comparadas àquelas mais importantes redigidas originalmente no português.

(30)

4 Introdução

Tais ferramentas se apoiam em exercícios que exploram a avaliação do tamanho do vocabulário [20,75] do aprendiz. A partir dessa avaliação, então, são elaboradas técnicas direcionadas à expansão desse mesmo vocabulário. Tais técnicas abordam relações linguísticas existentes entre palavras, que muitas vezes são exploradas através de exercícios de substituição de termos dentro de textos com a intenção da manutenção do significado da mensagem. Essa classe de exercícios está ligada ao reconhecimento de sinônimos, relacionados através da propriedade linguística da sinonímia, que é o mote desta pesquisa.

A sinonímia corresponde a uma propriedade linguística relativa à proximidade de significado entre dois itens lexicais (i.e car/automobile, huge/enormous). Ainda que surja intuitivamente a compreensão do que é essa relação, faz-se necessária uma explicação um pouco mais precisa que destaca certas peculiaridades existentes. Na literatura, por exemplo, destacam-se algumas teses que negam a equivalência perfeita de significado entre duas palavras (“sinonímia verdadeira”). [65] defende que a sinonímia verdadeira é muito rara, admitindo a possibilidade de nem sequer existir. [17] destaca a ausência de meios de se caracterizar o que são termos sinônimos, observando que sinonímia não só deve estar atrelada a um alto nível de sobreposição semântica além de um baixo contraste2. No que tange à mensuração da sinonímia,17defende: “alguns pares de itens (lexicais) são mais sinônimos que outros, isto destaca a possibilidade de ponderar a sinonímia de algum modo”3. Tais entendimentos oriundos da linguística destacam o não-binarismo que representa a sinonímia.

A mensuração do grau de sinonímia é uma tarefa dependente de contexto [11,25,72]. Não é simples mensurar a proximidade de significado de duas palavras sem que o contexto onde ambas são possivelmente aplicáveis seja cuidadosamente analisado. Utilizando um exemplo, extraído de [11], observamos melhor a relação “contextual” entre as palavras: “pedigree” se refere principalmente a “animals”; enquanto “ancestry”, “genealogy” e “lineage” se referem mais fortemente a “humans being” (“ser humano”). Isto traz para o problema a ideia de uma certa adequabilidade de uma palavra em detrimento de outra quando consideramos onde possam ser aplicadas. Continuando, de forma intuitiva, a palavra “automobile” é mais indicada para substituir o termo “car”

2

Segundo [47], elementos contrastantes são aqueles consideravelmente diferentes em significado. Antônimos (i.e marriage/divorce) ou outras relações de oposição, que inclui as de papel (i.e doctor/patient), são bons exemplos.

3

Traduzido de “(...) some pairs of items are more synonymous than others, and this raises the possibility of a scale of synonymity of some kind (...)”.

(31)

Introdução 5

do que para substituir “vehicle” em um contexto no qual se sabe que a palavra “car” refere a um veículo de transporte de pessoas apoiado sobre quatro rodas.

A ideia de precedência de sinônimos sugere uma possibilidade de classificação (estabelecimento de ordem) entre sinônimos, obviamente. Desse modo, a mensuração da sinonímia, por exemplo, efetua a simples e intuitiva avaliação de substituição. Ou seja, realiza-se a substituição de um termo por outro em uma sentença, de modo a mensurar a preservação do significado original. Esta avaliação é sugerida original-mente no âmbito da linguística, como é o caso de [9]. O procedimento de substituição também é o cerne da reprodução de experimentos que consideram as abordagens rela-cionadas dirigidas à resolução deste problema, já no âmbito da área de processamento de linguagem natural (PLN).

Destacada a importância do fator “contexto”, a variação do nível das relações de sinonímia para diferentes casos, a ideia da elaboração de um ranking de sinônimos sob determinado contexto, de forma automatizada, surge naturalmente. Assim, a geração de um ranking de sinônimos torna-se o resultado do método elaborado neste trabalho, que será explicada subsequentemente.

1.1 Justificativa

Reforçando a ideia de que a sinonímia entre duas palavras representa uma relação linguística ponderável, é possível destacar diferentes cenários de aplicação onde seu emprego faz-se necessário. Além da aprendizagem de inglês enquanto segundo idioma - já mencionada na introdução, é possível destacar outras áreas correlatas à Recuperação de Informação e Processamento de Linguagem Natural entre as quais a ideia de gerar um ranking de sinônimos está presente. Destacado isto, é possível elencar e descrever diferentes aplicações a seguir.

Simplificação de texto– de forma sucinta, esta área de estudo [69] é dedicada à alteração de sentenças, modificando-as para um público específico, possivelmente com menor capacidade de compreensão. Isto implica nos atos de adicionar ou remover palavras, mesclar sentenças e inclui também a substituição dos termos existentes por sinônimos de menor complexidade de compreensão para determinado perfil de leitor. Este mesmo leitor usufruirá do novo texto gerado sem que este tenha seu significado substancialmente alterado quando comparado à fonte original [70]. A simplificação é

(32)

6 Introdução

comumente vista como um requisito aplicado à aprendizagem de um novo idioma, método de auxílio às pessoas com disfunções cognitivas [6,67] que comprometem a leitura e escrita [75].

De forma geral, a tarefa de simplificar texto é fortemente relacionada à geração de ranking de sinônimos, uma vez que palavras que preservam o significado da mensagem são imprescindíveis à substituição. A simplificação representa uma extensão, onde o aspecto da simplicidade representa um fator considerado na geração de uma ordem. Expansão de consultas– Para esta área [3,14], consultas de usuários a sistemas de recuperação de informação trazem consigo problemas comuns: objetivam um conjunto de documentos, mas as palavras relevantes de muitos documentos do conjunto são sinônimos daquelas explicitamente definidas na consulta, resultando em uma baixa sobreposição entre palavras. Este problema é descrito por [30] como o “problema do vocabulário”. O contorno do problema é precedido da resolução da polissemia e da sinonímia: uma consulta q, que deseja obter determinado conjunto de documentos sobre determinados assuntos, é reeditável lexicalmente com inúmeras formas diferen-tes. Entretanto, faz-se necessário desambiguar termos de q, descobrir sinônimos das palavras naturais de q, mas que preservem seu significado original, para a derivação de novas consultas a ser executada. Obtendo, possivelmente, resultados mais acurados quando comparados a aqueles de q, que é a consulta original.

Tradução automática de texto– como o próprio nome sugere, os trabalhos [29] desta subárea do Processamento de Linguagem Natural são dedicados à conversão de mensagem, originalmente escrita em um determinado idioma, para um idioma-alvo. Esta subárea traz consigo algumas preocupações para a tarefa de tradução, como a existência (ou não) da equivalência em significado entre duas palavras oriundas de idiomas distintos [74]. A tradução requer que palavras possivelmente equivalentes possuam a referência em comum para um mesmo conceito ou definição em bases de dados como dicionários ou ontologias, como estudado por [22,35,37]. Outras abordagens utilizam técnicas [37] probabilísticas para ordenar os sinônimos candidatos à substituição no processo de tradução.

Resolução do problema deduplicação de entidades– os trabalhos [2,58] inerentes a esta área almejam a identificação de registros de dados que referenciam uma mesma entidade provinda de distintas fontes. Fato que traz representações lexicograficamente diferentes. A resolução da duplicação ganha importância com o advento de conceitos como Big Data, que trazem a demanda por métodos que mitiguem custos de

(33)

arma-Introdução 7

zenamento perante a crescente oferta de dados heterogêneos. É o caso do trabalho de [58], que destaca a importância da realização a substituição lexical quando se usa um contexto para sugerir uma relação semântica entre duas entidades (compondo uma triplaharg₁, contexto, arg₂i). [58] admite que o contexto, muitas vezes, pode estar lexicograficamente redigido de diversas formas diferentes. Assim, faz-se necessária a identificação de segmentos de texto com a mesma temática central, o que pressupõe a resolução da polissemia entre de todas palavras da sentença, consequentemente identificando similaridade semântica entre as frantes comparadas. E ainda ilustra com um exemplo, onde “legal tender in” e “be the currency used in” podem representar uma mesma relação semântica extraída entre duas entidades de dois textos quaisquer.

Como destacado anteriormente, a ideia de descobrir sinônimos de determinadas palavras a partir de um contexto permeia diferentes áreas da Linguística Computa-cional. Ordenar mediante a sua adequação ao contexto, também. Faz-se necessário ressaltar que as ferramentas, algoritmos e métodos inerentes a cada uma das áreas anteriormente mencionadas possuem uma forte relação entre si, tornando-se certas vezes indissociáveis. Uma ferramenta CALL, por exemplo, por aplicar técnicas dire-cionadas aos estudantes com diferentes níveis de domínio do idioma, pode utilizar simplificadores de texto. Estes mesmos simplificadores necessitam de desambigua-dores para a certificação de que certas palavras possivelmente são alternativas para aplicação no mesmo texto sem que seja observado o comprometimento do significado originalmente almejado.

1.2 Definição do Problema

O problema da substituição consiste em que, para uma determinada sentença S e um termo t determinado nela contida, é necessária a busca dos substitutos da palavra em questão almejando a preservação do significado original da mensagem. Enfatizando a entrada dos dados, o problema pode ser formalmente definido:

1. Uma sentença S de qualquer comprimento; 2. Um termo t∈S para a qual se gerará substitutos;

3. Uma função sintática (fs) associada a t, sendo fs∈ {substantivo, verbo, advérbio, adjetivo}.

(34)

8 Introdução

A saída do método é exclusivamente uma lista de palavras assumidas como sinô-nimos (bons substitutos) para t. Cada palavra c_i inclusa na lista tem um coeficiente associado, que representa a adequabilidade da aplicação de c_iem S.

1.3 Objetivos

O objetivo principal deste trabalho consiste em desenvolver um método aplicado à seleção de termos semanticamente parecidos, sendo prováveis sinônimos, de forma a estabelecer a geração de um ranking cujo critério de ordenação visa deixar bem classificadas as palavras que preservam o significado original da sentença.

Os objetivos específicos, que estão correlacionados ao objetivo principal, são: • Desenvolver um algoritmo de desambiguação lexical de sentido baseado em

dicionários, thesauri e também sobre relações linguísticas para descoberta de sinônimos, que usa a descrição textual associada aos sinônimos candidatos, além de utilizar dados probabilísticos para representar o contexto;

• Elaborar critérios de seleção de termos promissores como candidatos conside-rando múltiplas fontes;

• Estabelecer critérios de ordenação de sinônimos para a geração do ranking, consi-derando diferentes aspectos do contexto;

• Avaliar os resultados do método, comparando-os com os resultados das aborda-gens dedicadas a realizar mesma tarefa sob um consolidado cenário de experi-mentação;

• Destacar as direções de trabalhos futuros baseadas nos resultados observados;

1.4 Contribuições

Nosso método representa na literatura o primeiro que efetua a junção de dicionários como fonte de sinônimos aos embeddings. Utilizamos a representação de embeddings de modo a utilizar referência para cálculo da distância semântica do termo a ser substituído e dos candidatos a sinônimos.

(35)

Introdução 9

Outra contribuição corresponde à aplicação das operações algébricas de analogia sobre vetores de embeddings, que foram concebidas originalmente para outro problema, como meio para encontrar as palavras com menor distância vetorial indicando possível relação de sinonímia para um dado termo. Tal aplicação reforça a originalidade do nosso trabalho, assim como abre a possibilidade de exploração sobre as operações em questão.

Destacadas as contribuições do trabalho, apresentamos um fluxo de execução que inclui uma seleção de candidatos aprimorada sobre mais de uma fonte. Utilizamos de um processo de filtro de termos pouco promissores antes do uso das mesmas operações vetoriais, paras as quais conseguimos comprovar a efetividade durante processos de substituição lexical e de desambiguação de sentido.

1.5 Organização do texto

O restante deste texto está estruturado da seguinte forma: o Capítulo2apresenta uma descrição de conceitos importantes para a compreensão deste trabalho. O Capítulo3

apresenta os trabalhos relacionados que têm em comum conosco os objetivos principais ou marginais, além de posicionar nosso trabalho na literatura. O Capítulo4apresenta o nosso método, destacando a sua arquitetura e as técnicas utilizadas. Já o Capítulo5

apresenta os resultados experimentais e discussões sobre os fenômenos observados. Por fim, as conclusões da pesquisa e apresenta sugestões de trabalhos futuros são apresentadas no Capítulo6.

(36)

(37)

Capítulo 2

Fundamentação Teórica

Este capítulo busca explicar de forma objetiva e clara conceitos essenciais para uma melhor compreensão dos capítulos subsequentes deste trabalho, os conceitos inclui as propriedades linguísticas consideradas pelos trabalhos que realizam a substituição na literatura. Apresentamos também uma visão geral dos recursos léxicos na literatura (Seção2.5), e como têm sido explorados ao longo dos nichos que ordenam sinônimos por contexto. Por fim, descrevemos o cenário de experimentação, que possui ampla adesão na literatura (Seção2.6).

2.1 Conceitos Fundamentais

Esta seção descreve os conceitos essenciais para a compreensão deste trabalho. Es-clarecemos as terminologias das propriedades linguísticas, recursos léxicos além de técnicas mencionadas no decorrer deste trabalho.

2.1.1 Dicionário

Corresponde a uma fonte de dados para a consulta das definições de uma determinada palavra a partir de sua grafia. A definição nada mais é que uma sucinta descrição textual que apresenta relevante fonte de informação semântica. Para as bases que cons-tituem um dicionário nesta pesquisa não somente se obtém as definições associadas às palavras, mas também conjuntos de frases de exemplo de modo a elucidar o real significado da palavra dentro de um dado contexto.

(38)

12 Fundamentação Teórica

Ao longo deste trabalho, o termo “lema” frequentemente será utilizado para se referir à palavra que terá seu significado explanado no dicionário, sendo uma chave de indexação. Comumente, o lema representa a palavra indexada em sua forma inflexionada. De mesmo modo, “significado” ou “definição” se referirão a uma descrição textual de um lema.

2.1.2 Thesaurus

Assim como os dicionários, thesaurus também constituem uma fonte de consulta a partir de uma determinada palavra. Mas de forma específica, o intuito não consiste na obtenção do significado de uma dada palavra, mas sim a obtenção de um conjunto de palavras relacionadas semanticamente. O thesaurus também busca diferenciar palavras fortemente parecidas explicando as nuances que as diferenciam, tais como aquelas evidentes na subárea de sinônimos aproximados (Seção3.2).

2.1.3 Ontologia

Ontologia é corresponde a um tipo de domínio de conhecimento organizado na forma de um conjunto de entidades, com seus atributos, que estão relacionadas compondo classes. Comumente tais classes estão dispostas na forma de algum tipo de organização hierárquica, que mantém explicitamente diversificados tipos de relações entre as mesmas entidades.

Ao longo deste trabalho, o termo “conceito” se refere a uma entidade contida na ontologia. Isto inclui suas propriedades, bem como as relações que a mesma entidade possui com outras entidades. A saber: no âmbito da Wordnet, temos como propriedades a definição do conceito, a lista de sinônimos para tal conceito (que é uma lista de lemas), além das relações semânticas entre os mesmos conceitos que são acessíveis na forma de taxonomias.

2.1.4 Stemming

O stemming remove diferentes unidades morfológicas das palavras, tais como prefixos, sufixos e desinências. O resultado da remoção corresponde ao que se chama radical de alguma determinada palavra. O intuito, geralmente, é permitir que palavras que

(39)

Fundamentação Teórica 13

são flexões de um mesmo lema sejam mapeadas para o mesmo radical morfológico. O que facilita a descoberta de um possível conceito em comum entre termos, podendo ser identificadas como iguais por medidas de similaridade textual (i.e “studies” →

“studi”).

2.1.5 Lematização

Esta técnica permite que duas palavras flexionadas de um mesmo lema sejam, de acordo com a conveniência da aplicação, identificadas como oriundas de um mesmo lema. A lematização corresponde à transformação de uma palavra em uma forma independente de flexão (gênero, número, tempo). Em suma, é o meio pra ser obter a forma canônica de uma palavra.

A lematização se caracteriza por compartilhar de certas aplicações parecidas com o stemming (Seção2.1.4). No entanto, ao invés de resultar em uma palavra não flexionada de um lexema original removendo o sufixo de uma palavra (i.e “studies”→“studi”), esta tarefa remove o sufixo de um termo. O resultado desse processo sempre resulta em um termo inflexionado do inglês (i.e “studies”→“study”).

2.1.6 Corpus Linguístico

Corpus linguístico corresponde a um conjunto de documentos utilizado pelas apli-cações de PLN como fonte para a geração de bases de conhecimento, fonte para treinamento de modelos de aprendizado, entre outros fins.

A utilização de corpus para as abordagens mencionadas podem prover valiosos tipos de informação, desde informações estatísticas, como a coocorrência de termos. É útil também, às vezes, como fontes de sentidos anotados para um termo nos diferentes contextos dos documentos que compõem o corpus. Esses tipos de informação extraídos são, usualmente, utilizados para predição de significados na desambiguação e para a geração de contadores de frequência de palavras.

Por exemplo, neste trabalho, a utilização de corpus sobre os trabalhos relacionados tem sido justificada recorrentemente visando o propósito de observar estatísticamente a coocorrência de palavras de modo a predizer os contextos de aplicação mais adequa-dos para qualquer tipo de palavra.

(40)

2.1.7 Desambiguação Lexical de Sentido (DLS)

O processo de desambiguação consiste em um tema estudado há anos pela área de linguística [43,61]. Tal processo consiste basicamente em inferir o significado mais adequado para um texto, o que inclui desambiguar uma palavra dentro de um mesmo documento de texto ou sentença, que representam o contexto de uso da palavra. Algoritmos de desambiguação usam diferentes técnicas para atingir a tal propósito, entre as quais podemos classificar:

1 aprendizado supervisionado - tais técnicas são geralmente algoritmos de apren-dizagem de máquina aplicado a um grande corpus anotado, como o SemCor [66]. Embora amplamente use de dados manualmente anotados, existem ferramentas automatizadas com o intuito de gerar documentos com significados associados às palavras.

2 aprendizado não-supervisionado - tais algoritmos não fazem uso de inventários de sentidos. Por isto, se dedicam à aplicação de algoritmos de clusterização de significados para uma mesma palavra em um corpus;

3 baseado em conhecimento - este tipo de algoritmo de desambiguação consiste no uso de conjuntos de significados conhecidos de antemão a partir de bases léxicas, tais como a Wordnet [56], a partir dos quais deve-se inferir aquele mais apropriado para a palavra. A majoritária parte dos trabalho relacionados elencados na Seção3.1

se encaixa nesta categoria.

2.1.8 Substituição Lexical

A substituição lexical, conforme brevemente descrita na introdução deste trabalho, se caracteriza por ser uma tarefa de troca de uma determinada palavra em uma sentença por outra, onde o intuito é de preservar o significado da sentença original. A preservação de significado na geração de outra sentença, obviamente, é precedida pela identificação do termo substituível dentro da sentença. Tarefa esta que é a desambiguação lexical de sentido.

As substituição lexical e a desambiguação são duas tarefas fortemente atreladas e, por vezes, indiferenciáveis. A substituição lexical equivale a uma variação da desambiguação onde o inventário de sentidos não é explicitamente definido para determina base léxica. Ou seja, define-se os melhores substitutos de um termo em

(41)

um contexto, mas não se define explicitamente qual o conjunto de definições. Para se realizar a tarefa de substituir um termo é necessário definir como o conjunto de instâncias candidatas é gerado.

2.1.9 Relações linguísticas

Além da sinonímia, que fora descrita na introdução deste trabalho, descrevemos também quatro tipos usuais de relações semânticas comumente utilizadas para o uso de métricas de similaridade semântica sobre ontologias (Seção2.1.3) que estão presentes no contexto deste trabalho.

Polissemia e homonímia

A polissemia corresponde a uma propriedade linguística que expressa a mutabilidade de significados assumidos por uma mesma representação gráfica quando a mesma representação é aplicada em textos diferentes. Sob perspectiva inversa, a mesma representação gráfica para um conjunto de significados expressa uma propriedade chamada homonímia. A polissemia e a homonímia, ainda que não se refiram a uma mesma propriedade, se mostram indissociáveis na linguística.

A existência da polissemia é a principal propriedade linguística que justifica a exis-tência de desambiguadores lexicais de sentido. É importante observar que diferentes palavras apresentam diferentes níveis de polissemia. Tais níveis são claros durante a observação da quantidade de significados para uma mesma palavra de entrada em um dicionário.

Utilizando um exemplo, a palavra “play” possui um alto grau de polissemia. As definições “represent (a character) in a theatrical performance or a film” e “engage in activity for enjoyment and recreation rather than a serious or practical purpose” são significados que a palavra pode assumir, entre vários, dependendo de seu contexto de aplicação.

Hiperonímia e hiponímia

A hiperonímia representa uma relação linguística e também semântica descritível como uma relação “é um” entre duas palavras distintas. Mais especificamente, um conceito A corresponde a uma generalização (conceito mais abstrato) de um conceito

(42)

Figura 2.1:Um exemplo linguístico de hiperonímia: o termo “vehicle” possui um significado mais geral para um significado associado às palavras “car”, “motorcycle” e “bicycle”.

B. Um exemplo para esse tipo de relação, disposto na figura 2.1, é do vínculo do conceito “a motor vehicle with four wheels; usually propelled by an internal combustion engine” (associado à palavra “car”) e “a conveyance that transports people or objects” (associado ao lema “vehicle”), sendo o último conceito uma visão abstrata (hiperônimo) do primeiro.

Sob outro aspecto, a relação conceitual inversa à hiperonímia é a hiponímia. Ainda para os conceitos mencionados acima, o primeiro conceito mencionado (“car”) é um hipônimo do segundo conceito (“vehicle”). É importante ressaltar que esse tipo de relação é explícita na ontologia da Wordnet. De forma contrária, esse tipo de relação não é encontrado em dicionários ou thesaurus.

É importante destacar a cardinalidade permitida na taxonomia “é um”: um conceito A pode ser uma especialização de 1 até N conceitos. O mesmo conceito A pode se especializar em 1 até N conceitos. Portanto, a hiperonímia é uma relação N:N - usando a comum terminologia de banco de dados.

Esse tipo de relação provê um dos tipos de relação de sinonímia mais elementares dentro da ontologia Wordnet. Tanto a hiperonímia quanto a hiponímia destacam a questão da granularidade entre sinônimos. Para ser específico, utilizando um exemplo, para dados contextos, o termo “automobile” é cambiável por algum conceito mais detalhado (i.e “motorcycle”) presente em uma gama de conceitos mais detalhados (i.e “motorcycle”, “car”, “limusine”, “bicycle”, etc). Esse tipo de relação existe entre palavras

(43)

Holonímia e meronímia

A relação semântica de holonímia corresponde à composição “todo-parte” entre dois conceitos expressos por duas palavras distintas. Essa composição pode ser descrita como: um conceito A é parte integrante de um conceito B. Como exemplo, podemos destacar a palavra “hand”, na Wordnet, associada ao conceito “the (prehensile) extremity of the superior limb”) e a palavra “body”, associada ao conceito “the entire structure of an organism (an animal, plant, or human being”. O primeiro conceito é um merônimo do segundo, enquanto o segundo conceito é um holônimo do primeiro.

Assim como a relação de hiperonímia (ver subSeção 2.1.9), a cardinalidade na taxonomia que expressa a relação em questão também é N:N.

Ambas relações possuem relevância no decorrer deste estudo, considerando que são relevantes na mensuração de semelhança entre conceitos independentemente de contexto não expressam necessariamente uma relação de sinonímia. A presença de um determinado conceito nessa taxonomia não exclui a presença na taxonomia “é um”. A recíproca é verdadeira, o que sugere que dois conceitos que estão interligados, onde um é integrante do outro assim, compartilham algum conceito generalizador em comum.

2.2 A Wordnet

A WordNet [56] é uma base de dados léxica amplamente utilizada em trabalhos relacionados ao PLN . Isso ocorre, principalmente, por ser gratuita e disponibilizar uma estrutura relevante para pesquisas na área.

A Wordnet provê uma rede de palavras correlacionadas por seu significado na qual substantivos, adjetivos, verbos e advérbios são agrupados em conjuntos de sinônimos cognitivos [17] - que possuem mesma denotação, mas impõem diferentes restrições de aplicação, tais como as colocacionais. Com isto, as palavras são agrupadas de acordo com seus significados (que também representam conceitos associados a uma descrição textual), nos chamados synsets. Além da relação de sinonímia regular entre os termos, representada pelos synsets, existem também as relações entre synsets, que são: hiperonímia/hiponímia (ver subSeção2.1.9), holonímia/meronímia (ver subSeção

(44)

As relações de sinonímia existentes entre os diversos termos, é um facilitador para o método proposto. Isso ocorre porque os synsets contêm, cada um, uma lista de palavras (lemas) que o indexa. Portanto, representam um caso de sinonímia. Entretanto, explicitamente na base, não existe uma precedência de aplicação na lista mencionada (Seção3.2).

Um synset possui também um conjunto de frases de exemplo associada. Cada frase deste conjunto representa a aplicação da palavra (lema) que indexa o mesmo synset na Wordnet. Para tais frases de exemplo, o significado assumido pela palavra dentro da frase é aquele expresso pela descrição textual do synset.

No que diz respeito à cardinalidade das relações semânticas, faz-se necessário observar que tanto as relações hiponímia/hiperonímia e meronímia/holonímia entre os synsets são de “muitos para muitos”, ou seja, um único synset S pode estar ligado através dessas relações a outros muitos synsets sem que estes estejam necessariamente ligados somente a S. De modo complementar, um synset pode estar indexada por diversos lemas diferentes, comumente assumidos como sinônimos perfeitos, sob a perspectiva da Wordnet. Já uma mesma palavra (lema) pode indexar vários synsets (polissemia).

De forma objetiva, a Wordnet representa uma base unificada, que compreende um dicionário e um thesaurus. Ambos contêm seus dados (definições e lista de sinônimos) dispostos na forma de uma ontologia (Seção2.1).

Outro fator relevante que favorece o uso do WordNet como a base de dados de referência é a sua API (Application Programming Interface), que oferece diversos serviços relacionados ao uso de dicionários, como: busca de termos, definições, antônimos, sinônimos, exemplos de uso de um termo em suas definições, além da relação entre todos esses componentes. A partir dela, há a facilidade de identificar os diversos dados relacionados ao termo sem a necessidade de processamentos adicionais.

2.3 Modelos de Linguagem

O conceito de modelos de linguagem possui aplicações importantes na área de Re-cuperação de Informação de Processamento de Linguagem Natural. Uma das ideia de aplicação é a predição de palavras que tenham uma alta propensão a ocorrer em determinado documento. Conforme observado por [46], modelos de liguagem têm

(45)

Figura 2.2:Na figura é demonstrada a taxonomia “é um” da ontologia da Word-net. Figura extraída de https://www.cs.princeton.edu/courses/archive/spring17/ cos226/assignments./wordnet.html. Link acessado em 1 de agosto de 2019.

um suporte probabilístico, estabelecendo uma função de medida de probabilidade sobre cadeias de caracteres de um mesmo vocabulário.

Na prática, a partir da probabilidade de uma sequência de termos sobre um corpus aprendido, pode-se utilizar deste mesmo aprendizado de modo a tentar a correta pre-dição de uma palavra mais adequada a um contexto de aplicação. Quando aplicados à resolução do problema deste trabalho, a palavra predida é o sinônimo. Assim, tem-se um meio de representar determinados contextos considerando até mesmo aspectos como ordem relativa. Sobre alguns tipos de modelos comuns aos trabalhos correla-cionados à pesquisa, destacamos nas subseções seguintes aqueles recorrentemente observados.

(46)

2.3.1 N-gram

n-grams correspondem à representação de determinados documentos/contextos na forma de pequenos trechos contínuos de texto. n-grams trazem consigo uma maior relevância quanto ao aspecto de ordem e contiguidade de termos em uma mesma sentença, já que a probabilidade de ocorrência de uma sequência de termos inclui a probabilidade de ocorrência de uma subsequência de termos.

Por tais características, n-grams são fortemente indicados para a mensuração da aplicabilidade de determinadas palavras para certos contextos, já que sinônimos podem ser separados por regras colocacionais [25]. Assim, torna-se possível ponderar possíveis sinônimos aplicados ao contexto por relevância. n-grams apresentam consigo uma característica inerente: por serem meramente probabilísticos, não identificam o contraste existente entre palavras ou sentenças com precisão.

Este tipo de modelo de linguagem possui alguns problemas para um corpora pe-queno, que é a pouca probabilidade de ocorrência de determinado n-gram (dados esparsos). Formalmente, a probabilidade de um n-gram ocorrer em um corpus pode ser definida por: P(p₁p₂p₃, ..., pn) = n

∏

i=1 P(pi|p1, ..., pn−1) (2.1)

Mais especificamente, transcrevendo a fórmula2.1assumindo n=2, a fórmula do 2-gram é exprimível ao seguinte modo:

P_bigrama(p₁p₂p₃) = P(p₁)P(p₂|p₁)P(p₃|p₂p₁) (2.2)

Estes mesmos segmentos podem possuir comprimentos (n) variados. Logo, por questões de nomenclatura, frequentemente, quando se refere a n-grams de compri-mento cinco, utiliza-se o termo “5-grams”. Para n=4, “4-grams”. E assim se mantém o padrão para os diversos valores possíveis de n.

Outra observação pertinente para a maior compreensão deste trabalho é que a computação de probabilidades sobre n-grams difere-se da frequência, tendo em vista que a probabilidade de ocorrência de um n-gram é um produtório da probabilidade de ocorrência entre os segmentos do mesmo n-gram em questão. Contadores de frequência sobre n-grams como método de pontuação da factibilidade de certos contextos são,

(47)

por si só, mais confiáveis para ponderação do contexto. A contrapartida é a possível escassez de dados (amostragem pequena) para prover contadores razoáveis para rotular um contexto como “pouco provável” ou “muito provável”.

2.3.2 Bag-of-words (BOW)

O modelo de linguagem bag-of-words é uma representação de documentos que con-sidera as palavras que, para determinado documento, concon-sidera aspectos tais como: palavras inclusas e sua frequência existente. Assim, basicamente, posições relativas entre as palavras têm impacto nulo nesse tipo de representação. Por exemplo, as sentenças “Mike is richer than Gibb” e “Gibb is richer than Mike” convergem exatamente para a mesma representação para um sistema de recuperação de informação, já que possuem exatamente as mesma palavra e frequência de cada palavra.

Por tal característica, quando tratado como um modelo probabilístico, o modelo “BOW” não considera a ordem relativa ou o caso de coocorrência entre as palavras que compõe o contexto a ser ponderado. Portanto, apresenta equivalência quanto a 1-gram (unigrama).

2.3.3 Skip-Gram

O skip-gram representa um tipo de n-gram generalizado e apresenta como maior con-tribuição a mitigação do custo da esparsidade recorrente em n-grams, que consiste na discrepância de ocorrências de um determinado n-gram n1quando comparadas àquelas dos (n-1)-grams, (n-2)-grams, (n-3)-grams, e demais segmentos de n1, que também são n-grams. Portanto, é mais indicado para corpus menores. Mais deta-lhadamente, na ausência de N palavras dispostas de forma contínua em corpus para aprendizado, admite-se a ocorrência de todas as palavras em um contexto, mas de forma descontínua. Na prática, um skip-gram é um n-gram, mas que permite N termos com o descarte de k dos N termos (“k-skip n-gram”). Formalmente, para uma sentença s = p₁, p₂, ..., p_n, o modelo s skip-gram pode ser definido como:

Skip_{k, n}(s) = ( p_i 1, pi2, ..., pin n

∑

j=1 i_j−i_j−1 <k ) (2.3)

(48)

Utilizando um exemplo, para a sentença “i was driving my car”, os segmentos gerados são “i was driving”, “i was my”, “i driving my”, “was driving my”, “was driving car”, “was my car”, “driving my car” (“1-skip 3-grams”).

2.3.4 Continuous Bag-of-words (CBOW)

Para descrever o que é o modelo de “Continuous Bag-of-words” (CBOW), é preciso recordar a propriedade principal do “bag-of-words”: o cálculo da probabilidade de um segmento de texto é um produto da probabilidade de ocorrência de cada palavra quando tratadas como eventos isolados.

O CBOW é utilizado para criar representações de determinadas palavras no modelo vetorial de embeddings, onde captura-se as palavras contextualmente circundantes a cada palavra de um vocabulário indexado em um modelo vetorial. Assim, para um corpus e aprendizado, coleta-se todas os vetores que representam os contextos que envolvem a palavra a ser indexada e retira-se a sua média.

Um problema inerente é quanto à representação vetorial é que, com o acréscimo de palavras ao vocabulário, tem-se o aumento linear em função das palavras recém-adicionadas.

O CBOW é parecido com o skip-gram, onde a diferença de maior importância é que a palavra cerne é acessível através dos contextos que a precede e que a sucede.

Utilizando um exemplo, para a sentença “i was driving my car”, os segmentos gerados são “i was driving”, “was driving my”, “driving my car” (3-gram).

2.4 Modelo de Espaço Vetorial

Em Sistemas de Recuperação da Informação documentos podem ser representados como vetores multidimensionais. Mais precisamente, para um documento D_i especí-fico, a representação inclui a formação de uma matriz onde cada índice k representa uma palavra (p_k) do vocabulário. O vocabulário representa somente aquelas palavras representantes para a representação de cada documento do corpus. As stopwords1são exemplos de palavras de baixa relevância na representação vetorial.

1

(49)

Em um vetor, a um determinado índice é associado um valor sugerindo a ocor-rência de k, podendo esse valor ser um valor binário (0 ou 1) ou algum contador de frequência dentro do documento, que é para ponderar a relevância das palavras. Para outros casos, vetores recebem coeficientes de alguma medida dedicados a valorar as palavras mais relevantes para atribuir diferentes pesos entre documentos de um corpus. Como exemplo, mencionamos a métrica tfidf (sigla para “term frequency -inverse document frequency”), que é um tipo de medida que busca diminuir a relevância (peso) de palavras muito frequentes em uma ampla gama de documentos de um corpus indexado. Formalmente, o tf-idf é definido pela fórmula t f id f =t f_t

i,dj×id fti; onde

(i): t f representa a frequência absoluta de um termo para um documento d_j; (ii) id f_t

i

equivale ao logaritmo da proporção do total de documentos do corpus sobre o total de documentos que contém t_i.

A representação vetorial permite também a realização de operações algébricas entre os vetores criados, assim como a mensuração do ângulo entre os vetores de dois documentos através da distância euclidiana ou de cosseno, por exemplo.

D1

D2

D3

doc1

doc2

Figura 2.3:Representação de um espaço vetorial tridimensional, com as dimensões D1, D2 e D3. O espaço contém dois vetores, que são documentos (“doc1” e “doc2”). A distância entre os documentos sugere a proximidade semântica entre eles.

2.4.1 Análise Semântica Latente (LSA)

A LSA (Latent Semantic Analysis) [42] é uma técnica estatística de NLP destinada à men-suração semântica entre documentos. Naturalmente, a técnica em questão assume que palavras de significados aproximados ocorrem em contextos parecidos. LSA é uma téc-nica de modelagem de tópicos, cuja finalidade é identificar os tópicos relevantes para

(50)

determinada palavra. Onde busca-se identificar as relações entre palavras relevantes para realizar a associação a determinados tópicos. LSA consiste na representação vetorial de palavras. Comparando a sua similaridade através da distância dos mesmo vetores. Para o caso do agrupamento de documentos relativos a tópicos comuns sem dados rotulados é baseado em algoritmos de clusterização. Naturalmente, a criação dos vetores que representam um documento são representados pela correlação de cada palavra com um documento através de alguma métrica de relevância. Mais especificamente, o tf-idf é amplamente utilizado de modo a obter maiores coeficientes para um dado documento quando uma determinada palavra está com distribuição enviesada para este mesmo documento do corpus.

Esta técnica é dividida em uma sequência de passos. A primeira é a criação de uma matriz bidimensional da relação documento-termo com as posições preenchidas pela métrica de relevância anteriormente descrita (o LSA utiliza o “bag-of-words” como modelo de linguagem). Posteriormente, realiza aprendizagem dos tópicos através da redução da dimensionalidade da matriz para um vetor que representa o documento. A matriz original é decomposta em valores singulares, método da álgebra linear, sendo transformada em três outras matrizes, cujo produto representa a matriz original. A ideia é identificar o termo mais relevante por dimensão, após de uma tarefa de eliminar linhas e colunas com menores valores singulares.

Os textos representados através da LSA podem ser documentos inteiros, seções de texto ou registros de dicionários. Para o último caso, é aplicável no âmbito da desambiguação a partir de uma corpora onde cada documento representa uma par

hpalavra/significadoide modo a se contornar a questão da polissemia.

2.4.2 Embeddings

Embeddings [55] são representações de palavras aprendidas a partir de uma coleção de documentos. Redes neurais têm sido utilizadas para treinar modelos de linguagens sobre dados não rotulados. Através de uma camada da rede neural (“embedding layer”) é possível remover a espasidade do vetor original que associa a palavra cuja representação será aprendida para todas as coocorrentes. Obtendo, assim, vetores de tamanho reduzido e fixo. Em suma, após a projeção na “ extitembedding layer”, cada palavra vira um vetor. Embeddings também são contínuos, ou seja, seus valores são

(51)

não-binários. Tal propriedade abre a possibilidade de generalização das representações vetoriais.

No âmbito implementacional, temos o Word2vec23, que é uma ferramenta para a construção de vetores e utiliza duas arquiteturas: CBOW (Seção2.3.4) e skip-gram. (Seção2.3.3):

• Arquitetura de skip-gram - o modelo obtém a representação de uma palavra como entrada, e a camada de saída da rede neural é replicada várias vezes para incluir o número de contextos, e a probabilidade de distribuição (condicional) por contexto.

• Arquitetura CBOW - Neste modelo, o processo é inverso do skip-gram. A entrada da rede neural é uma determinada palavra, e a saída é a probabilidade de cada palavra do contexto ao redor. O processo de treinamento, que inclui inúmeros contextos, requer a média a retirada dos vetores dos contextos de entrada. Como é mencionado por [55], skip-grams são melhores para criar representações de palavras com amostragem infrequente, enquanto a arquitetura CBOW é melhor em termos de performance durante a geração do modelo e a representação de termos frequentes.

2.5 O uso dos recursos lexicais no processo de

substituição

Na literatura, é possível identificar nichos dedicados à ordenação de sinônimos para dada sentença, onde, principalmente, diferem-se pelo modo de representação do contexto, da palavra e seu conjunto de significados e, consequentemente, pela métrica utilizada para a comparação de semelhança semântica entre o contexto de entrada e a representação de um possível sinônimo.

Muitos trabalhos predizem o sinônimo correto para um contexto a partir de uma lista predeterminada, os “sinônimos aproximados”, que são comumente vinculados

2

https://code.google.com/archive/p/word2vec/

3

(52)

a um mesmo conceito4 em thesaurus [31]. Assim, sobreposições semânticas entre a palavra definição da palavra e o contexto têm pouca relevância, já que inexplora quaisquer tipo de representação anotada de cada candidato/definição como fonte para um treinamento. [25] apresenta uma classificação formal das diferentes relações de sinonímia, como estilísticas e atitudinais (i.e “father”/“daddy”), onde, apesar de compartilharem um conceito nuclear em comum, suas nuances de diferenciação pouco são identificáveis nos significados de dicionários [26]

Outra gama de trabalhos, a da subárea homônima da Substituição Lexical [50], extrai e ordena sinônimos para sentença. Grande parte desses trabalhos, como a dos competidores do SemEval-2007, utiliza também de técnicas que mensuram a probabi-lidade de aplicação do candidato à sentença (adequabiprobabi-lidade contextual) como pilar central, utilizando de modelos de linguagem como n-grams ou de frequência extraídos de grandes volumes, como o corpus Google Web 1T, com até 1 trilhão de palavras [77] ou de motores de busca. Representações do contexto na aprendizagem apresentam variações no tamanho do n-gram ou a função de probabilidade usada. Já considerando o aspecto da relação semântica contexto-palavra, para as abordagens que realizam essa verificação, aprende-se o significado de determinada palavra para determinada definição/tema (desambiguação), para essa parcelas de trabalho utiliza-se de téc-nicas como a Latent Semantic Analysis (LSA), descobrindo palavras mais relevantes para determinado domínio, indexado por um termo substituível, e mensurando a proximidade deste com o contexto.

Para dicionários, em muitos casos, mensura-se as sobreposições entre unidades lexicais dos significados de t e entre as palavras contexto circundante de t, como em [4], predizendo uma lista de substitutos sem ordem de relevância entre si, sendo relevante entrada para métodos de sinônimos aproximados. Técnicas de modelagem por tópicos e desambigaução via-dicionários não são necessariamente excludentes entre si. No entanto, métodos de comparação semântica entre representação “independente de contexto” de um conceito e um contexto rarol incorrem na baixa sobreposição.

Alternativamente às restrições da comparação entre definições e contexto, a utiliza-ção das típicas frases de exemplos vinculadas a cada definiutiliza-ção mitigaria esse impacto negativo, mas as frases são escassas, e a anotação de um grande volume de frases com os significados associados às palavras consistem em uma tarefa custosa. As frases associadas a cada definição da palavra principal em um contexto, pela lógica

4

Uma definição é uma descrição textual de um conceito, onde ambos estão associados a um conjunto de sinônimos para representar o mesmo conceito em um documento.

(53)

da linguística, deveriam possuir uma distância muito reduzida do contexto onde a mesma palavra estaria aplicada. Portanto, dicionários, ainda relevantes fontes para obtenção de possíveis sinônimos, carecem de fontes auxiliares para ponderação da relação entre sinônimos. Uma ideia mais que natural é, então, de dados oriundos de corpus não-anotados, de modo a se verificar a aplicabilidade no contexto de potenciais sinônimos.

Modelos de embeddings representam palavras em um espaço vetorial de baixa dimensionalidade, resultantes de um processo de treinamento com redes neurais. Esse tipo de representação se baseia na hipótese distribucional, que sustenta que palavras que ocorrem nos mesmos contextos tendem a possuir mesmo significado [68]. Portanto, trazem consigo consigo a representação de palavras a partir dos seus contextos de uso. Diferente dos thesauri, que agrupam-as se considerar o contexto. Diferente da LSA, que identifica as palavras latentes (relevantes) para uma domínio específico (definição) representando-o em um vetor, embeddings recebem permitem a predição de determinada palavra informado o contexto [52,54]. Tal representação é capaz de captar relações entre as palavras, diferentes daquelas explicitamente tipificadas na Wordnet [57], onde regularidades estão relacionadas a certas posições dos vetores, sejam elas sintáticas, morfológicas, além daquelas efetivamente utilizadas pelo nosso trabalho: as semânticas. Algumas relações mais específicas são transcritíveis em operações algébricas, como a soma. [54] destaca essa contribuição, que inclui regularidades entre representações de palavras, ilustrando-a com a operaçãoυ[“king”] - υ[“man”]+ υ[“woman”]para se obter a representação no espaço dimensional mais aproximada à da

palavra “queen”.

Embeddings são essencialmentes ambíguos, condensando relações de uma pala-vra p sem que tal relação de coocorrência seja capaz de captar o significado de p no contexto utilizado como base de treinamento na geração do mesmo vetor, tornando possível a representação de palavras possivelmente contrastantes [60], como os antôni-mos [63], com considerável aplicabilidade contextual, ou conceitos relacionados, mas que inexpressam sinonímia, como “car”-“motorcycle”. Esse tipo de característica abre a possibilidade do uso de algum recurso complementar às representações contidas no modelo, que é possível pelo uso de um thesaurus, que agrupa sinônimos indepen-dentes de contexto, reduzindo contrastes de antonímia e papel. Embeddings são, na prática, referências extraídas de grandes volumes, mas que, de certa forma, esbarram na mesma questão da escassez de dados anotados, fato que faz necessário transfe-rir ao modelo a representação da sentença que contém a palavra a ser substituída,

(54)

na intenção de obter representações de palavras com forte correlação à sentença em questão.

Destacada a característica central de dicionários/thesauri, é possível dizer que agru-pam sinônimos em função dos significados assumíveis pelas palavras. Entretanto, tal agrupamento é realizado por sinônimos-cognitivos, desconsideram o “fator contexto de uso”, conforme a hipótese distribucional [68]. Embeddings, por si só, constrõem a representação vetorial da palavra apenas baseada no contexto, dando margem à representação aproximada de não-sinônimos. Pelas características e deficiências obser-vadas, a junção das fontes se apresentam como um dos fatores impulsionadores deste trabalho.

2.6 A base de referência SemEval

Os casos de entrada utilizados na experimentação são os mesmos utilizados no Se-mantic Evaluations. O SemEval é uma série de eventos direcionados à avaliação de sistemas na área de PLN, o que inclui, naturalmente, áreas correlatas à Desambigua-ção Lexical de Sentido e outras subáreas que tangem o estudo do significado das palavras em determinado idioma. Internamente a cada evento existe um conjunto de competições entre sistemas com propósitos específicos, provendo muitas vezes cenários de experimentação com ampla adesão posterior à ocorrência em questão. Na edição de 2007, ocorreu a tarefa de “Substituição Lexical” (task 105). A Substituição Lexical envolve tanto o ato de encontrar o conjunto de melhores substitutos para o termo substituível, quanto o ato de identificar o melhor substituto contido no mesmo conjunto.

Uma das principais contribuições desta tarefa é disponibilizar uma base de mensu-ração para ranking e predição de sinônimos onde as bases que provêm os significados das palavras não são pré-definidas. Assim, os cenários desenvolvidos para experi-mentação não só avaliam a capacidade da tarefa de desambiguação, como mensurar a qualidade dos recursos, as Bases Léxicas, no intento de acrescer a acurácia dos sistemas dedicados à Desambiguação/Substituição Lexical. Naturalmente, o inven-tário de sentidos trazem consigo relevante participação ao longo da tarefa, de modo que, aqueles utilizados pelas abordagens voltadas à tarefa são avaliados pela Base de Experimentação.

5

(55)

É importante ressaltar que esta competição dá completa autonomia aos participan-tes para a geração do conjunto de sinônimos, bem como sua ordenação. Ou seja, cada participante tem a faculdade de escolher a combinação de métodos mais adequados, bem como as recursos (corpus Linguístico, inventário de sentidos anotado, desambi-guadores, algoritmos de classificação, medida de comparação semântica, entre outros) para o cumprimento do propósito da tarefa. Deste modo, conclui-se que nenhum caso de entrada possui um favorecimento para algum determinado recurso. As abordagens não possuem nenhum tipo de informação prévia acerca das anotações gold de todos os casos de entrada. Deste modo, conclui-se que a tarefa de busca de sinônimos é precedida pela identificação do significado pela palavra marcada pela substituição. Tal tarefa é, portanto, uma desambiguação lexical de sentido, ainda que implicitamente imposta pela experimentação.

2.6.1 Sobre o processo de anotação

Os anotadores encarregados de gerar as anotações gold são cinco pessoas falantes de forma nativa do inglês. Entre os quais, três adquiriram background linguístico. Aos mesmos anotadores foram entregues um conjunto de procedimentos6para realizarem as anotações, onde as principais instruções corresponde a cada um sugerir até três melhores substitutos (igualmente válidos, caso considerem existentes). Naturalmente, algumas palavras em específico trazem consigo uma quantidade maior de rótulos de “melhor substituta” (moda) que outras. Para a qual será mencionada como “moda”.

O dissenso formado pelos anotadores e a quantidade variável de recomendações para as diferentes palavras sugeridas estabelecem também uma noção de ordem entre todas as palavras mencionadas, de maneira geral, por todo o conjunto de anotadores.

Um fato que reforça a ausência de inclinação para algum tipo de base léxica especí-fica. Um ponto importante a ser destacado é que o processo de anotação prioriza o vocabulário do próprio anotador, sendo-lhe facultado escolher o dicionário que lhe convir no processo de anotação em casos de maior dificuldade. Isto se lhe convir.

6