• Nenhum resultado encontrado

Jean Carlos Oliveira de Abreu CARACTERIZAÇÃO E TRATAMENTO DE PROBLEMAS DE CASAMENTOS PARCIAIS NO RECONHECIMENTO DE MENÇÕES EM TEXTOS

N/A
N/A
Protected

Academic year: 2021

Share "Jean Carlos Oliveira de Abreu CARACTERIZAÇÃO E TRATAMENTO DE PROBLEMAS DE CASAMENTOS PARCIAIS NO RECONHECIMENTO DE MENÇÕES EM TEXTOS"

Copied!
92
0
0

Texto

(1)

CARACTERIZAÇÃO E TRATAMENTO DE PROBLEMAS DE CASAMENTOS PARCIAIS NO RECONHECIMENTO DE

MENÇÕES EM TEXTOS

Dissertação submetida ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Santa Catarina para a obtenção do Grau de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Renato Fileto

Florianópolis 2018

(2)

Abreu, Jean Carlos Oliveira de Abreu

Caracterização e Tratamento de Problemas de Casamentos Parciais no Reconhecimento de Menções em Textos / Jean Carlos Oliveira de Abreu Abreu ; orientador, Renato Fileto Fileto, 2018. 92 p.

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós Graduação em Ciência da Computação, Florianópolis, 2018.

Inclui referências.

1. Ciência da Computação. 2. Processamento de Linguagem Natural. 3. Reconhecimento de Entidades Nomeadas. 4. Ligação de Entidades. 5. Mineração de Textos. I. Fileto, Renato Fileto. II. Universidade Federal de Santa Catarina. Programa de Pós-Graduação em Ciência da Computação. III. Título.

(3)

CARACTERIZAÇÃO E TRATAMENTO DE PROBLEMAS DE CASAMENTOS PARCIAIS NO RECONHECIMENTO DE

MENÇÕES EM TEXTOS

Esta dissertação foi julgada adequada para obtenção do título de mestre e aprovada em sua forma final pelo Programa de Pós-Graduação em

Ciência da Computação. Florianópolis, 13 de março de 2018.

________________________ Prof. José Luis Almada Güntzel, Dr.

Coordenador do Programa

Banca Examinadora:

________________________ Prof. Renato Fileto, Dr. Universidade Federal de Santa Catarina

Orientador

________________________ Prof. Thiago Alexandre Salgueiro Pardo, Dr. Universidade de São Paulo (videoconferência)

________________________ Prof. Julio Cesar dos Reis, Dr.

Universidade Estadual de Campinas (videoconferência)

________________________ Prof. Roberto Willrich, Dr. Universidade Federal de Santa Catarina

(4)
(5)

Este trabalho é dedicado a minha esposa, aos meus pais, familiares e todos aqueles que me apoiaram nesta jornada.

(6)
(7)

Grato ao professor Renato Fileto por sua dedicação na orientação e conclusão deste trabalho e também pelos ensinamentos que possibilitaram minha evolução tanto no meio acadêmico quanto no meio profissional.

Agradecimentos a minha família, meu irmão Clodoaldo e irmã Gilmara, minha mãe Teresinha e meu pai Cedival, que vive em meu coração. Agradeço especialmente minha esposa que sempre esteve ao meu lado me motivando a ir cada vez mais longe em meus objetivos.

Grato ao pessoal da Universidade de Leipzig que colaboraram para a conclusão dos experimentos realizados. Em especial Michael Roder por todo o suporte dado na utilização do framework Gerbil.

Por fim, sou grato aos membros da banca examinadora deste trabalho por suas contribuições e críticas.

(8)
(9)

“A persistência é o menor caminho do êxito”. (Charles Chaplin)

(10)
(11)

Menções (e.g., a entidades, a conceitos) identificadas em textos por ferramentas do estado da arte não raramente apresentam incompatibilidades com as respectivas menções da regra ouro (menções anotadas e validadas por humanos em textos). Esta dissertação propõe uma classificação formal desses problemas de incompatibilidade de menções, incluindo correspondências parciais. Além disso, apresenta evidências de que, em muitos casos, menções mais longas levam a maior precisão e a informações mais específicas que menções mais curtas. Com base nisso, foram desenvolvidos no âmbito deste mestrado algoritmos para melhorar a eficácia de ferramentas de reconhecimento de menções, mediante a expansão de menções em textos quando e o quanto possível. Tais algoritmos funcionam como um passo de pós-processamento, baseado em dicionário de nomes de superfície, para melhorar os resultados retornados por qualquer ferramenta que identifique menções em texto. Experimentos realizados com a Coleção Dourada do HAREM e o Gerbil, framework que integra uma variedade de ferramentas do estado da arte e diversos conjuntos de dados contendo textos do mundo real, mostraram que sobre-segmentação (menções da regra outro contendo uma ou mais menções menores identificadas por ferramentas) é a classe de problema de incompatibilidade de menções mais prevalente dentre as classes formalizadas neste trabalho. Alguns dos algoritmos propostos nesta dissertação solucionaram a maior parte dos casos de sobre-segmentação, sem ocasionar muitos casos do problema oposto, sub-segmentação (i.e., menções maiores que as da regra ouro), com consequentes melhorias na precisão e na cobertura. O algoritmo MInT NoOver também gerou ganhos de medida-F sobre os resultados de ligação de entidades da ferramenta AGDISTIS.

Palavras-chave: reconhecimento de entidades nomeadas, correção de menções, ligação de entidades, mineração de textos, processamento de linguagem natural.

(12)
(13)

Mentions (e.g., entities, concepts) identified in texts by state-of-the-art tools sometimes present incompatibilities with the respective mentions of the ground truth. This work proposes a formal classification of mention mismatching problems, including partial matching. In addition, it provides evidence that, in many cases, longer mentions lead to greater accuracy and more specific information than shorter mentions. Based on this, algorithms to improve the effectiveness of mention recognition tools have been developed in this work, by expanding mentions in texts when and as much as possible. Such algorithms works as a post-processing step, based on a surface name dictionary, to improve the results returned by any tool that identifies mentions in text. Experiments with the HAREM Gold Collection and Gerbil, a framework that integrates a variety of state-of-the-art tools and several datasets containing real-world texts, have shown that over-segmentation (mentions of the ground truth containing one or more minor mentions identified by tools) is the most prevalent class of mismatching problems among the formalized in this work. Some of the algorithms proposed in this dissertation solved most of the cases of over-segmentation, without causing many cases of the opposite problem, sub-segmentation (i.e., mentions greater than those of the ground truth), with consequent improvements in accuracy and coverage. The MInT NoOver algorithm also generated F-measure gains over the entity binding results of the AGDISTIS tool.

Keywords: named entity recognition, correction of mentions, entity linking, text mining, natural-language processing.

(14)
(15)

Figura 1: Exemplo de identificação e ligação de menções. ... 24 Figura 2: Exemplo de anotação semântica. ... 30 Figura 3: Exemplo de segmentação e ligação de menções a recursos DBPedia: (a) segmentação e ligação corretas; (b) ligação incorreta devido a uma sobre-segmentação da menção... 33

Figura 4: Sobre-segmentação sem perda (a), e com perda (b). .. 43 Figura 5: Sub-segmentação com perda (a), e sem perda (b) ... 44 Figura 6: Multi-segmentação sem perda (a), e com perda (b). ... 45 Figura 7: Processo geral do método MInT. ... 47 Figura 8: Processo de comparação entre o nome de superfície e o texto vizinho da menção identificada. ... 48

Figura 9: Exemplo de sobreposição completa entre menções. ... 49 Figura 10: Exemplo de sobreposição parcial entre menções. ... 50 Figura 11: Redução dos casos de sobre-segmentação com o uso de MInT ... 66

Figura 12: Redução dos casos de sub-segmentação com o uso de

MInT ... 67

Figura 13: Ganhos em medida-F de MInT sobre o anotador Babelfy ... 70

Figura 14: Ganhos na medida-F com MInT utilizando o dicionário de nomes de superfície DP (DBPedia) ... 72

Figura 15: Ganhos de medida-F na ligação de entidades utilizando o AGDISTIS. ... 75

Figura 16: Ramos da hierarquia de classes da DBPedia levando a

Communications Commission e Federal Communications Commission.

... 78 Figura 17: Ramos dos respectivos tipos das menções Rockwell e

Rockwell, Iowa na ontologia do DBPedia. ... 79

Figura 18: Ramos das classes dos recursos ligados à menção Donny Schatz, antes (esquerda) e após (direita) a expansão de menções. ... 81

(16)
(17)

Quadro 1: Algoritmo MInT Naive ... 51 Quadro 2: Algoritmo MInT NoIn ... 53 Quadro 3: Algoritmo MInT NoOver ... 55

(18)
(19)

Tabela 1: Exemplos de inconsistências na identificação de menções ... 24

Tabela 2: Tabela comparativa de trabalhos correlatos ... 39 Tabela 3: Resumo das classificações de incompatibilidade de menções ... 45

Tabela 4: Sumário dos resultados para o Priberam REM no CD-2 do HAREM ... 63

Tabela 5: Problemas de incompatibilidade parcial com Priberam REM no CD-2 HAREM ... 64

Tabela 6: Ganhos com MInT NoIn no Priberam REM para o CD-2 do HAREM ... 64 Tabela 7: Efeitos do uso de MInT nas incidências de menções com correspondência parcial ... 68

Tabela 8: Porcentagens de reduções das menções com correspondência parcial com a aplicação de MInT ... 69

Tabela 9: Porcentagem de redução no número de menções encontradas por ferramentas de NER ao serem tratadas pelo MInT ... 73

Tabela 10: Número de menções por grupo. ... 80 Tabela 11: Menções expandidas pelo MInT – Grupo A. ... 82 Tabela 12: Menções não expandidas pelo MInT NoOver, mas que tiveram seus recursos alterados – Grupo B. ... 83

(20)
(21)

1 INTRODUÇÃO ... 23

1.1 PROBLEMA TRATADO E DELINEAMENTO DA PROPOSTA 24 1.2 OBJETIVOS ... 26 1.3 METODOLOGIA ... 26 1.4 ESTRUTURA DO TRABALHO ... 28 2 FUNDAMENTAÇÃO TEÓRICA ... 29 2.1 ANOTAÇÃO SEMÂNTICA ... 29 2.2 ENTIDADES NOMEADAS ... 30

2.3 RECONHECIMENTO DE MENÇÕES A ENTIDADES ... 31

2.4 LIGAÇÃO DE ENTIDADES ... 32

2.5 AVALIAÇÃO DO DESEMPENHO ... 33

2.5.1 HAREM ... 34

2.5.2 GERBIL ... 35

3 TRABALHOS RELACIONADOS ... 37

4 CLASSES DE INCOMPATIBILIDADE DE MENÇÕES... 41

4.1 SOBRE-SEGMENTAÇÃO... 42

4.2 SUB-SEGMENTAÇÃO ... 43

4.3 MULTI-SEGMENTAÇÃO ... 44

4.4 RESUMO DAS CLASSES DE CASAMENTO PARCIAL ... 45

4.5 CONSIDERAÇÕES FINAIS ... 46

5 O MÉTODO MINT ... 47

5.1 PROCESSO DE COMPARAÇÃO DE TEXTO ... 47

5.2 SOBREPOSIÇÕES ENVOLVENDO MENÇÕES EXPANDIDAS 49 5.3 ALGORITMOS MINT ... 50

5.3.1 MInT Naive ... 51

ALGORITMO 1 MINT NAIVE – EXPANDE MENÇÕES ... 51

(22)

5.3.3 MInT NoOver ... 55 5.4 LIMITAÇÕES DO MINT ... 57 6 EXPERIMENTOS ... 59 6.1 AMBIENTE EXPERIMENTAL ... 59 6.1.1 Ambiente computacional ... 60 6.1.2 Execução do MInT com o HAREM ... 60 6.1.3 Execução do MInT com o Gerbil ... 60 6.1.4 Execução MInT como um pré-processamento do AGDISTIS 61 6.2 RESULTADOS DO RECONHECIMENTO DE MENÇÕES ... 61 6.2.1 Priberam REM com a Coleção Dourada (CD-2) do HAREM 62 6.2.2 Anotadores e Conjuntos de Dados do Gerbil... 65 6.3 RESULTADOS DA LIGAÇÃO DE ENTIDADES ... 74 6.3.1 Ligação de Entidades com AGDISTIS ... 74 6.3.2 Expansão de menções e o impacto em suas especificidades.... 76 6.4 CONSIDERAÇÕES FINAIS ... 83 7 CONCLUSÕES E TRABALHOS FUTUROS ... 85 REFERÊNCIAS ... 89

(23)

1 INTRODUÇÃO

Atualmente, grandes volumes de texto estão disponíveis em vários sistemas computacionais, tais como bibliotecas digitais, mídias sociais e a Web em geral. Tais textos têm um grande potencial de aplicação, porém, dados textuais são considerados não estruturados para fins de processamento computacional e sua semântica pode ser vaga ou difícil de extrair automaticamente. Assim, para explorar o potencial de aplicação de dados textuais é necessário o seu enriquecimento semântico. Uma das formas de fazê-lo é identificar porções relevantes do texto e ligá-las a dados estruturados ou semi-estruturados com semântica bem definida (e.g., artigos da Wikipedia, dados ligados abertos da DBPedia1, rede semântica da Babelnet2), através de anotações

semânticas. Anotações semânticas ligam porções relevantes do texto (i.e. menções, tais como D. Trump, The Trump Organization, Trump

Tower) a dados que descrevem aquilo a que elas se referem (e.g.

recursos de dados ligados ou de redes semânticas descrevendo respectivamente uma pessoa, companhia, construção). Tais anotações ajudam a explicitar e permitem explorar significados, possibilitando assim a automatização do processamento desses dados e o uso de diversas técnicas para processá-los computacionalmente, tais como raciocínio baseado em inferência.

O reconhecimento de entidades nomeadas (Named Entity

Recognition – NER) (Ratinov, 2009) e a ligação de entidades (Entity Linking – EL) (Ratinov, 2011) são tarefas fundamentais para o

enriquecimento semântico de dados textuais, usando técnicas originadas em áreas como Processamento da Linguagem Natural (PLN), extração da informação e mineração de textos. NER visa identificar em um texto porções contíguas (menções) que se refiram a entidades (i.e., conceito ou instância de um conceito tal como pessoa, local, organização, tempo, valor monetário, etc.). EL faz a ligação de menções do texto a recursos em bases de dados ou de conhecimento que descrevem as entidades mencionadas. A desambiguação do significado correto das menções frequentemente depende do contexto em que estas se encontram.

A Figura 1 mostra uma parte de um texto (em inglês, pois a ferramenta de NER FOX não suporta o idioma Português) retirado do site CNN Money3 após a identificação de menções pela ferramenta

1 http://wiki.dbpedia.org

2 http://babelnet.org

(24)

FOX4 e ligação das menções a recursos da DBpedia pela ferramenta

AGDISTIS5. As menções reconhecidas e classificadas pela FOX NER

(delimitadas por colchetes, grifadas e em azul), The Trump Organization e Ritz-Carlton, são ligadas pelo AGDIST aos recursos da DBpedia que representam as respectivas entidades a que tais menções se referem.

NER - FOX EL - AGDISTIS

The plaintiffs claimed that when [The Trump Organization] bought the club from [ Ritz-Carlton] in 2012 …

Figura 1: Exemplo de identificação e ligação de menções. 1.1 PROBLEMA TRATADO E DELINEAMENTO DA PROPOSTA Técnicas e ferramentas do estado da arte para NER e tarefas análogas podem apresentar inconsistências na identificação de menções em textos, comprometendo tarefas posteriores, tais como EL (Sil & Yates, 2013). A Tabela 1 mostra exemplos de inconsistências na identificação de menções, os quais classificamos como sobre-segmentação, i.e., uma menção da regra ouro é segmentada por ferramentas de reconhecimento em menções menores. Supondo que a menção da primeira linha é a correta, então a linha 2 apresenta um caso de sobre-segmentação sem perda de termos6, enquanto que a linha 3 apresenta um caso de sobre-segmentação com perda de termos. Este trabalho considera termo como

qualquer sequência maximal de caracteres alfanuméricos, separada de outras por símbolos como espaços.

Tabela 1: Exemplos de inconsistências na identificação de menções [George H. W. Bush] [The Trump Organization] [George] [H.] [W.] [Bush] [The Trump] [Organization] [George] H. W. [Bush] The [Trump] [Organization]

4 http://fox-demo.aksw.org/index.html#!/demo 5 http://agdistis.aksw.org/demo/

6 Este trabalho considera um termo como sendo uma sequência de caracteres, símbolos e/ou

números em um texto. Termos são separados por espaços e/ou símbolos de pontuação ou tabulação. Um termo pode corresponder a uma palavra simples em linguagem natural ou ao menos (e.g. acrônimo, abreviação) ser usado para referenciar alguma coisa, sozinho ou com termos a ele adjacentes.

http://dbpedia.org/page/ The_Trump_Organization

http://dbpedia.org/page/The_Ritz-Carlton_Hotel_Company Carlton_Hotel_Company

(25)

Sobre-segmentação pode ser prejudicial em certos casos, pois

dificulta a correta ligação da menção a coisas específicas e corretas mencionadas. Por exemplo, sobre-segmentação em menções com nome de lugares que contêm o nome de uma pessoa (e.g. considerar apenas a menção Tom Jobim em vez de Tom Jobim Airport) pode fazer com que a menção referencie coisas diferentes (Tom Jobim, o maestro brasileiro autor da música “Garota de Ipanema”, em vez do “Aeroporto Internacional do Rio de Janeiro – Antônio Carlos Jobim”). Nos exemplos apresentados na Tabela 1, algumas menções menores (George, Bush, The Trump, Trump e Organization) podem causar problemas de desambiguação ou a erros de interpretação. Outra observação relevante é que a menção Organization, por exemplo, é mais geral que The Trump Organization e apenas a menção Trump pode fazer referência a outras coisas (e.g., jogos de carta, personagem de ficção, uma revista, alguma ilha na Antártica).

Dado o problema de inconsistência entre menções de uma regra ouro (supostamente corretas) e menções encontradas automaticamente por uma ferramenta em um mesmo texto, este trabalho considera as seguintes hipóteses:

Hipótese 1. Expandir menções retornadas por ferramentas do estado da arte em reconhecimento de menções tende a torná-las corretas segundo a regra ouro, com melhoras na precisão, cobertura e medida-F dos resultados do reconhecimento de menções.

Hipótese 2. A expansão de menções identificadas por tais ferramentas também pode:

a. Diminuir o número de menções processadas por ferramentas de EL, podendo contribuir para uma melhor eficiência de tais ferramentas.

b. Melhorar a qualidade das ligações de menções a entidades, em termos de precisão, cobertura e medida-F. c. Tornar as menções expandidas mais específicas,

permitindo assim ligá-las a recursos mais específicos em bases de informação ou de conhecimento.

Esta dissertação investiga as inconsistências, principalmente casamentos parciais, entre menções de uma regra ouro e menções identificadas por alguma ferramenta de reconhecimento. Com base em tal investigação, propõe um método para resolver uma das classes de inconsistências levantadas, definida como sobre-segmentação.

(26)

método proposto contribui para a melhoria dos resultados do reconhecimento de menções, em experimentos realizados com diversas ferramentas de reconhecimento de menções e diversas bases de dados.

O método proposto é baseado em algum dicionário de nomes de superfície das entidades e pode ser utilizado como um pós-processamento dos resultados de qualquer ferramenta de reconhecimento de menções, bem como um pré-tratamento de menções submetidas a ferramentas de EL.

1.2 OBJETIVOS

O objetivo geral deste trabalho de pesquisa é formalizar, averiguar a incidência e tratar classes de incompatibilidade entre menções identificadas por ferramentas de reconhecimento e menções de uma regra ouro, através de estudos teóricos visando a caracterização dos problemas, desenvolvimento de algoritmos para solucionar alguns deles e validação dos resultados obtidos em experimentos.

Os objetivos específicos desta dissertação são:

1. Propiciar o entendimento do estado da arte em reconhecimento de menções em texto;

2. Formalizar as classes de incompatibilidade entre menções identificadas por ferramentas e menções de uma regra ouro; 3. Realizar experimentos para verificar a prevalência das

classes de incompatibilidade definidas em dados reais; 4. Desenvolver algoritmos para o tratamento de algumas das

classes de problemas definidas neste trabalho e mais prevalentes em conjuntos de dados reais;

5. Realizar experimentos com os algoritmos desenvolvidos para aferir suas eficácias;

6. Analisar os efeitos da expansão de menções. 1.3 METODOLOGIA

A metodologia adotada para a realização deste trabalho de pesquisa consiste dos seguintes passos:

1. Levantamento bibliográfico nas áreas de processamento de linguagem natural, extração da informação e mineração de textos, mais especificamente em técnicas e ferramentas para

(27)

o reconhecimento de menções em textos e para a ligação de entidades.

2. Desenvolvimento de uma classificação formal dos problemas de incompatibilidade entre menções de uma regra ouro e menções identificadas por uma ferramenta.

3. Concepção de um método para melhorar os resultados de ferramentas de reconhecimento de menções mediante expansão de menções.

4. Desenvolvimento de variações de algoritmos para automatizar o método proposto.

5. Realização de experimentos com diversos anotadores e conjuntos de dados selecionados para avaliar a incidência das classes de problemas formalizados neste trabalho e a eficácia dos algoritmos desenvolvidos para expansão de menções. 6. Realização de experimentos para verificar o efeito da

expansão de menções na tarefa de EL e na especificidade de tais menções.

7. Escrita de artigos científicos sobre a pesquisa efetuada e publicação do mesmo em evento internacional com Qualis-CC CAPES B1;

8. Escrita da dissertação e expansão dos resultados para tentar publicação em periódico qualificado no extrato superior do Qualis-CC CAPES (A1 a B1).

No passo 1, foram levantados trabalhos na literatura com propostas de soluções para realizar o reconhecimento de menções em textos com boa precisão e cobertura. Foram encontradas propostas que utilizam técnicas baseadas em dicionários de nomes de superfície, regras e aprendizado de máquina. Foram selecionados os trabalhos com propostas que mesclam resultados de ferramentas ou combinam tarefas (e.g. NER e EL executados de maneira conjugada), as que utilizam dicionários de nomes de superfícies (as mais citadas) e as que propõem alguma classificação dos problemas de reconhecimento de menções. Com base na revisão bibliográfica foram selecionados conjuntos de dados e ferramentas disponíveis para a realização de experimentos com textos nas línguas portuguesa e inglesa. Experimentos preliminares com dados em português permitiram analisar as menções identificadas incorretamente por ferramenta do estado da arte e identificar padrões de erros, os quais possibilitaram a definição formal dos problemas de casamento parcial de menções no passo 2. Este passo possibilitou uma melhor compreensão de tais problemas e consequentemente o

(28)

desenvolvimento inicial do método proposto nesta dissertação para sanar casos de sobre-segmentação (passo 3). O método proposto foi implementado na linguagem PHP em conjunto com Shell Script Linux. O passo 4 foi realizado após a análise dos resultados iniciais do método proposto no passo 3, pois foi verificado que muitas menções ficavam sobrepostas umas às outras após a utilização do método de expansão de menções. Com isso, no passo 4 foram desenvolvidas algumas variações do algoritmo inicial como alternativas que tratam de maneiras distintas sobreposições entre menções. No passo 5 foram realizados centenas de experimentos com a utilização dos conjuntos de dados e ferramentas selecionados durante esta pesquisa para avaliar a incidência das classes propostas de problemas de casamento de menções e a efetividade dos algoritmos desenvolvidos para solucionar o problema mais recorrente, sobre-segmentação. Já no passo 6 foram realizados experimentos similares ao passo 5, mas com a ferramenta de ligação de entidades AGDISTIS (Agnostic Named Entity Disambiguation - Usbeck et al., 2014) para verificar a influência da expansão de menções realizada pela família de algoritmos MInT (Mention Increasing in Text) , propostos nesta dissertação, nos resultados da tarefa de EL e se a expansão de menções tende a torná-las mais específicas na maioria dos casos.

1.4 ESTRUTURA DO TRABALHO

O restante deste trabalho é estruturado em 6 capítulos. O capítulo 2 contém a fundamentação teórica a respeito do reconhecimento de menções em textos (NER), ligação de menções (EL) e avaliação de ferramentas de NER e EL. O capítulo 3 discute e compara os trabalhos relacionados. O capítulo 4 apresenta as definições básicas e a proposta de formalização de classes de incompatibilidade de menções. O capítulo 5 descreve a solução proposta nesta dissertação para problemas de sobre-segmentação e variações dos algoritmos propostos. O capítulo 6 relata os experimentos efetuados para validar a proposta e os resultados obtidos. Finalmente, o capítulo 7 apresenta as conclusões obtidas durante a pesquisa e enumera os trabalhos futuros.

(29)

2 FUNDAMENTAÇÃO TEÓRICA

Este capítulo apresenta as bases teóricas necessárias ao entendimento do restante deste manuscrito. Ele parte da noção geral de anotação semântica para explicar conceitos gerais tais como menções em texto (incluindo menções a entidades nomeadas, conceitos e palavras relevantes) e ligações dessas menções a recursos de diferentes bases de informação ou conhecimento. Fazemos desta forma, porque o método proposto neste trabalho pode ser usado para melhorar os resultados de diferentes ferramentas para identificação de menções de diversos tipos em texto, e visa também melhorar os resultados da tarefa posterior de ligação de menções a recursos que descrevam a que elas se referem, independentemente da fonte de tais recursos.

2.1 ANOTAÇÃO SEMÂNTICA

Uma anotação semântica associa um objeto ou porção de tal objeto (alvo) a um recurso descrevendo alguma entidade (e.g., conceito, instância de conceito, palavra com significado bem definido) em uma base de informação ou conhecimento (Kiryakov, 2004). Uma anotação semântica pode associar um documento ou um trecho relevante do mesmo (e.g. uma menção textual a uma entidade) a um recurso descrito em uma ontologia, coleção de dados ligados (e.g. DBPedia7), base de

dados léxicos (e.g. WordNet8) ou quaisquer composições destes em uma

rede semântica (e.g. Babelnet9). Anotações semânticas de textos de

documentos podem adicionar informações sobre o significado do documento como um todo ou de seus elementos relevantes (Rodrigues-Rocha, 2015). O principal objetivo das anotações é descrever coisas relevantes e expandir os métodos de acesso às informações contidas nos conteúdos dos documentos e também possibilitar novos métodos de acesso e de processamento do conteúdo.

A Figura 2 mostra a porção de texto “Madrigal e a Orquestra de Câmara” anotada com a informação que indica se tratar de um grupo musical pertencente à Universidade Federal de Santa Catarina e com sede em Florianópolis. As anotações são importantes, pois possibilitam pesquisar documentos através de critérios previamente definidos. Por exemplo, ao buscar documentos que possuem relação com a cidade de

7http://wiki.dbpedia.org/

8https://wordnet.princeton.edu/ 9http://babelnet.org/

(30)

Florianópolis ou que referenciam grupos musicais, documentos com a anotação da Figura 2 serão selecionados.

O Madrigal e a Orquestra de Câmara trazem ao público seu repertório de músicas populares e eruditas, brasileiras e estrangeiras, trabalhadas durante o semestre.

Figura 2: Exemplo de anotação semântica.

A anotação semântica pode ser realizada das seguintes maneiras: (Kogut, 2001)

Manual: o usuário faz a anotação associando partes do texto com ontologias utilizando ferramentas.

Automática: são utilizadas ferramentas que realizam a anotação com base na comparação de padrões de anotações existentes em outros documentos, geralmente utilizam técnicas de aprendizagem de máquina, regras e dicionários.

Semi-automática: é a junção das formas anteriores, mas é necessária a intervenção do usuário em alguma etapa na criação de ontologias e/ou anotação.

Este trabalho possui foco em técnicas que auxiliam nas anotações semânticas automáticas e semi-automáticas, tais como o processamento de linguagem natural (PLN), aprendizado de máquina e extração de informação. As principais tarefas utilizadas por essas ferramentas são o Reconhecimento de Entidades Nomeadas (Named Entity Recognition -

NER) e Ligação de Entidades (Entity Linking - EL) a bases de

conhecimento e/ou informações. (Popov, 2003)

Entidades nomeadas constituem uma parte importante na semântica de um documento em que são mencionadas. A associação de tais entidades a suas descrições formais em bases de conhecimento, possibilitam mais semânticas e conectividades na web. (Kiryakov, 2004) As tarefas para a identificação e ligamento de menções de um texto a recursos em bases de conhecimento e/ou informações serão apresentados nas próxima subseções.

2.2 ENTIDADES NOMEADAS

O termo “Entidade Nomeada” é usado na área de recuperação de informação para se referir a algo do mundo real ou imaginário,

- Grupo Musical

- Pertence a Universidade Federal de Santa Catarina

(31)

geralmente uma instância de conceito (GRISHMAN & SUNDHEIM, 1996). Uma entidade nomeada pode ser referenciada em textos através de algum dos seus nomes de superfície (sequência de um ou mais termos) escritos em linguagem natural (Färber, 2016). Uma entidade nomeada pode ter diversos nomes de superfície alternativos. Por exemplo, pode-se referenciar Florianópolis (capital de Santa Catarina) utilizando os nomes de superfície: “Florianópolis”, “capital de Santa

Catarina”, “Florianópolis (capital de Santa Catarina)”, “Ilha da Magia”, “Floripa”, “Fpolis”, “Nossa Senhora do Desterro”, “Desterro”, etc. A ocorrência de um nome de superfície em um texto de

linguagem natural é chamada menção. O contexto (e.g. textual) em torno de uma menção pode auxiliar na tarefa de associá-la corretamente a uma entidade nomeada.

2.3 RECONHECIMENTO DE MENÇÕES A ENTIDADES

O Reconhecimento de Entidades Nomeadas (Named Entity

Recognition - NER) é a tarefa de identificar menções a entidades

nomeadas em textos. Tais entidades podem ainda ser classificadas em uma categoria específica, tal como Organização, Pessoa, Local, entre outras (Mota, 2007; Mota 2008). NER é uma tarefa fundamental na Extração de Informações (Jing, 2012), pois possibilita que tarefas posteriores possam ser utilizadas com eficiência, tal como a Ligação e Desambiguação de Entidades Nomeadas.

Existem várias abordagens na literatura para a realização de NER, mas as mais comuns são baseadas em dicionário, regras e aprendizado de máquina. Na abordagem de dicionário são reconhecidos no texto nomes de superfície presentes em um dicionário, por exemplo, identificar menções a pessoas utilizando uma lista com a compilação de todos os nomes conhecidos. Esta abordagem pode utilizar dois tipos de métodos para a identificação de uma menção: casamento (matching) exato (Mihalcea, 2007), em que o conteúdo textual da menção deve ter uma correspondência exata com o conteúdo textual do nome de superfície no dicionário; e casamento aproximado (Li, 2010), no qual basta que a comparação entre a menção e o nome de superfície atenda a uma medida de proximidade/similaridade, como por exemplo edit

distance (Levenshtein distance).

A abordagem baseada em regras (CARDOSO, 2008), usa regras feitas por um especialista na linguagem alvo para detectar entidades em textos naquela linguagem. Um exemplo de tais regras é coletar termos

(32)

seguidos pela palavra “Ltda”, a fim de identificar menções a entidades do tipo Organização.

Aprendizado de máquina (Sil & Yates, 2013; Luo, 2014; Speck, 2014a; Plu, 2015) é atualmente a abordagem mais frequente em NER, e pode ser utilizada com métodos supervisionados, não supervisionados ou semi supervisionados. Métodos supervisionados utilizam corpus anotado e validado por humanos para treinamento e teste de um classificador (CRF, MMEM, etc) que, com base em características extraídas dos dados (do inglês features) e correlações destas com as anotações do conjunto de treinamento, realiza predições que permitem derivar novas anotações em novos dados de entrada.

Métodos supervisionados geralmente demandam uma grande quantidade de documentos anotados, o que não é fácil de se obter. Assim, pode ser utilizado algum método semi supervisionado, o qual com um pequeno conjunto de documentos anotados, aprende um modelo inicial que pode ser aperfeiçoado conforme são fornecidos novos documentos para anotação. Os métodos não supervisionados dispensa a utilização de documentos anotados, pois usam técnicas como clusterização (e.g. K-Means).

2.4 LIGAÇÃO DE ENTIDADES

Uma vez identificadas todas as entidades referenciadas em um documento, é preciso associá-las a recursos externos que possam oferecer suas descrições formais, tais como descrições de conceitos e instâncias em coleções de dados ligados como DBPedia, Wikipedia e Freebase. Tal tarefa é denominada Ligação de Entidades (Entity Linking

- EL), e pode ser dividida em três etapas: (Shen, 2015)

Geração de uma lista de entidades candidatas: para cada menção, é criada uma lista de todas as possíveis entidades a que tal menção possa se referir.

Ranqueamento das entidades candidatas: nos casos onde há mais de uma entidade candidata para uma menção, tais entidade são ordenadas segundo critérios como, por exemplo, maior popularidade ou maior afinidade com o contexto da menção.

Predição de entidades sem associação de recurso: utiliza-se a ordenação de entidades candidatas produzida na etapa anterior para selecionar a entidade supostamente

(33)

correta, ou um recurso vazio (nulo), caso não haja entidades candidatas ou não seja possível desambiguar. NER pode influenciar EL e vice-versa (Sil & Yates, 2013), embora didaticamente tais tarefas sejam consideradas em separado. Uma menção não demarcada corretamente no texto pode ocasionar uma associação a uma entidade nomeada incorreta ou imprecisa.

A Figura 3 mostra um exemplo hipotético de reconhecimento de uma menção em um texto de noticiário10 e ligação de tal menção a um

recurso da DBPedia. Considerando que menção “Organização Trump” realçada em negrito na Figura 3 (a) é correta, ela é associada ao recurso da DBPedia que descreve a Organização Trump. Todavia, na Figura 3 (b) a menção identificada é apenas o segmento de texto “Trump”, fazendo a ferramenta de EL associá-la ao recurso da DBPedia que descreve a pessoa Donald Trump.

[Organização Trump] diz que plano de ética lançado pelo presidente é difícil de cumprir.

Organização [Trump] diz que plano de ética lançado pelo presidente é difícil de cumprir.

(a) (b)

Figura 3: Exemplo de segmentação e ligação de menções a recursos DBPedia: (a) segmentação e ligação corretas; (b) ligação incorreta

devido a uma sobre-segmentação da menção.

Portanto, é muito importante que ferramentas de NER realizem a identificação correta de menções em documentos, senão podem prejudicar a eficácia de ferramentas de EL.

2.5 AVALIAÇÃO DO DESEMPENHO

A avaliação do desempenho das técnicas e ferramentas para NER usualmente se faz com aferição do tempo de execução e medidas como precisão, cobertura e a média harmônica F (Mota, 2007). Seja 𝐼 o conjunto de menções retornadas por uma ferramenta, 𝐼𝑐 ⊆ 𝐼 o conjunto de menções corretamente identificadas e 𝐺𝑇 o conjunto de menções da

10 https://noticias.uol.com.br/midiaglobal/nytimes/2017/05/27/organizacao-trump-diz-que-plano-de-etica-lancado-pelo-presidente-e-dificil-de-cumprir.htm http://pt.dbpedia.org/page/Donald_Tr ump http://dbpedia.org/page/The_Trump_O rganization

(34)

regra ouro. Calcularmos precisão, cobertura e medida F com as seguintes fórmulas:

𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 =|𝐼𝑐||I| 𝐶𝑜𝑏𝑒𝑟𝑡𝑢𝑟𝑎 =|𝐺𝑇||𝐼𝑐|

𝑀𝑒𝑑𝑖𝑑𝑎𝐹 =2 × 𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 × 𝐶𝑜𝑏𝑒𝑟𝑡𝑢𝑟𝑎𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝐶𝑜𝑏𝑒𝑟𝑡𝑢𝑟𝑎

Na literatura há diversos trabalhos com diferentes propostas de técnicas e ferramentas para a identificação de menções a entidades nomeadas em documentos, bem como formas de melhorar a eficiência e a eficácia de tais propostas, seja através de combinações (Sil, 2013; Plu, 2015) ou modificação de existentes (Li, 2010; Deng, 2015). A comparação de tais trabalhos muitas vezes fica comprometida mesmo usando as medidas acima, porque diversas propostas apresentam apenas a sua própria avaliação com um conjunto de dados próprio, o que não garante uma comparação justa e imparcial. Para Santos (1999), isso cria um obstáculo no progresso do processamento computacional da linguagem no idioma português.

A partir da necessidade de comparar os resultados de ferramentas de identificação de entidades nomeadas, surgiram diversos trabalhos propondo benchmarks (Cornolti, 2013; Usbeck, 2015; Rizzo, 2012), com dados, regras ouro, critérios (e.g. para considerar menções corretas) e terminologia (e.g. nomes de tarefas formalmente especificadas) unificados, visando possibilitar a avaliação de tais ferramentas de forma justa e imparcial.

Existem vários trabalhos que utilizam corpus de vários idiomas em seus experimentos. Nesta dissertação foram utilizados diversos benchmarks com corpus e regra outro no idioma inglês disponíveis no

framework Gerbil e a Coleção Dourada (CD-II) do segundo HAREM

(evento ocorrido no ano de 2008), por ser um dos melhores e mais usados benchmarks para NER em língua portuguesa (Santos, 2007; Santos, 2009). O HAREM e o Gerbil são descritos em mais detalhes a seguir.

2.5.1 HAREM

HAREM (Avaliação de Reconhecedores de Entidades Mencionadas) é um evento que tem como objetivo a avaliação conjunta de ferramentas de extração de entidades mencionadas em documentos

(35)

da língua portuguesa. O evento foi organizado pela Linguateca, que teve como inspiração o evento internacional MUC (do inglês Message

Understanding Conference) (Santos, 2007). A Coleção Dourada do

segundo Harem (CD-II) possui 466.355 palavras e foi criada a partir de textos jornalísticos, literários, políticos, textos da Web e textos transcritos de entrevistas. Todos os textos presentes na CD-II tiveram suas menções anotadas e conferidas por humanos, para que as anotações sirvam como regra ouro.

Participaram do segundo HAREM em 2008 um total de 10 ferramentas: Cage2, DobrEM, PorTExTO, Priberam REM, R3M, REMDBRAMDT, REMMA, SEIGeo, SeRELep e XIP-L2F/Xerox. Destas o Priberam REM foi a que obteve o melhor resultado na identificação de menções a entidades das categorias Local, Pessoa,

Organização, Acontecimento, Abstração, Obra e Outras. Por isso

utilizados os seus resultados (anotações no corpus do evento) para os experimentos realizados neste trabalho.

2.5.2 GERBIL

Gerbil é um framework de código aberto para a avaliação de ferramentas de anotação semântica de entidades. Ele é baseado em serviços Web e oferece uma interface intuitiva e de fácil usabilidade, possibilitando ao usuário a configuração de diversos experimentos com várias combinações de anotadores de textos e conjuntos de dados (Usbeck, 2015). O Gerbil utiliza um sistema de medição universal para análise de desempenho das ferramentas, permitindo a comparação de dos resultados de diversas ferramentas do estado da arte. Também é possível utilizar qualquer ferramenta de anotação com suporte a Web services em REST e troca de dados no formato NIF.

O Gerbil atualmente integra 9 ferramentas de anotação semântica, 11 corpora e possibilita a execução de até 6 tipos de experimentos, correspondendo a diferentes tarefas de anotação de textos. Também podem ser utilizadas outras ferramentas e corpora configurados pelo usuário. Gerbil oferece os seguintes recursos:

Integração de anotadores semânticos: ferramentas de anotação podem ser avaliadas usando Gerbil desde que ofereçam suporte a interface REST.

(36)

Integração de conjuntos de dados: outros conjuntos de dados podem ser utilizados via serviço de dados, tal como DataHub11.

Adição de novas medidas: devido à implementação de medidas ser via interfaces, é possível estendê-las para novos tipos de medidas (e.g. tempo de execução).

Extensível: membros da comunidade podem estender as funcionalidades do Gerbil, pois é um projeto de código aberto.

Diagnósticos: desenvolvedores podem utilizar Gerbil para verificar em quais aspectos suas ferramentas precisam ser melhoradas.

Portabilidade de resultados: os resultados apresentados pelo Gerbil podem ser exportados para formatos legíveis tanto para humanos quanto para máquinas.

Esses recursos permitem que o Gerbil possa ser utilizado por usuários finais e também por desenvolvedores de ferramentas.

11 http://datahub.io

(37)

3 TRABALHOS RELACIONADOS

Os parâmetros utilizados para comparar a proposta desta dissertação com trabalhos da literatura foram:

1. Classificação de problemas de identificação parcial de menções por ferramentas de reconhecimento;

2. Proposta de solução para problemas de identificação parcial de menções por ferramentas de reconhecimento; 3. Melhoramento dos resultados de ferramentas de NER/EL

no processo de identificação de menções.

A Tabela 2 compara a proposta deste trabalho com as encontradas na literatura. Cornoli (2013) e mais tarde Roder (2017) propuseram considerar menções com correspondência parcial para a avaliação de ferramentas de anotação semântica. No entanto esta proposta apenas relaxa os critérios de correspondência, pois é contabilizada as menções identificadas pela ferramenta que possuem algum termo em comum com menções da regra ouro

Sil & Yates (2013) fazem um esboço de uma classificação informal de problemas de correspondência parcial de menções utilizando apenas exemplos, mas não cobrem todas as possibilidades de correspondência entre menções. A falta de uma classificação formal para o problema dificulta sua compreensão e uso prático. Tal trabalho propõe ainda um método que utiliza um conjunto de menções identificadas por uma ferramenta de NER e um conjunto de nomes de superfície selecionados via EL para realizar um ranqueamento de pares de menção e nome de superfície, produzindo um modelo para a predição conjunta. Luo (2015) considera a dependência mútua entre NER e EL, na qual a decisão de ligação de entidade realizada em EL influencia a identificação de menções em NER. Nguyen (2016) também combinam NER e EL usando um modelo gráfico probabilístico para identificar menções, definir seus tipos e daí mapear as menções a uma base de conhecimento.

Métodos baseados em dicionário são utilizados para comparar sub-strings de um texto (menções candidatas) com strings de um dicionário. Ferramentas que reconhecem e ligam menções a recursos do DBPedia, tal como Wikify (Mihalcea, 2007) e DBPedia-Spotlight (Mendes, 2011), utilizam o método baseado em dicionário. Embora essas ferramentas usem uma estratégia de comparação em que são selecionadas menções candidatas de maior tamanho, podem ocorrer casos de sobre-segmentação.

(38)

Há também métodos que combinam NER, PoS-Tagging e dicionário de nomes de superfície para melhorar o reconhecimento e a classificação de menções em textos. Chiu (2014) explora o técnica

longest strategy em um método que combina um dicionário com as

ferramentas DBPedia Spotlight e TAGME. Entretanto, o custo computacional de tal estratégia pode ser alto, pois o texto deve ser percorrido inteiramente por todas as ferramentas envolvidas. Gamallo & Garcia (2011) propõem um método que recebe uma lista de menções candidatas identificadas com o auxílio de uma ferramenta de PoS-Tagging e utiliza um dicionário, criado a partir da Wikipedia, para realizar a classificação dessas menções em categorias, tal como pessoa e organização. Entretanto, eles não consideram os problemas de incompatibilidade de menções.

Medidas de similaridade de texto são utilizadas para gerar menções candidatas com a comparação de partes do texto com nomes de superfície presentes em um dicionário. O método proposto por Li (2010) extrai n-gramas do texto e os compara com strings do dicionário usando a medida de similaridade edit distance. Então, ele seleciona a string similar de maior tamanho. Deng (2015) estendem a proposta de Li (2010) para construir um framework unificado que suporta diversas medidas de similaridade (edit distance, token distance, etc.) para comparar n-gramas de um texto com nomes de superfície em um dicionário.

Plu (2015) propõe um método com três pipelines executados sobre o texto. O pipeline 1 seleciona nomes próprios, o pipeline 2 usa a ferramenta Stanford NER para reconhecer entidades nomeadas e o pipeline 3 combina os resultados dos pipelines anteriores. Apesar de tal método tratar parcialmente menções sobrepostas, termos não contidos nas menções identificadas pelos pipelines anteriores são descartados, impossibilitando assim o aumento de menções. O framework FOX (Speck, 2014) aplica ensemble learning para combinar os resultados de algumas das ferramentas mais conceituadas para reconhecimento de menções atualmente, e utiliza o AGDISTIS 2 (Usbeck (2014) para desambiguar entidades em recursos de banco de dados e alcançar maiores valores de precisão e cobertura. Contudo, o resultado final pode conter casos de sobre-segmentação.

(39)

Tabela 2: Tabela comparativa de trabalhos correlatos Trabalho Cassifica menções parciais? Resolve menções parciais? Melhorar resultados de ferramentas NER/EL? Mihalcea (2007) - Wikify No No No Li (2010) No No No

Gamallo & Garcia (2011)

No No No

Mendes (2011) - DBPedia Spotlight

No No No

Sil & Yates (2013) - NEREL

* Yes * Yes Yes

Cornoli (2013) No No No Luo (2014) - JERL No No No Chiu (2014) No No Yes Speck (2014a) - FOX No No Yes Deng (2015) No No No Plu (2015) No No Yes Roder (2017) No No No De Abreu (2017) - MInT

Yes Yes Yes

* Classificação informal baseada apenas em exemplos, sem formalização.

A proposta desta dissertação contribui com a classificação formal das classes de incompatibilidade parcial de menções, propiciando um melhor entendimento e diagnóstico desses problemas, e permitindo vislumbrar soluções baseadas em aumento do tamanho de menções. O método proposto corrige menções apenas realizando comparações entre as menções identificadas por uma ferramenta e nomes de superfície presentes em um dicionário. Tal comparação usa apenas uma pequena porção do texto em volta da menção identificada em ferramentas de NER. O tamanho da porção de texto é calculado dinamicamente de acordo com o nome de superfície do dicionário que contém a menção a ser corrigida. Isto é um diferencial da proposta deste trabalho com relação a muitas propostas baseadas em dicionários da literatura sobre

(40)

NER, pois não é percorrido todo o texto do documento no processo de comparação.

(41)

4 CLASSES DE INCOMPATIBILIDADE DE MENÇÕES

Este capítulo apresenta as definições formais para as classes de incompatibilidade entre menções de uma regra ouro e menções identificadas por uma ferramenta de reconhecimento de menções. Primeiramente, são apresentadas as classes mais gerais de casamento de menções (compatibilidade total, compatibilidade parcial e incompatibilidade) e definições relacionadas. Posteriormente, em subseções separadas, são formalmente descritas e exemplificadas as subclasses de compatibilidade parcial de menções definidas e usadas neste trabalho.

Sejam GT (Ground True) um conjunto de menções validadas em um texto T e I um conjunto de menções encontradas por um método ou ferramenta em T. Dadas duas menções GTMi ∈ GT e IMj ∈ I, a

comparação entre GTMi e IMj, pode resultar em:

Correspondência exata: se ambas as menções IMj e GTMi se referem exatamente à mesma porção de T.

Correspondência parcial: se as menções IMj e GTMi não possuem correspondência exata, mas compartilham (têm em comum) pelo menos um termo em T.

Nenhuma correspondência: se as menções IMj e GTMi não têm qualquer porção do texto T em comum.

Com base nisso, os possíveis fenômenos de correspondência entre menções da regra ouro (GTMi ∈ GT) e menções retornadas por

uma ferramenta (IMj ∈ I) podem ser primeiramente classificados como

estabelecido pelas Definições 3.1 a 3.4.

Definição 3.1 – Menção não reconhecida (do inglês

Unmatched Mention): Menção não identificada é uma GTMi ∈ GT que

não corresponde a menção alguma em I.

Definição 3.2 – Menção Espúria (do inglês Spurious Mention): Menção espúria é uma menção IMi ∈ I que não corresponde a menção

alguma em GT.

Definição 3.3 – Menção correta (do inglês Correct Mention): Menção corretamente identificada é uma menção IMj ∈ I que corresponde exatamente a alguma menção de GTMi ∈ GT (IMj = GTMi).

(42)

Definição 3.4 – Menção identificada parcialmente (do inglês

Partially Matched Mention): Menção com correspondência parcial é

uma menção IMj ∈ I que sobrepõe parcialmente a menção GTMi ∈ GT

(IMj ⨅ GTMi ≠ 𝜀, IMj ≠GTMi)12.

Menções espúrias comprometem a precisão, enquanto menções não identificadas comprometem a cobertura. A subseções a seguir descrevem as subclasses de problemas de correspondência parcial (menções identificadas parcialmente) entre menções GTMi ∈ GT (da regra ouro) e IMj ∈ I (retornadas por ferramenta de software). Essas classes de casamento parcial de menções têm como base os exemplos apresentados em Sil & Yates (2013), que só as descrevem informalmente, através de tais exemplos. Entretanto, nós não visamos compatibilidade perfeita com tais exemplos e as definições formais , ilustrações e novos exemplos a seguir são contribuições deste trabalho.

4.1 SOBRE-SEGMENTAÇÃO

Sobre-segmentação ocorre quando uma menção GTMi da regra ouro é segmentada em uma ou mais menções identificadas por uma ferramenta em T. Definição 3.1 define formalmente este fenômeno.

Definição 3.1 (Sobre-segmentação): dados dois conjuntos de menções GT e I, em um mesmo texto T, uma menção GTMi ∈ GT é sobre-segmentada se I não tem qualquer menção que corresponda

perfeitamente com a menção de GTMi, mas tem um subconjunto de

menções I’ ⊆I (|I´| ≥ 1) tal que IMj ⊏GTMi para todo IMj ∈ I´.

A Figura 4 ilustra casos de sobre-segmentação e suas subclasses, denominadas de sobre-segmentação sem perda e sobre-segmentação com perda. Sobre-segmentação sem perda (Figura 4 (a)) ocorre quando a concatenação das menções em I´ (as que se sobrepõem parcialmente com GTMi) é igual a GTMi. Em sobre-segmentação com perda, por

outro lado, a composição das menções em I´ deixa uma ou mais lacunas, i.e., porções de GTMi não contidas em nenhuma das menções em I´.

12 Neste trabalho, os operadores de cantos quadrados para os predicados de contenção (⊏, ⊐, ⊑, ⊒

, ⋢), interseção (⊓) e composição (⊔) se aplicam a porções do texto T que constituem as menções usadas como argumentos desses operadores. Note que menções são determinadas por seus limites (posição inicial e final) em T, e não somente pelo conteúdo textual (substring) dentro desses limite em T. O mesmo conteúdo textual (e.g. “Floripa”) pode ocorrer em porções distintas de T, sendo cada ocorrência em porção diferente de T uma menção distinta.

(43)

Figura 4: Sobre-segmentação sem perda (a), e com perda (b).

Exemplo 3.1: A segmentação da menção [George H. W. Bush] nas

menções [George], [H.], [W.], e [Bush] constitui um caso de

sobre-segmentação sem perda, mas se a sobre-segmentação resultasse nas menções [George] e [Bush], a composição de tais menções constituiria um caso

de sobre-segmentação com perda, já que deixaria uma lacuna nos termos H. e W. Analogamente, considerando a menção completa [US

Defense Department], as menções [US] e [Defense Department],

constituem um caso de sobre-segmentação sem perda, mas apenas a menção [US] (com um termo) constitui um caso de sobre-segmentação com perda.

4.2 SUB-SEGMENTAÇÃO

Sub-segmentação ocorre quando o conjunto de menções I

(retornado por uma ferramenta de reconhecimento) apenas possui menções que se sobrepõem parcialmente com GTMi e que porções

inclusas do texto T não estão incluídas em GTMi. Este fenômeno é

formalizado pela Definição 3.2.

Definição 3.2 (Sub-segmentação): dados dois conjuntos de menções GT e I, em um mesmo texto T, uma menção GTMi ∈ GT é sub-segmentada se I não tem qualquer menção que corresponda

perfeitamente com GTMi, mas tem um subconjunto de menções I’ ⊆I

(|I´| ≥ 1) tal que IMj ⋢ GTMi e IMj ⊓ GTMi ≠ ∅ para todo IMj ∈I´.

A Figura 5 ilustra casos de sub-segmentação e suas subclasses.

Sub-segmentação sem perda (Figura 5 (a)) não há lacunas, enquanto que sub-segmentação com perda (Figura 5 (b)) sim. Em outras palavras, em sub-segmentação sem perda a composição dos segmentos em I´ cobre

completamente GTMi enquanto que em sub-segmentação com perda,

(44)

alguns termos de GTMi não aparecem em qualquer uma das menções em I´.

Figura 5: Sub-segmentação com perda (a), e sem perda (b)

Exemplo 3.2: Uma ferramenta reconheceu a menção de um endereço em

Português, [Av. Auro Soares de Moura Andrade, 664], enquanto que na regra ouro esta menção se refere ao nome da avenida [Av. Auro Soares

de Moura Andrade]. Isto caracteriza um caso de sub-segmentação sem

perda. Observando que a menção sub-segmentação se refere a uma coisa mais específica que a menção da regra ouro neste caso. Por outro lado, se a menção retornada fosse [Auro Soares de Moura Andrade, 664], seria caracterizado um caso de sub-segmentação com perda, pois apesar da presença do número da avenida, o termo Av. (avenida), presente na menção da regra ouro, foi descartada.

4.3 MULTI-SEGMENTAÇÃO

Multi-segmentação é apenas a mistura dos casos anteriores, pois

ocorrem pelo menos um caso de sobre-segmentação e um caso de

sub-segmentação simultaneamente com a mesma GTMi da regra ouro GT. A Figura 6 (a) e (b) ilustra alguns casos de multi-segmentação sem perda e com perda, respectivamente.

(45)

Figura 6: Multi-segmentação sem perda (a), e com perda (b).

Exemplo 3.3: Embora a regra ouro para o texto em Português Nobel de Literatura Octavio Paz considere apenas a menção [Nobel de Literatura], uma ferramenta retornou as menções [Nobel] e [Literatura Octavio Paz]. Assim é caracterizado um caso de multi-segmentação

com perda, pois é envolvido o caso de sobre-segmentação da regra ouro ([Nobel]), e o caso de sub-segmentação ([Literatura Octavio Paz]), e uma lacuna (a ausência da preposição de nos resultados retornados pela ferramenta). Observe que, mais uma vez neste caso, a menção de maior tamanho [Nobel de Literatura Octavio Paz] deve referenciar uma coisa mais exata e específica, apesar de menor na regra ouro e menções menores retornadas pela ferramenta.

4.4 RESUMO DAS CLASSES DE CASAMENTO PARCIAL

A Tabela 3 resume as classes de incompatibilidade de menções envolvendo correspondência parcial entre uma menção da regra ouro

GTMi e menções retornadas por alguma ferramenta em um mesmo texto T, tendo cada uma denotada por IMj ∈ I. Ela apresenta, na coluna da

direita, a regra que define a respectiva classe na coluna da esquerda. Relembrando que I’ denota um sub-conjunto de menções de I que possuem correspondência parcial (intersecta) com GTMi.

Tabela 3: Resumo das classificações de incompatibilidade de menções

Classe Regra Sobre-segmentação Com perda Sem perda IMj ⊏ GTMi ⨆ IMj ∈I´ ⊏ GTMi ⨆IMj ∈I´ = GTMi

(46)

Sub-segmentação Com perda Sem perda IMj ⋢ GTMi , IMj ⊓ GTMi ≠ ∅ ⨆ IMj ∈I´ ⋣ GTMi ⨆ IMj ∈I´ ⊐ GTMi 4.5 CONSIDERAÇÕES FINAIS

As classes de problemas de compatibilidade parcial de menções propostas nesta dissertação se baseiam nos erros comuns na identificação de menções em texto por ferramentas de reconhecimento de menções. Na pesquisa realizada durante este trabalho foi encontrado apenas um trabalho (Sil, 2013) que faz uma breve apresentação de alguns problemas de compatibilidade parcial de menções, baseado em exemplos, mas sem qualquer definição formal e não englobando alguns tipos de erros de identificação de menções. A maioria dos trabalhos encontrados na literatura apenas avaliam as ferramentas de reconhecimento de menções, utilizando as medidas de precisão, cobertura e medida-F. Isso limita o diagnóstico dos problemas de tais ferramentas, uma vez que essas medidas clássicas de desempenho não permite avaliar em detalhes os tipos de erros de reconhecimento de menções que a ferramenta está ocasionando. Por exemplo, o alto número de sobre-segmentações (uma das classes de problemas de compatibilidade parcial de menções definidas neste trabalho), sugere que a ferramenta não está delimitando corretamente menções de tamanhos maiores ou que sua estratégia para a seleção de menções sobrepostas não esteja adequada.

As classes de compatibilidade parcial de menções foram definidas de acordo com a identificação de padrões nos erros de reconhecimento de menções em alguns conjuntos de dados (HAREM, ACE2004, etc.) por algumas ferramentas (Priberam NER, AIDA, DBPedia-Spotlight, etc.), e especificamente para textos em inglês e português. Assim, uma análise de dados em outras línguas, pode sugerir a criação de novas classes.

(47)

5 O MÉTODO MINT

Este capítulo apresenta o que consideramos a principal contribuição desta dissertação, o método MInT (Mention Increasing in

Text) para resolver casos de sobre-segmentação mediante expansão de

menções para conteúdos textuais a elas adjacentes. O método MInT é constituído por uma família de algoritmos alternativos para a expansão de menções. Os algoritmos propostos neste trabalho se apoiam em nomes de superfície presentes em dicionários para orientar e definir os limites da expansão de menções.

A Figura 7 ilustra o processo geral em que os Algoritmos MInT são empregados. Um algoritmo MInT recebe como entradas uma lista de menções identificadas por uma ferramenta de reconhecimento, além do texto onde tais menções foram encontradas. Os algoritmos MInT que desenvolvemos até agora também requerem um dicionário representado pelo tambor à direita da Figura 7, no qual estão os nomes de superfície conhecidos das entidades que se deseja identificar, ordenados decrescentemente por seus tamanhos. Os algoritmos MInT buscam no dicionário pelos maiores nomes de superfície que contenham o texto de cada menção identificada, para maximizar a porção de texto no entorno da menção que casa exatamente com o nome de superfície e assim possa ser usada para expandir a menção. Este procedimento e as variações de algoritmos MInT são detalhados a seguir.

Figura 7: Processo geral do método MInT.

5.1 PROCESSO DE COMPARAÇÃO DE TEXTO

O processo de comparação de cada menção com o texto no seu entorno, visando a expansão da mesma, procura casar o maior nome de

(48)

superfície contendo o texto da menção com o texto no entorno de tal menção. O tamanho da região textual em torno da menção que é usada para expansão desta é a diferença c entre os tamanhos do nome de superfície (nsk) e da menção identificada (imj). O MInT procura

maximizar nsk ≥ imj e consequentemente c = nsk - imj.

A Figura 8 mostra a comparação realizada entre o texto em torno da menção “São Sebastião” e os nomes de superfície “São Sebastião da Barra” e “São Sebastião do Caí”. O nome de superfície “São Sebastião do Caí” possui correspondência exata com o texto em torno da menção identificada. Assim a menção é expandida para “São Sebastião do Caí”.

Para realizar o cálculo do tamanho da região textual em torno de cada menção é calculada a diferença entre o tamanho do nome de superfície nsk = “São Sebastião do Caí”, que possui 20 caracteres

incluindo espaços, e a menção imj = “São Sebastião” com 13 caracteres,

o que resulta numa diferença c de 7 caracteres. Assim, a região textual utilizada no processo de comparação contém, além da menção, os 7 caracteres anteriores e posteriores à menção no texto. Logo, se o nome de superfície “São Sebastião do Caí” estiver presente na porção de texto “tro de São Sebastião do Caí”, este é selecionado e o processo é finalizado, pois tal nome de superfície já é o maior encontrado no dicionário e que está presente na região textual utilizada na comparação.

Figura 8: Processo de comparação entre o nome de superfície e o texto vizinho da menção identificada.

Apesar de haver outros trabalhos na literatura que utilizam a abordagem de dicionário (Li, 2010; Deng, 2015), o método MInT se diferencia principalmente por não necessitar varrer todo o texto do documento e sim apenas regiões de texto em torno de menções limitadas ao tamanho c a partir de cada borda da menção sendo expandida.

(49)

5.2 SOBREPOSIÇÕES ENVOLVENDO MENÇÕES EXPANDIDAS O método MInT pode ocasionar sobreposições completas e/ou parciais entre menções após expandi-las. É comum isso ocorrer principalmente ao resolver casos de sobre-segmentação, já que menções próximas geralmente são aumentadas para uma mesma menção de maior tamanho.

A sobreposição completa ocorre quando uma ou mais menções fica(m) contida em uma menção expandida, em termos de suas posições iniciais e finais no texto sendo anotado. Por exemplo, a Figura 9 apresenta uma frase com as menções Trump e Organization. Ambas podem ser expandidas para a menção The Trump Organization, a qual contém as primeiras, i.e., tem início anterior ou igual e final posterior ou igual ao de cada uma delas.

Figura 9: Exemplo de sobreposição completa entre menções. Fonte:http://money.cnn.com/2017/08/09/news/companies/trump-golf-jupiter-appeal/index.html

Na sobreposição parcial, as menções envolvidas possuem ao menos um termo em comum, em uma mesma posição no texto. Por exemplo, a Figura 10 apresenta uma frase em que a menção Treasury foi expandida para Treasury Secretary e a menção James Baker foi expandida para Secretary James Baker. As duas menções expandidas incluem a porção de texto com o termo Secretary, destacado com borda tracejada em vermelho, que caracteriza sua sobreposição parcial.

The plaintiffs claimed that when The [Trump] [Organization] bought the club from Ritz-Carlton in 2012, it changed the rules and terminated their "resigned" or "refundable" status.

… The Trump Organization ... … The Trump Organization ...

Referências

Documentos relacionados

De maneira sucinta, porém objetiva, este artigo, propôs dirimir possíveis controvérsias à visão do Tratado da Amizade, bem como explicitar relevantes avanços no

O Quantitative susceptibility mapping (QSM) é uma técnica não-invasiva de Imagem por Ressonância Magnética (MRI) recente que, ao mensurar a distribuição espacial de

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Trata-se, segundo Sidney Chalhoub, do predomínio da ideologia do paternalismo, entre os anos de 1850 e 1860, que se pode definir como sendo uma política de domínio na qual a

Sphaeralcea, não incluído na listagem citada acima (Bovini et al. 2010), é característico dos sistemas montanhosos mais antigos das regiões áridas e semiáridas do

A ausência de hormônios no meio de cultivo de CCOs foi suficiente para produzir a mesma quantidade de embriões que o controle contendo soro, independentemente da presença ou

In plants with replacement rhizomes, most parameters had similar effects as in plants with additional rhizome growth type; basipetal translocation had a different effect,

Colégio de Pedro Segundo, sobre as solenidades de colação de grau no Impé- rio, constitui significativo exemplo da posição que aquela instituição colegial ocupava na rede de