• Nenhum resultado encontrado

Para português, Collovini et al. (2007) publicaram Summ-it, um corpus de português do Brasil orientado à sumarização automática, cuja anotação correferencial segue as directrizes da MUC.

Do mesmo modo que em relação às ferramentas, até à realização deste trabalho não co- nhecíamos nenhum corpus com anotação correferencial para galego.

Devido à escassez de recursos para galego e português, este capítulo publica três corpora de características similares para estas duas línguas e para espanhol, que permitem conhecer o funcionamento da correferência de entidades pessoa nestas línguas, bem como avaliar sis- temas de resolução. As directrizes de anotação baseiam-se nas apresentadas em Recasens e Martí (2010).

8.3.

Sistema de anotação

A ferramenta de resolução de correferência apresentada neste trabalho (LinkPeople) está inspirada no Stanford Deterministic Coreference Resolution System (Raghunathan et al., 2010; Lee et al., 2013), utilizando uma arquitectura multi-passe que aplica sequencialmente um conjunto de módulos de resolução. Os módulos são executados começando por aqueles de maior precisão, seguindo pelos que aumentam o recall.

O sistema adiciona novos filtros baseados em informação linguística, tanto para menções catafóricas (cujo referente está mais à frente) como anafóricas (com o referente numa posição anterior): inclui um módulo de alta precisão que procura menções catafóricas de frases nomi- nais e de pronomes pessoais e elípticos. A introdução deste módulo baseia-se na afirmação de que as frases nominais finitas não são sempre anafóricas (Vieira e Poesio, 2000). Adici- onalmente, LinkPeople aplica um conjunto de restrições sintácticas no módulo de resolução pronominal, aumentando a sua precisão ao bloquear aquelas ligações que não satisfazem as restrições (Mitkov, 1998; Palomar et al., 2001; Chaves e Rino, 2007).

Arquitectura de LinkPeople

LinkPeople baseia-se em dous princípios essenciais: (i) a abordagem centrada nas enti- dades e (ii) a arquitectura multi-passe. Por um lado, a abordagem entity-centric permite que o sistema utilize todos os atributos da entidade quando uma menção é avaliada. Por outro lado, a arquitectura multi-passe enriquece a entidade (com mais atributos) em cada iteração.

126 Capítulo 8. Resolução de Correferência de Entidades Pessoa para a OIE

Quem foi1[o cantor dos Beatles]1. 2[O músico John Winston Ono Lennon]1 foi um dos fundadores

dos Beatles. Com3[Paul McCartney]2, 4[ /0]1 formou uma dupla de compositores. 5[Lennon]1 nas-

ceu em Liverpool, único filho de6[Julia]3 e7[Alfred Lennon]4. 8/9[Os pais]3/4d10[ele]1 chamaram- 11[no]1 12[John Winston Lennon]1. Em 1971,13[Lennon]1 atinge o sucesso com o álbum Imagine. 14[O músico]1foi assassinado em 1980.

Figura 8.1: Exemplo de um texto com anotação correferencial de entidades pessoa. As menções aparecem entre parênteses rectos. Os números à esquerda correspondem-se com as ids das menções, enquanto o número da direita é a id da entidade. Identificação de Menções Correferência Nominal: StringMatch NP_Cataphora PN_StMatch PN_Inclusion PN_Tokens HeadMatch Orphan_NP Correferência Pronominal: Pro_Cataphora Pronominal Pivot_Ent Saída Entrada

Figura 8.2: Arquitectura do sistema.

Assim, os passes subsequentes aproveitam a informação fornecida pelos módulos prévios de resolução de correferência.

A Figura 8.1 contém um texto com anotação correferencial de entidades pessoa. Este ex- certo é utilizado para mostrar o funcionamento do sistema. A entrada de LinkPeople necessita ser pré-processada por ferramentas de PLN, que adicionem PoS-tags, REM e análise de de- pendências. No presente trabalho, esta informação foi obtida com as diferentes ferramentas apresentadas nos capítulos anteriores.

Módulos de resolução de correferência

A Figura 8.2 resume a arquitectura do sistema, que começa no processo de identificação de menções. Depois, um conjunto de módulos de resolução nominal e pronominal é aplicado. Os módulos de maior precisão executam-se no início, enquanto os outros módulos incrementam o recall com base nos atributos extraídos nos passes anteriores.

Na primeira etapa, um módulo específico identifica as menções que referem a uma enti- dade pessoa utilizando a informação fornecida pelo etiquetador morfossintáctico e pelo REM, bem como aplicando estratégias básicas para a identificação de pronomes elípticos e de fra-

8.3. Sistema de anotação 127

ses nominais: primeiro identificam-se nomes de pessoa e frases nominais que incluam nomes de pessoa que não formem parte de uma frase preposicional (“o piloto Ayrton Senna” versus “a casa do Ayrton Senna”). Depois, procuram-se frases nominais finitas cujo núcleo possa referir a uma pessoa (por exemplo, “o cantor”). Finalmente, seleccionam-se determinantes e pronomes possessivos (singulares) e aplicam-se regras básicas de identificação de pronomes relativos, pessoais e elípticos (em posição inicial de oração e depois de frases adverbiais e preposicionais) (Ferrández e Peral, 2000). Neste ponto, cada menção pertence a uma entidade diferente. Os atributos que pode ter cada entidade são: género, número, núcleo(s) da frase nominal, núcleo(s) do nome pessoal e nome pessoal completo.

Uma vez identificadas as menções, os módulos de resolução aplicam-se de modo sequen- cial. A execução de cada passe utiliza a seguinte estratégia (excepto nalguma regra, explicada mais abaixo): as menções são percorridas desde o início do texto, e cada menção é seleccio- nadase (i) não é a primeira menção do texto e (ii) é a primeira menção da sua entidade. Uma vez seleccionada uma menção, o sistema procura menções candidatas para trás, com o fim de encontrar um antecedente apropriado (nos testes o antecedente foi procurado em todo o texto). Se se encontrar um antecedente, as menções são fusionadas na mesma entidade (partilhando desde esse momento os atributos). A seguir, a próxima menção seleccionada é avaliada.

Para além da identificação das menções, o versão actual de LinkPeople contém os seguin- tes módulos:

StringMatch (StM): este passe faz matching estrito da cadeia completa das duas men- ções (a seleccionada e a candidata). No exemplo (Figura 8.1), as menções 13 e 5 são agrupadas por este módulo.

NP_Cataphora (NP_C): este módulo verifica se a primeira menção do texto —no pri- meiro parágrafo— é uma frase nominal que não contenha um nome de pessoa. Se assim for, considera-se uma menção catafórica, e o sistema procura na seguinte oração um nome de pessoa com função de sujeito. Nesse caso, as menções são ligadas se têm concordância de género e número. As menções 1 e 2 do exemplo cumprem estes requisitos, pelo que são fusi- onadas. Note-se que, no fim deste passe, esta entidade tem como núcleos da frase nominal as palavras “cantor” e “músico”, e “John Winston Ono Lennon” como nome pessoal completo. Este módulo também encontra algumas estruturas fixas de sinonímia através de caminhos de dependências, tais como “PESSOAa, também conhecida como PESSOAb”.

128 Capítulo 8. Resolução de Correferência de Entidades Pessoa para a OIE

PN_StMatch (PN_St): nesta etapa, o sistema procura menções que partilhem o nome de pessoa completo, embora os seus núcleos sejam diferentes (ou se uma delas não tem nú- cleo). “O músico John Lennon” e “John Lennon” (caso que não está na Figura 8.1) seria um exemplo.

PN_Inclusion (PN_I): aqui, o sistema verifica se o nome próprio completo (na enti- dade) da menção seleccionada inclui o nome próprio da menção candidata (também na en- tidade), ou vice-versa. No exemplo, a menção 5 liga-se à 2 neste passe. Repare-se que a menção 7 não se agrupa à menção 5, porque o nome próprio completo da entidade a que per- tence a menção 5 é “John Winston Ono Lennon”, que não é compatível com “Alfred Lennon”. Além disso, a menção 13 não é seleccionada por este módulo porque não é a primeira menção da entidade da qual faz parte.

PN_Tokens (PN_T): este módulo separa em tokens o nome próprio completo da enti- dade a que pertence a menção seleccionada, e verifica se o nome próprio completo (na enti- dade) da menção candidata contém todos os tokens na mesma ordem, ou vice-versa (excepto algumas palavras vazias, como “Sr.”, “Jr.”, etc.). Uma vez que o par “John Winston Ono Lennon – John Winston Lennon” é compatível, as menções 12 e 5 fusionam-se.

HeadMatch (HM): nesta etapa, o sistema verifica se a menção seleccionada e a candi- data partilham os núcleos (ou os núcleos das entidades a que pertencem). Na Figura 8.1, a menção 14 liga-se à menção 13.

Orphan_NP (Orph): este último módulo de resolução de correferência nominal aplica regras baseadas em resolução pronominal a frases nominais órfãs. Assim, uma frase nominal finita é marcada como órfã se nesta etapa ainda é um singleton (uma menção que não tem expressões correferenciais) e não contém um nome de pessoa. Uma frase nominal órfã liga-se ao nome de pessoa anterior com o qual tenha concordância em género e número. No exemplo, as menções 8 e 9 ligam-se a 7 e 6.

Pro_Cataphora (Pro_C): de modo similar a NP_Cataphora, este módulo verifica se o texto começa com um pronome pessoa (ou elíptico). Neste caso, o módulo analisa se a seguinte oração contém um nome próprio compatível.