• Nenhum resultado encontrado

Uma das deficiências dos atuais sistemas de sumarização extrativa é que eles geralmente consideram palavras e sentenças isoladamente, ignorando seu relacionamento. Como resultado, os resumos finais produzidos por tais sistemas tendem a conter frases com referências anafóricas pendentes ou quebradas que dificultam a compreensão do resumo como um todo. Para mitigar este problema, vários sistemas de sumarização automáticos que levam em conta a resolução de referência foram propostos.

Steinberger et al. (2007) propôs dois métodos para explorar a resolução de referência em sumarização automática. A primeira abordagem é baseada na análise de semântica latente (LANDAUER; DUMAIS, 1997), que explora as informações anafóricas extraídas pelo seu sistema de resolução de correferência (GUITAR). A segunda abordagem, se assemelha à proposta neste capítulo, examina resumos procurando expressões anafóricas quebradas. Suas estratégias usam o primeiro elemento da cadeia de correferência como o mais representativo para tratar as expressões anafóricas quebradas. Ambas as abordagens foram avaliadas usando o corpus do DUC 20021 e obtiveram desempenho significativamente

melhor do que as abordagens que não processavam informações anafóricas.

Gonçalves, Rino e Vieira (2008) introduziram um sistema de sumarização (CorrefSum) que melhora a coesão referencial dos resumos extrativos utilizando o conhecimento sobre as cadeias de correferências. Seu sistema melhora o trabalho de Steinberger ao permitir uma escolha mais flexível da entidade mais representativa em uma cadeia de correferência, em vez de sempre usar a primeira entidade como feito por Steinberger. A avaliação do CorrefSum foi baseada no corpus Summ-it (COLLOVINI et al., 2007) contendo 50 textos de notícias em portugês da Folha de São Paulo.

Gonçalves, Rino e Vieira (2008) e o segunda abordagem proposta por Steinberger et al. (2007) verificam os resumos gerados com o objetivo de tratar as expressões anafóricas quebradas. No entanto, estas abordagens não realizam uma análise preliminar das cadeias de correferências para filtrar as correferências espúrias, como o método proposto neste capítulo faz. De fato, os resultados experimentais preliminares obtidos aqui, usando o sistema de resolução de correferência de Stanford, mostram que quase 50,31% das cadeias de correferências encontradas por esses sistemas não são adequadas para a tarefa de sumarização (Seção 3.4.1).

Orăsan (2009) usou a resolução de anáfora para melhorar um sumarizador baseado na simples técnica de frequência do termo – inverso da frequência nos documentos (TF- IDF). O autor argumenta que as sentenças mais importantes em um texto podem ser determinadas com base na importância das palavras que ele contém. O sumarizador foi avaliado em várias versões do corpus CAST (HASLER; ORăSAN; MITKOV, 2003) geradas por seis sistemas de resolução automática de correferências e por um anotador humano. Os resultados experimentais, avaliados usando a medida de similaridade de cosseno (DONAWAY; DRUMMEY; MATHER, 2000), sugerem que a resolução de correferência pronominal foi benéfica para melhorar a legibilidade dos resumos produzidos. Além disso, quando a versão do corpus gerada por um anotador humano foi usada, o sumarizador produziu os melhores resultados para várias taxas de compressão.

Smith, Henrik e Arne (2012) propuseram o sumarizador COHSUM, que é indiretamente baseado na distribuição de correferências nos textos-fonte. O COHSUM calcula uma pontuação para cada sentença, computando a relação de correferência entre as sentenças. A importância das sentenças foi calculada usando uma variante do PageRank (BRIN; PAGE, 1998). A ideia subjacente de COHSUM é que as sentenças que possuem maior número de correferências são consideradas as mais importantes e, portanto, devem ser selecionadas. Os resumos produzidos pela COHSUM foram avaliados no corpus DUC 2002 usando duas medidas: ROUGE (para cobertura de conteúdo) e coesão (análise do número de expressões anafóricas quebradas) em comparação com o documento de entrada. Os resultados revelaram que o COHSUM apresentou um desempenho comparativamente bom em termos de informatividade e produziu significativamente menos cadeias de correferências quebradas em comparação à outros sumarizadores.

O presente trabalho se difere daqueles propostos por Orăsan (2009), Smith, Henrik e Arne (2012), e a primeira abordagem proposta por Steinberger et al. (2007) no sentido de que todos esses estudos integram resolução de correferência como um fator de ponderação para ranqueamento de sentenças ou como heurísticas adicionais durante o processo de sumarização, já o trabalho aqui proposto aplica a resolução de anáfora no texto-fonte em uma etapa pré-processamento ou de pós-processamento sobre os resumos extrativos, independentemente de um sistema de sumarização.

coesos a partir de múltiplos documentos. O sistema proposto, chamado G-FLOW, tenta equilibrar coerência e saliência entre sentenças, estimando o nível de coesão de um sumário candidato. O modelo G-FLOW é essencialmente uma representação (baseada em grafo) das relações discursivas entre sentenças com base em várias pistas de coesão presentes no texto, incluindo frases discursivas, substantivos deverbais e correferências. Os autores usam as menções de correferência como recursos para ponderar (ordenar) as sentenças e conectar os nós do grafo (sentenças). Diferentemente, este trabalho emprega a resolução de correferência para analisar expressões anafóricas e substituí-las pelo referente mais representativo.

Silveira (2015) investigou o impacto dos procedimentos de pós-processamento nos resumos extrativos visando obter resumos coerentes. Ela combinou várias tarefas que modificam e relacionam as sentenças umas às outras, como a simplificação das sentenças, a criação de parágrafos e a inserção de conectores de discurso, reunindo tudo como uma tentativa de melhorar a qualidade do resumo final. Seu método é aplicável somente na etapa de pós-processamento, enquanto o método proposto aqui também pode ser aplicado na etapa de pré-processamento. Além disso, o trabalho de Silveira não usa resolução de correferência.

O método baseado em regras proposto neste capítulo faz um pré-processamento de corpus de entrada ou pós-processamento do resumo, substituindo as correferências pronominais pela entidade mais representativa da cadeia de correferência. O método proposto é independente de sistemas de sumarização extrativa, enquanto os estudos relacionados estão fortemente ligados a um sistema específico. Além disso, o método aqui proposto introduz critérios específicos para tais substituições, evitando repetições de expressões anafóricas no resumo, enquanto os trabalhos relacionados sempre substituem todas as menções pronominais. Finalmente, todos os estudos anteriores não conduziram uma avaliação tão extensa quanto a relatada aqui, que empregou uma metodologia de avaliação envolvendo várias técnicas e sistemas de sumarização extrativa, adotando um corpus de sumarização muito maior.