RSumm - Sumarizadores Multidocumento - Sumarização multidocumento com base em aspectos informat

3.6 Sumarizadores Multidocumento

3.6.1 RSumm

O RSumm é um sumarizador multidocumento de abordagem superficial com base em grafos desenvolvido por Ribaldo et al. (2012). Nesse trabalho, utilizou-se um en-foque híbrido, adequando-se o sistema de mapa de relacionamentos de Salton et al.

(1997) com o modelo de relações CST (Radev, 2000). Também se investigaram algu-mas medidas derivadas de grafos para a seleção das sentenças que formam o sumário final.

Salton et al. (1997) modelam um texto simples (monodocumento) como um grafo não direcionado em que os vértices são parágrafos e as arestas são as relações de si-milaridade entre os parágrafos. Os algoritmos de seleção de conteúdo em grafos são: caminho denso (em inglês, Bushy path), caminho profundo (em inglês, Depth-first path) e caminho denso segmentado (em inglês, Segmented bushy path). Salienta-se que esses algoritmos são voltados para sumarização monodocumento, mas foram adaptados para um cenário multidocumento.

No caminho denso, a densidade de um vértice é definida como o número de cone-xões que este tem com o resto do grafo; assim o caminho é construído com os vértices mais densos ordenados cronologicamente (conforme aparecem no documento) para formar o sumário. O caminho profundo é similar ao caminho anterior, só que, em vez de se selecionarem os vértices mais relacionados, começa-se pelo vértice de maior den-sidade e, a partir dele, escolhem-se os filhos que têm mais ligações. Porém, o problema do caminho profundo é não cobrir todos os tópicos do documento; assim o caminho denso segmentado constrói diversos caminhos densos para cada tópico e, em seguida, concatena-os em ordem textual, garantindo que pelo menos um parágrafo de cada

tó-pico será selecionado para compor o sumário.

No RSumm, os textos/documentos foram modelados como grafos com ajuda do mo-delo CST. Assim, por exemplo, na Fig.12, cada vértice é uma sentença (S) pertencente a um documento (D) e as arestas podem representar tanto as relações CST quanto al-guma medida de similaridade, como Maximal Marginal Relevance (MMR) (Carbonell e Goldstein,1998) ou similaridade de cosseno (Salton,1988).

caminho profundo é não cobrir todos os tópicos do documento, assim o Caminho denso

segmentado constr´oi diversos caminhos densos para cada t´opico e, logo, concatena-os em

ordem textual garantindo que pelo menos um parágrafo de cada tópico será selecionado

para compor o sumário. Salienta-se que esses algoritmos são voltados para sumariza¸cão

monodocumento, mas podem ser adaptados para um cen´ario multidocumento.

No RSumm, os textos/documentos foram modelados como grafos com ajuda do

mo-delo CST. Assim, por exemplo, na Fig. 2.4, cada v´ertice ´e uma senten¸ca (S) pertencente

a um documento (D) e as arestas podem representar tanto as rela¸c˜oes CST quanto

al-guma medida de similaridade como Maximal Marginal Relevance (MMR) (Carbonell e

Goldstein, 1998) ou similaridade de cosseno.

Equivalence Contradiction S1:D1 S1:D2 S1:D3 S3:D3 S3:D2 S2:D3 S4:D1

Figura 2.4: Exemplo de grafo com CST (Ribaldo et al., 2012)

As rela¸c˜oes CST de alguma maneira ajudam a aprimorar a sele¸c˜ao das senten¸cas

mais relevantes e desempatar senten¸cas com a mesma pontua¸c˜ao. Tal conhecimento foi

usado de duas maneiras: a primeira somente considera o n´umero total de rela¸c˜oes por

senten¸cas, sem considerar o tipo; e a segunda considera os tipos de rela¸c˜oes dando um

valor num´erico a cada uma, conforme com o seu n´ıvel de redundˆancia. Em seguida, para

selecionar o conteúdo que formará o sumário, foram escolhidos somente os caminhos denso

e profundo. Al´em disso, no come¸co foi feito um pr´e-processamento do texto, no qual se

aplicou lematiza¸c˜ao de palavras e elimina¸c˜ao de stopwords.

Por fim, o sum´ario ´e constru´ıdo com as senten¸cas mais salientes (ou com as melhores

pontua¸c˜oes) de todos os textos analisados. Para controlar a redundˆancia entre as

senten-¸cas, utilizou-se a m´edia dos valores de maior e menor cosseno do grafo. Al´em disso, o

19

Figura 12: Exemplo de grafo com CST (Ribaldo et al.,2012)

As relações CST de alguma maneira ajudam a aprimorar a seleção das sentenças mais relevantes e desempatar sentenças com a mesma pontuação. Tal conhecimento foi usado de duas maneiras: a primeira somente considera o número total de relações por sentenças, sem considerar o tipo; e a segunda considera os tipos de relações dando um valor numérico a cada uma, conforme o seu nível de redundância. Em seguida, para selecionar o conteúdo que formará o sumário, escolhem-se somente os caminhos denso e profundo. Além disso, no começo, é feito um pré-processamento do texto, no qual se aplica lematização de palavras e eliminação de stopwords.

Por fim, o sumário é construído com as sentenças mais salientes (ou com as melhores pontuações) de todos os textos analisados. Para controlar a redundância entre as sen-tenças, utiliza-se a média dos valores de maior e menor cosseno do grafo. Incorpora-se,

também, o método de ordenação de sentenças pela posição da sentença no texto-fonte (Lima e Pardo,2011,2012). O critério de desempate entre as sentenças que possuem a mesma posição no texto-fonte é o seu tamanho em palavras, onde as sentenças menores devem aparecer antes no sumário. Além disso, o usuário é capaz de limitar o tamanho do sumário utilizando uma taxa de compressão de 70%, o que faz com que o sumário tenha 30% do número de palavras do maior texto-fonte.

Os resultados da avaliação dos sumários gerados pelo sistema mostram um bom nível de informatividade em comparação a outros sistemas de SA. Os resultados da ROUGE-L para o caminho denso foram: 0.4089 de precisão, 0.3704 de cobertura e 0.3871 de F1; e para o caminho profundo: 0.3977 de precisão; 0.3630 de cobertura e 0.3795 de F1. Cabe ressaltar que o RSumm é o melhor sistema de sumarização de abordagem superficial até o momento para a língua portuguesa.

Como já foi dito no inicio desta seção, utiliza-se o RSumm para comparar resultados na fase de avaliação. Além disso, será utilizado pararanquear as sentenças dos

textos-fonte por relevância e remover as sentenças redundantes. Nesse caso, descartou-se o

algoritmo de ordenação de sentenças de Lima e Pardo (2011, 2012), já que isso será feito conforme os padrões identificados na anotação de aspectos informativos (ver Seção

3.1.1). Destaca-se que as sentenças já terão sido previamente com aspectos mediante classificadores. Assim, selecionam-se as sentenças mais importantes anotadas com as-pectos informativos. O processo de seleção de conteúdo será explicado detalhadamente na Seção4.3.

No documento Sumarização multidocumento com base em aspectos informativos. Alessandro Yovan Bokan Garay (páginas 74-77)