• Nenhum resultado encontrado

4.1 Abordagem Proposta

6.1.1 Geração dos resumos candidatos

Esta etapa é responsável pela geração de um conjunto de resumos candidatos a partir de um único documento (monodocumento) ou de uma coleção de documentos (multidocu- mento) de entrada. Para isso, as abordagens baseadas em conceitos usando PLI apresen- tadas no Capítulo 4 e no Capítulo 5 são utilizadas, dependendo da tarefa de sumarização a ser executada.

Dois parâmetros fundamentais que precisam ser definidos em uma abordagem base- ada em conceitos usando PLI são: (i) uma forma de representação para a noção de um conceito (𝑐𝑖); e (ii) um método para ponderar a sua relevância (𝑤𝑖). Esta etapa explora as

diferentes formas de representação e métodos de ponderação investigadas até então neste trabalho, visando gerar um conjunto diversificado de resumos candidatos. Além disso, outros parâmetros específicos de cada uma das abordagens também são adotados para variar o processo de sumarização.

O Algoritmo 3 resume a metodologia de geração dos resumos candidatos executada nesta etapa. O primeiro ponto a ser definido é qual a tarefa de sumarização que será realizada. Caso o conjunto de documentos 𝐷 de entrada possua apenas um único docu- mento |𝐷| = 1, a abordagem para sumarização monodocumento descrita no Capítulo 4 é adotada, caso contrário, |𝐷| > 1, a abordagem multidocumento apresentada no Capí- tulo 5 é utilizada. Posteriormente, a coleção de configurações 𝐶𝐹 é adotada em conjunto com a abordagem de sumarização selecionada. Cada configuração 𝑐𝑜𝑛𝑓𝑖 ∈ 𝐶𝐹 contém a

definição de qual forma de representação e método de ponderação de conceitos serão uti- lizados. Além disso, outros parâmetros específicos dependendo da tarefa de sumarização (monodocumento ou multidocumento) também são definidos. Por exemplo, considerar ou não a pontuação do grafo de entidades na sumarização monodocumento, ou os valores dos limiares de similaridade mínima entre as sentenças 𝜆 e do tamanho mínimo do grupo de sentenças 𝛾 para a sumarização multidocumento. Cada configuração considerada produz um resumo e esse é inserido na lista de resumos candidatos.

É essencial para a abordagem proposta que essa etapa seja capaz de gerar um conjunto de resumos candidatos informativos e com uma grande diversidade. Para isso, as seguin- tes formas de representação de conceitos são adotadas: unigramas, bigramas, entidades nomeadas e dependências sintáticas rotuladas e genéricas. Tais formas de representação apresentaram bons resultados nos experimentos realizados no Capítulo 4, Capítulo 5 e no Apêndice A, em conjunto com as abordagens baseadas em conceitos propostas. Além

Algoritmo 3:Etapa de geração dos resumos candidatos. Entrada: O conjunto de documentos 𝐷.

Entrada: O conjunto de configurações 𝐶𝐹 .

Saída: O conjunto de resumos candidatos 𝑟𝑒𝑠𝑢𝑚𝑜𝑠𝐶𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠.

1 Início 2 𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑑𝑜𝑟= 𝑛𝑢𝑙𝑙 3 se |𝐷|== 1 então 4 𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑑𝑜𝑟= 𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑑𝑜𝑟𝑀𝑜𝑛𝑜𝐷𝑜𝑐 5 senão 6 𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑑𝑜𝑟= 𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑑𝑜𝑟𝑀𝑢𝑙𝑡𝑖𝐷𝑜𝑐 7 𝑟𝑒𝑠𝑢𝑚𝑜𝑠𝐶𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠= {}

8 para todo 𝑐𝑜𝑛𝑓𝑖 ∈ 𝐶𝐹 faça

9 𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑑𝑜𝑟.𝑐𝑜𝑛𝑓 𝑖𝑔𝑢𝑟𝑎𝑐𝑎𝑜= 𝑐𝑜𝑛𝑓𝑖

10 𝑟𝑒𝑠𝑢𝑚𝑜= 𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑑𝑜𝑟.𝑠𝑢𝑚𝑎𝑟𝑖𝑧𝑎𝑟(𝐷)

11 𝑟𝑒𝑠𝑢𝑚𝑜𝑠𝐶𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠.𝑎𝑑𝑑(𝑟𝑒𝑠𝑢𝑚𝑜)

disso, observou-se uma alta diversidade nos resumos gerados adotando essas formas de representação.

Os resultados apresentados no Capítulo 3 demonstraram a eficiência de diversos méto- dos de pontuação de sentenças, em ambas as tarefas de sumarização. Além disso, observou- se que esses métodos geram, em muitos casos, resumos distintos dos produzidos utilizando as cinco formas de representação de conceitos mencionadas anteriormente. Por isso, vi- sando diversificar ainda mais os resumos candidatos gerados, sentenças também são ado- tadas como conceitos.

Para exemplificar, as seguintes formas para representação da noção de conceitos são usadas nesta etapa.

• Sentenças: Hurricane Gilbert slammed into Kingston on Monday • Unigramas: Hurricane - Gilbert - slammed - into - Kingston • Bigramas: Hurricane Gilbert - Gilbert slammed - slammed into • Entidades Nomeadas: Hurricane Gilbert - Kingston - Monday • Dependências Sintáticas Rotuladas: comp(Gilbert, Hurricane) -

nsubj(slammed, Gilbert)

• Dependências Sintáticas Genérica: dep(Gilbert, Hurricane) - dep(slammed, Gil- bert)

O segundo ponto fundamental em uma abordagem baseada em conceitos é a defini- ção do método de ponderação aplicado para mensurar a relevância 𝑤𝑖 de um conceito 𝑐𝑖. Diversas técnicas individuais foram investigadas até o momento neste trabalho. Esses

métodos incluem frequência do conceito, frequência das sentenças, posição das sentenças, frequência dos documentos, métodos baseados em grafos, como, PageRank, TextRank, HITS, entre outros. Além das técnicas individuais, também foram avaliados os métodos combinados propostos para sumarização monodocumento (ver Equação 4.4) e multido- cumento (ver Equação 5.2). Todos esses métodos são usados em conjunto com as cinco formas de representação mencionadas anteriormente1.

A maioria dos métodos de ponderação mencionados anteriormente foram propostos e avaliados usando fragmentos textuais que compõem uma sentença, por exemplo, uni- gramas e bigramas, como conceitos. Dessa forma, em geral, eles não são adequados para mensurar a relevância de uma sentença completa. Por isso, para ponderar a importância das sentenças como conceitos, os métodos de pontuação de sentenças individuais investi- gados no Capítulo 3 são adotados.

Abordagens centradas na estratégia de maximizar a cobertura de conceitos relevantes exploram somente a melhor solução obtida pelo modelo de PLI (GILLICK et al., 2009;BOU-

DIN; MOUGARD; FAVRE, 2015; CAO et al., 2015). A solução ótima selecionada representa

um resumo gerado usando o conjunto de sentenças que maximiza a função objetivo e atende todas as restrições do modelo. Esta etapa também explora a execução do modelo de PLI várias vezes, visando obter as N soluções distintas em ordem decrescente com base no valor da função objetivo. Para isso, a restrição apresentada na Equação 6.1 é inserida no modelo de PLI das abordagens monodocumento (ver Equação 4.1) e multidocumento (ver Equação 5.3). ∑︁ 𝑆𝑜𝑙𝑘∈𝑆𝑂𝐿 ∑︁ 𝑠𝑚∈𝑆𝑜𝑙𝑘 𝑠𝑚 ≤ |𝑆𝑜𝑙𝑘| −1 (6.1) No qual,

• 𝑆𝑂𝐿 é o conjunto de soluções obtidas pelo modelo de PLI;

• 𝑆𝑜𝑙𝑘 é uma solução específica composta por uma ou mais sentenças;

• |𝑆𝑜𝑙𝑘|é o total de sentenças da solução 𝑆𝑜𝑙𝑘;

• 𝑠𝑚 é uma sentença pertencente a solução 𝑆𝑜𝑙𝑘;

Para ilustrar o funcionamento da restrição acima, imagine que a solução 𝑆𝑜𝑙1 =

{𝑠1, 𝑠2, 𝑠3, 𝑠4}, composta por quatro sentenças (|𝑆𝑜𝑙1| = 4), foi produzida pelo modelo

de PLI. Com isso, em uma segunda execução, a restrição 𝑠1 + 𝑠2 + 𝑠3 + 𝑠4 ≤ 3 é inse-

rida no modelo. Tal restrição garante que a nova solução gerada possua pelo menos uma sentença diferente da solução 𝑆𝑜𝑙1, ou seja, o novo resumo gerado não pode possuir exata-

mente as mesmas sentenças do resumo produzido anteriormente. Adotando essa restrição, é possível gerar resumos distintos usando uma mesma configuração.

1 É importante ressaltar que os métodos baseados em grafos, como PageRank, não foram adotados para

a sumarização multidocumento por conta do alto custo computacional observado durante a geração do grafo de conceitos.

O Quadro 12 resume todas as configurações utilizadas nesta etapa para a geração dos resumos candidatos nas tarefas de sumarização monodocumento e multidocumento.

Quadro 12 – Configurações adotadas para a geração dos resumos candidatos.

Tarefa Configurações Valores

Monodocumento

Processo de Sumarização Abordagem baseada em conceitos

usando PLI apresentada no Capítulo 4

Representação Sentenças, unigramas, bigramas, enti-

dades nomeadas e dependências sintá- ticas rotuladas e genéricas

Ponderação Os treze métodos investigados no Apên-

dice A, o método ponderado proposto (ver 4.4) e as técnicas de pontuação de sentenças analisadas no Capítulo 3

Outras Soluções Inclusão da restrição apresentada na

Equação 6.1 durante a execução da melhor configuração (bigramas, método ponderado, considerando o grafo de en- tidades) para considerar as dez melho- res soluções geradas pelo modelo de PLI

Outras Adoção ou não do Grafo de Entidade e

das restrições de coesão (ver Capítulo 4)

Multidocumento

Processo de Sumarização Abordagem baseada em conceitos

usando PLI apresentada no Capítulo 5

Representação Sentenças, unigramas, bigramas, enti-

dades nomeadas e dependências sintá- ticas rotuladas e genéricas

Ponderação Os cinco métodos estatísticos investiga-

dos no Capítulo 5, o método ponderado proposto (ver 5.2) e as técnicas de pon- tuação de sentenças analisadas no Ca- pítulo 3

Outras Soluções Adotou-se a restrição apresentada na

Equação 6.1 durante a execução da melhor configuração (bigramas, método ponderado, 𝜆 = 0, 1 e 𝛾 = 0, 6) para considerar as quinze melhores soluções geradas pelo modelo de PLI

Outras Variações dos limiares de similaridade

mínima entre as sentenças 𝜆 e do tama- nho mínimo do grupo de sentenças 𝛾

Ao final desta etapa, um conjunto de resumos candidatos é gerado para a coleção de documentos de entrada 𝐷. Esses candidatos refletem diferentes possíveis resumos contendo as informações mais relevantes do(s) documento(s) a serem resumido(s).