• Nenhum resultado encontrado

Modelagem das Restrições de Correferência e Relações Explícitas de Discurso

4.1 Abordagem Proposta

4.1.3 Modelagem das Restrições de Correferência e Relações Explícitas de Discurso

Além da coesão local gerada a partir do grafo de entidades criado na etapa anterior, este trabalho explora a inclusão de restrições explícitas para evitar tradicionais proble- mas de correferências em aberto e quebras no fluxo de discurso entre as sentenças. Para minimizar esses dois problemas, restrições são incluídas no modelo de PLI utilizando (i)

Resolução de Correferências e (ii) Análise Explícita de Discurso, ambas detalhadas a

seguir.

Resolução de Correferência (RC) consiste na identificação de palavras ou expressões que fazem menções a entidades ou conceitos introduzidos anteriormente (LEE et al., 2013).

Normalmente, os sistemas de RC fornecem uma cadeia de correferências que contém a entidade referenciada e todas as suas menções ao longo de um documento. RC é uma tarefa complexa e muito desafiadora, de forma que os atuais sistemas do estado da arte ainda são propensos a cometer muitos erros. Por esta razão, este trabalho foca na resolução de correferências pronominais, porque é um tipo de correferência mais simples e menos suscetível a erros. Contudo, as cadeias de correferências do pronome It também foram ignoradas, devido ao elevado número de erros relacionados a esse pronome.

Para ilustrar como a abordagem proposta utiliza as restrições de correferências pro- nominais, considere as frases 𝑠1 e 𝑠2 apresentadas a seguir4, nas quais o pronome “She”

presente em 𝑠2 se refere à entidade “Arianna Huffington” introduzida em 𝑠1. Dessa forma,

o modelo baseado em PLI proposto inclui uma nova restrição, indicando que 𝑠2 contém

uma dependência com 𝑠1, ou seja, para que 𝑠2 seja completamente entendida, é necessário

que 𝑠1 também seja inserida no resumo.

𝑠1: As president and editor-in-chief of The Huffington Post, you would expect Ari-

anna Huffington to be living her life at 100 mph.

𝑠2: She was listed on Time Magazine’s “Time 100” list of the world’s 100 most influential people in 2006 and 2011 services.

Além de modelar as dependências das correferências, restrições de análise de discurso também foram consideradas. Análise de Discurso (PITLER et al., 2008) fornece a base para

a representação da coesão do discurso em nível de documento. As relações de discurso podem ser explícitas, sendo essas identificadas facilmente pela presença de conectivos de discurso ou marcadores, tais como but, however; ou implícitas, que são mais difíceis de serem reconhecidas, porque são inferidas apenas pelo contexto.

O foco neste trabalho são os marcadores de discurso explícitos, tais como but, however,

moreover, thus, entre outros, que são usados para indicar dependências de discurso entre

duas sentenças adjacentes. Para ilustrar essas dependências, considere as frases 𝑠1 e 𝑠2

apresentadas a seguir5, que são conectadas pelo marcador de discurso “but” em negrito

presente na sentença 𝑠2. Para modelar essa dependência, uma nova restrição é adicionada

ao modelo de PLI para indicar que 𝑠2 depende de 𝑠1, ou seja, 𝑠2 só é aceita na solução

do modelo se 𝑠1 também estiver presente no resumo. Em outras palavras, o marcador

“but” indica que 𝑠2, para ser plenamente compreendida, precisa de informações que estão

presentes na sentença 𝑠1.

𝑠1: Taylor says sellers from 89 countries use fulfillment by Amazon to sell goods to U.S. customers.

𝑠2: But the advantages Amazon gains by enabling micro-exports extend beyond the fees charged for its services.

A abordagem proposta estende os trabalhos anteriores na literatura buscando evitar problemas de correferência em aberto e quebra no fluxo de discurso entre sentenças, por meio da inclusão da restrição 𝐷𝑠𝑗 ≤∑︀𝐷𝑑 𝑠𝑑 (Equação 4.1e) adicionada ao modelo de PLI.

Essa restrição é usada para representar cada correferência ou relação de discurso como

dependência entre duas frases. Na verdade, tal restrição garante que se uma sentença 𝑠𝑗

tem dependência com outras 𝐷 sentenças 𝑠𝑑, então 𝑠𝑗 só será inserida no resumo se todas

as frases de que 𝑠𝑗 depende também forem inseridas.

4.1.4

Exemplo de Execução da Abordagem Proposta

Nesta seção é apresentado um exemplo de execução da abordagem proposta para facilitar o entendimento das suas principais etapas. Para isso, utilizaremos como entrada um documento 𝑑 composto pelas seguintes sentenças6:

𝑆1: Hurricane Gilbert swept toward the Dominican Republic Sunday.

5 As frases foram extraídas do corpus CNN.

𝑆2: “There is no need for alarm” Civil Defense Director Eugenio Cabral said in a television alert.

𝑆3: He said residents of the province of Barahona should closely follow the Hurricane Gilbert movement.

O Quadro 8 ilustra cada sentença do documento 𝑑 e os seus respectivos bigramas extraídos na etapa de Extração de Conceitos. Os bigramas destacados em itálico são removidos por serem compostos somente por stopwords.

Quadro 8 – Sentenças do documento 𝑑 e seus respectivos conceitos (bigramas) extraídos.

Sentenças Conceitos

𝑆1 hurricane gilbert - gilbert swept - swept toward - toward the - the

dominican - dominican republic - republic sunday

𝑆2 there is - is no - no need - need for - for alarm - civil defense -

defense director - director eugenio - eugenio cabral - cabral said - said in - a television - television alert

𝑆3 he said - said residents - residents of - of the - the province - province

of - of Barahona - barahona should - should closely - closely follow - follow the - the hurricane - hurricane gilbert - gilbert movement Após a extração de conceitos, cada um deles é analisado para computar sua relevância na etapa de Pontuação de Conceitos. A Tabela 11 apresenta cada conceito extraído e seus respectivos pesos (normalizados entre 0 e 1). Vale relembrar que apenas a primeira ocorrência de um conceito recebe seu escore de importância, as demais menções recebem pontuação igual a zero.

Tabela 11 – Conceitos extraídos e seus respectivos pesos.

Conceito Peso

Hurricane Gilbert 1,0

Gilbert swept 0,978

Gilbert movement 0,913

swept toward - toward the - the Dominican - Dominican Republic 0,783

Republic Sunday 0,717

no need - the Hurricane 0,587

need for - for alarm - Civil Defense - Defense Director - Director

Eugenio - Eugenio Cabral - Cabral said - said in - a television 0,522

television alert 0,457

He said 0,326

said residents - residents of - the province - province of - of Barahona

Para fins de ilustração, a fase de filtragem das sentenças foi desconsiderada. Após a etapa de ponderação dos pesos dos conceitos, inicia-se a computação da coesão local das sentenças usando o modelo de grafo de entidades. Para cada sentença do documento, é gerada uma pontuação que representa o quanto de entidades ela compartilha com senten- ças subsequentes. Como o documento 𝑑 usado neste exemplo só possui três sentenças, e a segunda não possui nenhuma entidade (substantivo) em comum com a terceira frase,

𝑠2 recebe uma pontuação igual a zero. A sentença 𝑠3, por ser a última do documento,

também recebe um escore igual a zero. Já a sentença 𝑠1 recebe um escore igual a 0, 5

porque possui entidades compartilhadas com 𝑠3.

Por fim, é realizada a seleção das sentenças para compor o resumo usando o modelo de PLI apresentado na Equação 4.1. Para fins de exemplificação, o limiar 𝐿 do tamanho máximo do resumo foi definido como 𝐿 = 20, ou seja, o resumo terá no máximo vinte palavras. É possível observar que a sentença 𝑠3 possui uma menção, usando o pronome

“He”, ao nome “Eugenio Cabral” presente na sentença 𝑠2. Por isso, uma restrição de

dependência, indicando que 𝑠3 depende 𝑠2 para ser completamente entendida, é criada

conforme apresentada na Equação 4.1e. Com isso, a função objetivo, a restrição do ta- manho de resumo, e a restrição de dependência entre 𝑠3 e 𝑠2 presentes no modelo de PLI

do exemplo aqui ilustrado são definidos como exemplificado a seguir. Por questões de espaço e para facilitar o entendimento, as restrições (Equações 4.1c e 4.1d) que garantem a consistência do modelo são omitidas.

• 𝑀𝑎𝑥𝑖𝑚𝑖𝑧𝑒 1, 0 * 𝑐1+ 0, 978 * 𝑐2+ 0, 913 * 𝑐3+ 0, 783 * 𝑐4+ 0, 783 * 𝑐5+ 0, 783 * 𝑐6+ 0, 783 * 𝑐7+ 0, 717 * 𝑐8+ 0, 587 * 𝑐9+ 0, 587 * 𝑐10+ 0, 522 * 𝑐11+ 0, 522 * 𝑐12+ 0, 522 * 𝑐13+ 0, 522 * 𝑐14+ 0, 522 * 𝑐15+ 0, 522 * 𝑐16+ 0, 522 * 𝑐17+ 0, 522 * 𝑐18+ 0, 522 * 𝑐19+ 0, 457 * 𝑐20+ 0, 326 * 𝑐21+ 0, 261 * 𝑐22+ 0, 261 * 𝑐23+ 0, 261 * 𝑐24+ 0, 261 * 𝑐25+ 0, 261 * 𝑐26+ 0, 261 * 𝑐27+ 0, 261 * 𝑐28+ 0, 261 * 𝑐29+ 0, 261 * 𝑐30+ 0, 0 * 𝑠3+ 0, 5 * 𝑠1+ 0, 0 * 𝑠2 • 𝑆𝑢𝑏𝑗𝑒𝑐𝑡 𝑇 𝑜 15 * 𝑠3+ 8 * 𝑠1 + 16 * 𝑠2 <= 20

• 1 × 𝑠3 ≤ 𝑠2, ou seja, se 𝑠3 for selecionada para compor o resumo, então 𝑠2 também

deve ser selecionada; caso contrário, resultará na restrição inválida 1 ≤ 0.

O resumo gerado no exemplo apresentado contém somente a sentença 𝑠1 “Hurricane Gilbert swept toward the Dominican Republic Sunday.”, pois ela contempla a maior quan-

tidade de conceitos importantes, maior pontuação de coesão, não possui dependência com nenhuma outra sentença, e satisfaz a restrição do tamanho máximo que o resumo gerado deve ter.

4.2

Experimentos

Nesta seção, são apresentados e discutidos os resultados dos experimentos conduzidos para avaliar diferentes aspectos da abordagem proposta. Três experimentos foram exe- cutados abordando as seguintes questões: (i) Avaliação dos métodos de ponderação de conceitos isoladamente com e sem a adoção da estratégia de distribuição de pesos pro- posta (Subseção 4.2.2); (ii) Análise do impacto da inclusão das restrições de correferência e análise de discurso, além da pontuação da coesão local das sentenças, em termos das medidas de avaliação do ROUGE (Subseção 4.2.3); e (iii) Comparação do desempenho da abordagem proposta com outros sistemas de sumarização monodocumento do estado da arte (Subseção 4.2.4).