• Nenhum resultado encontrado

4.1 Abordagem Proposta

5.1.4 Exemplo de Execução da Abordagem Proposta

Nesta seção, apresentamos um exemplo de execução da abordagem proposta, adotando uma configuração padrão definindo os limiares de entrada da similaridade mínima entre as sentenças e do tamanho mínimo do grupo de sentenças como 𝜆 = 0 e 𝛾 = 0, ou seja, nenhuma sentença ou grupo será removida durante as etapas de agrupamento e geração do resumo. O exemplo apresentado a seguir foi executado recebendo como entrada uma coleção de documentos 𝐷 composta por três documentos 𝑑1, 𝑑2e 𝑑3, conforme apresentado

no Quadro 9.

Quadro 9 – Coleção de documentos contendo três documentos do grupo 𝑑061 do corpus do DUC 2002.

Documentos Sentenças 𝑑1

s1: Hurricane Gilbert swept toward the Dominican Republic Sunday, and the Civil Defense alerted its heavily populated south coast.

s2: The storm was approaching from the southeast with sustained winds of 75 mph. 𝑑2

s1: Hurricane Gilbert swept toward Jamaica yesterday with 100-mile-an-hour winds and officials issued warnings to residents on the southern coasts of the Dominican Republic, Haiti and Cuba.

s2: The storm ripped the roofs off houses and caused coastal flooding in Puerto Rico. 𝑑3

s1: Hurricane Gilbert slammed into Kingston on Monday with torrential rains and 115 mph winds that ripped roofs off homes and buildings, uprooted trees and downed power lines.

s2: No serious injuries were immediately reported in the city of 750,000 people, which was hit by the full force of the hurricane around noon.

Após o pré-processamento dos documentos, realiza-se a etapa de extração e ponderação dos conceitos. Para facilitar a apresentação, no Quadro 10 são apresentados os documentos e seus respectivos conceitos (bigramas) extraídos.

Quadro 10 – Documentos 𝑑𝑖 ∈ 𝐷 e seus respectivos conceitos (bigramas) extraídos. Documentos Conceitos

𝑑1 Hurricane Gilbert - Gilbert swept - swept toward - toward the - the Dominican -

Dominican Republic - Republic Sunday - the Civil - Civil Defense - Defense alerted - alerted its - its heavily - heavily populated - populated south - south coast - The storm - storm was - was approaching - approaching from - the southeast - southeast with - with sustained - sustained winds - winds of - of 75 - 75 mph

𝑑2 Hurricane Gilbert - Gilbert swept - swept toward - toward Jamaica - Jamaica yester-

day - yesterday with - with 100-mile-an-hour - 100-mile-an-hour winds - winds and - and officials - officials issued - issued warnings - warnings to - to residents - residents on - the southern - southern coasts - coasts of - the Dominican - Dominican Republic - Haiti and - and Cuba - The storm - storm ripped - ripped the - the roofs - roofs off - off houses - houses and - and caused - caused coastal - coastal flooding - flooding in - in Puerto - Puerto Rico

𝑑3 Hurricane Gilbert - Gilbert slammed - slammed into - into Kingston - Kingston on -

on Monday - Monday with - with torrential - torrential rains - rains and - and 115 - 115 mph - mph winds - winds that - that ripped - ripped roofs - roofs off - off homes - homes and - and buildings - uprooted trees - trees and - downed power - power lines - No serious - serious injuries - injuries were - were immediately - immediately reported - reported in - the city - city of - of 750,000 - 750,000 people - was hit - hit by - the full - full force - force of - the hurricane - hurricane around - around noon

Após a extração dos conceitos, cada um deles é avaliado para mensurar a sua im- portância utilizando o método de ponderação proposto (Equação 5.1). Na Tabela 20 são

apresentados em ordem decrescente os conceitos e seus respectivos pesos. Para facilitar o entendimento, conceitos com o mesmo peso são agrupado em uma mesma linha da Tabela. Não houve uma grande diversidade nos valores dos pesos porque o grupo de documentos 𝐷 usado neste exemplo possui apenas três documentos, e cada um deles contém apenas duas sentenças. A primeira sentença de cada documento foi usada como título neste exemplo.

Tabela 20 – Conceitos extraídos do grupo de documentos 𝐷 e seus respectivos pesos.

Conceito Peso

Hurricane Gilbert 1,0

Gilbert swept - swept toward - the Dominican - Dominican Republic 0,47

roofs off 0,33

The storm 0,2

Gilbert slammed - slammed into - into Kingston - toward the - toward Jamaica - Kingston on - Jamaica yesterday - on Monday - yesterday with - with 100-mile-an- hour - Republic Sunday - Monday with - the Civil - 100-mile-an-hour winds - with torrential - Civil Defense - torrential rains - winds and - and officials - Defense alerted - rains and - alerted its - and 115 - officials issued - 115 mph - its heavily - issued warnings - warnings to - mph winds - heavily populated - to residents - winds that - populated south - south coast - that ripped - residents on - the southern - ripped roofs - southern coasts - coasts of - off homes - homes and - and buildings - uprooted trees - Haiti and - and Cuba - trees and - downed power - power lines

0,13

No serious - serious injuries - storm was - storm ripped - was approaching - ripped the - injuries were - were immediately - the roofs - approaching from - the southeast - immediately reported - southeast with - reported in - off houses - the city - houses and - with sustained - city of - and caused - sustained winds - caused coastal - winds of - of 750,000 - 750,000 people - of 75 - coastal flooding - flooding in - was hit - 75 mph - hit by - in Puerto - the full - Puerto Rico - full force - force of - the hurricane - hurricane around - around noon

0,05

Após a etapa de extração e ponderação dos conceitos, as sentenças dos documentos 𝑑𝑖𝐷 são agrupadas em diferentes grupos. Primeiramente, o documento 𝑑2 foi selecionado

como central pelo algoritmo de agrupamento. Dessa forma, as sentenças são agrupadas em dois grupos, conforme apresentado no Quadro 11.

Quadro 11 – Grupos de sentenças e seus respectivos membros.

Grupo Sentenças 𝑔1 𝑠𝑑11, 𝑠 𝑑2 1 , 𝑠 𝑑3 2 𝑔2 𝑠𝑑21, 𝑠 𝑑2 2 , 𝑠 𝑑3 1

Por fim, realiza-se a seleção das sentenças para compor o resumo usando o modelo de PLI apresentado na Equação 5.3. Para fins de exemplificação, o limiar 𝐿 do tamanho máximo do resumo foi definido como 𝐿 = 45, ou seja, o resumo terá no máximo quarenta e cinco palavras. A seguir são apresentadas a função objetivo do modelo de PLI e a restrição do tamanho máximo do resumo a ser gerado.

• 𝑀𝑎𝑥𝑖𝑚𝑖𝑧𝑒 1, 0*𝑐1+0, 47*𝑐2+0, 47*𝑐3+0, 47*𝑐4+0, 47*𝑐5+0, 33*𝑐6+0, 2*𝑐7+0, 13* 𝑐8+0, 13*𝑐9+0, 13*𝑐10+0, 13*𝑐11+0, 13*𝑐12+0, 13*𝑐13+0, 13*𝑐14+0, 13*𝑐15+0, 13* 𝑐16+0, 13*𝑐17+0, 13*𝑐18+0, 13*𝑐19+0, 13*𝑐20+0, 13*𝑐21+0, 13*𝑐22+0, 13*𝑐23+0, 13* 𝑐24+0, 13*𝑐25+0, 13*𝑐26+0, 13*𝑐27+0, 13*𝑐28+0, 13*𝑐29+0, 13*𝑐30+0, 13*𝑐31+0, 13*

𝑐32+0, 13*𝑐33+0, 13*𝑐34+0, 13*𝑐35+0, 13*𝑐36+0, 13*𝑐37+0, 13*𝑐38+0, 13*𝑐39+0, 13* 𝑐40+0, 13*𝑐41+0, 13*𝑐42+0, 13*𝑐43+0, 13*𝑐44+0, 13*𝑐45+0, 13*𝑐46+0, 13*𝑐47+0, 13* 𝑐48+0, 13*𝑐49+0, 13*𝑐50+0, 13*𝑐51+0, 13*𝑐52+0, 13*𝑐53+0, 13*𝑐54+0, 13*𝑐55+0, 13* 𝑐56+0, 05*𝑐57+0, 05*𝑐58+0, 05*𝑐59+0, 05*𝑐60+0, 05*𝑐61+0, 05*𝑐62+0, 05*𝑐63+0, 05* 𝑐64+0, 05*𝑐65+0, 05*𝑐66+0, 05*𝑐67+0, 05*𝑐68+0, 05*𝑐69+0, 05*𝑐70+0, 05*𝑐71+0, 05* 𝑐72+0, 05*𝑐73+0, 05*𝑐74+0, 05*𝑐75+0, 05*𝑐76+0, 05*𝑐77+0, 05*𝑐78+0, 05*𝑐79+0, 05* 𝑐80+0, 05*𝑐81+0, 05*𝑐82+0, 05*𝑐83+0, 05*𝑐84+0, 05*𝑐85+0, 05*𝑐86+0, 05*𝑐87+ 0, 05*𝑐88+0, 05*𝑐89+0, 05*𝑐90+0, 05*𝑐91+0, 05*𝑐92+0, 05*𝑐93+0, 05*𝑐94+0, 05*𝑐95 • 𝑆𝑢𝑏𝑗𝑒𝑐𝑡 𝑇 𝑜 18 * 𝑠𝑑1 1 + 13 * 𝑠 𝑑1 2 + 26 * 𝑠 𝑑2 1 + 14 * 𝑠 𝑑2 2 + 27 * 𝑠 𝑑3 1 + 24 * 𝑠 𝑑3 2 <= 45

Ao final da execução da abordagem proposta, o resumo gerado para o grupo de docu- mentos 𝐷 usado neste exemplo é composto pelas sentenças 𝑠𝑑1

1 e 𝑠 𝑑3

1 . Como essas sentenças

possuem o mesmo índice, ou seja, são as primeiras sentenças de seus respectivos documen- tos, elas são ordenadas com base no índice do grupo de sentenças ao qual elas pertencem. A sentença 𝑠𝑑1

1 pertence ao grupo 𝑔1, enquanto que a sentença 𝑠𝑑13 pertence ao grupo 𝑔2. Dessa forma, o resumo é gerado com a sentença 𝑠𝑑11 em primeiro lugar, seguida pela

sentença 𝑠𝑑3

1 .

Hurricane Gilbert swept toward Jamaica yesterday with 100-mile-an-hour winds and offi- cials issued warnings to residents on the southern coasts of the Dominican Republic, Haiti and Cuba. Hurricane Gilbert slammed into Kingston on Monday with torren- tial rains and 115 mph winds that ripped roofs off homes and buildings, uprooted trees and downed power lines.

5.2

Experimentos

Vários experimentos foram realizados visando analisar os seguintes aspectos: (i) Ava- liação da adoção de diferentes formas de representação e métodos de ponderação de con- ceitos (Seção 5.2.2); (ii) Análise do impacto dos limiares de similaridade das sentenças 𝜆 e do tamanho mínimo do grupo de sentenças 𝛾 adotados nas etapas de agrupamento das sentenças e geração do resumo, respectivamente (Seção 5.2.3); e (iii) Comparação dos resultados obtidos com a abordagem proposta em relação a outros sistemas do estado da arte (Seção 5.2.4).

5.2.1

Configurações dos Experimentos

A abordagem proposta é avaliada adotando os corpora das competições do DUC dos anos de 2001 até 2004. Os corpora do DUC são amplamente utilizados para avaliar siste- mas de SAT de artigos de notícias escritos em Inglês. Todos os grupos de documentos do DUC possuem um ou mais resumos de referência (com aproximadamente 100 palavras)

criados por especialistas humanos. Algumas estatísticas básicas desses corpora gerados aplicando a ferramenta Stanford CoreNLP são apresentadas na Tabela 21.

Tabela 21 – Estatísticas básicas dos corpora do DUC 2001-2004. Corpus #Grupos #Documentos #Sentenças #Palavras

DUC 2001 30 309 11.026 269.990

DUC 2002 59 576 14.370 348.012

DUC 2003 30 298 7.691 197.483

DUC 2004 50 500 13.135 336.073

As medidas de cobertura do ROUGE-1 (R-1) e ROUGE-2 (R-2) (LIN, 2004) são ado-

tadas em todos os experimentos realizados. Essas duas medidas computam a sobreposição de unigramas e bigramas, respectivamente, entre os resumos gerados automaticamente e o conjunto de resumos de referência. Essas medidas foram adotados porque demonstraram ter uma alta correlação com avaliações humanas na literatura (LIN, 2004;OWCZARZAK et al., 2012). A versão ROUGE 1.5.5 foi executada, adotando o seguintes parâmetros: -m -l 100 -f A.

Em todos os experimentos realizados, o limiar do tamanho máximo do resumo a ser gerado foi definido como 105 palavras. Esse limiar foi adotado por possibilitar a geração de resumos com tamanhos equivalentes aos produzidos pelos sistemas do estado da arte considerados nos experimentos (aproximadamente 100 palavras). Todas as avaliações fo- ram executadas em um computador com as seguintes especificações: Intel Core i7-4510U com 2,6 GHz, 16 gigabytes de memória RAM, um terabyte de disco rígido e executando o Windows 8.1 64 bits.

É importante ressaltar que os resultados dos experimentos discutidos neste capítulo para o corpus do DUC 2003 diferem em relação aos apresentados no Capítulo 3. Essa diferença ocorre porque mais resumos de referência escritos pelos organizadores da com- petição do DUC 2003 foram adotados nos experimentos deste capítulo para a avaliação dos resumos automáticos nesse corpus.

5.2.2

Avaliando as Formas de Representação e os Métodos de Ponderação