• Nenhum resultado encontrado

Este capítulo apresentou uma breve introdução aos principais conceitos relacionados a área de SAT, de forma a permitir uma melhor compreensão do restante deste trabalho de doutorado. Para uma visão mais abrangente da área, os seguintes surveys são sugeri- dos: (NENKOVA; MCKEOWN, 2012; LLORET; PALOMAR, 2012; SAGGION; POIBEAU, 2013;

GAMBHIR; GUPTA, 2016).

A análise da literatura na tarefa de sumarização monodocumento evidenciou que exis- tem alguns trabalhos (HIRAO et al., 2013;KIKUCHI et al., 2014;PARVEEN; RAMSL; STRUBE,

2015a, 2015a; DURRETT; BERG-KIRKPATRICK; KLEIN, 2016) que modelam o processo de

sumarização, como um problema de máxima cobertura, adotando PLI. Contudo, esses trabalhos adotam unidades de discurso ou sentenças como fragmentos textuais que são extraídos e ponderados. No melhor do conhecimento do autor deste trabalho, nenhum dos trabalhos identificado adota uma modelagem baseada em conceitos (unigramas, bi- gramas) conforme proposto por Gillick et al. (2009). Além disso, a maioria dos trabalhos identificados são estáticos, ou seja, adotam uma abordagem com um conjunto de parâme- tros pré-definidos para todos os documentos de entrada. Conforme apontado por Hong, Marcus e Nenkova (2015), na tarefa de sumarização multidocumento, tal característica é uma significante limitação das atuais abordagens extrativas de sumarização.

área tem sido mais focada nos últimos anos do que a sumarização monodocumento

(GAMBHIR; GUPTA, 2016). Em especial, as abordagens baseadas em conceitos usando

PLI (GILLICK et al., 2009; LI; QIAN; LIU, 2013; BANERJEE; MITRA; SUGIYAMA, 2015b;

BOUDIN; MOUGARD; FAVRE, 2015; LI; LIU; ZHAO, 2015) têm se destacado pelos bons re-

sultados obtidos. Essas abordagens visam maximizar a cobertura de conceitos relevantes no resumo gerado, respeitando o tamanho máximo do resumo desejado. Em sua grande maioria, bigramas têm sido adotados como conceitos, e para mensurar sua relevância são aplicados métodos individuais, como a frequência dos documentos em que o conceito é mencionado, ou adotando algoritmos de regressão para estimar a importância dos concei- tos. Esses trabalhos possuem uma importante limitação pois adotam uma configuração (forma de representação e método de ponderação) estática para todos os documentos de entrada. Além disso, com exceção dos trabalhos de Hong, Marcus e Nenkova (2015), Wan et al. (2015), nenhum dos outros trabalhos identificados buscam analisar (em nível de resumo) e selecionar o resumo mais informativo.

Somente na tarefa de sumarização multidocumento, é possível observar que poucos trabalhos (HONG; MARCUS; NENKOVA, 2015; WAN et al., 2015) têm investigado a análise,

em nível de resumo, visando discriminar o resumo mais informativo a partir de um con- junto de resumos candidatos. Essa lacuna e as limitações observadas nos dois trabalhos existentes, motivaram a proposta da abordagem combinando PLI e regressão proposta neste trabalho de doutorado.

No próximo capítulo serão apresentados os experimentos conduzidos visando investi- gar diferentes métodos de pontuação de sentenças e estratégias de combinação para as tarefas de SAT monodocumento e multidocumento. Tal investigação será fundamental para identificar quais aspectos influenciam cada uma das tarefas de sumarização.

3 AVALIANDO TÉCNICAS E ESTRATÉ-

GIAS DE COMBINAÇÃO PARA A PON-

TUAÇÃO DE SENTENÇAS

Abordagens extrativas para a SAT usualmente são executadas em três etapas princi- pais (NENKOVA; MCKEOWN, 2012): (i) Criação de uma representação intermediária; (ii)

Mensuração da importância de elementos textuais como, por exemplo, n-gramas ou sen- tenças; e (iii) Geração do resumo. Dois importantes aspectos que precisam ser tratados nesse tipo de abordagem são: (i) Como mensurar a importância de uma sentença; e (ii) Como evitar redundância no resumo gerado.

Diversas técnicas para mensurar a relevância das sentenças em abordagens de SAT extrativa têm sido propostas e avaliadas na literatura ao longo dos anos. Essas abordagens podem ser categorizadas quanto a complexidade das técnicas adotadas em: Superficiais e Profundas. As abordagens superficiais são simples de implementar, exigem um baixo processamento computacional e necessitam de pouco ou nenhum conhecimento linguístico. Por outro lado, as abordagens profundas se caracterizam pelo uso de recursos semânticos, como Ontologias (BARALIS et al., 2013), analisadores semânticos (KHAN; SALIM; KUMAR,

2015), analisadores de discurso(JORGE; PARDO, 2010; MAZIERO; JORGE; PARDO, 2014),

entre outras técnicas que buscam proporcionar uma maior compreensão do texto.

Nem sempre os resultados alcançados pelas abordagens profundas valem o esforço gasto, dado o custo computacional requerido e a indisponibilidade de recursos semânticos necessários. Por exemplo, em Baralis et al. (2013), os autores fazem uso da ontologia Yago

(SUCHANEK; KASNECI; WEIKUM, 2007) para identificar entidades, por exemplo, nome de

pessoas, cidades, organizações, mencionadas no texto. O acesso e a disponibilidade de recursos como esse ainda é complexo, e demanda um alto processamento computacional. Diante disso, as técnicas superficiais podem representar uma solução viável para equilibrar os aspectos de desempenho e recursos necessários para execução.

Diversos trabalhos identificaram e avaliaram o desempenho de várias técnicas superfi- ciais para mensurar a importância das sentenças para SAT (NETO; FREITAS; KAESTNER,

2002; BINWAHLAN; SALIM; SUANMALI, 2009; ABUOBIEDA et al., 2013; MEENA; GOPALANI,

2014; FERREIRA et al., 2013; MEENA; DEOLIA; GOPALANI, 2015; SILVA et al., 2015b). Es-

ses trabalhos investigaram a aplicação dessas técnicas individualmente ou utilizando es- tratégias para combiná-las, por exemplo, usando algoritmos de aprendizagem de má- quina (NETO; FREITAS; KAESTNER, 2002; SILVA et al., 2015b), algoritmos evolucionários

(BINWAHLAN; SALIM; SUANMALI, 2009;ABUOBIEDA et al., 2013), combinações das pontua-

DEOLIA; GOPALANI, 2015), entre outras.

Algumas lacunas podem ser apontadas nos trabalhos citados anteriormente: (i) Ex- perimentos conduzidos, na maioria dos casos, utilizando apenas um único corpus por domínio (notícias, blogs, artigos científicos, entre outros), o que compromete a generali- zação das conclusões obtidas; (ii) Alguns trabalhos utilizaram apenas um subconjunto de documentos de um corpus, por exemplo, Meena e Gopalani (2014), Meena, Deolia e Go- palani (2015) utilizaram apenas cem documentos do corpus do DUC 2002 para investigar diversas técnicas superficiais e combinações na tarefa de sumarização monodocumento;

(iii)Com exceção de Meena, Deolia e Gopalani (2015), que analisaram todas as possíveis

combinações de seis métodos de pontuação de sentenças, outros trabalhos não deixaram claro quais os critérios adotados para compor as combinações investigadas; e (iv) Falta de uma comparação entre diferentes estratégias para a combinação das técnicas de pon- tuação.

Diante dessas lacunas, este capítulo tem por objetivo investigar a performance de dezoito técnicas superficiais para mensurar a importância das sentenças nas tarefas de sumarização monodocumento e multidocumento no contexto de artigos de notícias escritos em Inglês. As técnicas investigadas foram selecionadas por serem frequentemente citadas na literatura e por terem apresentado bons resultados em diversos trabalhos. Além disso, quatro estratégias para a combinação das técnicas investigadas foram analisadas.

As principais contribuições deste capítulo são:

• Uma extensa investigação de diversas técnicas superficiais para computar a impor- tância das sentenças e estratégias de combinação considerando as tarefas de sumari- zação monodocumento e multidocumento. Tal investigação foi conduzida utilizando os corpora do DUC 2001-2002 e o corpus CNN para a sumarização monodocumento, enquanto que para a sumarização multidocumento foram adotados os corpora do DUC 2001-2004.

• Identificação de combinações que apresentam resultados competitivos com diver- sos sistemas do estado da arte, tanto na sumarização monodocumento quanto na multidocumento.

• As diversas análises realizadas permitiram uma investigação do comportamento das técnicas e sistemas de SAT, possibilitando identificar lacunas que precisam ser resol- vidas e quais aspectos influenciam cada tarefa (monodocumento e multidocumento). O restante deste capítulo está organizado como segue: Na Seção 3.1 são apresentadas uma visão geral do processo de sumarização adotado, e uma breve descrição de cada uma das técnicas de pontuação de sentenças investigadas. Na Seção 3.2 são apresentados os resultados dos experimentos realizados. Por fim, na Seção 3.3 são apresentadas as considerações finais do capítulo.