Arcabouço Geral dos Experimentos Realizados

CAPÍTULO 6 EXPERIMENTOS DE AVALIAÇÃO

6.1 Arcabouço Geral dos Experimentos Realizados

Neste trabalho foram feitas avaliações buscando-se comparar entre si os diversos modelos propostos e também com outros sumarizadores existentes. Devido ao número de modelos considerados, o foco das comparações foi objetivo e não subjetivo.

Para isso, foram conduzidas avaliações intrínsecas automáticas. Nessas avaliações, os extratos produzidos pelos modelos foram comparados com sumários de referência manuais (gold-standards). Segundo Spärck-Jones (2007) esse tipo de avaliação é interessante, pois considera de forma implícita o propósito dos sumários. Se os sumários manuais forem construídos visando propósitos particulares, a comparação com os sumários automáticos tenderá a levar em conta a adequação a esses propósitos. Além disso, Spärck-Jones (2007) também apontam que esse tipo de avaliação tem sido a mais utilizada e mais operacionalmente viável nos últimos anos.

As avaliações automáticas conduzidas foram exclusivamente black-box28, sem se considerar estados internos dos algoritmos de aprendizado de máquina empregados. Uma avaliação glass-box automática seria possível, por exemplo, se

fossem utilizados mecanismos automáticos de geração de regras a partir dos classificadores produzidos (e.g., Witten e Frank 2005). Essas regras poderiam permitir, em teoria, o estudo das fronteiras de decisão delineadas pelos classificadores empregados. Entretanto, devido ao número de modelos avaliados ser grande, essa análise adicional traria uma complexidade maior e, por isso, não foi focada tendo em vista os objetivos principais deste trabalho.

Sempre que possível, a configuração dos experimentos foi ajustada de modo a permitir a comparação com resultados publicados por outros autores. Por isso, existe variação de configuração dos experimentos conforme o subconjunto de modelos avaliados, considerando corpora, taxa de compressão, etc. A Seção 6.1.1 descreve a divisão que foi seguida nos experimentos.

6.1.1 Proposta de Experimentos

Os experimentos foram conduzidos em 5 fases, de forma a avaliar primeiramente subconjuntos de modelos para posteriormente realizar uma avaliação final com os modelos mais promissores. A divisão é como segue:

Experimento 1 (Seção 6.2): trata da avaliação do SuPor-2, descrito na Seção 5.1, e em sua comparação com outros sistemas, incluindo o próprio SuPor original. Nesta fase, verificou-se a efetividade das modificações introduzidas no SuPor-2 em relação ao SuPor original. Além disso, os resultados obtidos também originaram evidências para verificação da Hipótese 3 deste trabalho, que propõe que a forma de combinação e ponderação das características tem influência significativa na qualidade dos sumários.

Experimento 2 (Seção 6.3): trata da avaliação dos modelos construídos com base no método TextRank (Seção 5.2). Os resultados produzidos nesta fase também serviram como evidência para verificação da Hipótese 1 proposta neste trabalho, de que a combinação de características distintas é benéfica para a SA;

Experimento 3 (Seção 6.4): trata da avaliação dos modelos que combinam características de redes complexas com características do SuPor-2, descritos na Seção 5.3. Os resultados desta fase serviram como base também para a verificação das três hipóteses propostas neste trabalho;

Experimento 4 (Seção 6.5): trata da avaliação do modelo de SA baseado em ranking nebuloso de sentenças, descrito na Seção 5.4. Os resultados obtidos nesta etapa serviram como evidência na verificação da Hipótese 3 deste trabalho;

Experimento 5 (Seção 6.6): esta última etapa objetivou determinar o melhor modelo de SA, a partir do conjunto dos modelos mais promissores indicados nos experimentos anteriores.

6.1.2 Corpora Utilizados

Os corpora utilizados para avaliação dos modelos desenvolvidos foram todos de textos jornalísticos em Português do Brasil e incluem tanto os textos originais quanto os sumários de referência construídos manualmente. São eles:

a) TeMário-2003 (Pardo e Rino 2003). Compreende um conjunto de 100 textos jornalísticos extraídos da Folha de São Paulo e do Jornal do Brasil. Um sumário manual construído por especialista humano acompanha cada texto-fonte, com tamanho entre 25% e 30%, em relação ao tamanho do texto original. O corpus também possui extratos ideais de referência, construídos automaticamente a partir dos sumários manuais pela ferramenta GEI (Pardo e Rino 2004). Ao todo, o corpus possui 2940 instâncias (sentenças) rotuladas.

b) Summ-it (Collovini et al. 2007). Compreende um conjunto de 50 textos de divulgação científica, com tamanho variando de 127 a 654 palavras. Cada texto também é acompanhado de seu respectivo sumário de referência construído manualmente. O corpus também possui extratos ideais de referência, construídos automaticamente a partir dos sumários manuais pela ferramenta GEI (Pardo e Rino 2004). Ao todo, o corpus possui 851 instâncias (sentenças) rotuladas.

c) TeMário-2006 (Maziero et al. 2007). Construído nos mesmos moldes do TeMário original, é, na verdade, um complemento daquele, porém agora com 151 textos extraídos do jornal on-line Folha de São Paulo, de diversos cadernos. Ao todo, o corpus possui 9027 instâncias (sentenças) rotuladas.

6.1.3 Taxa de Compressão

A definição de taxa de compressão utilizada nos experimentos foi apresentada na Seção 3.1.2. As taxas foram determinadas para serem compatíveis com o tamanho dos sumários de referência utilizados ou compatíveis com as utilizadas em experimentos conduzidos por outros autores, permitindo a comparação de resultados.

Há duas formas de se calcular a taxa de compressão: baseando-se no número de sentenças ou no número de palavras. Neste trabalho, foram utilizadas as duas formas. O critério adotado foi indicado em cada etapa de avaliação descrita neste capítulo. O critério preferencial utilizado foi o de cálculo com base no número de palavras. O cálculo com base no número de sentenças foi utilizado apenas para permitir a comparação com resultados publicados por outros autores.

6.1.4 Métricas de Avaliação

Foram utilizadas tanto as métricas automáticas de Precisão, Cobertura e F-

measure quanto as métricas calculadas pela ferramenta ROUGE (vide Seção 2.3), com 95% de confiança. Ambos os tipos de métrica focam na avaliação da informatividade dos extratos produzidos em comparação com os sumários manuais. A preferência neste trabalho foi a utilização da ROUGE devido ao fato de ela ser a mais utilizada em avaliações automáticas (Spärck Jones 2007), além de ter sido reportado pelos autores da ferramenta que suas medidas apresentam boa correlação com as avaliações humanas, conforme já citado anteriormente.

6.1.5 Avaliação dos Modelos Treinados

No caso dos modelos que exigem treinamento, a avaliação foi feita geralmente utilizando a técnica de N-fold cross-validation, já utilizada na Seção 5.1.4. A utilização dessa técnica permite intercambiar dados de treino e teste, evitando a necessidade de corpora de treino e testes separados.

O funcionamento é como segue: o conjunto de dados é separado em N subconjuntos disjuntos e em cada uma de N fases há um conjunto de dados de treino obtido concatenando N – 1 dos subconjuntos e um conjunto de dados de

validação que usa o restante do subconjunto; o processo é repetido N vezes, permutando de forma circular os subconjuntos. O N adotado foi indicado em cada avaliação conduzida.

No documento Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em português (páginas 134-138)