Objetivo: a ferramenta desenvolvida por Nóbrega e Pardo (2016) tem o objetivo de
facilitar a avaliação da informatividade de sumários gerados para o corpus CSTNews com base no pacote de medidas automáticas da ROUGE.
O pacote de medidas ROUGE: As medidas ROUGE mensuram o nível de
informatividade de um sumário por meio do cálculo da coocorrência de n-gramas, ou seja, realiza a comparação da quantidade de palavras em comum entre o sumário automático e um ou mais sumários humanos. Na medida ROUGE, o n-grama pode variar de 1 a 4 palavras. Dessa forma, a medida ROUGE-1 calcula a coocorrência de unigramas, a ROUGE-2 calcula a coocorrência de bigramas, e assim sucessivamente. Nesse pacote de medidas, a avaliação é obtida pelos cálculos de precisão (P), cobertura (C) e medida-f (em inglês, precision, recall e f-measure, respectivamente) (LIN, 2004).
Ferramenta: a interface é denominada NILC-WISE (NILC - Web Interface for Summary
Evaluation) e está disponível em http://nilc.icmc.usp.br/nilcwise. A ferramenta possui em sua base de dados 5 conjuntos de textos de referência para o corpus CSTNews, sendo (i) abstracts, (ii) extratos e (iii) textos-fonte configurados para a Sumarização de Atualização. Assim, os sumários gerados para o CSTNews podem ser comparados a cada um desses conjuntos de textos, conforme a necessidade do usuário.
Metodologia de avaliação: o processo de avaliação por meio da interface NILC-WISE
consiste nos seguintes passos:
Acessar a página web: http://nilc.icmc.usp.br/nilcwise que deverá ser exibida da seguinte forma:
Criar uma conta de acesso: para isso o usuário deve cadastrar-se clicando em “Register” na barra superior. Para o registro é preciso fornecer dados como e-mail, afiliação, país e informar uma senha, conforme figura abaixo. O e-mail e a senha informados serão necessários para acessar o sistema.
Acessar o sistema: na barra superior o usuário deverá clicar em “Login” e então, informar o e-mail e a senha cadastrados anteriormente e clicar em “Sign in”. Após estar “logado” na sua conta, o usuário poderá iniciar o processo de submissão de sumários para avaliação. Esse processo conta com 2 etapas, conforme descritas a seguir.
Etapa 1: Inserir os sumários a serem avaliados
Para inserir os arquivos dos sumários a serem avaliados, o usuário deve clicar em “Summaries” na barra superior e então em “Add more sumaries”
O usuário será direcionado para a seguinte página:
Nessa página será necessário informar os dados a respeito do sumário a ser avaliado. É possível inserir apenas 1 (um) arquivo por vez. Os campos indicados com * são obrigatórios.
No campo “Title to identify your summaries” é necessário informar o nome dado ao arquivo que contém o sumário a ser avaliado. Esse nome deve seguir o padrão dos arquivos do CSTNews que estão na base de dados da ferramenta NILC-WISE com os quais o sumário em avaliação será comparado. No caso do CSTNews, cada conjunto de textos de referências está no formato C[1-50]_[letras].txt. Assim, se o usuário for submeter à avaliação um sumário gerado para a Coleção 1, por exemplo, o arquivo deve ser nomeado como C1 seguido de _ e uma letra (apenas uma letra), por exemplo: C1_N.
O campo “A optional description of your summaries” não é obrigatório e poderá ser preenchido com a descrição do sumário em avaliação, a critério do usuário.
O campo seguinte “The pattern used to name your files. Please, it uses parentheses to delimit the file ID. For instance, (C\d+).txt” refere-se ao padrão (utilizado para nomear os arquivos) por meio do qual a ROUGE encontrará o arquivo a ser avaliado. Assim, no caso de um arquivo nomeado como C1_N, por exemplo, esse campo deverá ser preenchido da seguinte forma: (C\d+)_N.txt. Esse padrão especifica para a ROUGE procurar arquivos que:
• Iniciem com a letra C
• Seguida de um ou mais números (= \d+)
• O caractere _
• Finalizado com a letra N.txt
O campo “The title or link for the scientific paper with the description of your summaries” não é obrigatório e poderá ser preenchido a critério do usuário com o link do artigo científico que descreve os detalhes sobre o sumário sob avaliação.
No campo “Language of your summaries” é necessário indicar a língua na qual o sumário foi gerado. Como a ferramenta possui indexada à sua base de dados apenas arquivos referentes ao corpus CSTNews, que é um corpus de referência para o Português, a única língua disponível é o português. Por isso, deve-se selecionar a opção PT-BR
No campo “Inputsummaries” o usuário deverá carregar o arquivo do sumário a ser avaliado clicando em “Escolher arquivos”. O arquivo deve possuir formato e codificação conforme as especificações da ferramenta NILC-WISE. Nesse caso, os arquivos devem ser criados por um editor de texto que apresente a extensão .txt (o “bloco de notas” e o “Notepad++” são exemplos de editores de texto) e devem ser codificados como UTF-8. No “Bloco de Notas” do Windows, por exemplo, ao solicitar para “salvar” o arquivo, a opção “Codificação” irá aparecer na tela (conforme imagem abaixo) e então, é só selecionar “UTF-8”:
Após selecionar o arquivo a ser carregado é necessário clicar em e então, a etapa de inserção de sumários será finalizada.
Esta etapa deverá ser repetida a cada novo arquivo a ser submetido.
Todos os arquivos inseridos pelo usuário ficarão salvos no sistema e poderão ser editados quando necessário. Para acessá-los, o usuário deve clicar em “Summaries” na aba superior. Então, todos os arquivos salvos serão exibidos.
Para editar ou excluir um arquivo é necessário clicar no ícone “details” correspondente ao arquivo a ser editado/excluído (conforme a figura abaixo):
Após clicar em “details” a ferramenta exibirá as informações sobre o sumário em questão bem como arquivo carregado quando da inserção do sumário no sistema. Uma tela parecida com a figura seguinte será exibida:
Para editar as informações, o usuário deve clicar em . Todos os campos podem ser alterados, exceto o campo “Title”, pois este é imutável. Além disso, um novo arquivo deverá necessariamente ser carregado, pois ao clicar para editar, a ferramenta exclui automaticamente o arquivo carregado anteriormente. Para finalizar a edição, é necessário clicar em no final da página.
Para excluir um arquivo, após clicar em “details”, o usuário deve clicar em . O sistema pedirá para o usuário confirmar a exclusão. Ao confirmar, o sumário será excluído do sistema.
Etapa 2: Avaliação dos sumários
Para dar início à avaliação dos sumários, o usuário deve clicar em “Evaluation” na barra superior e então em
O usuário será direcionado para a página “Evaluate your summaries” e o seguinte formulário aparecerá:
Em “Model DataSet” o usuário deverá selecionar o conjunto de sumários de referência com o qual o sumário em avaliação deverá ser comparado. A ferramenta NILC-WISE disponibiliza 5 conjuntos de textos de referência para o CSTNews:
Após selecionar o conjunto de sumários de referência com o qual deverá ser feita a comparação, o usuário deverá escolher a métrica a ser utilizada na avaliação. No caso da métrica ROUGE, é necessário selecionar “ROUGE”
No campo “Select your summaries”, o usuário deve selecionar o arquivo a ser avaliado, o qual já foi inserido na etapa 1.
Na sequência o usuário deve clicar em . O NILC-WISE realizará a avaliação e apresentará uma tela com os dados da avaliação e uma tabela com os cálculos das medidas de Cobertura (R), Precisão (P) e Medida-F (F) do sumário avaliado para ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4 e ROUGE-L.
Na imagem abaixo apresenta-se um exemplo do resultado da avaliação ROUGE para um extrato gerado para a Coleção 1 (C1) e comparado ao conjunto de abstracts (sumários humanos):
---
1 ROUGE-1 Average_R: 0.40851 (95%-conf.int. 0.40851 - 0.40851) 1 ROUGE-1 Average_P: 0.41026 (95%-conf.int. 0.41026 - 0.41026) 1 ROUGE-1 Average_F: 0.40938 (95%-conf.int. 0.40938 - 0.40938) ...
1 ROUGE-1 Eval 1.1 R:0.40851 P:0.41026 F:0.40938 ---
1 ROUGE-2 Average_R: 0.17467 (95%-conf.int. 0.17467 - 0.17467) 1 ROUGE-2 Average_P: 0.17544 (95%-conf.int. 0.17544 - 0.17544) 1 ROUGE-2 Average_F: 0.17505 (95%-conf.int. 0.17505 - 0.17505) ...
1 ROUGE-2 Eval 1.1 R:0.17467 P:0.17544 F:0.17505 ---
1 ROUGE-3 Average_R: 0.10762 (95%-conf.int. 0.10762 - 0.10762) 1 ROUGE-3 Average_P: 0.10811 (95%-conf.int. 0.10811 - 0.10811) 1 ROUGE-3 Average_F: 0.10786 (95%-conf.int. 0.10786 - 0.10786) ...
1 ROUGE-3 Eval 1.1 R:0.10762 P:0.10811 F:0.10786 ---
1 ROUGE-4 Average_R: 0.07373 (95%-conf.int. 0.07373 - 0.07373) 1 ROUGE-4 Average_P: 0.07407 (95%-conf.int. 0.07407 - 0.07407) 1 ROUGE-4 Average_F: 0.07390 (95%-conf.int. 0.07390 - 0.07390) ...
1 ROUGE-4 Eval 1.1 R:0.07373 P:0.07407 F:0.07390 ---
1 ROUGE-L Average_R: 0.38298 (95%-conf.int. 0.38298 - 0.38298) 1 ROUGE-L Average_P: 0.38462 (95%-conf.int. 0.38462 - 0.38462) 1 ROUGE-L Average_F: 0.38380 (95%-conf.int. 0.38380 - 0.38380) ...
Todas as avaliações são salvas na base de dados. Assim, quando o usuário necessitar consultar as informações sobre as avaliações realizadas, deverá acessar a página de avaliação (“Evaluation” na barra superior) e selecionar a avaliação que pretende consultar.