4.2 EXPERIMENTOS
5.1.2 Algoritmo: simplificação de sentença baseada em sintaxe
A figura 13 ilustra o algoritmo proposto para remoção de trechos não importantes das sentenças, baseado nas regras descritas na seção anterior. O algoritmo recebe como entrada o resumo composto por uma ou mais sentenças, em seguida inicia a etapa de pré- processamento usando o Stanford Natural Language Processing Toolkit (CoreNLP)1. As
tarefas de Processamento de Linguagem Natural (PLN) executadas no pré-processamento são: segmentação de sentenças, tokenização, lematização, atribuição das classes gramaticais, identificação de entidades nomeadas (NER), análise sintática e resolução de correferência. Após a fase de pré-processamento, são aplicadas, em sequência, todas as regras de simplicação descritas na seção anterior. Ao final, é analisado se a taxa de compressão (número de palavras) do sumário é igual ao sumário original, se não, é recuperada a sentença seguinte na ordenação de relevância do sumário extrativo, que atenda a taxa de 1 https://stanfordnlp.github.io/CoreNLP/
compressão e retorna ao fluxo inicial. Esse processo é repetido até que o limite da taxa de compressão seja atingido.
Figura 13 – Fluxograma do algoritmo proposto.
5.2 EXPERIMENTOS
Esta seção apresenta e discute os experimentos realizados para avaliar diferentes aspectos da abordagem proposta, nas tarefas de redução de sentenças para sumarização monodocumento semi-extrativa. Os experimentos foram conduzidos buscando avaliar manualmente os seguintes aspectos: (i) se a tarefa de compressão de sentenças mantém a legibilidade (também chamada de gramaticalidade e fluência) da sentença original; (ii) se a tarefa de compressão de sentenças mantém a informatividade (também chamada de importância e representatividade) da sentença original; e (iii) se o percentual de compressão é relevante o suficiente para adicionar novas sentenças e/ou palavras ao sumário, aumentando assim a sua informatividade.
Antes de discutir os resultados obtidos, uma breve descrição do ambiente experimental adotado é apresentada na próxima seção.
5.2.1 Configurações dos Experimentos
Todos os experimentos foram realizados no conexto de redução de sentenças, para isso adotou-se um grande corpus2 anotado para compressão de sentenças e uma ferramenta3
para avaliação manual do método proposto nesta tese.
Corpus. Google sentence-compression (FILIPPOVA; ALTUN, 2013) é um corpus com 250 mil pares de sentenças extraídas de notícias em inglês e coletadas a partir do serviço Google News4. Esses pares de sentenças são formados pelo título (manchete) e a primeira
sentença da notícia, pois são conhecidos como semanticamente semelhantes (DORR; ZAJIC; SCHWARTZ, 2003). Segundo Filippova e Altun (2013), pouquíssimos títulos são compressões extrativas da primeira sentença, portanto, simplesmente procurar por pares onde o título é uma subsequência das palavras da primeira sentença não resolveria o problema de obter uma grande quantidade de dados paralelos. É importante ressaltar que os títulos são sintaticamente bem diferentes das sentenças “normais”. Por exemplo, eles podem não ter verbo principal, omitir determinantes e parecer incompletos.
Assim, em vez de usar o título original, Filippova e Altun (2013) usaram o título para encontrar uma compressão extrativa adequada da primeira sentença da notícia, combinando lemas de palavras (substantivos, verbos, adjetivos, advérbios) e identificadores das correferências das entidades do título com as da sentença. De modo que a árvore de dependência da compressão seja uma subárvore da árvore da sentença original. Esse corpus é usado principalmente para treinar sistemas supervisionados de compressão de sentenças.
Ferramenta de avaliação. Foi adotada a ferramenta figure-eight5 para avaliação humana. Ela usa o conceito de Human-in-the-loop (HITL)6 para criar e validar modelos de
aprendizagem de máquina usando inteligência humana e de máquina. Em uma abordagem tradicional da HITL, as pessoas estão envolvidas em um círculo virtuoso no qual elas treinam, ajustam e testam um algoritmo específico.
Figure-eight é similiar a ferramenta Amazon Turk usada no capítulo 3. No atual capítulo Figure-eight foi adotada porque é mais usada por grandes empresas como a própria Amazon, Autodesk, Google, Facebook, Twitter, Cisco Systems, GitHub, Mozilla, VMware, eBay, Etsy, Toyota e American Express para ajudar a melhorar os modelos de todas as faixas, sejam classificadores de texto, algoritmos de visão computacional ou modelos de pesquisa e recuperação de informações. Pode-se criar grandes quantidades de dados de treinamento altamente precisos para um dado caso de uso, ajustar modelos com percepção humana e testá-los para garantir que as decisões sejam precisas e acionáveis.
Metodologia de avaliação. Foram selecionadas aleatoriamente 10 mil sentenças originais do corpus do Google, em seguida aplicou-se o método proposto baseado em 2 https://github.com/google-research-datasets/sentence-compression
3 https://www.figure-eight.com/
4 https://news.google.com/?hl=en-US&gl=US&ceid=US:en 5 https://www.figure-eight.com/
regras para redução de sentenças e, por fim, foram selecionados de forma aleatória as 256 sentenças com maiores percentuais de reducão para avaliação da abordagem proposta.
Durante a etapa de avaliação humana aplicaram-se questionários para avaliar a fluência e a informatividade das novas sentenças reduzidas. Para garantir a qualidade do processo de avaliação foram adotados os seguintes critérios na ferramenta figure-eight:
1. permitir apenas avaliadores de 9 países (Estados Unidos, Canadá, Austrália, Reino Unido, Bahamas, Barbados, India, Jamaica e Nova Zelândia), cuja língua oficial é o inglês;
2. os avaliadores devem possuir uma acurácia mínima de 70%. Essa porcentagem é a precisão mínima que um avaliador deve manter durante a avaliação para continuar avaliando. Se o avaliador ficar abaixo dessa precisão a qualquer momento, ele ou ela será removido do trabalho e todas as suas respostas serão desconsideradas ou não confiáveis.
Para calcular essa porcentagem, foram usadas algumas perguntas de teste com casos positivos e negativos em cada questionário. Sendo que para cada avaliação válida, o avaliador deveria responder no mínimo uma pergunta de teste;
3. um número de 3 avaliadores para cada questionário. No final é calculado um percen- tual de confiança (descrito na próxima seção);
4. o tempo mínimo por questionário deve ser de 25 segundos;
5. cada avaliador só pode responder no máximo 10 questionários. Sendo uma sentença avaliada por questionário; e
6. todos os avaliadores devem ser nível 2 na ferramenta. Esse nível indica maior qualidade, ou seja, consiste num grupo menor de colaboradores mais experientes e com maior precisão.
A figure-eight possui 3 níveis de avaliadores, sendo o nível 3 os avaliadores mais qualificados na ferramenta e consequentemente as avaliações com maior preço. Na seção a seguir descreve-se os detalhes dos questionários aplicados, a média resultante da pontuação de confiança dos 3 avaliadores e os resultados da avaliação intrínseca (Subseção 5.2.2.1)