• Nenhum resultado encontrado

6.5 O Processo de Avaliação

6.5.3 Etapa 2: Validação dos Resultados da Extração dos Temas

Tratados os dados da pesquisa, o próximo passo consistiu em avaliar os re- sultados da extração dos temas. A tarefa executada pelo EOP muito se assemelha à extração de palavras-chave, porém com algumas particularidades, principalmente no que diz respeito à definição acerca de quais termos linguísticos podem ser expressos. Segundo a metodologia do EOP, os temas são sempre expressos pelas entidades nomeadas e outros substantivos, ou seja, elementos do texto que expressam “sobre a que o texto se refere” ou “de que lugar, organização ou pessoas ele trata”. Um extrator de palavras-chave não tem como foco reconhecer as entidades nomeadas, porém, tal como o EOP, busca apresentar os termos relevantes de um documento. Desta forma, utilizar extratores de palavras-chave para realização de uma avaliação comparativa exigiu alguns cuidados e adaptações:

∙ Os sistemas foram escolhidos pela capacidade de processar textos em língua portu- guesa, ou, ao menos, por ser independente da língua do documento.

∙ Sempre que possível, o sistema escolhido teve sua lista de stop-words alterada para a mesma lista usada no EOP.

∙ As palavras-chave extraídas por cada sistema foram manualmente filtradas para restarem apenas as entidades nomeadas e substantivos, aproximando os resultados a aquele obtido pelo EOP.

Com essas considerações, foram selecionadas cinco metodologias de extração de palavras-chave para análise comparativa:

1. TF-IDF (Term Frequency - Inverse Document Frequency): é um dos mais populares e conhecidos métodos de extração de palavras-chave. Seu uso é facilmente adaptado para qualquer língua, uma vez que o cálculo de relevância dos termos se dá a partir da frequência de uso das palavras em um documento. Por ser um método publicado pela primeira vez em 1972, o TF-IDF é base para muitas outras metodologias de extração de palavras-chave, mas devido a sua simplicidade e efi- ciência, a abordagem inicial ainda é amplamente utilizada (ROBERTSON, 2004). Para seu uso na avaliação do EOP, foi utilizada uma implementação disponível na biblioteca NLTK do Python, a qual fornece lematizadores e tokenizadores para a língua portuguesa. A lista de stop-words foi substituída para a mesma lista usada no EOP.

2. GenSim: é uma coleção de scripts para Python desenvolvida, inicialmente, para a extração de artigos similares dado um artigo de referência (REHUREK; SOJKA, 2011). A metodologia de extração de informação é fundamentada no método su- pervisionado LDA (Latent Dirichlet Allocation) (BLEI et al., 2003), um modelo

Capítulo 6. Avaliação do Extrator de Opinião Pública 167

probabilístico generativo bayesiano para extração de tópicos. Na coleção de scripts do GenSim, o método foi adaptado para diversas tarefas de PLN. como extração de palavras-chave e frases relevantes. Implementados usando funções da biblioteca NLTK do Python, os métodos disponíveis dão suporte a diversas línguas, dentre elas o português. No entanto, como a ferramenta é treinada com um corpus específico, não é possível utilizar a mesma lista de stop-words do EOP.

3. LexRank: é um método baseado em gráficos estocásticos para calcular a impor- tância relativa de unidades textuais nas mais diversas tarefas da recuperação de informação, dentre elas a extração de palavras-chave e frases relevantes (ERKAN; RADEV, 2004). Sua adaptação para a língua portuguesa também está relacionada ao suporte das bibliotecas do NLTK.

4. Sketch Engine: publicada em 2004 como uma ferramenta de sumarização de tex- tos em inglês (KILGARRIFF et al., 2014a), a metodologia foi aprimorada ao longo dos anos dando origem ao Sketch Engine, um framework para diversas atividades de PLN e com proposta multilíngue. Fundamentado em abordagens supervisionadas, as atividades do Sketch Machine dependem de um corpus linguístico para adaptar-se as mais diversas línguas. Para a língua portuguesa, o sistema foi treinado com um cor- pus de origem no português de Portugal, considerado uma adaptação “boa” segundo avaliação apresentada por Kilgarriff et al. (2014b). Não foram feitas alterações para uso da metodologia na avaliação comparativa.

5. Linguakit: é uma coleção de ferramentas para diversas atividades de processa- mento de linguagem natural multilíngue, porém, com foco na língua portuguesa. As ferramentas foram desenhadas e desenvolvidas a partir de inúmeras estraté- gias de PLN, como análises simbólica e estatística, aprendizagem supervisionada, não-supervisionada e semi-supervisionada (GAMALLO; GARCIA, 2017). Como um sistema voltado especialmente para línguas latinas, não houve necessidade de adap- tações para o uso na avaliação comparativa.

Duas hipóteses foram levantadas para a validação dos temas: (1) um sistema é tão mais eficiente quanto mais próxima sua solução estiver da solução indicada pelos juízes na tarefa de seleção dos temas; (2) a relevância do tema medida na avaliação pelos juízes pode ser expressa pelo seu respectivo índice de potenciação.

Para testar a primeira hipótese, todas as palavras-chave distintas selecionadas pelos juízes foram usadas como conjunto de referência. O banco de dados foi processado por cada um dos cinco métodos descritos acima e pelo EOP, obtendo diferentes conjun- tos de palavras-chave. Para fins de comparação, foram utilizadas as métricas precisão, revocação e medida-F, conforme descritas na seção 6.3.1.

A segunda hipótese foi testada através do cálculo da correlação de Pearson entre o índice de potenciação das palavras extraídas pelo EOP e o índice de relevância calculado a partir das avaliações das mesmas pelos juízes. O índice de relevância foi deter- minado pela soma ponderada das pontuações referentes à escala de relevância indicada: para cada indicação como “muito relevante” atribuíram-se 4 pontos; para “relevante”, 3 pontos; para “pouco relevante”, 2 pontos; e, para “irrelevante”, 1 ponto. O somatório dos pontos para cada tema compôs o índice.

Finalizada a avaliação dos temas, a etapa seguinte tratou da avaliação dos trechos relevantes.