Métodos de PLN voltados às notícias satíricas

3 TRABALHOS RELACIONADOS

Neste capítulo é apresentada uma revisão geral de trabalhos relacionados à detecção de notícias satíricas em textos. O capítulo é organizado em duas categorias, conforme cada proposta ou abordagem que cada trabalho utiliza: i) os principais métodos computacionais, em que são mostrados os trabalhos que usam abordagens computacionais da análise de notícias satíricas e ii) as características linguísticas de notícias satíricas, onde são descritos os principais padrões linguísticos extraídos a partir de estudos de PLN.

capturar a sátira de forma mais eficiente do que modelos já existentes, usando apenas word embeddings¹ pré-treinados como entrada, sem o auxílio de qualquer informação sintática ou recursos linguísticos. Em seguida, foi realizada uma extensa comparação com vários métodos de RN de última geração para detecção de notícias satíricas que também foram exploradas em um conjunto de dados de notícias de sátira de assuntos reais. Por fim, uma análise dos modelos aprendidos revelou a existência de algumas sentenças-chave, como a última sentença, são importantes para detectar a sátira. Esse resultado se relaciona com o trabalho de Rubin et al. (2016), que afirmam que a última sentença evidencia um absurdo ou introduz um novo elemento na história, provocando o efeito de humor.

Em outra perspectiva, o trabalho de Zhang et al. (2020), inspirado na expressão

“birds of a feather flock together”², mostra um novo método, que não utiliza nem rede neural e nem extração de características linguísticas para a classificação de notícias satíricas.

Segundo os autores, o método proposto é computacionalmente eficaz, porque os modelos de linguagem entre documentos de notícias satíricas e notícias verdadeiras são sensíveis quando aplicados a documentos fora de seus domínios. Os autores acreditam que como as notícias satíricas geralmente são compostas por histórias com conteúdo absurdo, é fácil para as pessoas com conhecimento e formação cultural correspondentes reconhecê-las. Desse modo, acreditam que uma representação semelhante a de como as pessoas discernem informações

“ilógicas” presentes nas notícias satíricas pode alavancar modelos computacionais que têm a capacidade de obter conhecimento de domínio para avaliar um texto satírico como seres humanos. Assim, ao alavancar as pontuações surpresa de diferentes modelos de linguagem, as notícias satíricas foram diferenciadas de notícias verdadeiras de forma eficaz. Este método não é apenas livre de extração de numerosas características linguísticas, como os trabalhos que abordam a detecção de notícias satíricas, mas também não requer estruturas de rede neural sofisticadas ouword embeddings avançados. O método de Zhang et al. (2020) supera métodos anteriores (RUBIN et al., 2016; YANG; MUKHERJEE; DRAGUT, 2017;

SARKAR; YANG; MUKHERJEE, 2018), alcançando uma acurácia³ de 97,97% e uma precisão⁴ de 94,55% no conjunto de dados de validação e 96,82% de acurácia e 93,67% de precisão no conjunto de dados de teste.

Shabani e Sokhn (2018) abordaram a detecção de notícias falsas e satíricas propondo um método de aprendizado de máquina híbrido. Segundo os autores, esse sistema combina o fator humano com a abordagem de aprendizado de máquina e um modelo de tomada de decisão que estima a confiança de classificação dos algoritmos e decide se a tarefa precisa de

1 Asword embeddings são vetores densos que representam palavras dentro de um espaço latente. Essas incorporações são geralmente aprendidas a partir de tarefas genéricas não supervisionadas, como a previsão da próxima palavra.

2 Em português, seria equivalente a “cada qual com seu igual”.

3 O termo acurácia indica uma performance geral do modelo, como quantas classificações o modelo classificou corretamente.

4 A precisão é uma métrica definida pela razão entre a quantidade de exemplos classificados corretamente como positivos e o total de exemplos classificados como positivos.

entrada humana ou não. O objetivo era distinguir sátira ou paródia e conteúdo fabricado usando o conjunto de dados público de conteúdo falsoversussatírico. Para essa tarefa, foram aplicados modelos de aprendizado de máquina para classificar automaticamente as notícias como falsas ou satíricas e, em seguida, foram identificados recursos que podem melhorar a precisão. No entanto, devido à dificuldade da classificação demandar de checagem de fatos, o crowdsourcing foi utilizado como um serviço para obter melhor precisão, uma vez que os humanos deveriam classificar os artigos de política e relacioná-los como histórias falsas ou satíricas. O interessante do trabalho de Shabani e Sokhn (2018) é que a abordagem proposta fornece maior precisão a um custo e latência aceitável, pois combina a eficácia dos algoritmos de aprendizado de máquina com o conhecimento humano, por meio da aplicação de crowdsourcing nos casos em que os algoritmos de aprendizado de máquina não conseguem executar com alta precisão. Conforme concluem os autores, a abordagem híbrida aumenta a precisão geral em até 87%.

A pesquisa de Horvitz, Do e Littman (2020) se destaca por compreender que as notícias satíricas exigem uma apreciação de um contexto verdadeiro e não humorístico ao propor uma abordagem em que primeiro se construiu um conjunto de dados de pares de manchetes satíricas de contexto verdadeiro, no qual o contexto é construído recuperando e classificando processualmente histórias, eventos e informações verdadeiras relacionados às entidades que aparecem no título satírico original. Para isso, os autores estudaram o emprego de representações contextuais mais ricas através da capacidade de arquiteturas baseadas em transformadores, como o BERT (de Bidirectional Encoder Representations from Transformers)⁵ (DEVLIN et al., 2019), de gerar manchetes satíricas engraçadas e mostraram que tanto os modelos de linguagem quanto os modelos de sumarização podem ser ajustados para gerar as manchetes cômicas.

Ionescu e Chifu (2021) se concentraram na detecção da sátira de domínio cruzado (cross-source) a partir do FreSaDa (French Satire Data), umcorpus de notícias coletadas de fontes de publicação reais e satíricas para o francês com base em uma abordagem superficial baseada em recursos de baixo nível, ou seja, caracteres n-gramas e um método profundo baseado em embeddings CamemBERT (MARTIN et al., 2020). Os autores compararam os dois métodos em duas configurações de classificação binária: (1) classificação de notícias verdadeiras completas versus sátira e (2) classificação de manchete verdadeiras versus sátira, observando que o modelo baseado emembeddings CamemBERT obtiveram melhores resultados em notícias verdadeiras completas, enquanto o modelo baseado em caracteres n-gramas alcançaram um desempenho superior na tarefa de detecção de sátira em manchetes de notícias é significativamente mais desafiadora, com a taxa de precisão máxima de 74,07%.

5 O BERT (Bidirectional Encoder Representations from Transformers) é um algoritmo de aprendizado profundo (deep learning) o PLN. É um modelo pré-treinado que é profundamente bidirecional e faz pouco uso de qualquer outra coisa além de umcorpus de texto simples.

O modelo baseado em contexto utilizado na pequisa de Horvitz, Do e Littman (2020, p. 42) pode capturar aspectos de “transformação de humor“ que inclui tabus e assuntos mais tensos. Além disso, o modelo parece conseguir imitar elementos do humor, como falsa analogia e usar relações incongruentes entre entidades e ideias. Os autores descobriram que os modelos das notícias apreenderam outros recursos utilizados nas notícias satíricas, por exemplo, o uso da justaposição de “um estudo” com uma observação científica, como a menção de eventos absurdos, mas contextualmente relevantes (“estudo descobre que a maioria dos americanos ainda está em derramamento de óleo”)⁶.

Em relação às pesquisas para notícias multilíngues, Guibon et al. (2019) compararam diferentes métodos para detecção de notícias falsas baseados em análise estatística de texto em umcorpusde notícias falsas do inglês e do francês, assim como transcrições automáticas do YouTube em francês sobre a vacinação, devendo ser classificadas em notícias falsas, confiável ou sátira. Para isso, os autores utilizaram uma abordagem experimental, com foco no impacto da representação de dados para encontrar a melhor forma de classificar estes textos. Guibon et al. (2019) observaram que a semelhança e a detecção do domínio do texto, por si só, não conseguem lidar com toda a ambiguidade, sendo necessária a combinação de alguns métodos de classificação, como mineração de texto. Por fim, a comparação dos métodos de detecção de notícias mostrou que a combinação de métodos de representação e as embeddings fornecem resultados mais significativos.

No documento Aspectos linguísticos na descrição de notícias satíricas do português do Brasil: uma proposta tipológica (páginas 53-56)