Construção do subcorpus - Corpus da pesquisa

4.1 Corpus da pesquisa

4.1.3 Construção do subcorpus

Ao considerar os requisitos de umcorpus de notícias falsas propostos por (RUBIN;

CHEN; CONROY, 2015), quando os autores estabelecem que o alinhamento das notícias falsas com as verdadeiras é importante para verificar as instâncias positivas e negativas para validar padrões linguísticos, o corpus descrito na seção anterior foi segmentado em um subcorpus constituído por 150 notícias selecionadas arbitrariamente da categoria “País” e 150 notícias verdadeiras referentes às notícias satíricas. Em relação às notícias verdadeiras, primeiramente, delimitaram-se palavras-chave identificadas nas notícias satíricas. Em seguida, com estas palavras-chave estabelecidas, foi elaborada uma busca manual das notícias verdadeiras equivalente às satíricas. Para evitar a seleção de notícias falsas, o critério era selecionar apenas notícias veiculadas a tradicionais portais de notícias online.

É importante destacar que a escolha pela categoria “País” se dá pelo fato de conter majoritariamente notícias sobre a política brasileira, o que ajudaria na identificação de palavras-chave e na busca pelas notícias verdadeiras. O processo é descrito na Figura 15.

Figura 15 – Processo de construção do subcorpus de análise

Fonte: Elaborada pela autora.

Os dados presentes nas características do subcorpus descritas na Tabela 2 foram gerados a partir do NTLK¹⁰, (do inglês, Natural Language ToolKit), uma biblioteca open source¹¹ de ferramentas úteis na linguagem Python¹² para a utilização dos princípios de PLN e pelo spaCy¹³, que também é uma biblioteca desenvolvida para Python para processamento de língua natural. Sua utilização é para uso em produção e para ajudar a criar aplicações que conseguem processar e “entender” um grande volume de texto.

Tabela 2 – Características dosubcorpus (NLTK)

Reais Satíricas

Descrição Total Média Desvio

Padrão Total Média Desvio Padrão Número de tokens 107.133 714,22 570,42 22.963 153,08 46,19 Número de types 11.304 299,5 170,49 14.843 98,95 26,75 Número de sentenças 5.721 38,14 30,27 1.246 8,08 2,51 Número de caracteres 651.568 4.343,78 3.519,51 135.966 906,44 277,92 Número de sílabas 231.195 1.541,30 1.252,26 48.234 321,56 97,97

Fonte: Elaborada pela autora.

Os números detokens e de types foram extraídos do NLTK. O processo de extração é ilustrado pela Figura 16.

10 Disponível em: <https://www.nltk.org/index.html>.

11 Código aberto: distribuição livre, código-fonte, trabalhos derivados, distribuição da licença, entre outros.

12 Disponível em: <https://www.python.org/>.

13 Disponível em: <https://spacy.io/>

Figura 16 – Processo de extração de características pelo NLTK

Fonte: Elaboração da autora.

A tarefa de tokenização de um texto foi realizada a partir da linha de código nltk.word_tokenize(texto). Essa função recebe o texto como argumento e retorna todas as palavras do texto (ou da sentença) em forma de tokens.

O número de tokens é a quantidade total de palavras do texto. Entende-se por tokens cada palavra, número ou sinal de pontuação presente no texto e número de types é referente à quantidade de palavras diferentes no texto. Assim, a sentença

(11) Até o pato da FIESP deve pagar o pato. [ex.s]

possui 10 tokens (‘até’, ‘o’, ‘pato’, ‘da’, ‘FIESP’, ‘deve’, ‘pagar’, ‘o’, ‘pato’) e 6 types (‘até’,

‘o’, ‘pato’, ‘da’, ‘FIESP’, ‘deve’, ‘pagar’), dado que ‘pato’ e ‘o’ são contabilizados apenas uma vez.

Os dados relativos ao número de caracteres, de sílabas e de sentenças foram gerados pelo spaCy. O número de caracteres contabiliza o número total de caracteres do texto. O número de sílabas, o total da extração de sílabas de uma única palavra do subcorpus real e satírico. A contagem de sílabas é utilizada no cálculo do Índice Flesch (cf. na Seção 5.2.3).

O número de sentenças se refere à quantidade de sentenças de cada notícia do subcorpus. Entende-se por sentença o segmento do texto iniciado por letra maiúscula e terminado por ponto final, ponto de interrogação, ponto de exclamação ou reticências.

Os dados presentes na Tabela 3 foram extraídos do NILC-Metrix (LEAL, 2021)¹⁴ (cf. Seção 5.2.3).

14 Disponível em: <http://fw.nilc.icmc.usp.br:23380/metrixdoc>.

Tabela 3 – Características dosubcorpus (NILC-Metrix) Notícias

Descrição Reais Satíricas

Riqueza lexical (TTR) 0,73 0,73

Média de palavras por sentença 18,35 19,57

Média de verbos 19,22 23,51

Média de verbos modais 2,59 3,21

Média de substantivos 37,12 37,28

Média de adjetivos 5,90 5,67

Média de advérbios 5,40 7,43

Média de pronomes 0,36 0,39

Fonte: Elaborada pela autora.

A riqueza lexical (TTR)¹⁵e a média de palavras, verbos, verbos modais, substantivos, adjetivos, advérbios e pronomes foram extraídos pelas métricas descritivas do NILC-Metrix.

A média de palavras por sentença é estabelecida a partir do número médio de palavras por sentença no texto. Já o TTR está relacionado à diversidade lexical do texto, sendo calculado pela razão dos types e o número de tokens. O cálculo damédia dos verbos, dos verbos no imperativo e damédia de verbos modais é realizado entre a divisão da quantidade de verbos, verbos no imperativo e verbos modais, respectivamente, e o número de tokens. A média de substantivos é a relação entre o número total de substantivos em relação ao número total de palavras, assim como a média de adjetivos é a relação dos adjetivos ao número total de palavras do texto. Seguindo, a média de advérbios é a divisão entre os advérbios do texto e os tokens e a média de pronomes é calculada entre o número de pronomes pelo número de totais de palavras da notícia.

Nas médias de verbos, verbos modais, substantivos, adjetivos, advérbios e pronomes foi realizada uma normalização. ¹⁶ pela quantidade de tokens para evitar ter uma média (de verbos, por exemplo) muito maior na coluna das notícias reais, porque tem maistokens. Como aponta Finatto (2011, p. 9), a normalização das frequências tem o objetivo de nivelar a extensão irregular dos textos. Por exemplo, na média de verbos, existem em média 19,22 verbos quando analisadas todas as notícias reais e 23,51 verbos quando analisadas todas as notícias verdadeiras, normalizadas pela quantidade de tokens. Ou seja, aqui é possível comparar como se as notícias reais e satíricas possuíssem a mesma quantidade de palavras.

É importante ressaltar que as médias foram calculadas automaticamente pelo NILC-Metrix em cada notícia, resultando uma média total das 150 notícias reais e satíricas.

Nota-se uma pequena diferença estatística entre as notícias, com exceção à média de verbos e média de advérbios, ambas mais frequentes nas notícias reais. Isso acontece

15 Do inglês,Type-Token Ratio.

16 Considera-se normalização como a média de uma categoria (verbos, substantivos, por exemplo) pela quantidade total detokensdo texto.

pelas notícias reais serem maiores textualmente do que as notícias satíricas e embora se compreenda a importância da homogeneidade do tamanho do texto, principalmente ao considerar abordagens de aprendizado de máquina – apontado por Rubin, Chen e Conroy (2015) – nesta pesquisa, decidiu-se por não balancear o corpus em relação ao tamanho de cada notícia satírica e real. Como esta tese é baseada em uma perspectiva linguística, entende-se que o não balanceamento do corpuspode ser útil para evitar a perda de informações na análise, uma vez que o número de palavras, sentenças ou diversidade lexical pode ser uma característica para a diferenciação desse tipo de conteúdo.

4.2 ASPECTOS LINGUÍSTICOS NA DESCRIÇÃO DAS NOTÍCIAS SATÍRICAS

No documento Aspectos linguísticos na descrição de notícias satíricas do português do Brasil: uma proposta tipológica (páginas 75-79)