Corpora para evidências empíricas - LACUNAS E FUNDAMENTOS

2 LACUNAS E FUNDAMENTOS

2.6 Corpora para evidências empíricas

Na primeira etapa do programa de pesquisa sobre o Brasil, investiguei um corpus de discursos de posse dos presidentes no período de 1990 até 2018. Nesta etapa, como a intenção é de que o estudo fosse mais amplo e generalizado, utilizei a plataforma privada SketchEngine (LEXICAL COMPUTING, 2022)¹⁶, escolhida pela facilidade de manuseio, qualidade de suas ferramentas e acesso a mais de um corpus. Optei por investigar o item-alvo no Corpus Brasileiro (SARDINHA et al., 2010) e no Portuguese Web Corpus (ptTenTen11) (KILGARRIFF et al., 2014) devido às características complementares e à abrangência dessas duas bases.

O Corpus Brasileiro é amplamente conhecido como corpus representativo de referên-cia do português brasileiro, majoritariamente constituído de textos da modalidade escrita, na proporção de 92,4%, contra 7,6% de outra(s) modalidade(s). Os textos compilados no período entre maio de 2008 e abril de 2010 contêm aproximadamente 871 mil palavras, 1,1 bilhão de tokens e 3,6 milhões de lemas e encontram-se lematizados e etiquetados por classe de palavra, além de terem metadados correspondentes ao gênero e subgênero textual. O Corpus Brasileiro é dividido em cinco subcorpora correspondentes a temas políticos, jornalísticos, acadêmicos, literários e religiosos, dos quais o acadêmico é o maior e responde por 53,25% dos tokens, como mostra a Tabela 1.

16 Declaro não haver qualquer conflito ou viés de interesses que possa de alguma forma ter influenciado os resul-tados da pesquisa. Não há qualquer relação de interesses entre mim e entre o órgão público que financiou meu afastamento remunerado para pesquisa entre 2019 e 2020 (IF Sudeste MG) e a Lexical Computing Limited, empresa estrangeira privada fornecedora dos serviços de corpora utilizados no estudo. O acesso à plataforma para uso exclusivamente acadêmico foi custeado por mim com recursos próprios por toda a duração da pesquisa.

Tabela 1 – Composição dos subcorpora temáticos do Corpus Brasileiro

Subcorpus Tokens Palavras %

Acadêmico 603.522.944 463.853.388 53,248

Jornalístico 265.846.125 204.323.012 23,455

Literário 9.696.422 7.452.439 0,856

Político 86.637.289 66.587.360 7,644

Religioso 1.817.321 1.396.749 0,160

Fonte: elaborada pelo autor a partir da documentação fornecida na ferramenta SketchEngine.

Uma vez que o Corpus Brasileiro tem grande concentração de textos acadêmicos e jornalísticos na modalidade escrita, dialogicamente constitutivos de situações formais, o Portu-guese Web Corpus (ptTenTen11) serve de contraponto ao permitir a inclusão de textos também escritos, mas supostamente com mais variação linguística, por circularem em diferentes ambi-entes virtuais na rede mundial de computadores. O ptTenTen11 (KILGARRIFF et al., 2014;

LEXICAL COMPUTING, 2022) é parte de uma família de corpora em mais de 30 línguas, que contêm textos da internet compilados com base nas mesmas especificações, por meio do ras-treador (web crawler) SpiderLing.

O corpus engloba o português brasileiro e o europeu, sendo que 79,77% dos textos são do domínio .br, correspondente ao Brasil; 20,22% do domínio .pt, correspondente a Portugal; e 0,01% de outros domínios. O material foi compilado no período entre março de 2011 e agosto de 2012 e contém aproximadamente 3,89 bilhões de palavras, 4,6 bilhões de tokens e 10,2 mi-lhões de páginas da web. Os textos se encontram normatizados de acordo com a nova ortografia, lematizados e etiquetados por classe de palavra, além de terem metadados correspondentes à variedade linguística, ao domínio da página na web, ao domínio de alto nível, a URL, ao ende-reço da página e ao número de palavras do documento de origem do item-alvo. Para efeitos da pesquisa, no ptTenTen11, apenas os textos do português brasileiro entraram na análise.

Sobre esses materiais, preciso sublinhar que as relações teóricas e metodológicas entre corpora, linguagem e cognição são complexas e têm sido objeto de intensas discussões nos últimos anos. Não é possível fazer aqui uma digressão da envergadura que o assunto exigiria, mas cabe clarificar as linhas gerais que conduzem a utilização do Corpus Brasileiro e do Por-tuguese Web Corpus nos três estudos em que a tese se divide e as justificativas para empregar Linguística de Corpus como ferramenta metodológica.

Dados dessa natureza permitem acesso direto a um alto volume de usos linguísticos autênticos, geralmente provenientes de situações naturalísticas não eliciadas, os quais permitem

um acesso indireto às estruturas e processos linguístico-cognitivos que evocam. Isso implica ter em mãos um material empírico robusto a ser analisado, sendo que a análise caminha retrospec-tivamente no sentido que vai do produto ao processo. Mesmo sendo um método a ser comple-mentado e convergido com evidências futuras sobre a realidade psicológica dos fenômenos, a Linguística de Corpus favorece a falseabilidade e a reprodutibilidade das pesquisas com análi-ses empíricas, já que a Linguística Cognitiva tem sido duramente criticada quando falha nesanáli-ses aspectos (ARPPE et al., 2010; DĄBROWSKA, 2016; GIBBS, 2006).

Gries (2012b) propôs que devem ser exploradas as semelhanças e os paralelos entre os objetos teóricos da Linguística Cognitiva e da Linguística de Corpus, os quais, para facilitar a exposição, resumi na Figura 1. Gries argumentou que a língua está sujeita a altos níveis de repe-tição e que a reperepe-tição convencionaliza e automatiza,tornando possível identificar propriedades cognitivas que dependem da frequência de acesso mental via unidades linguísticas.

Figura 1 – Resumo dos paralelos entre Linguística de Corpus e Linguística Cognitiva Linguística de Corpus Linguística Cognitiva / Psicolinguística

Frequência de type Produtividade e mudança

Produtividade de construções em aquisição de L Frequência de token Grau de entrincheiramento

Tempo / facilidade de aquisição

Dispersão Implicações para experimentos psicolinguísticos Aquisição e aprendizagem de L

Rejeição de separação

rígida entre léxico e sintaxe Concordância dos linguistas cognitivos e psicolinguistas:

contínuo; nós semelhantes na rede.

Princípio Idiomático Princípios idiomáticos das construções Palavras e padrões Semelhança com construções de Goldberg

Alcance de status de unidade permite priming Concordância, colocação,

n-gramas, coligação Co-ocorrência de informação ligada ao falante ser capaz de discernir padrões, prever conteúdo, produção e compreensão (context-bound) Fonte: elaborada pelo autor a partir da leitura e do resumo das ideias de Gries (2012b).

Mais além, Glynn (2010, 2014, 2015, s.d.) defendeu uma análise multifatorial que as-sume explicitamente os postulados da Linguística Cognitiva acerca da cognição humana e da linguagem, baseando-se na premissa de que os padrões de uso são índices da estrutura linguís-tica; e a estrutura linguística é um índice da estrutura conceptual, na medida em que estudar a frequência de relações forma-significado pode indicar a probabilidade das estruturas conceptu-ais evocadas. Uma vez que o uso linguístico é complexo, a metodologia engloba vários fatores,

níveis e categorias para explorar suas correlações. Embora a tese não empregue diretamente a metodologia multifatorial, o raciocínio que a fundamenta foi usado para embasar os procedi-mentos específicos adotados nas análises descritas nas próximas partes desta tese.

No documento Processos de conceptualização do modelo cognitivo do país em usos da palavra Brasil (páginas 37-40)