Os corpora de expressões meméticas: critérios de compilação e

Esquema 2 – Princípios constitutivos do processo de propagação de fenômenos

5 CORPORA E TRATAMENTO DOS DADOS

5.1 Os corpora de expressões meméticas: critérios de compilação e

Nossos corpora totalizam 5.275 postagens, dentre as quais 3.267 são amostras da expressão memética “Que deselegante”, somadas a 2.008 amostras de “#Tenso”.

Ambas as amostras foram coletadas, uma por uma, através do Topsy⁸⁷ – um buscador online de postagens originadas no, ou redirecionadas para o Twitter.com, onde determinamos, respectivamente, as expressões “Que deselegante” e “#Tenso” como elementos de busca.

Feito isso, o buscador nos apresentou todas as postagens contendo a expressão solicitada, tanto em sua formatação fixa, ipsis literis, quanto de variações delas. Visualizações dessas variações podem ser conferidas pelas figuras 58 e 59 e 60, a seguir:

Figura 58: Variação do formato de “Que deselegante” (0,4% das postagens deste corpus). Disponível em:<

http://topsy.com/s?q=que%20deselegante&window=a>. Acesso em: 20 dez. 2013.

Figura 59: Variação do formato de “#Tenso” (5, 9% das postagens deste corpus). Disponível em: <

http://topsy.com/s?q=%23tenso&window=a>. Acesso em: 20 dez. 2013.

87 http://topsy.com/

(a): Variações no formato da expressão memética “Que deselegante”

(b): Variações no formato da expressão memética “#Tenso”

Figura 60: A dimensão de variação da forma das expressões meméticas dentro dos corpora investigados. ⁸⁸

88 Tabelas oriundas do programa Microsoft Excel: <http://pt.wikipedia.org/wiki/Microsoft_Excel>.

Decidimos trabalhar com corpora de expressões fixas por dois motivos: por estas serem as de maior número (como evidenciado através das figuras 58 e 59); e porque nossa intenção é investigar se a propagação de expressões fixas, tidas como “iguais” em sua face externa, significa replicar “a mesma coisa” em sua face interna – no que se refere aos propósitos dessas expressões.

No que tange à compilação do corpus em si, de acordo com Berber-Sardinha (2004), foram observados os seguintes critérios: a) Conteúdo e Finalidade; b) Tempo/Período que busca retratar; c) Representatividade; d) Autoria, Naturalidade e Autenticidade; e) Tamanho;

f) Classificação dos Textos (conteúdo e registro/estilo); g) Modo (canal, formato e ambiente);

h) Relação entre interactantes (a quem se dirige? por quem é escrito?); i) Campo (factualidade, propósitos e tópicos). A seguir, explicitaremos cada critério mencionado acima, relacionando-os com a realidade materializada pelos corpora estabelecidos.

O conteúdo se refere às diversas ocorrências da unidade de análise investigada, na modalidade de expressão memética. As 5.275 amostras coletadas, oriundas de postagens do microblog Twitter.com, perfazem um total de 83.655 palavras/tokens, dentre as quais 41.600 compõem o corpus da expressão memética “Que deselegante”, e 42.055 o de “#Tenso”.

Todas essas postagens coletadas, a princípio, apresentam as referidas expressões meméticas em um mínimo de contexto analisável e aquelas identificadas de forma duplicada no corpus foram consideradas como uma única ocorrência. As postagens sem ocorrência ou contexto de avaliação, apesar de terem sido analisadas para que se chegasse a essa conclusão, obviamente, não estão incluídas nos resultados a serem discutidos no Capítulo 6, pois não apresentaram os elementos apontados nas categorias mencionadas em 4.2

No que tange à finalidade dos corpora, os mesmos servem à materialização fiel do objeto de estudo (fenômenos meméticos da Internet e seus elementos de propagação) e visualização da unidade de análise inserida no contexto do objeto citado, ou seja: as expressões meméticas “Que deselegante” e “#Tenso”. Portanto, os mesmos estão à disposição deste trabalho como corpora de estudo.

O tempo ou período retratado pelos corpora se classifica como contemporâneo, uma vez que as postagens referentes ao fenômeno “Que deselegante” foram coletadas da data de 31/10/2011 (dia de aparecimento da expressão memética) a junho de 2012. Já no que se relaciona ao corpus da expressão memética “#Tenso”, cobre-se o período que vai de dezembro do ano de 2008 (ano de surgimento da expressão nas redes sociais) até dezembro do ano de 2011.

O critério de representatividade, conforme Berber-Sardinha (2004) alerta, se desdobra em duas perguntas: a) representativo para quê?; b) para quem? Respondendo à primeira das perguntas, colocamos que os corpora dispõem-se a apresentar e representar um recorte, ou uma visão científica de como as expressões meméticas em estudo têm suas utilizações feitas nos contextos do microblog Twitter e dos domínios fora dessa rede social – pois é possível acessar outros ambientes sem sair dessa rede. Dispõem-se, também, a revelar características constitutivas linguísticas ainda não apontadas, como inerentes ao processo de propagação de fenômenos meméticos da Internet, a partir da investigação da evolução das unidades de análise aqui examinadas.

Em relação à segunda pergunta, entendemos que tal visão ou recorte possa esclarecer para estudiosos dos fenômenos de memes da Internet (sejam estes do ramo da Linguística ou não), assim como para os usuários das unidades de propagação (em especial sobre aquela classificada como expressão memética), que tipo de relação ou efeito são gerados com a propagação dessas unidades que exercem um papel importante na ampliação desses eventos digitais e em sua simbiose constitutiva.

Em segundo lugar, a representatividade dos corpora se presta a revelar como, através de suas interações presentes nos corpora, tais usuários constróem relações/conexões, através da propagação de práticas de produção e distribuição linguístico-midiáticas, enquanto um complexo de memes, quando observados por quem os enxerga de fora dos contextos estabelecidos nessa mesma relação.

Como consequência desses aspectos observados, as percepções sobre esses internautas podem ser abordadas tanto de forma reflexiva (entender como um complexo de memes se propaga na Rede) quanto ativa/produtiva (revelar que elementos constitutivos nos permitem propagar tal complexo com sucesso nas redes sociais). Pelos motivos expostos, esses corpora digitais são representativos para nós.

No que se refere aos critérios de autoria, naturalidade e autenticidade, pode-se inferir que os autores das postagens e usuários das expressões são falantes nativos do Português, interagindo de forma espontânea no microblog e para além desse espaço digital, mesmo sem sair do Twitter.

Em relação ao tamanho do corpus, é importante mencionar que, de acordo com Berber-Sardinha (2004, p.26), o número de palavras (41.600 da expressão memética “Que deselegante” junto com 42.055 para “#Tenso”) representam, cada um, um microcorpus dentro de estudos genuinamente alocados sob as diretrizes da Linguística de Corpus, onde um corpus considerado minimamente adequado deveria conter 80.000 palavras. Em nosso caso,

utilizamos a Linguística de Corpus como instrumental metodológico, por isso, tais microcorpora, contendo o número de palavras mencionado, atendem minimamente aos requisitos da área, enquanto, por nós, como já dito, é usada como uma metodologia.

No que se refere à classificação dos textos, deve haver uma análise em relação a seu conteúdo e registro/estilo. O conteúdo das postagens de ambos os fenômenos investigados envolve, por exemplo, assuntos como: ética, violência, comércio, educação, política, sexo, drogas, o mundo virtual/digital/tecnológico, aspectos climáticos e ecológicos, celebridades e suas vidas, futebol e comportamento em geral. Quanto ao estilo/registro, os textos se dispõem em forma de postagens do Twitter (chamadas, cada uma, de tweet), com sutil (muitas vezes implícita) variação do propósito entre estas.

No critério referente ao modo, descreveremos as postagens que compõem nossos corpora focando-nos em três aspectos a serem observados: canal, formato e ambiente. O canal se materializa, em sua grande maioria, em linguagem verbal, analisável, com alguns traços característicos da linguagem na Rede. O formato é aquele definido como publicado. O ambiente de publicação é considerado digital público (microblog Twitter.com e demais ambientes – por exemplo: Youtube.com, blogs, portais de notícias, etc. – aos quais se pode ter acesso a partir desse microblog).

O penúltimo critério a ser explicitado é o da relação entre interactantes. Aqui, duas perguntas são respondidas: a) a quem se dirigem os textos (postagens)?; e b) por quem são escritos? Em relação à primeira pergunta, dizemos que as postagens do Twitter se dirigem a uma pluralidade, ou seja, se dirigem a muitas pessoas. Isso só não ocorrerá se os usuários que enviam e recebem mensagens decidirem alterar suas configurações de compartilhamento de dados do modo trivialmente público (como na maioria das redes sociais) para um modo mais restrito ou privado. Algo que não reflete a realidade das postagens que compõem nossos corpora. Mesmo que tais postagens tenham sido enviadas para uma pessoa específica, mais de uma pessoa visualizará essa mensagem.

Analisamos, ainda, o aspecto da interatividade, responsável por indicar se há pressuposição de uma resposta para a mensagem enviada – no contexto do Twitter.com, por exemplo, uma mensagem pode ser enviada, mas pode não ser respondida (não há um moderador para definir a obrigatoriedade de resposta). Por fim, ainda no tocante a quem os textos são dirigidos, há de se analisar se existe conhecimento compartilhado quando se escreve uma mensagem. No microblog, nem sempre leitores e receptores apresentam conhecimento compartilhado. Especialmente no que diz respeito à origem dessas expressões meméticas e seu contexto de uso. Por isso, o conhecimento compartilhado, em ambos os

corpora, se caracteriza como algo que aumenta à medida que as expressões e os fenômenos atrelados a estas vão tomando maior proporção de propagação na Web – tornando-se difundidos e “úteis”, ao mesmo tempo, para os internautas, portanto.

Em relação à segunda pergunta, explicitamos quem escreve os textos. Aqui, devemos verificar se os autores apontam seus dados pessoais, por exemplo. No contexto das postagens extraídas do Twitter.com, podem ser inferidos os dados dos autores, mas não se pode ter certeza se tais dados são genuinamente pessoais ou se referem a alguém com uma identidade inventada (é possível acontecer de um usuário clonar perfis de celebridades, por exemplo).

O último critério de compilação de nossos corpora a ser mencionado é aquele que se refere à dimensão do campo das postagens selecionadas. Aqui, três aspectos serão explicitados: a) grau de factualidade; b) propósitos expressos nas postagens; c) tópicos presentes nas postagens. Quanto ao grau de factualidade expresso nas postagens coletadas, verificamos que, em sua maioria, elas se apresentam relacionando-se com os acontecimentos ocorridos no período de coleta dos corpora. Se apresentam algum grau de conteúdo fictício, é difícil de haver certificação sobre.

Os propósitos observados nos usos das expressões meméticas (tais como reclamar, concordar, discordar, convencer, lamentar, condenar, elogiar, organizar os padrões de conduta), apesar de apresentarem um modo comum de composição entre elas, direcionado pela unidade semântico-discursiva de informação que tais unidades de propagação carregam e transmitem no bojo das práticas de produção de linguagem a que dão origem em seu processo de propalação, tais expressões meméticas poderiam todas ter seus propósitos colocados, de forma geral, como se estivessem sob um grande “guarda-chuva”, com o rótulo de expressão de opinião. Especificamente neste trabalho, ocorre que não é só na produção dessas unidades que esses propósitos trabalham. Sua distribuição, no processo de evolução das unidades de propagação em questão, precisa ser investigada, a fim de revelar o quão coletivo esse referido guarda-chuva realmente é no contexto de propagação dos fenômenos meméticos da Internet.

No que tange aos tópicos observados nas postagens que compõem os corpora compilados, observam-se as diversas explorações e recombinações das seguintes áreas/assuntos: violência, comércio, educação, política, sexo, drogas, o mundo virtual/digital/tecnológico, aspectos climáticos e ecológicos, celebridades e suas vidas, futebol e comportamento em geral.

Como modo de entrada nos dados para procedermos à nossa análise, apoiamo-nos na abordagem baseada no corpus (SHEPHERD, 2009). Uma vez que utilizamos a Linguística de Corpus, como metodologia, para definir que itens são avaliados e como estes foram

avaliados pelos internautas, lançamos mão do programa Wordsmith Tools v.5 (2011) e duas de suas ferramentas básicas: um listador de palavras e um concordanciador.

Extraímos, conforme figuras 61 e 62, uma lista de palavras mais frequentes e listas de concordâncias baseadas em colocados, conforme Shepherd (2009) e Souza Júnior (2012;

2013b; 2013c), formados, respectivamente, pelos seguintes padrões combinatórios: Que deselegante + o/a/ isso, esse/a, este/ aquela/, ele/ela/, eu/ você/vocês/, pessoas (eles/elas);

Tenso + o/a/ isso,esse/a, esta/e/ aquele/ ela/ eu/ você/vocês/, pessoas (eles/elas).

Da extração das listas de colocados, conforme figuras 61 e 62, foram geradas, pelo Wordsmith Tools, listas de concordâncias, conforme figuras 63 e 64. No total, analisamos 1066 linhas de concordâncias. É importante colocar que tal quantidade inicial de linhas de concordâncias foi determinada por critérios de reconhecimento dos padrões de colocados originados exclusivamente a partir do programa de computador em questão. Para o corpus do fenômeno “Que deselegante”, a quantidade de ocorrências que analisamos foi de 480 linhas de concordância. Já quanto ao corpus de “#Tenso”, esse número chegou a 586.

Figura 61: Lista de palavras mais frequentes no corpus de “Que deselegante” (para extração de colocados)

Figura 62: Exemplo de uma lista de concordâncias contendo o colocado “Que deselegante + o”

Figura 63: Lista de palavras mais frequentes no corpus de “#Tenso” (para extração de colocados)

Figura 64: Exemplo de uma lista de concordâncias contendo o colocado “#Tenso + o”

A pretensão de análise é a de mapear os padrões de uso e, consequentemente, de propagação das expressões meméticas que se apresentam nos corpora, interpretando-se, com base nas categorias apresentadas em 4.2, os significados/propósitos presentes nesses usos.

No documento Jaime de Souza Júnior (páginas 111-119)