Coleta e processamento de tweets - Procedimentos Metodológicos

3. Procedimentos Metodológicos

3.1 Coleta e processamento de tweets

A primeira etapa da obtenção deste corpus foi a coleta dos tweets. A coleta completa foi feita entre os dias 05 de novembro e 09 de dezembro de 2015. As principais ferramentas de coleta normalmente aplicadas nos estudos com tweets funcionam em tempo real: programam-se as ferramentas e elas coletam todos os tweets que obedecem aos critérios estabelecidos a partir do momento em que a coleta é iniciada. Este estudo demandou um procedimento diferente. Devido à natureza não-programada do acontecimento analisado e da abordagem proposta, foi necessário recorrer às coletas retroativas. A ferramenta usada coletou os tweets que atendiam aos critérios estabelecidos nos sete dias anteriores ao momento da coleta. Acionamos este mecanismo cinco vezes durante o período discriminado acima para obter o corpus completo – cinco blocos de uma semana, totalizando 34 dias de tweets, conforme a Tabela 1.

A ferramenta usada para a coleta foi um par de scripts desenvolvidos e cedidos pelo Laboratório de Estudos sobre Imagem e Cibercultura da Universidade Federal do Espírito Santo (LABIC-UFES) 1. Ambos os scripts foram construídos na linguagem de programação Python, chamados de Collect.py e Convert.py. A função do primeiro é conectar-se ao sistema do Twitter por meio da API (Application Programming Interface, ou Interface de Programação de Aplicações) e obter os tweets. A API é uma das portas de entrada que o Twitter disponibiliza para que seus usuários extraiam ou exportem conteúdos do site. O Twitter abre diferentes APIs para seus usuários. Os scripts usados neste estudo baseiam-se na REST API, que, de acordo com o próprio Twitter, fornece acesso programático para ler e escrever dados da plataforma.

Entre os parâmetros necessários para que o Collect.py faça a coleta estão as palavras-chave a serem coletadas, a quantidade de dias a coletar e o idioma dos tweets desejados. O arquivo produzido pelo primeiro script precisa ser processado pelo segundo, Convert.py, que converte o material produzido pelo twitter em formato .json (JavaScript Object Notation) para o formato .csv (Comma Separated Value, ou valores separados por vírgulas). Este arquivo pode ser usado por uma série de softwares que trabalham com processamento de dados, assim como lido e manipulado diretamente nos programas de edição de texto.

A escolha das palavras-chave usadas no Twitter foi feita com o objetivo de reconstruir a controvérsia em cativeiro. Além do acompanhamento do desenrolar da controvérsia durante o seu tempo original, feito pela participação ativa e observação a cada dia em que as notícias

sobre a ruptura da barragem se espalharam, seria necessário reconstruir artificialmente este universo narrativo para uma etapa mais analítica, constituindo um corpus sobre o qual fosse possível fazer incidir ferramentas digitais que ajudassem a extrair outros sentidos daquele material.

Para a fase inicial, coletamos dez conjuntos de palavras-chave: “Barragem ou barragens”, “bento rodrigues”, “catástrofe mg”, “mariana”, “mar lama”, “mina germano”, “rio doce”, “samarco”, “tragedia mg” e “tsunami lama”. Ao fim das cinco semanas, optamos por trabalhar efetivamente com os resultados de quatro destas coletas: “Barragem ou barragens”, “bento rodrigues”, “samarco e “rio doce”. A opção foi feita por concluir que estes grupos apresentaram os melhores resultados na coleta, redundando em um corpus geral satisfatoriamente abrangente. As coletas de cada uma dessas palavras-chave foram reunidas em arquivos semanais. As escolhas também têm uma lógica semântica. Incluiu-se o principal topônimo relacionado à tragédia (Bento Rodrigues) em lugar de escolher “Mariana”, por exemplo, uma coleta que produziu resultados muito amplos e generalistas, principalmente devido à polissemia da palavra. Inclui-se, ainda, um dos atores envolvidos na tragédia que poderia abarcar as principais ações da empresa neste período, além das críticas a ela direcionadas (“Samarco”). A própria estrutura, “barragem”, foi incluída em suas variações singular e plural, para capturar a dubiedade inicial da quantidade de barragens que teriam sido rompidas. Por fim, escolheu-se a palavra-chave “Rio Doce”, já que grande parte da controvérsia se estrutura em torno das consequências ambientais do desastre.

A segunda etapa de obtenção do corpus foi o processamento. A rigor, o uso do script

Convert.py já é o primeiro processamento aplicado sobre os dados brutos. Em seguida, os tweets foram submetidos a um novo script, também desenvolvido e cedido pelo LABIC-UFES, batizado de Parse Tweets². A função deste script é analisar os tweets coletados, remover duplicatas e extrair do arquivo uma série de informações iniciais, como os rankings de usuários mais retuitados, as hashtags mais usadas, os links mais compartilhados, entre outros. Ao fim do processamento, chegamos ao corpus quantificado na Tabela 1.

É importante destacar, neste ponto, que o presente trabalho é inteiramente produzido com a consciência de pelo menos três limitações, semelhantes às que destacam Gaffney e Puschmann (2014). A primeira é de ordem técnica e específica desta plataforma. Ao extrair os dados do Twitter fazendo uso de qualquer das APIs que o site disponibiliza, é preciso entender e reconhecer que esta extração não representa 100% do conteúdo produzido no

Twitter naquele período, devido à própria natureza da quantidade parcial de informações que o próprio Twitter permite coletar. Este conteúdo só seria possível se o Twitter oferecesse acesso à uma quarta porta de entrada, chamada Firehose ("mangueira de bombeiro") e que representa justamente o fluxo completo e não-filtrado de tweets de um determinado período. Como este acesso não é possível, entendemos que estamos lidando com uma caixa preta que, intencionalmente da parte de seus gestores, não pode ser completamente aberta do ponto de vista técnico.

A segunda limitação é pertinente ao alcance do Twitter enquanto plataforma. Ainda que o público brasileiro seja um dos mais fiéis do site - apresentando taxas vistosas de crescimento no país se comparado a outras localidades - a porcentagem de pessoas que efetivamente usam a ferramenta é pequena se comparada ao total da população brasileira. Por isso, esta pesquisa não tem a pretensão de entender a opinião do país ou de toda uma comunidade por meio desta plataforma, mas de recortar intencionalmente a maneira como esta subcontrovérsia se desenrola especificamente neste fórum híbrido. A terceira limitação é do exercício de analisar. Durante a leitura dos dados, procuraremos ter o permanente cuidado de não só buscar, filtrar e produzir rankings, mas procurar exercer um olhar qualitativo sobre todo este material, considerando sempre as questões que estabelecemos para orientar o trabalho. Em suma, esta pesquisa não tem a pretensão de analisar todo o universo do Twitter, não tem a pretensão de que o Twitter represente toda uma população além daquela que efetivamente faz uso do site enquanto ferramenta, e não tem a pretensão de resumir esforços analíticos apenas nos aspectos numéricos do corpus coletado.

Início Fim Coletados Duplicatas Filtrados

Semana 1 05 de nov, 0h 11 de nov, 23h59 118.559 12.917 105.642

Semana 2 12 de nov, 0h 18 de nov, 23h59 220.537 20.476 200.061

Semana 3 19 de nov, 0h 25 de nov, 23h59 118.486 11.501 106.985

Semana 4 26 de nov, 0h 02 de dez, 23h59 75.642 4.777 70.865

Semana 5 03 de dez, 0h 09 de dez, 23h59 30.653 3.142 27.511

TOTAL 563.877 52.813 511.064

Tabela 1. Quantidades de tweets coletados e processados

Diante deste conteúdo, optou-se por um recorte estratégico para conduzir o estudo. Esta pesquisa debruça-se especificamente sobre as duas primeiras semanas de coleta, um total de 305.703 tweets produzidos em 14 dias. Elegemos este período por abarcar a porção mais quente da controvérsia, isto é, o momento em que ela emerge, e os principais acontecimentos políticos posteriores. Além disso, é tempo suficiente para observar as associações dos

principais atores, a formação dos grupos que se destacam em relevância no período seguinte e a consolidação dos discursos em torno dos sentidos procurados pelos actantes. Por fim, é preciso pontuar que o Twitter é uma plataforma de repercussão em “tempo real” ou transmissão ao vivo - de fato, o mais próximo disso que é possível atingir com as atuais plataformas de interação na internet. Por isso, é mais proveitoso analisar as dinâmicas e associações para formações de rede em períodos mais compactos (minutos, horas, dias) do que os de médio ou longo prazo (semanas, meses, anos). Devido à quantidade elevada de conteúdo produzida a cada segundo, analisar um corpus por demais extenso com o nível de detalhamento qualitativo e interpretativo ao qual esta pesquisa se propõe seria um cenário longe do ideal.

No documento UNIVERSIDADE FEDERAL DE MINAS GERAIS Programa De Pós-Graduação Em Comunicação Social (páginas 49-52)