• Nenhum resultado encontrado

CAPÍTULO 1 Data Science, Teoria Ator-Rede e Novos Métodos de Análise de Redes

1.2 Twitter como fonte de dados para a "Data Science": vantagens e desvantagens

1.3.2 Coleta de dados

Mineração de dados, do inglês Data Mining (FAYYAD, et al., 1996), é o processo de coletar dados sobre um assunto a partir de várias dimensões e ângulos diferentes, categorizá-los e, por fim, processá-los para uma análise mais aprofundada. Tecnicamente, mineração de dados é o processo de pesquisa voltada a encontrar correlações e padrões em variáveis diferentes contidas em grandes bancos de dados relacionais. (Palace, 1996) A mineração de dados é usada, principalmente para responder perguntas e desvendar padrões nas redes sociais, o que se alcança em meio aos bancos de dados dessas redes sociais. Tarefas de mineração de dados podem ser classificadas em duas categorias:

process in motion. While too little fieldwork will lead to a noisy, unfocused data set, waiting too long to begin may result in irrecoverable data loss.”

descritiva e preditiva. Mineração de dados descritiva fornece informações para entender o que está acontecendo dentro dos dados sem uma idéia pré-determinada. Neste caso, é fornecido um valor, um termo, ou hashtag, e não se sabe o que será coletado, assim, os dados resultantes revelarão informações que servirão de pistas para a compreensão de um dado fenômeno cuja repercussão e mobilização ocorreu através do Twitter.

Em um primeiro momento, após a decisão de um termo, ou termos, a ser pesquisado e coletado, se faz necessária uma ferramenta para esta ação, um minerador de dados capaz de coletar as informações de cada tweet que contenha em seu corpo de texto, o termo desejado.

A ferramenta utilizada para a extração do Twitter é o yourTwapperKeeper (O’BRIEN III, 2012). É uma ferramenta open-source14 que utiliza um método de rastrear

e coletar tweets contendo hashtags, ou qualquer termo ou palavra-chave, em atividade no Twitter (BRUNS e LIANG, 2012). Pode-se capturar através de várias pesquisas simultaneamente e adicionar Description e Tags, a fim de organizá-lo. Ele faz a coleta a partir da hora de inserção da pesquisa.

Criado por John O’Brien III, o TwapperKeeper era um produto bem similar ao utilizado, yourTwapperKeeper, porém, foi vendido para a empresa Hootsuite. Criado pelo mesmo autor, o yourTwapperKeeper foi uma solução open-source que oferece uma funcionalidade compatível ao anterior. Porém ao instalar o yTK, deve-se manter um servidor 24 horas por dia rodando para uma captura compreensiva de datasets15 (BRUNS, 2012). A ferramenta trabalha com duas das API’s públicas do Twitter, a Search API e a

Streaming API, como forma de redundância. Dessa forma, a Streaming serve para a coleta

em tempo real e a Search, para quando há algum gargalo que impeça a coleta via a API anterior.

Esta ferramenta nos permitiu fazer uma coleta a partir de um momento em que o movimento já estava tomando corpo, se manifestando. Isso se dá, pois sua forma de coleta

14 Open-Source é um termo dado à um software de código aberto. Esses programas tem seu código fonte

liberado e pode ser modificado e distribuído por qualquer um.

é feita em tempo real, só se coleta tweets, a partir da hora que a coleta foi iniciada. Dessa forma, não há como prever as hashtags que vão ser culminadas nos protestos. Há outras formas de coleta, como por exemplo o Gnip, em que se pode comprar um dataset completo, entretanto, esta pesquisa foi feita atráves desta ferramenta gratuita, de código aberto e livre.

Uma lição importante é que a mineração de Big Data de sucesso, em prática, é muito mais do que o que a maioria dos acadêmicos consideraria Data Mining: a vida “nas trincheiras” é ocupada por muito trabalho preparatório que antecede a aplicação de algoritmos de mineração de dados e é seguida de um esforço substancial a transformar modelos preliminares em soluções robustas. (LIN e RYABOY, 2012, pg. 6)

Os termos utilizados para a coleta nesta parte empírica da pesquisa foram “naovaitercopa” e “nao vai ter copa”. A não utilização do caractere ‘#’ acontece para abranger a pesquisa e os dados coletados. E em tempo, a coleta não é case sensitive, ou seja, mesmo se o termo conter maiúsculas, ele será catalogado, além de coletar também caso as letras contiverem acento ou til, como em, “NãoVaiTerCopa”.

A coleta ocorreu entre o período de 18 de Novembro de 2013 e 21 de Julho de 2014, justamente o período final da organização da copa, quando o movimento se levantou nas ruas e durante o evento. Neste prazo, foram coletados um total de 680.681

tweets. A coleta foi feita pelo yTK e pelo algoritmo de coleta do Labic, eles retornam as

seguintes informações sobre os tweets:

texto do tweet: a mensagem escrita pelo usuário.

id do usuário-destinatário do tweet (caso ele for um reply): O id é um número de identificação do usuário na rede social.

usuário do tweet: é o nome utilizado pelo usuário em sua conta do Twitter.

id do tweet: O id é um número de identificação do tweet na rede social.

id do usuário do tweet: O id é um número de identificação do usuário na rede social.

 língua utilizada em sua conta: é o idioma utilizado pelo usuário em sua rede social, não na postagem, mas na rede social em si (botões, página de login, etc).

fonte de onde veio o tweet: revela o sistema utilizado pelo usuário (Web, app do android, apple, app de desktop, etc).

 endereço web da imagem do usuário: é o link para a imagem utilizada como foto de perfil do usuário.

indicação de localização: revela se o tweet tem as informação de localização dele em seus metadados, caso não tenha os dois próximos campos são vazios.

 latitude: indica o número de latitude da localização.

 longitude: indica o número de longitude da localização.

hora e data de criação: indica a hora e a data em que o tweet foi postado. Ex: Wed Nov 27 01:12:34 +0000 2013.

timestamp16: número inteiro que indica a hora e data exata da postagem do tweet

em segundos.