Nas subseções 3.3.1, 3.3.2, 3.3.3 e 3.3.4 são descritas as ferramentas que
deram suporte ao desenvolvimento dessa pesquisa.
3.3.1 NodeXL
O NodeXL (http://nodexl.codeplex.com)é uma ferramenta livre e de código
aberto integrada ao Microsoft Excel (2007, 2010 e 2013) e mantida pela Social Media
Research Foundation (NODEXL, 2015). Essa ferramenta provê um conjunto de
funcionalidades que auxiliam os processos de análise e visualização de redes sociais,
incluindo ainda suporte para coleta de dados a partir de mídias sociais, como
Facebook, Flickr, Twitter e Youtube. Para isso, utiliza um modelo estruturado de
planilha que contém abas para o armazenamento de informações necessárias para
representação de uma rede (HANSEN, SHNEIDERMAN e SMITH, 2010).
Assim, os relacionamentos de uma rede – ou as arestas de um grafo – são
representadas em uma aba denominada “Edges”, que contém todos os pares de
vértices que estão conectados na rede, bem como alguns atributos complementares
(HANSEN, SHNEIDERMAN e SMITH, 2010; NODEXL, 2015). Quando essas arestas
são construídas a partir da coleta de mensagens da rede social Twitter, são
disponibilizados pela ferramenta 14 atributos ao todo, detalhados no Quadro 2.
QUADRO 2 – DESCRIÇÃO DOS ATRIBUTOS RELACIONADOS AOS TWEETS DISPONIBILIZADOS PELA FERRAMENTA NODEXL
Atributo Descrição
Relationship
A ferramenta NodeXL classifica os tweets buscados em
três tipos de relacionamento: Tweet, Replies To e
Mentions.
Se um tweet é uma resposta direcionada a algum usuário,
o NodeXL cria uma aresta partindo do usuário que publicou
a resposta para o usuário que foi respondido, atribuindo a
esse relacionamento o valor "Replies To". Essas
mensagens também são conhecidas como dirigidas,
apresentadas na seção 2.2.6 dessa pesquisa.
Se o tweet menciona algum outro usuário, o NodeXL cria
uma aresta partindo do usuário que mencionou para o
usuário mencionado, atribuindo a esse relacionamento o
valor "Mentions". Essas mensagens também são
conhecidas como retweet, apresentadas na seção 2.2.6
dessa pesquisa.
Se o tweet não foi nem uma resposta, nem uma menção,
o NodeXL cria um laço do tipo loop partindo do usuário que
publicou e apontando para ele próprio, atribuindo à relação
o valor "Tweet". Essas mensagens podem ser chamadas
de não direcionadas, apresentadas na seção 2.2.6 dessa
pesquisa.
Vertex1 Nome do perfil do usuário que publicou o tweet
Vertex2
Nome do perfil do usuário secundário relacionado ao tweet,
podendo ser o usuário respondido (no caso da relação
Replies To), o usuário retuítado (no caso da relação
Mentions) ou o próprio autor do tweet (no caso da relação
do tipo Tweet).
Relationship Date
(UTC)
Data/hora em que o relacionamento foi constituído, no fuso
horário UTC.
Tweet Texto do tweet coletado
URLs in Tweet Urls presentes no tweet coletado
Domains in Tweet Domínios web presentes do tweet coletado
Hashtags in Tweet Hashtags presentes no tweet coletado (significado
explicado na seção 2.2.6 dessa pesquisa).
Tweet Date (UTC) Data/hora de publicação do tweet, no fuso horário UTC.
Coincide com o atributo Relationship Date (UTC).
Twitter Page for Tweet Link do Twiter que direciona ao tweet coletado
Latitude Latitude em que o tweet coletado foi publicado, quando
disponível.
Longitude Longitude em que o tweet coletado foi publicado, quando
disponível.
In-Reply-To Tweet ID Identificador único do tweet respondido, caso do
relacionamento seja do tipo "Replies To".
FONTE: O AUTOR (2015)
Além dessa, existem outras abas na planilha que possuem informação a
respeito de cada vértice (aba “Vertices”) – como, por exemplo, rótulo do vértice,
propriedades visuais e métricas relacionadas (HANSEN, SHNEIDERMAN e SMITH,
2010; NODEXL, 2015). Quando as mensagens são coletadas pela ferramenta a partir
da rede social Twitter, os dados dos usuários que publicaram as mensagens são
armazenados nessa aba. O Quadro 3 descreve os atributos disponibilizados pela
ferramenta relacionados a esses usuários.
QUADRO 3 – DESCRIÇÃO DOS ATRIBUTOS DISPONIBILIZADOS PELA FERRAMENTA NODEXL
REFERENTES AOS USUÁRIOS DA REDE SOCIAL TWITTER
Atributo Descrição
Vertex Nome de perfil do usuário que publicou o tweet, do usuário
respondido pelo tweet ou do usuário retuítado.
Image File Link para a imagem do perfil do usuário
Followed Número de perfis seguidos pelo usuário
Followers Número de perfil que seguem o usuário
Tweets Número de tweets publicados pelo usuário
Favorites Número de tweets marcados como "favorito" pelo usuário
Time Zone
UTC Offset (Seconds)
Diferença, em segundos, do fuso horário do usuário para o
fuso horário de referência (UTC), quando disponível.
Description Descrição do perfil fornecida pelo usuário, quando
disponível.
Location Localização fornecida pelo usuário, quando disponível.
Web Página da web fornecida pelo usuário, quando disponível.
Time Zone Fuso horário do usuário, quando disponível.
Joined Twitter
Date (UTC) Data/hora de criação do perfil, no fuso horário UTC.
Custom Menu
Item Text
Local de onde o tweet foi coletado. Como todos os tweets
coletados para essa pesquisa são públicos, o valor desse
campo sempre será "Open Twitter Page for This Person".
Tweeted Search Term? Apresenta o valor "Yes" caso o usuário tenha publicado o
termo buscado e "No", caso contrário.
FONTE: O AUTOR (2015)
Existem ainda as seções “Group” e “Group Vertices”, referentes aos
algumas métricas relacionadas à rede como um todo, como o tipo da rede (direcionada
ou não direcionada), número de vértices, número de arestas, número de componentes
conectados, número de componentes que contém apenas um vértice, número máximo
de vértices em um componente conectado, número máximo de arestas em um
componente conectado, diâmetro da rede (distância geodésica máxima), distância
geodésica média e densidade da rede (HANSEN, SHNEIDERMAN e SMITH, 2010;
NODEXL, 2015).
3.3.2 Rapidminer
Rapidminer (https://rapidminer.com) é uma plataforma livre, adaptável e de
código aberto desenvolvida na linguagem Java que provê um ambiente integrado para
análise de dados, por meio de soluções baseadas em aprendizado de máquina,
mineração de dados, mineração de textos e técnicas estatísticas (BURGET et. al.,
2010; HOFMANN e KLINKENBERG, 2013).
Essa ferramenta emprega uma abordagem baseada na utilização de
operadores modulares, cada qual com sua função específica, que podem ser
concatenados em cadeias complexas, as quais são arranjadas de acordo com o
problema a ser resolvido; a saída de cada operador é utilizada como entrada para o
próximo, e assim sucessivamente, até que o processamento seja finalizado
(GRACZYK, LASOTA e TRAWIŃSKI, 2009).
3.3.3 Weka
Weka (http://www.cs.waikato.ac.nz/ml/weka), um acrônimo para Waikato
Environment for Knowledge Analysis, é um projeto não-comercial e de código aberto
que fornece suporte para algumas etapas relacionadas ao processo de descoberta de
conhecimento, como pré-processamento, mineração de dados (por meio das tarefas
de classificação, associação e agrupamento) e visualização (HALL et. al. 2009;
GRACZYK, LASOTA e TRAWIŃSKI, 2009; RAMAMOHAN et. al. 2012).
O projeto teve início em 1992, quando algoritmos de aprendizado de máquina
estavam disponíveis em diferentes plataformas e os formatos de entrada e saída de
dados não eram padronizados. O WEKA foi então idealizado como uma solução para
esse problema, ao prover não apenas uma caixa de ferramentas esses algoritmos,
mas um ambiente por meio do qual pesquisadores poderiam implementar novos
códigos sem se preocupar com a infraestrutura para a preparação e manipulação dos
dados. Originalmente escrito na linguagem C, o WEKA foi posteriormente
completamente reescrito na linguagem Java, tornando-se compatível com a maioria
das plataformas computacionais. Atualmente, o WEKA é uma referência como
sistema para mineração de dados e aprendizagem de máquina, alcançando ampla
aceitação nos meios acadêmicos e empresariais (HALL et. al. 2009, RAMAMOHAN
et. al. 2012).
3.3.4 Tagul
O Tagul (https://tagul.com) é uma ferramenta online utilizada para análise e
visualização de dados textuais, por meio da apresentação de dados estatísticos
relacionados à frequência com que as palavras ou frases aparecem em um texto e da
geração de nuvens de palavras, uma representação gráfica em que há uma proporção
direta entre a frequência das palavras no texto e o tamanho da palavra no
conglomerado gerado (SANTOS, DE PRÓSPERO e GIANORDOLI, 2014).
3.3.5 DD-CSS
Abreviação para Data-driven Computational Social Science, DD-CSS
(http://dd-css.com)é uma aplicação web, de código aberto, desenvolvida em Python, que tem
como intuito auxiliar pesquisadores a coletar e analisar dados a partir de mídias
sociais. Possibilita, por exemplo, obter identificadores de seguidores e amigos de um
determinado perfil do Twitter ou ainda coletar até 3200 tweets de qualquer perfil
específico; permite ainda a consulta ao número de compartilhamento de uma
determinada url no Facebook. Os arquivos de saída podem ser obtidos nos formatos
JSON ou CSV (DD-CSS, 2014).
No documento
REDES SOCIAIS
(páginas 98-102)