FERRAMENTAS

Nas subseções 3.3.1, 3.3.2, 3.3.3 e 3.3.4 são descritas as ferramentas que

deram suporte ao desenvolvimento dessa pesquisa.

3.3.1 NodeXL

O NodeXL (http://nodexl.codeplex.com)é uma ferramenta livre e de código

aberto integrada ao Microsoft Excel (2007, 2010 e 2013) e mantida pela Social Media

Research Foundation (NODEXL, 2015). Essa ferramenta provê um conjunto de

funcionalidades que auxiliam os processos de análise e visualização de redes sociais,

incluindo ainda suporte para coleta de dados a partir de mídias sociais, como

Facebook, Flickr, Twitter e Youtube. Para isso, utiliza um modelo estruturado de

planilha que contém abas para o armazenamento de informações necessárias para

representação de uma rede (HANSEN, SHNEIDERMAN e SMITH, 2010).

Assim, os relacionamentos de uma rede – ou as arestas de um grafo – são

representadas em uma aba denominada “Edges”, que contém todos os pares de

vértices que estão conectados na rede, bem como alguns atributos complementares

(HANSEN, SHNEIDERMAN e SMITH, 2010; NODEXL, 2015). Quando essas arestas

são construídas a partir da coleta de mensagens da rede social Twitter, são

disponibilizados pela ferramenta 14 atributos ao todo, detalhados no Quadro 2.

QUADRO 2 – DESCRIÇÃO DOS ATRIBUTOS RELACIONADOS AOS TWEETS DISPONIBILIZADOS PELA FERRAMENTA NODEXL

Atributo Descrição

Relationship

A ferramenta NodeXL classifica os tweets buscados em

três tipos de relacionamento: Tweet, Replies To e

Mentions.

Se um tweet é uma resposta direcionada a algum usuário,

o NodeXL cria uma aresta partindo do usuário que publicou

a resposta para o usuário que foi respondido, atribuindo a

esse relacionamento o valor "Replies To". Essas

mensagens também são conhecidas como dirigidas,

apresentadas na seção 2.2.6 dessa pesquisa.

Se o tweet menciona algum outro usuário, o NodeXL cria

uma aresta partindo do usuário que mencionou para o

usuário mencionado, atribuindo a esse relacionamento o

valor "Mentions". Essas mensagens também são

conhecidas como retweet, apresentadas na seção 2.2.6

dessa pesquisa.

Se o tweet não foi nem uma resposta, nem uma menção,

o NodeXL cria um laço do tipo loop partindo do usuário que

publicou e apontando para ele próprio, atribuindo à relação

o valor "Tweet". Essas mensagens podem ser chamadas

de não direcionadas, apresentadas na seção 2.2.6 dessa

pesquisa.

Vertex1 Nome do perfil do usuário que publicou o tweet

Vertex2

Nome do perfil do usuário secundário relacionado ao tweet,

podendo ser o usuário respondido (no caso da relação

Replies To), o usuário retuítado (no caso da relação

Mentions) ou o próprio autor do tweet (no caso da relação

do tipo Tweet).

Relationship Date

(UTC)

Data/hora em que o relacionamento foi constituído, no fuso

horário UTC.

Tweet Texto do tweet coletado

URLs in Tweet Urls presentes no tweet coletado

Domains in Tweet Domínios web presentes do tweet coletado

Hashtags in Tweet ^Hasht^a^{gs presentes no} ^tweet^{coletado (significado}

explicado na seção 2.2.6 dessa pesquisa).

Tweet Date (UTC) ^{Data/hora de publicação do}^tweet^{, no fuso horário UTC.}

Coincide com o atributo Relationship Date (UTC).

Twitter Page for Tweet Link do Twiter que direciona ao tweet coletado

Latitude ^{Latitude em que o}^tweet^{coletado foi publicado, quando}

disponível.

Longitude ^{Longitude em que o}^tweet^{coletado foi publicado, quando}

disponível.

In-Reply-To Tweet ID ^{Identificador único do tweet respondido, caso do}

relacionamento seja do tipo "Replies To".

FONTE: O AUTOR (2015)

Além dessa, existem outras abas na planilha que possuem informação a

respeito de cada vértice (aba “Vertices”) – como, por exemplo, rótulo do vértice,

propriedades visuais e métricas relacionadas (HANSEN, SHNEIDERMAN e SMITH,

2010; NODEXL, 2015). Quando as mensagens são coletadas pela ferramenta a partir

da rede social Twitter, os dados dos usuários que publicaram as mensagens são

armazenados nessa aba. O Quadro 3 descreve os atributos disponibilizados pela

ferramenta relacionados a esses usuários.

QUADRO 3 – DESCRIÇÃO DOS ATRIBUTOS DISPONIBILIZADOS PELA FERRAMENTA NODEXL

REFERENTES AOS USUÁRIOS DA REDE SOCIAL TWITTER

Atributo Descrição

Vertex ^{Nome de perfil do usuário que publicou o}^tweet^{, do usuário}

respondido pelo tweet ou do usuário retuítado.

Image File Link para a imagem do perfil do usuário

Followed Número de perfis seguidos pelo usuário

Followers Número de perfil que seguem o usuário

Tweets Número de tweets publicados pelo usuário

Favorites Número de tweets marcados como "favorito" pelo usuário

Time Zone

UTC Offset (Seconds)

Diferença, em segundos, do fuso horário do usuário para o

fuso horário de referência (UTC), quando disponível.

Description ^{Descrição do perfil fornecida pelo usuário, quando}

disponível.

Location Localização fornecida pelo usuário, quando disponível.

Web Página da web fornecida pelo usuário, quando disponível.

Time Zone Fuso horário do usuário, quando disponível.

Joined Twitter

Date (UTC) ^{Data/hora de criação do perfil, no fuso horário UTC.}

Custom Menu

Item Text

Local de onde o tweet foi coletado. Como todos os tweets

coletados para essa pesquisa são públicos, o valor desse

campo sempre será "Open Twitter Page for This Person".

Tweeted Search Term? ^{Apresenta o valor "}^Yes^{" caso o usuário tenha publicado o}

termo buscado e "No", caso contrário.

FONTE: O AUTOR (2015)

Existem ainda as seções “Group” e “Group Vertices”, referentes aos

algumas métricas relacionadas à rede como um todo, como o tipo da rede (direcionada

ou não direcionada), número de vértices, número de arestas, número de componentes

conectados, número de componentes que contém apenas um vértice, número máximo

de vértices em um componente conectado, número máximo de arestas em um

componente conectado, diâmetro da rede (distância geodésica máxima), distância

geodésica média e densidade da rede (HANSEN, SHNEIDERMAN e SMITH, 2010;

NODEXL, 2015).

3.3.2 Rapidminer

Rapidminer (https://rapidminer.com) é uma plataforma livre, adaptável e de

código aberto desenvolvida na linguagem Java que provê um ambiente integrado para

análise de dados, por meio de soluções baseadas em aprendizado de máquina,

mineração de dados, mineração de textos e técnicas estatísticas (BURGET et. al.,

2010; HOFMANN e KLINKENBERG, 2013).

Essa ferramenta emprega uma abordagem baseada na utilização de

operadores modulares, cada qual com sua função específica, que podem ser

concatenados em cadeias complexas, as quais são arranjadas de acordo com o

problema a ser resolvido; a saída de cada operador é utilizada como entrada para o

próximo, e assim sucessivamente, até que o processamento seja finalizado

(GRACZYK, LASOTA e TRAWIŃSKI, 2009).

3.3.3 Weka

Weka (http://www.cs.waikato.ac.nz/ml/weka), um acrônimo para Waikato

Environment for Knowledge Analysis, é um projeto não-comercial e de código aberto

que fornece suporte para algumas etapas relacionadas ao processo de descoberta de

conhecimento, como pré-processamento, mineração de dados (por meio das tarefas

de classificação, associação e agrupamento) e visualização (HALL et. al. 2009;

GRACZYK, LASOTA e TRAWIŃSKI, 2009; RAMAMOHAN et. al. 2012).

O projeto teve início em 1992, quando algoritmos de aprendizado de máquina

estavam disponíveis em diferentes plataformas e os formatos de entrada e saída de

dados não eram padronizados. O WEKA foi então idealizado como uma solução para

esse problema, ao prover não apenas uma caixa de ferramentas esses algoritmos,

mas um ambiente por meio do qual pesquisadores poderiam implementar novos

códigos sem se preocupar com a infraestrutura para a preparação e manipulação dos

dados. Originalmente escrito na linguagem C, o WEKA foi posteriormente

completamente reescrito na linguagem Java, tornando-se compatível com a maioria

das plataformas computacionais. Atualmente, o WEKA é uma referência como

sistema para mineração de dados e aprendizagem de máquina, alcançando ampla

aceitação nos meios acadêmicos e empresariais (HALL et. al. 2009, RAMAMOHAN

et. al. 2012).

3.3.4 Tagul

O Tagul (https://tagul.com) é uma ferramenta online utilizada para análise e

visualização de dados textuais, por meio da apresentação de dados estatísticos

relacionados à frequência com que as palavras ou frases aparecem em um texto e da

geração de nuvens de palavras, uma representação gráfica em que há uma proporção

direta entre a frequência das palavras no texto e o tamanho da palavra no

conglomerado gerado (SANTOS, DE PRÓSPERO e GIANORDOLI, 2014).

3.3.5 DD-CSS

Abreviação para Data-driven Computational Social Science, DD-CSS

(http://dd-css.com)é uma aplicação web, de código aberto, desenvolvida em Python, que tem

como intuito auxiliar pesquisadores a coletar e analisar dados a partir de mídias

sociais. Possibilita, por exemplo, obter identificadores de seguidores e amigos de um

determinado perfil do Twitter ou ainda coletar até 3200 tweets de qualquer perfil

específico; permite ainda a consulta ao número de compartilhamento de uma

determinada url no Facebook. Os arquivos de saída podem ser obtidos nos formatos

JSON ou CSV (DD-CSS, 2014).

No documento REDES SOCIAIS (páginas 98-102)

Nas subseções 3.3.1, 3.3.2, 3.3.3 e 3.3.4 são descritas as ferramentas que

deram suporte ao desenvolvimento dessa pesquisa.

3.3.1 NodeXL

O NodeXL (http://nodexl.codeplex.com)é uma ferramenta livre e de código

aberto integrada ao Microsoft Excel (2007, 2010 e 2013) e mantida pela Social Media

Research Foundation (NODEXL, 2015). Essa ferramenta provê um conjunto de

funcionalidades que auxiliam os processos de análise e visualização de redes sociais,

incluindo ainda suporte para coleta de dados a partir de mídias sociais, como

Facebook, Flickr, Twitter e Youtube. Para isso, utiliza um modelo estruturado de

planilha que contém abas para o armazenamento de informações necessárias para

representação de uma rede (HANSEN, SHNEIDERMAN e SMITH, 2010).

Assim, os relacionamentos de uma rede – ou as arestas de um grafo – são

representadas em uma aba denominada “Edges”, que contém todos os pares de

vértices que estão conectados na rede, bem como alguns atributos complementares

(HANSEN, SHNEIDERMAN e SMITH, 2010; NODEXL, 2015). Quando essas arestas

são construídas a partir da coleta de mensagens da rede social Twitter, são

disponibilizados pela ferramenta 14 atributos ao todo, detalhados no Quadro 2.

Atributo Descrição

Relationship

A ferramenta NodeXL classifica os tweets buscados em

três tipos de relacionamento: Tweet, Replies To e

Mentions.

Se um tweet é uma resposta direcionada a algum usuário,

o NodeXL cria uma aresta partindo do usuário que publicou

a resposta para o usuário que foi respondido, atribuindo a

esse relacionamento o valor "Replies To". Essas

mensagens também são conhecidas como dirigidas,

apresentadas na seção 2.2.6 dessa pesquisa.

Se o tweet menciona algum outro usuário, o NodeXL cria

uma aresta partindo do usuário que mencionou para o

usuário mencionado, atribuindo a esse relacionamento o

valor "Mentions". Essas mensagens também são

conhecidas como retweet, apresentadas na seção 2.2.6

dessa pesquisa.

Se o tweet não foi nem uma resposta, nem uma menção,

o NodeXL cria um laço do tipo loop partindo do usuário que

publicou e apontando para ele próprio, atribuindo à relação

o valor "Tweet". Essas mensagens podem ser chamadas

de não direcionadas, apresentadas na seção 2.2.6 dessa

pesquisa.

Vertex1 Nome do perfil do usuário que publicou o tweet

Vertex2

Nome do perfil do usuário secundário relacionado ao tweet,

podendo ser o usuário respondido (no caso da relação

Replies To), o usuário retuítado (no caso da relação

Mentions) ou o próprio autor do tweet (no caso da relação

do tipo Tweet).

Relationship Date

(UTC)

Data/hora em que o relacionamento foi constituído, no fuso

horário UTC.

Tweet Texto do tweet coletado

URLs in Tweet Urls presentes no tweet coletado

Domains in Tweet Domínios web presentes do tweet coletado

Hashtags in Tweet Hashtags presentes no tweet coletado (significado

explicado na seção 2.2.6 dessa pesquisa).

Tweet Date (UTC) Data/hora de publicação do tweet, no fuso horário UTC.

Coincide com o atributo Relationship Date (UTC).

Twitter Page for Tweet Link do Twiter que direciona ao tweet coletado

Latitude Latitude em que o tweet coletado foi publicado, quando

disponível.

Longitude Longitude em que o tweet coletado foi publicado, quando

disponível.

In-Reply-To Tweet ID Identificador único do tweet respondido, caso do

relacionamento seja do tipo "Replies To".

Além dessa, existem outras abas na planilha que possuem informação a

respeito de cada vértice (aba “Vertices”) – como, por exemplo, rótulo do vértice,

propriedades visuais e métricas relacionadas (HANSEN, SHNEIDERMAN e SMITH,

2010; NODEXL, 2015). Quando as mensagens são coletadas pela ferramenta a partir

da rede social Twitter, os dados dos usuários que publicaram as mensagens são

armazenados nessa aba. O Quadro 3 descreve os atributos disponibilizados pela

ferramenta relacionados a esses usuários.

Atributo Descrição

Vertex Nome de perfil do usuário que publicou o tweet, do usuário

respondido pelo tweet ou do usuário retuítado.

Image File Link para a imagem do perfil do usuário

Followed Número de perfis seguidos pelo usuário

Followers Número de perfil que seguem o usuário

Tweets Número de tweets publicados pelo usuário

Hashtags in Tweet ^Hasht^a^{gs presentes no} ^tweet^{coletado (significado}

Tweet Date (UTC) ^{Data/hora de publicação do}^tweet^{, no fuso horário UTC.}

Latitude ^{Latitude em que o}^tweet^{coletado foi publicado, quando}

Longitude ^{Longitude em que o}^tweet^{coletado foi publicado, quando}

In-Reply-To Tweet ID ^{Identificador único do tweet respondido, caso do}

Vertex ^{Nome de perfil do usuário que publicou o}^tweet^{, do usuário}

Description ^{Descrição do perfil fornecida pelo usuário, quando}

Date (UTC) ^{Data/hora de criação do perfil, no fuso horário UTC.}

Tweeted Search Term? ^{Apresenta o valor "}^Yes^{" caso o usuário tenha publicado o}