• Nenhum resultado encontrado

Predição de influência em redes sociais usando traços de personalidade

N/A
N/A
Protected

Academic year: 2021

Share "Predição de influência em redes sociais usando traços de personalidade"

Copied!
90
0
0

Texto

(1)

Pós-Graduação em Ciência da Computação

“Predição de Influência em Redes Sociais

usando Traços de Personalidade”

Por

Renê Nóbrega de Sousa Gadelha

Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

(2)

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Renê Nóbrega de Sousa Gadelha

“Predição de Influência em Redes Sociais usando Traços de

Personalidade"

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DA COMPUTAÇÃO.

Orientador: Ricardo Bastos Cavalcante Prudêncio

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

Gadelha, Renê Nóbrega de Sousa

Predição de influência em redes sociais usando traços de personalidade / Renê Nóbrega de Sousa Gadelha. - Recife: O Autor, 2013.

xiii, 75 f. : il., fig., tab., quadro

Orientador: Ricardo Bastos Cavalcante Prudêncio.

Dissertação (mestrado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013.

Inclui bibliografia e apêndice.

1. Ciência da computação. 2. Inteligência artificial. I. Prudêncio, Ricardo Bastos Cavalcante (orientador). II. Título.

(4)

Dissertação de Mestrado apresentada por Renê Nóbrega de Sousa Gadelha à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Predição de Influência em Redes Sociais usando Traços de Personalidade” orientada pelo Prof. Ricardo Bastos de Cavalcante Prudêncio e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Profa. Patrícia Cabral de Azevedo Restelli Tedesco Centro de Informática / UFPE

______________________________________________ Prof. Guilherme Ataíde Dias

Departamento de Ciência da Informação / UFPB

_______________________________________________ Prof. Ricardo Bastos Cavalcante Prudêncio

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 03 de julho de 2013

___________________________________________________ Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

iii Dedico este trabalho a meu pai que, mantendo seus ideais e princípios intactos, guiou meus passos sempre se respaldando em bons exemplos.

(6)

iv

Agradecimentos

Em 2009, um professor da graduação sugeriu um projeto envolvendo o estudo da personalidade, área que a esposa de seu orientador de mestrado pesquisava. Após quatro anos, personalidade é o tema dessa pesquisa que foi guiada pelo mesmo orientador. Alguns preferem atribuir isso ao acaso, eu prefiro atribuir e agradecer a Deus.

Agradeço também aos meus pais, que sempre priorizaram a educação dos filhos em detrimento de diversas frivolidades. Obrigado por terem me dado um irmão tão especial, que sempre foi meu maior amigo.

Agradeço a toda minha família que sempre me apoiou, até mesmo quando eu escolhi fazer vestibular para computação, deixando uma grande maioria atônita. Espero um dia conseguir reparar este desapontamento por não ser doutor. Em especial, agradeço a minha tia Lúcia que, além de me apoiar como filho, me deu uma irmã querida.

Agradeço ao meu orientador, professor Ricardo, que foi extremamente participativo no planejamento e desenvolvimento deste trabalho. Sou grato pelos seus ensinamentos que possibilitaram meu crescimento pessoal e profissional. Agradeço também a professora Flávia que, juntamente com Ricardo, me ajudou nos momentos mais difíceis que enfrentei durante meu mestrado. Sempre solícitos, eles me auxiliaram quando mais precisei.

Agradeço a Ryan Azevedo que me fez despertar o interesse por pesquisa e me incentivou a sempre buscar objetivos maiores, mesmo quando eu os achava inatingíveis.

Agradeço ao professor Guilherme Ataíde que foi um dos maiores incentivadores para que eu prosseguisse meus estudos através do mestrado, ensinando pacientemente as nuances do trabalho científico.

Não posso esquecer de dois grandes amigos, Hilário e João, com os quais morei por mais de dois anos. Agradeço a eles por toda cumplicidade e ajuda prestada, como também por provarem que até pessoas inteligentes podem ter dificuldades em acender um fogão ou dirigir um carro.

Agradeço aos amigos que muito me ajudaram e proporcionaram momentos que nunca irei esquecer: Airton, Alex, André, Armanda, Cledja, Cleyton, Dhiego, Jamilson, Lenin, Rafael, Ricardo, Rinaldo, Rodrigo, Ryan e Weslley.

Agradeço ao povo brasileiro, em especial os pernambucanos (FACEPE), que pagam seus impostos e financiam desde a estrutura física do Centro de Informática da UFPE até os seus professores que muito me ensinaram.

(7)

v

Resumo

Redes Sociais Online permitem interação e compartilhamento de conteúdo virtual entre usuários, possibilitando também a esses difundirem ideias, opiniões e notícias. Toda esta informação, se interpretada, pode ser um recurso valioso, principalmente para captação de

feedback sobre produtos, pessoas, marcas e etc. O Twitter se posiciona entre as redes sociais

online mais utilizadas, com mais de 200 milhões de usuários ativos pelo mundo, que publicam atualmente cerca de 400 milhões de mensagens (tuítes) por dia. No entanto, a grande quantidade de informação disponível dificulta a análise de todo este conteúdo. Diversas propostas abordam esse problema por meio de métodos para identificação de usuários influentes, os quais representam o pensamento coletivo ou exercem influência sobre outros. Esses métodos utilizam os atributos que modelam o perfil do usuário para identificar influenciadores, restringindo sua aplicação apenas àquela rede social abordada. Ao utilizar atributos da rede social para esse fim, esses métodos também se inviabilizam na atribuição de influência social para novos usuários, já que seus perfis não possuem informação suficiente para determinar seus níveis de influência. Como solução, este trabalho aborda os traços de personalidade do modelo Big Five, características descritivas e intrínsecas dos humanos, a fim de identificar influenciadores em redes sociais. Para isso, são definidas duas tarefas de regressão: a primeira consiste em uma análise de correlação entre os traços de personalidade e oito indicadores de influência social do Twitter; na segunda, são treinados modelos de regressão combinando traços de personalidade para predizer os indicadores de influência. Nos experimentos realizados com dois conjuntos de dados, a precisão dos modelos de regressão foi satisfatória nas métricas de erro quadrático e absoluto. Os ranques de influência produzidos pelos modelos de regressão são similares aos ranques ideais e suas ordenações correspondem a mais de 60% das ordenações ideais. Os resultados da análise de correlação possibilitaram caracterizar influenciadores como indivíduos emocionalmente estáveis, extrovertidos, organizados e criativos.

Palavras-chave: Análise de Redes Sociais, Detecção de Influência, Análise de Regressão, Traços de Personalidade.

(8)

vi

Abstract

Online Social Networks enable interaction and sharing of digital content among users, making possible to disseminate ideas, opinions, and news too. If all this information is interpreted, it will be a valuable resource, especially for feedback about products, people, brands, and so on. Twitter ranks among the most used online social networks, with more than 200 million active users worldwide, who currently publish approximately 400 million messages (tweets) per day. However, the large amount of available information complicates the analysis of the entire content. Several proposals address this problem through methods for identifying influential users, who represent the collective thinking or influence over others. Such methods use the attributes that model the user profile to identify influencers, restricting its application only to the addressed social network. By using attributes of the social network for this purpose, these methods also are unfeasible in the assignment of social influence for new users, because their profiles do not have enough information to determine their levels of influence. As a solution, this work addresses the personality traits of Big Five Model, intrinsic and descriptive characteristics of human, in order to identify influential users in social networks. With this purpose, two regression tasks were proposed: the first one consists of an analysis of correlation between personality traits and eight indicators of social influence on the Twitter; in the second, regression models combining personality traits are trained to predict the influence indicators. In the experiments with two data sets, the accuracy of the regression models was satisfactory in metrics of squared and absolute error. The ranks of influence produced by the regression models are similar to the ideals and its ordinations represent over 60% of ideal ordinations. The results of the correlation analysis make possible to characterize influencers as emotionally stable, outgoing, organized and creative.

Keywords: Social Network Analysis, Influence Detection, Regression Analysis, Personality Traits.

(9)
(10)

viii

Sumário

1 Introdução ____________________________________________________________ 1 1.1 Contextualização e Motivação ... 1 1.2 Caracterização do Problema ... 2 1.3 Objetivos do Trabalho ... 3 1.4 Trabalho Realizado ... 5 1.5 Estrutura da Dissertação ... 5

2 Redes Sociais Online e Detecção de Influência _______________________________ 7 2.1 Twitter ... 8

2.2 Influência Social nas Redes Sociais Online ... 11

2.3 Detecção de Influência no Twitter ... 12

2.3.1 Influência Baseada na Interação do Usuário ... 13

2.3.2 Influência Baseada no Grafo do Usuário ... 14

2.3.3 Influência Baseada no Conteúdo dos Tuítes ... 15

2.4 Conclusões do Capítulo ... 16

3 Traços de Personalidade ________________________________________________ 17 3.1 Classificação Automática de Personalidade em Texto ... 19

3.1.1 Método supervisionado para classificação de personalidade ... 21

3.2 Análise e Predição de Personalidade nas Redes Sociais Online ... 22

3.2.1 Análise de personalidade em RSOs ... 23

3.2.2 Predição de personalidade com comportamento social online ... 24

3.3 Conclusões do Capítulo ... 26

4 Predizendo Influenciadores com Traços de Personalidade ____________________ 27 4.1 Indicadores de influência ... 28 4.1.1 Número de seguidores ... 29 4.1.2 Número de amigos ... 30 4.1.3 Número de retuítes ... 30 4.1.4 Relevância do retuíte ... 30 4.1.5 Número de menções ... 31 4.1.6 Número de respostas ... 31

4.1.7 Número de tuítes favoritados ... 32

4.1.8 Atividade do usuário ... 32

(11)

ix

4.3 Modelo de regressão com traços de personalidade ... 34

4.4 Atributos baseados no conteúdo ... 35

4.5 Conclusões do capítulo ... 36

5 Experimentos e Resultados ______________________________________________ 37 5.1 Descrição dos Conjuntos de Dados ... 38

5.1.1 Conjunto de Dados Seguidores de Celebridades ... 39

5.1.2 Conjunto de Dados Usuários Comuns ... 39

5.2 Análise de Correlação ... 40

5.2.1 Discussões dos Resultados ... 41

5.2.1.1 Extroversão ... 42 5.2.1.2 Neuroticismo ... 42 5.2.1.3 Socialização ... 43 5.2.1.2 Realização ... 43 5.2.1.2 Abertura ... 44 5.3 Análise de Regressão ... 44

5.3.1 Precisão do Modelo de Regressão ... 45

5.3.2 Discussões dos Resultados ... 47

5.4 Análise de Ranqueamento ... 50

5.4.1 Métricas para Avaliação dos Ranques ... 51

5.4.2 Resultado da Avaliação dos Ranques ... 52

5.4.3 Análise dos Ranques Top100 e Top500 ... 54

5.5 Análise dos Preditores baseados no Conteúdo ... 55

5.5.1 Análise da Correlação ... 56

5.5.2 Modelo de Regressão com Atributos Baseados em Conteúdo ... 57

5.6 Ameaças à Validade ... 58 5.7 Conclusões do Capítulo ... 59 6 Considerações Finais ___________________________________________________ 61 6.1 Contribuições ... 62 6.2 Limitações do Trabalho ... 63 6.3 Trabalhos Futuros... 64 Referências Bibliográficas __________________________________________________ 66 Apêndice A – Verificação de normalidade na distribuição dos dados _______________ 75

(12)

x

Lista de Figuras

Figura 1: Arestas do relacionamento recíproco entre dois usuários no Twitter ... 9 Figura 2: Características comportamentais relacionadas aos cinco traços de personalidade ... 19 Figura 3: Metodologia de avaliação da qualidade dos ranques preditos. ... 50

(13)

xi

Lista de Tabelas

Tabela 1: Precisão dos modelos de classificação de personalidade em texto. ... 22 Tabela 2: Trabalhos relacionados à predição de personalidade. ... 25 Tabela 3: Análise estatística dos traços de personalidade nos dois conjuntos de dados. ... 40 Tabela 4: Correlação de Pearson entre atributos preditores e indicadores de influência em ambos conjuntos de dados ... 41 Tabela 5: Valor do RMSE para os quatro algoritmos sobre cada indicador de influência nos dois conjuntos de dados ... 47 Tabela 6: Valor do MAE para os quatro algoritmos sobre cada indicador de influência nos dois

conjuntos de dados ... 47 Tabela 7: Pesos dos modelos de predição para os indicadores de influência no conjunto de dados de seguidores de celebridade... 48 Tabela 8: Pesos dos modelos de predição para os indicadores de influência no conjunto de dados de usuários comuns. ... 48 Tabela 9: Valores do SRCC para os ranques produzidos combinando os traços de personalidade ... 53 Tabela 10: Valores do SRCC para os ranques produzidos com cada traço de personalidade ... 53 Tabela 11: Valores do nDCG dos ranques produzidos pelos cinco traços de personalidade combinados ... 54 Tabela 12: Valores do nDCG dos ranques produzidos com cada um dos cinco traços de personalidade ... 54 Tabela 13: Valores do nDCG dos ranques Top100 e Top500... 55 Tabela 14: Correlação de Pearson entre atributos baseados no conteúdo e indicadores de influência em ambos conjuntos de dados ... 56 Tabela 15: Valor do MAE para os quatro algoritmos sobre cada indicador de influência nos dois conjuntos de dados ... 57

(14)

xii

Lista de Quadros

Quadro 1: Glossário dos termos relativos ao Twitter. ... 10 Quadro 2: Indicadores de influência e tipo do atributo. ... 29 Quadro 3: Celebridades escolhidas para terem seus seguidores coletado. ... 39

(15)

xiii

Lista de Siglas e Abreviaturas

API – Application Programming Interface DCG – Discounted Cummulative Gain LR – Linear Regression

LIWC – Linguistic Inquiry and Word Count MAE – Mean Absolute Error

nDCG – Normalized Discounted Cummulative Gain RI – Recuperação de Informação

RMSE – Root Mean Squared Error RSO – Rede Social Online

SRCC – Spearman's Rank Correlation Coefficient SVM – Support Vector Machine

(16)

1

1

Introdução

Neste capítulo, são descritas as motivações e os objetivos que conduziram essa pesquisa, além de apresentar uma contextualização sobre a temática abordada neste trabalho.

1.1

Contextualização e Motivação

O crescimento acelerado das Redes Sociais Online (RSO) tem proporcionado para milhões de pessoas a oportunidade de criar e compartilhar conteúdo de forma usual e interativa. A participação massiva dos usuários nestes ambientes promove um número incontável de opiniões, notícias e outros conteúdos variados. As RSOs são caracterizadas também como uma importante fonte de informações que influenciam pessoas na adoção e utilização de produtos e serviços.

O Twitter, uma das mais conhecidas RSOs, é um serviço voltado ao compartilhamento de conteúdo com mais de 200 milhões de usuários ativos pelo mundo, produzindo atualmente cerca de 400 milhões de mensagens (tuítes) por dia. Dentre as RSOs, o Twitter se destaca pela disponibilidade de conteúdo público, já que cerca de apenas doze por cento das contas dos usuários tem sua visibilidade privada (BEEVOLVE, 2012). Esta característica permite aos usuários desta RSO maior acesso a informação na rede.

A maioria dos usuários do Twitter compartilham mensagens com opiniões sobre pessoas, produtos, marcas, serviços ou empresas, assim, têm-se milhões de mensagens disponíveis por dia para análise. Toda esta informação se torna um recurso valioso para os respectivos interessados (empresas, políticos, etc.), principalmente para captação de feedback. No entanto, analisar esses dados não é uma tarefa fácil devido à enorme quantidade de conteúdo gerado diariamente (LESKOVEC et al., 2007). Além de ser inviável inspecionar todos os dados gerados diariamente, nem todos os tuítes e usuários são importantes para serem analisados (conteúdo desinteressante). Desta forma, torna-se necessário identificar usuários líderes de opinião, os quais desempenham dois papeis fundamentais no processo de influência social: representam o pensamento coletivo (análise direcionada) e exercem influência sobre outros usuários.

(17)

2 Conceitualmente, a influência social é um fenômeno definido pela capacidade de direcionar, explicitamente ou não, comportamentos e opiniões de outro indivíduo. No contexto das RSOs, usuários influentes (influenciadores) podem direcionar as preferências de outros usuários, por interesses próprios ou de terceiros. Um exemplo prático é observado nas campanhas de marketing viral. Nestas companhas, as empresas incentivam os usuários a compartilharem nas RSOs informações sobre suas compras, a fim de influenciar seus contatos virtuais. Berry e Keller (2003) relacionam capacidade de exercer influência virtual com a influência cotidiana (não virtual), indicando também que quantidade de contatos virtuais em RSOs pode estar relacionado ao tamanho da rede social real de um usuário.

Sabe-se que credibilidade, perícia e entusiasmo são habilidades naturais de influenciadores (BAKSHY et al. 2011). Identificar estas características em usuários de uma RSO é complexo devido à grande quantidade de usuários para se realizar tal análise comportamental. Neste sentido, diversos estudos já avaliaram medidas para identificar e predizer influenciadores no Twitter (e.g., LEAVITT et al., 2009; CHA et al., 2010; WENG et

al., 2010a; YE e WU, 2010; ANGER e KITTL, 2011; BAKSHY et al., 2011). Nesses

trabalhos, as ações de interação do usuário e seus atributos de conexão na rede são comumente adotados como medidas do seu grau de influência no Twitter. A quantidade de seguidores de um usuário no Twitter também pode indicar sua influência (HUTTO et al., 2013), porém alguns trabalhos indicam que esta medida representa apenas popularidade (BIGONHA et al., 2012; CHA et al., 2010). Diversos atributos são investigados como indicadores de influência social no Twitter, no entanto alguns desses recebem avaliações contraditórias (e.g., número de amigos, número de postagens, número de seguidores).

1.2

Caracterização do Problema

Os indicadores de influência avaliados nos trabalhos supracitados na Seção 1.1 são específicos do Twitter, o que dificulta sua utilização na identificação de influenciadores em contextos não virtuais ou em outras RSOs (e.g., Facebook1, LinkedIn2, Myspace3 e Flickr4). Um exemplo desta limitação é encontrado em um dos principais indicadores de influência no 1 http://www.facebook.com/ 2 http://www.linkedin.com/ 3 http://www.myspace.com/ 4 http://www.flickr.com/

(18)

3 Twitter, definido pela quantidade de propagações de mensagens de um usuário (retuíte), recurso este inexistente no Linkedin e Myspace.

Outro fator que dificulta investigar influência social em outras RSOs é a indisponibilidade da informação do usuário e de suas interações para análise. Como a influência do usuário pode ser avaliada através do processo de difusão da sua informação (e.g., interação, postagens), não tê-las também impossibilita identificar influenciadores. O Facebook, por exemplo, adota políticas de privacidade mais restritas dificultando estudos para medição de influência (LA FOND e NEVILLE, 2010), caso semelhante ao LinkedIn.

Ao utilizar atributos da RSO para medir influência do usuário, restringe-se a capacidade de influência desse usuário aos valores momentâneos dos atributos analisados. Desta forma, um novo usuário pode ser rotulado, ou não, imprecisamente como influenciador. Este problema inviabiliza utilizar atributos do perfil do usuário (e.g., número de seguidores, número de retuites) para avaliar novos usuários. Mediante estas duas limitações das medidas de influência convencionais, há necessidade de medidas de influências genéricas para diversos contextos de RSOs. É também necessário desvincular a análise de influência dos atributos específicos de uma RSO.

O problema investigado pode ser expresso por meio de perguntas de pesquisa, nas quais suas respostas definem a abordagem a ser investigada no trabalho. A abordagem utilizada neste trabalho é direcionada para responder a seguinte pergunta:

 Como avaliar o grau de influência social de um usuário independente da RSO utilizada?

1.3

Objetivos do Trabalho

Definida a problemática, faz necessário avaliar quais características do usuário são genéricas suficientes para medir influência independente do meio social abordado. Nas redes sociais, os traços de personalidade são investigados e associados com diversos padrões comportamentais do usuário (e.g., QUERCIA et al., 2011; QUERCIA et al., 2012b; CELLI e ROSSI, 2012). Portanto, decidiu-se investigar se traços de personalidade podem caracterizar influenciadores. A escolha pelos traços de personalidade é motivada por estes serem características intrínsecas dos humanos, motivando todas suas atitudes, pensamentos e preferências, independente do meio social.

(19)

4 O estudo apresentado neste trabalho investiga a relação entre personalidade e influência social virtual. Assim, assume-se que traços de personalidade estão relacionados com a capacidade de exercer influência em RSOs. Caso seja confirmada esta relação, é possível formalizar modelos para predição de influência social em RSOs por meio da personalidade do usuário. É também possível investigar se outras características contidas nas postagens dos usuários podem auxiliar na predição de influência, aumentando a precisão dos modelos construídos.

Definida a proposta de solução para o problema de pesquisa, ao longo desse trabalho é investigada a aplicabilidade dos traços de personalidade na medição de influência social. Assim, pode-se definir como objetivo geral deste trabalho: propor e avaliar um modelo de

predição de influência em redes sociais online usando traços de personalidade.

Ao final do trabalho, espera-se caracterizar um modelo de personalidade para influenciadores. Este modelo permitirá predizer influência social dos usuários em outras RSOs, como também identificar influenciadores entre novos usuários do Twitter. A fim de alcançar o objetivo principal elencado nesta seção, os seguintes objetivos específicos foram definidos:

 Realizar uma revisão bibliográfica sobre detecção de influência em RSOs, agregando maior entendimento teórico e identificando trabalhos que representem o estado da arte. A partir desta revisão, pôde-se identificar limitações nos trabalhos relacionados e selecionar indicadores de influência social do Twitter;

 Desenvolver o classificador de personalidade em texto utilizando as técnicas encontradas na literatura. O classificador de personalidade será utilizado para avaliar os traços de personalidade dos usuários de acordo com a estrutura de personalidade adotada;

 Investigar se os traços de personalidade estão relacionados com influência social em RSOs por meio de uma análise de correlação. Se constatada esta relação, seria possível treinar modelos de regressão de indicadores de influência combinando os traços de personalidade para predizer influenciadores;

 Planejar um processo experimental para aplicar as tarefas de regressão. Isso permite também avaliar a precisão dos modelos de regressão e comparar os resultados do projeto experimental para ressaltar quais traços caracterizam influência social.

(20)

5

1.4

Trabalho Realizado

Para realizar o estudo experimental com o modelo de predição de influência, foi necessário antes realizar algumas atividades. Inicialmente foi desenvolvido o classificador de personalidade em texto com base em relatos da literatura. Este classificador é baseado em métodos de regressão com categorias textuais para mensurar os traços de personalidade. Foi ainda coletado dois conjuntos de dados experimentais do Twitter, possuindo estes informações dos usuários e de suas postagens.

Após classificar a personalidade dos usuários por meio do conteúdo textual produzido por eles, definiu-se duas tarefas de regressão. Na primeira, realizou-se uma análise de correlação entre oito indicadores de influência do Twitter e cinco traços de personalidade. O objetivo era avaliar qual a relação entre traços de personalidade e atributos escolhidos como bons indicadores de influência do usuário no Twitter. Desta forma, poderia ser caracterizado um perfil de personalidade para usuários influentes.

Na segunda tarefa, foram construídos modelos de regressão combinando traços de personalidade para predizer os indicadores de influência. Três algoritmos de regressão foram utilizados e os modelos produzidos avaliados por meio de medidas de precisão. Realizou-se também uma análise de ranques para avaliar se combinar traços de personalidade por meio de modelos de regressão é mais efetivo do que regressão individual de cada traço.

Foi avaliado também se atributos baseados no conteúdo das postagens podem aumentar a precisão dos modelos de regressão. Ao combinar os traços de personalidade com dois atributos baseados no conteúdo foi possível comparar a predição destes modelos de regressão com aqueles somente com traços de personalidade. Esta análise verifica a viabilidade destes dois atributos baseados no conteúdo para predição dos indicadores de influência no Twitter.

1.5

Estrutura da Dissertação

Os demais capítulos que compreendem as etapas necessárias para realização do objetivo geral proposto nesta dissertação estão organizados conforme descrição a seguir:

 Capítulo 2: apresenta os fundamentos de influência social nas RSOs, auxiliando no entendimento desta dissertação. Ao final do capítulo, são apresentados também alguns dos principais trabalhos relacionados sobre detecção de influência no Twitter;

(21)

6

 Capítulo 3: delineia os principais conceitos sobre personalidade, bem como a teoria dos traços e a estrutura da personalidade utilizada na formulação deste trabalho. São apresentados também os conceitos e técnicas para identificar traços de personalidade;

 Capítulo 4: detalha o método de predição de influenciadores baseado em traços de personalidade. Neste capítulo, são apresentados ainda os indicadores do Twitter selecionados para representar influência social;

 Capítulo 5: apresenta os experimentos realizados com objetivo de avaliar os modelos de predição de influenciadores. Neste capítulo, são realizadas também as análises sobre os resultados, caracterizando os traços de personalidade melhor avaliados nos experimentos com os indicadores de influência;

 Capítulo 6: expõe as conclusões finais deste trabalho, as contribuições alcançadas, bem como algumas propostas para trabalhos futuros.

(22)

7

2

Redes Sociais Online e Detecção de Influência

As RSOs já existem desde o início da Internet, seja pelas correntes de e-mails ou pelas comunidades de compartilhamento de conteúdo online (MISLOVE et al., 2007). Estas redes são constituídas de representações dos atores sociais e de suas conexões (RECUERO, 2009). Diversos serviços oferecem estrutura computacional para suportar estas redes, chamados sites de redes sociais. Os sites de RSOs possibilitam aos usuários organizar, localizar e compartilhar conteúdo, como também contatos.

Uma RSO pode ser definida como um serviço Web que tem como objetivo permitir aos seus usuários: (1) modelar seus perfis virtuais, expondo-os de maneira, total ou parcialmente, pública; (2) interagir com outros usuários com os quais se está conectado e (3) visualizar e percorrer listas de conexões feitas por usuários do sistema (BOYD e ELLISON, 2007). Redes Sociais podem ser representadas por um grafo definido por dois elementos: entidades (pessoas, grupos, etc.; os nós do grafo) e conexões (interações, laços sociais, etc.; as arestas do grafo) (RECUERO, 2009).

Em relação as diversas classificações das Redes Sociais, Quan (2011) propõe uma classificação segundo os objetivos da Rede Social, sendo esta classificada em: redes orgânicas (quando são centradas no relacionamento entre usuários, e.g., Twitter e Facebook.) e redes híbridas (quando são centradas no consumo de conteúdo ou serviço, e.g., Youtube e Yahoo! Answers). Outras classificações levam em consideração o tipo de público ao qual se destina a Rede Social (acadêmicas, profissionais, para mochileiros, etc.) ou ainda as características dos serviços disponibilizados pela Rede Social (blogs, compartilhamento de conteúdo, sites de relacionamento, etc.) (BOYD e ELLISON, 2007).

Outra classificação é sugerida por Recuero (2009), na qual as RSOs são caracterizadas em três tipos: emergentes, associativas e híbridas. As Redes Sociais emergentes possuem dimensões menores (menor quantidade de usuários, menor quantidade de conexões), e os laços representam interações entre os usuários. Outra característica dessas redes é que elas surgem quase instantaneamente na Web, por exemplo, os comentários de um blog ou a thread de um e-mail. As Redes Sociais associativas são maiores e predominam em ambientes nos quais os usuários explicitamente mantêm relacionamentos entre si (e.g., Orkut, Facebook). Já as Redes Sociais híbridas apresentam ambas as características, sendo redes centradas

(23)

8 simultaneamente nos relacionamentos e nas interações entre usuários (e.g., Twitter, Yahoo! Answers).

Esses ambientes sociais permitem aos seus usuários compartilhamento de conteúdo, dessa forma, estas redes sociais também representam um repositório de dados na Web sobre seus usuários e os relacionamentos entre eles (JAMALI e ESTER, 2010). A análise e a extração de informação de Redes Sociais vêm sendo amplamente utilizadas em várias áreas, incluindo Ciências Sociais, Economia e Marketing, em que a compreensão do comportamento da sociedade é estratégica (FREITAS et al., 2008). De acordo com um estudo apresentado em (TERRA, 2010), noventa por cento das empresas no Brasil usam as Redes Sociais para cativar novos negócios. O estudo revela que no nível global a média de empresas que já descobriram o potencial das Redes Sociais para gerar negócios é um pouco menor, em torno dos setenta e cinco por cento. Estas empresas utilizam as Redes Sociais para se relacionar com os clientes, coletar dados sobre sua opinião e preferências e realizar divulgação de produtos e serviços (TERRA, 2010).

2.1

Twitter

O Twitter, uma das mais conhecidas RSOs, é um serviço voltado ao compartilhamento de conteúdo com mais de 200 milhões de usuários ativos pelo mundo. Outro número expressivo refere-se à quantidade de mensagens postadas: em janeiro de 2009 eram enviadas cerca de dois milhões de mensagens por dia, em janeiro de 2010 já eram 65 milhões e em 2011 a média de mensagens diárias chegou a 200 milhões (TWITTER BLOG, 2011). Os últimos números divulgados pelo Twitter revelaram que o número de contas (ativas ou não) já chega a meio milhão e o número de mensagens postadas diariamente é cerca de 400 milhões (TWITTER BLOG, 2013). Esse crescimento acelerado despertou o interesse da comunidade científica, motivando uma grande quantidade de pesquisas que abordam o Twitter (e.g., JAVA et al., 2007; KWAK et a., 2010, LEE et al., 2010).

No Twitter, os usuários enviam mensagens de até 140 caracteres para seus assinantes, conhecidos como “seguidores” em português. As regras sociais no Twitter permitem aos usuários serem seguidos, como também seguir outros usuários (amigos). No contexto do Twitter, seguir um usuário significa explicitar interesse no conteúdo publicado por ele. Os usuários também recebem notificações quando seus amigos enviam mensagens, sendo estas nomeadas tuítes (tweets em inglês).

(24)

9 Conceitualmente, o grafo no Twitter é formado por nós (U) e arestas (R) representadas pela tupla { }, em que { | |} representa o conjunto de usuários e representa o conjunto de relacionamentos entre usuários. Cada aresta R é definida pela forma

, em que i e j são usuários do Twitter. No contexto específico do Twitter, as arestas são

direcionais, assim um usuário pode seguir outro sem haver necessariamente reciprocidade. Neste tipo de rede, a reciprocidade é definida por duas arestas (Figura 1) compostas pelos mesmos usuários, porém com direções opostas.

Figura 1: Arestas do relacionamento recíproco entre dois usuários no Twitter

O serviço pode também ser visto como uma ferramenta para discussão de tópicos de interesse comum, além de possibilitar o compartilhamento de opiniões, experiências e sugestões. Devido a essas características, alguns usuários utilizam este microblog como um chat público (HUBERMAN et al., 2009). A conta de um usuário no Twitter pode ou não ser pública, assim, para seguir uma conta protegida é necessária a autorização de seu dono. A princípio, os tuítes são visíveis apenas aos seguidores, que visualizam em suas linhas do tempo (timeline, em inglês) os tuítes de quem estão seguindo. Além disso, o Twitter possibilita a propagação de mensagens através da retransmissão de um tuíte (retuíte). Tuítes podem conter hiperlink para alguma página da Internet, assim como caracteres seguidos pelo símbolo “#” para indicar um tópico especial ou a ideia principal deste tuíte (hashtag). Ainda é possível agrupar seus seguidores fazendo uso de listas, ou até mesmo marcar um tuíte recebido como favorito, para este ser facilmente recuperado mais tarde. O Twitter permite aos usuários interagirem com outros através de nomes de usuários, isto é, usando o padrão “@nomedousuário” é possível mencionar ou conversar com outros usuários.

Além da linha do tempo com os tuítes, as páginas de perfil dos usuários exibem seus respectivos números de tuítes postados, número de seguidores, o número de pessoas que o estão seguindo, uma imagem com a foto do usuário, uma pequena autodescrição do usuário, o seu nome verdadeiro fornecido, e assim por diante. Consta no Quadro 1 um glossário para referência futura, resumindo algumas dessas definições sobre o Twitter e outros termos que podem ser importantes para a compreensão deste trabalho.

(25)

10 Quadro 1: Glossário dos termos relativos ao Twitter.

Termos Definição

Usuário Indivíduo inserido no Twitter, possuindo um nome de usuário único, uma página de perfil e um conjunto de tuítes publicados por ele.

Tuíte

Mensagem com 140 caracteres ou menos postada no Twitter. Aparece na página do perfil do remetente e também na linha do tempo do usuário que está seguindo o remetente.

Timeline

Lista de tuítes ordenada cronologicamente em tempo real. Ela aparece na página do perfil do usuário (com a lista de tuítes postados pelo respectivo usuário) e na página inicial do usuário (com a lista de tuítes publicados pelos usuários que este segue).

Seguidor Um seguidor de um usuário é aquele que está acompanhando seus tuítes. Amigo Um amigo de um usuário é aquele que é seguido por ele.

Menção

Tuíte contendo nome do outro usuário, precedido pelo símbolo "@". Havendo menção, o Twitter alerta o usuário que foi mencionado no referido tuíte. Se o destinatário da menção (usuário mencionado) está seguindo o remetente do tuíte, também irá aparecer na linha do tempo do destinatário.

Resposta

É um tuíte que inicia com o nome de outro usuário e responde um tuíte específico do usuário mencionado. A indicação de resposta aparece na página do perfil do remetente e na aba de menções do destinatário. Se o destinatário está seguindo o remetente, também irá aparecer na linha do tempo do destinatário.

Retuíte

Um retuíte acontece quando um usuário compartilha com seus seguidores um tuíte postado por outro usuário que segue. É o ato de postar novamente um conteúdo já publicado.

Tuíte Favoritado Ato de marcar como favorito um tuíte de outro usuário.

Hashtag Palavras precedidas pelo símbolo #, que são consideradas palavras-chave ou

tópicos em um tuíte.

Hiperlink (Link) É uma referência para um documento da Web, permitindo ao usuário ser

(26)

11

2.2

Influência Social nas Redes Sociais Online

No contexto das relações humanas, a influência social desempenha um papel importante na nossa sociedade. O princípio básico da influência social é que pessoas podem interagir entre si através de laços sociais (SILVA et al., 2011). Portanto, as decisões de um indivíduo são muitas vezes impulsionadas pela opinião ou influência de outra(s) pessoa(s) de seu círculo social. Compreender a influência social e seus fenômenos associados é um grande desafio no estudo do comportamento coletivo humano.

O ato de influenciar é conceituado por Leskovec et al.. (2007) como a capacidade de mobilizar ideias ou ações de pessoas diretamente ou não. Dentre os modelos avaliados na psicologia sobre influência social, aquele identificado por Kelman (1958) tornou-se referência para o seu entendimento, no qual são apontadas três principais variações sobre influência social:

Observância (Compliance em inglês): ocorre quando os indivíduos fingem concordar com os outros, mas na verdade, mantem suas opiniões discordantes privadamente;

Identificação (Identification em inglês): ocorre quando as pessoas são influenciadas por alguém que é querido e respeitado, como exemplo, uma celebridade famosa ou um amigo;

Internalização (Internalization em inglês): ocorre quando as pessoas aceitam verdadeiramente uma crença ou comportamento e a explicitam publicamente.

O impacto da influência em meio social é também reproduzido nos ambientes sociais virtuais. Nessas RSOs, os usuários são influenciados pelos outros por diversos motivos, seja por afinidade de ideias ou desejo de aceitação social (LESKOVEC et al.., 2007). Com a popularização das redes sociais, identificar quem são os usuários influentes e como a informação relevante se propaga são tarefas que, se bem resolvidas, trazem conhecimento estratégico para empresas de marketing, campanhas políticas e estudos sociológicos (VALIATI et al., 2012). Estes meios de comunicação mediados por computador possibilitam a interação entre usuários de forma síncrona (e.g., usando mensagens instantâneas), como também de maneira assíncrona (e.g., recados no Facebook). Este fato permite aos influenciadores maior disponibilidade temporal para comunicação com os usuários alvo.

Outros fatores também são potencializadores para ações de influência social nas RSOs, a saber: a capacidade de influenciar um grande número de indivíduos; o mínimo de esforço

(27)

12 necessário para fazer tentativas de influência; a possibilidade de obter feedback em tempo real; a flexibilidade para implantar uma variedade de estratégias de influência por meio das tecnologias de informação presentes nas RSOs. Com a combinação de todas essas possibilidades para ações de influenciadores, as RSOs são bem mais atraentes e penetrantes se comparadas às interações interpessoais convencionais (SUBRAMANI e RAJAGOPALAN, 2003). Como resultado de todas essas possiblidades, a capacidade e eficiência de exercer influência são consideravelmente aumentadas nos ambientes sociais virtuais.

Pela perspectiva da Ciência da Computação, a influência social é um aspecto fundamental no projeto de sistemas eficazes de recomendação, estratégias de marketing viral e mecanismos de difusão de informação (SILVA et al., 2011). Além das campanhas de marketing corporativas, a influência social nas RSOs permite mobilização popular em questões sociopolíticas ou em temáticas polêmicas de interesse comum. Um dos exemplos mais conhecidos foi a crítica ao comentarista Galvão Bueno, propagada milhares de vezes no Twitter, com a hashtag “#foragalvao”, sendo esta iniciada por alguns usuários brasileiros influentes nesta RSO. Já no âmbito político, é importante também identificar, entre os usuários, os formadores de opinião, de forma a direcionar campanhas a esses indivíduos a fim de aumentar a abrangência e qualidade da propaganda eleitoral.

2.3

Detecção de Influência no Twitter

A capacidade do usuário em exercer influência social no Twitter tem sido avaliada em diversos trabalhos, sendo estes importantes para a formulação da proposta contida neste trabalho de dissertação. Ao examinar influência no Twitter, alguns estudos confundiam-na com popularidade, medindo o nível de influência do usuário através do seu número de seguidores (BIGONHA et al., 2012). De acordo com os resultados apresentados em trabalhos anteriores (CHA et al., 2010; HUBERMAN et al., 2009; WENG et al., 2010a), o número de seguidores e amigos do usuário não é uma medida exata de influência. No entanto, a proporção de seguidores e amigos pode ser útil como um indicador de influência, já que esta permite ao usuário se comunicar com um número maior de usuários (LEAVITT et al., 2009).

Os trabalhos relacionados apresentados ao longo desta seção utilizam outras medidas de influência além do número de seguidores, sendo estas também conhecidas como indicadores de influência. Estas medidas podem ser categorizadas de acordo com três aspectos distintos do usuário: sua interação (e.g., número de vezes que o usuário é mencionado, números de

(28)

13 retuítes e número de tuítes respondidos); seu grafo (e.g., número de seguidores, número de amigos, Pagerank e medida de centralidade do usuário) e conteúdo dos seus tuítes (opinião positiva e/ou negativa, hashtag e links). Os trabalhos relacionados apresentados nas seções a seguir foram divididos de acordo com as medidas de influência utilizadas nas suas propostas. No entanto, algumas propostas são combinam diferentes medidas para melhorar sua precisão.

2.3.1 Influência Baseada na Interação do Usuário

Os indicadores de interação social no Twitter foram avaliados como medidas de influência em (LEAVITT et al., 2009). A proposta utiliza o número de respostas, retuítes, menções e atribuições, em vez de apenas utilizar o número de seguidores. Os autores selecionaram alguns usuários famosos pertencentes à categoria das celebridades, publicadores de notícias e analistas de mídia social, comparando vários indicadores de influência, tais como média de replicações dos tuítes para cada usuário. Os resultados definem celebridades como indivíduos que exercem maior influência social através de comunicação (respostas e menções), já que seus números de retuítes não são tão significativos.

A abordagem adotada por Ye e Wu (2010) analisa padrões de propagação de mensagens no Twitter, avaliando também diferentes medidas de influência. A quantidade de seguidores, de respostas e de retuítes foram definidas como indicadores de influencia, sendo estes medidos por meio de uma análise de ranques de usuários influentes. Nos experimentos, os três indicadores foram bem avaliados como identificadores de influência. O indicador de retuítes se mostrou o mais estável, pois mesmo com a mudança temporal os usuários influentes mantiveram suas quantidades médias de retuítes.

Em (CHA et al., 2010), os autores investigaram o número de amigos, o número de seguidores e o número de retuítes como medidas de influência. Entretanto, os resultados desmistificaram os usuários populares, pois mesmo estes possuindo elevado número de seguidores, não são necessariamente influentes em termos de número de retuítes ou menções. Outro aspecto relatado neste estudo foi a constatação sobre influenciadores serem sensíveis ao tempo, podendo aumentar ou diminuir seu grau de influência em intervalos periódicos. Tais resultados são contrários aos encontrados em (Ye e Wu, 2010), impossibilitando maiores conclusões sobre a ação temporal dos influenciadores.

(29)

14 2.3.2 Influência Baseada no Grafo do Usuário

O algoritmo de Pagerank (BRIN e PAGE, 1998), adaptado por Weng et al. (2010a) para identificar usuários influentes no Twitter, coleta a informação sobre a conexão entre dois usuários como a principal característica preditora. Uma das conclusões deste trabalho é que a semelhança entre os assuntos discutidos e o elevado número de seguidores não estão entre as razões que levam um usuário a seguir outro. Neste estudo é relatada fraca correlação entre usuários com elevado número de seguidores e usuários com elevado número de retuítes. Além disso, os autores relataram que o fato do usuário possuir elevado número de seguidores não indica necessariamente alta influência.

Bakshy et al. (2011) identificaram o papel dos usuários influentes na propagação de informação sobre eventos importantes e o efeito cascata de tuítes relacionados a tópicos de interesse comum. Os seguintes atributos foram utilizados para caracterizar os influenciadores: data de criação do perfil, número de seguidores, número de amigos e número de tuítes. Os autores também analisaram o conteúdo dos links postados, observando a quantidade da propagação de informação média sobre cada tópico de interesse. Os resultados mostraram que os links contidos no tuíte são essenciais para determinar sua difusão. Tuítes com Links direcionados para sites de mídias compartilháveis tendem a ser mais difundidos do que aqueles direcionados para sites de notícias.

Kwak et al. (2010) coletaram aproximadamente 41 milhões de usuários e 1,47 bilhões de relacionamentos da base de dados do Twitter, a fim de investigar influência social e difusão de informação. Foram produzidos três ranques de usuários, no qual cada ranque foi ordenado pelo número de seguidores, PageRank e número de retuítes. Os resultados indicaram similaridade entre os ranques baseados no número de seguidores e no PageRank, no entanto estes dois ranques não são similares ao ranque de retuíte.

Goyal et al. (2010) propõem um método para construção de grafos de probabilidade de influência por meio da análise da rede do usuário (grafos de amizade) e dos logs de ações do usuário. A partir destas duas fontes de dados, foi construído um grafo da propagação de informação, no qual os nós são os usuários que realizam as ações e as arestas representam a direção da propagação. Foram treinados modelos de predição com este grafo com o intuito de gerar um grafo de probabilidades de influência, no qual é possível predizer a propagação da informação produzida pelo usuário.

(30)

15 Brown e Feng (2011) utilizaram um método de detecção do núcleo e estrutura de rede, algoritmo de decomposição k-shell, com o objetivo de calcular a influência do usuário no Twitter. As entradas para o algoritmo são os grafos de conexão entre os usuários. A Influência do usuário é medida pelo seu nível k-shell, que é a saída do algoritmo de decomposição. Os experimentos demostram que a proposta é eficiente na identificação de um pequeno grupo de usuários (com menos de 1200 membros) que tenham um elevado grau de influência.

2.3.3 Influência Baseada no Conteúdo dos Tuítes

A influência social no Twitter não pode ser expressa unicamente pela quantidade de seguidores do usuário. Porém, esta medida é um bom indicador de popularidade e, indiretamente, influência. Hutto et al. (2013) acompanhou as publicações de 507 usuários do Twitter durante 15 meses. Foram investigados quais atributos poderiam predizer a quantidade de seguidores de um usuário. Os atributos preditores investigados foram relacionados ao conteúdo dos tuítes (e.g., hashtag, símbolos, sentimentos positivos ou negativos), como também outros atributos do perfil do usuário (e.g., quantidade de tuítes publicados, tuítes sem menções, número de retuítes, quantidade de seguidores dos amigos). Utilizando um modelo de regressão binomial negativo, descobriu-se que para aumentar seu número de seguidores deve-se: ter amigos com muitos seguidores, ter seus tuítes propagados e publicar conteúdo relevante.

Atributos baseados no conteúdo dos tuítes (e.g., termos positivos e negativos, sentimentos, hashtags, links) são usados na predição de retuítes em Naveed et al. (2011). Como a quantidade de retuíte é comumente utilizada como uma medida de influência, desejou-se descobrir quais fatores aumentariam as chances de um tuíte ser propagado, impactando assim na influência do usuário. Foi treinado um modelo de predição para indicar esses fatores responsáveis pelo retuíte por meio de funções de regressão. Os resultados apontaram algumas conclusões consideráveis para aumentar a chance de retuíte, como por exemplo, inserir links e mencionar outro usuário na mensagem.

Com o objetivo de classificar os usuários mais influentes no Twitter, Bigonha et al. (2012) propuseram um método baseado na combinação da posição do usuário na rede do Twitter, na polaridade de suas opiniões e na qualidade textual de seus tuítes. A avaliação experimental mostra que a abordagem pode identificar com sucesso alguns dos usuários mais influentes. Também e destacado que os relacionamentos com outros usuários fornecem a

(31)

16 melhor evidência para determinar a influência de um usuário, sendo este analisado por meio de diversas medidas (e.g., centralidade de intermediação, centralidade de proximidade, número de seguidores).

2.4

Conclusões do Capítulo

Neste capítulo, foram abordados os fundamentos de influência nas RSOs que auxiliarão no entendimento desta dissertação. Ao final do capítulo foram apresentados alguns dos principais trabalhos relacionados de influência no Twitter. A avaliação das medidas de influência nesses trabalhos não é unânime, podendo o mesmo indicador ser bem avaliado ou não em dois trabalhos diferentes, no entanto, encontram-se diversos entendimentos sobre influência social aproveitados na concepção desta pesquisa.

O próximo capítulo se refere ao tema de classificação de personalidade, apresentando outro embasamento teórico necessário para compreensão da proposta. Serão também delineados outros trabalhos relacionados com análise de redes sociais, no quais suas contribuições convergem para formular o modelo de predição de influência apresentado no Capítulo 4.

(32)

17

3

Traços de Personalidade

A personalidade é um construto que tem sido caracterizada na psicologia de diferentes formas e é relacionada a fatores genéticos, processos subconscientes ou objetivos de um indivíduo. Mairesse (2008) define personalidade como o complexo de atributos comportamentais, temperamentais, emocionais e mentais que caracterizam um indivíduo unicamente.

Com o objetivo de classificar a personalidade, foi necessário estruturá-la a fim de caracterizar suas dimensões no comportamento humano. Na psicologia, a mais bem aceita é a teoria dos traços (ALLPORT, 1966), na qual os traços são dimensões da personalidade do indivíduo e podem predizer padrões de ações, sentimentos e pensamentos (PINHO, 2005). De acordo com a teoria dos traços, estes são estáveis ao longo do tempo, diferenciando as pessoas e influenciando seus comportamentos (PINHO, 2005).

Os psicólogos, ao ponderar sobre personalidade, têm buscado identificar os traços mais essenciais da personalidade humana. Nos últimos 20 anos, uma estrutura padrão foi desenvolvida pela divisão dos traços em cinco grandes categorias, as quais compreenderiam todos os comportamentos e emoções humanas (MAIRESSE, 2008). O modelo dos cinco fatores (Five Factor Model ou Big Five em inglês), descrito em (GOLDBERG, 1990; COSTA e MCCRAE, 1992), é hoje o principal padrão de taxonomia para organizar e medir os traços de personalidade (WEHRLI, 2008). Alguns pesquisadores discordam do modelo Big Five pela sua grande abrangência (PINHO, 2005), porém defensores deste modelo afirmam que este compreende as dimensões da personalidade mais importantes e pode fornecer uma estrutura de organização confiável para o estudo da personalidade (COSTA e MCCRAE, 1992). Neste modelo, a personalidade é dividida em cinco grandes traços com valores bipolares (Figura 2). Cada traço possui dois grupos de características opostas, sendo estas descritas para cada traço a seguir:

 Extroversão: o traço de extroversão refere-se a emoções positivas, comportamento ativo e indivíduos com alto astral. Este traço tem sido visto como uma combinação de assertividade e sociabilidade (JUDGE e BONO, 2000). As facetas específicas de extroversão são mais aparentes na interação social, no qual se espera que extrovertidos tenham maior facilidade com abordagem e interação social. Em contraste, os indivíduos com baixos níveis de extroversão tendem a serem

(33)

18 introvertidos, reservados, sérios e preferem ficar sozinhos ou pertencer a círculos sociais menores e mais próximos.

 Neuroticismo: o traço de neuroticismo está relacionado à estabilidade emocional de um indivíduo. Aqueles que são emocionalmente instáveis (neuróticos) tendem a ser mal-humorados, ansiosos, paranoicos, nervosos, inseguros, deprimidos ou tensos (BARRICK e MOUNT, 2001). Comportamentos associados com estabilidade emocional são relacionados a indivíduos bem ajustados, calmos, seguros e autoconfiantes. Wehrli (2008) relata que estabilidade emocional está sempre relacionada com eficácia e que este fator é importante em qualquer tarefa que requeira subordinação.

 Socialização: Este traço é definido pela bondade, confiança e companheirismo contra o egoísmo, a desconfiança e hostilidade. Indivíduos com altos valores em socialização são atenciosos, honestos, úteis e prestativos, enquanto baixos valores são insensíveis, intolerantes, antipáticos e críticos. Este traço é comumente avaliado como um termômetro social, já que sua caracterização impacta nas situações interpessoais (MOUNT et al., 1998).

 Realização: O traço de realização tem sido associado com competência, ordem, organização e obstinação (COSTA e MCCRAE, 1992). Assim, indivíduos com altos valores neste traço tendem ser metódicos, preparados e organizados, enquanto o contrário remete a impulsivos, irresponsáveis e desordenados.

 Abertura: O traço de abertura tem sido descrito como abertura a novas experiências, refletindo interesses intelectuais, culturais ou criativos. Pessoas de pontuação alta em abertura tendem ser originais, imaginativos e têm muitos interesses e hobbies. Pessoas com pontuação baixa neste traço estão propensos a serem práticas, cautelosas e conservadores. Abertura ao novo é importante em postos de trabalho no qual as pessoas precisam ser curiosas e críticas, enquanto indivíduos com baixos valores neste traço são importantes em trabalhos repetitivos que exigem atenção aos detalhes (DRISKELL et al., 2006).

(34)

19 Figura 2: Características comportamentais relacionadas aos cinco traços de personalidade

3.1

Classificação Automática de Personalidade em Texto

A psicometria, área da psicologia que estuda métodos para mensurar comportamentos humanos, tem produzido diversas técnicas e instrumentos para caracterizar os cinco grandes traços. Dentre estes, os instrumentos tradicionais, compostos de questionários com assertivas para auto avaliação do indivíduo, se baseiam em diversos critérios psicométricos, sendo o fator sócio-político-econômico o mais determinante para a eficácia deste teste. Dessa forma, um instrumento desenvolvido e validado em um contexto regional pode não ser indicado para outra região devido às suas diferenças culturais.

Dentre as abordagens existentes para classificar personalidade, foram investigadas técnicas para mensurar os traços do Big Five sem intervenção de especialista, como exemplo, a classificação automática de personalidade em texto. Este método baseia-se na hipótese léxica, na qual qualquer traço que defina o comportamento humano possui um ou mais símbolos léxicos associados (tokens em inglês). Esses símbolos léxicos podem pertencer a qualquer classe gramatical (e.g., substantivo, verbo, adjetivo, adverbio, pronome). Nunes (2000) define os tokens descritores de personalidade como termos identificados na linguagem natural, capazes de representar e descrever importantes componentes do conjunto de comportamentos observados nos indivíduos. Na sua maioria, os adjetivos utilizados por um indivíduo na produção textual são bons descritores dos seus traços de personalidade. Como exemplo da relação entre tokens e traços, pode-se identificar pessoas introvertidas pela quantidade de termos negativos encontrados nos textos escritos por ela (MEHL et al., 2006).

Alguns trabalhos documentaram a existência de correlações entre uma gama de variáveis linguísticas e os cinco grandes traços de personalidade (PENNEBAKER e KING, 1999; PENNEBAKER et al., 2003; MEHL et al., 2006). Estes estudos possibilitam

(35)

20 sistematizar estas relações e, consequentemente, mensurar o valor de cada traço do Big Five. O traço de extroversão foi um dos primeiros a serem mensurados lexicamente, sendo abordado em (HEYLIGHEN e DEWAELE, 2002) a fim de estabelecer uma métrica para quantificar discursos formais de introvertidos, definida pela Equação (3.1):

(3.1)

Cada parâmetro da Equação 3.1 representa, respectivamente, a frequência no texto de substantivos, adjetivos, preposições, artigos, pronomes, verbos, advérbios, advérbios e interjeições. Esta métrica foi obtida através da análise de discursos formais de indivíduos introvertidos, no qual cada palavra foi agrupada em categorias textuais e suas frequências calculadas para formalizar este modelo.

Oberlander e Gill (2006) também relacionaram análise textual e caracterização de extroversão, fazendo uso de n-gram para identificar padrões em e-mails de extrovertidos e introvertidos. Outros trabalhos têm relacionado os demais traços de personalidade a tokens da língua inglesa (GILL e OBERLANDER, 2003; PENNEBAKER e KING, 1999; PENNEBAKER et al., 2003; MEHL et al., 2006). O Big Five também tem sido relacionado a diversas línguas, como por exemplo, chinês (TRULL e GEARY, 1997) e indiano (LODHI et

al., 2002).

Os trabalhos supracitados que investigaram as relações dos traços do Big Five com

tokens utilizavam, geralmente, correlações para formular tais relações. Estas propostas

impulsionaram o desenvolvimento de métodos baseados em aprendizagem supervisionada para classificar automaticamente a personalidade humana por meio de texto. A construção dos modelos de reconhecimento automático de personalidade em texto encontrados nos trabalhos relacionados (MAIRESSE et al., 2007; CELLI, 2012b; IACOBELLI et al., 2011; KERMANIDIS, 2012; FARNADI et al., 2013; OBERLANDER e NOWSON, 2006) seguem basicamente esta sequência padrão de etapas: (1) coleta do corpus; (2) pontuação dos traços de personalidade dos participantes realizada por especialistas; (3) extração das categorias léxicas do texto dos participantes; (4) treinamento de modelos estatísticos para pontuação dos traços de personalidade com as categorias léxicas; (5) testar e avaliar os modelos aprendidos em novo corpus.

Além do Big Five, existem ainda outros modelos para estruturar personalidade, como por exemplo, hexaco (LEE e ASHTON, 2004) e alternative five (ZUCKERMAN et al.,

(36)

21 1993). No entanto, Mairesse (2008) rotula o Big Five como a abordagem mais adequada para modelar computacionalmente a personalidade, já que este modelo resume a personalidade em um conjunto conciso de valores escalares, representados por cada uma das suas cinco dimensões. Na próxima seção, é descrito o método para classificação de personalidade proposto por Mairesse et al. (2007) e reproduzido nos experimentos desta dissertação.

3.1.1 Método supervisionado para classificação de personalidade

O método descrito em (MAIRESSE et al., 2007) classifica personalidade em textos escritos em inglês, representando o estado da arte. Os trabalhos posteriores relacionados não apresentaram significantes evoluções para a área (CELLI, 2012a). O método desenvolvido por Mairesse et al. (2007) associa os cinco traços de personalidade a dois conjuntos de categorias textuais: Linguistic Inquiry and Word Count (LIWC), proposto por Pennebaker et al. (2001), e o Psycholinguistic Database (RMC), proposto por Coltheart (1981). As categorias de palavras do LIWC são mais relativas ao estilo textual (e.g., quantidade de palavras por sentença, frequência de repetição por palavra, quantidade de pronomes na primeira pessoa do singular), enquanto as categorias do RMC são relativas a cada palavra do texto (e.g., número de letras, número de fonemas, número de sílabas).

As etapas para construção do modelo descrito por Mairesse et al. (2007) são sumarizadas a seguir e descritas posteriormente: (C1) coleta textual dos indivíduos para o experimento; (C2) avaliação da personalidade dos participantes do experimento por meio de um teste de personalidade baseado no Big Five; (C3) extração e classificação das palavras em categorias léxicas do LIWC e RMC; (C4) construção de modelos de avaliação de personalidade usando algoritmos de regressão.

 C1: os experimentos foram realizados com um corpus (PENNEBAKER e KING, 1999) contendo textos em inglês escritos por 2.479 estudantes de psicologia. Os textos foram escritos pelos estudantes sobre tema livre e com tempo máximo de 20 minutos;

 C2: cada estudante teve sua personalidade avaliada por especialistas de acordo com o modelo Big Five. Na avaliação realizada, os especialistas atribuíram valor para os cinco traços de personalidade de cada indivíduo entre intervalo de 0 a 10;

(37)

22

 C3: Ao realizar o processamento sobre o texto de cada estudante, as palavras foram classificadas e relacionadas a sua respectiva categoria, seja do LIWC ou RMC, produzindo a frequência de palavras por categoria;

 C4: Definiu-se uma tarefa de regressão para aprender um modelo estatístico para cada traço de personalidade do modelo Big Five, utilizando as categorias como atributos preditores e seus respectivos valores definidos pela frequência das palavras. Foram construídos modelos com os algoritmos baseados em regressão linear, árvore de regressão e Máquina Vetor Suporte para regressão.

A precisão média dos cinco traços deste modelo é comparada com outros classificadores de personalidade por Celli (2012a) e exposta na Tabela 1. Diferentemente dos outros trabalhos apresentados na Tabela 1, Mairesse et al. (2007) utilizam categorias textuais da língua inglesa (LIWC e RMC) concisas e estruturadas. A precisão média dos modelos produzidos por Oberlander et al. (2006) é melhor que a encontrada em (MAIRESSE et al., 2007), pois este último não obteve bons resultados para o traço de neuroticismo (a precisão foi melhor para os demais traços).

Tabela 1: Precisão dos modelos de classificação de personalidade em texto (menores valores são melhores).

Autor Algoritmo Precisão Média

Argamon et al., 2005 Naive Bayes 0.576

Oberlander et al., 2006 Naive Bayes 0.539

Mairesse et al., 2007 SVM 0.57

Iacobelli et al., 2011 SVM 0.767

3.2

Análise e Predição de Personalidade nas Redes Sociais Online

As RSOs possibilitam a investigação sistemática e abrangente de fenômenos sociais, antes realizada com menor abrangência em meio social não virtual. Os traços de personalidade estão diretamente relacionados a todos os comportamentos humanos, refletidos nas ações e interação nas RSOs. No contexto desta dissertação, os trabalhos relacionados envolvendo personalidade e RSOs são categorizados de acordo com dois objetivos distintos: relacionar personalidade aos comportamento dos usuários de RSOs (Seção 3.2.1); predizer traços de personalidade com atributos baseados na interação dos usuários nas RSOs (Seção 3.2.2).

Referências

Documentos relacionados

Todavia, nos substratos de ambos os solos sem adição de matéria orgânica (Figura 4 A e 5 A), constatou-se a presença do herbicida na maior profundidade da coluna

(grifos nossos). b) Em observância ao princípio da impessoalidade, a Administração não pode atuar com vistas a prejudicar ou beneficiar pessoas determinadas, vez que é

Este trabalho é resultado de uma pesquisa quantitativa sobre a audiência realizada em 1999 envolvendo professores e alunos do Núcleo de Pesquisa de Comunicação da Universidade

Os elementos caracterizadores da obra são: a presença constante de componentes da tragédia clássica e o fatalismo, onde o destino acompanha todos os momentos das vidas das

a) O polícia disse um palavrão, após ter saído da casa de Adrian. Corrige as falsas.. A mãe também está com gripe. “Quase que não consegui ficar calado quando vi que não

O estudo múltiplo de casos foi aplicado para identificar as semelhanças e dissemelhanças na forma como as empresas relacionam seus modelos de negócios e suas

Os resultados obtidos nas experimentações são surpreendentemente semelhantes ao que se apresenta em cursos sobre o crescimento de espeleotemas em cavernas o que auxilia no

Como objetivos específicos pretendeu-se iden- tificar os taxa existentes nesta gruta, determinar a riqueza de es- pécies de sua comunidade; verificar a influência de fatores