• Nenhum resultado encontrado

5 Experimentos e Resultados

5.6 Ameaças à Validade

Apesar dos resultados animadores encontrados, o presente trabalho possui algumas ameaças à validade dos resultados obtidos. Para analisar a validade foram considerados dois tipos de ameaça: externa e interna. A validação externa está relacionada à generalização das conclusões para outros contextos, já a validade interna corresponde a verificar se o resultado obtido é consequência da manipulação que foi feita e não de outro fator.

Em relação à validade interna são observadas duas ameaças, sendo a primeira relativa ao fato do conjunto de dados usuários comuns ser coletado a partir de um usuário específico, escolhido arbitrariamente. Isto pode ter introduzido um viés na seleção de usuários para a construção do modelo de regressão. No entanto, acredita-se que a coleta a partir de um usuário escolhido não desmereça a capacidade dos traços de personalidade em predizer influenciadores, pois todos os usuários coletados a partir deste único usuário estão geograficamente distribuídos, 67 países distintos, e representam uma parcela significativa dos usuários ativos do Twitter.

A segunda ameaça interna refere-se aos mesmos inconvenientes relatados em (Mairesse

et al., 2007), uma vez que foi utilizado apenas texto para classificar os cinco traços de

personalidade. Nos experimentos aqui realizados, foi utilizado o texto de todos os tuítes do usuário para classificar sua personalidade, o que pode ter interferido igualmente na precisão dos resultados. Argamon et al. (2005) e Celli (2012b) também fazem uso de técnicas de reconhecimento automático de personalidade em textos, relatando acurácia da classificação automática se comparada à classificação de personalidade por psicólogos.

Em relação à validade externa, os resultados e perspectivas aqui delineados são valiosos para o Twitter. No entanto, é necessário examinar se as percepções sobre a influência apontadas neste artigo podem ser extensíveis a outras RSO, como o Facebook. Existe também

59 a preocupação que os traços de personalidade possam não predizer influenciadores em contextos além das RSOs (blogosfera, ambientes não virtuais, etc.), já que os entendimentos sobre influência aqui produzidos foram extraídos de analises no Twitter. No entanto, a influência social é uma capacidade do indivíduo não modificável com a mudança do meio. Por isso acredita-se que os entendimentos encontrados com usuários do Twitter sejam válidos para outras RSOs.

5.7

Conclusões do Capítulo

Neste capítulo foram apresentados vários experimentos realizados com objetivo de avaliar os modelos de predição de influenciadores. Todos estes resultados obtidos nos experimentos corroboram com a conclusão de que o modelo proposto demonstrou uma capacidade satisfatória na predição de indicadores de influência social.

Após os experimentos realizados é possível confirmar ou refutar as hipóteses de pesquisa elencadas no início deste capítulo, estando estas dispostas a seguir.

Hipótese 1: Os cinco traços de personalidade descritos no modelo Big Five estão

relacionados com a capacidade de exercer influência em redes sociais. Inicialmente,

realizou-se um estudo correlacional a fim verificar se a personalidade está relacionada com a capacidade de exercer influência. Nos dois conjuntos de dados, foram correlacionados oito indicadores de influência com cinco traços de personalidade por meio da medida de Pearson. Dos 40 coeficientes, nove não são estatisticamente significantes, implicando que 77,5% das correlações são diferentes de zero. Havendo relação significante de todos os traços de personalidade com pelo menos um indicador de influência, pode-se confirmar a veracidade da hipótese 1.

Hipótese 2: Hipótese 2: Combinar traços de personalidade por meio de modelos de

regressão é mais efetivo para predizer influência que utilizar os traços individualmente. Na

Seção 5.3, foi avaliada a precisão dos modelos de regressão combinando os cinco traços de personalidade nos dois conjuntos de dados experimentais. Foram utilizados duas medidas de precisão, RMSE e MAE, nas quais pelo menos dois dos três modelos treinados pelos algoritmos de regressão obtiveram resultados estatisticamente melhores (erros menores) que a média em todos os indicadores de influência. Os resultados das medidas de precisão indicaram que os algoritmos de regressão produziram modelos com precisão estatística

60 significante se comparados com os valores basais. Utilizou-se estes modelos de regressão no experimento descrito na Seção 5.4 com o objetivo de predizer o valor dos oito indicadores de influência para 2000 usuários. Desta forma foi possível realizar uma análise de ranque, investigando a similaridade e ordenação entre os ranques observados e aqueles preditos. Na métrica SRCC, todos os ranques preditos obtiveram coeficientes positivos e significantes, sendo então similares (não idênticos) aos ranques ideais. Os resultados para a métrica de ordenação (nDCG) foram animadores, pois os ranques preditos correspondiam a valores maiores que 60% da ordenação ideal em todos os indicadores. Outra análise foi realizada no topo dos ranques para averiguar as predições sobre os usuários mais influentes. Para alguns indicadores, a ordenação no topo dos ranques foi até superior a aquela averiguada no ranque completo, confirmando os bons resultados dos modelos de regressão. As duas medidas de qualidade de ranques foram usadas para comparar aqueles ranques produzidos combinando os traços com os ranques produzidos com cada traço. Os resultados indicam que combinar traços de personalidade por meio de modelos de regressão se mostrou mais efetivo. Assim, a hipótese de pesquisa 2 é confirmada.

Hipótese 3: Atributos baseados no conteúdo dos tuítes auxiliam os traços de

personalidade na tarefa de predição de influenciadores no Twitter. Realizou-se um

experimento de predição de influência combinando os atributos baseados no conteúdo com os traços de personalidade (ver Seção 5.5). A precisão foi medida pelo MAE, nos dois conjuntos de dados experimentais, obtendo erro menor do que a média. No entanto, para avaliar esta hipótese foi necessário comparar os valores de MAE obtidos pelos modelos de predição com a inclusão dos atributos baseados no conteúdo e sem a inclusão destes atributos. Nos dois conjuntos de dados, os resultados de MAE foram melhores para os modelos combinando os atributos hashtag e link. Obteve-se erro menor em onze valores com a inclusão dos atributos baseados no conteúdo. Nos outros cinco valores, os modelos produziram erros estatisticamente similares (teste T). Os resultados encontrados permitem confirmar a hipótese de pesquisa 3.

61

6

Considerações Finais

Esta dissertação abordou o problema em identificar usuários influentes em RSOs. A identificação de influenciadores possibilita compreender o pensamento coletivo, como também auxiliar processos de difusão de informação. Para solucionar este problema, foi apresentado um método para predição influenciadores, modelado pela relação entre indicadores de influência do Twitter e traços de personalidade. Este método também possibilita predizer os indicadores de influência de novos usuários do Twitter por meio de seus traços de personalidade. Nos experimentos desta proposta, foram utilizados 6887 usuários do Twitter e oito indicadores de influência do Twitter. Os usuários do experimento foram divididos em dois conjuntos de dados, aqueles que seguiam celebridades e aqueles que não seguiam. A divisão por este critério permitiu verificar se havia alguma distinção nos padrões de personalidade destes grupos.

Dois experimentos distintos foram elaborados para relacionar personalidade e influência social: (1) análise de correlação, na qual se avaliou individualmente a relação entre cada traço de personalidade e indicador de influência; (2) aprendizagem de modelos de regressão para os indicadores de influência, na qual estes modelos combinam os traços de personalidade para predizer os oito indicadores de influência.

No primeiro experimento, foram encontradas correlações significantes entre indicadores de influência e traços de personalidade. A partir dos resultados desta avaliação individual entre traços e indicadores de influência nos dois conjuntos de dados, foi possível caracterizar um perfil para influenciadores: emocionalmente estáveis, extrovertidos, organizados e criativos. Este perfil foi identificado pela análise dos coeficientes de correlação mais significantes encontrados nos experimentos. No segundo experimento com modelos de regressão, foi possível predizer cada indicador de influência combinando os cinco traços de personalidade. Sobre estes resultados, a avaliação da precisão dos modelos de regressão foi encorajadora, já que nas duas medidas, RMSE e MAE, os modelos realizaram predições melhores que o valor padrão (média). Avaliou-se também a qualidade de ranques produzidos com valores preditos pelos modelos através de métricas de similaridade e ordenação, no qual os resultados foram considerados satisfatórios.

62 A realização da análise de correlação permitiu concluir que traços de personalidade podem predizer influência social no Twitter, podendo esta afirmação também ser válida para outras RSOs. Neste experimento, avaliou-se também um perfil de personalidade para influenciadores, o que possibilita identifica-los em RSOs. No experimento com regressão dos indicadores de influência, os modelos aprendidos podem estimar o valor destes oito indicadores para novos usuários do Twitter. Para isso, os modelos utilizarão os traços de personalidade destes usuários como dados de entrada do modelo. Na análise de ranques realizada com todos os usuários dos conjuntos de dados, verificou-se a qualidade das predições com duas métricas. Parte dos usuários foi utilizada para aprender o modelo combinando os traços e outra parte para testes. Os resultados foram satisfatórios nas duas métricas de similaridade e ordenação, avaliando também que combinar traços é mais efetivo que utilizar os traços individualmente.

Investigou-se também a capacidade de atributos baseados no conteúdo dos tuítes em predizer influência social. Os modelos com traços de personalidade e atributos do conteúdo obtiveram precisão superior aos modelos produzidos somente com personalidade. Realizou-se também uma análise de correlação entre os dois atributos do conteúdo, número de links e

hashtags, e os indicadores de influência. As correlações possibilitaram o entendimento sobre

o impacto do uso de links e hashtags nos tuítes nos indicadores de influência abordados neste trabalho.

Para concluir esta dissertação, são listados ao final deste capítulo as principais contribuições e limitações do escopo deste trabalho, como também os trabalhos futuros que se pretende realizar.

6.1

Contribuições

A seguir é apresentado um resumo das principais contribuições deste trabalho de mestrado:

 Estudo da contribuição dos traços de personalidade como preditores de influência social em RSOs. Embora alguns trabalhos já avaliem personalidade nestes ambientes virtuais (ver Seção 3.2.1), neste trabalho foi avaliada a relação dos traços de personalidade com influência social, sendo esta representada por oito indicadores do Twitter;

63

 Identificação de um perfil de personalidade para usuários influentes em RSOs. Embora seja necessário comparar com experimentos em outras RSOs, o perfil de personalidade encontrado na análise de correlação representa um indicativo da personalidade de usuários influentes obtido com dados reais do Twitter;

 Proposição e avaliação de um método de predição de influência social no Twitter. Apesar dos trabalhos apresentados na Seção 3.2.2 utilizarem métodos de predição abordando RSOs e personalidade, o método aqui proposto prediz influência social por meio de personalidade. O método de predição desta pesquisa de mestrado possui aplicabilidade similar aos trabalhos expostos na Seção 2.3, porém propondo personalidade como solução alternativa a estes;

 Investigação da relação dos atributos baseados no conteúdo textual dos tuítes com influência social. O estudo identificou que padrões textuais, link e hashtag, impactam na sua influência social, principalmente na interação e propagação da informação do usuário;

 Construção de dois conjuntos de dados que podem ser utilizados por pesquisas futuras para diversos fins acadêmicos. Os traços de personalidade dos usuários destes conjuntos de dados foram mensurados, o que permite análises envolvendo personalidade no Twitter.

Dois artigos foram escritos com o objetivo de difundir o conhecimento produzido nesta pesquisa, os quais foram aceitos para publicação:

 Gadelha, R., Prudêncio, R., Lima, R., Souza, C. User Influence on Twitter: Prediction Based on Personality and Content-based Features. Portuguese Conference on Artificial Intelligence, EPIA. Angra do Heroísmo, Açores, Portugal. 2013;

 Gadelha, R., Prudêncio, R., Lima, R., Souza, C. Predizendo Influenciadores no Twitter por meio de Traços de Personalidade. Brazilian Workshop on Social Network Analysis and Mining, BRASNAM. Maceió, AL, Brasil. 2013.

6.2

Limitações do Trabalho

Este trabalho objetiva predizer influenciadores com traços de personalidade. Os experimentos realizados para treinar o modelo de predição foram realizados no Twitter, com indicadores disponíveis neste ambiente social. Desta forma, o escopo desta dissertação não abrange toda a

64 área de influência social e as diversas formas de medi-la, possuindo algumas limitações relativas a:

 Medidas de influência social: somente atributos específicos do Twitter foram utilizados para representar influência social. Portanto, todos os entendimentos sobre o impacto da personalidade na influência social são baseados nestes atributos;

 Abordagem para medição de influência: a medição de influência é determinada pelos atributos do usuário (valores do nó). Não foi investigada a força da ligação entre usuários (peso das arestas) para o grau da influência;

 Conjunto de dados: seria mais recomendável uma quantidade maior de usuários no experimento. A quantidade de usuários foi limitada pela dificuldade imposta pelo serviço do Twitter em coletar informação.

6.3

Trabalhos Futuros

As limitações elencadas na seção anterior possibilitam algumas extensões deste trabalho. Além destas, as discussões e considerações realizadas ao longo desta dissertação permitiram também elencar outros trabalhos futuros. Este trabalho prosseguirá com a discussão sobre as seguintes extensões:

 Validar o modelo de personalidade delineado neste trabalho com usuários de outras RSOs. Possibilitaria confirmar, com estudo experimental, que o grau de influência social não é relativo ao contexto;

 Analisar o peso (relevância) de cada indicador de influência para formular uma medida de influência de influência combinando os oito indicadores. Dessa forma, seria possível combinar os indicadores e seus pesos em uma função para predizer influência com maior acurácia;

 Comparar o poder de predição de influência dos traços de personalidade com outras medidas de influência, por exemplo, o número Klout9 e a lista Time 100. Esta avaliação permite comparar a precisão dos modelos de regressão com medidas de influência social online reconhecidas;

9

Klout é um serviço que analisa redes sociais para ranquear usuários de acordo com sua influência online. Está disponível em http://www.klout.com.

65

 Avaliar os traços de personalidade com indicadores de influência aplicáveis a outras RSOs (e.g., centralidade, densidade, força dos laços). Desta forma, os modelos de personalidade seriam testados com medidas genéricas de influência extensíveis para diversas redes sociais;

 Investigar se o conceito de homofilia envolvendo personalidade pode impactar na influência social do usuário. Seria possível com isso avaliar se ações de influência estão relacionadas com a similaridade da personalidade dos usuários (influência social por identificação).

66

Referências Bibliográficas

Adali, S. e Golbeck, J. (2012). Predicting Personality with Social Behavior. In Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining,

ASONAM.

Allport, G. W. (1966). Traits revisited. In Proceedings of American psychologist: Readings in Personality.

Alonso, O., Carson, C., Gerster, D., Ji, X. e Nabar, S. U. (2010). Detecting uninteresting content in text streams. In Crowdsourcing for Search Evaluation Workshop, SIGIR.

Anger, I. e Kittl, C. (2011). Measuring influence on twitter. In Proceedings of the 11th

International Conference on Knowledge Management and Knowledge Technologies, I-

KNOW.

Argamon, S., Dhawle, S., Koppel, M. e Pennebaker, J. (2005). Lexical predictors of personality type. In Proceedings of the Joint Annual Meeting of the Interface and the

Classification Society of North America.

Bachrach, Y., Kosinski, M., Graepel, T., Kohli, P. e Stillwell, D. (2012). Personality and patterns of Facebook usage. In Proceedings of the 3rd Annual ACM Web Science

Conference.

Bai, S., Gao, R. e Zhu, T. (2012). Determining personality traits from renren status usage behavior. In Computational Visual Media. Springer Berlin Heidelberg.

Bakshy, E., Hofman, j. M., Mason, W. A. e Watts, D. J. (2011). Everyone's an Influencer: Quantifying Influence on Twitter. In Proceedings of the 4th ACM International

Conference on Web Search and Data Mining.

Barrick, M. R. e Mount, M. K. (2001). Select on conscientiousness and emotional stability. In

Handbook of Principles of Organizational Behavior.

Beevolve. (2012). An Exhaustive Study of Twitter Users Across the World. Disponível em http://www.beevolve.com/twitter-statistics/#c1. Acesso em 12 de maio de 2013.

Berry, J. e Keller, E. (2003).The Influentials: One American in Ten Tells the Other Nine How to Vote, Where to Eat, and What to Buy. Free Press.

67 Bigonha, C., Cardoso, T. N., Moro, M. M., Gonçalves, M. A. e Almeida, V. A. (2012). Sentiment-based Influence Detection on Twitter. In Journal of the Brazilian Computer

Society.

Boyd, D. e Ellison, N. (2007). Social network sites: Definition, history, and scholarship. In

Journal of Computer-Mediated Communication.

Brin, S. e Page, L. (1998). The Anatomy of a Large-scale Hypertextual Web Search Engine.

In Computer networks and ISDN systems.

Brown, P. E. e Feng, J. (2011). Measuring user influence on twitter using modified k-shell decomposition. In 5th International AAAI Conference on Weblogs and Social Media, ICWSM.

Celli, F. (2012a). Adaptive Personality Recognition from Text. Tese de Doutorado. University of Trento, CIMeC.

Celli, F. (2012b). Unsupervised Personality Recognition for Social Network Sites.

In Proceedings of the 6th International Conference on Digital Society, ICDS.

Celli, F. e Rossi, L. (2012). The role of Emotional Stability in Twitter Conversations.

In Proceedings of Workshop on Semantic Analysis in Social Media, EACL.

Cha, M., Haddadi, H., Benevenuto, F. e Gummadi, K. P. (2010). Measuring user influence in twitter: The million follower fallacy. In Proceedings of the 4th International AAAI

Conference on Weblogs and Social Media, ICWSM.

Coltheart, M. (1981). The MRC psycholinguistic database.In Journal of Experimental Psychology.

Comarela, G., Crovella, M., Almeida, V. e Benevenuto, F. (2012). Understanding factors that affect response rates in twitter. In Proceedings of the 23rd ACM conference on Hypertext

and social media.

Correa, T., Hinsley, A. W. e Zuniga, H. G. (2010). Who interacts on the Web?: The intersection of users’ personality and social media use. In Computers in Human Behavior.

Costa, P. T. e McCrae, R. R. (1992). Four ways five factors are basic. In Personality and

individual differences.

Driskell, J. E., Goodwin, G. F., Salas, E. e O Shea, P. G. (2006). What makes a good team player? Personality and team effectiveness. In Group dynamics, 249.

68

Farnadi, G., Zoghbi, S., Moens, M. e Cock, M. (2013). Recognizing Personality Traits Using Facebook Status Updates. In Workshop on Computational Personality Recognition,

ICWSM.

Freitas, C. M. D. S., Nedel, L. P., Galante, R., Lamb, L. C., Spritzer, A. S., Fujii, S., Oliveira, J. P. M., Araújo, R. M. e Moro, M. M. (2008). Extração De Conhecimento e Análise Visual de Redes Sociais. Anais do XXVIII Congresso da SBC.

Gill, A. e J. Oberlander. (2003). Perception of e-mail personality at zero-acquaintance: Extraversion takes care of itself; neuroticism is a worry. In Proceedings of the 25th Annual

Conference of the Cognitive Science Society.

Golbeck, J., Robles, C. e Turner, K. (2011a). Predicting personality with social media.

InProceedings of the 2011 annual conference extended abstracts on Human factors in computing systems.

Golbeck, J., Robles, C., Edmondson, M. e Turner, K. (2011b). Predicting personality from twitter. In IEEE third international conference on social computing, SOCIALCOM.

Goldberg, l. R. (1990). An alternative “description of personality”: the big-five factor structure. In Journal of personality and social psychology, 1216-1229.

Gosling, S. D., Augustine, A. A., Vazire, S., Holtzman, N. e Gaddis, S. (2011). Manifestations of personality in online social networks: Self-reported Facebook-related behaviors and observable profile information. In Proceedings of Cyberpsychology,

Behavior, and Social Networking, 483-488.

Goyal, A., Bonchi, F. e Lakshmanan, L. V. (2010). Learning influence probabilities in social networks. InProceedings of the third ACM international conference on Web search and data mining.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. e Witten, I. (2009). The weka data mining software: An update. In SIGKDD explorations newsletter.

Heylighen, F. e Dewaele, D. (2002). Variation in the contextually of language: an empirical measure. In Special issue of Foundations of Science.

Hoffner, C. (2008). Parasocial and online social relationships. In The handbook of children,

69 Huberman, B. A., Romero, D. M. e Wu, F. (2009). Social networks that matter: Twitter under

the microscope. In First Monday, 8.

Hughes, D. J., Rowe, M., Batey, M. e Lee, A. (2012). A tale of two sites: Twitter vs. Facebook and the personality predictors of social media usage. In Computers in Human

Behavior.

Hutto, C. J., Yardi, S. e Gilbert, E. (2013). A Longitudinal Study of Follow Predictors on Twitter. In ACM SIGCHI Conference on Human Factors in Computing Systems.

Iacobelli, F., Gill, A.J., Nowson, S. e Oberlander, J. (2011). Large scale personality classication of bloggers. In Lecture Notes in Computer Science.

Jamali, M. e Ester, M. (2010). A Matrix Factorization Technique with Trust Propagation for Recommendation in Social Networks Categories and Subject Descriptors. In Memory, 135-142.

Järvelin, K. e Kekäläinen, J. (2002). Cumulated gain-based evaluation of IR techniques. In

ACM Transactions on Information Systems, 422-446.

Java, A., Song, X., Finin, T. e Tseng, Z. (2007). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th workshop on Web mining

Documentos relacionados