A abordagem desta dissertação foi referente a mineração de mídias sociais que permitem pessoas se relacionar com amigos, familiares, compartilhar conteúdos e criar grupos para inte- ração com outras pessoas. A coleta de informações de usuários leva ao entendimento do com- portamento humano e por meio do comportamento do usuário de mídia social é possível predi- zer seu temperamento.
O temperamento influencia a maneira com que percebemos e reagimos ao mundo. En- tender o temperamento é de fundamental importância para nossa vida e para nos posicionarmos adequadamente no mercado. Normalmente o temperamento pode ser conhecido realizando-se testes, como o MBTI (Myers-Briggs Type Indicator). A hipótese dessa pesquisa é de que é possível identificar o temperamento de forma passiva utilizando dados obtidos a partir das mí- dias sociais dos usuários. Para isso, foi utilizada uma base de dados de tweets contendo o resul- tado do MBTI de usuários do Twitter. Esses dados foram usados para gerar modelos preditivos de temperamento.
Os tweets foram estruturados usando o LIWC e o TF-IDF. Quando aplicado o TF-IDF para análise de contexto das palavras o objetivo foi identificar a escrita de cada temperamento e o que os mesmos possuem em comum. Foi observado que todos os temperamentos citam nome próprio. Quando aplicado o algoritmo LDA foram retornadas palavras comuns a todos os temperamentos denotando comunicação, ação.
Para a classificação via LIWC os melhores resultados de acurácia foram alcançados para os temperamentos artesão e guardião treinados com SVM, seguidos do algoritmo Random Fo- rest, que apresentou acurácia média próxima à acurácia do SVM. Para a classificação binária as maiores acurácias médias foram para os temperamentos artesão, guardião, também com des- taque para o algoritmo SVM. As menores acurácias médias foram apresentadas para o tempe- ramento idealista.
Como trabalhos futuros, pretende-se realizar um estudo de caso usando o TECLA com uma base de dados composta por um conjunto de usuários voluntários que preencheram o for- mulário do teste MBTI e compartilharam seus perfis sociais para que pudéssemos, por um lado identificar o temperamento destes usuários e, por outro lado, usar seus perfis sociais para treinar os classificadores para associar os usuários aos temperamentos. Outra melhoria a ser feita é o estudo do conteúdo dos documentos para investigar por que os classificadores têm pouca pre- cisão e quanto a base desequilibrada interfere nesse resultado.
52
REFERÊNCIAS
ADAR, E. et al. Why we search: visualizing and predicting user behavior. Proceedings of the 16th international conference on World Wide Web, p. 161-170, 2007.
BALAGE FILHO, P. P.; PARDO, T. A.; ALUISIO, S. M. An evaluation of the Brazilian Portuguese LIWC dictionary for sentiment analysis. Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology (STIL), p. 215-219, 2013. BLEI, D. M.; NG, A. Y.; JORDAN, M. I. Latent dirichlet allocation. Journal of machine Learning research, v. 3, p. 993-1022, jan 2003.
BREIMAN, L. Random forests. Machine learning, v. 45, n. 1, p. 5-32, 2001.
CALEGARI, M. D. L.; GEGMANI, O. H. Temperamento e Carreira. 4. ed. São Paulo: Summus, 2006.
CAMILO, C. O.; SILVA, J. C. D. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1-29, 2009.
CUTLER, D. R. et al. Random forests for classification in ecology. Ecology, v. 88, n. 11, p. 2783-2792, 2007.
DE CASTRO, L. N.; FERRARI, D. G. Introdução à Mineração de Dados. São Paulo: Saraiva, 2016.
DELEN, D. et al. Pratical Text Mining and Statistical Analysis for Non-Structured Text Data Applications. 1. ed. [S.l.]: Academic Press, 2012.
DORSEY, J. et al. Twitter. Twitter, 2006. Disponivel em: <http://developer.twitter.com>. Acesso em: 27 maio 2017.
DUDA, R. O.; HART, P. E. . S. D. G. Pattern Classification. 2. ed. [S.l.]: A Wiley-Interscience Publication, 2000.
DUMAIS, S. et al. Inductive learning algorithms and representations for text categorization. Proceedings of the seventh international conference on Information and knowledge management. ACM, p. 148-155, November 1998.
FACELI, K. et al. Inteligência Artificial: Uma abordagem de Aprendizado de Máquina. Rio de Janeiro: LTC, 2011.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases.. AI magazine, v. 17, p. 37, 1996.
FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. [S.l.]: Cambridge, 2007.
FOUNDATION, A. S. Open NLP. Open NLP, 2004. Disponivel em: <https://opennlp.apache.org/>. Acesso em: 21 Novembro 2017.
FOUNDATION, P. S. Python. Python, 2001. Disponivel em:
<https://www.python.org/about/gettingstarted/>. Acesso em: 25 maio 2017.
FREITAS, A. A. Data Mining and Knowledge Discovery with Evolutionary Algorithms. [S.l.]: Springer, 1998.
GOLBECK, J. et al. Predicting personality from twitter. In Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom),2011 IEEE Third International Conference on IEEE,2011, p. 149-156, October 2011.
GUELPELI, M. V.; BERNARDINI, F. C.; GARCIA, A. C. B. Todas as palavras da sentença como métrica para um sumarizador automático. Companion Proceedings of the XIV Brazilian Symposium on Multimedia and the Web. ACM, p. 287-291, 2008.
GUNDECHA, P.; LIU, H. Mining social media: a brief introduction. New Directions in Informatics, Optimization, Logistics, and Production. Informs, 2012. 1-17.
GUPTA, V.; LEHAL, G. S. A survey of text mining techniques and applications. Journal of emerging technologies in web intelligence, v. 1, n. 1, p. 60-76, 2009.
HALL, C. S.; LINDZEY, G.; CAMPBELL, J. B. Teorias da Personalidade. Porto Alegre: Artmed, 2000.
HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. [S.l.]: Elsevier, 2011. HOTHO, A.; NÜRNBERGER, A.; PAAß, G. A brief survey of text mining. Ldv Forum. , p. 19-62, 2005.
HUANG, E. H. et al. Improving word representations via global context and multiple word prototypes. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1.Association for Computational Linguistics, p. 873- 882, 2012.
HUMBERT, E. G. Jung. 2. ed. [S.l.]: Summus Editorial Ltda, 1983.
IMANDOUST, S. B.; BOLANDRAFTAR, M. Application of k-nearest neighbor (knn) approach for predicting economic events: Theoretical background. International Journal of Engineering Research and Applications, v. 3, n. 5, p. 605-610, 2013.
ITO, P. D. C. P.; GUZZO, R. S. L. Diferenças individuais: temperamento e personalidade; importância da teoria. Estudos de Psicologia, 2002. 91-100.
IZMIRLIAN, G. Application of the Random Forest Classification Algorithm to a SELDI‐TOF Proteomics Study in the Setting of a Cancer Prevention Trial. Annals of the New York Academy of Sciences, v. 1020, n. 1, p. 154-174, 2004.
JOACHIMS, T. Text categorization with support vector machines: Learning with many relevant features. Machine learning: ECML-98, p. 137-142, 1998.
KAPLAN, A. M.; HAENLEIN, M. Users of the world, unite! The challenges and opportunities of Social Media. Business horizons, v. 53, n. 1, p. 59-68, 2010.
KEIRSEY, D. Keirsey.com. Keirsey.com, 1996. Disponivel em: <https://www.keirsey.com/4temps/overview_temperaments.asp>. Acesso em: 14 dez. 2017. KEIRSEY, D. Please Understand Me II: Temperament, Character, Intelligence. [S.l.]: Prometheus Nemesis Book Co, 1998.
KWAK, H. et al. What is Twitter, a social network or a news media? Proceedings of the 19th international conference on World wide web. ACM., p. 591-600, 2010.
LIMA, A. C. E. S. Mineração de Mídias Sociais como Ferramenta para a Análise da Tríade da Persona Virtual. Tese de Dourado, Programa de Pós-Graduação de Engenharia Elétrica e Computação, Universidade Presbiteriana Mackenzie. São Paulo. 2016.
LIMA, A. C. E.; DE CASTRO, L. N. Predicting Temperament from Twitter Data. Advanced Applied Informatics (IIAI-AAI), 2016 5th IIAI International Congress on. IEEE, 2016. MARTINS, C. A.; MONARD, M. C.; MATSUBARA, E. T. Uma metodologia para auxiliar na seleçao de atributos relevantes usados por algoritmos de aprendizado no processo de classificaçao de textos. XXIX Conferencia LatinoAmericana de Informatica-CLEI, La Paz - Bolívia, v. 38, 2003.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. Sistemas Inteligentes-Fundamentos e Aplicações, v. 1, n. 1, 2003.
NASCIMENTO, A. M.; LUFT, M. C. M. S. Relacionamento com Organizações nas Mídias Sociais: Um olhar sobre o comportamento do usuário brasileiro no Facebook®. GESTÃO. Org-Revista Eletrônica de Gestão Organizacional, v. 13, 2016.
PENNEBAKER, J. W. et al. The development and psychometric properties of LIWC2015. [S.l.]. 2015.
PENNEBAKER, J. W.; FRANCIS, M. E.; BOOTH, R. J. Linguistic inquiry and word count: LIWC 2001. Mahway: Lawrence Erlbaum Associates, v. 71, p. 2001, 2001.
PEREIRA, J. M.; DOMÍNGUEZ, M. Á. C.; OCEJO, J. L. S. Modelos de previsão do fracasso empresarial: aspectos a considerar. Tékhne-Revista de Estudos Politécnicos, n. 7, p. 111-148, 2007.
54
PRESTON-WERNER, T. Github. Github, 2008. Disponivel em:
<https://github.com/bear/python-twitter>. Acesso em: 21 out. 2017.
REZENDE, S. O.; MARCACINI, R. M.; MOURA, M. F. O uso da mineração de textos para extração e organização não supervisionada de conhecimento. Revista de Sistemas de Informação da FSMA, v. 7, p. 7-21, 2011.
SANTOS, B. S. et al. Análise Comparativa de Algoritmos de Mineração de Texto Aplicados a Históricos de Contas Públicas. XI Brasilian Symposium on Information System, Goiânia, 2015.
SILVA, A. S. R. et al. Mídias sociais na administração pública: um estudo sobre a utilização do Facebook pelos municípios do Recôncavo do estado da Bahia-Brasil. Tourism & Management Studies, v. 11, n. 2, p. 174-181, 2015.
STROBL, C. et al. Bias in random forest variable importance measures: Illustrations, sources and a solution. BMC bioinformatics, v. 8, p. 25, 2007. ISSN 1.
SUYKENS, J. A.; VANDEWALLE, J. Least squares support vector machine classifiers. Neural processing letters, v. 9, n. 3, p. 293-300, 1999.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. New York: Addison Wesley, 2006.
TANG, J.; CHANG, Y.; LIU, H. Mining social media with social theories: a survey. ACM SIGKDD Explorations Newsletter, v. 15, n. 2, p. 20-29, 2014.
TAUSCZIK, Y. R.; PENNEBAKER, J. W. The psychological meaning of words: LIWC and computerized text analysis methods. Journal of language and social psychology, v. 29, n. 1, p. 24-54, 2010.
TAUSCZIK, Y. R.; W., P. J. The psychological meaning of words: LIWC and computerized text analysis methods. Journal of language and social psychology, v. 29, n. 1, p. 24-54, 2010. TELOKEN, A. V.; LORENZETT, C. D. C. Estudo Comparativo entre os algoritmos de Mineração de Dados Random Forest e J48 na tomada de Decisão. Simpósio de Pesquisa e Desenvolvimento em Computação, v. 2, n. 1, 2016.
TOUTANOVA, K.; MANNING, C. D. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics, v. 13, p. 63-70, October 2000.
VAPNIK, V. The nature of statistical learning theory. [S.l.]: Springer science & business media, 2013.
VERHOEVEN, B.; WALTER, D.; PLANK, B. Twisty: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling. Proceedings of the 10th International Conference on Language Resources and Evaluation, 2016.
XAVIER, O. C.; DE CARVALHO, C. L. Desenvolvimento de Aplicações Sociais A Partir de APIs em Redes Sociais Online. UFG. Goiânia. 2011.
ZAFARANI, R.; ABBASI, M. A.; LIU, H. Social media mining: an introduction. [S.l.]: Cambridge University Press, 2014.
ANEXO I – CATEGORIAS LIWC 2017
Category Tradução de Categoria Exemplos
funct Palavras Funcionais isto/lhe, para, não, muito pronoun Pronome a eles/a elas, eu, a si mesmo ppron Pronomes Pessoais a eles/a elas, eu, dela i Primeira Pessoa do Singular eu, mim, meu we Primeira Pessoa do Plural nós, nos, nosso you Segunda Pessoa do Singular você, seu, tu shehe Terceira Pessoa do Singular ele, dela, dele they Terceira Pessoa do Plural eles, deles
ipron Pronomes Impessoais seu, sua, aquele, aquela, isto
article Artigo o, a, os, as, um, uma
verb Verbo comer, vir, carregar
auxverb Verbos Auxiliares ser, ter
past Passado foi, correu, teve
present Presente hoje, é, agora
future Futuro talvez, em breve, logo
adverb Advérbio muito, realmente
preps Preposição para, com, acima
conj Conjunção e, mas, desde que
negate Negação não, nunca
quant Quantificadores pouco, muito, bastante
number Número segundo, mil
swear Palavões porra, merda, droga
social Processos sociais companheiro, marido, conversar, eles
family Família filho, pai, tia
friend Amigos companheiro, vizinho
humans Humanos Adulto, bebê, menino
Affect Processos afetivos feliz, chorar Posemo Emoção Positiva amor, bom, doce negemo Emoção Negativa ferido, feio, desagradável
anx Ansiedade preocupado, com medo
anger Raiva ódio, matar, irritado
sad Tristeza chorando, mágoa, triste
cogmech Processos Cognitivos causa, conhecer, obrigação
insight Introspecção pensar, saber
cause Causalidade porque, efeito
discrep Discrepância deveria, seria
56
inhib Palavras de Inibição
incl Inclusivo
excl Exclusivo
percept Percepção olhar, sentir, ouvir
see Ver, Observar visão(paisagem), viu, descoberto
hear Audição ouvir
feel Sentir sentir, tocar
bio Processos Biológicos comer, sangue, dor
body Corpo bochecha, mãos, cuspir
health Saúde clínica, gripe, comprimido
sexual Sexual excitado, amor, incesto
ingest Ingestão pizza, comer
relativ Relatividade área, dobrar, saída
motion Movimento carro, ir, chegar
space Espaço baixo, dentro, fino
time Tempo/Data fim, até que, estação do ano
work Trabalho fotocópia, tarefa
achieve Realização ganhar, sucesso, melhor
leisure Lazer cozinhar, bate-papo, filme
home Casa, Moradia cozinha, proprietário de terras money Dinheiro auditoria, dinheiro, dever dinheiro
relig Religião altar, igreja
death Morte enterrar, caixão, matar
assent Consentimento aceita, está bem, sim
nonfl Não Fluência er, hm, umm