CONCLUSÃO E TRABALHOS FUTUROS - http://tede.mackenzie.br/jspui/bitstream/tede/3589/5/CRISTINA%2

A abordagem desta dissertação foi referente a mineração de mídias sociais que permitem pessoas se relacionar com amigos, familiares, compartilhar conteúdos e criar grupos para inte- ração com outras pessoas. A coleta de informações de usuários leva ao entendimento do comportamento humano e por meio do comportamento do usuário de mídia social é possível predi- zer seu temperamento.

O temperamento influencia a maneira com que percebemos e reagimos ao mundo. En- tender o temperamento é de fundamental importância para nossa vida e para nos posicionarmos adequadamente no mercado. Normalmente o temperamento pode ser conhecido realizando-se testes, como o MBTI (Myers-Briggs Type Indicator). A hipótese dessa pesquisa é de que é possível identificar o temperamento de forma passiva utilizando dados obtidos a partir das mí- dias sociais dos usuários. Para isso, foi utilizada uma base de dados de tweets contendo o resul- tado do MBTI de usuários do Twitter. Esses dados foram usados para gerar modelos preditivos de temperamento.

Os tweets foram estruturados usando o LIWC e o TF-IDF. Quando aplicado o TF-IDF para análise de contexto das palavras o objetivo foi identificar a escrita de cada temperamento e o que os mesmos possuem em comum. Foi observado que todos os temperamentos citam nome próprio. Quando aplicado o algoritmo LDA foram retornadas palavras comuns a todos os temperamentos denotando comunicação, ação.

Para a classificação via LIWC os melhores resultados de acurácia foram alcançados para os temperamentos artesão e guardião treinados com SVM, seguidos do algoritmo Random Fo- rest, que apresentou acurácia média próxima à acurácia do SVM. Para a classificação binária as maiores acurácias médias foram para os temperamentos artesão, guardião, também com des- taque para o algoritmo SVM. As menores acurácias médias foram apresentadas para o temperamento idealista.

Como trabalhos futuros, pretende-se realizar um estudo de caso usando o TECLA com uma base de dados composta por um conjunto de usuários voluntários que preencheram o for- mulário do teste MBTI e compartilharam seus perfis sociais para que pudéssemos, por um lado identificar o temperamento destes usuários e, por outro lado, usar seus perfis sociais para treinar os classificadores para associar os usuários aos temperamentos. Outra melhoria a ser feita é o estudo do conteúdo dos documentos para investigar por que os classificadores têm pouca pre- cisão e quanto a base desequilibrada interfere nesse resultado.

REFERÊNCIAS

ADAR, E. et al. Why we search: visualizing and predicting user behavior. Proceedings of the 16th international conference on World Wide Web, p. 161-170, 2007.

BALAGE FILHO, P. P.; PARDO, T. A.; ALUISIO, S. M. An evaluation of the Brazilian Portuguese LIWC dictionary for sentiment analysis. Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology (STIL), p. 215-219, 2013. BLEI, D. M.; NG, A. Y.; JORDAN, M. I. Latent dirichlet allocation. Journal of machine Learning research, v. 3, p. 993-1022, jan 2003.

BREIMAN, L. Random forests. Machine learning, v. 45, n. 1, p. 5-32, 2001.

CALEGARI, M. D. L.; GEGMANI, O. H. Temperamento e Carreira. 4. ed. São Paulo: Summus, 2006.

CAMILO, C. O.; SILVA, J. C. D. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1-29, 2009.

CUTLER, D. R. et al. Random forests for classification in ecology. Ecology, v. 88, n. 11, p. 2783-2792, 2007.

DE CASTRO, L. N.; FERRARI, D. G. Introdução à Mineração de Dados. São Paulo: Saraiva, 2016.

DELEN, D. et al. Pratical Text Mining and Statistical Analysis for Non-Structured Text Data Applications. 1. ed. [S.l.]: Academic Press, 2012.

DORSEY, J. et al. Twitter. Twitter, 2006. Disponivel em: <http://developer.twitter.com>. Acesso em: 27 maio 2017.

DUDA, R. O.; HART, P. E. . S. D. G. Pattern Classification. 2. ed. [S.l.]: A Wiley-Interscience Publication, 2000.

DUMAIS, S. et al. Inductive learning algorithms and representations for text categorization. Proceedings of the seventh international conference on Information and knowledge management. ACM, p. 148-155, November 1998.

FACELI, K. et al. Inteligência Artificial: Uma abordagem de Aprendizado de Máquina. Rio de Janeiro: LTC, 2011.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases.. AI magazine, v. 17, p. 37, 1996.

FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. [S.l.]: Cambridge, 2007.

FOUNDATION, A. S. Open NLP. Open NLP, 2004. Disponivel em: <https://opennlp.apache.org/>. Acesso em: 21 Novembro 2017.

FOUNDATION, P. S. Python. Python, 2001. Disponivel em:

<https://www.python.org/about/gettingstarted/>. Acesso em: 25 maio 2017.

FREITAS, A. A. Data Mining and Knowledge Discovery with Evolutionary Algorithms. [S.l.]: Springer, 1998.

GOLBECK, J. et al. Predicting personality from twitter. In Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom),2011 IEEE Third International Conference on IEEE,2011, p. 149-156, October 2011.

GUELPELI, M. V.; BERNARDINI, F. C.; GARCIA, A. C. B. Todas as palavras da sentença como métrica para um sumarizador automático. Companion Proceedings of the XIV Brazilian Symposium on Multimedia and the Web. ACM, p. 287-291, 2008.

GUNDECHA, P.; LIU, H. Mining social media: a brief introduction. New Directions in Informatics, Optimization, Logistics, and Production. Informs, 2012. 1-17.

GUPTA, V.; LEHAL, G. S. A survey of text mining techniques and applications. Journal of emerging technologies in web intelligence, v. 1, n. 1, p. 60-76, 2009.

HALL, C. S.; LINDZEY, G.; CAMPBELL, J. B. Teorias da Personalidade. Porto Alegre: Artmed, 2000.

HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. [S.l.]: Elsevier, 2011. HOTHO, A.; NÜRNBERGER, A.; PAAß, G. A brief survey of text mining. Ldv Forum. , p. 19-62, 2005.

HUANG, E. H. et al. Improving word representations via global context and multiple word prototypes. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1.Association for Computational Linguistics, p. 873- 882, 2012.

HUMBERT, E. G. Jung. 2. ed. [S.l.]: Summus Editorial Ltda, 1983.

IMANDOUST, S. B.; BOLANDRAFTAR, M. Application of k-nearest neighbor (knn) approach for predicting economic events: Theoretical background. International Journal of Engineering Research and Applications, v. 3, n. 5, p. 605-610, 2013.

ITO, P. D. C. P.; GUZZO, R. S. L. Diferenças individuais: temperamento e personalidade; importância da teoria. Estudos de Psicologia, 2002. 91-100.

IZMIRLIAN, G. Application of the Random Forest Classification Algorithm to a SELDI‐TOF Proteomics Study in the Setting of a Cancer Prevention Trial. Annals of the New York Academy of Sciences, v. 1020, n. 1, p. 154-174, 2004.

JOACHIMS, T. Text categorization with support vector machines: Learning with many relevant features. Machine learning: ECML-98, p. 137-142, 1998.

KAPLAN, A. M.; HAENLEIN, M. Users of the world, unite! The challenges and opportunities of Social Media. Business horizons, v. 53, n. 1, p. 59-68, 2010.

KEIRSEY, D. Keirsey.com. Keirsey.com, 1996. Disponivel em: <https://www.keirsey.com/4temps/overview_temperaments.asp>. Acesso em: 14 dez. 2017. KEIRSEY, D. Please Understand Me II: Temperament, Character, Intelligence. [S.l.]: Prometheus Nemesis Book Co, 1998.

KWAK, H. et al. What is Twitter, a social network or a news media? Proceedings of the 19th international conference on World wide web. ACM., p. 591-600, 2010.

LIMA, A. C. E. S. Mineração de Mídias Sociais como Ferramenta para a Análise da Tríade da Persona Virtual. Tese de Dourado, Programa de Pós-Graduação de Engenharia Elétrica e Computação, Universidade Presbiteriana Mackenzie. São Paulo. 2016.

LIMA, A. C. E.; DE CASTRO, L. N. Predicting Temperament from Twitter Data. Advanced Applied Informatics (IIAI-AAI), 2016 5th IIAI International Congress on. IEEE, 2016. MARTINS, C. A.; MONARD, M. C.; MATSUBARA, E. T. Uma metodologia para auxiliar na seleçao de atributos relevantes usados por algoritmos de aprendizado no processo de classificaçao de textos. XXIX Conferencia LatinoAmericana de Informatica-CLEI, La Paz - Bolívia, v. 38, 2003.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. Sistemas Inteligentes-Fundamentos e Aplicações, v. 1, n. 1, 2003.

NASCIMENTO, A. M.; LUFT, M. C. M. S. Relacionamento com Organizações nas Mídias Sociais: Um olhar sobre o comportamento do usuário brasileiro no Facebook®. GESTÃO. Org-Revista Eletrônica de Gestão Organizacional, v. 13, 2016.

PENNEBAKER, J. W. et al. The development and psychometric properties of LIWC2015. [S.l.]. 2015.

PENNEBAKER, J. W.; FRANCIS, M. E.; BOOTH, R. J. Linguistic inquiry and word count: LIWC 2001. Mahway: Lawrence Erlbaum Associates, v. 71, p. 2001, 2001.

PEREIRA, J. M.; DOMÍNGUEZ, M. Á. C.; OCEJO, J. L. S. Modelos de previsão do fracasso empresarial: aspectos a considerar. Tékhne-Revista de Estudos Politécnicos, n. 7, p. 111-148, 2007.

PRESTON-WERNER, T. Github. Github, 2008. Disponivel em:

<https://github.com/bear/python-twitter>. Acesso em: 21 out. 2017.

REZENDE, S. O.; MARCACINI, R. M.; MOURA, M. F. O uso da mineração de textos para extração e organização não supervisionada de conhecimento. Revista de Sistemas de Informação da FSMA, v. 7, p. 7-21, 2011.

SANTOS, B. S. et al. Análise Comparativa de Algoritmos de Mineração de Texto Aplicados a Históricos de Contas Públicas. XI Brasilian Symposium on Information System, Goiânia, 2015.

SILVA, A. S. R. et al. Mídias sociais na administração pública: um estudo sobre a utilização do Facebook pelos municípios do Recôncavo do estado da Bahia-Brasil. Tourism & Management Studies, v. 11, n. 2, p. 174-181, 2015.

STROBL, C. et al. Bias in random forest variable importance measures: Illustrations, sources and a solution. BMC bioinformatics, v. 8, p. 25, 2007. ISSN 1.

SUYKENS, J. A.; VANDEWALLE, J. Least squares support vector machine classifiers. Neural processing letters, v. 9, n. 3, p. 293-300, 1999.

TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. New York: Addison Wesley, 2006.

TANG, J.; CHANG, Y.; LIU, H. Mining social media with social theories: a survey. ACM SIGKDD Explorations Newsletter, v. 15, n. 2, p. 20-29, 2014.

TAUSCZIK, Y. R.; PENNEBAKER, J. W. The psychological meaning of words: LIWC and computerized text analysis methods. Journal of language and social psychology, v. 29, n. 1, p. 24-54, 2010.

TAUSCZIK, Y. R.; W., P. J. The psychological meaning of words: LIWC and computerized text analysis methods. Journal of language and social psychology, v. 29, n. 1, p. 24-54, 2010. TELOKEN, A. V.; LORENZETT, C. D. C. Estudo Comparativo entre os algoritmos de Mineração de Dados Random Forest e J48 na tomada de Decisão. Simpósio de Pesquisa e Desenvolvimento em Computação, v. 2, n. 1, 2016.

TOUTANOVA, K.; MANNING, C. D. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics, v. 13, p. 63-70, October 2000.

VAPNIK, V. The nature of statistical learning theory. [S.l.]: Springer science & business media, 2013.

VERHOEVEN, B.; WALTER, D.; PLANK, B. Twisty: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling. Proceedings of the 10th International Conference on Language Resources and Evaluation, 2016.

XAVIER, O. C.; DE CARVALHO, C. L. Desenvolvimento de Aplicações Sociais A Partir de APIs em Redes Sociais Online. UFG. Goiânia. 2011.

ZAFARANI, R.; ABBASI, M. A.; LIU, H. Social media mining: an introduction. [S.l.]: Cambridge University Press, 2014.

ANEXO I – CATEGORIAS LIWC 2017

Category Tradução de Categoria Exemplos

funct Palavras Funcionais isto/lhe, para, não, muito pronoun Pronome a eles/a elas, eu, a si mesmo ppron Pronomes Pessoais a eles/a elas, eu, dela i Primeira Pessoa do Singular eu, mim, meu we Primeira Pessoa do Plural nós, nos, nosso you Segunda Pessoa do Singular você, seu, tu shehe Terceira Pessoa do Singular ele, dela, dele they Terceira Pessoa do Plural eles, deles

ipron Pronomes Impessoais seu, sua, aquele, aquela, isto

article Artigo o, a, os, as, um, uma

verb Verbo comer, vir, carregar

auxverb Verbos Auxiliares ser, ter

past Passado foi, correu, teve

present Presente hoje, é, agora

future Futuro talvez, em breve, logo

adverb Advérbio muito, realmente

preps Preposição para, com, acima

conj Conjunção e, mas, desde que

negate Negação não, nunca

quant Quantificadores pouco, muito, bastante

number Número segundo, mil

swear Palavões porra, merda, droga

social Processos sociais companheiro, marido, conversar, eles

family Família filho, pai, tia

friend Amigos companheiro, vizinho

humans Humanos Adulto, bebê, menino

Affect Processos afetivos feliz, chorar Posemo Emoção Positiva amor, bom, doce negemo Emoção Negativa ferido, feio, desagradável

anx Ansiedade preocupado, com medo

anger Raiva ódio, matar, irritado

sad Tristeza chorando, mágoa, triste

cogmech Processos Cognitivos causa, conhecer, obrigação

insight Introspecção pensar, saber

cause Causalidade porque, efeito

discrep Discrepância deveria, seria

inhib Palavras de Inibição

incl Inclusivo

excl Exclusivo

percept Percepção olhar, sentir, ouvir

see Ver, Observar visão(paisagem), viu, descoberto

hear Audição ouvir

feel Sentir sentir, tocar

bio Processos Biológicos comer, sangue, dor

body Corpo bochecha, mãos, cuspir

health Saúde clínica, gripe, comprimido

sexual Sexual excitado, amor, incesto

ingest Ingestão pizza, comer

relativ Relatividade área, dobrar, saída

motion Movimento carro, ir, chegar

space Espaço baixo, dentro, fino

time Tempo/Data fim, até que, estação do ano

work Trabalho fotocópia, tarefa

achieve Realização ganhar, sucesso, melhor

leisure Lazer cozinhar, bate-papo, filme

home Casa, Moradia cozinha, proprietário de terras money Dinheiro auditoria, dinheiro, dever dinheiro

relig Religião altar, igreja

death Morte enterrar, caixão, matar

assent Consentimento aceita, está bem, sim

nonfl Não Fluência er, hm, umm

No documento http://tede.mackenzie.br/jspui/bitstream/tede/3589/5/CRISTINA%20F%C3%81TIMA%20CLARO (páginas 52-57)