• Nenhum resultado encontrado

PESQUISA

No documento WWW/INTERNET 2012 (páginas 30-38)

Alessandro Kraemer1, André Luiz Satoshi Kawamoto1 e Marco Aurélio Gerosa2

1Universidade Tecnológica Federal do Paraná – UTFPR, BR 369, Km 0,5 Caixa Postal 271, Campo Mourão, Paraná, Brasil

2Instituto de Matemática e Estatística / Universidade de São Paulo - USP Rua do Matão, 1010, Cidade Universitária, CEP 05508-090, São Paulo, São Paulo, Brasil

RESUMO

Nos processos eletivos da Universidade Tecnológica Federal do Paraná (UTFPR) não ocorrem pesquisas eleitorais. As pesquisas eleitorais são importantes fontes democráticas de opiniões. A curiosidade em antecipar resultados é natural do ser humano, mas a principal finalidade de uma pesquisa está no contexto estratégico dos candidatos, que podem planejar ações, como mobilização para uma provável disputa de segundo turno, agradecimento aos eleitores, ou mesmo reconhecimento de uma derrota antes do resultado oficial. Para os comitês dos candidatos da UTFPR é custoso gerenciar equipes de pesquisa distribuídas geograficamente em 12 câmpus. Uma forma alternativa de fazer pesquisa eleitoral consiste em minerar dados do Twitter procurando classificar as mensagens conforme a polaridade de seus conteúdos, o que pode identificar intenções de voto. O uso desse mecanismo pode substituir a forma custosa e complexa de gerenciar equipes de pessoas distribuídas que ocorre nas pesquisas eleitorais tradicionais. Neste artigo as mensagens do Twitter são utilizadas para observar se o resultado de uma deliberação política para reitor da UTFPR corresponde aos resultados oficiais do pleito eleitoral.

PALAVRAS-CHAVE

Twitter, mineração de dados, predição de eleição.

1. INTRODUÇÃO

A predição de resultados é um processo amplamente utilizado em cenários eleitorais. Os candidatos podem utilizar o indicativo de resultado com forma de se organizarem para uma mobilização social, seja uma mobilização para um segundo turno ou para mostrar vitória, agradecer aos eleitores, entre outras formas. A predição de resultados tem forte relação com a expectativa de antecipação do público e com o planejamento estratégico de candidatos, impactando em uma série de ações estratégicas. O problema potencial em realizar pesquisa eleitoral é que esse processo exige esforço de gerenciamento de dados e de pessoas. No caso da UTFPR, onde existem 12 câmpus distribuídos geograficamente no Estado do Paraná, o esforço de gerenciamento pode também gerar custos. Uma forma alternativa de realizar pesquisa eleitoral consiste em avaliar o conteúdo de mensagens do Twitter. O conteúdo dos tweets pode ser classificado em sentimento positivo para determinado candidato, negativo, ou neutro. Esses sentimentos podem ser utilizados como indicativo de voto e representam potencialmente uma pesquisa eleitoral.

Segundo Semiocast (2012), no Brasil existem 33,3 milhões de usuários de Twitter e esse número está em processo de ascensão. Considerar o conteúdo produzido por esses usuários como se fosse um amplo repositório de dados tem sido cada vez mais importante para pesquisas de redes sociais. A UTFPR possui 23655 estudantes e 2605 servidores que são potenciais usuários do Twitter, produzindo conteúdos úteis para predição.

O uso do Twitter para influenciar pessoas ou predizer resultados são práticas que vem sendo cada vez mais utilizadas, com vários artigos científicos apontando resultados satisfatórios. Bakshy (2011), Lerman (2010), Kim (2010), Conover (2011) e Wilson (2005) tem avaliado as mensagens do Twitter como fonte sincera de opiniões de seus usuários. Diakopoulos (2010) tem observado como as pessoas reagiram ao debate

eleitoral americano em 2008, aumentando a taxa de tweets e reweets a favor ou contra determinados candidatos. Conover (2010) prediz o alinhamento político de usuários do Twitter nas eleições americanas de 2010. Tumasjan (2010) estende esse trabalho identificando grupos de direita e de oposição. Por fim, Kwak (2010) consegue predizer com sucesso o resultado da eleição Alemã em 2010. Esses autores evidenciam o Twitter como uma importante fonte de dados para pesquisas de opinião. Por outro lado, não foram encontrados artigos que tratam da predição de eleição para reitor de universidade. Nesse cenário, os usuários precisam ser identificados pelo papel que exercem na universidade, classificado em servidor ou estudante, pois há diferença de peso desses votos.

Este artigo avalia se o conteúdo dos tweets pode predizer resultados de uma eleição para reitor de universidade no Brasil. Consideramos como cenário de estudo a eleição para Reitor da UTFPR que ocorreu em março de 2012. Os tweets que envolvem esse processo eleitoral foram capturados desde um dia antes da votação até um dia depois da divulgação do resultado oficial, totalizando 744 tweets. O processo de avaliação consiste basicamente em capturar mensagens utilizando a API do Twitter em Java, classificando-as em sentimento positivo para determinado candidato, sentimento de indecisão ou de contexto informativo.

Na Seção 2 são destacados os trabalhos que avaliam o Twitter como fonte sincera de opiniões e como ocorre a deliberação política na UTFPR. Na terceira seção são apresentados os trabalhos relacionados e as questões de pesquisa. O método desenvolvido para mineração e a classificação dos dados capturados são apresentados na quarta seção. Por fim, os resultados da predição utilizando o Twitter são confrontados com os dados oficiais divulgados pela UTFPR.

2. REFERENCIAL TEÓRICO E DELIBERAÇÃO POLÍTICA

Twitter é um serviço de microblogging no qual são enviadas mensagens de até 140 caracteres. Por esse motivo, as mensagens têm caráter objetivo e envolvem muitas abreviações de termos linguísticos. O mecanismo generalizado do Twitter consiste em enviar mensagem para um grupo de seguidores. Os seguidores podem retransmitir (retweet) ou criar novas mensagens. Para Kwak (2010), os retweets possibilitam retransmitir informações de uma forma sem precedentes, oportunizando estudos para cientistas da computação, sociólogos e outros profissionais interessados em compreender o comportamento humano, as redes sociais, e o reflexo que as ações nesse universo virtual (on-line) têm no universo real (off-line).

Para Lerman (2010), a comunicação no Twitter evidencia comportamentos, sejam comportamentos individuais ou em grupo. Kim (2010) afirma que com a divulgação de informações, usuários mais populares podem influenciar seus seguidores, mas basta ser usuário para também ser um agente influenciador. No contexto de processo eleitoral, esse é um fato positivo na conquista de votos. Essa influência para alinhamento político também foi identificada por Conover (2011). Portanto, esses autores afirmam que o conteúdo dos tweets representa a opinião verdadeira dos seus emissores e podem influenciar outras pessoas.

Wilson (2005) apresenta uma análise de sentimentos que determina se uma expressão textual é neutra ou polarizada. O sistema apresentado por Wilson é capaz de identificar automaticamente o contexto de polaridade e os resultados são significativamente satisfatórios. Para tanto, utiliza coeficiente de correlação.

A comunidade do Twitter tem comumente feito trocas de mensagens a respeito de seus candidatos em períodos de eleição. A proposta deste artigo é identificar e classificar essas mensagens procurando relações com resultados oficiais da deliberação política que ocorreu na UTFPR. A UTFPR não possui mecanismos implantados para realizar pesquisa eleitoral. Uma forma tradicional de tratar desse problema consiste em formar equipes de trabalho e entrevistar pessoas durante o período eleitoral. Considerando que a UTFPR possui 12 câmpus distribuídos geograficamente no Estado do Paraná, gerenciar essas equipes pode ser demasiadamente custoso, demandando tempo e planejamento. Uma forma alternativa para reduzir esses problemas consiste em avaliar do conteúdo dos tweets que remetem ao pleito eleitoral.

A deliberação política para reitor nas Universidades Federais brasileiras envolve servidores e estudantes de todos os câmpus. No caso da UTFPR, o voto dos servidores tem peso de 80% e 20% para os estudantes.

Todos os câmpus realizam o processo de votação e contagem dos votos no mesmo dia. O resultado oficial é divulgado somente na semana seguinte à votação. Para encerrar o processo, o candidato com mais votos ponderados é indicado para o Ministério da Educação, que aceita ou não o posto de Reitor da Universidade.

Portanto, a deliberação política não significa necessariamente que o candidato mais votado será o Reitor.

3. TRABALHOS RELACIONADOS E QUESTÕES DE PESQUISA

Ifukor (2010) tem avaliado a construção linguística de mensagens durante as eleições de 2007 na Nigéria.

Nesse cenário Ifukor considera 923 tweets e 254 blogs. Os tweets foram enviados para um usuário chamado Ekiti, criado especificamente para o processo de discussão eleitoral. As mensagens foram classificadas conforme o período da eleição, sendo pré-eleição, eleição e pós-eleição. A mineração feita por Ifukor ocorre de forma manual, avaliando o conteúdo semântico das mensagens. Os usuários dessas mensagens usam o Twitter como forma de se envolver nas eleições, mobilizando também outros usuários para participação política. Isso evidencia o Twitter como uma forma de motivação de usuários.

Diakopoulos (2010) observou que o debate político que ocorreu em 2008 para eleição presidencial americana alterou a taxa de mensagens no Twitter. Essas mensagens (3238) foram reações ao debate apresentado na televisão. Diakopoulos evidencia uma métrica para detectar sentimentos, anomalias e indicação de controvérsias. Para detectar sentimentos as mensagens foram classificadas em quatro tipos:

positivo, negativo, mixe e neutro. Mixe compreende positivo e negativo. Neutro representa nenhum estado.

Para classificação foi utilizada a correlação de Pearson com base em dicionários de termos. Com isso, Diakopoulos mostrou que o interesse por candidatos pode ser detectado avaliando mensagens do Twitter.

Portanto, a estimativa de desejos pode ser feita satisfatoriamente.

O´Connor (2010) procurou medir o sentimento da opinião pública sobre política americana avaliando mensagens do Twitter entre 2008 e 2009. Isso é feito encontrando a frequências dos termos que remetem a sentimentos, previamente armazenados em dicionários de termos. Ao mesmo tempo foram capturados dados de organizações oficiais de pesquisa. Essa correlação entre o que ocorreu no Twitter e o que outras fontes de pesquisa afirmam corresponde a 80%. Essa descoberta indica que mensagens de texto têm alto potencial para sondagens, podendo substituir ou complementar as formas tradicionais de pesquisa. O´Connor utilizou o sistema OpinionFinder, que contém uma lista com 1600 e 1200 termos, positivos e negativos.

A adoção generalizada de mídias sociais para comunicação política cria oportunidades sem precedentes de monitoramento de opiniões. Conorver (2010) aborda um método para predição de alinhamento político de usuários do Twitter baseado no conteúdo de sua comunicação. Conover avaliou um conjunto de 1000 mensagens enviadas durante as eleições dos Estados Unidos em 2010. Conover conseguiu predizer a afiliação (direita ou oposição) política com 91% de certeza. Para tanto, utilizou um dicionário de palavras, busca de similaridade de Jaccard e análise no espaço vetorial usando TF-IDF.

Conover (2011) investigou como a mídia social produz redes públicas e facilita a comunicação com diferentes orientações políticas. Conover examinou duas redes de diferentes orientações políticas no Twitter, verificando 250.000 tweets durante o processo eleitoral nos Estados Unidos em 2010. A primeira forma considera os retweets, avaliando se o conteúdo é retransmitido por outros usuários. A segunda forma considera a menção do nome do usuário na elaboração de outras mensagens. Usando uma combinação de algoritmos de rede, Conover evidenciou que a rede de retweets exibe dois grupos, direita e oposição.

Enquanto a simples menção do nome do usuário não consegue caracterizar a rede de grupos políticos.

Portanto, retweet é para Conover a melhor forma de caracterização de usuários.

Tumasjan (2010) investigou o uso do Twitter na deliberação política da Alemanha. Para essa investigação foram avaliados 100.000 tweets contendo referências para partidos políticos ou politicagem. Para classificar as mensagens foi utilizado o sistema LIWC (Linguistic Inquiry and Word Count) de análise textual, que consegue identificar termos emocionais e cognitivos usando um dicionário psicologicamente validado por especialistas. Conclusivamente, Tumasjan mostrou que os tweets podem ser utilizados como indicativos de universos do mundo real, mas que não representam 100% do público e por isso, assim como nas pesquisas tradicionais, também são factíveis de erros. Outra informação destacada por Tumasjan é que muitas mensagens do Twitter não usam termos de dicionários regulares, com radicais e variações bem definidos. No Twitter muitas mensagens são abreviadas e isso pode comprometer a sua classificação.

Os problemas identificados por esses autores são similares aos problemas que encontramos. Entretanto, as polarizações foram identificadas semanticamente por método manual. O método manual foi necessário porque não encontramos um dicionário de termos linguísticos em português. O nosso trabalho se diferencia dos demais por encontrar nos tweets conteúdos que remetem ao local no qual os usuários trabalham ou estudam, além do tipo de usuário (servidor ou estudante). Nesse sentido, destacamos as seguintes questões:

• Por meio das informações pessoais cadastradas em cada perfil de usuário do Twitter e de suas mensagens de relacionamento é possível obter outras informações que indiquem o tipo de usuário e onde eles atuam?

• O Twitter pode ser utilizado para predição de eleição de reitor em universidades?

4. MÉTODO E CONJUNTO DE DADOS

A avaliação de tweets tem sido abordada em diversos trabalhos científicos e tem satisfatoriamente indicado sentimento positivo, negativo, ambos e neutro. De forma geral, os mecanismos de busca de sentimentos consistem em utilizar dicionários contendo termos de sentido positivo e negativo. Os termos que aparecem nas mensagens dos usuários são organizados em uma estrutura vetorial e em seguida são feitas buscas de similaridade com os termos presentes nos dicionários. Por fim, modelos estatísticos conseguem indicar o sentido da mensagem. A análise de mensagens também pode ser feita de forma manual. Nesse processo, a sensibilidade do avaliador na análise da expressão semântica é que caracteriza o sentido das mensagens.

Os tweets analisados neste artigo foram capturados utilizando uma API Java. A busca no Twitter por meio dessa API utilizou palavras-chave que identificavam os candidatos e seus vices, assim como mensagens que continham a sigla UTFPR. Capturamos os tweets desde um dia antes até um dia depois do processo eleitoral.

No total foram capturadas 744 mensagens. Para o processo de descoberta de polarização, embora exista uma diversidade de dicionários de termos de sentido positivo e negativo em língua inglesa, em português não foi encontrado algo similar. Outro fator complicador é que no Twitter as mensagens são comumente abreviadas e muitas vezes são utilizadas expressões regionais. Com isso, a classificação das mensagens ocorreu de forma manual, avaliando o sentido semântico para indicar a polarização de cada tweet.

O método manual de classificação consiste primeiramente em encontrar o câmpus universitário no qual cada usuário está relacionado. Essa classificação é importante porque no pleito eleitoral o resultado é classificado por câmpus. Assim, é possível conhecer onde determinado candidato ganhou ou perdeu votos.

Para conseguir essa informação elaboramos um conjunto de passos de análise semântica. Esse processo está representado na Figura 1a. Adicionalmente, para os critérios do pleito eleitoral também é importante diferenciar usuários servidores e usuários estudantes. Cada um destes tem um peso diferente na computação dos votos. Dessa forma, ampliamos o processo de análise semântica para identificar esses usuários. A busca semântica procura relacionar termos como “prova”, “exercícios”, “a professora disse”, entre outros para identificar o perfil estudante. Para identificar o perfil servidor consideramos termos como “trabalho na UTFPR”, “aplicarei prova hoje”, “meus alunos”, entre outros. A Figura 1b representa esse processo de identificação.

(a) (b)

Figura 1. Mecanismo de mineração manual utilizado para descoberta do câmpus universitário (a) e do tipo de usuário (b).

A etapa seguinte consiste em polarizar as mensagens por intenções de voto. Não é suficiente classificar tweets apenas pela citação do nome dos candidatos. Neste artigo identificamos as polarizações das mensagens em sentido positivo, indeterminado, informativo e irrelevante. As mensagens positivas são classificadas em pro candidato quando apresentam sentido claro da intenção do voto. As mensagens classificadas como Indeterminado não dão claramente o sentido do voto e comumente omitem nome dos candidatos. As mensagens classificadas como Informativas procuram convidar os eleitores indicando neutralidade em relação aos candidatos. Por fim, as mensagens Irrelevantes não apontam nenhum dos candidatos e não contextualizam o cenário do pleito eleitoral, mas citam a UTFPR.

5. RESULTADOS

Nesta seção analisamos os 744 tweets capturados procurando classificá-los conforme os métodos apresentados pelas Figuras 1a e 1b e suas polarizações. Os tweets capturados podem não abranger quantidade significativa em alguns câmpus, o que pode significar também que o Twitter é pouco utilizado nesses câmpus. A Tabela 1 apresenta a quantidade de tweets classificados por câmpus universitário e o resultado oficial da eleição divulgado pela UTFPR.

Tabela 1. Quantidade total de tweets por câmpus universitário e os votos oficiais por chapa.

Sigla Câmpus Tweets Votos oficiais Chapa 1 Votos oficiais Chapa 2

AP Apucarana 13 318 44

CM Campo Mourão 36 413 692

CP Cornélio Procópio 4 795 416

CT Curitiba 404 794 2785

DV Dois Vizinhos 4 533 32

FB Francisco Beltrão 4 334 60

GP Guarapuava 0 177 7

LD Londrina 12 244 155

MD Medianeira 27 784 353

PB Pato Branco 46 852 812

PG Ponta Grossa 29 922 369

TD Toledo 3 171 283

ND Indeterminado 102 - -

Outros Não UTFPR 60 - -

Total - 744 6337 6008

Com base na Tabela 1, o câmpus de Curitiba (CT) é o principal representante dos tweets capturados. Os demais câmpus não apresentam quantidade significativa para a avaliação do pleito eleitoral. O resultado das polarizações é apresentado na Tabela 2. Também foi considerado que algumas mensagens são enviadas por agências de notícias e que não representam intenções de voto, sendo apenas Informativas.

Tabela 2. Classificação dos tweets por câmpus universitário e polarização do conteúdo, totalizando 582 tweets classificados (78,22%), no qual 744=582+Indeterminado+Não UTFPR.

A Tabela 3 destaca as intenções de voto classificando as mensagens conforme o perfil do usuário:

servidor, estudante, agente de notícias ou indefinido. Devido a pouca quantidade de mensagens dos câmpus do interior, a Tabela 3 destaca apenas o câmpus de Curitiba. Outra característica destacada é que não se tem dados sobre a quantidade de servidores e estudantes da UTFPR que possuem conta no Twitter. Essa informação seria importante para descobrir o percentual de participantes no universo virtual.

Tabela 3. Classificação dos tweets com base no perfil dos usuários de Curitiba e suas polarizações.

O processo de descoberta e predição setorial só foi possível porque o método de mineração conseguiu identificar os câmpus e o perfil do usuário em 78,22% dos tweets capturados. Contudo, mesmo que usuários do Twitter não preencham seu cadastro completo é possível na maioria das vezes encontrar informações

Sigla Pro Chapa 1 Pro Chapa 2 Indeterminado Informativo Irrelevante Total

AP 1 0 1 2 9 13

CM 2 2 0 2 30 36

CP 0 1 0 0 3 4

CT 38 53 25 29 259 404

DV 0 0 0 0 4 4

FB 0 0 0 0 4 4

GP 0 0 0 0 0 0

LD 0 1 0 0 11 12

MD 6 0 3 2 16 27

PB 4 1 1 2 38 46

PG 2 0 1 0 26 29

TD 0 1 0 0 2 3

Total 53 59 31 37 402 582

Classificação Pro Chapa 1 Pro Chapa 2 Indetermiando Informativo Total

Estudantes 32 51 21 20 124

Servidores 6 2 0 2 10

Agentes de notícias 0 0 0 6 6

Indefinido 0 0 4 1 5

Total 38 53 25 29 145

sobre quem esses usuários são e o que esses usuários fazem, já que podem enviar mensagens contendo informações pessoais ou utilizar outro tipo de rede social, na qual é possível obter mais informações.

A predição de eleição usando o Twitter pode ser satisfatória. Os tweets podem ser utilizados para identificar polarizações, mas dependendo do pleito eleitoral, outras redes sociais e outros mecanismos podem ser utilizados para capturar, por exemplo, informações sobre a cidade em que o usuário vota, assim como seu perfil, que pode ser ponderado diferentemente caso seja estudante ou servidor. Sem o uso dos métodos apresentadas pelas Figuras 1a e 1b, não seria possível predizer o resultado do pleito na UTFPR.

O uso somente de mecanismos de polarização não são considerados suficientes, já que um pleito pode envolver variáveis que dependem de dados de localização, determinando peso para determinadas regiões ou conforme a representação do usuário. Para tornar a predição eficiente consideramos descobrir o local onde o usuário do Twitter estuda ou trabalha. Usando o Twitter para predizer o resultado no câmpus de Curitiba, a Chapa 2 se destaca com 57,60% dos votos válidos, sem ponderações. A quantidade de votos válidos é apresentada na Figura 2, onde houve ampla vantagem dos votos dos estudantes em relação aos servidores.

Figura 2. Polarização dos tweets considerando apenas o câmpus de Curitiba e sem ponderações por tipo de usuário.

Para finalizar o processo de predição, as polarizações Pró Chapas são ponderadas com 0.8 para os votos dos servidores e 0.2 para os votos dos estudantes. Sendo assim, os estudantes de Curitiba identificados no Twitter que polarizam seus votos para a Chapa 1 representam 4,41% do total de votos no seu câmpus, enquanto a polarização para a Chapa 2 representa 7,03%. Para essa mesma classificação considerando somente os estudantes, os dados oficiais divulgados pela UTFPR indicam que a Chapa 1 conseguiu 3,29% e a Chapa 2 16,39%. Portanto, a predição usando o Twitter indicou corretamente o vencedor em Curitiba.

Utilizar o nosso método de predição para o pleito completo da UTFPR pode ser eficiente desde que existam tweets suficientes. Adicionalmente, a elaboração de um dicionário de termos de polarizações e a automatização dos processos de classificação de usuários são recursos importantes que devem ser considerados em eventos com mais quantidade de mensagens. O uso desse método proporciona a virtualização das formas tradicionais de pesquisa, que consideram a entrevista pessoal do eleitor e o gerenciamento de equipes de trabalho. Ao mesmo tempo, não podemos desconsiderar que as pesquisas presenciais são eficientes e o nosso método pode atuar também como complemento dessas pesquisas.

6. CONSIDERAÇÕES FINAIS

O uso do Twitter como fonte de dados proporciona descoberta de opiniões desses usuários sobre diversos temas. Em um pleito eleitoral é natural que usuários do Twitter se expressem de forma livre. Para Bakshy (2011), Lerman (2010), Kim (2010), Conover (2011) e Wilson (2005), o conteúdo dos tweets representa a opinião verdadeira dos usuários e, portanto, podem ser úteis para diversas análises. O que foi percebido durante esse trabalho de mineração manual de dados é que embora as opiniões possam ser verdadeiras, as informações do perfil do usuário são muitas vezes falsas. Quando é necessário obter informações sobre o câmpus no qual os usuários estudam ou trabalham, ou mesmo o nome verdadeiro do usuário, uma simples consulta no perfil do usuário não é suficiente. Nesses casos podem ser desenvolvidas formas de mineração que envolvem outras redes sociais. A descoberta desses dados é importante porque o pleito eleitoral da UTFPR pondera os votos dos servidores com 0.8, enquanto o voto dos estudantes é ponderado com 0.2.

Entretanto, é necessário descobrir se o usuário é estudante ou servidor.

A análise de similaridade procurando identificar polarizações políticas tem sido usada por Conover (2011), Diakopoulus (2010), O’Connor (2010), Conover (2010) e Tumasjan (2010). Entretanto, há casos em que esses métodos não conseguem descobrir determinadas informações. Um exemplo disto ocorreu quando precisamos descobrir o câmpus com o qual um usuário se relaciona, já que o usuário pode se referir ao câmpus citando apenas o nome do curso, sem citar o próprio nome, por exemplo. Adicionalmente, não dispomos de um dicionário de termos que indiquem polarizações em português. Podemos resolver esse problema de identificação consultando o perfil do usuário no Facebook, fazendo buscas no Google ou também analisando fotos tomadas pelo Instagram. O Instagram também informa a localização geográfica e desta forma podemos obter a cidade e o câmpus do usuário. Esse processo não está automatizado.

Uma análise a priori mostrava que a predição usando o Twitter não correspondia ao resultado divulgado oficialmente sobre a deliberação política na UTFPR. Entretanto, após a identificação de que os tweets não representam todos os câmpus foi possível predizer o resultado correto classificando os tweets por localização do usuário. Portanto, a simples captura e análise de conteúdo podem não ser suficientes, também é importante compreender o processo eleitoral e identificar quais dados são necessários à predição. No caso da predição da UTFPR foi possível identificar os câmpus e o perfil dos usuários em 78,22% das vezes, o que pode ser considerado satisfatório, validando os métodos manuais de mineração que consideram outras fontes de dados complementares, como sistema acadêmico, Facebook, Google e Instagram. Na predição do câmpus de Curitiba os resultados oficiais e os que têm base no Twitter indicaram o mesmo vencedor (Chapa 2). Com isso, também percebemos que a quantidade de tweets precisa ser maior para que a predição possa ser aplicada para todos os câmpus. Com o avanço do número de usuários do Twitter, como Semiocast (2012) vem identificando, em um futuro próximo será possível encontrar mais usuários desses câmpus.

REFERÊNCIAS

Bakshy, E. et al., 2011. Everyone’s an Influencer: Quantifying Influence on Twitter. Proceedings of the fourth ACM international conference on Web search and data mining. Hong Kong, China.

Conover, M. et al., 2011. Political Polarization on Twitter. Proceedings of 5th International AAAI Conference on Weblogs and Social Media. Barcelona, Espanha.

Conover, M. D. et al., 2010. Predicting the Political Alignment of Twitter Users. Center for Complex Networks and Systems Research, School of Informatics and Computing, Indiana University, Bloomington, USA.

Diakopoulos, N. A. and Shamma, D. A., 2010. Characterizing Debate Performance via Aggregated Twitter Sentiment.

Proceedings of the 28th international conference on Human factors in computing systems. Atlanta, Georgia, USA, pp. 1195-1198.

Ifukor, P., 2010. Elections or Selections? Blogging and Twittering the Nigerian 2007 General Elections. Bulletin of Science, Technology & Society, Sage Publications, Vol. 30, Nº 6, pp. 398-914.

Kim, D. et al., 2010. Analysis of Twitter Lists as a Potential Source for Discovering Latent Characteristics of Users.

Workshop on Microblogging at the ACM Conference on Human Factors in Computer Systems. Atlanta, Georgia, USA.

Kwak, H. et al., 2010. Whats is Twitter, a Social Network or a News Media?. International World Wide Web Conference Committee (IW3C2). Raleigh, NC, USA, pp. 591-600.

Lerman, K. and Ghosh, R., 2010. Information Contagion: an Empirical Study of the Spread of News on Digg and Twitter Social Networks. Proceedings of 4th International Conference on Weblogs and Social Media.

O’Connor, B. et al., 2010. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. Proceedings of 4th International AAAI Conference on Weblogs and Social Media. Washington, DC, USA.

Semiocast, 2012. Brazil becomes 2nd country on Twitter, Japan 3rd Netherlands most active country. Available from:

<http://semiocast.com/publications/2012_01_31_Brazil_becomes_2nd_country_on_Twitter_superseds_Japan>

(Accessed April 2012).

Tumasjan, A. et al., 2010. Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment.

Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. Washington, DC, USA, pp.

178-185.

Wilson, T. et al., 2005. Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA, pp. 347-354.

No documento WWW/INTERNET 2012 (páginas 30-38)