Dados do Twitter Janela de Dados, Pré-Processamento e Clas-

5.3 Dados e Indicadores

5.3.1 Dados do Twitter Janela de Dados, Pré-Processamento e Clas-

Para a realização de testes com o simulador de compra e venda a ser apresentado neste capítulo, optou-se por trabalhar apenas com as ações PETR4 da Petrobrás e VALE5 da Vale S.A.. Essas foram selecionadas por representarem ações de duas empresas diferentes e de grande importância no mercado de ações brasileiro e por possuírem, dentre as demais ações investigadas, um volume de mensagens (tweets) captadas diariamente suficientes para a realização das simulações e testes.

O intervalo de tempo de coleta de dados utilizado para os testes inicia em 13 de agosto de 2013 e finaliza em 04 de maio de 2015. Os tweets selecionados para PETR4 e VALE5 foram todos os que possuíam em seu conteúdo o nome dessas ações. Dos dados selecionados, foram removidos os tweets coletados nos dias de sábado, domingo, feriados e dias em que ocorreram problemas de indisponibilidade de coleta por motivos técnicos. Para a simulação, são utilizados apenas dos tweets coletados em dias da semana nos quais ocorreu pregão, ou seja, dias comerciais no Brasil. Após essa seleção, foram levantados 426 dias de dados de tweets para a simulação. Para cada um desses dias foram coletados também, a partir do histórico de preços da Bovespa, os preços de abertura, mínimo, máximo e fechamento ajustado para as ações em questão.

Os indicadores obtidos através do processamento de tweets a serem utilizados no simulador, Bt burburinho, Ht humor para compra e venda, Et expressões de tendência de alta ou baixa nos

preços e St sentimento positivo ou negativo em relação à ação no mercado para o dia t, são os

mesmos definidos na Subseção 4.2.1 do Capítulo 5.

As Figuras 5.2, 5.3 e 5.4 apresentam respectivamente o volume total de tweets coletados, o volume diário sem limpeza e com limpeza para PETR4 e VALE5, sendo que as duas últimas possuem um intervalo vazio localizado entre os dias 13/10/14 e 13/11/14. Estes dias sem coleta

Figura 5.2: Volume de tweets coletados para PETR4 e VALE5 entre 13 de agosto de 2013 e 04 de maio de 2015.

de dados se devem a problemas técnicos (indisponibilidade de hardware e software para realização de coleta).

Da mesma forma que no Capítulo 3, os tweets são coletados na medida em que são publicados na plataforma Twitter, entretanto, o sistema implementado para simulação adota indicadores que refletem o sentimento do dia e não da hora, minuto ou segundo de captação. Todos os tweets coletados no dia t contribuirão para afirmar um valor que representará a tendência ou o sentimento do dia t.

Após análises e reflexões realizadas no Capítulo 4 acerca dos indicadores obtidos dos tweets, optou-se por uma alteração nas atividades de limpeza - etapa de pré-processamento da Figura 3.1 descrita na Seção 3.5 do Capítulo 3. A única filtragem pela qual os tweets coletados foram expostos para essa etapa de simulação foi a de relevância, ou seja, foram removidos da base de dados apenas os tweets que continham palavras ou expressões selecionadas. A filtragem de retweets, bem como a de links e pontuação foram removidas da etapa de pré-processamento.

Retweets são cópias de mensagens publicadas por outras pessoas que os usuários postam, ou seja, é replicar algo que foi escrito, sem que o autor perca os créditos por sua autoria. A escolha por manter os retweets na base de dados se deve ao fato de esses expressam o pensamento de outrem reafirmado pelo último usuário que postou. Ou seja, o usuário que retweeta concorda com a postagem do primeiro, sendo que esta passa a ser também sua opinião. Dessa forma, não se conta apenas o pensamento de apenas uma pessoa, mas também o pensamento de todos os que concordaram com o primeiro.

A opção por manter tweets que possuíam links (endereços eletrônicos) em seu conteúdo, foi escolhida porque muitas dessas mensagens possuíam texto do usuário acompanhadas de endereços de sites. Verificou-se que quando eram removidas, muito do pensamento do povo também era removido dos dados prejudicando o valor e a qualidade dos indicadores de tendência e sentimento. Após a realização de uma leitura de amostras de toda a base de dados, o script com expressões

Figura 5.3: Volume de tweets para PETR4 com e sem limpeza.

e palavras selecionadas para remoção foi atualizado e saltou de 300 (quantidade de palavras e expressões utilizadas na limpeza dos dados para análise estatística do Capítulo 4) para 412 ex- pressões. Esse arquivo ao ser aplicado nos dados realiza a limpeza removendo todos os tweets que contenham em seu conteúdo as palavras e expressões selecionadas.

Após a limpeza dos tweets, seguem as atividades da etapa de classificação. Essas foram realizadas conforme definidas na Seção 3.6 do Capítulo 3 e com diferenças em relação à:

• janela de dados que no Capítulo 3 era de oito meses (período de coleta de agosto de 2013 a abril de 2014) e passou para vinte meses (de agosto de 2013 a maio de 2015);

• adoção do elemento neutro na classificação de tweets pelo analisador LingPipe que antes era apenas positivo e negativo;

• formação de um novo conjunto de dados de treinamento para o analisador de sentimentos LingPipe para as ações PETR4 e VALE5.

Tweets selecionados aleatoriamente foram polarizados manualmente em positivos, negativos e neu- tros com a finalidade de formar um conjunto de dados de treinamento e avaliação para o software de análise de sentimentos Lingpipe. Sobre o treinamento e avaliação de tweets:

• PETR4: Dos dados polarizados manualmente, 60% foram utilizados para treinamento de positivos e negativos e 40% para avaliação. A média de acertos foi de aproximadamente 68%;

Figura 5.4: Volume de tweets para VALE5 com e sem limpeza

• VALE5: Dos dados polarizados manualmente, 80% foram utilizados para treinamento de positivos e negativos e 20% para avaliação. A média de acertos foi de aproximadamente 54%.

No documento TESE DE DOUTORADO Uso de técnicas de Computação Social para tomada de decisão de compra e venda de ações no mercado brasileiro de bolsa de valores (páginas 77-80)