Resultados da estratégia de negociação Outro ponto abordado nesta tese foi a implementação de uma estratégia de negociação

parâmetros do word2vec

7.6. Resultados da estratégia de negociação Outro ponto abordado nesta tese foi a implementação de uma estratégia de negociação

visando quantificar a lucratividade do modelo de maior desempenho (acurácia de 60,2%) obtido nos experimentos executados. A estratégia foi aplicada nos dados apresentados na figura 6.10. Entretanto, vale destacar que como o contrato tem um tempo hábil que é dado pelo vencimento, então inicialmente o mesmo é pouco negociado e à medida em que a data de vencimento se aproxima, o número de negócios aumenta. Por este motivo, foi considerado como primeira data para executar a estratégia, aquela onde o número de negócios superou a dezena pela primeira vez, o que correspondeu ao dia 04 de abril de 2013. A partir dessa data a estratégia de negociação foi implementada conforme discutido na seção 6.5 até a data de vencimento onde a posição foi necessariamente fechada.

Foram analisados 32 dias de negociação e o resultado final foi um lucro bruto correspondente a 1645 pontos. Isto equivale a um lucro líquido de 329 reais no período analisado. Observe que em uma estratégia de buy and hold, onde compra-se o ativo e o mantém até o final do vencimento, o lucro bruto seria de apenas 150 pontos (R$30,00), o que equivale a um retorno bem menor que o obtido através da metodologia proposta.

115

Finalmente, deve se destacar que esta situação analisada aqui, representa só um exemplo e que para se avaliar efetivamente o algoritmo do ponto de vista de estratégias financeira, outros testes podem ser necessários.

116

8. Conclusões

Nesta tese, foi apresentada uma combinação de arquiteturas de redes neurais artificiais (CNN + ELM) visando entender e predizer o comportamento dinâmico e não linear do mercado financeiro brasileiro (Bm&FBovespa). O modelo proposto emprega uma camada convolucional com diferentes filtros, alternada com uma camada de pooling, de forma a extrair características importantes e de mais alto nível a partir de dados de notícias econômicas obtidas nos principais portais de notícias econômicas do Brasil. Baseado nestas características, o classificador ELM no final da cadeia de processamento da rede CNN busca transformar as mesmas em conhecimento relevante para ajudar os investidores em suas tomadas de decisão, fornecendo uma solução determinística dos pesos de saída da rede. Diferentemente dos modelos que fazem uso das redes CNNs convencionais ou de outra arquitetura DLNN, não há iterações no processo de treinamento do modelo proposto, o que torna o mesmo muito mais rápido.

Os dados de notícias utilizados inicialmente passaram por uma etapa de pré- processamento, cujo objetivo foi tornar possível o uso dos mesmos pelos algoritmos de classificação propostos. Esta etapa constou de um processo de tokenização, limpeza dos dados e eliminação de stopwords e definição de n-gramas. Em seguida, os dados textuais processados foram transformados em representação numérica (vetores word embeddings), cuja metodologia utilizada foi o uso da representação distribuída obtida através do algoritmo

word2vec. Finalmente, estes vetores foram utilizados como entrada (input) para os modelos

de redes neurais utilizados.

Vários experimentos foram realizados, onde diferentes configurações de parâmetros foram analisadas e explicitadas. Através dos resultados obtidos nestes experimentos foi possível concluir que:

• Uma análise detalhada dos parâmetros analisados sinaliza que a melhor estrutura pode estar associada aos parâmetros utilizados no processamento dos textos, em particular com a dimensionalidade do espaço vetorial incluído no algoritmo word2vec.

• O uso de diferentes métricas de associação não acrescentou muita variação nos resultados obtidos, principalmente se forem analisados apenas os resultados para as configurações dos 7 modelos de maior acurácia. A métrica que fez parte do modelo de maior acurácia (60,22%) foi a Mi-like.

117

• A métrica de relacionamento utilizada para medir a qualidade dos vetores

word embeddings obtidos no pré-processamento dos textos através do uso

algoritmo word2vec mostrou uma forte correlação entre as palavras similares analisadas, comparável a pontuações sugeridas por especialistas humanos. Entretanto, como o algoritmo word2vec foi treinado com um número reduzido de tokens, não foi possível definir se um treinamento envolvendo uma quantidade maior de tokens (conforme sugerido em alguns trabalhos disponíveis na literatura) poderiam modificar os resultados finais obtidos. • Em relação aos hiperparâmetros utilizados na configuração da rede CNN

(quantidade de filtros convolucionais e tamanhos dos mesmos) é possível afirmar que uma quantidade maior de filtros pode resultar em modelos com maior acurácia. Entretanto, para o tamanho destes filtros (kernel) não foi possível chegar a uma conclusão específica, dado que a maioria dos resultados dos modelos de maior acurácia fizeram uso de kernel igual a 5 e 7, mas o modelo de maior acurácia (60,2%) precisou apenas de filtros com kernel igual a 3.

• Para a configuração da rede ELM, se for levado em consideração a maioria dos resultados dos sete modelos de maior acurácia, pode-se concluir que um número maior de neurônios na camada escondida da rede implica em uma melhor performance dos modelos. Entretanto, isto não se aplica se for considerado apenas o modelo de maior acurácia (60,2%).

• Os sete melhores resultados encontrados no modelo de previsão proposto, dentre todas as possíveis configurações testadas obteve valores de acurácia próximos de 60%, sendo o valor máximo obtido de 60,2%. Este desempenho foi semelhante a outros reportados na literatura, porém envolvendo mercados bem desenvolvidos e outras fontes de notícias.

• Uma análise da medida F (tanto para classe positiva quanto para a classe negativa) obtida a partir da matriz confusão para o modelo de maior acurácia (60,2%), indica que o modelo é ligeiramente mais eficiente em fazer previsões relacionadas a classe negativa.

• Através dos resultados obtidos nos experimentos realizados na comparação entre o modelo hibrido e outras três arquiteturas de redes neurais diferentes exploradas neste trabalho, constatou-se a superioridade da metodologia proposta. Isto sugere que a abstração de características exploradas através das

118

camadas convolucionais quando utilizadas junto com o classificador ELM é mais eficiente do que quando exploradas individualmente (CNN ou ELM). Ademais, treinar o modelo proposto é muito mais rápido do que outros métodos de redes DLNNs, em especial as redes CNNs.

• A estratégia de negociação adotada para verificar a lucratividade do modelo, sugere que é possível estudar o mercado de ações brasileiro através do seu principal indicador e obter uma rentabilidade considerável em negociações de compra e venda de seus minicontratos.

Em resumo, este trabalho forneceu novas perspectivas sobre o uso do processamento de dados textuais para prever o comportamento dos mercados financeiros, mas, neste caso, refere-se a um mercado emergente que, em geral, é menos consolidado. É possível destacar também que o método proposto é capaz de fornecer uma ferramenta automática e eficaz que pode beneficiar o investidor financeiro em suas tomadas de decisão ou mesmo em outras tarefas de classificação associadas ao uso de dados não estruturados, principalmente considerando textos na língua portuguesa, como por exemplo na classificação de textos envolvendo diagnósticos médicos. Deve-se ressaltar também que esses resultados preditivos foram alcançados sem o uso de dados estruturados, como preços históricos, etc., apoiando assim a ideia de que informações úteis podem ser recuperadas a partir de dados textuais, pelo menos para o sistema e as condições exploradas nesta tese.

No documento Redes neurais convolucionais e máquinas de aprendizado extremo aplicadas ao mercado financeiro brasileiro (páginas 127-131)