Redes neurais, filtragem e programação aplicadas a finanças

(1)

Universidade Federal Fluminense

Escola de Engenharia

Curso de Gradua¸

c˜

ao em Engenharia de

Telecomunica¸

c˜

oes

Felipe Carvalho Siqueira

Redes neurais, filtragem e programa¸c˜

ao aplicadas a

finan¸cas

Niter´

oi – RJ

2019

(2)

1 Felipe Carvalho Siqueira

Redes neurais, filtragem e programa¸c˜ao aplicadas a finan¸cas

Trabalho de Conclusão de Curso apresentado ao Curso de Gradua¸cão em Engenharia de Teleco-munica¸cões da Universidade Federal Fluminense, como requisito parcial para obten¸cão do Grau de Engenheiro de Telecomunica¸cões.

Orientador: Prof. Dr. Tadeu Nagashima Ferreira

Niter´oi – RJ 2019

(3)

ii .

(4)

iii Felipe Carvalho Siqueira

Redes neurais, filtragem e programa¸c˜ao aplicadas a finan¸cas

Trabalho de Conclusão de Curso apresentado ao Curso de Gradua¸cão em Engenharia de Teleco-munica¸cões da Universidade Federal Fluminense, como requisito parcial para obten¸cão do Grau de Engenheiro de Telecomunica¸cões.

Aprovada em 09 de Julho de 2019.

BANCA EXAMINADORA

Prof. Dr. Tadeu Nagashima Ferreira - Orientador Universidade Federal Fluminese - UFF

Prof. Dra. Paula Brand˜ao Harboe Universidade Federal Fluminese - UFF

Prof. Dra. Jacqueline Silva Pereira Universidade Federal Fluminese - UFF

Niter´oi – RJ 2019

(5)

iv

Resumo

O trabalho apresentado a seguir tem como objetivo unir os aprendizados do curso de Engenharia de telecomunica¸cões com os conhecimentos almejados e obtidos no Mercado Financeiro durante o estágio do autor. Este documento vislumbra sintetizar a beleza da matemática, programa¸cão e processamento de sinais no universo de Finan¸cas, evidenci-ando que o conhecimento adquirido no curso pode ser utilizado em diversos cenários. Nele será apresentado e definido o que é uma Série Temporal, um Teste de Hipóteses e Filtro de Wiener, todos os três tópicos abordados com embasamento matemático e de programa¸cão, utilizando Redes Neurais e o Teste T de Student em linguagem Python para mostrar apli-ca¸cões destes temas. A Série Temporal de pre¸cos de ativos é a ferramenta principal deste estudo, procurando auxiliar no processo de tomada de decisão. A rela¸cão de dependência entre os dados das séries figura como personagem principal, que será o fator determinante para se estabelecer uma previsão de pre¸co. Foi implementada uma RNA para testarmos a precisão da previsão de pre¸co do ativo PETR4, a¸cão preferencial da Petrobras, utilizando uma amostra de quatro anos. No caso do Teste de Hipóteses, foi testada a presen¸ca do Efeito Segunda-Feira no ´ındice Ibovespa, e foi conclu´ıdo que não existe essa anomalia, que será explicada no documento.

(6)

v

Abstract

The following document aims to unite the learning of Telecommunications Engineering course with the knowledge sought and obtained in the Financial Market during the author’s internship. This document glimpses to synthesize the beauty of mathematics, programming and signal processing in the universe of Finance, evidencing that the knowl-edge acquired in the course can be used in several scenarios. In it, Time Series, Hypothesis Test and Wiener Filter will be presented and defined, all three topics covered with mathe-matical and programming bases, using Neural Networks and Student’s T Test in Python language to show applications about these topics. The Temporal Series of asset prices is the main tool of this study, seeking to assist in the decision making process. The relati-onship of dependence between the data of the series appears as main character, which will be the determining factor to establish a price forecast. An Artificial Neural Network was implemented to test the accuracy of the PETR4 asset price forecast, a preferential share of Petrobras, using a four-year sample. In the case of the Hypothesis Test, the presence of the Monday Effect was tested on the Ibovespa index, and it was concluded that there is no such anomaly, which will be explained in the document.

(7)

vi

”Aqueles que s˜ao loucos o suficiente para acharem que podem mudar o mundo s˜ao os que realmente mudam.” - Steve Jobs

(8)

vii

Agradecimentos

Gostaria de agradecer a todos que sempre me motivaram e me apoiaram em toda a minha trajetória, em especial aos meu pais, Teresa e Marcus e, meus irmãos, Flávio e Patricia, que me incentivam diariamente a ser melhor. Obrigado a todos os professores do curso de Engenharia de Telecomunica¸cões, que foram fundamentais no meu desenvolvi-mento profissional, destacando a professora Paula Harboe, que pôde me ensinar um pouco sobre a melhor forma de lecionar durante dois anos como monitor de Eletromagnetismo I. Obrigado ao meu amigo de gradua¸cão, Carlos Eduardo Bonon, que foi capaz de me auxiliar através do direcionamento dos estudos de Redes Neurais aplicadas ao Mercado Financeiro.

(9)

viii

Lista de Figuras

3.1 Produ¸c˜ao de leite mensal norte-americana de 1962-1976. Retirada de: [1] . 9

3.2 Sazonalidade na produ¸c˜ao de leite. Retirada de: [2] . . . 9

3.3 Tendˆencia ao longo da produ¸c˜ao de leite. Retirada de: [3] . . . 10

4.1 Representa¸c˜ao de um neurˆonio humano. Retirada de: [4] . . . 12

4.2 Modelo de unidade de McCullock e Pitts. Retirada de: [4] . . . 13

4.3 Topologia em camadas de uma RNA. Retirada de: [4] . . . 13

4.4 Arquitetura feed-foward. Retirado de: [5] . . . 16

4.5 Arquitetura de uma RNR evidenciando o feedback. Retirado de: [5] . . . . 16

5.1 Curva Normal. Retirado de: [6] . . . 22

5.2 Diagrama de blocos da estima¸c˜ao de Wiener. Retirada de: [7] . . . 28

5.3 Demonstra¸c˜ao dos sinais s e w. . . 29

6.1 Treino da rede. . . 35

6.2 Rede sendo validada com uma previs˜ao de dados j´a vistos. . . 35

6.3 Rede prevendo com dados nunca vistos. . . 36

6.4 Ibovespa de Novembro de 2018. . . 37

6.5 Resultado Teste T. . . 39

6.6 Resultado do teste Dickey-Fuller para a série não estacionária. . . 41

(10)

ix

Lista de Tabelas

5.1 Erros do Tipo I e II. Retirado de: [8] . . . 23 5.2 Tabela T de Student. Retirada de: [9] . . . 25

(11)

Sum´

ario

Resumo iv

Abstract v

Agradecimentos vii

Lista de Figuras viii

Lista de Tabelas ix

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao . . . 2

2 Entendendo a dinˆamica do Mercado 4 2.1 O Mercado e seus agentes . . . 4

2.2 O Mercado Financeiro . . . 5

3 S´eries Temporais 7 3.1 Apresenta¸c˜ao . . . 7

3.2 Componentes de uma S´erie Temporal . . . 7

4 Aplica¸c˜ao de Redes Neurais 11 4.1 Entendendo uma Rede Neural Artificial . . . 11

4.1.1 Treinamento de uma Rede Neural Artificial . . . 12

4.1.2 Aprendizado de uma Rede Neural . . . 14

4.1.3 Redes Neurais Recorrentes . . . 15

5 T´ecnicas aplicadas aos dados financeiros 20 5.1 Teste de Hip´oteses . . . 20

(12)

xi

5.1.1 Inferˆencia Estat´ıstica . . . 20

5.1.2 Teste de Hip´oteses . . . 21

5.1.3 Teste T de Student . . . 24

5.1.4 Teste do Efeito Segunda-feira . . . 26

5.2 Filtro de Wiener . . . 27

6 Aplica¸c˜oes e resultados 31 6.1 Aplica¸c˜ao da RNA no Python . . . 31

6.1.1 Resultado da Rede Neural . . . 34

6.2 Aplica¸c˜ao do Teste da Segunda-feira em Python . . . 36

6.2.1 Resultado do Teste T . . . 38

6.3 Aplica¸c˜ao do Filtro de Wiener . . . 39

6.3.1 Resultados do Filtro de Wiener . . . 41

(13)

Cap´ıtulo 1

Introdu¸

c˜

ao

Com o atual cenário pol´ıtico visitando intensamente a questão de crescimento econômico brasileiro, as ferramentas da engenharia em conjunto com a matemática podem ser um bom instrumento de análise técnica a fim de se obter bons resultados nessa conjuntura. A cada nova informa¸cão, os movimentos de mercado se remodelam da forma que o próprio mercado aprova ou desaprova cada decisão macroeconômica. Como ninguém é capaz de prever o futuro, a engenharia e a matemática podem ser uma excelente ferramenta para, pelo menos, conseguirmos prever algo parecido com que o mercado, de fato, irá produzir. ´

E poss´ıvel tomar decisões certas a fim de ganhar mais dinheiro, de supor certos indica-dores, entre outros números dif´ıceis de prever, através da utiliza¸cão da engenhosidade da matemática, que permite analisar poss´ıveis tendências de subida ou queda, seja de pre¸co de commodities, a¸cões, ou qualquer outro ativo. Existem diversas discussões sobre a eficiência desses modelos, visto que são incapazes de lidar com situa¸cões inéditas. Sendo assim, duas linhas distintas de análise surgiram: uma que defende a eficiência do mercado, em que todas as informa¸cões chegam ao mesmo tempo para todos os agentes, de forma que não haja possibilidade de arbitragem (obter lucros sem riscos), e sendo assim, qualquer distor¸cão nos pre¸cos é rapidamente corrigida, baseado nos ciclos, tendências e sazonalida-des, e uma que defende a ineficiência do mercado, embasada no ponto de que o mercado é um sistema completamente aleatório, com dependência não linear, sendo previs´ıvel, tal-vez, em curto prazo, porém não em longo prazo. Uma frase muito famosa do mercado, do professor de finan¸cas da Copenhagen Business School, Lasse Pedersen, o mercado deve ser ”eficientemente ineficiente”, de forma que os investidores procuram comprar informa¸cão e vender lucro. E para ser um investidor ativo, deve-se procurar tanto a ineficiência quanto

(14)

a eficiência, pois a ineficiência gera as oportunidades, e diante dessas oportunidades, cabe a eficiência torná-las em altos retornos. Com um embasamento matemático e automati-zado, a possibilidade de achar e transformar os cenários de ineficiência em tomadas de decisões eficientes fica melhor sustentado. O ponto aqui, estudo do comportamento do mercado, será defendido com base em séries temporais, ou seja, será verificado se há exis-tência de padrões de comportamento entre variáveis passadas que compõem tal série, e sendo assim, se existe uma previsibilidade de algum dado futuro, nesse caso, o pre¸co de um ativo.

1.1 Motiva¸

c˜

ao

No estudo de Engenharia, o contato com a matemática é constante e inevitável, o que torna poss´ıvel perceber que existe um universo complexo de modelos eficientes que traduzem a importância da Engenharia de Telecomunica¸cões, não só para produzir tecnologia, mas como forma de adapta¸cão de diversos outros mundos da ciência.

A discussão objeto desse estudo é unir o Mercado Financeiro com a ciência exata que encanta e impressiona qualquer estudante de números, a matemática e a engenharia. Resumidamente, em Engenharia de Telecomunica¸cões, podemos modelar muitas coisas como uma caixa preta, algo que para produzir um resultado, necessite apenas de inputs, sem precisar alterar as opera¸cões dentro da mesma, por mais que sejam aplica¸cões distintas. Uma vez que demos os inputs, essa caixa preta produz resultados que embasam as diversas tomadas de decisões de forma robusta.

As inúmeras aplica¸cões que existem fundindo as técnicas de filtragens, que regem o universo das Telecomunica¸cões, com os modelos de previsão elegem essa metodologia de análise como uma das mais populares no Mercado Financeiro.

Algumas formas de utilizar essas caixas pretas, mostrando o que existe dentro delas, se consolidam como pesquisa e ponto principal desta abordagem, fazendo com que deixem de ser caixas pretas e se transformem em artif´ıcios de tomada de decis˜ao.

O cap´ıtulo 2 abordará uma visão macro sobre o mercado, evidenciando quem são os agentes e a dinâmica existente. O cap´ıtulo 3 já come¸ca a introduzir a no¸cão sobre as Séries Temporais e como elas são observadas no mercado. Como extensão dele, o cap´ıtulo 4 apresenta uma aplica¸cão de Redes Neurais na tentativa de previsão de pre¸co.

(15)

3 Já o capitulo 5 abordará a aplica¸cão de técnicas em dados financeiros, sustentadas puramente por no¸cões de estat´ıstica.

O cap´ıtulo 6 encerra o estudo com a implementa¸c˜ao dos processos idealizados no cap´ıtulo 5, evidenciando os resultados obtidos em cada experimento.

Por fim, o cap´ıtulo 7 resume o aprendizado conquistado ao longo do intervalo de tempo de execu¸c˜ao deste trabalho, comentando cada aplica¸c˜ao realizada e cada resultado obtido.

(16)

Cap´ıtulo 2

Entendendo a dinˆ

amica do Mercado

2.1 O Mercado e seus agentes

O Mercado, em geral, se caracteriza como as rela¸cões dos microagentes e macroagentes, que são, respectivamente, um elemento espec´ıfico do mercado, como um Banco Central, e aqueles que simbolizam um agregado de um tipo de agente em uma economia, como as fam´ılias. Em suma, o Mercado é a rela¸cão dos Agentes Econômicos.

Um Agente Econômico é um indiv´ıduo, conjunto de indiv´ıduos, instituicões e con-juntos de institui¸cões capazes de tomar decisões que influenciam na economia. São eles:

• Fam´ılias: Indiv´ıduo ou conjunto de indiv´ıduos que são responsáveis pelas decisões quanto ao consumo de bens e servi¸cos.

• Empresas: Institui¸cões ou conjunto de institui¸cões que produzem bens e servi¸cos. Investem em equipamentos e outros meios de produ¸cão.

• Estado: Autoridade que define a pol´ıtica fiscal e a pol´ıtica monet´aria. Define as condi¸c˜oes de consumo e de investimento.

• Resto do Mundo: São todos os agentes citados anteriormente que tomam as mesmas decisões. O resto do mundo é usado para identificar os pa´ıses com quais um determinado agente nacional estabelece rela¸cão econômica, em um cenário de economia aberta (economia em que ocorre opera¸cões de comércio e investimento internacionais).

(17)

5

2.2 O Mercado Financeiro

O Mercado Financeiro pode ser definido como um universo que engloba opera¸cões de compra e venda de ativos, por exemplo: a¸cões, debêntures, câmbio, entre outros.

Esse enorme universo pode ser subdividido em quatro segmentos de mercado. S˜ao eles:

• Mercado de Capitais: basicamente, é um mercado que visa gerar liquidez (fazer com que um ativo se transforme em dinheiro rapidamente) aos papéis de d´ıvida emitidos por empresas, permitindo o seu processo de capitaliza¸cão. Ou seja, os investidores ”em-prestam” dinheiro para as empresas financiarem suas atividades, em troca de remunera¸cão via pagamento de juros ou flutua¸cão do valor da companhia, como debêntures e a¸cões, respectivamente.

• Mercado de Crédito: mercado em que ocorrem as opera¸cões de empréstimo, fi-nanciamento, arrendamento, em que institui¸cões financeiras ou institui¸cões não-financeiras realizam essas opera¸cões para curto, médio ou longo prazo.

• Mercado Monetário: talvez o segmento mais popular, é o mercado em que ocorre o controle de inje¸cão e circula¸cão de moeda com o objetivo de manter a economia l´ıquida. • Mercado de Câmbio: é o mercado de negocia¸cão de compra e venda de moedas. Considerando que a maioria das pessoas é gananciosa, ou seja, visam ganhar mais dinheiro, é imposs´ıvel falar de retorno (quanto de lucro um determinado investimento é capaz de gerar) sem atrelar a variável risco (probabilidade de que o retorno real seja inferior aos retornos históricos e projetados).

´

E nesse momento que as ferramentas de previsão de mercado entram em a¸cão: quando você deseja ter mais certeza na sua tomada de decisão, minimizando o risco. Este documento será focado no primeiro segmento do Mercado Financeiro, o Mercado de Capitais, mais especificamente para o mercado de a¸cões. A volatilidade, que é a medida de oscila¸cão de um ativo em uma determinada janela de tempo, e pode ser entendida como o grau de dispersão dos retornos do mesmo, é variável dependente da for¸ca das massas de compradores e vendedores, ou resumidamente, da oferta e demanda pelo papel. Ou seja, se muitos investidores estão vendendo tal a¸cão, a tendência é que o pre¸co dela caia. Já no sentido contrário, se muitas pessoas estão comprando tal a¸cão, a tendência é que o pre¸co dela suba. Como a a¸cão é uma fra¸cão da empresa, cada empresa projeta fluxos de caixa futuros até chegar no valor presente dela, e sendo assim, dividem pela quantidade

(18)

6 de a¸cões emitidas para chegar no pre¸co de cada a¸cão. É por isso que cada empresa possui um pre¸co diferente para o seu papel.

No Mercado, a estimativa de volatilidade dos ativos é uma excelente ferramenta para previsão de acontecimentos. Como esse parâmetro não é determin´ıstico, ou seja, não é o cenário em que uma causa gera um efeito, utilizam-se modelos que envolvem Séries Temporais ou regressões lineares.

(19)

Cap´ıtulo 3

S´

eries Temporais

3.1 Apresenta¸

c˜

ao

Série Temporal é uma cole¸cão de dados armazenados de forma sequencial observados ao longo do tempo, de forma que a ordem dessas coletas seja de suma importância, uma vez que, para a aplica¸cão deste trabalho, o objetivo da utiliza¸cão da série temporal é achar, analisar e modelar a dependência entre as observa¸cões sequentes. Para isso, é importante coletar os dados numéricos em intervalos de tempo constantes.

Para uma melhor compreensão dessas séries, vale mencionar as componentes para análise de uma série temporal.

3.2 Componentes de uma S´

erie Temporal

Para entender as séries temporais, alguns tópicos precisam ser abordados. São eles: • Sazonalidade: repeti¸cão de fenômenos em per´ıodos de tempo idênticos;

• Tendência: parâmetro que mostra as rela¸cões entre dados com a série, ou seja, ocorre quando há aumento ou queda de longo prazo nos dados;

• Ciclo: esse parâmetro só pode ser percebido se for considerado um grande per´ıodo de tempo, por exemplo, décadas. Pode ser entendido como uma repeti¸cão de um comporta-mento ao longo da série.

Para mostrar melhor as componentes de sazonalidade e tendência, que são me-nos intuitivas, foi evidenciada a produ¸cão mensal de leite norte-americana na figura 3.1 durante os anos de 1962 até 1976, e desta curva, foram separadas as duas componentes

(20)

8 inicialmente citadas. As imagens a seguir são utilizadas apenas para a representa¸cão dos parâmetros citados.

(21)

9

Figura 3.1: Produ¸c˜ao de leite mensal norte-americana de 1962-1976. Retirada de: [1] Da figura 3.1, foi extra´ıda a componente de sazonalidade:

Figura 3.2: Sazonalidade na produ¸c˜ao de leite. Retirada de: [2]

A figura 3.2 mostra a produ¸c˜ao de leite sem a componente de sazonalidade. Para evidenciar a tendˆencia, obtem-se a curva da figura 3.3.

A figura 3.3 apresenta a tendência da produ¸cão de leite na janela de tempo citada. Esse processo pode ser observado ao realizar o cálculo da média móvel, por exemplo.

Uma série é somente determin´ıstica quando a sua fun¸cão matemática pode ser escrita somente por variáveis perfeitamente determin´ısticas.

Uma série que apresenta a parte aleatória precisa ter uma componente estocástica, que é fruto de uma fam´ılia de variáveis aleatórias.

Resumidamente, as S´eries Temporais se estabelecem neste documento como um modelo de previs˜ao de acontecimentos com base em dados passados.

Há inúmeras aplica¸cões de séries temporais, dentre elas, a previsão de comporta-mento é uma forma de tentar ganhar dinheiro no Mercado Financeiro, buscando padrões

(22)

10

Figura 3.3: Tendˆencia ao longo da produ¸c˜ao de leite. Retirada de: [3]

nos acontecimentos, por exemplo, na Bolsa de Valores, auxiliando a hora de entrar ou vender a sua posi¸c˜ao.

Em geral, quando se deseja estudar uma série temporal, o interesse está em analisar e modelar a série para então trabalhar na previsão. A análise de estacionariedade e análise de autocorrela¸cão são duas formas de avalia¸cão da série. A primeira leva em considera¸cão que a série oscila, independentemente do tempo, sobre uma média constante (esperan¸ca da amostra) e com uma variância (grau de dispersão dos dados em rela¸cão ao valor espe-rado) dos dados também constante. A segunda análise já busca achar rela¸cões entre as observa¸cões passadas e atuais. Após isso, modelos de previsão podem ser aplicados, como por exemplo, implementa¸cão de uma Rede Neural Artificial, RNA.

As formas e recursos que ser˜ao aqui apresentados se baseiam em ferramentas pre-sentes no curso de Engenharia de Telecomunica¸c˜oes.

(23)

Cap´ıtulo 4

Aplica¸

c˜

ao de Redes Neurais

Uma forma de tentar realizar uma previsão (ato de afirmar o que acontecerá no futuro), que corresponderia à utopia de antever um acontecimento, é implementando uma RNA. Ao longo desse cap´ıtulo será explicado o que é uma RNA e uma aplica¸cão da mesma, em linguagem Python, na tentativa de previsão de pre¸cos de ativos no Mercado Financeiro.

4.1 Entendendo uma Rede Neural Artificial

Para entender a modelagem da RNA propriamente dita é preciso estar disposto a uma certa abstra¸cão, visto que existe a apropria¸cão de um nome puramente humano voltado para o universo computacional. Ao implementar uma RNA, é poss´ıvel observar que esse modelo se traduz a um estudo puramente matemático em maior parte da sua abordagem, envolvendo fun¸cões não-lineares, operador gradiente, entre outras ferramentas.

RNA’s são modelos matemáticos traduzidos em técnicas computacionais inspiradas e baseadas no neurônio (estrutura neural) de seres inteligentes e capazes de desenvolverem seu desempenho a partir do aprendizado. Assim como um cérebro humano, uma RNA pode ter uma quantidade enorme de neurônio.

´

E imposs´ıvel caracterizar um modelo inspirado na estrutura cerebral de seres inte-ligentes sem, ao menos, migrarmos minimamente para o universo da Biologia.

Os neurônios são, basicamente, um conjunto de células que contribuem para o racioc´ınio do ser humano.

(24)

12

Figura 4.1: Representa¸c˜ao de um neurˆonio humano. Retirada de: [4]

Sua forma¸c˜ao, exemplificada de forma mais detalhada na figura 4.1, mostra os terminais de entrada, chamados de dendritos, o corpo central, e os terminais de sa´ıda, chamados de axˆonios.

Os neurônios podem estar conectados sequencialmente, ligando os axônios de um, aos dendritos dos outros. Isso possibilita a comunica¸cão entre eles, denominada sinapse.

Uma sinapse é uma região onde dois neurônios entram em contato e estabelecem uma comunica¸cão através de um impulso nervoso.

A comunica¸cão entre eles leva uma série de fatores em considera¸cão, tais como geo-metria da sinapse, tipo de neurotransmissor, polaridade da membrana, entre outros fatores que acabam fugindo do escopo deste trabalho. Esse breve resumo serve como um bom embasamento para sustentar o que será apresentado aqui: o treinamento e aprendizado de uma RNA.

4.1.1 Treinamento de uma Rede Neural Artificial

Uma RNA é formada por várias unidades de processamento (neurônios). Essas unidades recebem sinais e esses são levados por canais que possuem pesos. Por sua vez, esses canais convergem para um somador que pondera cada sinal de entrada pelo peso do canal. Esse resultado é comparado a um limite, chamado threshold, e a unidade produz uma certa sa´ıda. Esse foi um dos primeiros modelos de RNA propostos, produzidos por McCullock e Pitts em 1943, que serviu de base para o desenvolvimento de diversas outras arquiteturas. Esse modelo pode ser observado na figura 4.2.

(25)

13

Figura 4.2: Modelo de unidade de McCullock e Pitts. Retirada de: [4]

A beleza da montagem de uma RNA está no fato de permitir um treinamento para a mesma, momento em que os pesos são ajustados de acordo com os padrões de dependência entre as variáveis. Em outras palavras, a rede é ajustada para obter um aprendizado mais eficiente (chegar ao objetivo de forma mais rápida e correta) através dos exemplos mostrados para a rede.

As RNA’s são montadas através de um modelo de camadas, layers, e esses parˆ ame-tros podem ser alterados para cada aplica¸cão. As camadas são, geralmente, classificadas em:

• Camada de Entrada: Onde os sinais (exemplos) s˜ao apresentados `a rede;

• Camada Escondida (Hidden Layer ) ou Camadas Intermedi´arias: onde ocorre maior parte do processamento de dados. Ao passar pela camada escondida, a rede extrai as caracter´ısticas dos dados.

• Camada de Sa´ıda: onde a rede apresenta seu resultado final. O modelo em camadas pode ser observado na figura 4.3.

(26)

14

4.1.2 Aprendizado de uma Rede Neural

Para uma RNA obter sucesso, ou seja, bom desempenho, é necessário desenvolver uma habilidade de aprendizado. Essa habilidade é fruto dos ajustes de peso. Esse ajuste é um processo chamado de treinamento.

O aprendizado é estabelecido quando a RNA identifica as solu¸cões viáveis para a aplica¸cão. Ou seja, achar a solu¸cão viável significa achar solu¸cões para um problema, dadas as regras e restri¸cões estabelecidas. Ao identificar um problema, uma série de limita¸cões surgem, que no universo matemático acabam sendo denominadas como restri¸cões. Essas restri¸cões podem ser algum número (limite) que uma determinada equa¸cão do problema não pode ultrapassar, por exemplo. Após isso, as solu¸cões que seguem tal regra são as solu¸cões viáveis. Portanto, cabe ao algoritmo achar a melhor solu¸cão desse universo de equa¸cões que atendem tal restri¸cão, chamada solu¸cão ótima.

Os algoritmos de aprendizado se resumem ao conjunto de regras e restri¸cões defi-nidos, fazendo com que cada algoritmo se distinga através da modifica¸cão dos pesos.

Existem algumas formas de aprendizado, s˜ao elas:

• Aprendizado Supervisionado: em que um agente externo mostra para a rede qual resposta é a certa para um dado padrão de entrada. Ou seja, para uma rede acertar que um animal mostrado é um cachorro, uma pessoa fica expondo para a mesma um cachorro e ”dizendo” que aquele animal é um cachorro, para assim, a rede entender o que é então um cachorro.

• Aprendizado não Supervisionado: neste tipo de aprendizado não existe um agente externo mostrando a resposta desejada. A rede se auto-organiza. É um tipo de abordagem em que nenhum rótulo (padrão) é mostrado para a rede, fazendo com que ela esteja sozinha para encontrar padrões nas estradas fornecidas. Esse tipo de aprendizado pode ser um objetivo próprio da rede ou um meio para atingir um determinado fim. Um exemplo disso é para aplica¸cão de distribui¸cão de produtos nas prateleiras de um mercado de acordo com o consumo de determinados grupos de cliente. A rede tentará separar dados em grupos semelhantes, sem saber que grupos são esses. Um resultado plaus´ıvel para esse caso é a divisão dos clientes em um grupo que consome produtos industrializados e outro grupo que consome produtos frescos. Esse exemplo pode ser classificado como ”um meio para atingir um determinado fim”, pensando como uma estratégia do dono do mercado agrupar produtos semelhantes para conseguir maior número de vendas, buscando maior lucro.

(27)

15 • Refor¸co: em que um cr´ıtico externo (indiv´ıduo que opera a RNA) avalia a resposta da rede, que por sua vez, aprende atrav´es da tentativa-erro, e quando erra, ´e punida por esse cr´ıtico.

Outro fator relevante no universo das RNA’s ´e o modo com que a rede corrige seus pesos. S˜ao eles:

• Modo Padrão: em que a rede corrige os pesos à medida em que ocorre uma apresenta¸cão de sinal. A corre¸cão se baseia somente no erro do exemplo apresentado em uma determinada itera¸cão.

• Modo Batch: em que a rede só corrige os pesos uma vez que todos os dados de entrada (sinais) já foram apresentados, corrigindo através do erro médio do ciclo.

4.1.3 Redes Neurais Recorrentes

Para a aplica¸cão que será apresentada posteriormente, vale comentar a respeito das RNR, Redes Neurais Recorrentes, ou RNN (Recurrent Neural Networks) e também sobre o modelo LSTM (Long short-term memory), que foram utilizados por serem comumente aplicadas no mercado financeiro.

Uma RNR é uma classe de Rede Neural que contém loops, de forma que seja poss´ıvel processar novos inputs enquanto armazenam outras informa¸cões já fornecidas. Uma associa¸cão poss´ıvel de se fazer com um cérebro humano é o fato dele não precisar formular sempre pensamentos do in´ıcio. Por exemplo, ao ler um texto ou ver um filme, o cérebro recebe novas informa¸cões e armazena as que já foram lidas ou vistas anteriormente, de maneira que seja poss´ıvel haver persistência. Esse tipo de memória faz com que as RNR sejam ideais para aplica¸cões em que dados passados devam ser armazenados, como uma Série Temporal, objeto de estudo em questão.

Para melhor entendimento, ´e poss´ıvel comparar as arquiteturas das Redes Neurais tradicionais, por exemplo a rede feed-foward com as RNRs. Nas redes feed-foward um vetor de inputs alimenta a rede, as camadas escondidas extraem os comportamentos dos dados e, eventualmente, temos os outputs. Essa arquitetura pode ser observada na figura 4.4.

Já na arquitetura de uma RNR é poss´ıvel armazenar um histórico de entradas, ponto imprescind´ıvel para o estudo de uma série temporal. Na arquitetura feed-foward, um vetor de dados isolados é útil para a rede. Já em uma série temporal, dados isolados já não

(28)

16

Figura 4.4: Arquitetura feed-foward. Retirado de: [5]

são mais úteis. No exemplo do filme, uma série de fotografias é mostrada sequencialmente para o observador, porém, muitas das vezes, essas fotografias isoladas não dizem muito o que está a acontecer no filme. Quando armazenadas, essas fotografias passam a fazer sentido para o andamento do filme. O mesmo acontece na RNR. A RNR oferece um vetor de inputs, as camadas escondidas processam os dados e se realimentam, realizando um feedback através dos context nodes, neurônios que formam uma camada de estados, que retém a memória de inputs anteriores. A arquitetura de uma RNR pode ser observada na figura 4.5.

Figura 4.5: Arquitetura de uma RNR evidenciando o feedback. Retirado de: [5] Para a aplica¸cão envolvendo as RNRs, foi escolhida uma rede do tipo LSTMs (Long short-term memory). As redes LSTMs são redes capazes de extrair dependência de

(29)

17 longo prazo. Foram introduzidas por Hochreiter e Schmidhuber em 1997 e aperfei¸coadas posteriormente, com comportamento padrão de recordar informa¸cões por longo per´ıodo de tempo. Basicamente, as LSTM não possuem apenas uma camada de rede neural, as LSTM incluem um portão de esquecimento, denominado forget-gate, que permite o trei-namento individual de neurônios, podendo ensiná-los quais informa¸cões são importantes e por quanto tempo essas informa¸cões são importantes.

Outro parâmetro importante a ser mencionado é o modo de ativa¸cão dos neurônios. Mas antes disso, é necessário explicitar o que é e por qual motivo precisa-se de fun¸cões de ativa¸cão. A resposta expressa deve-se ao fato da necessidade de introdu¸cão de n˜ ao-linearidade, ou seja, as redes neurais podem aprender mais do que as rela¸cões lineares entre variáveis dependentes e variáveis independentes, visto que deixam de estar sujeitas as restri¸cões de modelos lineares, como normalidade, independência e homocedasticidade (variância constante dos erros). A fun¸cão de ativa¸cão é justamente uma maneira de ativar o neurônio, de modo que o processo se torne eficiente. Essa fun¸cão avalia se a informa¸cão fornecida é caracterizada como relevante ou se deve ser ignorada.

Considerando uma rede neural com duas camadas escondidas, temos o seguinte modelo definido pela equa¸c˜ao 4.1:

y = φ(φ((XW1)W2))w (4.1)

de forma que X seja a matriz de dados de entrada, W1 e W2 os pesos das camadas

escondidas e w os pesos da camada de sa´ıda. φ é um operador não-linear como a fun¸cão de ativa¸cão.

y = XW1W2w

y = Xa

(4.2) Se o operador φ for omitido, o que sobra ´e apenas a multiplica¸c˜ao de W1W2w,

chamada de a, ou seja, sem uma fun¸cão de ativa¸cão, a RNA vira um modelo de regressão linear, com as restri¸cões citadas anteriormente. Dito isso, a fun¸cão φ é vista como a fun¸cão de ativa¸cão, podendo ser a Sigmoid, Tangente Hiperbólica, ELU, Leaky ReLU (mostrada na equa¸cão 4.3), entre outras. A fun¸cão escolhida para essa aplica¸cão foi a fun¸cão n˜ ao-linear ReLU, que possui como principal vantagem a não ativa¸cão de todos os neurônios ao mesmo tempo, o que permite uma maior eficiência da rede.

(30)

18 A fun¸cão ReLU é definida como o máximo entre zero e a entrada, ou seja:

ReLU = M ax(0, x) (4.3) ´

E poss´ıvel julgar a capacidade de previsão de uma rede através da compara¸cão da sa´ıda (output ) da rede com o resultado esperado. Se a rede gera uma sa´ıda com valor 10 e o resultado esperado é 20, a rede ”errou” por 10, que é a diferen¸ca entre o resultado esperado e o real. Portanto, esse é o erro de uma previsão. Para achar a rela¸cão de erros é necessário fazer uma média de todos esses erros de previsão juntos. Essa fun¸cão dos erros é chamada de Fun¸cão Custo e uma forma de cálculo é o MSE (Mean Square Error). Dito isso, o objetivo da rede é prever com acurácia, se tornando necessário minimizar essa Fun¸cão Custo.

Para minimizar esse custo, a rede precisa saber para onde indica o maior acréscimo dessa fun¸cão, e isso pode ser calculado pelo operador matemático ”gradiente”. O gradiente trata sobre a maximiza¸cão de uma fun¸cão, porém, o objetivo não é obter o máximo da Fun¸cão Custo, e sim, o m´ınimo. Para isso, deve-se subtra´ı-lo dos pesos de maneira que o resultado real se aproxime do esperado. Os responsáveis por calcular o gradiente da Fun¸cão Custo a fim de ajustar os pre¸cos para a melhoria da previsão são os Otimizadores. O Otimizador implantado no código foi o Adam, que possui maior recorrência nesse tipo de abordagem para previsões de pre¸co. O otimizador Adam é um dos que convergem mais rápido e também é um dos mais utilizados com redes LSTM. Já o tipo de perda aplicado foi o MSE, entre o que a rede testa e o que a rede treina.

O último parâmetro relevante é o campo epochs, ou seja, épocas, que se refere a quantidade de vezes que a rede vai olhar para a amostra fornecida e realizar o treino. Denomina-se época a sessão de treinamentos que a rede realiza a cada vez que uma amostra é apresentada para ajuste dos pesos sinápticos e limiares da rede. O interessante disso é que pode ser intuitivo pensar que quanto maior o número de épocas, melhor a capacidade de previsão da rede, enquanto o que acontece na verdade, é achar um ”meio-termo”, nem tantas épocas e nem poucas épocas, simplesmente porque quanto menor o número de vezes que a rede olha seu banco de dados, pior para seu desempenho, ao passo que se ela estuda muito seu banco de dados, a rede pode acabar se viciando e perdendo a capacidade de decisão. Portanto, nessa abordagem, a rede olha para a amostra 100 vezes. Isso será mostrado posteriormente.

(31)

19 A implementa¸c˜ao de uma RNA pode ser verificada no cap´ıtulo 6.

(32)

Cap´ıtulo 5

T´

ecnicas aplicadas aos dados

financeiros

5.1 Teste de Hip´

oteses

5.1.1 Inferˆ

encia Estat´ıstica

A Inferência Estat´ıstica é a afirma¸cão baseada em n´ıvel de confian¸ca, ou seja, é assumido que a popula¸cão (universo) é muito maior do que o conjunto de dados observados (amos-tra), ou seja, na medi¸cão da altura média dos habitantes do planeta Terra, a amostra de pessoas escolhida para representar todos os indiv´ıduos será menor do que os sete bi-lhões aproximados de indiv´ıduos que caracterizam o universo de habitantes. Dito isso, popula¸cão é o conjunto de todos os elementos ou resultados sob investiga¸cão. Amostra é qualquer subconjunto da popula¸cão. Inferir é deduzir um resultado com base na inter-preta¸cão de dados dispon´ıveis, por lógica, ou seja, o resultado de uma inferência é fiel ou não dependendo da qualidade da amostra.

Aplicando ao mercado financeiro, um exemplo de inferência estat´ıstica pode ser observado ao querer medir o volume negociado de uma a¸cão desde quando a mesma foi listada na Bolsa de Valores. Um bom exemplo seria a a¸cão PETR4 da Petrobras, que é a a¸cão mais negociada e uma das mais antigas da Bolsa brasileira.

Neste exemplo, a popula¸cão é o conjunto de todos os volumes negociados desse pa-pel historicamente na Bolsa e nesse estudo, é plaus´ıvel associar o volume diário negociado ao longo do tempo. Sendo assim, a escolha da amostra levará em conta os dias que serão

(33)

21 contabilizados para formá-la, interessando o volume de a¸cões PETR4 negociados nesses tais dias. Isso define exatamente uma variável aleatória, um elemento que associa um ponto do espa¸co amostral a um número real.

Dito isso, a popula¸cão em questão pode ser representada pela variável aleatória X, que significa o ”volume de PETR4 negociado no dia”. Como essa v.a. (variável aleatória) é cont´ınua, é razoável assumir que essa densidade de probabilidades segue uma distribui¸cão Normal (será explicada ao longo deste cap´ıtulo na se¸cão 5.1.2). Formalmente, a popula¸cão em questão é representada por uma variável aleatória X N(µ, σ2). Basta obter os valores de µ e σ2 _{para ter informa¸c˜}_{oes completas sobre a popula¸c˜}_ao.

5.1.2 Teste de Hip´

oteses

O Teste de Hipóteses é um instrumental estat´ıstico para tomada de decisão a partir de dados experimentais ou amostrais.

Consiste em estabelecer a Hipótese Nula (H0), que é a suposi¸cão a ser testada, uma

hip´otese conservadora. Em geral, deseja-se rejeitar H0. E a Hip´otese Alternativa (H1),

que é a op¸cão que resta quando H0 é rejeitada. Em geral, é o que queremos provar.

Para a realiza¸cão desse processo, é necessário estabelecer uma estat´ıstica teste correta, geralmente é utilizado a distribui¸cão Normal (Z) ou t de Student (T) e escolher o n´ıvel de confian¸ca/significância do seu teste. Isso significa dar coerência para uma tomada de decisão justa do teste. Isso será mais detalhado a seguir.

Ao trabalhar com a teoria das probabilidades, as chances de erro estão sempre embutidas. Como mencionado anteriormente, é necessário fazer a escolha da distribui¸cão de probabilidades que o teste em questão segue.

(34)

22

Figura 5.1: Curva Normal. Retirado de: [6]

Supondo a estat´ıstica mais clássica e mais utilizada para modelar fenômenos natu-rais, a figura 5.1 mostra a distribui¸cão de probabilidades Normal ao longo da curva. Como representado nela, para esse tipo de estat´ıstica, um valor na média (µ, representado por x barrado na figura 5.1) tem mais chances de acontecer, ou seja, maior probabilidade. Já para os eventos muitos distantes da mesma, ou seja, que apresentam menores chance de acontecerem, são representados pelas caudas. Integrar a área abaixo da curva significa achar a probabilidade para um evento desejado, sendo assim, a integral da área abaixo da curva inteira é igual a 1. Dito isso, é poss´ıvel verificar na figura 5.1 o quanto de área da Curva de Gauss é compreendida em fun¸cão da quantidade de desvios padrões (σ) que se anda para direita e esquerda da média.

Isso ´e evidenciado porque ao escolher as Hip´otese Nula e Alternativa, dois tipos de erro podem acontecer:

• Erro do Tipo I: Quando a Hipótese Nula (H0) é rejeitada e a Alternativa é

verdadeira;

• Erro do Tipo II: Quando a Hipótese Nula (H0) não é rejeitada e a Alternativa é

falsa;

A tabela 5.1 mostra os Erros do Tipo I e II em conjunto da importância de uma boa escolha para o n´ıvel de confian¸ca e significância do seu teste. Ou seja, ao arbitrar esses intervalos, as probabilidades de se cometer um Erro do Tipo I ou II andam juntas, pois, escolher um n´ıvel de confian¸ca (γ), logo um n´ıvel de significância (α; γ = 1 − α), significa dizer que em α % das vezes a Hipótese Nula é rejeitada quando ela é verdadeira,

(35)

23

Tabela 5.1: Erros do Tipo I e II. Retirado de: [8] cometendo o Erro do Tipo I.

Para reduzir as chances de ocorrer um Erro do Tipo I, intuitivamente, reduz-se o n´ıvel de significância do teste (reduz α), porém, aumenta-se a probabilidade de ocorrência do Erro do Tipo II (β). Com base em [10], a potência estat´ıstica do teste é medida justamente quando se rejeita a Hipótese Nula e ela é de fato falsa (1-β).

Como falado anteriormente, as escolhas dos n´ıveis de confian¸ca e significância do seu teste servem para dar coerência nos seus resultados, justamente porque a significância serve para ”punir” o tamanho da sua amostra em rela¸cão a popula¸cão para inferir qualquer coisa. Geralmente utilizam-se n´ıveis de confian¸ca de 99,9%, 99%, 95,5% e 95%, com n´ıveis de significância de 0,1%, 1%, 0,5% e 5%, respectivamente, porém para cada caso é necessário ser justo na escolha. Em outras palavras, deseja-se testar uma hipótese colhendo uma amostra bem pequena de uma popula¸cão enorme, ou seja, é preciso aumentar o n´ıvel de significância do teste, punindo mais o mesmo, o que se traduz em aumentar o tamanho das caudas da distribui¸cão, fazendo com que exista uma chance maior de rejeitar a hipótese nula quando ela é verdadeira (Erro do Tipo I) visto que a representa¸cão da sua popula¸cão é dada por uma amostra bem reduzida. Essa puni¸cão oferece coerência na aplica¸cão do teste. Uma amostra pequena representando um universo enorme de dados pode determinar significância estat´ıstica ao ser testada, mesmo que no restante dos dados não coletados pela amostra não ocorra essa significância. Dito isso, é razoável admitir que a chance de concluir algo errado no teste é maior, dado que a amostra retirada e testada representa bem pouco do universo de dados.

Por fim, para a tomada de decisão é sustentada por um número chamado p-valor ou valor p. Esse é o menor valor com que se pode rejeitar a Hipótese Nula (H0) dado o

(36)

24

5.1.3 Teste T de Student

´

E necessário comentar brevemente sobre a distribui¸cão probabil´ıstica utilizada na aplica-¸cão que será apresentada, que é a T de Student.

A distribui¸cão mencionada foi elaborada por um cientista da cervejaria Guinness, corpora¸cão que não permitia a publica¸cão de nenhum trabalho cient´ıfico com seu nome verdadeiro. Sendo assim, William Sealy Gosset, autor da distribui¸cão de probabilidades t de Student, colocou seu pseudônimo de Student.

A distribui¸cão t é simétrica e companiforme (forma de sino), muito parecida com a distribui¸cão Normal, porém com caldas mais largas, e com dado chamado graus de liberdade (degrees of freedom). Matematicamente, o grau de liberdade é a dimensão da amostra, número de determina¸cões independentes, menos o número de parâmetros estat´ıs-ticos avaliados em uma popula¸cão. Contextualizando, os graus de liberdade representam a quantidade de dados que se pode gastar em uma análise. Por exemplo, ao aumentar o tamanho da amostra, obtém-se mais informa¸cões sobre a popula¸cão, logo, ocorre um aumento dos graus de liberdade. Por outro lado, ao adicionar parâmetros em um determi-nado modelo em questão (aumentando o número de termos da regressão), maior o gasto de informa¸cão dos dados, logo, ocorre uma diminui¸cão dos graus de liberdade. Quando maior esse número de graus de liberdade, mais próxima a distribui¸cão t de Student fica da Normal.

Dito isso, o Teste T é um teste de Hipóteses com uma distribui¸cão de probabilidades que segue a distribui¸cão t de Student. Esse teste é utilizado quando o tamanho da amostra é menor ou igual a 30 dados coletados e se desconhece a variância populacional (do universo estudado), permitindo utilizar a variância amostral (da fra¸cão utilizada para representar o universo).

Quando se trata das Distribui¸cões Normal (Z) e T de Student, esses valores são mapeados em tabelas, economizando o tempo de cálculo. O p-valor é fun¸cão do n´ıvel de significância arbitrado para o seu teste e do grau de liberdade da sua amostra. Tendo isso, é poss´ıvel chegar ao seu p-valor olhando a tabela 5.2.

(37)

25

Tabela 5.2: Tabela T de Student. Retirada de: [9]

A tabela 5.2 mostra a Tabela T de Student. Por coluna se diferem os n´ıveis de significância e por linha os graus de liberdade. A interseçcão dos dois é o p-valor.

Cada Teste T ´e designado para um problema e podem ser separados da seguinte forma:

• Testes que comparam a m´edia de uma amostra;

• Testes que comparam a média de duas amostras de tamanhos iguais; • Testes que comparam amostras de tamanhos diferentes e variâncias iguais; • Testes que comparam amostras de tamanhos diferentes e variâncias também

(38)

26 diferentes.

Na aplica¸cão da se¸cão 6.2 foi implementado o teste para compara¸cão de duas amostras de tamanhos e variâncias diferentes.

Para o Teste T de compara¸cão de duas amostras com tamanho e variâncias dife-rentes, temos as seguintes expressões:

t = x1− x2 Sx1−x2

(5.1) , para o valor do Teste, em que:

S x1−x2= r s12 n1+s22n2 (5.2) Para o c´alculo de graus de liberdade, temos a Equa¸c˜ao de Welch-Satterthwaite

Df = s12 n1 + s22 n2 ((s1)2 n1 )2 (n1−1) + ((s2)2 n2 )2 (n2−1) (5.3)

Um Teste de Hipóteses apresenta um passo-a-passo da seguinte forma: 1. Defini¸cão da hipótese nula a ser testada contra a hipótese alternativa; 2. Cálculo da estat´ıstica do teste;

3. Compara¸cão com o valor cr´ıtico (de acordo com o n´ıvel de confian¸ca do teste) ou cálculo do p-valor associado, segundo a distribui¸cão probabil´ıstica que a estat´ıstica segue;

4. Conclus˜ao do Teste:

- N˜ao rejeitar H0: a amostra n˜ao fornece ind´ıcios de que H0 seja falsa, ou

- Rejeitar H0: a amostra fornece ind´ıcios de que H0 seja falsa.

Uma aplica¸c˜ao dessa ferramenta ´e, por exemplo, o teste do Efeito Segunda-Feira sobre o IBOVESPA.

5.1.4 Teste do Efeito Segunda-feira

O efeito segunda-feira tenta mostrar uma anomalia nas opera¸cões diárias, enfatizando que na segunda-feira as opera¸cões não apresentam bons resultados. Um estudo feito nos anos 70 e 80 mostra que os retornos nas segundas-feiras são, na média, menores que os retornos nos outros dias.

(39)

27 O IBOVESPA é uma carteira composta pelas a¸cões com maior volume negociado na Bolsa de Valores (B3), servindo de indicador para aqueles que querem ter uma exposi¸cão as a¸cões (ter seu dinheiro investido nessa classe), por exemplo.

Dito isto, o Teste de Hip´oteses pode ajudar a concluir se o IBOVESPA, nos ´ultimos 5 anos, sofreu desse efeito, da seguinte forma:

- Através de uma regressão linear simples, estabelecemos a rela¸cão entre retorno e ´ındice IBOVESPA:

Ri,t = αi+ βi∗ IBOVi,t+ Et (5.4)

Em que Et ´e o erro associado. αi ´e o coeficiente linear e βi o coeficiente angular.

IBOVi,t representa os retornos do ´ındice de a¸c˜oes IBOVESPA. Sendo assim, αi + βi ∗

IBOVi,t é a sensitividade. Essa regressão linear é conhecida no mercado como Modelo

CAPM (Capital Asset Price Model ).

- Buscar o ´ındice IBOVESPA histórico nos últimos 5 anos, das segunda-feiras e o dos outros dias, e fazer as compara¸cões nesse cenário.

- H0: retorno depende da segunda-feira

- H1: retorno n˜ao depende da segunda-feira

- Achando o p-valor, que ´e o menor n´ıvel de significˆancia para o qual H0pode ainda

ser rejeitado, ´e poss´ıvel concluir sobre o problema.

- Se o valor do teste for maior que o p-valor, n˜ao se deve rejeitar H0, ou seja, pode

ser que o IBOVESPA sofra do efeito segunda feira.

A implementa¸c˜ao desse teste pode ser verificada no cap´ıtulo 6.

5.2 Filtro de Wiener

Para a última técnica apresentada neste documento, será necessário o envolvimento com o universo da estat´ıstica em conjunto com o de processamento digital de sinais. A técnica de filtragem de Wiener busca fazer a estima¸cão e previsão de sinais, podendo traduzir este ´

ultimo como série temporal, através dos cálculos de erro por MSE (Mean Square Error -Erro Quadrático Médio) e utilizando um ponto dessa curva, o MMSE (Minimum Mean Square Error - Erro Quadrático Médio M´ınimo).

(40)

28 Para essa aplica¸c˜ao, ser´a implementado um filtro causal, que requer dados passados, necessitando uma amostra grande desses dados.

O Filtro de Wiener busca estimar o erro através de um modelo utilizado. Em outras palavras, por se tratar de um estudo de séries temporais, o objetivo é achar rela¸cão entre dados de uma amostra, ou seja, significa dizer que para um dado valor de uma amostra, esse valor tem rela¸cão com n dados anteriores da amostra, ponderado por pesos diferentes, e é da´ı que surge o modelo. Pode-se utilizar uma rela¸cão de uma, ou duas, três ou n variáveis passadas apenas para descrever qual a rela¸cão de dependência entre as variáveis utilizadas em um determinado modelo. Por fim, chega-se ao ru´ıdo de modelagem, que pode ser apresentado como o quanto a série diverge do modelo em vigor suposto.

A modelagem do Filtro de Wiener pode ser pensada de diversas formas. A escolhida para esse estudo foi a partir da estima¸c˜ao do erro.

Figura 5.2: Diagrama de blocos da estima¸c˜ao de Wiener. Retirada de: [7]

A figura 5.2 exemplifica a modelagem abordada, em que os sinais s e w representam partes do mesmo sinal. O sinal s é caracterizado como o valor presente de uma dado da amostra. Já w é explicado como uma ”janela” do sinal, ou seja, é uma parcela do sinal atrasada em rela¸cão a s, que irá se mover a medida que o dado s[n] varia.

A sa´ıda do filtro x[n] ´e descrita como:

x[n] =

N

X

i=0

aiw[n − i] (5.5)

A figura 5.3 mostra um determinado sinal amostrado, evidenciando o valor presente de s[n] e a janela de quatro dados anteriores, descrevendo w[n]. Ou seja, para esse modelo, por exemplo, o dado atual depende de quatro dados passados. Dito isso, cabe ao filtro de Wiener agora achar a melhor solu¸cão via MSE a fim de se obter os melhores pesos de ai para descrever essa rela¸cão, que é justamente o sinal x[n], visto que este último atribui

pesos para cada dado de w[n]. Sendo assim, movendo a janela w[n], ´e poss´ıvel prever valores para determinados s[n].

(41)

29

Figura 5.3: Demonstra¸c˜ao dos sinais s e w.

A demonstra¸cão matemática foi realizada com embasamento em alguns tópicos abordados no livro Probability, Random Variables, and Stochastic Process, do Athanasios Papoulis [11].

Dito isso, para se estimar o erro, basta subtrair o sinal x[n] do sinal s[n], realizando os passos exibidos a seguir:

e[n] = x[n] − s[n] (5.6) ´

E preciso saber o MSE, logo, basta aplicarmos a esperan¸ca de e[n] ao quadrado:

E[e2[n]] = E[(x[n] − s[n])2] (5.7) Ao abrir x[n] como o somat´orio em fun¸c˜ao dos termos ai e o sinal w[n] deslocado,

é necessário realizar o produto notável e fazer as arruma¸cões precisas:

E[e2[n]] = E[(x2[n] − 2x[n]s[n] + s2[n])] E[e2[n]] = E[(( N X i=0 aiw[n − i]) 2 − 2 N X i=0 aiw[n − i]s[n] + s2[n])] (5.8)

Para chegar no MMSE basta fazer a derivada parcial em rela¸c˜ao a ai e igualar a

(42)

30 ∂E[e2[n]] ∂ai = E[(2( N X i=0 aiw[n − i])( N X j=0 w[n − j]) − 2 N X j=0 w[n − j]s[n])] 0 = E[2( N X j=0

ajw[n − j]w[n − i])] − 2E[w[n − i]s[n]] N

X

j=0

ajE[w[n − j]w[n − i]] = E[w[n − i]s[n]]

(5.9)

Feito isso, chega-se na auto-correla¸c˜ao de w e de w com s, podendo ser reescrito da forma:

N

X

j=0

ajRw[j − i] = Rws[i] (5.10)

Essa rela¸c˜ao vale para qualquer i = 0,...,N.

Sabendo que, para uma amostra de tamanho N, ou seja, tamanho da janela w[n]:

Rw[k] = 1 N N −1 X n=0 w[n]w[n − k] (5.11) Rsw[k] = 1 N N −1 X n=0 s[n]w[n − k] (5.12) A equa¸cão (5.10) é a solu¸cão final do filtro de Wiener, ou seja, a solu¸cão busca achar os melhores pesos de forma a se obter o menor erro quadrático médio para um dado modelo de dependência entre dados de amostra.

(43)

Cap´ıtulo 6

Aplica¸

c˜

oes e resultados

Este cap´ıtulo mostrará as aplica¸cões de RNA’s na tentativa de previsão de pre¸cos no mercado financeiro em linguagem Python e seus resultados, assim como a implementa¸cão do teste T de Student também na linguagem Python e seus resultados. Nesta etapa será poss´ıvel verificar como foi montado e executado cada código e o que se pode avaliar em cada resultado obtido.

6.1 Aplica¸

c˜

ao da RNA no Python

Para mostrar o funcionamento de uma RNA na sua forma mais genu´ına, ou seja, na programa¸cão computacional, foi desenvolvido um código na linguagem Python para tentar prever uma tendência de alta ou queda de pre¸cos da a¸cão PETR4 (a¸cão preferencial da empresa Petrobras).

Basicamente, o c´odigo engloba quatro etapas:

• Forma¸cão e tratamento do banco de dados: onde será feito o featuring, que é basicamente a adequa¸cão do histórico de datas para a rede;

• Processamento dos dados: onde os dados se tornam utiliz´aveis;

• Implementa¸cão de modelo: onde serão escolhidos os parâmetros e o tipo de RNA a ser utilizada;

• Otimiza¸cão: ajuste fino para obter melhores resultados de perda e acurácia. O código implementado foi inspirado no código de [12], e todas as adequa¸cões e resultados do código serão explicitadas a seguir.

Foi utilizado o terminal Bloomberg para formar o banco de dados da RNA. Com

(44)

32 a fun¸c˜ao do excel

BDH=BDH(”PETR4 BZ Equity”, ”px last”;”02/01/2014”;”28/12/2018”) (6.1) foi poss´ıvel importar todos os pre¸cos de fechamento diários de PETR4 desde 02/01/2014 até 28/12/2018. Feito isso, um conversor de arquivo .xlsx (excel) para .csv (Comma separated-values) foi utilizado simplesmente para poder aproveitar a parcela do código do autor Vivek [12] de leitura de arquivo.

No Python, foi preciso importar as seguintes packages: • tensorflow: para especificar a arquitetura da RNA; • Pandas: para ler o arquivo em csv;

• DataProcessing: classe criada para o featuring do modelo para fazer treino e teste. O código cria uma maneira de estabelecer uma rela¸cão temporal somente com os pre¸cos, sem precisar passar para a rede as datas. Ou seja, o dia, o mês ou o ano em que aconteceu tal pre¸co não interessa para a rede, e sim em qual sequência;

• Sklearn: utilizado apenas para normaliza¸c˜ao dos dados de entrada para treino e teste. i m p o r t p a n d a s as pd i m p o r t n u m p y as np i m p o r t t e n s o r f l o w as tf fr om p r e p r o c e s s i n g i m p o r t D a t a P r o c e s s i n g fr om s k l e a r n . p r e p r o c e s s i n g i m p o r t S t a n d a r d S c a l e r

A classe DataProcessing possui três fun¸cões, uma que cria os vetores vazios e inclui dado à medida que as variáveis são chamadas, se caracterizando como uma fun¸cão de inicializa¸cão. Uma fun¸cão de treino e outra de teste, ambas com os parâmetros de tamanho de janelas (quantidade de pre¸cos anteriores) que precisam ser observadas. Nesse caso, a rede olha para os 10 pre¸cos anteriores para achar rela¸cão de dependência para o pre¸co atual.

Quando as fun¸cões de treino e teste são chamadas, o programa cria colunas e as separa em blocos de 10 pre¸cos para procurar as rela¸cões de dependência, criando então quatro outputs de variáveis: Xtrain, Y train, Xtest e Y test, que serão comentadas mais a frente.

(45)

33

c l a s s D a t a P r o c e s s i n g:

def _ i n i t _ ( self , file, t r a i n ):

se lf .fi le = pd . r e a d _ c s v (file, sep=’ ; ’) se lf . t r a i n = t r a i n

se lf . i = int( s elf . t r a i n * len( se lf .f ile) ) se lf . s t o c k _ t r a i n = sel f .fil e [0: se lf . i]

se lf . s t o c k _ t e s t = s elf .f ile [s elf . i: ]

se lf . i n p u t _ t r a i n = [ ]

se lf . o u t p u t _ t r a i n = [ ]

se lf . i n p u t _ t e s t = [ ]

se lf . o u t p u t _ t e s t = [ ] def g e n _ t r a i n ( self , s e q _ l e n ):

for i in r a n g e((len( s elf . s t o c k _ t r a i n )//s e q _ l e n )*s e q _ l e n

-s e q _ l e n - 1 ): x = np .a r r a y( se lf . s t o c k _ t r a i n . ilo c[i: i + seq_len , 0]) y = np .a r r a y([s elf . s t o c k _ t r a i n . i loc[i + s e q _ l e n + 1 , 0] ] , np . f l o a t 6 4 ) se lf . i n p u t _ t r a i n .a p p e n d( x ) se lf . o u t p u t _ t r a i n .a p p e n d( y ) se lf . X _ t r a i n = np .a r r a y( sel f . i n p u t _ t r a i n ) se lf . Y _ t r a i n = np .a r r a y( sel f . o u t p u t _ t r a i n ) def g e n _ t e s t ( self , s e q _ l e n ):

for i in r a n g e((len( s elf . s t o c k _ t e s t )//s e q _ l e n )*s e q _ l e n

-s e q _ l e n - 1 ): x = np .a r r a y( se lf . s t o c k _ t e s t . i loc[i: i + seq_len , 0]) y = np .a r r a y([s elf . s t o c k _ t e s t . ilo c[i + s e q _ l e n + 1 , 0] ], np . f l o a t 6 4 ) se lf . i n p u t _ t e s t .a p p e n d( x ) se lf . o u t p u t _ t e s t .a p p e n d( y ) se lf . X _ t e s t = np .a r r a y( s elf . i n p u t _ t e s t ) se lf . Y _ t e s t = np .a r r a y( s elf . o u t p u t _ t e s t )

No c´odigo principal as fun¸c˜oes come¸cam a ser chamadas conforme abaixo:

dfp = D a t a P r o c e s s i n g (" P E T R 4 - 2 014 - 2 018 . csv ", 0 . 9 ) dfp . g e n _ t r a i n ( 10 ) X _ t r a i n = dfp . X _ t r a i n .r e s h a p e(( 1099 , 10 , 1 ) ) s c a l e r = S t a n d a r d S c a l e r () s c a l e d _ X _ t r a i n = s c a l e r . f i t _ t r a n s f o r m ( dfp . X _ t r a i n ) Y _ t r a i n = p r o c e s s . Y _ t r a i n dfp . g e n _ t e s t ( 10 ) X _ t e s t = dfp . X _ t e s t .r e s h a p e( 109 , 10 , 1 ) s c a l e r = S t a n d a r d S c a l e r () s c a l e d _ X _ t e s t = s c a l e r . f i t _ t r a n s f o r m ( dfp . X _ t e s t ) Y _ t e s t = dfp . Y _ t e s t

A variável dfp recebe a classe DataProcessing passando como parâmetro o arquivo a ser lido, com os pre¸cos da a¸cão preferencial da Petrobras, e qual a parcela da amostra que será utilizada para treino, no caso, 90%.

A variável Xtrain é definida como um conjunto de 10 pre¸cos dentro dos 90% do tamanho da amostra passados para a fun¸cão de treino. A variável Ytrain nasce para come¸car a fazer os testes de previsão, estabelecendo um par (Xtrain, Ytrain), de forma que para cada 10 pre¸cos de input (Xtrain) tem-se um output do treino (Ytrain).

(46)

Poste-34 riormente, as variáveis Xtest e Ytest testam o modelo com os 10% da amostra restante para valida¸cão. Essas quatro variáveis aparecem neste último bloco do código de forma normalizada, apenas introduzindo uma dimensão a mais na mesma para poder ser lida pelo tensorflow.

Porém, até então nenhum modelo foi especificado, criado, testado e nem validado. A seguir observa-se a rede LSTM com 20 neurônios e uma hidden layer. A rede é então alimentada com os blocos de 10 pre¸cos e utiliza fun¸cão de ativa¸cão ReLU.

m o d e l = tf . k e r a s . S e q u e n t i a l ()

m o d e l . add ( tf . k e r a s . l a y e r s . LS TM ( 20 , i n p u t _ s h a p e=( 10 , 1 ) , r e t u r n _ s e q u e n c e s

= Tr ue) ) m o d e l . add ( tf . k e r a s . l a y e r s . LS TM ( 20 ) )

m o d e l . add ( tf . k e r a s . l a y e r s . D e n s e ( 1 , a c t i v a t i o n=tf . nn . rel u ) )

Por fim, a fun¸cão model.compile cria de fato o modelo de rede, a fun¸cão model.fit treina a rede e a fun¸cão model.evaluate valida o modelo.

A fun¸cão model.predict realiza a previsão da rede. Como a amostra vai até o final de 2018, primeiramente foi feita uma espécie de valida¸cão da previsão da rede passando um vetor de 10 pre¸cos que a rede já viu e já treinou anteriormente, para prever um que a mesma também já viu. Posteriormente, foi realizado o teste real, passando 10 pre¸cos nunca vistos para prever de fato qual seria o próximo pre¸co. Essas apura¸cões serão mos-tradas nos resultados.

m o d e l .c o m p i l e( o p t i m i z e r=" ada m ", los s=" m e a n _ s q u a r e d _ e r r o r ", m e t r i c s= [’ a c c u r a c y ’])

m o d e l . fit ( s c a l e d _ X _ t r a i n , Y_train , e p o c h s=100 ) m o d e l . p r e d i c t ( X _ t r a i n[7].r e s h a p e( 1 , 10 , 1 ) )

6.1.1 Resultado da Rede Neural

Após experimentar a rede diversas vezes, alguns parâmetros foram testados com o intuito de ajustar a previsão para melhores resultados, como fun¸cão de ativa¸cão, alternando entre Sigmoid, fun¸cão que assume valores entre 0 e 1 e que possui dificuldades no treinamento (devido a satura¸cão da sua derivada, fazendo com que os valores tendam a zero fora de um limiar) e Tangente Hiperbólica, fun¸cão que assume valores entre -1 e 1, até chegar no melhor resultado com a ReLU. Outro parâmetro variado ao longo do experimento foi o número de épocas, concluindo que o número de 100 epochs realizou uma boa previsão,

(47)

35 que será mostrada em breve. A normaliza¸cão dos vetores X train e X test foi o destaque para o bom desempenho da rede, considerando que não é uma rede sofisticada, ou seja, com muitos ajustes finos. Essa normaliza¸cão é realizada subtraindo a média da amostra de cada valor e dividindo sobre o desvio padrão da amostra.

Figura 6.1: Treino da rede.

Na figura 6.1 é poss´ıvel verificar a rede treinando, mostrando a perda (loss) dimi-nuindo à medida que as épocas passam.

(48)

36 A figura 6.2 mostra a primeira previsão, que serviu como valida¸cão da rede. Foram passados 10 pre¸cos já utilizados pela rede esperando que ela fosse prever o próximo pre¸co de forma exata. Todas essas rela¸cões de dependência a rede já havia treinado.

Por fim, foram utilizados 10 pre¸cos sequenciais de PETR4 do mês de mar¸co de 2019, que a rede nunca tinha visto. O próximo pre¸co que ela deveria prever era R$ 28,94, e dado que é uma rede sem muita robustez, a previsão foi a melhor dentro dos experimentos testados.

Figura 6.3: Rede prevendo com dados nunca vistos.

A figura 6.3 mostra o vetor dos 10 pre¸cos nunca vistos pela rede sendo passados como input. A rede conseguiu prever R$ 21,54, errando por R$ 7,40 os R$ 28,94 esperados. O erro representa aproximadamente 25% do valor da a¸c˜ao. Isso pode ser melhorado.

6.2 Aplica¸

c˜

ao do Teste da Segunda-feira em Python

Para fins práticos, foi elaborado um algoritmo em Python para calcular o teste de Hi-póteses parecido com o descrito na se¸cão 5.1.4. Para não exigir muito processamento da máquina, ao invés de utilizar 5 anos de histórico de dados, foi utilizado o mês de Novembro de 2018, com elei¸cões definidas e o mercado já otimista com o resultado. Vale mencionar que com uma amostra tão grande como a de 5 anos, a probabilidade de encontrar uma significância estat´ıstica é menor do que com a de um mês apenas.

O procedimento utilizado foi coletar os dados históricos do mês de Novembro de 2018 com os fechamentos diários dos pre¸cos do Ibovespa nas segundas-feiras e nos outros dias da semana, exceto segunda-feira, para testar se existem os efeitos de pouca negocia¸cão no primeiro dia útil da semana.

Com a ajuda do terminal Bloomberg, foi poss´ıvel utilizar a fun¸c˜ao do excel mos-trada pela equa¸c˜ao 6.2 para fazer dois arquivos com esses pre¸cos: um arquivo com os

(49)

37 fechamentos de pre¸co das segundas-feiras e outro dos demais dias.

BDH=BDH(”IBOV Index”, ”px last”;”01/11/2018”;”30/11/2018”) (6.2)

Figura 6.4: Ibovespa de Novembro de 2018.

A figura 6.4 mostra o hist´orico de pre¸cos do ´ındice Ibovespa ao longo do mˆes de Novembro de 2018.

No Python foi feito o código do Teste T, que lê como input os arquivos em excel e os compara a fim de tomar a decisão de rejeitar ou não a hipótese nula (H0: não existe o

efeito segunda-feira).

Para a montagem do código, foi necessário instalar os seguintes módulos: • statistics: para os cálculos de média e desvio padrão;

• math: para efetuar as ra´ızes quadradas;

• openpyxl: para o c´odigo fazer a leitura do arquivo em excel.

O código foi dividido em duas fun¸cões, realizando uma programa¸cão segmentada. A primeira fun¸cão, denominada TesteT, recebe os dois vetores, lidos pela segunda fun¸cão retrieve values, que recebe o arquivo em excel a ser lido e a janela de células que possuem as informa¸cões necessárias. A fun¸cão TesteT realiza o Teste T de Student descrito acima, levando em considera¸cão os cuidados em rela¸cão ao tamanho da amostra e as variâncias.

(50)

38 Abaixo ´e apresentado o c´odigo em Python:

i m p o r t s t a t i s t i c s , mat h

i m p o r t o p e n p y x l

def T e s t e T ( vec1 , v ec2 ):

r1=len( ve c1 ) s1=s t a t i s t i c s . s t d e v ( ve c1 ) m1= s t a t i s t i c s .me an( ve c1 ) r2=len( ve c2 ) s2=s t a t i s t i c s . s t d e v ( ve c2 ) m2= s t a t i s t i c s .me an( ve c2 ) d e n o m i n a d o r = m ath .s qrt((( s1**2 )/r1 )+(( s2**2 )/r2 ) ) n u m e r a d o r = m1 - m2 d f n u m e r a d o r = ( ((( s1**2 )/r1 )+(( s2**2 )/r2 ) )**2 ) d f d e n o m i n a d o r = (( (( s1**2 )/r1 )**2 )/( r1-1 ) )+(( (( s2**2 )/r2 )**2 )/( r2-1 ) ) t = n u m e r a d o r/d e n o m i n a d o r df = d f n u m e r a d o r/d f d e n o m i n a d o r r e t u r n [ t , df] def r e t r i e v e _ v a l u e s ( w o r k b o o k _ n a m e , c e l l _ r a n g e ): w o r k b o o k = o p e n p y x l . l o a d _ w o r k b o o k ( w o r k b o o k _ n a m e , d a t a _ o n l y= Tru e) w o r k s h e e t = w o r k b o o k[" P l a n i l h a 1 "] t e m p _ v e c t o r = w o r k s h e e t[c e l l _ r a n g e] v e c t o r= [ ] for li ne in t e m p _ v e c t o r: v e c t o r .a p p e n d( lin e[1]. v a l u e ) r e t u r n v e c t o r v e c t o r S e g u n d a s = r e t r i e v e _ v a l u e s (’ TCC - I B O V S e g N o v 2 0 1 8 . x lsx ’, " A7 : B10 ") v e c t o r E x S e g u n d a s = r e t r i e v e _ v a l u e s (’ TCC - I B O V e x S e g N o v 2 0 1 8 . xl sx ’, " A7 : B21 ") p r i n t( T e s t e T ( v e c t o r S e g u n d a s , v e c t o r E x S e g u n d a s ) )

Com esses parˆametros, a escolha do n´ıvel de confian¸ca do teste foi 90% (γ = 1 − α), com n´ıvel de significˆancia igual a 10%.

Os outputs do código são t, que é o valor do teste, e o df, que são os degrees of freedom ou grau de liberdade, explicado anteriormente. Os graus de liberdade não interferem na tomada de decisão.

Ao executar o código, será poss´ıvel saber se o efeito segunda-feira existe, para essa amostra de novembro. Basta verificar se a variável t é menor do que p-valor.

6.2.1 Resultado do Teste T

Em seguida temos os outputs do teste:

(51)

39

Figura 6.5: Resultado Teste T.

teste t e os graus de liberdade. Com 4 graus de liberdade (número inteiro mais próximo da sa´ıda do código, aproximadamente 4.1568) e 10% de significância, obtém-se um p-valor igual 2,1318. O resultado do teste foi, aproximadamente, - 0,2978.

Como valor do teste T é menor que o p-valor, é poss´ıvel rejeitar a Hipótese Nula com 90% de confian¸ca, mostrando que a amostra fornece ind´ıcios de que H0 seja falsa.

Em outras palavras, inferimos que o ´ındice Ibovespa n˜ao sofre do Efeito Segunda-Feira dada a amostra teste do mˆes de Novembro.

6.3 Aplica¸

c˜

ao do Filtro de Wiener

A aplica¸cão do Filtro de Wiener que será apresentada é voltada para a previsão de pre¸co da Petrobras.

Para a utiliza¸cão do filtro na maneira que foi descrito na se¸cão 5.2, é necessário assumir uma série temporal estacionária. Porém, a série histórica de pre¸cos não é estacio-nária, e para isso, foi necessário realizar o processo de Primeira Diferen¸ca, conhecido como First Difference, de primeira ordem. Esse processo consiste em subtrair um valor do seu anterior. A não estacionariedade da série foi observada utilizando o software estat´ıstico EVIEWS, que realiza o teste Dickey-Fuller. O processo de Primeira Diferen¸ca também foi feito no software.

Esse teste foi utilizado somente para a comprova¸cão da estacionariedade da série e não será explicado a fundo neste documento, mas, basicamente, o teste busca rejeitar a hipótese nula em que a série tenha uma raiz unitária, o que faz dela uma série não estacionária.

Dito isso, através de um arquivo em excel com pre¸cos de PETR4, o EVIEWS realizou a Primeira Diferen¸ca e comprovou a estacionariedade da série, permitindo a utiliza¸cão da mesma para o filtro.