Modelo para predição dos ativos totais de uma cooperativa de crédito baseado em redes long short-term memory (LSTM)

(1)

(2)

(3)

MODELO PARA PREDIÇÃO DOS ATIVOS TOTAIS DE UMA COOPERATIVA DE CRÉDITO BASEADO EM REDES LONG SHORT-TERM MEMORY (LSTM)

Trabalho de conclusão de curso apresentado como requi-sito para obtenção do grau de Bacharel em Ciência da Computação da Universidade Federal da Fronteira Sul. Orientador: Prof. Me. Adriano Sanick Padilha

CHAPECÓ 2019

(4)

(5)

Prever tendências ou informações futuras vem tendo cada vez mais importância com o desen-volvimento das comunidades nas quais vivemos. Os Ativos Totais de uma instituição financeira tradicional ou cooperativa, são formados e influenciados por variados números ou índices, que por sua vez também são influenciados por outros fatores. A complexidade de se entender a tendência de crescimento do valor dos Ativos Totais mediante à todas essas influências cria uma oportunidade para a aplicação de modelos preditivos baseados em Redes Neurais Artificiais bus-carem resultados mais precisos. Com este objetivo, foi projetado um modelo preditivo baseado em Redes Neurais Artificias Long Short-Term Memory (LSTM) para a predição do valor futuro dos Ativos Totais de uma Cooperativa de Crédito. Este modelo preditivo foi treinado a partir de dados reais fornecidos por uma Cooperativa de Crédito. Para a produção dos resultados, foram utilizadas duas amostras da mesma Base de Dados fornecida, uma amostra com a base de dados completa e a outra com a base de dados reduzidas, com menos informações. Os resultados obtidos mostraram-se positivos, em que as predições alcançaram valores próximos aos valores reais. Também foi realizada uma comparação entre os resultados das duas amostras da Base de Dados, com o intuito de entender a importância das informações removidas da base original. Palavras-chave: Ativos Totais. Redes de Aprendizado Profundo. Redes Neurais Artificiais. Redes Neurais Recorrentes. Redes Long Short-Term Memory.

(6)

(7)

Predict trends or future informations were being even more important to the development of the communities that we live. The total assets from a traditional financial institution or a credit union are composed and influenced by various numbers and indexes, that by your time are also influenced by other factores. The complexity to understand the growth trend of the total assets through all those influences create an opportunity to apply predict models based on Artificial Neural Networks to look for precisely results. With this goal, a predict model was projected based on Artificial Neural Networks Long Short-Term Memory (LSTM) to predict the future value of the total assets from a credit union. The predict model was trained from real data provided by a Credit Union. For the production of the experimental results, two samples of the same database were used, having as difference the reduction of 8 indexes in the second sample. The obtained results were positive, reaching values very close to the real ones. A comparison was also made between the results of the two samples of the database, with the goal to understand the importance of the indexes that have been reduced in the second sample.

Keywords: Total Assets, Deep Learning, Artiﬁcial Neural Networks, Recurrent Neural Net-works, Long Short-Term Memory

(8)

(9)

Figura 1 – Modelo de um neurônio biológico . . . 15

Figura 2 – Modelo de um neurônio artiﬁcial (HAYKIN, 2007) . . . 16

Figura 3 – Rede MLP com múltiplas camadas ocultas (MEDEIROS et al., 2019) . . . . 17

Figura 4 – Etapa de forward . . . . 20

Figura 5 – Backpropagation . . . . 21

Figura 6 – Rede neural recorrente desenrolada(OLAH, 2015) . . . 23

Figura 7 – Módulo repetição RNN (OLAH, 2015) . . . 24

Figura 8 – Módulo repetição Redes LSTM (OLAH, 2015) . . . 24

Figura 9 – Avaliação Resultados (NELSON, 2017) . . . 29

Figura 10 – Resultados (LIMA, 2014) . . . 30

Figura 11 – Resultados (OLIVEIRA et al., 2018) . . . 31

Figura 12 – Bibliotecas utilizadas . . . 33

Figura 13 – Amostra dos dados . . . 34

Figura 14 – Fluxograma das Etapas do Desenvolvimento . . . 34

Figura 15 – Fluxograma de Deﬁnição das Técnicas e Estruturação do Modelo Preditivo . 35 Figura 16 – Fluxograma do Tratamento da Base de Dados . . . 36

Figura 17 – Amostra de coluna com dados faltantes . . . 37

Figura 18 – Fluxograma da Construção da RNA . . . 38

Figura 19 – Fluxograma do Treinamento da RNA . . . 39

Figura 20 – Fluxograma do Desenvolvimento . . . 41

Figura 21 – Estrutura do Modelo Preditivo . . . 43

Figura 22 – Gráﬁco de Evolução do Erro - Treinamento . . . 44

Figura 23 – Gráﬁco de Evolução do Erro - Treinamento Alterado . . . 45

Figura 24 – Gráﬁcos dos Resultados e Erros da Predição . . . 46

Figura 25 – Gráﬁcos dos Resultados Preditivos - Comparativo das Amostras 1 e 2 . . . . 47

(10)

(11)

1 INTRODUÇÃO . . . . 11

2 REVISÃO BIBLIOGRÁFICA . . . . 15

2.1 REDES NEURAIS ARTIFICIAIS (RNA) . . . 15

2.1.1 Funções de Ativação . . . . 16

2.1.2 Redes Neurais de Múltiplas Camadas . . . . 17

2.1.3 Modelos de treinamento . . . . 18

2.1.4 Algoritmo de Aprendizado Backpropagation . . . . 18

2.1.5 Redes de Aprendizado Profundo . . . . 21

2.1.6 Redes Neurais Artificiais em Predições . . . . 22

2.1.7 Redes Neurais Recorrentes (RNN) . . . . 22

2.1.8 Redes Long Short-Term Memory (LSTM) . . . . 23

2.1.9 Técnicas para melhorar o Aprendizado . . . . 25

2.2 BIBLIOTECAS . . . 26

3 TRABALHOS RELACIONADOS . . . . 29

3.1 USO DE REDES NEURAIS RECORRENTES PARA PREVISÃO DE SÉ-RIES TEMPORAIS FINANCEIRAS . . . 29

3.2 ANÁLISE COMPARATIVA DE PREVISÃO POR MEIO DE MODELOS ECONOMÉTRICOS E REDES NEURAIS . . . 30

3.3 PREDIÇÃO DE SÉRIES TEMPORAIS EM INTERNET DAS COISAS COM REDES NEURAIS RECORRENTES . . . 31

4 DESENVOLVIMENTO . . . . 33

4.1 DEFINIÇÃO DAS TÉCNICAS E ESTRUTURAÇÃO DO MODELO PRE-DITIVO . . . 35

4.2 TRATAMENTO DA BASE DE DADOS . . . 36

4.3 CONSTRUÇÃO DA REDE NEURAL ARTIFICIAL . . . 37

4.4 TREINAMENTO DA REDE NEURAL ARTIFICIAL . . . 39

5 RESULTADOS . . . . 43

5.1 EVOLUÇÃO DOS ERROS DO TREINAMENTO . . . 44

5.2 ERROS DA PREDIÇÃO E RESULTADOS GRÁFICOS . . . 45

5.3 COMPARAÇÕES ENTRE AS BASES DE DADOS . . . 46

6 CONCLUSÃO . . . . 49

7 TRABALHOS FUTUROS . . . . 51

(12)

(13)

1 INTRODUÇÃO

As instituições ﬁnanceiras já passaram por grandes evoluções ao decorrer do tempo. Em sua criação tratavam-se de locais seguros para guardar seu dinheiro, tendo poucas ou nenhuma opção além desta. Hoje, com o desenvolvimento das sociedades e de novas necessidades, as instituições ﬁnanceiras vão além de seu propósito inicial de serem locais seguros, sendo grandes facilitadoras na realização de atividades cotidianas, como por exemplo, a transferência de valores e as cobranças. As instituições também oferecem variados produtos e serviços, como empréstimos, aplicações, cartões de crédito e débito, consórcios, seguros, previdências e variados outros.

Existem dois tipos de instituições ﬁnanceiras, as tradicionais, popularmente chamadas de bancos, e as cooperativas, que podem ser instituições ﬁnanceiras cooperativas ou cooperativas de crédito. Onde ambos os dois tipos de cooperativas são regulamentados pela mesma legislação, possuindo as mesmas características e igual funcionamento (PINHEIRO, 2008).

O cooperativismo de crédito tem diferenças se comparado com as instituições ﬁnanceiras tradicionais, ou seja, os bancos. Em uma cooperativa, todos os seus associados são donos do negócio, portanto os associados tem votos de mesmo peso nas decisões da cooperativa, decisões essas que são realizadas através de assembleias (PINHEIRO, 2008). Já nos bancos, os acionistas são os responsáveis por tomar as decisões que envolvem a instituição, seus clientes não tem nenhum poder de decisão. Outro grande diferencial é que as cooperativas não vendem ações na Bolsa de Valores, ao contrário dos bancos, que tem inclusive, essas ações como o seu ativo mais importante.

As cooperativas de crédito, passam por um momento de grande expansão e ganho de mercado, de 2006 a 2016 tiveram um aumento de 711% nos seus ativos totais, passando de 26 bilhões de reais em 2006 para 211 bilhões de reais em 2016. Destaca-se também o crescimento de serviços como: operações de crédito, que obteve um crescimento de 715%, passando de 13 bilhões de reais em 2006 para 106 bilhões de reais em 2016; depósitos, com crescimento de 740%, passando de 15 bilhões de reais em 2006 para 126 bilhões de reais em 2016; e patrimônio líquido, com crescimento de 483%, passando de 6 bilhões de reais em 2006 para 35 bilhões de reais em 2016 (CENTRAL, 2016).

As cooperativas de crédito tiveram também um aumento de espaço dentro do mercado financeiro. De acordo com um estudo publicado pelo Banco Central do Brasil, (CENTRAL, 2018), nas contas pessoa jurídica, a porcentagem de ocupação do mercado financeiro nacional em 2005 era de menos de 1%, saltando para mais de 8% em 2017. Se for considerado somente a região Sul do país, região onde as cooperativas apresentam a maior participação de mercado, a porcentagem de ocupação do mercado financeiro nacional saltou de 2,1% em 2005 para 16,7% em 2017. Nessa mesma região as contas de pessoas física ocupavam 9,2% do mercado financeiro em 2005, passando para 15,3% em 2017.

(14)

12

e cooperativas de crédito, torna-se cada vez maior a quantidade de variáveis que formam o total de ativos dessas instituições. Dessa forma, torna-se também cada vez mais difícil encontrar o impacto de cada valor na composição dos ativos totais de uma instituição, principalmente quando é desejado saber o seu valor futuro.

Vários autores já elaboraram diferentes equações para o cálculo dos ativos totais ou da taxa de crescimento dos ativos totais, como por exemplo (XING, 2007), que determina o crescimento de ativos como uma taxa do crescimento da despesa de capital. Com base nas despesas de capital dos anos anteriores, (XING, 2007) extrai a taxa de variação entre elas e considera esse crescimento ou decrescimento como a possível variação para o valor dos ativos totais no futuro.

Outro forma de calcular o crescimento do ativo foi apresentada por (COOPER; GULEN; SCHILL, 2008), onde foi deﬁnido que o crescimento do ativo poderia ser medido através da variação percentual anual do ativo total da empresa. Nesse caso, a tendência que deﬁne o valor do ativo total futuro é a sua própria variação ao decorrer dos últimos anos.

Outros autores como (FAMA; FRENCH, 1993), (LYANDRES; SUN; L. ZHANG, 2007) e (POLK; SAPIENZA, 2008), também apresentaram diferentes equações para o cálculo da taxa de crescimento de ativos a partir de equações matemáticas. Tais equações são diferentes formas de se chegar ao valor mais próximo dos ativos totais, mas tratam-se de equações gerais, sendo aplicadas em inúmeras categorias diferentes de instituições, como por exemplo, empresas de transporte, alimentícias, financeiras, associações, cooperativas e muitas mais. A utilização dessas equações para o cálculo da taxa de crescimento de ativos pode trazer bons resultados em determinadas categorias de empresas ou instituições, mas dificilmente mostrarão resultados eficientes em todas elas.

Em um cenário como o do mercado de ações, onde ocorre a compra e venda de ativos de empresas, o resultado de uma predição do valor de um ativo é um fator determinante na decisão de uma compra ou venda de uma ação. Por isso, a exigência de que esta predição seja a mais próxima possível do valor futuro do ativo é de extrema importância, pois pode resultar em grandes perdas, caso o resultado seja distante do real, ou grandes ganhos, caso o mesmo seja assertivo. Nesse cenário, o que também pode ser realizado é uma predição dos ativos totais dessas empresas, como uma forma de analisar sua situação futura e também o possível retorno de suas ações no futuro (RIBEIRO, 2010).

Outro cenário está dentro das empresas, em momentos como os planejamentos estra-tégicos e ﬁnanceiros, em que uma estimativa do valor futuro dos ativos totais e a sua taxa de crescimento pode ser utilizada para o planejamento da gestão aplicada em valor. O impacto das decisões tomadas a partir destas aproximações em seus respectivos negócios e resultados é direto, muitas vezes afetando os rumos da empresa em um determinado período de tempo, portanto é necessário que o resultado da predição seja o mais assertivo possível. Outra aplicação neste cenário é para as empresas que buscam ingressar na bolsa de valores no futuro, momento em que a estimativa de seus ativos totais futuros e de sua taxa de crescimento auxiliam na

(15)

determinação dos valores de entrada de seus ativos no mercado de ações.

Diante dos cenários acima, é muito importante que o resultado preditivo seja o mais próximo possível do real, porém são vários os fatores que podem afetar o resultado dessa predição, o que traz oportunidades em duas linhas de pesquisa. A primeira trata-se das predições que buscam encontrar o valor futuro de ativos de empresas negociados na bolsa de valores, tema que já possui vários trabalhos que buscam desenvolver a rede neural artiﬁcial mais eﬁciente nesta complexa predição, como por exemplo o de (NELSON, 2017). Já a segunda linha, a de obter a predição do valor futuro dos ativos totais de empresas, que haveriam ao menos duas divisões, uma para as que tem seus ativos negociados no mercado de ações e outra para as que não são negociadas na bolsa de valores ou que não possuem participação de acionistas, como o caso das cooperativas. Com base nos números de crescimento das cooperativas informados anteriormente (CENTRAL, 2016), é recente a popularização das cooperativas no mercado, o que oportuniza a realização de pesquisas e aplicações que desenvolvam um modelo preditivo adequado para este grupo.

Os modelos preditivos de empresas presentes na bolsa de valores (NELSON, 2017) e (LIMA, 2014), tem foco em atender às necessidades dessas empresas, sem levar em consideração as instituições que estão fora da bolsa de valores, como as cooperativas. Isso se dá principalmente pelo fato das empresas com ações na bolsa de valores sofrerem impacto direto no valor dos seus ativos totais pelos mais variados motivos, como por exemplo, decisões de governo ou políticos, variações da bolsa de valores, inﬂuências da imprensa, entre outros.

As cooperativas de crédito possuem características diferentes das empresas presentes na bolsa de valores. Entre as principais diferenças estão a de todos os seus associados serem proprietários da cooperativa e a de todos os associados possuírem igual poder de voto nas decisões da instituição (PINHEIRO, 2008). Isso já signiﬁca uma grande mudança nas inﬂuências que essas instituições sofrem em comparação às demais.

Diante das diferenças entre as instituições, gera-se a dúvida de se um modelo preditivo desenvolvido para empresas presentes na bolsa de valores seria adequado para predições que envolvam cooperativas de crédito. Um estudo dos modelos preditivos com foco nas cooperativas de crédito traz novas informações, mais direcionadas em relação às informações dos estudos existentes, além de proporcionar elaborações de modelos especíﬁcos de predições, treinados e adaptados para a previsão de valores que envolvem as cooperativas de crédito.

O objetivo do presente trabalho é a proposição de um modelo preditivo do total de ativos de uma cooperativa de crédito, com a utilização de técnicas de aprendizado profundo a partir de redes neurais artificiais LSTM. A utilização de redes neurais artificiais LSTM possibilitou a realização de predições de valores, como os ativos totais, utilizando-se várias séries temporais financeiras, como por exemplo o número de ativos totais em uma sequência de datas. Na composição das redes neurais, várias combinações de técnicas foram possíveis, o que permitiu a observação de diferentes resultados e tendências no comportamento dos dados. O treinamento do novo modelo preditivo proposto foi realizado utilizando-se dados reais fornecidos por uma

(16)

14

cooperativa de crédito.

Também buscou-se através do presente trabalho, possibilitar uma melhor compreensão da composição dos ativos de uma cooperativa de crédito, através da alternância dos dados de entrada da rede neural artiﬁcial. Com essa alternância buscou-se oportunizar uma visão ampliada do impacto de cada dado nos resultados e também mostrar qual conjunto de informações traz uma melhor aproximação dos resultados aos valores esperados no futuro.

A partir dos resultados do presente trabalho, busca-se também inﬂuenciar trabalhos fu-turos, que realizem novas criações de modelos preditivos com o propósito de trazer resultados ainda mais precisos, principalmente em predições voltadas para cooperativas de crédito. Com novos estudos e pesquisas nessa área, existirão cada vez mais informações sobre a determinada região em que a cooperativa atua e mais informações sobre o comportamento e evolução do co-operativismo de crédito. Isso tudo também será uma contribuição para a valorização do sistema cooperativista e consequentemente para as comunidades em que as mesmas estão inseridas, pois a comunidade é beneﬁciada pelos fundamentos do cooperativismo. Dentre os fundamentos do cooperativismo está a atuação direta na comunidade em que as cooperativas estão inseridas, que ocorre através do compartilhamento dos seus resultados, sobras, conhecimentos para com seus associados e investimentos em projetos sociais para benefício da comunidade.

(17)

2 REVISÃO BIBLIOGRÁFICA

A técnica utilizada no presente trabalho baseia-se nas Redes Neurais Artificiais, que simulam o funcionamento das Redes Neurais Biológicas através de um determinado algoritmo de aprendizagem. Este algoritmo é aplicado através de um modelo de treinamento nos neurônios artificiais da Rede Neural Artificial. Dentre as topologias de Redes Neurais Artificiais, existem as Redes Neurais Recorrentes e uma de suas variações, as Redes LSTM, que foi a topologia utilizada na construção do modelo preditivo do presente trabalho. A seguir é apresentada a revisão bibliográfica realizada para que haja uma melhor compreensão da implementação do presente trabalho.

2.1 REDES NEURAIS ARTIFICIAIS (RNA)

As Redes Neurais Artiﬁciais ou RNA são compostas por vários elementos simples de processamento interconectados, denominados neurônios (G. ZHANG; PATUWO; HU, 1998). O nome se dá pela forma como ocorre o processamento de informações nos neurônios biológicos, que é o modelo ao qual as RNAs se inspiram.

Para (SOUSA, 2012), a composição dos neurônios biológicos é feita por um corpo celular denominado soma e vários ramos. Os ramos que conduzem informações para dentro da célula são os dendritos e os que conduzem informação para fora da célula são os axônios (Figura 1). A conexão entre os neurônios ocorre em pontos determinados de contato, conhecido como sinapses (KASABOV, 1996).

Figura 1 – Modelo de um neurônio biológico

Fonte: Só Biologia. Disponível em https://www.sobiologia.com.br/conteudos/FisiologiaAnimal/nervoso2.php

A Figura 2 mostra o modelo de um neurônio artificial, que é a unidade fundamental para o funcionamento de uma RNA. Três elementos básicos podem ser identificados nesta figura. O primeiro elemento básico é a sinapse, caracterizadas por um peso, que também é chamado de peso sináptico, e representadas por wkm. A segunda trata-se do somador representado pela

(18)

(19)

também é similar, porém o intervalo de ativação muda para -1 a 1, sendo -1 para não ativação e

1 para ativação. A equação da função tanh está representada abaixo por (2.3).

ϕ(vk) =

2

(1 + exp(−2v)) − 1 (2.3)

Essas são apenas algumas funções de ativação, mais funções podem ser conhecidas e aprofundadas através do trabalho de (GOODFELLOW; BENGIO; COURVILLE, 2016).

As funções de ativação são como elos que interligam vários neurônios e são estes neurônios interligados que formam uma Rede Neural Artiﬁcial.

2.1.2 Redes Neurais de Múltiplas Camadas

As RNAs são organizadas em camadas, com cada camada possuindo uma ou mais unidades. As saídas das unidades são combinadas, utilizando a função de ativação e usadas como entradas nas unidades da camada seguinte (NELSON, 2017).

Baseadas em sua arquitetura, as RNAs podem ser classiﬁcadas em dois grupos, as Redes Perceptron e as Redes Multilayer Perceptron (MLP). A Rede Perceptron, proposta por (ROSENBLATT, 1957), é considerada o primeiro modelo de uma RNA, sendo capaz de aprender somente sobre problemas linearmente separáveis. Sua arquitetura consiste em uma camada de entrada e uma de saída.

Uma MLP é uma RNA composta por uma camada de entrada para receber o sinal, uma camada de saída que toma uma decisão ou previsão sobre a entrada, e entre essas duas camadas, pelo menos uma camada intermediária ou oculta. Estas camadas ocultas são o verdadeiro mecanismo computacional da MLP (SANCHEZ, 2018).

Figura 3 – Rede MLP com múltiplas camadas ocultas (MEDEIROS et al., 2019)

Na Figura 3 está a representação de uma MLP com múltiplas camadas ocultas. Nesta, duas camadas ocultas estão ilustradas, porém várias camadas podem existir entre as mesmas. A

(20)

18

camada de entrada tem seus sinais de entrada representados por x. A camada de saída tem seus sinais de saídas representados por y.

2.1.3 Modelos de treinamento

Em uma rede neural o conhecimento é adquirido a partir de seu ambiente, passando por um processo de aprendizagem. O armazenamento do conhecimento adquirido se dá pelas forças de conexão entre os neurônios, conhecidas também como pesos sinápticos (HAYKIN, 2007). Esse peso é atribuído através de um processo conhecido como treinamento, onde vários exemplos são abastecidos à rede e esta aprende os melhores pesos em um processo de otimização. Os processos de otimização tem o intuito de generalizar e minimizar os erros da RNA quando esta é exposta a exemplos desconhecidos (NELSON, 2017).

A aquisição de conhecimento por aprendizagem e armazenamento são aspectos das RNA que se assemelham ao cérebro (LIMA, 2014). Existem três diferentes formas pela qual uma RNA se relaciona com o ambiente. A primeira delas é chamada de Aprendizado Supervisionado, que trata-se de quando é utilizado um agente externo que indica para a rede qual a resposta desejada para o padrão de entrada. A segunda forma é o seu oposto, ou seja o Aprendizado Não Supervisionado, quando não existe um agente externo indicando a resposta desejada para os padrões de entrada. A terceira forma é o Aprendizado por Reforço, que trata-se de situações em que podem ou não existir um crítico externo que avalia a resposta fornecida pela RNA e deﬁne objetivos e comportamentos esperados (LEON F. DE CARVALHO, 2009). Em casos de inexistência do crítico externo, a RNA deve ser capaz de aprender com os seus próprios erros mesmo que não tenha conhecimento sobre o ambiente externo (ALMEIDA TEIXEIRA, 2016). Para realizar a predição de um valor, como os ativos totais, em um cenário em que o histórico deste valor é conhecido e existem informações que validem o resultado preditivo, o Aprendizado Supervisionado é o modelo que se enquadra no treinamento do modelo preditivo. No Aprendizado Supervisionado de uma RNA, a rede possui um conjunto de dados rotulados onde já se conhece qual é a saída correta almejada por esta rede. Portanto, a saída da RNA deve ser semelhante à saída do conjunto de dados rotulados, tendo a ideia de que existe uma relação entre a entrada e a saída (REZENDE, 2003).

Um outro exemplo para o Aprendizado Supervisionado, é a tomada de decisões de uma instituição ﬁnanceira, onde a mesmo opta por aceitar ou não um empréstimo à um determinado cliente, com base no seu histórico de crédito.

2.1.4 Algoritmo de Aprendizado Backpropagation

Denomina-se Algoritmo de Aprendizado, um conjunto de regras bem deﬁnidas para a solução de um problema de aprendizado. Conforme abordado no item Modelo Supervisionado de Treinamento, existem algoritmos de aprendizado especíﬁcos para determinados modelos de

(21)

redes neurais, estes algoritmos diferem entre si principalmente pelo modo como os pesos são modiﬁcados.

Um dos principais algoritmos para Aprendizagem Supervisionada é o Algoritmo de Backpropagation. A ideia geral do algoritmo de Backpropagation baseia-se em calcular o erro ocorrido na camada de saída da RNA e quando o erro não for satisfatório, recalcular o valor dos pesos da última camada de neurônios e assim proceder para as camadas anteriores, de trás para a frente. Dessa forma todos os pesos das camadas serão atualizados, da última camada até a camada de entrada da rede, pela retropropagação do erro obtido pela rede.

O funcionamento do Backpropagation, apresentado por (HAYKIN, 2007) consiste em duas etapas, sendo a primeira etapa chamada de forward e a segunda de backward.

A etapa de forward, trata-se de quando o sinal de cada entrada do padrão de treinamento é propagado por todas as camadas. Ao seu ﬁnal é calculada a diferença entre a saída obtida pela rede e a saída desejada, gerando um erro como resultado. O resultado desse erro se dá pela Equação (2.4) onde e é o sinal do erro, n varia conforme o seu intervalo, d é a saída almejada e yé a saída obtida pela rede.

en= dn− yn (2.4)

Para evitar com que os sinais dos valores positivos anulem os sinais de valores negativos é utilizado o erro quadrático de cada amostra (SOUSA, 2012), pela Equação (2.5), onde S é o número de neurônios da camada de saída.

E(n) = 1₂ s Õ j=1 (dj(n) − yj(n) 2 (2.5)

Consequentemente, a média dos erros quadráticos mede o desempenho global do algo-ritmo Backpropagation, onde é efetuada a média de todos os padrões n do conjunto de padrões de entrada P. Esta medida é denominada Mean Squared Error (MSE), como mostra a Equação (2.6) de (HAYKIN, 2007). Err o = 1 P P Õ n=1 E(n) (2.6) A Figura 4 mostra a etapa de forward, onde os pesos sinápticos da RNA estão represen-tados por w. A atualização do peso de w será realizada pela próxima etapa, a backward.

A segunda etapa é a backward, onde o erro encontrado na etapa anterior é retropropagado por todas as camadas, começando da camada de saída para a camada de entrada da rede, o que resulta em um ajuste nos pesos sinápticos. O valor do peso sináptico atualizado segue um somatório do valor atual dos pesos com o valor ajustado. O ajuste do peso se dá pela Equação

(22)

20 i1 i2 i3 Camada de Entrada h1,1 h1,2 h1,3 h1,4 Camada Oculta 1 h2,1 h2,2 h2,3 h2,4 Camada Oculta 2 y1 Camada de Saída w₁ w₂ w3 w4

Figura 4 – Etapa de forward

(2.7), onde wji(t + 1) é o peso atualizado, wji(t)é o peso sináptico atual do neurônio i e j no

tempo t e ∆wji é o peso ajustado.

wji(t + 1) = wji(t) + ∆wji (2.7)

O cálculo desse peso ajustado, representado por ∆wji se dá pela Equação (2.8), onde η

representa a taxa de aprendizagem (0 < η < 1), en(n)representa o valor do erro do neurônio j e

xi(n)representa o valor de saída do neurônio i, que é a entrada do neurônio j.

∆wji = ηej(n)xi(n) (2.8)

Agora, para o ajuste dos pesos é necessário propagar o erro para trás, começando pela saída da rede e atingindo às demais camadas internas da rede. A primeira retropropagação, com origem na camada de saída da rede, se dá pela Equação (2.9).

ej(n) = yj(1 − yj)(dj − yj) (2.9)

As demais retropropagações se dão pela Equação (2.10), onde ei(n)é o gradiente do erro

do neurônio i conectado ao neurônio j e wi j é o peso sináptico da conexão (LIMA, 2014).

ej(n) = yj(1 − yj) i

Õ

i=1

ei(n)wi j (2.10)

Na Figura 5 consta a adição da retropropagação sinalizada pelas setas mais espessas no sentido reverso do forward, formando o Backpropagation. Para uma melhor leitura da ﬁgura estão ilustradas somente as setas do nível superior, porém as mesmas ocorrem em todos os níveis da RNA. A etapa de forward é repetida por todos os padrões de entrada do conjunto de treinamento. Quando o erro encontrado na saída da rede não for satisfatório, a etapa de backwardé executada, ajustando os pesos para o próximo padrão de entrada da rede.

Para as Redes de Aprendizado Profundo, que possuem múltiplos níveis de abstração e grandes bases de dados, a utilização do Backpropagation tradicional torna-se muito custosa.

(23)

Figura 5 – Backpropagation

Somente o fato de ser necessário calcular o erro de todas as amostras da base de treinamento antes de iniciar a retropropagação, já gera um custo elevado. Por isso, nas Redes de Aprendizado Profundo utiliza-se o algoritmo de treinamento Backpropagation estocástico, uma variação do tradicional que ao invés de calcular o erro de todas as amostras da base de treinamento, utiliza somente uma amostra no cálculo do erro para cada iteração. Sua principal diferença é que não terá o erro mínimo como na primeira iteração do tradicional, mas vários erros próximos ao mínimo oscilando ao decorrer do treinamento.

2.1.5 Redes de Aprendizado Profundo

Na Figura 3 foi mostrado uma MLP em que duas camadas ocultas estão ilustradas, com a possibilidade de haver mais camadas entre estas. Para possibilitar um aprendizado aprofundado em bases de dados grandes, é necessário a existência de múltiplas camadas de abstração em múltiplos níveis, caracterizando essas RNAs como Redes de Aprendizado Profundo.

Aprendizado Profundo ou Deep Learning, baseia-se em fazer com que modelos compu-tacionais compostos por múltiplas camadas de processamento aprendam com representações de dados em múltiplos níveis de abstrações (MELLO MARTINS, 2017).

Os métodos de Aprendizado Profundo tem contribuído com o estado da arte em vários temas, como reconhecimento de voz, reconhecimento visual, identiﬁcação de objetos, detecção de padrões e vários outros itens como o estudo de novos medicamentos e genomas (MELLO MARTINS, 2017; SILVA, 2010; CASTRO SANT’ANNA, 2018). Com o Aprendizado Profundo é possível analisar estruturas complexas e de difícil interpretação humana em grandes volumes de dados. Essas contribuições são possíveis através de um treinamento baseado em um Algoritmo de Aprendizado, que indica como a máquina deve alterar seus parâmetros internos. Sendo utilizados para computar as suas representações em cada uma de suas camadas, baseando-se na representação de sua camada anterior(LECUN; BENGIO; HINTON, 2015).

(24)

22

como por exemplo as redes convolucionais, as redes adversárias e as redes recorrentes. As redes convolucionais são utilizadas principalmente para reconhecimento de imagens, em que pode ser realizada a identiﬁcação de indivíduos ou objetos (MIYAZAKI, 2017). As redes adversárias aprendem a imitar uma distribuição de dados e criar novas versões dessas, sejam em vídeos, áudios ou imagens (MELLO MARTINS, 2017). As redes recorrentes são utilizadas principalmente para predição de valores através dos dados históricos destes valores (LIMA, 2014).

2.1.6 Redes Neurais Artificiais em Predições

Como o funcionamento das RNAs busca simular certas características próprias dos humanos, como a capacidade de memorização, associação e decisão. Ao examinar problemas que não podem ser resolvidos ou expressados através de uma equação ou de um algoritmo, é possível observar que essa situações tem como fator comum a experiência acumulada para resolução dos mesmos.

As RNAs simulam um modelo artificial e simplificado do cérebro humano que é capaz de adquirir e acumular experiência. Esse sistema de aprendizagem adotado pelas RNAs mostra uma capacidade de entender a relação entre variáveis que até então mostravam ser difíceis ou até impossíveis de se realizar analiticamente (SU; SHIUE, 2003). Isso ocorre após a RNA acumular experiência sobre esses problemas, tornando-as capazes de reconhecer padrões, como tendências de índices financeiros, padrões de escrita, identificação de objetos ou indivíduos através de imagens, entre outras.

Para predições de valores ou sequências de valores ao decorrer do tempo, onde o valor passado é conhecido, são as Redes Neurais Recorrentes as que melhor se enquadram (LIMA, 2014). As Redes Neurais Recorrentes utilizam o histórico de um determinado preço ou valor para aprender sobre a tendência futura do mesmo.

2.1.7 Redes Neurais Recorrentes (RNN)

As Redes Neurais Recorrentes ou Recurrent Neural Network (RNN), vem sendo o modelo mais utilizado nas predições de séries temporais com um grande número de trabalhos realizados por vários autores, como (NELSON, 2017) e (OLIVEIRA et al., 2018). Um dos motivos disso é que as RNNs possibilitam que as informações persistam através do tempo, onde o que ocorreu no passado tem inﬂuência em resultados do futuro. As redes neurais tradicionais não possuem essa persistência de pensamento, não havendo a consideração de informações ao decorrer do tempo. Nas RNNs a transferência de pensamento ocorre através de ciclos entre seus neurônios, ou seja, além das suas conexões vindas da camada de entrada ou da sua camada anterior, elas tem conexões da mesma camada. Desta forma, fazem uso das informações dos neurônios da camada anterior e também das informações vindas de sua própria saída. A saída da rede não tem mais

(25)

(26)

(27)

será lançado para a saída através de uma função simoide, que tem sua saída multiplicada por uma função tanh, de modo que produzimos somente as informações decididas.

Na Figura 8, a entrada da informação está sinalizada com xtenvolto por um círculo azul,

onde segue até o primeiro portão, representado pela função simoide (σ) envolta pelo quadrado amarelo, que permitirá ou não a passagem dessa informação. O segundo passo é representado pela segunda função simoide (σ) envolta por um quadrado amarelo e pela função tanh envolta pelo quadrado amarelo. O terceiro passo é representado pela linha horizontal superior e pelas três primeiras operações envoltas por círculos rosas, x, + e x, representando multiplicações, x e soma, +. O último passo é representado pela terceira função simoide (σ) envolta pelo quadrado amarelo, pela função tanh envolta pelo círculo rosa e pela operação de multiplicação entre elas, representada pelo x envolto por um círculo rosa.

As Redes LSTM em conjunto com as funções de ativação, um modelo de treinamento e um algoritmo de treinamento, já formam um modelo preditivo, porém na próxima seção, são mostradas técnicas que podem melhorar ainda mais o aprendizado de um modelo preditivo.

2.1.9 Técnicas para melhorar o Aprendizado

No treinamento de modelos preditivos baseados em RNAs, existem diversas técnicas e métodos, como por exemplo os métodos de otimização e técnicas de regularização, que podem ser utilizadas de diferentes formas, em busca de melhores resultados. Para reduzir o número de técnicas, métodos e bibliotecas para as principais e mais utilizadas, pode ser utilizado a técnica de Transferência de Aprendizado. A Transferência de Aprendizado busca reutilizar o conhecimento de modelos com grandes volumes de dados que já foram treinados previamente (MENEGOLA et al., 2017). Sua utilização pode trazer uma redução no tempo gasto em testes e em análises de alternativas, pois outros autores já realizaram experimentos e registraram suas observações, fazendo-se possível o uso destes registros para o ﬁltro dos principais métodos, o que oportuniza a novos trabalhos um foco cada vez mais especíﬁco.

Uma técnica utilizada para melhorar o aprendizado é através do uso de Otimizadores ou métodos de otimização. Os métodos de otimização, como por exemplo o método Adam e o método RMSprop, buscam auxiliar na redução de perdas no treinamento dos modelos causadas pelos saltos do gradiente.

O método de otimização Adam, introduzido por (KINGMA; BA, 2014) propõe um ajuste nos dados para que a taxa de aprendizado não diminua agressivamente, adicionando um momento na atualização e suavizando os ruídos do gradiente antes de fazer essa operação. É realizada a adição de uma taxa de decaimento na soma dos gradientes de cada parâmetro que reduz a agressividade de quanto a taxa de aprendizado é reduzida a cada passo.

O método RMSprop, proposto por (TIELEMAN; HINTON, 2012), utiliza a média qua-drática do gradiente para normalizar o próprio gradiente. Isso causa um efeito de balanceamento do tamanho de cada passo. Esse efeito pode ser diminuir o tamanho do passo, para evitar o

(28)

26

problema da explosão do gradiente, problema onde os pesos tornam-se elevados demais e se sobressaem nas multiplicações dos valores do treinamento. O efeito pode também ser o in-verso, o de aumentar o tamanho dos passos para evitar o problema de dissipação do gradiente, quando os pesos tornam-se pequenos demais, não sofrendo mais inﬂuência das multiplicações do treinamento.

Outra técnica utilizada para a melhora do aprendizado é a de Regularização. As técnicas de regularização são modiﬁcações realizadas em um algoritmo de aprendizagem com o objetivo de reduzir o erro de generalização, mas não necessariamente o erro de treinamento (GOOD-FELLOW; BENGIO; COURVILLE, 2016). A principal motivação destas técnicas é dar maior robustez à rede para previsões fora da amostra, ou seja, impedir que o algoritmo se sobreadapte àquela amostra em que está sendo treinado, tornando-o mais genérico e eﬁcaz também quando aplicado em outras amostras.

Dentre as técnicas de regularização, existe a técnica de regularização dropout. Esta técnica realiza aleatoriamente a exclusão de alguns neurônios do processo de treinamento com o intuito de evitar sobreadaptacão (overfitting) no modelo preditivo (BALDI; SADOWSKI, 2014), ou seja, durante o treinamento, a cada inserção de um novo dado na rede neural, ocorre a eliminação temporária de alguns neurônios e suas respectivas ligações, conforme uma taxa informada. Os neurônios que restarem após a eliminação seguem sendo treinados com a RNA. Conforme descrito nas seções anteriores, a construção de um modelo preditivo baseado em RNAs envolve uma série de itens, que quando utilizados em conjunto com as técnicas para melhorar o aprendizado, estruturam um modelo preditivo bastante robusto. Para facilitar a construção deste modelo preditivo existem muitas bibliotecas já implementadas que facilitam a utilização e testes destas técnicas e itens acima descritos.

2.2 BIBLIOTECAS

Existe atualmente uma grande gama de bibliotecas ou ferramentas para trabalhar com Aprendizado Profundo, portanto a utilização da Transferência de Aprendizado, facilita o ﬁltro das principais e mais utilizadas. Dentre essas bibliotecas mais utilizadas, está a biblioteca TensorFlow_{1(ABADI et al., 2016), que é utilizada sob a interface da biblioteca Keras2.}

O Keras é uma biblioteca de rede neural de código aberto escrita em Python projetada para permitir a experimentação rápida com redes neurais profundas. Ela se concentra em ser fácil de usar, modular e extensível.

O TensorFlow é um projeto voltado para a implantação de modelos de Aprendizagem de Máquina em larga escala. Baseia-se em um modelo ﬂexível de programação com um ﬂuxo de dados aplicado a diversas plataformas de máquinas, sendo possível a utilização do processamento tanto da CPU quanto da GPU. A Interface de Programação de Aplicativos (API) principal é na linguagem de programação Python.

(29)

por exemplo a Pandas3, que possibilita trabalhar com arquivos .csv, a NumPy4, que contém operações matemáticas muito utilizadas em redes neurais e a MatPlotLib5, que possibilita o trabalho com gráﬁcos.

1 _{https://www.tensorﬂow.org} 2 _{https://keras.io}

3 _{https://pandas.pydata.org/} 4 _{http://www.numpy.org/} 5 _{https://matplotlib.org}

(30)

(31)

(32)

30

Em termos de acurácia os resultados variaram entre 0.53 (CIEL3) e 0.559 (BBDC4). A precisão teve um desvio padrão um pouco maior, entre 0.475 (ITUB4) e 0.563 (PETR4). Em geral, os resultados para os ativos BBDC4 e BOVA11 tiveram as melhores médias dentro todas as outras. Por mais que aparentemente os ativos tenham comportamento similar, é visível nos resultados da Figura 9 que de um ativo a outro, a precisão pode ter grandes diferenças, como por exemplo nos ativos PETR4 e ITUB4, onde a diferença chega a 9,7%.

Por ﬁm, os resultados obtidos pelo modelo de (NELSON, 2017) mostraram-se satisfató-rios, obtendo uma acurácia média de até 55,9% ao prever se o preço de uma determinada ação irá subir ou não no futuro imediato.

O modelo preditivo baseado em redes LSTM de (NELSON, 2017), se assimila ao presente modelo preditivo, principalmente pela composição da sua rede neural.

3.2 ANÁLISE COMPARATIVA DE PREVISÃO POR MEIO DE MODELOS ECONOMÉ-TRICOS E REDES NEURAIS

O trabalho de (LIMA, 2014) tem como propósito testar métodos econométricos e de inteligência artiﬁcial para o problema de previsão de séries temporais. O objeto do estudo é a produção da indústria de transformação do Estado de Goiás.

(LIMA, 2014) realiza a comparação de 8 modelos utilizando o erro quadrático médio e desvio padrão como métrica de identiﬁcação do melhor modelo e método para alcançar a predição desejada. Os 8 modelos são baseados em diferentes técnicas de predição, sendo 4 em RNAs e 4 em métodos estatísticos.

No gráﬁco da Figura 10 são mostrados os resultados de (LIMA, 2014). Figura 10 – Resultados (LIMA, 2014)

(33)

(34)

32

dados de quantidade de umidade nos compressores de cadeiras odontológicas, Emissão de CO2, que contém os níveis de emissão de CO2 de quatro observatórios e Qualidade do Ar, que tratam-se de medições da qualidade do ar.

Na Figura 11 também são mostrados os resultados, através dos valores de Erro Absoluto Médio (EAM), Coeﬁciente de Determinação (R2) e Tempo de execução (TE - em segundos) obtidos na predição de cada conjunto de dados.

Com base nos resultados, é possível identiﬁcar que o modelo de (OLIVEIRA et al., 2018) encontrou algumas diﬁculdades em lidar com as diferentes bases de séries temporais. O modelo teve resultados aceitáveis na maioria das bases de dados, mas por exemplo na Smart Metter, o EAM acabou sendo alto se comparado aos demais.

O trabalho de (OLIVEIRA et al., 2018) tem similaridade com o presente trabalho pela utilização da mesma linguagem de programação (Python) e algumas das principais bibliotecas utilizadas, como a TensorFlow, a NumPy, a Pandas e a MatPlotLib.

(35)

(36)

(37)

(38)

(39)

(40)

(41)

(42)

40

A RNA foi instanciada através da utilização do método compile, do módulo Sequential da biblioteca Keras, utilizando os métodos de otimização Adam e RMSProp. Para veriﬁcação das perdas foi utilizado o parâmetro mean squared error ou Erro Médio Quadrático (EMQ) e como métrica foi utilizado o mean absolute error ou Erro Absoluto Médio (EAM). Assim como as funções de ativação cada método de otimização também foi executado de forma separada para observação dos resultados de cada um.

Para evitar longas esperas sobre o tempo de execução sem resultados signiﬁcativos, foram adicionadas duas callbacks da biblioteca Keras. A primeira delas foi a EarlyStopping, que foi utilizada para interromper treinamentos onde não estiver havendo melhora de resultados. O parâmetro observado foi o EMQ, se o mesmo não tiver melhoras em seu resultado de pelo menos 1−_{10 durante 20 épocas seguidas, o treinamento é interrompido. A segunda foi a}

ReduceLROnPlateau, que foi utilizada para que durante o treinamento a taxa de aprendizagem da RNA seja reduzida caso não estiver tendo melhora nos resultados. O parâmetro observado também é o EMQ, onde se o mesmo não tiver melhoras de resultados em 10 épocas seguidas, a taxa de aprendizagem é reduzida em 20%.

Após a adição das callbacks foi realizada a execução da RNA com período máximo de 500 épocas, onde cada época refere-se à um forward pass e um backward pass para o total de amostras do tamanho do lote ou batch size. O batch size ou tamanho de lote utilizado foi de 32 amostras, ou seja, cada forward pass e backward pass tem no máximo 32 amostras de teste. Como a quantidade de amostras utilizada para o treinamento é menor que o tamanho do lote, cada época será equivalente à uma iteração.

Realizada a execução do treinamento da RNA, os resultados de sua saída são coletados. A partir disso é realizada a normalização inversa destes resultados, para que seja possível realizar a comparação dos resultados preditivos com os resultados reais presentes na base de testes, previamente separada durante a etapa de Tratamento da base de dados e que contém os 6 resultados reais almejados.

Para uma melhor visualização da comparação dos dados, foi utilizada a biblioteca Mat-PlotLib, que recebe os dois vetores de resultados, dos resultados preditivos e dos resultados reais, para plotar gráﬁcos com os resultados ﬁnais para observação.

Por ﬁm, todas as etapas acima descritas formam o ﬂuxograma da Figura 20, onde constam reunidas todas as etapas do trabalho e cada um de seus passos em sua ordem de execução.

(43)

(44)

(45)

(46)

(47)

(48)

(49)

(50)

(51)

6 CONCLUSÃO

A premissa do presente trabalho foi a de propor um modelo preditivo para a previsão do total de ativos de uma cooperativa de crédito, utilizando como base as redes LSTM.

A ideia para o desenvolvimento do mesmo foi de que a aplicação de uma Rede LSTM poderia aprender com as variações do valor dos ativos totais com base em seus valores históricos e alcançar resultados preditivos próximos ao valor real dos ativos totais. Os ativos totais são compostos e inﬂuenciados por variados valores como Operações de crédito, Inadimplência, Depósitos Totais e Prejuízos, valores estes que também estiveram presentes na base de dados e atuando como previsores para que o modelo preditivo entendesse o peso de cada item no valor dos ativos totais.

Para validar a questão levantada, o treinamento do modelo preditivo foi realizado utilizando-se uma base de dados real fornecida por uma cooperativa de crédito.

O modelo preditivo apresentado mostrou resultados promissores, onde mesmo com a base de dados possuindo um intervalo de tempo considerado pequeno, de pouco mais de dois anos, a dimensionalidade da mesma foi de grande importância para alcançar resultados positivos. Após a construção dos gráﬁcos dos resultados também foi possível perceber que o modelo preditivo teve sucesso no entendimento da tendência dos valores reais, apresentando similaridade na sua evolução quando em comparação com a tendência histórica dos valores reais.

Também foi realizada uma comparação de resultados preditivos entre a base de dados original e uma segunda base de dados que baseou-se na original, porém com alguns índices a menos. Esta comparação mostrou que a redução destes índices resultou em um aumento do erro em relação aos resultados preditivos da base de dados original.

Por ﬁm, os resultados do modelo preditivo mostraram resultados positivos na predição dos ativos totais, onde mesmo com uma base de dados considerada pequena, obteve uma boa aprendizagem para a predição do valor dos ativos totais em seus próximos seis meses.

(52)

(53)

7 TRABALHOS FUTUROS

Com a evolução da base de dados, será possível otimizar ainda mais o modelo preditivo com mais dados para o seu treinamento e acompanhar se a presente estrutura do mesmo se adapta às variações do tempo. Fica em aberto também a possibilidade de aplicação do modelo preditivo apresentado para a predição de outros valores ﬁnanceiros, como por exemplo a predição do valor de depósitos totais, créditos ou até para acompanhamento de valores como Inadimplência e Prejuízos. Outra possibilidade seria a realização de uma análise exploratória da base de dados utilizada, que proporcionaria um melhor entendimento sobre o peso de cada coluna/índice, além de identiﬁcar possíveis outliers ou valores inconsistentes que podem estar prejudicando a predição.

(54)

(55)

REFERÊNCIAS

ABADI, Martín et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems. CoRR, 19 p., 2016. Disponível em: <http://arxiv.org/abs/1603.04467>. ALMEIDA TEIXEIRA, Lucas de. Métodos de Regressão para Aprendizado por Reforço. UFJF, 2016.

BALDI, Pierre; SADOWSKI, Peter J. Understanding Dropout. NIPS, 2014. Disponível em: <https://papers.nips.cc/paper/4878-understanding-dropout>.

CASTRO SANT’ANNA, Isabela de. Redes Neurais Artiﬁciais para Predição Genômica na presença de interações epistáticas. UFV, 2018. Disponível em: <http://www.locus.ufv. br/handle/123456789/20126>.

CENTRAL, Banco. Estudo Especial nº 14/2018. Banco Central do Brasil, 8 p., 2018. Disponível em: <https://www.bcb.gov.br/conteudo/relatorioinflacao/EstudosEspeciais/ Participacao_cooperativas_mercado_credito.pdf>.

. Relatório da Administração, RA 2016. Banco Central do Brasil, 51 p., 2016. Dispo-nível em: <https://www.bcb.gov.br/Pre/Surel/RelAdmBC/2016/docs/relatorio_ administracao_2016_bcb.pdf>.

COOPER, Michael J.; GULEN, Huseyin; SCHILL, Michael J. Asset Growth and the

Cross-Section of Stock Returns. [S.l.]: Journal of Finance, 2008. 42 p. Disponível em: <https:

//EconPapers.repec.org/RePEc:bla:jfinan:v:63:y:2008:i:4:p:1609-1651>. FAMA, E. F.; FRENCH, K. R. Common risk factors in the returns on stocks and bonds. [S.l.]: Journal of Financial Economics, 1993. 53 p. Disponível em: <https://doi.org/10. 1016/0304-405X(93)90023-5>.

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Deep Learning. [S.l.]: MIT Press, 2016. Disponível em: <http://www.deeplearningbook.org>.

HAYKIN, Simon. Redes Neurais: Princípios e Prática. [S.l.]: Bookman Editora, 2007. 898 p. Disponível em: <https://books.google.com.br/books/about/Redes_Neurais.html? id=bhMwDwAAQBAJ&redir_esc=y>.

HOCHREITER, Sepp; SCHMIDHUBER, Jurgen. Long Short-Term Memory. MIT Press, 46 p., 1997. Disponível em: <http://dx.doi.org/10.1162/neco.1997.9.8.1735>.

KASABOV, Nikola K. Foundations Of Neural Networks, Fuzzy Systems, And Knowledge Engineering. IEEE Transactions on Neural Networks, v. 8, p. 1219–1219, 1996.

KINGMA, Diederik P.; BA, Jimmy. Adam: A Method for Stochastic Optimization. CoRR, abs/1412.6980, 2014. arXiv: 1412.6980. Disponível em: <http://arxiv.org/abs/1412. 6980>.

(56)

54

LECUN, Yann; BENGIO, Yoshua; HINTON, Geoﬀrey. Deep Learning. [S.l.]: Nature Pu-blishing Group, a division of Macmillan Publishers Limited. All Rights Reserved., 2015. 8 p. Disponível em: <https://doi.org/10.1038/nature14539>.

LEON F. DE CARVALHO, André Ponce de. Redes Neurais Artiﬁciais. USP, 2009. Disponível em: <http://conteudo.icmc.usp.br/pessoas/andre/research/neural/#trei>. LIMA, Ricardo Rodrigues Dias de. Análise comparativa de previsão por meio de modelos

econométricos e redes neurais. [S.l.]: PUC Goiás, 2014. 75 p. Disponível em: <http://

tede2.pucgoias.edu.br:8080/handle/tede/2473>.

LYANDRES, Evgeny; SUN, Le; ZHANG, Lu. The New Issues Puzzle: Testing the

Investment-Based Explanation. [S.l.]: The Review of Financial Studies, 2007. 30 p. Disponível em:

<https://doi.org/10.1093/rfs/hhm058>.

MEDEIROS, Rex et al. Monitoramento e diagnóstico de pára-raios a ZnO usando redes neurais artiﬁciais, jun. 2019.

MELLO MARTINS, Pedro Bandeira de. Aplicação de Redes Neurais Geradoras Adversárias para colorização de imagens em preto e branco. UFRJ, 2017. Disponível em: <http : / / monografias.poli.ufrj.br/monografias/monopoli10020220.pdf>.

MENEGOLA, Afonso et al. Knowledge Transfer for Melanoma Screening with Deep Learning. IEEE, 4 p., 2017. Disponível em: <10.1109/ISBI.2017.7950523>.

MIYAZAKI, Caio Kioshi. Redes Neurais Convolucionais para aprendizagem e reconheci-mento de objetos 3D. USP, 2017. Disponível em: <http://www.tcc.sc.usp.br/tce/ disponiveis / 18 / 180500 / tce - 22022018 - 121624 / publico / Miyazaki _ caio _ tcc . pdf>.

NELSON, David Michel Quirino. Uso de redes neurais recorrentes para previsão de séries

temporais financeiras. [S.l.]: UFMG, 2017. 55 p. Disponível em: <http://hdl.handle.

net/1843/ESBF-AM2NTS>.

OLAH, Christopher. Understanding LSTM Networks. GitHub, 2015. Disponível em: <https: //colah.github.io/posts/2015-08-Understanding-LSTMs/>.

OLIVEIRA, Samuel Silva de et al. Predição de séries temporais em internet das coisas com

redes neurais recorrentes. [S.l.]: UNIFAP, 2018. 11 p. Disponível em: <http : / / www2 .

unifap.br/oliveira/2018/10/01/predicao-de-series-temporais-em-internet-das-coisas-com-redes-neurais-recorrentes/>.

PINHEIRO, Marcos Antonio Henriques. Cooperativas de Crédito - História da evolução nor-mativa no Brasil. Banco Central do Brasil, 86 p., 2008. Disponível em: <https://www.bcb. gov.br/content/publicacoes/Documents/outras_pub_alfa/livro_cooperativas_ credito.pdf>.

(57)

POLK, Christopher; SAPIENZA, Paola. The Stock Market and Corporate Investment: A

Test of Catering Theory. [S.l.]: The Review of Financial Studies, 2008. 30 p. Disponível em:

<https://doi.org/10.1093/rfs/hhn030>.

REZENDE, Solange Oliveira. Sistemas inteligentes: fundamentos e aplicações. [S.l.]: Manole, 2003. ISBN 9788520416839. Disponível em: <https://books.google.com.br/books? id=UsJe%5C_PlbnWcC>.

RIBEIRO, Fernanda Vieira Fernandes. Uma busca por evidências do asset growth eﬀect no Ibovespa: um estudo exploratório. USP, 2010. Disponível em: <http://bibliotecadigital. fgv.br/dspace/bitstream/handle/10438/21462/S1519-70772010000300004.pdf? sequence=1&isAllowed=y>.

ROSENBLATT, F. The Perceptron, a perceiving and recognizing automaton. Cornell Aeronau-tical Laboratory, report 85-460-1, 1957.

SANCHEZ, Eleazar Cristian Mejia. Controle por Aprendizado Acelerado e Neuro-Fuzzy de sistemas servo-hidráulicos de alta frequência. PUC Rio, 2018. Disponível em: <https://doi. org/10.17771/PUCRio.acad.32823>.

SILVA, Marília Paula e. Aplicação de Redes Neurais Artiﬁciais no Diagnóstico de Falhas de Turbinas a Gás. PUC-Rio, 2010. Disponível em: <http://bdtd.ibict.br/vufind/Record/ PUC_RIO-1_bd66b336a062dae2d9436bff72dd2fc3/Details>.

SOUSA, Ana Paula de. Análise comparativa de métodos de previsão de séries temporais através de modelos estatísticos e rede neural artiﬁcial. Pontifícia Universidade Católica de Goiás, 2012. Disponível em: <http://tede2.pucgoias.edu.br:8080/handle/tede/2468>.

SU, C.-T.; SHIUE, Y.-R. Intelligent scheduling controller for shop ﬂoor control systems: A hybrid genetic algorithm/decision tree learning approach. International Journal of Production

Rese-arch, Taylor Francis, v. 41, n. 12, p. 2619–2641, 2003. DOI: 10.1080/0020754031000090612.

eprint: https:/ /doi.org/ 10.1080/ 0020754031000090612. Disponível em: <https: //doi.org/10.1080/0020754031000090612>.

TIELEMAN, Tijmen; HINTON, Geoﬀrey. Lecture 6.5-rmsprop: Divide the gradient by a run-ning average of its recent magnitude. COURSERA, 5 p., 2012. Disponível em: <https : //www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf>. XING, Yuhang. Interpreting the value effect through the Q-theory: An empirical

investiga-tion. [S.l.]: Society for Financial Studies, 2007. 28 p. Disponível em: <https://academic.

oup.com/rfs/article-abstract/21/4/1767/1567358>.

ZHANG, Guoqiang; PATUWO, B. Eddy; HU, Michael Y. Forecasting with artiﬁcial neural networks:: The state of the art. International Journal of Forecasting, 1998. Disponível em: <https://doi.org/10.1016/S0169-2070(97)00044-7>.