Aspectos Gerais - 4 REDES NEURAIS ARTIFICIAIS

4 REDES NEURAIS ARTIFICIAIS

4.1 Aspectos Gerais

Dentre as diferentes definições para redes neurais artificiais, Haykin (2008) as define como um componente capaz de processar informação de forma paralela com a capacidade de armazenar conhecimento e experiência a fim de torná-lo disponível para uso. Porém, existem outras definições, uma rede neural é tida como um modelo matemático baseado em algumas propriedades do cérebro humano, que adota o padrão de conexões com valores nos pesos si- nápticos (semelhante a neurônios biológicos), a função de moldar o comportamento de entrada e saída, ou seja, como a rede neural irá responder de acordo com certa entrada (da Silva, 2010). Dado que a rede neural artificial processa informação com o objetivo de armazenar conhecimento e experiência para uso futuro, o aprendizado é concebido pelo ajuste das conexões sinápticas (entre os neurônios) com o objetivo de mapear um valor de entrada em um valor de saída desejado. Com isto, o aprendizado pode ser interpretado como um processo de prepara- ção da rede neural, capaz de reproduzir em computador o comportamento do cérebro humano (Haykin, 2008; da Silva, 2010).

Em uma rede neural artificial, existe o que chamamos de neurônio artificial, que se trata de uma unidade de processamento matemático que recebe diversas entradas e gera uma saída, visando simular o comportamento de um neurônio biológico (Haykin, 2008; da Silva, 2010). A Figura 4.1 ilustra a estrutura geral de um neurônio artificial do tipo Perceptron.

Observando a estrutura interna de um Perceptron dada na Figura 4.1, os valores de entradas 𝑋𝑛 são ponderados pelos pesos sinápticos 𝑊𝑛 e somados (∑︀), o que irá produzir um

potencial de ativação 𝑟. Por fim, o potencial de ativação 𝑟 é então aplicado a uma função de ativação𝑓 (𝑟), cujo objetivo é limitar a saída do neurônio dentro de um intervalo de valores, que pode ser linear ou não, dependendo do tipo de problema estudado (da Silva, 2010).

Uma função de ativação não linear que pode ser utilizada em neurônios artificiais é a função tangente hiperbólica, onde o resultado assume um valor entre −1 e 1, cuja expressão

Figura 4.1: Representação do modelo matemático de um neurônio artificial do tipo Perceptron utilizado em ANNs.

matemática é dada pela Equação 4.1 e representada pela Figura 4.2 (Heaton, 2011).

𝑡𝑎𝑛ℎ(𝑡) = 𝑒 2𝑥_{− 1} 𝑒2𝑥_{+ 1} (4.1) -3 -2 -1 0 1 2 3 -1.0 -0.5 0.0 0.5 1.0 x tanh(x)

Figura 4.2: Gráfico representativo da função tangente hiperbólica.

No entanto, existem outras funções de ativação que podem ser utilizadas de acordo com o tipo de problema a ser tratado. Outro exemplo de função de ativação é a função logística que assume valores entre 0 e 1.

A saída de um Perceptron pode ser usada como entrada para um próximo neurônio, que assim como apresentado na Figura 4.1, será ponderado por pesos sinápticos a fim de obter o mesmo comportamento, possibilitando assim a criação de uma rede de neurônios conectados entre si. Com isto, em alguns tipos de redes neurais artificiais pode-se definir o arranjo dos neurônios em partes, conhecidas também como camadas. Entre os modelos de redes neurais artificiais, a rede do tipo Multi-Layer Perceptron (da sigla MLP) utiliza este modelo de Percep- tronsdistribuídos em camadas (da Silva, 2010).

Sendo assim, o arranjo das conexões entre os neurônios artificiais em camadas de uma rede neural artificial definem a sua arquitetura. Existem diversos modelos de arquiteturas de redes neurais artificiais que serão discutidos a seguir.

4.2 Arquiteturas

A arquitetura de uma rede neural artificial define a forma como seus neurônios são dis- tribuídos e conectados uns em relação aos outros (Haykin, 2008). Neste trabalho, as principais arquiteturas utilizadas serão as redes feedforward (alimentação à frente) de múltiplas camadas e as redes neurais feedback (também conhecidas como redes neurais recorrentes).

Das principais arquiteturas na categoria de redes neurais feedforward, o tipo Multi-Layer Perceptron(da sigla MLP) é frequentemente utilizado, enquanto que, dentre as redes neurais feedback, pode-se destacar as do tipo Jordan (do inglês Jordan Recurrent Neural Network - JRNN) e Elman (do inglês Elman Recorrent Neural Network - ERNN) (Welch et al., 2009; da Silva, 2010).

As redes do tipo MLP são caracterizadas pela presença de pelo menos uma camada oculta de neurônios entre a camada de entrada e saída. Uma de suas características é dada por diversas possibilidades de aplicações, tornando-a assim uma das estruturas de redes neurais mais versá- teis (da Silva, 2010). Além disso, as redes do tipo MLP são consideradas como aproximadoras universais de funções (Haykin, 2008). A Figura 4.3 ilustra a estrutura geral de uma MLP com 3 entradas (em azul), uma camada oculta com 4 neurônios (em amarelo) e uma camada de saída com 2 neurônios (em verde).

Figura 4.3: Estrutura geral de uma rede neural do tipo Multi-Layer-Perceptron com 3 camadas. Já as redes recorrentes simples (do inglês Simple Recurrent Networks - SRN) contêm uma estrutura geral semelhante a da rede MLP, exceto pelo fato de que as saídas de alguns neurônios são utilizadas para realimentar a rede neural, ou seja, como sinais de entrada para outros neurônios de uma camada anterior (Welch et al., 2009; da Silva, 2010). Com isto, as saídas de um neurônio de uma determinada camada, oculta ou de saída, são aplicadas como entradas a todos os neurônios da camada oculta. No entanto, é importante destacar que entre estas ligações, existe uma camada de neurônios adicional conhecida como camada de contexto (do inglês Context Layer) (Heaton, 2011).

e os valores de entrada não são ponderados por pesos sinápticos, pois os neurônios na camada

de contextoservem apenas como uma lembrança de curto prazo da iteração anterior (Heaton,

2011). Já a saída dos neurônios da camada de contexto são ponderadas por pesos sinápticos para serem agregados pelos neurônios que irão os receber.

No caso da rede neural de Elman (ERNN), a camada de contexto situa-se entre a própria camada oculta, ou seja, a saída da camada oculta é conectada à camada de contexto (sem pesos sinápticos), e as saídas desta, por sua vez, são conectadas às entradas da própria camadas oculta na próxima iteração (desta vez com pesos sinápticos). Sendo assim, é importante destacar que a quantidade de neurônios na camada de contexto deve ser a mesma da camada oculta (Elman, 1990; Heaton, 2011). A Figura 4.4 ilustra a arquitetura geral de uma rede neural de Elman.

Figura 4.4: Estrutura geral de uma rede neural de Elman.

Outro tipo de rede neural recorrente é a rede neural de Jordan (JRNN), onde a realimen- tação ocorre a partir da camada de saída para a camada oculta (Jordan, 1986). Semelhante à rede de Elman, as conexões de entrada da camada de contexto não contêm pesos sinápticos e os neurônios na camada de contexto não contêm função de ativação. Já as conexões da camada de contexto para a camada oculta são ponderadas por pesos sinápticos (Jordan, 1986; Heaton, 2011). A Figura 4.5 apresenta a arquitetura da rede neural de Jordan.

A característica de realimentação qualifica tais redes para processamento dinâmico de informação, ou seja, elas podem ser aplicadas a sistemas variantes em relação ao tempo (Welch et al., 2009), como a predição de séries temporais.

Uma das características relevantes das redes neurais artificiais é a capacidade de aprendizado a partir de apresentação de amostras. Esta etapa é conhecida como treinamento, que consiste em realizar o ajuste dos pesos sinápticos (que são inicializados com valores pequenos de forma aleatória) com o objetivo de mapear a entrada informada à saída desejada (da Silva, 2010), a partir de um histórico de amostras. Quando o treinamento é finalizado, a rede neural artificial pode ser considerada como um modelo matemático, onde os pesos estão devidamente

Figura 4.5: Estrutura geral de uma rede neural de Jordan.

ajustados para que novas entradas sejam fornecidas e a rede neural possa produzir um novo resultado. Um dos tipos de treinamento para redes neurais é o treinamento supervisionado, que consiste em se ter disponível amostras com entradas e saídas desejadas a fim de mapeá-las através da rede neural (Haykin, 2008).

Neste trabalho, o foco será em redes neurais do tipo MLP e redes recorrentes do tipo

Jordan e Elman, utilizando treinamento supervisionado. Os dados que serão fornecidos para

estes componentes serão séries temporais de cotações históricas de ações listadas em bolsa de valores, sendo valores diários do preço de fechamento das ações e séries de indicadores técnicos.

No documento Sistema de apoio à decisão para o mercado financeiro de renda variável (páginas 51-55)