Modelagem MLP/RNA - R EDES N EURAIS A RTIFICIAIS

2.3 R EDES N EURAIS A RTIFICIAIS

3.1.7 Modelagem MLP/RNA

Ao contr´ario da modelagem ARIMA/SARIMA, a modelagem MLP/RNA n˜ao possui um

único algoritmo para a construção de modelos. Existem algoritmos como o Algoritmo Genético citado no Referencial Teórico, mas nenhum algoritmo genérico e amplo, como o algoritmo de Box-Jenkins. Devido a essa caracter´ısticas, também será apresentado um fluxograma apresen-tando as etapas realizadas na obtenção dos modelos MLP/RNA. Este fluxograma pode ser visto na figura (18) e foi utilizado da mesma maneira tanto na série da produção industrial quanto na série de manchas solares.

A primeira etapa é separar a série de dados em dois conjuntos de dados. São retirados os

últimos 12 valores para verificação do poder preditivo e cálculo do EQM de previsão. O restante

é utilizado na modelagem. Têm-se, assim, dois conjuntos de dados: série de previsão, contendo os últimos 12 valores, e a série de modelagem, contendo o restante dos dados, ou padrões de treinamento.

A próxima etapa necessita de aleatorização. Um modelo MLP necessita de dois conjuntos distintos de padrões para ser modelado: conjunto de padrões de treinamento e aprendizagem e conjunto de padrões de ajuste, ou simplesmente conjunto de treinamento e conjunto de ajuste.

Para obter estes dois conjuntos, foi utilizada a série de modelagem, obtida na etapa anterior. O percentual utilizado nesta dissertação é de 70% dos padrões da série de modelagem foram sele-cionados aleatoriamente e constituem-se no conjunto de treino e aprendizagem. Posteriormente a série de modelagem completa será utilizada para verificar o ajuste do modelo.

Feita a divisão da série de modelagem, é necessário treinar o modelo MLP. Aqui é definido o modelo a ser utilizado dentre as limitações impostas nesta dissertação. As configurações utilizadas nesta dissertação quanto a camada de entrada são duas: modelos com 6 neurônios na camada de entrada e modelos com 12 neurônios na camada de entrada. Para cada configuração da camada de entrada, foram modeladas 26 diferentes configurações da camada oculta: desde uma camada oculta com 5 neurônios até uma camada oculta com 30 neurônios. A camada de sa´ıda possui apenas um neurônio em todos os modelos. É nesta etapa que os pesos sinápticos, os parâmetros dos modelos MLP, são ajustados. Esta também é uma etapa que necessita de aleatorização, pois os pesos sinápticos iniciais são aleatorizados.

Quanto ao procedimento de sorteio dos padrões de treinamento, o mesmo é feito da seguinte maneira: inicialmente os dados são dispostos em um matriz com um número de colunas igual

Figura 18: Fluxograma da metodologia utilizada na modelagem MLP/RNA Fonte: Elaborado pelo autor

ao número de neurônios na camada de entrada mais uma coluna para os valores desejados. Cada linha da matriz representa um padrão de treinamento. E cada linha tem um atraso no tempo, de forma a capturar todos os padrões existentes no conjunto de treino e ajuste, conforme pode ser vista na equação (15).

ondex_trepresenta o ´ultimo valor da s´erie de dados.

Na matriz da equação (15) os padrões de treinamento estão adequados a um modelo MLP/RNA com 6 neurônios na camada de entrada e apenas 1 na camada de sa´ıda, iguais a alguns dos mo-delos utilizados neste trabalho. O primeiro padrão submete ao modelo os valores dex₁ax₆na camada de entrada que tem como valor desejado o valorx₇. De maneira semelhante ocorre nas demais linhas da matriz. Desta forma, devido a aleatorização dos pesos sinápticos iniciais, os padrões de treinamento também são sorteados, na tentativa de otimizar os resultados modelo.

Com relação a escolha dos modelos, isso se deve a implicações práticas. O número de neurônios na camada de entrada indica o tamanho máximo de ciclo ou sazonalidade que o modelo pode detectar. O modelo de seis neurônios na camada de entrada pode captar uma sazonalidade de per´ıodo igual ou inferior a seis, enquanto que o modelo com doze neurônios pode captar sazonalidade com per´ıodo igual ou inferior a doze. A camada oculta é a capacidade de processamento do modelo e foi limitada tanto na sua capacidade inferior quanto superior, respectivamente, em cinco e trinta neurônios.

Feito o treinamento e aprendizagem do modelo, o modelo é então ajustado. Esta etapa serve para verificar o ajuste do modelo a série de modelagem. É a partir destas informações que são obtidos os critérios AIC, BIC e EQM de ajuste. É nesta etapa, também, que pode-se verificar se o modelo treinado está sobre ajustado aos dados ou não. EQM de ajuste muito baixo pode significar um modelo com sobre ajuste, pois indica que o modelo está muito próximo dos dados de treino e aprendizagem, o que costuma prejudicar as previsões. O EQM de ajuste muito alto pode significar um modelo mal treinado, ou com problemas de inicialização nos pesos sinápticos, dependendo da sua magnitude em relação aos dados.

Independentemente do EQM de ajuste obtido, são então verificadas as previsões do modelo.

Nesta etapa são previstos 12 valores futuros, com base no modelo treinado. Com os resultados das previsões, é obtido o EQM de previsão. Este EQM de previsão também é apresentado

conjuntamente com os crit´erio AIC, BIC e EQM de ajuste. Isso deve tanto para auxiliar a escolha de um modelo considerado adequado e tamb´em para ressaltar problemas de sobre ajuste.

Contudo, cabe uma ressalva. Os modelos MLP/RNA costumam obter EQM de previsão muito baixos em horizontes de previsão menores, como 1 ou 2 passos adiante. As previsões deste trabalho se referem a um horizonte de previsão de 12 passos adiante.

A etapa seguinte trata de um ciclo de repetições. Cada modelo apresentado na etapa de treino e aprendizagem é modelado 100 vezes. Desta forma, desde a seleção da amostra de treino até a verificação e obtenção do EQM de previsão e pesos sinápticos são repetidos 100 vezes. Com isso, espera-se minimizar os efeitos da aleatorização necessária do processo de treino, ajuste e previsão de cada modelo.

Após as etapas necessárias terem sido repetidas 100 vezes, têm-se uma matriz contendo 100 EQM de previsão e 100 configurações de pesos sinápticos. Estes valores serão utilizados para comparação. Será utilizada a configuração de pesos sinápticos do modelo que possuir o menor EQM de previsão, conforme Haykin (2001). Com essa medida, são selecionados os melhores modelos quanto as previsões, seguindo, desta forma, o algoritmo apresentado na figura (17).

No documento COMPARAÇÃO DE MODELOS MLP/RNA E MODELOS BOX-JENKINS EM SÉRIES TEMPORAIS NÃO LINEARES (páginas 64-67)