Capacidade de generaliza¸c˜ ao - Modelo Perceptron Multicamadas

REDES NEURAIS ARTIFICIAIS

3.3 Modelo Perceptron Multicamadas

3.3.6 Capacidade de generaliza¸c˜ ao

Na hora de avaliar o comportamento da rede e em particular do perceptron multicamadas, não importa apenas saber se a rede aprendeu com sucesso os padrões utilizados durante a aprendizagem, mas também conhecer o comportamento da rede frente a padrões que não foram utilizados durante o treinamento. De nada adianta dispor de uma rede que aprendeu corretamente os padrões de treinamento, mas que não responde adequadamente a novos padrões. É necessario que durante o processo de aprendizado a rede extraia as caracter´ısticas mais importantes dos padrões de entrada, para que depois possa responder corretamente a padrões diferentes.

Portanto, quando se realiza o processo de aprendizado da rede é muito impor- tante, até mesmo imprescind´ıvel, avaliar sua capacidade de generaliza¸cão. Para isso, é necessário dispor de dois conjuntos de padrões, um chamado conjunto de treinamento, que treina e modifica os pesos e umbrais da rede, e outro chamado conjunto de valida¸cão ou teste, que mede a capacidade da rede para responder corretamente a padrões que não foram ingressados durante o treinamento. Quando a rede apro- xima corretamente os padrões de aprendizagem mas não responde bem aos padrões de valida¸cão, diz-se que houve sub-aprendizagem da rede, o que pode ocorrer devido a vários fatores como o uso de um número excessivo de neurônios ou camadas ocultas, veja Isasi & Galván (2004).

Além disso, o algoritmo de retropropaga¸cão do perceptron multicamadas possui também uma série de deficiências, que são mencionadas a seguir e descritas mais detalhadamente em Isasi & Galván (2004):

• M´ınimos locais. A superf´ıcie que define o erro E e, por sua vez, os parâmetros da rede, é complexa e cheia de vales e colinas. Devido à utiliza¸cão do método do gradiente para encontrar o m´ınimo desta fun¸cão, pode-se correr o risco de que o processo de minimiza¸cão finalize em um m´ınimo local, veja Minsky & Papert (1988).

• Paralisia. O fenômeno da paralisia ou satura¸cão no perceptron multicamadas ocorre quando a entrada total de um neurônio da rede assume valores muito altos, tanto positivos como negativos, através da fun¸cão de ativa¸cão. Quando este fenômeno acontece, os parâmetros permanecem constantes e, como con- seqüência, a soma dos erros locais permanece constante por um per´ıodo longo de tempo, veja Lee & Kim (1991). Ainda que esta situa¸cão possa ser confun- dida com a presen¸ca de um m´ınimo local, devido ao erro constante, aqui pode ocorrer que, depois de algum tempo, o erro volte a decrescer.

3.3.7 Previs˜ao de s´eries temporais

As redes neurais têm sido amplamente utilizadas nos últimos anos no contexto de previsão de séries temporais. Isto se deve às seguintes caracter´ısticas das redes neurais:

• Sua capacidade para aproximar e capturar rela¸cões a partir de um conjunto de exemplos, sem a necessidade de se ter informa¸cões adicionais sobre a distribui¸cão dos dados.

• A capacidade das redes neurais para construir rela¸c˜oes n˜ao-lineares.

• A capacidade das redes neurais para construir rela¸c˜oes a partir de informa¸c˜oes incompletas ou com ru´ıdo.

• Os modelos baseados em redes neurais são fáceis de serem constru´ıdos e usados. Seja {Zt}t=1,...,N uma série temporal cujo comportamento pode ser descrito por um modelo não-linear de regressão. Estes modelos caracterizam-se por captar o comportamento temporal da série no instante t + 1 como uma fun¸cão não-linear de r + 1 valores anteriores da série temporal, i.e.,

em que r é conhecido, ǫt um erro e F (·) é uma fun¸cão não-linear desconhecida, que deve ser estimada ou aproximada. Dentro do contexto das redes neurais, geralmente não é feita nenhuma suposi¸cão sobre os erros do modelo, exceto quando se deseja construir intervalos de confian¸ca, veja Chryssolouris, Lee & Ramsey (1996).

A constru¸cão de modelos não-lineares de regressão envolve a determina¸cão da fun¸cão F (·), a partir de um conjunto de dados dispon´ıveis e de técnicas de apro- xima¸cão, entre as quais estão as redes neurais. Já que o interesse reside na previsão de valores futuros, dois esquemas podem ser considerados:

• Previsão um passo à frente. Este procedimento consiste na previsão da série no instante imediatamente seguinte ao instante t, utilizando os dados dispon´ıveis até t, i.e., faz-se a previsão de Zt+1 utilizando as observa¸cões Zt, Zt−1, . . . , Zt−r, t = r + 1, . . . , N. O vetor de entrada da rede será dado por (Zt, Zt−1, . . . , Zt−r) e a rede neural aproximará a fun¸cão F por ˜F , fornecendo o seguinte modelo de previsão:

Zt+1= ˜F (Zt, Zt−1, . . . , Zt−r).

• Previsão múltiplos passos à frente. Este procedimento consiste na previsão do valor da série no instante de tempo t + h + 1, para o qual é utilizada a equa¸cão (3.15) de forma recorrente, i.e., a previsão é dada por

Zt+h+1 = ˜F (Zt+h, Zt+h−1, . . . , Zt+h−r).

No entanto, até o instante t nem toda a informa¸cão da entrada à rede está dispon´ıvel, pois os valores da série Zt+h, Zt+h−1, . . . , Zt+1, para h > 1, não são conhecidos. Para contornar este problema, utilizam-se como entradas ao modelo neural os valores preditos pela rede neural nos instantes anteriores de tempo, em lugar dos valores da série. Assim, o modelo (3.15) pode ser utilizado na previsão em múltiplos passos, alimentando para trás a entrada da rede em procura de novas previsões até o instante t + h + 1.

CAP´ITULO

4

AVALIAÇ ÃO RELATIVA DE PREVIS ÕES DE ARRECADAÇ ÃO

No documento Previsão de arrecadação do ICMS através de redes neurais no Brasil (páginas 44-47)