REDES NEURAIS ARTIFICIAIS
3.3 Modelo Perceptron Multicamadas
3.3.6 Capacidade de generaliza¸c˜ ao
Na hora de avaliar o comportamento da rede e em particular do perceptron mul- ticamadas, n˜ao importa apenas saber se a rede aprendeu com sucesso os padr˜oes utilizados durante a aprendizagem, mas tamb´em conhecer o comportamento da rede frente a padr˜oes que n˜ao foram utilizados durante o treinamento. De nada adianta dispor de uma rede que aprendeu corretamente os padr˜oes de treinamento, mas que n˜ao responde adequadamente a novos padr˜oes. ´E necessario que durante o processo de aprendizado a rede extraia as caracter´ısticas mais importantes dos padr˜oes de entrada, para que depois possa responder corretamente a padr˜oes diferentes.
Portanto, quando se realiza o processo de aprendizado da rede ´e muito impor- tante, at´e mesmo imprescind´ıvel, avaliar sua capacidade de generaliza¸c˜ao. Para isso, ´e necess´ario dispor de dois conjuntos de padr˜oes, um chamado conjunto de treina- mento, que treina e modifica os pesos e umbrais da rede, e outro chamado conjunto de valida¸c˜ao ou teste, que mede a capacidade da rede para responder corretamente a padr˜oes que n˜ao foram ingressados durante o treinamento. Quando a rede apro- xima corretamente os padr˜oes de aprendizagem mas n˜ao responde bem aos padr˜oes de valida¸c˜ao, diz-se que houve sub-aprendizagem da rede, o que pode ocorrer devido a v´arios fatores como o uso de um n´umero excessivo de neurˆonios ou camadas ocultas, veja Isasi & Galv´an (2004).
Al´em disso, o algoritmo de retropropaga¸c˜ao do perceptron multicamadas possui tamb´em uma s´erie de deficiˆencias, que s˜ao mencionadas a seguir e descritas mais detalhadamente em Isasi & Galv´an (2004):
• M´ınimos locais. A superf´ıcie que define o erro E e, por sua vez, os parˆametros da rede, ´e complexa e cheia de vales e colinas. Devido `a utiliza¸c˜ao do m´etodo do gradiente para encontrar o m´ınimo desta fun¸c˜ao, pode-se correr o risco de que o processo de minimiza¸c˜ao finalize em um m´ınimo local, veja Minsky & Papert (1988).
• Paralisia. O fenˆomeno da paralisia ou satura¸c˜ao no perceptron multicamadas ocorre quando a entrada total de um neurˆonio da rede assume valores muito altos, tanto positivos como negativos, atrav´es da fun¸c˜ao de ativa¸c˜ao. Quando este fenˆomeno acontece, os parˆametros permanecem constantes e, como con- seq¨uˆencia, a soma dos erros locais permanece constante por um per´ıodo longo de tempo, veja Lee & Kim (1991). Ainda que esta situa¸c˜ao possa ser confun- dida com a presen¸ca de um m´ınimo local, devido ao erro constante, aqui pode ocorrer que, depois de algum tempo, o erro volte a decrescer.
3.3.7
Previs˜ao de s´eries temporais
As redes neurais tˆem sido amplamente utilizadas nos ´ultimos anos no contexto de previs˜ao de s´eries temporais. Isto se deve `as seguintes caracter´ısticas das redes neurais:
• Sua capacidade para aproximar e capturar rela¸c˜oes a partir de um conjunto de exemplos, sem a necessidade de se ter informa¸c˜oes adicionais sobre a distribui¸c˜ao dos dados.
• A capacidade das redes neurais para construir rela¸c˜oes n˜ao-lineares.
• A capacidade das redes neurais para construir rela¸c˜oes a partir de informa¸c˜oes incompletas ou com ru´ıdo.
• Os modelos baseados em redes neurais s˜ao f´aceis de serem constru´ıdos e usados. Seja {Zt}t=1,...,N uma s´erie temporal cujo comportamento pode ser descrito por um modelo n˜ao-linear de regress˜ao. Estes modelos caracterizam-se por captar o com- portamento temporal da s´erie no instante t + 1 como uma fun¸c˜ao n˜ao-linear de r + 1 valores anteriores da s´erie temporal, i.e.,
em que r ´e conhecido, ǫt um erro e F (·) ´e uma fun¸c˜ao n˜ao-linear desconhecida, que deve ser estimada ou aproximada. Dentro do contexto das redes neurais, geralmente n˜ao ´e feita nenhuma suposi¸c˜ao sobre os erros do modelo, exceto quando se deseja construir intervalos de confian¸ca, veja Chryssolouris, Lee & Ramsey (1996).
A constru¸c˜ao de modelos n˜ao-lineares de regress˜ao envolve a determina¸c˜ao da fun¸c˜ao F (·), a partir de um conjunto de dados dispon´ıveis e de t´ecnicas de apro- xima¸c˜ao, entre as quais est˜ao as redes neurais. J´a que o interesse reside na previs˜ao de valores futuros, dois esquemas podem ser considerados:
• Previs˜ao um passo `a frente. Este procedimento consiste na previs˜ao da s´erie no instante imediatamente seguinte ao instante t, utilizando os dados dispon´ıveis at´e t, i.e., faz-se a previs˜ao de Zt+1 utilizando as observa¸c˜oes Zt, Zt−1, . . . , Zt−r, t = r + 1, . . . , N. O vetor de entrada da rede ser´a dado por (Zt, Zt−1, . . . , Zt−r) e a rede neural aproximar´a a fun¸c˜ao F por ˜F , fornecendo o seguinte modelo de previs˜ao:
˜
Zt+1= ˜F (Zt, Zt−1, . . . , Zt−r).
• Previs˜ao m´ultiplos passos `a frente. Este procedimento consiste na previs˜ao do valor da s´erie no instante de tempo t + h + 1, para o qual ´e utilizada a equa¸c˜ao (3.15) de forma recorrente, i.e., a previs˜ao ´e dada por
˜
Zt+h+1 = ˜F (Zt+h, Zt+h−1, . . . , Zt+h−r).
No entanto, at´e o instante t nem toda a informa¸c˜ao da entrada `a rede est´a dispon´ıvel, pois os valores da s´erie Zt+h, Zt+h−1, . . . , Zt+1, para h > 1, n˜ao s˜ao conhecidos. Para contornar este problema, utilizam-se como entradas ao modelo neural os valores preditos pela rede neural nos instantes anteriores de tempo, em lugar dos valores da s´erie. Assim, o modelo (3.15) pode ser utilizado na previs˜ao em m´ultiplos passos, alimentando para tr´as a entrada da rede em procura de novas previs˜oes at´e o instante t + h + 1.