Análise da Robustez e da Capacidade de Generalização da Rede Perceptron

Vida à Fadiga Através de Redes Neurais

9. M ODELAMENTO DA V IDA À F ADIGA A TRAVÉS DE R EDES

9.1.1. Análise da Robustez e da Capacidade de Generalização da Rede Perceptron

A partir dos conjuntos de treinamento expostos na Tabela 6.2 (página 81) treinou-se uma arquitetura de rede perceptron de três camadas utilizando para isso uma técnica conhecida como validação cruzada.

(EMQTRE) e do conjunto total de dados (EMQTOD) (na literatura é mais comum o uso do

conjunto de validação) para cada época de treinamento, fazendo com que, ao final do treinamento se escolha os pesos sinápticos da rede no menor valor de EMQTOD.

Vale salientar que o motivo da escolha do conjunto total de dados em detrimento do conjunto de validação está relacionado à necessidade da obtenção de uma RNA que modelasse o comportamento à fadiga para todos os dados analisados e não somente para o conjunto de treinamento ou para o conjunto de validação. Além disso, apesar dessa análise não ter sido apresentada nessa tese, verificou-se que o comportamento do conjunto de validação foi bem próximo ao do conjunto total de dados.

Analisando os resultados obtidos durante o treinamento por validação cruzada, se verificou que para todos os conjuntos de treinamento, exceto para o conjunto de treinamento

DD16-6R, as curvas de EMQTOD e EMQTRE possuíram o seguinte comportamento: 1)

acompanhamento das duas curvas de EMQ com valores aproximados ou na mesma ordem de grandeza; 2) separação das duas curvas após um determinado número de épocas de treinamento, neste ponto se obteve o valor do EMQ mínimo (EMQMIN), este é o menor valor

obtido para a curva de EMQTOD durante todo o treinamento, após a obtenção de EMQMIN a

curva do conjunto de treinamento (EMQTRE) continua a diminuir enquanto que a curva do

conjunto total de dados (EMQTOD) aumenta ou se estabiliza.

Apresenta-se nas Figuras 9.1 e 9.2 exemplos do comportamento da EMQTOD e da

EMQTRE em função do número de épocas de treinamento analisadas.

Conforme foi dito anteriormente, somente o conjunto de treinamento DD16-6R, possuiu um comportamento diferente das demais. Na qual, no treinamento deste conjunto ocorreu o acompanhamento das curvas do conjunto de treinamento (EMQTRE) e conjunto

total de dados (EMQTOD) até o fim do processamento, ou seja, até as 5000 épocas de

treinamento, conforme se mostra no exemplo da Figura 9.3. É importante salientar que com uma quantidade de 6 curvas S-N distribuídas uniformemente observa-se a diminuição das duas curvas de EMQ com o aumento do número de épocas de treinamento.

Vale salientar que o acompanhamento das duas curvas durante todas as épocas de treinamento é uma característica interessante a ser obtida, já que significa dizer que a rede possui uma boa capacidade de generalização, isto é, com o erro de validação na mesma ordem do erro de treinamento.

500 1000 1500 2000 2500 3000 3500 4000 1E-5 1E-4 1E-3 0.01 0.1 EMQ mínimo Conjunto de treinamento (3R) Conjunto total de dados

Épocas de Treinamento

Figura 9.1.Curvas de EMQ obtidas durante o treinamento de uma RNA com 23 neurônios ocultos e com o conjunto de treinamento C10-3R (R = 10, -1,57 e 0,1).

500 1000 1500 2000 2500 3000 3500 4000 1E-5 1E-4 1E-3 0.01 0.1 EMQ mínimo Conjunto de treinamento (3R) Conjunto total de dados

Épocas de Treinamento

Figura 9.2.Curvas de EMQ obtidas durante o treinamento de uma RNA com 27 neurônios ocultos e com o conjunto de treinamento C12-3R (R = 10, -1,57 e 0,1).

Isso não significa dizer que se pode exagerar excessivamente no treinamento da rede, pois este procedimento pode levar a resultados insatisfatórios, já que é comum a falta de um conjunto de dados suficientemente grande para a validação da rede. A opção mais segura é a utilização do bom senso limitando o número de épocas de treinamento e o valor do EMQTRE.

Como se sabe, a capacidade de aprendizado é dependente da quantidade de exemplos disponíveis e da complexidade da arquitetura, isto é sintetizado através da dimensão VC.

Apresenta-se na Tabela 9.1 os valores de EMQ e de r (coeficiente de correlação) para os melhores resultados obtidos para cada conjunto de treinamento. Analisando estes

resultados percebe-se que o aumento da quantidade de curvas S-N facilita o aprendizado da rede, apresentando, desse modo, resultados com menor valor de EMQTOD. Além disso,

percebe-se também pela Tabela que os melhores resultados obtidos para um treinamento com 3 curvas S-N (3R) obteve um EMQTOD entre 0,0004 e 0,0005 e entre 0,0004 e 0,0006 para o

EMQTRE. Ou seja, pode-se utilizar como critério de parada da rede perceptron um valor de

EMQTRE em torno de 0,0005 e um número máximo de 500 épocas de treinamento, quando a

Rede Perceptron for treinada com três curvas S-N.

1000 2000 3000 4000

1E-4 1E-3 0.01

Conjunto Total de Dados

Conjunto de Treinamento (6R)

Épocas de Treinamento

Figura 9.3.Curvas de EMQ obtidas durante o treinamento de uma RNA com 25 neurônios ocultos e com o conjunto de treinamento DD16-6R (R = 2, 10, -2, -1, 0,1 e 0,5). Analisando ainda os dados apresentados na Tabela 9.1, percebe-se que o aumento do número de curvas S-N diminui os valores de EMQTOD. É importante notar que, apesar da

diminuição do EMQTOD com o aumento do número de curvas S-N esta diminuição não ocorre

de modo linear (pode-se verificar isso no laminado DD16), pode-se inclusive dizer que para o compósito DD16 a diminuição do EMQ entre 3 e 5 curvas S-N é pouco significativa e que somente com 6 curvas S-N se conseguiu uma diminuição representativa. É interessante atentar para esse fato, pois isso demonstra a necessidade que a Rede Perceptron possui de que se apresente, durante o treinamento, não novos dados, mas sim de novas características ou novas informações, ou seja, para uma Rede Perceptron generalizar de modo satisfatório se faz necessário uma base de dados que represente bem o “ambiente” a ser modelado, e isso não necessariamente significa dizer um conjunto de treinamento com grande quantidade de dados.

treinamento do conjunto C10-4R, percebe-se que o valor obtido para a equação de Adam é de 0,0006 enquanto que pela Rede Perceptron se obteve um valor de 0,0003, obtendo-se desse modo uma variação percentual de 50 %.

Tabela 9.1. Melhores resultados obtidos para cada conjunto de treinamento (as RNAs utilizaram entre 2 e 30 neurônios ocultos e foram treinadas até 5000 épocas).

Conjunto de Treinamento

Conjunto Total de Dados Material

Compósito Treinamento Conjunto de

EMQTRE rTRE EMQTOD rTOD

Neurônios

Ocultos Treinamento Épocas de

3R 0,00062 0,979 0,00050 0,976 8 349 4R 0,00048 0,978 0,00041 0,980 23 493 DD16 _5R _{0,00045 0,984 0,00042 0,980} ₁₁ ₂₆₃ 6R 0,00015 0,995 0,00018 0,991 23 4988 3R 0,00049 0,990 0,00048 0,987 23 287 C10 _4R _{0,00031 0,993 0,00030 0,992} ₉ ₁₇₂₁ 3R 0,00037 0,989 0,00040 0,986 27 289 C12 4R 0,00027 0,992 0,00029 0,989 20 3577

Além da capacidade de generalização da Rede Perceptron ter se mostrado satisfatória no modelamento do comportamento à fadiga de materiais compósitos, a robustez do algoritmo de treinamento também foi suficientemente adequada para todos os conjuntos de treinamento. Para demonstrar este fato mostra-se na Figura 9.4 um exemplo da dispersão dos valores de

EMQMIN em função do EMQTRE para a mesmo número de épocas de treinamento, feita para

o conjunto de dados C12-3R. 1E-4 1E-3 0.01 1E-4 1E-3 0.01 5 a 30 neurônios ocultos 2 a 4 neurônios ocultos EMQ Mín im o (tod os o s d ado s)

EMQ conjunto de treinamento (3R)

Figura 9.4.Dispersão do EMQMIN obtido para o conjunto total de dados durante o treinamento

realizado para a arquitetura da rede perceptron com um conjunto de treinamento

Verificou-se também que, o aumento do número de curvas S-N no conjunto de treinamento melhorou a robustez do algoritmo de treinamento, já que a dispersão dos valores diminuiu, conforme se ilustra na Figura 9.5 para o caso do conjunto de treinamento C12-4R.

1E-4 1E-3 0.01 1E-4 1E-3 0.01 6 a 30 neurônios ocultos 2 a 5 neurônios ocultos EM Q M

ínimo (todos os dados)

EMQ conjunto de treinamento (4R)

Figura 9.5.Dispersão do EMQMIN obtido para o conjunto total de dados durante o treinamento

realizado para a arquitetura da rede perceptron com um conjunto de treinamento

C12-4R (R = 10, -1,57, -1 e 0,1).

No documento FADIGA DE ALTO CICLO EM COMPÓSITOS DE PRFV. MODELAGEM (páginas 151-156)