Validação e teste do modelo baseado em redes neurais

CAPÍTULO 4. MODELAGEM E IDENTIFICAÇÃO DE PROCESSOS

4.3. MODELOS NÃO LINEARES PARA IDENTIFICAÇÃO DE PROCESOS

4.3.5. Modelos empíricos com técnicas de inteligência artificial

4.3.5.1. Modelos empíricos com redes neurais artificiais

4.3.5.1.6. Validação e teste do modelo baseado em redes neurais

4.3.5.1.6.1. A validação cruzada (cross validation)

Treinar um modelo com um conjunto de dados e testar o seu desempenho estatistístico com os mesmos dados gera um resultado excessivamente otimista. A razão para isto é que no treinamento, os parâmetros do modelo são otimizados para refletir as peculiaridades do conjunto de dados utilizados.

A validação cruzada é uma ferramenta padrão em estatística que fornece procedimentos para obter uma boa estimativa do desempenho estatístico do modelo, testanto a sua saída com um conjunto de dados novos não utilizados no treinamento (HAYKIN, 2007).

4.3.5.1.6.2. Variantes da validação cruzada

A) Divisão dos dados em dois grupos

O hold out method é o tipo mais simples de validação cruzada, o conjunto de dados é dividido em um subconjunto de treinamento e um subconjunto de validação que é utilizado para testar o desempenho do modelo (ARLOT, 2010). O cômputo é simples, no entanto os resultados podem ser significativamente differentes dependendo de como foi feita a divisão.

B) Divisão dos dados em três conjuntos

Segundo Haykin (2007) para a validação cruzada, primeiro os dados são aleatoriamente divididos em conjunto de treinamento e conjunto de teste (test

set), o conjunto de dados de treinamento é ainda dividido em dois

subconjuntos: um subconjunto de estimação usado para selecionar o modelo e um subconjunto de validação usado para validar o modelo com um conjunto de dados diferente do usado para estimar os parâmetros. No entanto, o overfitting ainda pode estar presente no melhor modelo validado. Para evitar o overfitting, a capacidade de generalizar do modelo selecionado é medida com o conjunto de teste, o qual é diferente do subconjunto de validação.

C) Divisão de dados exaustiva (exhaustive data splitting) C1) Leave-one–out

Para um conjunto de

n

integrantes se realizam

n

experimentos, em cada um

deles o conjunto de validação tem um par entrada-saída e o conjunto de treinamento com

n

-1 pares entrada-saída, que se usam como exemplos de

treinamento. O número de conjuntos de treinamento é

n (

ARLOT, 2010).

C2) Leave-p-out

Realizam-se vários experimentos, o conjunto de

n

pares entrada-saída é

dividido em dois grupos em cada experimento: Conjunto de validação com n v

pares entrada-saída e conjunto de treinamento com n −nv pares entrada-saída

que se usam como exemplos de treinamento

(

ARLOT, 2010). O número de conjuntos de treinamento é: _

     = v n n T (4.88)

C3) Divisão de dados parcial (partial data splitting)

Considerando que _      v n n

conjuntos de treinamento podem ser computacionalmente intratáveis, esquemas de divisão parcial de dados foram propostas como alternativas.

C4) Validação cruzada V-fold.

Foi introduzida por Geisser (1975) como alternativa ao computacionalmente caro Leave-one–out.

Dividem-se os

n

pares entrada-saída em V subconjuntos de aproximadamente

igual cardinalidade

n

/V, cada subconjunto sucessivamente desempenha o

papel de subconjunto de validação cruzada. O conjunto de treinamento tem

n

/V pares de entrada-saída.

Figura 4.2. Método de V-fold para Validação cruzada, com V=3.

C5) Validação cruzada incompleta balanceada (BICV).

Foi proposta por Shao (1993), neste método se aplicam projetos de blocos incompletos balanceados (BIB) para distribuir o total de dados

n

em grupos de

treinamento e validação. O BICV pode ser visto como uma alternativa ao método de validação cruzada V-fold quando o tamanho do conjunto de treinamento

n

t é pequeno (ARLOT, 2010). Neste caso, o conjunto de validação

tem

n

pares

de entrada-saída:

v n n

n = − (4.89)

Para a aplicação do desenho BIB se utilizam os parâmetros:

a =

n

pares entrada-saída.

k = n

vpares entrada-saída por bloque.

Então, o número de blocos é:       = v n n b (4.90)

Atribui-se uma diferente combinação de pares entrada-saída para cada bloco. O número de repetições para cada par entrada-saída é:

      − − = 1 1 v n n r (4.91) Resultado 1 Treinamento Validação Resultado 3 Treinamento Validação Resultado 2 Treinamento Validação Conjunto de dados

Média dos resultados Resultado 1 Treinamento Validação Resultado 3 Treinamento Validação Resultado 2 Treinamento Validação Conjunto de dados

O número de vezes que cada par entrada-saída ocorre no mesmo bloco é: 1 ) 1 ( 2 2 − − =       − − = a k r n n v

λ

(4.92)

O parâmetro λdeve ser um número inteiro (MONTGOMERY, 2001).

No BIB, dois pares entrada-saída ocorrem juntos o mesmo número de vezes em relação a os outros pares.

I) Apredizagem-teste repetido (Repeated learning-testing)

Foi introduzida por Breiman et al. (1984) . Neste método os

n

pares

entrada-saída são divididos repetidas vezes aleatoriamente em um conjunto de treinamento

n

t de tamanho

n(1-p)

e um conjunto de teste

n

v de tamanho np , donde 0<

p

<1, n=n_t +n_v, tipicamente n ≥_t n_v (BURMAN, 1989). Se

p

=1/3 cada

conjunto de teste é de tamanho

n/3

e cada conjunto de treinamento é de

tamanho 2n/3. Para cada divisão são obtidas estimativas baseadas nos dados do conjunto de treinamento que depois são testadas com os dados do conjunto de teste.

4.3.5.1.6.3. A validação cruzada para seleção de modelos de redes neurais

A validação cruzada é uma importante ferramenta para seleção de modelos, a escolha do melhor modelo de rede neural é baseada na sua capacidade de generalização com dados novos contidos no conjunto utilizado para testar o desempenho do modelo.

Segundo Raghavarao e Padgett (2005), a seleção do melhor modelo está baseada no cálculo da média ao quadrado dos erros de previsão:

v n Y Y Y Y E ( ˆ) ( ˆ) ' ₋ − = (4.93)

Onde: Y é um vetor das n v respostas que correspodem ao conjunto de validação.

Yˆ é o vetor de respostas estimadas para o conjunto de validação baseadas no

modelo obtido com os nt pares entrada-saída utilizados para treinar a rede e

determinar seus parâmetros.

E é calculado para todas ou uma parte das _

     v n n

combinações que podem ser obtidas quando o total de dados se divide em dois grupos. O modelo selecionado possui o menor valor na soma das médias ao quadrado dos erros de previsão resultantes.

Quando se utiliza a distribuição de dados em três conjuntos segundo o esquema sugerido por Haykin (2007) :

tt t v e n n n n=( + ) + (4.94)

Onde : ntt é o número de pares entrada-saída do conjunto de teste. t

v e n

n )

( + é o número de pares entrada-saída do conjunto de treinamento divididos em ne pares entrada-saída para o conjunto de estimação e n v pares entrada saída

para o conjunto de validação.

Na Equação 4.93, Y é um vetor das n tt respostas que correspodem ao

conjunto de teste.

4.3.5.1.6.4. A validação cruzada e parada antecipada (Early stopping)

A parada antecipada é uma técnica utilizada para evitar o sobretreinamento (overtraining) na qual se determina o ponto de parada do treinamento por observação do erro produzido em predições com integrantes do grupo de validação cruzada.

O procedimento mais simples para aplicar o Early stopping é dividir o conjunto de dados em dois subconjuntos, um deles para treinamento e o outro

pesos, e o subconjunto de validação é usado para estimar a capacidade de generalização do modelo (REED, 1993). Quando o treinamento progride, o erro deve estar diminuindo tanto no conjunto de treinamento como no conjunto de validação. Com maior treinamento o aumento do erro no subconjunto de validação em lugar da diminuição é uma indicação da existencia de overtraining, portanto, o ponto onde é observado o erro mínimo é o ponto de parada do treinamento. Segundo Haykin (2007), o que a rede aprende além do ponto de erro mínimo é essencialmente ruído contido no conjunto de treinamento.

No entanto, a situação real é muito mais complexa. As curvas de generalização reais obtidas com o subconjunto de validação quase sempre têm mais de um mínimo local. Prechelt (1998a) reporta um caso com 16 mínimos locais, e afirma que é impossível, em geral, dizer a partir do início da curva se o mínimo global já foi visto ou não, ou seja, se um aumento no erro de generalização indica overfitting real ou é apenas intermitente.

Por tanto, a aplicação do Early stopping nos casos de mínimos múltiplos leva a um gasto de tempo de treinamento significativo para garantir bons resultados em relação à capacidade de generalização do modelo. Nestes casos com o uso de só dois subconjuntos: treinamento e validação; existe o risco de que ainda o overfitting possa estar presente no modelo validado, se o treinamento foi parado em um mínimo local e não no mínimo global.

A divisão dos dados em três subconjuntos: treinamento, validação e teste; para aplicar Early stopping é outra posibilidade mencionada na literatura. Prechelt (1998b) utilizou o seguinte procedimento para medir o desempenho da rede: 1) Divisão do conjunto de dados em duas partes distintas: dados de treinamento e

dados de teste.

2) Os dados de treinamento foram subdivididos em um conjunto de exemplos de treinamento utilizados para ajustar os pesos da rede e um conjunto de exemplos de validação usados para estimar o desempenho da rede durante o treinamento, conforme exigido pelos critérios de parada antecipada.

3) Os dados de teste foram usados para estimar o desempenho da rede após a conclusão do treinamento.

Segundo Kearns (1996) com dois grupos: treinamento e validação cruzada, uma porcentagem de aproximadamente 10% do conjunto total de dados é adequada para o subconjunto de validação cruzada. Haykin (2005) utiliza como referência estes resultados e indica que uma escolha apropiada é distribuir 20% do conjunto de treinamento para o subconjunto de validação. Nesse caso, o conjunto de treinamento divide-se em subconjunto de estimação e subconjunto de validação, e utiliza-se outro conjunto de teste diferente desse de validação para medir a capacidade de generalização do modelo.

Bose and Liang (1996) assinalam que 10% do conjunto de treinamento pode ser utilizado como subconjunto de validação.

Yahya, et al (2010) utilizaram Early Stopping com três subconjuntos: subconjunto de treinamento (60% dos dados), subconjunto de validação (20% dos dados) e subconjunto de teste (20% dos dados).

No documento Identificação de processos e controle preditivo com modelo utilizando técnicas de inteligência artificial aplicadas à produção de bioetanol (páginas 152-159)