Algoritmo Proposto - Uma Abordagem Evolucionária para Estimação Simultânea de

5.4 Uma Abordagem Evolucionária para Estimação Simultânea de

5.4.1 Algoritmo Proposto

Em (Nakada et al., 2005), os dados de identificação foram classificados utilizando-se uma mistura de gaussianas obtidas por meio do algoritmo EM, baseando-se na distribuição dos regressores mais a saída desejada. Assim, o modelo de mistura depende não só dos regressores como também da saída para classificar uma determinada amostra. Como em situações de simulação do algoritmo não se tem a saída do sistema real, um classificador deve ser implementado com as saídas (classificações) realizadas pela mistura obtida anteriormente, utilizando apenas os regressores como entrada. Isso pode ser feito por uma SVM, como em (Nakada et al., 2005). Um outro inconveniente é a possibili- dade de ficar preso em mínimos locais, por ser um método de busca local, e ser relativamente dependente de uma distribuição favorável à sua estrutura, como ficará claro no exemplo numérico 4 apresentado na próxima seção.

A fim de obter um algoritmo em que seja possível estudar as funções J1e Jse que seja mais robusto a mínimos locais, que já obtenha ao final de sua execução um classificador baseado apenas em regressores e que possa encontrar submodelos distintos, além do ARX, um algoritmo evolucionário é aqui proposto.

A estrutura base do algoritmo é uma mistura de gaussianas (cada modelo na mistura representa um modo do sistema), porém, com parâmetros ajustados pelos AGs. Cria-se, então, uma população de indivíduos com os seguintes pa- râmetros a serem evoluídos: as médias de cada modelo da mistura (modo) e a matriz de covariâncias. A partir das médias e covariâncias, os dados repre- sentados pelo conjunto de regressores são classificados para o componente que obtiver a maior probabilidade a posteriori para a determinada amostra (ou pode- se utilizar ponderações). Após a classificação dos dados, o algoritmo de MQ ou

MQEP é utilizado para estimar os parâmetros dos submodelos ARX ou ARMAX correspondente a cada modo. Com os modos e os submodelos disponíveis, o sistema híbrido é simulado e os erros um passo à frente (J1) e de simulação livre (Js) podem ser obtidos. Os indivíduos são avaliados por uma dessas entidades e a evolução da população continua por um número determinado de gerações. O algoritmo proposto, chamado AGPWA, é uma implementação do algoritmo genético cuja função de avaliação dos indivíduos é descrita no Alg. 12.

Algoritmo 12 Avaliação dos indivíduos do AGPWA

1: Entradas: Indivíduo ind, ordem dos submodelos, número de submodelos, dados de

identificação

2: Implementar uma mistura de gaussianas a partir das variáveis de ind (mé-

dias e covariâncias)

3: Classificar (ou atribuir pesos) os dados de identificação em cada modo defi- nido pela mistura, a amostra pertencerá (ou terá peso maior) à componente da mistura que obtiver a maior probabilidade a posteriori

4: Utilizar o algoritmo de MQ ou MQP para estimar parâmetros dos submodelos ARX, ou MQEP para estimar parâmetros dos submodelos ARMAX

5: Avaliar o desempenho (MSE) de ind, simulando o sistema híbrido formado,

em uma das duas funções custo: J1ou Js

6: Saída: Avaliação de ind.

Observe que os parâmetros dos submodelos são calculados a cada avaliação dos indivíduos, apenas os parâmetros da mistura, pertencentes ao genótipo dos indivíduos, são evoluídos. Com isso evita-se a evolução de um número grande de variáveis, focando o algoritmo genético no problema de classificação uma vez que existem soluções eficientes para a estimação de parâmetros, seja ou pelo MQ ou pelo MQEP, dependendo do problema. Porém, essa alternativa aumenta o custo computacional da etapa avaliação dos indivíduos por estimar os parâ- metros dos submodelos a cada avaliação.

Como o foco deste trabalho é a identificação de sistemas PWA do tipo PWARX, PWARMAX ou PWOE, uma simplificação na matriz de covariâncias das misturas de gaussianas pode ser realizada, qual seja a utilização de uma matriz de covariâncias igual à matriz de identidade. Assim sendo, apenas as mé- dias dos componentes da mistura precisam ser estimadas pelos AGs, reduzindo seu custo computacional. Além disso, o peso atribuído a cada amostra é zero ou um, a amostra pertence ou não à determinada região.

O algoritmo AGPWA pode ser utilizado em uma variedade de problemas. Por exemplo, pode ser empregado apenas como um combinador de especialistas

já conhecidos. Assim, deseja-se obter apenas os pesos da combinação desses especialistas e suas respectivas regiões de atuação. Além disso, nada impede a presença de submodelos não-lineares (NARMAX). Se o objetivo é encontrar regiões não linearmente separáveis, outros sistemas classificadores poderiam ser utilizados como uma rede neural, por exemplo.

Na próxima seção, o AGPWA será testado nos quatro experimentos PWA descritos anteriormente. Porém, os exemplos serão testados em outras diferentes configurações além de PWOE, são elas: PWARX e PWARMAX. Ademais, implementações com J₁e Jsserão comparadas.

5.4.2 Experimentos

Nos experimentos a seguir, o AGPWA, implementado com as diferentes funções custo J1 e Js, será testado nos problemas de identificação apresentados em (5.6, 5.7, 5.8, e 5.12).

Porém, naqueles casos, apenas simulações por erro na saída foram realizadas, ou seja, por sistemas PWOE. Esses experimentos, todavia, têm por objetivo avaliar o algoritmo proposto AGPWA em diferentes modelos de ruído (PWOE, PWARX e PWARMAX) com as duas funções custo J₁e Js. Nos modelos PWARX, ruído branco é adicionado na equação e em modelos PWARMAX ruído colorido é adicionado na equação.

As Fig. 5.2, 5.3, 5.4 e 5.5 (a) e (b) apresentam algumas amostras de entrada e saída, respectivamente, do conjunto de identificação dos modelos. Nas Fig. 5.2, 5.3, 5.4 e 5.5 (c), o chaveamento entre os modos dos sistemas é mostrado.

Três implementações do AGPWA são executadas: i. AGPWA com função erro J1e com submodelos estimados pelo algoritmo clássico de mínimos quadra- dos, MQ, denominado assim AGPWA (J₁– MQ); ii. AGPWA com função erro J₁ com parâmetros dos submodelos estimados pelo MQEP em que a predição um passo à frente do sistema identificado é obtida utilizando o respectivo modelo de ruído encontrado, sendo denominado AGPWA (J1 – MQEP); e iii. AGPWA com função erro Js e com parâmetros dos submodelos obtidos por MQEP, denominado assim AGPWA (Js).

Os algoritmos foram executados 100 vezes para cada configuração (PWOE, PWARX e PWARMAX), com diferentes realizações de ruído, e validados em um conjunto sem ruído de 10.000 amostras, para cada um dos quatro exemplos. A Tab. 5.5 apresenta o erro médio dos sistemas identificados pelas diferentes

abordagens AGPWAs, nas diferentes configurações de ruído.

Tabela 5.5: Resultados de simulação de Monte Carlo, 100 execuções, do algoritmo AGPWA para os 4 exemplos apresentados, cada um com três configu- rações de ruído: PWARX, PWOE, PWARMAX. Os valores representam o acerto (porcentagem do número de vetores corretamente classificados) e o desvio (%).

AGPWA(J1- MQ) AGPWA(J1- MQEP) AGPWA(Js)

Exemplo 1 PWARX 96,72_±1,87 96,39_±2,61 95,16_±4,57 PWOE 93,49_±2,46 93,59_±2,62 87,69_±5,90 PWARMAX 97,22_±1,51 97,00_±1,52 95,07_±3,58 Exemplo 2 PWARX 95,75_±1,97 95,88_±1,96 94,17_±2,80 PWOE 95,92_±2,02 97,37_±1,48 89,95_±5,97 PWARMAX 95,42_±1,97 96,44_±1,66 96,45_±1,65 Exemplo 3 PWARX 94,19_±1,52 93,99_±1,70 93,07_±1,66 PWOE 93,29_±1,81 94,14_±1,84 93,92_±1,57 PWARMAX 93,41_±1,83 93,94_±1,82 94,21_±1,65 Exemplo 4 PWARX 95,97_±1,59 95,60_±1,46 94,55_±1,29 PWOE 93,71_±1,99 94,01_±2,66 86,43_±3,74 PWARMAX 96,56_±1,41 96,61_±1,47 96,42_±1,58

Como pode ser observado, o uso de J1apresentou, na maioria das vezes, me- lhores resultados do que o uso de Js, pois, além de obter um acerto médio maior, também apresentou menores desvios. Além disso, não houve ganho significa- tivo na classificação dos dados de validação com o uso de MQEP. O que mostra que, para o problema de identificação dos estados discretos do sistema, o uso de MQ é suficiente mesmo em se tratando de modelos PWOE e PWARMAX (embora nestes casos o uso de MQEP apresentou alguma melhoria), onde os pa- râmetros dos submodelos estimados por ele são tendenciosos, como mostrado anteriormente. Obviamente, após a etapa de classificação tenha sido feita pelo AGPWA (J1– MQ), é aconselhável o uso de MQEP para estimar os parâmetros dos submodelos do modelo híbrido final. Este resultado é importante em re- lação à diminuição do custo computacional do algoritmo, pois o emprego de MQEP causa um aumento do custo computacional em relação ao MQ. Como discutido anteriormente, Jstambém aumenta o custo computacional, sem justi- ficativa nestes experimentos.

Como também já mencionado, a função custo Js é mais difícil de ser mini- mizada. Esse pode ser um dos motivos que levaram a um maior erro de clas- sificação quando da utilização dessa função em relação à J1, além de um maior desvio constatado. Além disso, em modelos do tipo PWOE, onde esse erro foi ainda maior, não é possível encontrar uma separação linear dos modos sem que haja erro na classificação (a divisão das regiões é baseada em dados sem ruído uma vez que o ruído é adicionado na saída, porém, a identificação é realizada com dados ruidosos). Isso é um agravante quando se utiliza Js pois o erro é acumulado na simulação do sistema. Porém, é interessante observar que para o caso de modelo de Hammerstein, Exemplo 3, em que o ruído não modifica a classificação por depender apenas da entrada (função de saturação), os modelos obtidos por Js no PWOE não foram piores do que nas outras configurações, como relatado acima, o que confirma a hipótese discutida.

A fim de comparar melhor o comportamento médio da etapa de classificação das diferentes propostas do algoritmo AGPWA, nas diferentes configurações de ruído, uma simples análise de tendência pode ser realizada. A tendência de um certo classificador pode ser vista como uma repetibilidade de seus erros em amostras semelhantes. Imagine que exista um conjunto de classificadores obtidos por diferentes conjuntos de treinamento de um mesmo problema, caso estes classificadores tenham sido encontrados por um mesmo algoritmo de apren- dizagem, ao se construir um ensemble desses classificadores por voto majoritário (ou seja, após obtida a classificação de cada componente, a classificação final do ensembleé obtida pela classe com maior número de votos) é possível observar as amostras com erro repetitivo.

Essas amostras representam, então, a tendência desse conjunto de classificadores. Dessa forma, a partir dos classificadores identificados pelos diferentes métodos AGPWA, será formado um ensemble para cada método, como se tratam de classificadores de mesma estrutura, o objetivo é compreender a tendência do AGPWA. Além do AGPWA, o mesmo raciocínio é empregado na implemen- tação de um ensemble a partir de classificadores obtidos por meio do método descrito por Nakada et al. (2005), aqui entitulado EM-PWA (trata-se de uma mistura de gaussianas treinada por meio do algoritmo EM em que se considera não apenas o conjunto de regressores mas também a saída do sistema na classi- ficação dos padrões).

A Tab. 5.6 apresenta os resultados dos ensembles formados com 100 classificadores treinados pelos AGPWAs e pelo EM-PWA (por ser um método de busca

local, o algoritmo EM foi executado 50 vezes em cada uma das 100 implemen- tações e o sistema identificado com menor erro foi escolhido). As Fig. 5.3, 5.4, 5.5 e 5.6 mostram os estados discretos identificados pelos ensembles. Comparando os três métodos AGPWAs, as mesmas conclusões discutidas anteriormente são confirmadas, a escolha de J1e de MQ para a etapa de classificação é preferível por ser de menor custo computacional e obter resultados equivalentes. É notório observar a tendência do AGPWA(Js) no problema PWOE do Exemplo 4, o que ocorreu em uma escala bem menor com a utilização de J₁.

Ao observar as figuras das partições obtidas pelos ensembles, pode também ser inferido que os algoritmos AGPWA tiveram mais dificuldade em estimar as regiões nos Exemplos 2 e 4, em que uma tendência nas mesmas localizações no espaço dos regressores, porém, com diferentes intensidades, pode ser obser- vada. Esse fato possui inúmeras explicações plausíveis que ainda precisam ser investigadas tais quais: como submodelos com dinâmicas ou ganhos não muito diferentes podem interferir nessa escolha, classes não balanceadas, ainda em re- lação ao ganho dos submodelos, o acréscimo igual de ruído em cada parte do sistema faz com que a estimação de parâmetros seja prejudicial naqueles com menor ganho (por terem menor relação sinal ruído) e possivelmente pode interferir na escolha dos estados discretos também.

Com relação ao EM-PWA, com exceção do Exemplo 1, foram obtidas piores classificações. Como mostrado na Fig. 5.10, soluções inferiores também foram encontradas nos Exemplos 2 e 4. No Exemplo 2, pode-se constatar uma superfí- cie de separação não-linear em se considerando o conjunto de regressores (isso foi observado em cada um dos 100 modelos identificados). Essa característica é um ponto importante na comparação do algoritmo AGPWA proposto com o EM-PWA. Como este último considera a saída durante a classificação, não ne- cessariamente, no conjunto de regressores, a separação das regiões se dará linearmente, além de muitas vezes poder ser não separável. Isso não acontece no AGPWA em que as classificações são sempre obtidas baseando-se apenas no conjunto de regressores.

No Exemplo 4 fica claramente visível uma limitação do uso de técnicas basea- das apenas na distribuição dos dados como o EM-PWA. Ao utilizar uma entrada bi-normal a distribuição dos dados contribuem para que o método de agrupamento agrupe as amostras baseando-se apenas na entrada, como o ocorrido. Nesse caso, o número de modos a ser escolhido deveria ser quatro, pois são dois submodelos (classes) excitados por uma entrada com duas distribuições

distintas. Porém, ao usar quatro classes, obtém-se um sistema híbrido mais complexo sem necessidade. Isso não só acarreta em um modelo mais complexo mas, também, em um possível sistema de controle mais complexo. Além do mais, o sistema representado em (5.12) apresenta apenas dois modos, essa condição de quatro modos só é obtida devido às amostras adquiridas do sistema em um possível ensaio. Idealmente um algoritmo deveria extrapolar as condições de ensaio (generalização) e identificar o sistema que por definição possui apenas dois modos.

Embora outros métodos presentes na literatura não tenham sido implemen- tados, algumas discussões podem ser realizadas. No método de programação mista inteira apresentado por (Roll et al., 2004), além de ser originalmente proposto para uma subclasse de modelos PWARX, o HHARX, possui um custo computacional muito alto, fazendo com que não seja computacionalmente possível sua aplicação em problemas como muitas variáveis ou em conjuntos com um número grande de amostras (Juloski et al., 2006). Além disso, por classificar as amostras baseando-se apenas no erro de predição, pode-se obter classes não linearmente separáveis (Juloski et al., 2006).

Os procedimentos bayesiano (Juloski et al., 2005) e por erro limitado (Be- mporad et al., 2005) possuem vários parâmetros de ajustes cuja influência nos resultados de identificação não são óbvias (Juloski et al., 2006). No método de agrupamento pode-se encontrar regiões não separáveis e, quando o conjunto de regressores é sobre-parametrizado, resultados ruins podem ser encontrados.

Em nenhum dos métodos da literatura supracitados foram considerados os casos PWOE e PWARMAX, sendo que neste trabalho foi proposto um método para estimar os parâmetros dos submodelos desses casos de forma não- tendenciosa. Assim, para classificar as amostras, qualquer método poderia ser utilizado, embora cada qual com sua limitação, porém, aconselha-se o uso de MQEP na estimação dos parâmetros.

No documento Computação evolucionária e máquinas de comitê na identificaçãode sistemas não-lineares (páginas 157-163)