• Nenhum resultado encontrado

A UTOMÁTICA (AA) PARA A VALIAÇÃO DO P ROBLEMA DE S EGURANÇA EM A NÁLISE

FASE 4 Avaliação de Desempenho

3.5.3 FASE 3 – Treino da Estrutura de Segurança de AA

Após a fase de geração de dados, será então possível passar-se ao processo de treino de uma estrutura de segurança por aplicação de uma determinada técnica de aprendizagem automática. No presente trabalho foram extraídas estruturas de segurança por aplicação das técnicas de AA que se caracterizam devidamente na secção 3.4 deste capítulo.

Antes do processo de treino, foi necessário realizar uma análise do conjunto de dados gerado, de modo a avaliar a sua capacidade de representar devidamente o problema de segurança em estudo. Desta análise resultou a necessidade de se realizarem diversos ajustes do método de geração de dados implementado, tendo-se assim criado um processo iterativo prévio à aplicação da FASE 3 da metodologia que se resume na Figura 3.8.

Antes do treino das estruturas de segurança, realizou-se ainda no presente trabalho o procedimento de normalização que se descreve na secção 3.5.3.1 seguinte. Na secção 3.5.3.2 descrevem-se ainda os procedimentos que foram utilizados, no âmbito do treino das estruturas de segurança, para realizar a tarefa de selecção de características. Esta tarefa visou identificar o conjunto de variáveis de entrada (também denominadas características) que melhor explica a variação do valor de cada índice de segurança em análise, pois, como será fácil de compreender, este conjunto permitirá obter estruturas de segurança com melhores desempenhos de previsão.

3.5.3.1 Normalização das variáveis de entrada e de saída

No sentido de evitar diversos problemas numéricos durante o processo de treino das ANN e dos LRM realizou-se, previamente à obtenção deste tipo de estruturas, uma normalização das variáveis de entrada e de saída que compõem o conjunto de dados. De entre as diversas alternativas que se podem encontrar na literatura, nos trabalhos realizados na presente tese foi adoptada a técnica que transforma cada variável de modo a que, no conjunto de dados, tenha um valor médio nulo e uma variância unitária. Segundo esta técnica, seja a a variável original e a a variável normalizada, a transformação realiza-se da seguinte forma: N

N a a a a s − = (3.29)

onde a e s correspondem ao valor médio e variância amostral da variável 2a a.

Para o treino das RT não foi adoptado nenhum procedimento prévio de normalização de variáveis, por não ser do conhecimento da autora que o desempenho desta técnica seja sensível à ordem de grandeza das variáveis que compõem o conjunto de dados.

3.5.3.2 Selecção de características

Esta tarefa consistiu num processo de selecção das características, de entre o vector das variáveis de entrada candidatas, que maximizam a capacidade de previsão do modelo funcional, sendo este processo denominado, na literatura anglo-saxónica, feature subset

selection.

Para alcançar este objectivo, o ideal seria proceder a uma busca exaustiva através da construção de todos os modelos funcionais que combinem, de todas as maneiras possíveis, as características candidatas. No entanto, atendendo ao esforço computacional necessário para construir todos os possíveis modelos, a busca exaustiva está limitada a um baixo número de características candidatas. Por exemplo, sabendo-se que, para ne características candidatas, o número de modelos funcionais possíveis é 2ne−1, se ne=4 existirão apenas 15 modelos funcionais alternativos, pelo que neste caso seria razoável aplicar uma busca exaustiva. No entanto, no caso de ne=10 existirão 1023 modelos funcionais a construir, pelo que nesta situação já se justificaria recorrer a algum método expedito que evitasse um esforço computacional tão elevado.

Saliente-se que, de entre os métodos de AA utilizados neste trabalho, as ANN correspondem à técnica onde o processo de selecção de características é mais crucial. Efectivamente, no caso da construção de um LRM, tal como se explica na secção 3.4.2, os algoritmos de treino já consideram procedimentos quasi-exaustivos próprios de selecção de regressores, os quais pretendem eliminar, do vector de características candidatas, problemas de colinearidade e outro tipo de informação redundante ou não relevante para a construção do modelo linear. Apesar de quasi-exaustivos, estes procedimentos são bastante rápidos, uma vez que a construção de cada modelo de regressão linear se resume à resolução de um sistema de equações lineares.

No caso da construção de uma RT, o desempenho da estrutura em árvore construída não é prejudicado pela existência, no vector de características candidatas, de variáveis fortemente relacionadas. Isto porque, tal como se descreve na secção 3.4.3, cada passo da construção de uma RT (divisão de um nó da árvore) só considera a influência de uma característica. O desempenho destas estruturas também não é prejudicado pela existência de variáveis pouco relevantes no vector de entradas, uma vez que a variável escolhida para realizar a divisão de um nó resulta de um processo exaustivo de busca da característica mais relevante de entre o conjunto de todas as candidatas. Como limitação deste processo de construção, resulta a não capacidade das RT em extrair conhecimento resultante da influência de conjunto de características. Para tentar ultrapassar esta dificuldade, poderá ser de interesse incluir, no conjunto de características candidatas para treino de uma RT, variáveis adicionais que resultem da combinação de outras variáveis (como, por exemplo, a produção eólica total que resulta da soma da produção eólica em todos os parques da área de controlo em análise), sempre que se suspeite que essa combinação possa ser relevante para explicar o fenómeno causa/efeito em análise.

No contexto do treino de uma ANN, podem encontrar-se muitos trabalhos de investigação onde o problema da selecção de características é tratado e onde diferentes técnicas são propostas para a resolução deste problema. De entre estes trabalhos, refiram-se os que sugerem uma procura quasi-exaustiva ou através de algoritmos genéticos (tal como os trabalhos que se referem em [47]), os quais exigem um elevado esforço computacional, uma vez que recorrem à realização de repetidos treinos de ANN. Para ultrapassar a barreira do esforço computacional, no presente trabalho optou-se por testar a aplicação de métodos expeditos que visam eliminar informação redundante ou não relevante do vector de variáveis de entrada, os quais se descrevem a seguir.

Coeficiente de Correlação Amostral

Uma técnica clássica, que poderá ser sempre aplicada no âmbito da selecção de características, consiste no cálculo do coeficiente de correlação amostral (bem conhecido da estatística) para detectar elevados graus de relacionamento linear entre cada par de características candidatas do conjunto de dados. No caso desse coeficiente ter um valor absoluto próximo de 1, significa que uma das duas variáveis poderá ser eliminada do vector de entradas por a relação entre estas ser fortemente linear.

Apesar de se limitar à detecção de relações do tipo linear, esta é uma análise que se justifica fazer sempre que se pretenda eliminar informação redundante do vector de entradas. Esta análise poderá ser ainda útil para avaliar a qualidade dos dados gerados para treino dos modelos funcionais, por permitir detectar fortes correlações, que não sejam intencionais, entre condições de operação geradas. Desta forma, poderão ser detectadas situações em que a qualidade do conjunto de dados gerado não seja suficiente por a gama de operação do sistema não estar devidamente representada.

Selecção de Características Fornecida por Modelos de Regressão Linear

Por aplicação do método passo a passo para a selecção dos regressores de um LRM (processo descrito na secção 3.4.2), nos trabalhos desenvolvidos para a presente tese foi testada a capacidade de usar essa selecção para treino de uma ANN. De facto, sabendo que este método visa eliminar problemas de colinearidade e outro tipo de informação redundante ou não relevante para a construção de um modelo de regressão linear, colocou-se a hipótese de as características seleccionadas desta forma poderem consistir num melhor conjunto de entradas para o treino de uma ANN.

Tal como se pode verificar pelos resultados que se apresentam no Capítulo 5 e publicados em [64], no presente trabalho, esta abordagem foi aplicada com sucesso aquando da avaliação do problema de segurança em análise para a rede interligada de teste que se descreve no Capítulo 4.

Selecção de Características Fornecida por Árvores de Regressão

No âmbito da resolução de problemas de classificação, em [42] e [65] publicam-se trabalhos onde a estrutura de uma árvore de decisão é utilizada para realizar selecção de características, nos quais apenas as características seleccionadas para a divisão dos nós da árvore são consideradas como relevantes para pertencerem ao vector de entradas de um modelo funcional de AA. Inspirada nos trabalhos publicados em [65] e [42], em [35] a autora da presente tese publica um trabalho onde explora o conhecimento obtido da construção de uma RT para realizar selecção de características prévia ao treino de uma ANN, no âmbito da avaliação de segurança dinâmica de um sistema eléctrico isolado atendendo ao comportamento transitório da frequência. Segundo esta técnica, primeiro é construída uma RT para emular o

comportamento em análise, com a melhor capacidade de generalização possível e na qual se consideram todas as características candidatas. Desta construção, a relevância de cada característica é medida pelo ganho que esta forneceu, durante o processo de divisão de cada nó

t da árvore, na redução do erro de regressão, sendo este ganho medido pela grandeza

( )

MSE t

∆ que se descreve na equação (3.25). Por fim, com base nestes ganhos, realiza-se uma ordenação de importância entre características, sendo assim possível eliminar as características com um ganho inferior a um determinado valor limite. Neste processo, para a medição do ganho fornecido por cada característica, foram testadas as seguintes variantes:

• variante 1: O ganho fornecido por uma característica corresponde ao somatório do valor máximo obtido de ∆MSE t

( )

para cada nó t não terminal da árvore, por aplicação dessa característica para dividir o nó, mesmo que não tenha sido essa a variável final seleccionada para realizar a divisão do nó.

• variante 2: O ganho fornecido por uma característica corresponde ao somatório do valor obtido de ∆MSE t

( )

para cada nó t não terminal da árvore onde essa característica tenha sido a variável seleccionada para realizar a divisão do nó. Note-se que, na sua versão mais relaxada, na aplicação desta variante podem descartar-se apenas as características que não forneçam qualquer ganho de informação, ou seja, que não tenham sido seleccionadas para dividir qualquer nó da árvore. Desta forma, esta segunda variante torna-se semelhante às filosofias de selecção de características que se propõem em [65] e [42].

A partir dos resultados que se apresentam em [35], mostra-se que ambas as variantes atrás descritas foram capazes de reduzir o erro de regressão das ANN treinadas para avaliar um problema de segurança relacionado com o comportamento transitório da frequência. Apesar dos bons resultados obtidos em [35], a aplicação desta técnica ao problema de segurança em análise na presente tese mostrou fornecer resultados piores do que os que se obtiveram por exploração do método passo a passo para selecção de características, no âmbito do treino de um LRM. Por esta razão, os resultados obtidos por aplicação desta técnica não se apresentam nesta dissertação. O pior desempenho observado, por aplicação desta técnica, pode explicar-se pelas limitações inerentes à sua aplicação que são, de alguma forma, ultrapassadas pela aplicação do método passo a passo, as quais correspondem às seguintes situações:

• Por avaliar a relevância de cada característica em separado, esta técnica tem como limitação a incapacidade de detectar a influência de conjunto de características. Isto porque, tal como se explica em [66], com a excepção de alguns casos especiais, as medidas de importância individuais de cada variável de entrada não podem ser combinadas para fornecer a importância de conjunto de variáveis de entrada.

• Uma outra limitação resulta da incapacidade desta técnica em identificar redundâncias que resultem da existência de relações fortes entre características candidatas.