Seleção de Variáveis - 4 Metodologia Proposta

4 Metodologia Proposta

4.3 Seleção de Variáveis

Com o intuito de expandir a atuação das técnicas de seleção para diferentes situações, são utilizadas diferentes configurações, que combinam os parâmetros e formam muitos conjuntos a serem trabalhados, assim pode-se chegar a algumas conclusões gerais sobre a eficácia de cada tipo de seleção. Este tipo de análise também ajuda a identificar as características particulares de uma ferramenta de seleção, as quais parecem fazê-la funcionar melhor e os recursos que possam prejudicar a sua eficácia.

A ferramenta inicia o processo de seleção de dados, onde o objetivo é encontrar os possí- veis melhores subconjuntos de variáveis para o sistema, estabelecidos a partir do número de lags desejados (atrasos em relação ao instante atual). São utilizadas as seguintes técnicas de seleção e redução de dados: informação mútua e informação mútua parcial.

4.3.1 Definição dos lags utilizando MI

A informação mútua é uma medida da quantidade de informação entre os dados e . Quanto mais próximo de 0 (zero), mais os dados são independentes, do mesmo modo, quanto maior o valor, mais os dados são dependentes.

A proposta é utilizar os lags que apresentam maior dependência, pois dessa forma, têm-se os atrasos que são mais significativos. A aplicação é simples, suponha que se pretende determinar quais os valores anteriores a da série, os quais apresentam maiores dependência com este valor. Estes valores são determinados através do cálculo da MI de valores anteriores a com o

próprio valor de , e são escolhidos os lags que apresentarem maiores valores de MI. Em termos práticos, a pesquisa com os valores anteriores fica restrita ao intervalo .

A pesquisa dos lags mais significativos pode ser feita de várias maneiras, uma delas é por blocos de elementos sucessivos, em que, ao invés de buscar as relações para um único elemento pode-se pesquisar os lags mais significativos para um conjunto de elementos . Dado um período a ser analisado , e o intervalo de a , onde , têm-se vários conjuntos de até (Figura 4.5).

O objetivo do cálculo dos MI’s é identificar as entradas mais dependentes de um dado conjunto de saída com cada possível conjunto de entrada . Inicialmente, calcula-se o , em seguida o , e assim sucessivamente, até . Depois de calculado todos os MI’s, são selecionados os

lags com maiores valores de MI. Supondo hipoteticamente que é o conjunto com maior

valor, então para todos os elementos de será considerado que o elemento do intervalo anterior é o de maior dependência.

Figura 4.5 - Intervalos de lags para a seleção de entradas.

O sistema calcula o para todos os intervalos de ( até ). Com os resultados, ordenam-se os valores [ ] para que se obtenham os lags que apre- sentam maior dependência.

Yn Yj Ym X Intervalo de tempo Perí o d o d a séri e x t+i-n x t+i-j x t+i-m x t+i x t+1 x t x t-m xt+1-m x t-j xt+1-j x t+1-n x t-n

A Figura 4.6 mostra um exemplo do MI calculado, no qual o último ponto à direita é o valor de , o próximo elemento à esquerda é o valor de , e assim sucessivamente, até . De acordo com os valores apresentados, foram selecionados os três lags ( , e ) com os maiores valores. Assim, a construção da base utiliza os dados que estão situados à , e intervalos de tempo atrás do momento atual. Dessa forma, o conjunto de pontos da série são as entradas mais dependentes com cada elemento .

Figura 4.6 – Calculo do MI selecionando 3 lags.

A construção da base utiliza os dados que estão situados à , e horas atrás do momen- to atual. Dessa forma o conjunto são os instantes utilizados para compor o momento a ser verificado. O mesmo vale para qualquer momento , o qual possui o conjunto .

Uma variação que pode ser adicionada ao MI é o jump, dado que o objetivo da metodolo- gia é trabalhar com séries temporais. Assim, temos a série discretizada em horas , por exemplo, , mas ela pode ser dividida em dias , por exemplo, , ..., (1;24),(2;1), ..., (2;24)}.

Para a técnica de seleção exemplificada acima, considera-se o jump “hora a hora”, pois a análise é feita indiferentemente do dia. Mas dada a discretização em dias, pode-se trabalhar com a seleção MI verificando apenas o jump “dia a dia”, isto é, os conjuntos e são definidos em função de cada hora do dia, porém o intervalo é contínuo e definido em horas.

Ym Yc Ya Yb Yn 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Lags (Y) MI(X ;Y )

Veja o exemplo: para a seleção da hora 01, temos e , o mesmo vale para qualquer hora , onde e . Assim, cada possui um conjunto de lags específicos, no caso ( , e ). Nesta abordagem, a composição dos elementos dos conjuntos não são sucessivos no tempo.

4.3.2 Definição dos lags utilizando PMI

Outra técnica de seleção de variáveis é o , que parte do mesmo princípio do MI, a diferença é que a dependência dos dados é comparada com um terceiro grupo de variáveis candidatas. O conjunto de variáveis candidatas ( ) é composto por conjuntos de entradas com as maiores dependências, no entanto, a seleção destes conjuntos utiliza uma estratégia diferente do MI. A dificuldade dessa técnica está em estabelecer o conjunto de variáveis candidatas iniciais e um critério de parada eficiente.

Para a seleção das variáveis candidatas iniciais, optou-se por utilizar as informações obti- das no MI, adotando o conjunto de entrada com lag mais significativo, o qual compõe o conjunto das entradas candidatas. Ou seja, são calculados os valores de MI como descrito na Seção 4.3.1 e apresentado como parte do processo do PMI, na Figura 4.7 (1ª iteração). Neste cálculo, o conjun- to foi o que apresentou maior correlação, e portanto, será a primeira série do conjunto de entradas candidatas ( ).

As demais iterações são executadas pelo PMI, o qual segue o mesmo princípio do MI, mas que é influenciado pelo conjunto de entradas candidatas. A correlação de todos os conjuntos de entradas é calculada em relação ao conjunto de saída , levando em consideração os efeitos existentes do conjunto de entradas candidatas já selecionados.

Na 2ª iteração, o PMI calcula a relação de independência para todos os conjuntos de entrada em relação ao conjunto de saída e a entrada candidata selecionada. Os resultados obtidos são apresentados na Figura 4.7 (2ª iteração), sendo selecionado o conjunto de entrada de maior dependência ( ) e adicionado ao conjunto de entradas candidatas .

Por fim, a 3ª iteração segue o mesmo procedimento é o conjunto de entrada com maior dependência e que também é adicionado às variáveis candidatas . Os lags são dados pelo conjunto de variáveis candidatas .

Figura 4.7 – Calculo do PMI selecionando 3 lags.

Da mesma forma que o MI, o PMI selecionou apenas 3 lags ( , e ) que possuem maior dependência a cada iteração, mas o número de lags pode ser alterado para a quantidade que melhor se adequar a metodologia e ao problema. A construção da base é feita da mesma forma, o conjunto são os instantes utilizados para compor o momento a ser verificado; o mesmo vale para qualquer momento o qual possui o conjunto .

Esse processo é mais lento, pois é preciso percorrer todo o intervalo a ser analisado ( ) para definir um único atraso, e assim sucessivamente, até se obter um número suficiente de lags que componham as variáveis candidatas. O jump “hora a hora” ou “dia a dia” também pode ser empregado ao PMI, já que a estrutura dos dados continua a mesma, diferindo apenas no processo de seleção.

Nenhum método de seleção é perfeito. Na melhor das hipóteses, podemos fazer uso de in- formações obtidas durante a seleção para fazer algumas previsões razoavelmente precisas sobre o desempenho futuro. Em certo sentido, a seleção pode ser vista como um procedimento de gestão de risco que ajuda a organizar e a evitar a escolha de candidatos inadequados.

Ym Ya Yn 0 0.25 0.5 0.75 1 MI(X ;Y ) 1 ª It eração Ym Yd Yn 0 0.2 0.4 0.6 PMI(X ;Y ;Z ) 2 ª It eração Ym Ye Yn 0 0.1 0.2 0.3 0.4 Lags (Y) PMI(X ;Y ;Z ) 3 ª It eração

4.3.3 Variáveis Exógenas

Uma das principais influências no consumo de energia elétrica num horizonte de curto prazo é a condição climática. Altas temperaturas e clima úmido levam a um maior consumo de equipamentos de refrigeração, como também temperaturas muito baixas requerem maior consumo para aquecimento. Nesse sentido, é importante que se considere variáveis climáticas, princi- palmente a temperatura, como entradas dos modelos de previsão de demanda de curto prazo.

Nesta dissertação, não foi levado em conta as séries de temperatura, por serem necessárias séries de temperatura geograficamente próximas dos barramentos. Também é preciso pré- processá-las para torná-las compatíveis com as séries de carga.

No caso das variáveis climáticas, é possível, de maneira similar ao apresentado acima, a- plicar as técnicas de MI e PMI para identificar os conjuntos de variáveis climáticas mais correla- cionadas com a carga a ser prevista.

No documento Modelo para previsão de demanda ativa e reativa utilizando técnicas de seleção de entradas e redes neurais artificiais (páginas 88-93)