• Nenhum resultado encontrado

Técnicas Matemáticas para Previsão de Preços de Eletricidade

2.4 Previsão de Preços

2.4.1 Técnicas Matemáticas para Previsão de Preços de Eletricidade

Na bibliografia conhecida, as técnicas matemáticas de Previsão de Preços de Eletricidade (PPE) mais utilizadas e que revelaram melhores desempenhos, podem ser classificadas em três ca- tegorias: métodos estatísticos, métodos de machine learning e modelos híbridos.[29] No entanto, a precisão de previsão das abordagens devem ser melhoradas. Mais recentemente, foi proposto um método mais avançado de deep learning, que revelou, na grande maioria dos modelos estudados, melhores desempenhos comparativamente a métodos mais populares.[48] Dentro das várias meto- dologias, existem diversas técnicas matemáticas aplicadas na previsão de preços e são enumeradas na seguinte tabela.

Tabela 2.1: Métodos e respetivas Técnicas Matemáticas aplicadas em PPE

Método Autor Técnica Mercado Horizonte temporal

Estatístico

Tan et al.[49] Cruz et al.[50]

Nowotarski et al.[51], Weron et al.[52]

ARIMA, GARCH Seasonal ARIMA AR, ARX Spanish, PJM Spanish European, PJM curto-prazo curto-prazo curto-prazo Machine Learning Chen et al.[53] Yan and Chowdhury[54] Wan et al.[55] Dudek[56] Keles et al.[57]

Panapakidis and Dagoumas[58]

ELM LSSVM ELM e MLE MLP ANN ANN Australian PJM Australian Global European Italian curto-prazo médio-prazo curto-prazo curto-prazo curto-prazo curto-prazo Híbridos

Osório, Matias, and Catalão[59] Shayeghi et al.[60]

Wang et al.[61]

WT, MI, ANFIS e PSO LSSVM-MIMO e QOABC FEEMD, VMD, BP e FA

Spanish, PJM

New York, Australian, PJM Australian, French

curto-prazo curto-prazo curto-prazo

Deep Learning Lu Peng et al.[48] Lago et al.[62] DE-LSTM DNN, GRU, LSTM e CNN European Belgian curto-prazo curto-prazo 2.4.1.1 Métodos Estatísticos

Os métodos estatísticos são baseados na análise de estatísticas geradas pela atividade do mer- cado. Podem utilizar vários tipos de informação, como variáveis de entrada, tais como os preços horários históricos, índices temporais (hora, dia da semana, mês), consumos, temperatura, valo- res de produção de energia hídrica e eólica, entre outros. A característica sazonal dos preços de eletricidade faz com que a utilização de modelos estatísticos consiga produzir resultados muito positivos na PPE durante os períodos em que o preço se mantém normal, sem a ocorrência de picos. Como saídas, este tipo de métodos, permite obter, para além do preço spot de mercado ou o preços de futuros, o intervalo de confiança e ainda análises de volatilidade. No artigo [63] pode ser consultada informação adicional sobre este método e ainda resultados da sua aplicação. No caso dos métodos estatísticos, tem sido comum o uso das séries temporais do tipo auto-regressivo (AR), auto-regressivo integrado de médias móveis (ARIMA) ou heteroscedasticidade condicional auto-regressiva generalizada (GARCH). Tan et al.[49] propuseram um método baseado na trans- formada de ondas (WT), combinando as técnicas ARIMA e GARCH, que foi testado nos ME PJM e Espanhol. Cruz et al.[50] compararam a precisão da previsão de vários métodos (ARIMA sazonal, regressão dinâmica, rede neural feed-forward, e exponencial sazonal de dupla suaviza- ção) para previsão de preços no dia seguinte. Nowotarski et al.[51] usou modelos AR aplicados

e um esquema de seleção para prever PE do dia seguinte nos três principais mercados europeus e norte-americanos.

Séries Temporais do tipo Auto-regressivo(AR) e Auto-regressivo com entradas exógenas( ARX) A estrutura básica do método AR, possível de aplicar nas previsões de preços, inclui na sua fórmula entradas que se referem a séries de preços e no caso do método ARX acrescenta ainda variáveis exógenas. A fórmula pode apresentar-se assim:

pt = φ1pt−24+ φ2pt−48+ φ3pt−168+ φ4mpt+ ψ1zt+ d1DSeg+ d2DSab+ d3DDom+ εt (2.3)

A fórmula aqui presente é um exemplo aplicado no estudo de previsão de preços spot no Nord Pool por [51]. Os logs de preços passados pt−24, pt−48e pt−168são responsáveis pelos efeitos auto-

regressivos dos dias anteriores (dia anterior, dois dias anteriores e uma semana atrás), enquanto o mpt cria a ligação entre sinais de licitação e preço de todo o dia anterior (é o mínimo dos 24

preços de log de hora em hora do dia anterior). A variável zt é uma variável exógena, refere-

se à temperatura horária atual. As três variáveis dummy (tomam valores entre 0 e 1, denotando ausência ou presença de efeito no resultado de previsão) - DSeg, DSabe DDom(para segunda-feira,

sábado e domingo, respetivamente) - respondem pela sazonalidade semanal. Finalmente, os et são

considerados independentes e identicamente distribuídos (i.i.d.) com média zero e variância finita. Restringindo o parâmetroψ1= 0 produz-se o modelo AR.

Auto-regressivo integrado de médias móveis(ARIMA) A técnica matemática ARIMA é am- plamente utilizado nas áreas de previsão de séries temporais, que pode ser escrita como:

φ (B)(1 − B)dXt= θ (B)εt (2.4)

onde Xt representa uma série temporal não-estacionária no tempo t, et é um ruído branco

(média zero e variância constante), d é a ordem de diferenciação, B é um operador de deslocamento para trás definido por BXt = Xt−1, φ (B) é o operador de auto-regressão definido como: φ (B) =

1 − φ1B− φ2B2− ... − φpBpe θ (B) é o operador da média móvel definido como: θ (B) = 1 − θ1B−

θ2B2− ... − θqBq. Geralmente, este método inclui quatro fases: preparação de dados, identificação

do modelo, parâmetro, estimativa e verificação de diagnóstico. Mais detalhes da utilização deste método podem ser encontrados em [49].

Heteroscedasticidade Condicional Auto-regressiva generalizada(GARCH) Como já menci- onado, a série de preços de eletricidade pode ser altamente volátil. Então, um modelo GARCH adequado pode ser usado para prever preços de eletricidade, pois o método considera momentos de uma série temporal como variantes. Geralmente, um modelo GARCH(p, q) é expresso como:

εt/φt−1∼ N(0, δt) (2.5)

εt=

p

δt = ω + p

i=1 αiεt2−i+ q

j=1 βjδt− j (2.7)

onde p > 0, q ≥ 0, w > 0, αi ≥ 0(i = 1, 2, ...p), βj ≥ 0(i = 1, 2, ...q). Em geral, o método

GARCH(p, q) é mais adequado para capturar a dinâmica de uma variância condicional de séries temporais. O modelo aplicado também inclui quatro fases. Mais pormenores podem ser vistos no trabalho de Tan et al. [49]

2.4.1.2 Métodos Machine Learning

O problema dos métodos estatísticos é que eles são geralmente lineares, e, como tal, podem não ter bons desempenhos em dados em que a frequência é alta. Embora eles mostrem um bom desempenho se a frequência de dados for baixa, por exemplo padrões semanais, o comportamento não-linear dos preços horários pode se tornar muito complicado de prever. Para resolver esse problema e prever o comportamento não-linear de preços, diferentes métodos de machine learning foram propostos.

Redes Neuronais Artificiais (Artificial Neural Network - ANN) As redes neuronais artificiais baseiam-se em métodos desenhados para recriar o funcionamento do cérebro humano, adquirindo conhecimento através da experiência. Uma rede neuronal é composta por neurónios, unidades idênticas à que se pode ver na figura2.13. O modo de funcionamento de cada unidade consiste numa soma ponderada das suas entradas, às quais se adiciona um termo de polarização (termo constante). A sua saída está condicionada pela presença de uma função de ativação ou de transfe- rência que pode ser de vários tipos: linear, sigmóide ou tangente hiperbólica. A topologia de uma rede neuronal unidirecional genérica com duas camadas é apresentada na figura2.14.

Figura 2.13: Estrutura de uma unidade pertencente a uma ANN [4]

A aplicação prática de redes neuronais para a previsão de preços engloba dois processos dis- tintos:

Figura 2.14: Exemplo de uma rede neuronal - ANN

• O processo de treino, onde são utilizados dados históricos existentes, do qual fazem parte os valores das entradas e respetivas saídas. Utilizando estes dados, é então criada a rede de treino sendo que a obtenção de resultados válidos no processo de treino está dependente da qualidade e precisão dos dados utilizados. Recorrendo a um processo de aprendizagem, a ANN adquire um determinado conhecimento. O processo de aprendizagem baseia-se no ajuste dos pesos e polarizações existentes em cada iteração com vista à minimização do erro existente entre a saída prevista e a saída real;

• O processo de teste, utiliza um conjunto de dados obtidos no processo de treino, onde a rede deverá ser capaz de reproduzir com o maior rigor possível dados nunca antes apresentados. Existem as seguintes variantes de ANNs que são utilizadas no estudo de previsões de preços: Perceptron multicamadas (MLP) é uma classe de rede neural artificial feedforward1. Exceto pelos nós de entrada, cada nó é um neurónio que pode usar uma função de ativação linear ou não- linear. O MLP utiliza uma técnica de aprendizagem supervisionada chamada retropropagação para a fase de treino da rede. As suas múltiplas camadas e a sua ativação não-linear distinguem o MLP de um perceptron linear. A utilização deste tipo de modelos juntamente com um algoritmo de aprendizagem de retropropagação é uma ótima escolha para endereçar o problema da PPE e é dos mais utilizados em vários estudos. O algoritmo de retropropagação é basicamente um processo de retropropagação dos erros presentes nas camadas de saída diretamente para as camadas de entrada durante o treino da rede (ver figura2.15). A retropropagação é realmente necessária pois as camadas escondidas da rede não possuem valores alvo, ou seja, as unidades de cada camada deverão ser treinadas de acordo com os erros das camadas anteriores. A alteração aos pesos de

1Nas redes neuronais feedforward, as conexões entre as diferentes unidades apresentam uma única direção. Não há

ligação depende, individualmente, do erro introduzido por cada ligação. A camada de saída possui um valor desejado que é usado para se comparar com o valor calculado. À medida que os erros se vão retropropagando pelas unidades da rede, as conexões vão sendo atualizadas e treino decorrerá até que os erros nas conexões atinjam um valor suficientemente pequeno para ser aceite. Para ver os detalhes da sua utilização na previsão de preços de eletricidade é possível recorrer ao artigo de Dudek [56].

Figura 2.15: Esquema representativo do modo de funcionamento do algoritmo de retropropagação.

Extreme Learning Machine (ELM) é um algoritmo de aprendizagem para uma única camada oculta MLP que pode superar os problemas causados por métodos de descida de gradiente2.[29] Este algoritmo gera aleatoriamente o peso da conexão entre a camada de entrada e camada oculta e o limite de neurónios na camada oculta, e os parâmetros não precisam ser ajustados durante o processo de treino. Ao contrário de outros algoritmos de redes neuronais, a matriz de saída é obtida minimizando a função de perda quadrática da solução de mínimos quadrados, um processo que não requer iterações e reduz muito o tempo de estabilização do parâmetro da rede. O ELM foi aplicado com sucesso em várias aplicações de previsão, como carga, preço, energia eólica, vendas e falência. Yang[64] desenvolveu no seu estudo um ELM baseado em kernel3 (KELM), a matriz do kernel substitui a matriz de aleatoriedade do ELM (ver figura2.16). No KELM, se o fator de penalidade e o parâmetro do kernel são determinantes, a saída do KELM é também fixada. Portanto, o KELM evita as flutuações aleatórias do ELM. Os parâmetros ótimos do kernel podem melhorar a estabilidade e generalização do KELM.

2A descida de gradiente é um algoritmo de otimização iterativa de primeira ordem para encontrar o mínimo de uma

função.

3Os métodos kernel são uma classe de algoritmos para análise de padrões, cujo membro mais conhecido é a máquina

de vetores de suporte (SVM). Os métodos kernel requerem apenas um kernel especificado pelo usuário, ou seja, uma função de similaridade sobre pares de pontos de dados na sua representação em bruto (raw data).

Figura 2.16: Esquema representativo do modo de funcionamento do algoritmo ELM baseado em Kernel. [5]

Máquina de Vetores de Suporte (SVM) A máquina de vetores de suporte (SVM) é uma classi- ficação e ferramenta de regressão que tem suas raízes na teoria de aprendizagem estatística criada por Vapnik (1995). Em contraste com as ANNs, que tentam definir funções complexas através do espaço de entrada, a SVM executa um mapeamento não-linear dos dados num hiperplano (high dimensional space), em seguida, usa funções lineares simples para criar limites lineares de decisão no novo espaço (ver figura2.17).

Figura 2.17: Esquema representativo do algoritmo SVM. [6]

Um recurso atraente da SVM é que ele dá uma solução única que é caracterizada pelo mínimo global da função otimizada, em vez de várias soluções associadas a mínimos locais, como fazem as ANNs. Além disso, a SVM depende menos de heurística (isto é, de uma escolha arbitrária do modelo) e tem uma estrutura mais flexível. As aplicações da SVM na previsão de preços de

eletricidade estão tipicamente presentes em sistemas híbridos. Num artigo de Sansom et al.[65] que compara um MLP e uma SVM com as mesmas entradas, os autores concluem que a SVM produz previsões mais consistentes e que requer menos tempo para otimizar a fase de treino. Para saber mais detalhes das aplicações da SVM em previsões de eletricidade pode-se consultar o artigo de Weron et al.[29].

2.4.1.3 Métodos Deep Learning

Na última década, o campo das redes neuronais experimentou várias inovações que levaram ao que é conhecido como deep learning (DL). Em particular, uma das questões tradicionais das redes neuronais sempre foi o grande custo computacional da fase de treino de modelos grandes. No entanto, isso mudou completamente quando [29] mostrou que uma deep belief network poderia ser treinada de forma eficiente usando um algoritmo chamado greedy layer-wise pretraining. Em desenvolvimentos relacionados que se seguiram, vários investigadores começaram a ser capazes de treinar eficientemente redes neuronais complexas cuja profundidade não se limitava apenas a uma única camada oculta (como no MLP). A utilização de modelos DL começa a dar os primeiros passos na PPE em estudos publicados no ano de 2018, por exemplo, por Lago et al.[62] e Peng et al.[48].

Redes Neuronais Profundas (Deep Neural Networks - DNN) O modelo básico de DL é o DNN, a extensão natural do MLP tradicional que usa várias camadas ocultas. Quando comparado com um MLP padrão, um DNN requer alterações de modelo específicas para ser eficientemente treinado, por exemplo, funções de ativação diferentes do sigmóide padrão.

Redes Neuronais Recorrentes (Recurrent Neural Network - RNN) Ligeiramente mais com- plexo que os DNNs são os RNNs (ver figura2.19), um tipo de rede que cria mapeamentos adici- onais para conter informações relevantes de entradas (inputs) passadas e que são adequadas para modelar dados de séries temporais, como é o caso dos preços de eletricidade. Os estados-da-arte das redes recorrentes são o long-short term memory (LSTM) e redes gated recurrent unit (GRU), que podem ser pesquisados em detalhe com recurso ao trabalho de Lago et al.[62]; ao contrário dos RNNs padrão, eles são capazes de modelar um comportamento seletivo de ’esquecer-recordar’. Enquanto ambas as estruturas são muito semelhantes, as GRUs têm uma estrutura mais simples e são mais rápidas de treinar.

Figura 2.19: Esquema comparativo de uma RNN com uma ANN. [8]

Redes Neuronais Convolucionais (Convolutional Neural Networks - CNN) Um tipo diferente de estrutura DL são as CNNs (ver figura2.20), um tipo de rede que é modelado usando três blocos de construção: uma operação de convolução, uma operação pooling e uma camada totalmente conectada. Dado um conjunto de dados, a operação de convolução desliza um filtro através desse conjunto de dados e calcula produto cruzado localmente, elemento a elemento, entre o filtro e os dados. Como diferentes filtros capturam diferentes propriedades, CNNs normalmente usam vários filtros para obter conjuntos de dados diferentes conhecidos como mapas de recursos. Numa etapa subsequente, a operação de pool reduz o tamanho desses mapas de recursos, reduzindo grandes áreas em valores únicos. Finalmente, depois de várias operações de convolução e de pooling efetuadas, os valores dos últimos mapas de recursos são usados como entradas para uma camada totalmente conectada.

Figura 2.20: Esquema representativo de uma CNN. [9]