Distribuição de Energia II 5º ano da LEEC - ramo de Energia
(FEUP)
Previsão de consumos
Modelos de regressão
Cláudio MonteiroModelos de Regressão
y = 3,0727x + 24,2 10 20 30 40 50 60 70 1 3 5 7 9 11 Y XSe conhecer uma relação linear entre as variáveis dependentes e independentes podemos estimar o valor de Z em cada ponto.
Valor estimado da variável dependente
Zˆ
Variáveis independentes Vi, no ponto Pj
Pj Vi
X
,Parâmetros da regressão para a variável Vi
Vi
θ
Variável dependente para o ponto Pj
Pi
Z
k Vk V VX
X
X
Z
ˆ
=
θ
0+
1θ
1+
2θ
1+
L
+
θ
(
ZPi;XVi,Pi)
A estimativa da variável dependente, com base na regressão, terá um erro (resíduo):
k Pi Vk Pi V Pi V Pi Pi Pi Pi
Z
Z
Z
θ
X
θ
X
θ
X
θ
ε
=
−
ˆ
=
−
0−
1, 1−
2, 1−
L
−
, Pi εMínimos quadrados
[ ]
=
3 2 1 P P PZ
Z
Z
Z
Consideremos um problema com 3 pontos P1,P2 e P3 e 2 variáveis independentes V1 e V2.
[ ]
=
3 , 2 3 , 1 2 , 2 2 , 1 1 , 2 1 , 11
1
1
P V P V P V P V P V P VX
X
X
X
X
X
X
[ ]
=
2 1 0 V Vθ
θ
θ
θ
[ ] [ ] [ ] [ ]
ε
=
Z
−
X
⋅
θ
Para encontrar os parâmetros usamos o método dos mínimos quadrados, que consiste em minimizar o quadrado dos resíduos.
(
) (
) (
)
2 3 3 2 2 2 2 1 1 2 3 2 2 2 1Z
PZ
ˆ
PZ
PZ
ˆ
PZ
PZ
ˆ
PL
=
ε
+
ε
+
ε
=
−
+
−
+
−
(
) (
) (
)
2 2 3 , 2 1 3 , 1 0 3 2 2 2 , 2 1 2 , 1 0 2 2 2 1 , 2 1 1 , 1 0 1 θ V Pθ V Pθ P θ V Pθ V Pθ P θ V Pθ V Pθ P X X Z X X Z X X Z L= − − − + − − − + − − −[ ] [ ] [ ]
(
−
⋅
θ
)
⋅
(
[ ] [ ] [ ]
−
⋅
θ
)
=
Z
X
Z
X
L
t Vi θModelos de Regressão
Mínimos quadrados
[ ] [ ] [ ] [ ]
(
)
[ ]
0 2⋅ ⋅ − ⋅ = = ∂ ∂ θ θ X Z X L tA derivada parcial em ordem a cada um dos parâmetros será:
Resolvendo o sistema de equações temos:
[ ] [ ] [ ]
θ
=
(
X
t⋅
X
)
−1⋅
[ ] [ ]
X
t⋅
Z
[ ] [ ] [ ]
(
−
⋅
θ
)
⋅
(
[ ] [ ] [ ]
−
⋅
θ
)
=
Z
X
Z
X
Modelos de regressão
Como escolher variáveis
1.
Seleccionar uma grande lista de variáveis
Com base na experiência escolher variáveis que estão relacionadas com a grandeza a prever
2.
Decompondo o modelo em vários
Decompor por tipo de consumidor (industrial, doméstico, comercial, etc.)
Decompor por sazonalidade (por trimestre, por dia da semana, por hora do dia , etc.)
3.
Estruturar os modelos
Analisar as dependências entre as variáveis e recalcular as séries de forma que as dependências sejam mais evidentes (ex. prever o consumo per-capita em vez de prever o consumo global)
Analisar dependências temporais entre as variáveis (desfasamentos temporais, médias móveis, etc.)
Modelos de regressão
Como escolher variáveis
4. Visualizar gráficos Z↔Xi
Observar a relação entre as variável dependente e independente, se não existir relação elimine a variável
5. Visualizar gráficos Xi↔Xj
Observar a relação entre as variáveis explicadoras, eliminar variáveis em pares altamente correlacionadas evitando colinearidade
6. Testes de significância
Fazer a regressão, observar estatísticas e significâncias (R, t-teste, F-teste), excluir variáveis sem significância.
7. NOTA: Existem métodos formais implementados em software para a escolha das variáveis (ex. “subset regression”,
Ferramentas úteis
Gráficos “scaterplot” Z↔X
ie X
i↔X
j.
Fornece informação visual sobre as correlações entre as várias variáveis independentes Xi↔Xje entre estas e a
variável dependente Z↔Xi.
Também é possível observar estas relações por classes (na figura vemos diferentes cores para cada trimestre)
Modelos de regressão
Ferramentas úteis
Gráficos CCF (Cross-correlation funtion)
Permitem avaliar as dependências temporais (atrasos e avanços) entre a variável dependente e as variáveis explicadoras.
Modelos de regressão
Ferramentas úteis
(
)
(
)
desvios totais explicados desvios ˆ 2 2 2 = − − =∑
∑
Pi Pi Pi Pi Z Z Z Z RCoeficiente de determinação R
2 y = 3,0727x + 24,2 10 20 30 40 50 60 70 1 3 5 7 9 11 Y X Desvio explicado Desvio não explicado Desvio totalZ
Zˆ
R2representa a proporção da variável
dependente Z que pode ser explicada pela regressão (valor entre 0 e 1 em que valores mais elevados correspondem a melhores regressões).
R
2ajustado
é o valor ajustado de R2tendo em conta o nº de
pontos e o número de variáveis independentes
Modelos de regressão
Ferramentas úteis
(
1) (
2 1)
2 − − − = k n R k R FF - teste
É a razão entre a variância devida à regressão e a variância devida ao erro. Já tem em conta o número de pontos n e o número de variáveis k. F deve ser elevado e a significância de F deve ser inferior a 0.05 (teste de hipótese: probabilidade dos parâmetros da regressão serem 0).
ANOVA (ANalysis Of VAriance)
Ferramentas úteis
t - teste
Permite avaliar a importância de cada variável independente no conjunto de variáveis do modelo.
Cada coeficiente de regressão tem uma variância associada É com base nesta variância que é calculado t
A significância de t é uma medida da importância (<0.05) relativa da variável (teste de hipótese: probabilidade desse parâmetro ser 0)
) (θ SE
)
(
Vi Vi ViSE
t
θ
θ
=
Análise de colinearidade
% não explicável por outras variáveis θModelos de regressão
Ferramentas úteis
Modelos de regressão
Medidas de erro
Erro médio (ME)
∑
(
)
=