• Nenhum resultado encontrado

Análise de clusters, singular spectrum analysis e cross validation na previsão de velocidade do vento

N/A
N/A
Protected

Academic year: 2021

Share "Análise de clusters, singular spectrum analysis e cross validation na previsão de velocidade do vento"

Copied!
47
0
0

Texto

(1)

Guilherme Cruvello da Silveira Martins

An´

alise de Clusters, Singular Spectrum

Analysis e Cross Validation na Previs˜

ao de

Velocidade do Vento

Niter´oi - RJ, Brasil 7 de Dezembro de 2017

(2)

Universidade Federal Fluminense

Guilherme Cruvello da Silveira Martins

An´

alise de Clusters, Singular

Spectrum Analysis e Cross

Validation na Previs˜

ao de Velocidade

do Vento

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Mois´es Lima de Menezes

Niter´oi - RJ, Brasil

(3)

Universidade Federal Fluminense

Guilherme Cruvello da Silveira Martins

An´

alise de Clusters, Singular Spectrum

Analysis e Cross Validation na Previs˜

ao de

Velocidade do Vento

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “An´alise de Clusters, Singular Spectrum Analysis e Cross Va-lidation na Previs˜ao de Velocidade do Vento”, defendida por Guilherme Cruvello da Silveira Martins e aprovada em 7 de Dezembro de 2017, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Mois´es Lima de Menezes Departamento de Estat´ıstica – UFF

Prof. Dra. M´arcia Marques de Carvalho Departamento de Estat´ıstica – UFF

Prof. Dr. Marco Aur´elio dos Santos Sanfins Departamento de Estat´ıstica – UFF

(4)

M379 Martins, Guilherme Cruvello da Silveira

Análise de Clusters, singular spectrum analysis e cross validation na previsão de velocidade do vento / Guilherme Cruvello da Silveira Martins. – Niterói, RJ: [s. n.], 2017.

46f.

Orientador: Prof. Dr. Moisés Lima Menezes

TCC ( Graduação de Bacharelado em Estatística) – Universidade Federal Fluminense, 2017.

1. Análise de Cluster. 2. Velocidade do vento. I. Título.

(5)

Resumo

A demanda de energia el´etrica cresce exponencialmente com o aumento da popula¸c˜ao mundial e da moderniza¸c˜ao. Ser capaz de gerar e consumir energia limpa ´e um enorme desafio. Neste cen´ario, a energia e´olica surge como uma poss´ıvel fonte de energia comple-mentar `a energia hidrel´etrica instalada no Brasil. Por´em, este tipo de energia depende de s´erie fatores climaticos que mudam constantemente com o tempo. Por este motivo, ser capaz de prever a velocidade do vento ´e um importante papel para o planejamento e a gest˜ao das cidades. Este trabalho propˆos a modelagem estat´ıstica de s´eries temporais com o aux´ılio da filtragem Singular Spectrum Analysis e da divis˜ao Cross Validation. A primeira t´ecnica busca decompor e reconstruir a s´erie temporal sem a componente rui-dosa, j´a o segundo m´etodo busca reestimar a s´erie de forma iterativa com a adi¸c˜ao de uma nova observa¸c˜ao a cada instante de tempo. Para valida¸c˜ao da previs˜ao estat´ıstica foram utilizados as seguintes estat´ısticas de aderˆencia: RM SE, BIC, R2 e M AP E nos dados mensais de velocidade m´edia do vento (em m/s) do munic´ıpio de Campos dos Goytaca-zes no Estado do Rio de Janeiro de janeiro de 2012 `a dezembro de 2016. Os resultados apontam para essa amostra um ajuste melhor nos modelos in-sample ap´os aplica¸c˜ao do filtro SSA. J´a para previs˜ao fora da amostra teve as melhores estat´ısticas de aderˆencia com a combina¸c˜ao do filtro SSA junto da divis˜ao do Cross Validation, mostrando ser um resultado promissor para o planejamento da energia e´olica como fonte de energia.

Palavras-chaves: Singular Spectrum Analysis; An´alise de Cluster; Velocidade do Vento; Cross Validation

(6)

Sum´

ario

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 9

1.1 Contextualiza¸c˜ao . . . p. 9

1.2 Revis˜ao bibliogr´afica . . . p. 10

1.3 Proposta . . . p. 11

1.4 Estrutura . . . p. 11

2 Objetivos p. 12

3 Materiais e M´etodos p. 13

3.1 Banco de dados . . . p. 13 3.2 Componentes de uma S´erie Temporal . . . p. 15

3.3 Modelos de Holt-Winters . . . p. 15

3.4 Modelos de Box & Jenkins . . . p. 16

3.4.1 Componente Autorregressiva AR(p) . . . p. 17

3.4.2 Componente M´edias M´oveis M A(q) . . . p. 17

3.4.3 Componente Ordem de Integra¸c˜ao . . . p. 17

3.4.4 Estima¸c˜ao do modelo Box & Jenkins . . . p. 17

3.5 Automatiza¸c˜ao das previs˜oes . . . p. 18

(7)

3.7 Time series cross validation . . . p. 20 3.8 Filtragem SSA . . . p. 21

3.8.1 Decomposi¸c˜ao . . . p. 21

3.8.2 Reconstru¸c˜ao . . . p. 22

3.9 Clusteriza¸c˜ao Hier´arquica . . . p. 24

3.10 Resumo da Metodologia . . . p. 25

4 An´alise dos Resultados p. 27

4.1 An´alise com a divis˜ao treino/teste sem a filtragem SSA . . . p. 27

4.2 An´alise com Cross validation sem a filtragem SSA . . . p. 30

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA . . . p. 32

4.4 An´alise com Cross validation com a filtragem SSA . . . p. 39

5 Conclus˜ao p. 43

(8)

Lista de Figuras

1 S´erie original de m´edia mensal de velocidade do vento - Campo dos

Goy-tacazes - jan/12 a dez/16. . . p. 13

2 Boxplot da s´erie original de m´edia mensal de velocidade do vento - Campo

dos Goytacazes - jan/12 a dez/16. . . p. 14

3 Representa¸c˜ao da t´ecnica Cross Validation . . . p. 20

4 Representa¸c˜ao das distˆancias medidas na Clusteriza¸c˜ao Hier´arquica . . p. 25

5 Fluxograma da Metodologia . . . p. 26

6 Valores ajustados(in-sample): divis˜ao treino/teste sem SSA . . . p. 28

7 Previs˜ao 12 meses a frente (out-of-sample): divis˜ao treino/teste sem SSA p. 29

8 Valores ajustados: cross validation sem SSA . . . p. 31 9 Previs˜ao 12 meses a frente (out-of-sample): cross validation sem SSA . p. 32

10 Componentes harmˆonica e de tendˆencia na filtragem SSA com

cluste-riza¸c˜ao hier´arquica . . . p. 33 11 Componente ruidosa na filtragem SSA com clusteriza¸c˜ao hier´arquica . . p. 34

12 S´erie filtrada via SSA com clusteriza¸c˜ao hier´arquica e s´erie original . . p. 35

13 Valores ajustados: divis˜ao treino e teste com SSA . . . p. 37

14 Previs˜ao 12 meses a frente (out-of-sample): divis˜ao treino/teste com SSA p. 38

15 Valores ajustados: cross validation com SSA . . . p. 40

(9)

Lista de Tabelas

1 Estat´ıstica Descritiva da S´erie Temporal . . . p. 14

2 Coeficientes do modelo Box & Jenkins: treino/teste sem a filtragem SSA p. 28

3 Estat´ısticas de aderˆencia in-sample: treino/teste sem SSA . . . p. 29 4 Estat´ısticas de aderˆencia (out-of-sample): treino/teste sem SSA . . . . p. 30

5 Estat´ısticas de aderˆencia in-sample: cross validation sem SSA . . . p. 31

6 Estat´ısticas de aderˆencia out-of-sample: cross validation sem SSA . . . p. 32

7 Matriz de correla¸c˜ao das componentes via SSA . . . p. 35

8 Coeficientes do modelo Box & Jenkins: treino/teste com a filtragem SSA p. 36

9 Estat´ısticas de aderˆencia in-sample: treino/teste com SSA . . . p. 37

10 Estat´ısticas de aderˆencia in-sample: treino/teste . . . p. 38

11 Estat´ısticas de aderˆencia out-of-sample: treino/teste com SSA . . . p. 39

12 Estat´ısticas de aderˆencia out-of-sample: treino/teste . . . p. 39 13 Estat´ısticas de aderˆencia in-sample: cross validation com SSA . . . p. 40

14 Estat´ısticas de aderˆencia in-sample: cross validation . . . p. 41

15 Estat´ısticas de aderˆencia out-of-sample: cross validation com SSA . . . p. 42

(10)

9

1

Introdu¸

ao

1.1

Contextualiza¸

ao

A demanda por energia vem crescendo conforme o aumento da popula¸c˜ao mundial e da migra¸c˜ao de grande parte para popula¸c˜ao para os centros urbanos. Atender a nova demanda de energia sem causar danos para o meio ambiente ´e uma tarefa desafiadora. A energia e´olica ´e uma das alternativas para a redu¸c˜ao, na matriz energ´etica, primordial-mente de uso de combust´ıveis f´osseis que s˜ao causadores de efeito estufa, bem como, pelo fato de ser considerada uma energia renov´avel (TOLMASQUIM, 2012).

Apesar dos avan¸cos tecnol´ogicos sobre a energia e´olica existe uma preocupa¸c˜ao com a gera¸c˜ao de energia em larga escala, uma vez que a gera¸c˜ao de energia dependeria estri-tamente do vento, de pr´opria velocidade do vento e de outros fatores clim´aticos. Desta forma, estudos de previs˜ao de energia de origem e´olica de qualidade s˜ao necess´arios uma vez que a mesma n˜ao pode ser acumulada ou armazenada para momentos de escassez.

Uma forma de planejamento da oferta e demanda por energia ´e feita atrav´es do co-nhecimento pr´evio destas vari´aveis, que pode ser obtido `a partir do uso da an´alise de s´eries temporais, que ´e uma t´ecnica em estat´ıstica que utiliza dados hist´oricos ordenados para realizar previs˜oes a partir de modelos adequados (CARDOSO et al., 2005). Diversos m´etodos podem ser utilizados para melhorar estas modelagens e um destes m´etodos se baseia na filtragem da s´erie antes de sua modelagem. Singular Spectrum Analysis (SSA) ´e uma t´ecnica que, dentre outras coisas, pode filtrar uma s´erie temporal `a partir da remo¸c˜ao de uma componente ruidosa (MENEZES et al., 2014). As an´alises in-sample e out-of-sample s˜ao formas de avalia¸c˜ao do desempenho do ajuste do modelo. Nesta t´ecnica, busca-se avaliar o poder preditivo do modelo na amostra de teste (out-of-sample) apenas com os dados modelados ap´os trabalhar amostra de treinamento (in-sample) com os dados hist´oricos. Time Series Cross Validation (doravante chamada apenas de Cross Validation) ´e uma abordagem que permite melhorar a acur´acia do modelo. A partir desta t´ecnica, as modelagens in-sample e out-of-sample s˜ao atualizadas a cada instante de tempo com o

(11)

1.2 Revis˜ao bibliogr´afica 10

novo dado permitindo uma an´alise de forma simultˆanea e interativa (HYNDMAN et al., 2013).

1.2

Revis˜

ao bibliogr´

afica

Dalmaz (2007) utilizou redes neurais para a previs˜ao da velocidade do vento em dife-rentes regi˜oes de Santa Catarina para investigar o potencial de gera¸c˜ao de energia e´olica. Como m´etrica de aderˆencia da previs˜ao estat´ıstica foi utilizado o RM SE (root mean square error ), concluindo que a regi˜ao de ´Agua Doce possui alto pontencial para viabiliza¸c˜ao da constru¸c˜ao de um parque e´olico.

Cardoso e Balestrassi (2005) propuseram investigar modelo quantitativo representa-tivo para previs˜ao da volatilidade de s´eries de demanda de energia el´etrica para con-sumidores livres. Para isso, foi aplicado o modelo de heterocedasticidade condicional autoregressiva (GARCH), que ´e um modelo de s´erie temporais com alta volatilidade dos dados, em um banco de dados medido em horas coletadas pela DEI (Duke Energy In-ternational ), umas das maiores empreasas de gera¸c˜ao de energia no Brasil. Os autores do estudo apresentaram resultados satisfat´orios utilizado o modelo GARCH, bem como recomendou aprofundamento dos estudos em outros vi´es de modelos da fam´ılia GARCH que pudessem, de alguma forma, melhorar o poder de predi¸c˜ao do modelo estat´ıstico.

Malta e Borges (2009) utilizaram dois aspectos diferentes para a realiza¸c˜ao de mode-lagens de s´eries temporais de velocidade m´edia do vento. O primeiro aspecto diz respeito a caracteriza¸c˜ao das propriedades da s´erie temporal atrav´es das estat´ısticas descritivas e uma an´alise gr´afica como maneiras entender o pr´oprio comportamento da mesma com fa-tores ex´ogenos correlacionados. O segundo aspecto consite em predizer o comportamento futuro utilizando o pr´oprio hist´orico como input do modelo estat´ıstco. Neste caso, os pes-quisadores direcionaram a pesquisa em s´eries temporais para as estat´ısticas de aderˆencia que validaram a performance do modelo quanto ao erro de previs˜ao.

Hyndman et al. (2015) compararam estat´ısticas de aderˆencias tradicionais com t´ecnicas modernas de estima¸c˜ao do erro provenientes da ´area de machine learning. Entre elas, inclui-se o m´edodo K-Fold Cross Validation, utilizado primordialmente em problemas de classifica¸c˜ao, e o m´etodo Time Series Cross Validation, que ´e uma vers˜ao adaptada do m´etodo anterior para dados que apresentam autocorrela¸c˜ao e problemas de estacionari-dade da s´erie. No estudo foi provado a eficiˆencia de utilizar o Time Series Cross Validation tendo obtido menores erros de previs˜ao ao serem aplicados em modelos de redes neurais

(12)

1.3 Proposta 11

e autoregressivos.

1.3

Proposta

O trabalho propˆos a previs˜ao da s´erie de velocidade do vento atrav´es de t´ecnicas de s´eries temporais. Para isso, foram apresentados modelos da fam´ılia Holt-Winters e Box & Jekins. Al´em disso, foi feito o uso da clusteriza¸c˜ao hier´arquica na fase de agrupamento da abordagem Singular Spectrum Analysis(SSA) com o objetivo de remover a componente ruidosa da s´erie. Para validar a previs˜ao estat´ıstica foi utilizado o m´etodo Time Series Cross Validation que dividiu a amostra em diversas amostras de treinamento e teste. Como medidas de aderˆencia foram utilizados o erro m´edio percentual absoluto (M AP E), o R2, o crit´erio de informa¸c˜ao bayesiano (BIC) e ra´ız quadrada do erro quadr´atico m´edio

(RM SE).

1.4

Estrutura

Al´em dessa introdu¸c˜ao este trabalho se subdivide em 4 cap´ıtulos. No cap´ıtulo 2 se encontra os objetivos. No capitulo 3, al´em do banco de dados, s˜ao apresentados os materiais e m´etodos. No cap´ıtulo 4 est˜ao as an´alises dos resultados e as conclus˜oes s˜ao apresentadas no cap´ıtulo 5.

(13)

12

2

Objetivos

Os objetivos deste trabalho s˜ao os de verificar qual o melhor crit´erio de sele¸c˜ao de modelo ao se aplicar o cross validation e a divis˜ao treino/teste atrav´es das estat´ısticas de aderˆencia e da an´alise gr´afica; verificar se h´a melhora na qualidade da filtragem SSA ao se utilizar a clusteriza¸c˜ao hier´arquica; verificar o ganho preditivo dos modelos aos se aplicar a abordagem SSA; Avaliar a eficiˆencia dos estudos de s´eries temporais como forma de planejamento e de viabilidade de inclus˜ao da energia e´olica. Para atingir esses objetivos, foi utilizado o softaware estat´ıstico R Programming Language para toda an´alise de dados e previs˜ao estat´ıstica.

(14)

13

3

Materiais e M´

etodos

3.1

Banco de dados

Para este estudo foi utilizada a s´erie mensal de velocidade m´edia do vento (em m/s) do munic´ıpio de Campos dos Goytacazes no Estado do Rio de Janeiro de janeiro de 2002 `

a dezembro de 2016 extra´ıda do site do INMET – Instituto Nacional de Meteorologia (http://www.inmet.gov.br) totalizando 180 observa¸c˜oes na amostra. A figura 1 apresenta o comportamento da s´erie temporal original de m´edia mensal de velocidade do vento.

Figura 1: S´erie original de m´edia mensal de velocidade do vento - Campo dos Goytacazes - jan/12 a dez/16.

(15)

3.1 Banco de dados 14

A tabela 1 apresenta as principais estat´ısticas descritivas da s´erie utilizada analisada mˆes a mˆes.

Tabela 1: Estat´ıstica Descritiva da S´erie Temporal Mˆes M´ın. M´edia Mediana M´ax. Desvio Padr˜ao JAN 0.76 1.88 2.12 2.80 0.63 FEV 0.55 1.73 1.96 2.76 0.74 MAR 0.24 1.40 1.62 2.72 0.76 ABR 0.18 1.23 1.51 2.09 0.62 MAI 0.29 1.14 1.35 2.12 0.57 JUN 0.25 1.16 1.31 1.83 0.53 JUL 0.28 1.30 1.59 1.86 0.53 AGO 0.58 1.71 2.01 2.57 0.66 SET 0.98 1.99 2.14 2.81 0.63 OUT 0.78 1.83 2.01 2.80 0.67 NOV 0.59 1.67 1.90 2.93 0.83 DEZ 0.40 1.52 1.72 2.44 0.66 ´

E poss´ıvel verificar na tabela 1 e na figura 2 que a velocidade m´edia do vento tem comportamento aproximadamente homogˆeneo entre os meses, tendo valores menores nos meses de mar¸co `a junho quando comparado com os demais meses. Al´em disso, o mˆes de setembro detˆem a maior m´edia da vari´avel velocidade m´edia dos ventos, por´em a maior velocidade m´axima pode ser encontrada em novembro.

Figura 2: Boxplot da s´erie original de m´edia mensal de velocidade do vento - Campo dos Goytacazes - jan/12 a dez/16.

(16)

3.2 Componentes de uma S´erie Temporal 15

3.2

Componentes de uma S´

erie Temporal

Uma s´erie temporal ´e o conjunto de observa¸c˜oes de uma mesma vari´avel quantitativa de interesse medida ao longo do tempo em per´ıodos regulares (horas, dias, meses etc). A mesma pode ser dividida em quatro componentes conforme mencionados a seguir:

• Tendˆencia Linear: Mostra a evolu¸c˜ao da s´erie ao longo prazo desconsiderando qualquer efeito de curto prazo sendo causado por flutua¸c˜oes ou pontos irregulares (outliers) da s´erie.

• Sazonalidade: ´E representada pelo comportamento repetitivo da s´erie no mesmo intervalo de tempo. Geralmente s˜ao picos ou vales bem definidos naquele per´ıodo. Por exemplo, muitas s´eries temporais sofrem o efeito da sazonalidade devido a fatores clim´aticos (Exemplo: ver˜ao x inverno).

• Fator C´ıclico: Diferentemente da sazonalidade, este fator se repete num per´ıodo maior que um ano. Embora seja menos comum de aparecer nas s´eries temporais, ele costuma aparecer em s´eries de PIB e entre outras s´eries econ˜omicas de longo prazo.

• Irregular: ´E a componente n˜ao explicada pelas componentes descritas acima. Pode ser tanto aleat´orio quanto n˜ao aleat´orio, mas pontual devido a falha humana ou evento extraordin´ario.

Um exemplo da s´erie temporal com componente aleat´oria ´e apresentado em (3.1).

yt = a + bxt+ t, (3.1)

onde que a + bxt ´e a componente determin´ıstica e t ´e a componente estoc´astica.

3.3

Modelos de Holt-Winters

Segundo Hyndman et al. (2002), o m´etodo de Holt Winters, tamb´em conhecido como suaviza¸c˜ao exponencial tripla, ´e utilizado para s´eries que apresentam n´ıvel, tendˆencia e sazonalidade. Para cada um das trˆes componentes s˜ao definidos hiperparˆametros que decaem exponencial com o passar do tempo. Este m´etodo pode ser definido como sendo

(17)

3.4 Modelos de Box & Jenkins 16

uma m´edia m´ovel ponderada exponencialmente, onde para observa¸c˜oes mais recentes s˜ao dados pesos maiores pr´oximo de 1. Este modelo tamb´em ´e dividido quanto a sazonalidade da s´erie temporal, podendo ter sazonalidade aditiva se a mesma ´e constante para todo intervalo de tempo ou sazonalidade multiplicativa se a mesma diminui ou aumenta com o passar do tempo. A equa¸c˜ao de previs˜ao do modelo multiplicativo ´e definida em (3.2).

ˆ

Zt+n = (Lt+ nTt)St−s+n (3.2)

onde Lt representa o n´ıvel da s´erie, Tt a tendˆencia, sazonalidade por St, t o instante de

tempo, s a frequˆencia e n o n´umero de passos a frente.

Dessa forma, para atualizar a equa¸c˜ao de previs˜ao se faz necess´ario obter estima¸c˜oes do n´ıvel, da tendˆencia e dos fatores sazonais visto anteriormente. Esses valores podem ser obtidos pelas equa¸c˜oes (3.3), (3.4) e (3.5).

Lt= α Zt St−s + (1 − α)(Lt−1+ Tt−1) (3.3) Tt = β(Lt− Lt−1) + (1 − β)Tt−1 (3.4) St= γ Zt Lt + (1 − γ)St−s (3.5)

onde α ´e a constante de amortecimento do n´ıvel, β ´e a constante de amortecimento da tendˆencia, γ ´e a constante de amortecimento dos fatores sazonais.

3.4

Modelos de Box & Jenkins

O modelo da fam´ılia Box & Jenkins conhecido por ARIM A(p, d, q), modelo autorre-gressivo integrado de m´edias m´oveis, ganhou notoriedade no meio acadˆemico, bem como na ind´ustria por ter tido resultados satisfat´orios de acur´acia na previs˜ao de uma s´erie temporal (HYNDMAN, 2013). Este modelo pode ser divido em trˆes componentes e sua equa¸c˜ao ´e apresentada em (3.6):

φ(B)(1 − B)dZt = θ(B)at, (3.6)

onde φ(B) ´e o polinˆomio autoregressivo de ordem p, B ´e o operador de Retardo, θ(B) ´e o polinˆomio de m´edias m´oveis e at ´e o erro estat´ıstico do modelo.

(18)

3.4 Modelos de Box & Jenkins 17

3.4.1

Componente Autorregressiva AR(p)

A componente autorregressiva, AR(p), utiliza a pr´opria s´erie temporal defasada em tantos p a fim de entender o comportamento predominante da s´erie temporal. A equa¸c˜ao do modelo autorregressivo ´e apresentada em (3.7):

Zt = φ1Zt−1+ φ2Zt−2+ ... + φpZt−p+ at, (3.7)

onde p ´e a ordem autorregressiva, φi s˜ao parˆametros do modelo para i = 1, 2, 3, ..., p e at

´e o erro da previs˜ao.

3.4.2

Componente M´

edias M´

oveis M A(q)

Enquanto o modelo AR(p) ´e constitu´ıdo por combina¸c˜oes lineares das observa¸c˜oes defasadas, os modelos de m´edias m´oveis M A(q) utilizam combina¸c˜oes lineares dos erros defasados do modelo estat´ıstico para pr´opria previs˜ao estat´ıstica. A equa¸c˜ao do modelo de m´edia m´oveis ´e apresentada em (3.8):

Zt= at− θ1at−1− θ2at−2− ... − θqat−q (3.8)

onde q ´e a ordem de m´edia m´oveis, θi s˜ao parˆametros do modelo para i = 1, 2, 3, ..., q e at

´e definido pelo erro da previs˜ao.

3.4.3

Componente Ordem de Integra¸

ao

Uma s´erie ´e dita estacion´aria se o comportamento dela ´e bem definido, isto ´e, a m´edia ´e igual a zero e a variˆancia constante para todo intervalo. Se uma s´erie n˜ao ´e estacion´aria, sucessivas diferen¸cas s˜ao necess´arias para torn´a-la estacion´aria. Seja ∆Zt = Zt− Zt−1 o

operador de diferen¸ca e seja d o n´umero de diferen¸cas necess´arias para este objetivo. A componente de Ordem de Integra¸c˜ao I(d) se juntar´a `as componentes AR(p) e M A(q) e formar´a o modelo ARIM A(p, d, q)

3.4.4

Estima¸

ao do modelo Box & Jenkins

A estima¸c˜ao do modelo ARIM A no presente trabalho ´e calculada atrav´es da fun¸c˜ao de m´axima verossimilhan¸ca, onde se faz necess´ario algumas suposi¸c˜oes matem´aticas. Logo,

(19)

3.5 Automatiza¸c˜ao das previs˜oes 18

dado um modelo linear em (3.9):

yt = x

0

tb0+ at (3.9)

Onde (yt, x

0

t) s˜ao considerados independentes e indentificamente distribu´ıdos, bem

como os regressoes s˜ao considerados estoc´asticos, temos que:

at|xt∼ N (0, σ2) (3.10)

yt|xt∼ N (x

0

tb0, σ2) (3.11)

Dessa forma, a fun¸c˜ao de m´axima verossimilhan¸ca exata ´e dado por:

L(y|x, σ) =YfYt|Xt(yt|xt, σ) =Y(σ22π)−12exp(− 1 2σ2(yt− x 0 tb0)2) = (σ22π)−T2exp(− 1 2σ2 T X t=1 (yt− x 0 tb0)2) (3.12)

E a fun¸c˜ao logar´ıtmica ´e dado por:

l(y|x, σ) = −T 2log(σ 2 ) −T 2log(2π) − 1 2σ2 T X t=1 (yt− x 0 tb0)2 (3.13)

Onde l representa o da log fun¸c˜ao de m´axima verossimilhan¸ca.

3.5

Automatiza¸

ao das previs˜

oes

Um dos diferenciais deste atual trabalho ´e nova abordagem de automatiza¸c˜ao das previs˜oes estat´ısticas sem interven¸c˜ao humana para escolha dos parˆametros dos modelos estat´ısticos. Na abordagem cl´assica de s´eries temporais predomina o uso da an´alise do correlograma, que consiste em um gr´afico da fun¸c˜ao de autocorrela¸c˜ao da vari´avel de estudo a fim de identificar comportamentos t´ıpicos dos modelos ARIM A.

(20)

3.6 Medidas de aderˆencia 19

pode ser utilizado quando h´a necessidade de realizar previs˜oes estat´ısticas para dezenas, centenas ou at´e mesmo para milhares de s´eries temporais num curto espa¸co de tempo. No cen´ario atual, onde as empresas est˜ao interessadas em utilizar o maior n´umero de dados para se tornar competitivas no mercado, fica evidente a importˆancia de automatizar qualquer tipo de processo, inclusive o processo de gera¸c˜ao de previs˜ao estat´ıstica.

3.6

Medidas de aderˆ

encia

As medidas de aderˆencia s˜ao utilizadas para comparar a previs˜ao estat´ıstica gerada pelo modelo com valores reais da amostra de treinamento. Para o atual trabalho s˜ao apresentadas as m´etricas MAPE (Mean Average Percentage Error ), o coeficiente de de-termina¸c˜ao do modelo (R2), o crit´erio de informa¸c˜ao bayesiano (BIC) e ra´ız quadrada do

erro quadr´atico m´edio (RMSE) que dizem respeito a qualidade do modelo estat´ıstico para previs˜ao.

A estat´ıstica MAPE mede em percentual do quanto o modelo estat´ıstico est´a desvi-ando do real valor, conforme ´e apresentado em (3.14):

M AP E = N X k=1 Zt− ˆZt Zt N × 100, (3.14)

Onde N ´e o n´umero de padr˜oes, Zt representa o valor real no instante t, ˆZt representa o

valor ajustado no instante t.

O coeficiente de determina¸c˜ao (R2) ´e uma medida de ajustamento do modelo es-tat´ıstico, isto ´e, o quanto as vari´aveis preditoras explicam o evento estimado (vari´avel resposta). Essa medida assume valores entre 0 e 1 e ´e representado na equa¸c˜ao (3.15):

R2 = 1 − PT t=1(Zt− ˆZt)2 PT t=1(Zt− ¯Z)2 ! , (3.15)

Onde ¯Z representa a m´edia das observa¸c˜oes.

O crit´erio de informa¸c˜ao bayesiano (BIC) utiliza o princ´ıpio da parcimˆonia penalizando modelos com muitas vari´aveis. Valores menores de BIC s˜ao prefer´ıveis.

(21)

3.7 Time series cross validation 20

Onde Lp´e o m´aximo da fun¸c˜ao de verossimilhan¸ca, p n´umero de parˆametros e n tamanho

da amostra

Por ´ultimo, o RMSE ´e forma de analisar o erro na escala do evento estimado (dife-rentemente do MAPE). Primeiro, eleva-se ao quadrado a diferen¸ca entre o ajustado e o real para n˜ao cancelar erros positivos com negativos, ap´os cacula-se a m´edia, e por fim retira-se a ra´ız quadrada a fim de retornar a escala original conforme ´e visto em (3.17):

RM SE = v u u u t N P k=1 (Zt− ˆZt)2 N . (3.17)

3.7

Time series cross validation

Segundo estudos de Hyndman et al. (2015), Cross Validation ´e uma forma de mensu-rar a performance do modelo estat´ıstico mais apropriadamente do que m´etodo de hold-out (in-sample e out-of-sample), onde se divide a s´erie temporal em apenas dois subgrupos denominados amostra de treino e amostra de teste. Uma vantagem desse novo cen´ario ´e a redu¸c˜ao do problema conhecido como Overfitting, isto ´e, quando o erro da modela-gem medido pela amostra teste ´e baixo ou aceit´avel para colocar o modelo em produ¸c˜ao, no entanto, para dados futuros o mesmo modelo apresenta erros superiores aos medidos anteriormente inviabilizando a continua¸c˜ao do processo de previs˜ao estat´ıstica. A me-todologia alternativa proposta pelo atual estudo ´e dado pelo m´etodo Cross Validation conforme apresentado na figura 3.

(22)

3.8 Filtragem SSA 21

Na figura 3, os pontos azuis representam a amostra de treinamento (dentro da amos-tra) e os pontos vermelhos s˜ao a amostra de teste (fora da amostra) usados para estimar o erro de previs˜ao um passo `a frente. A cada itera¸c˜ao o modelo acrescenta uma nova observa¸c˜ao na amostra treinamento, que, por sinal, ´e a amostra de teste (ponto verme-lho) obtida no per´ıodo anterior, reestima os parˆametros e recalcula o erro para o pr´oximo passo `a frente. Este processo pode ser refeito in´umeras vezes definido pelo usu´ario e no final calcula-se a m´edia simples dos erros de previs˜ao de um passo `a frente. Com isto, o usu´ario espera-se diminuir a variˆancia das previs˜oes estat´ısticas, uma vez que foram esti-mados in´umeras previs˜oes de um passo `a frente. Enquanto o m´etodo de hold-out estima a previs˜ao uma ´unica vez e calcula o erro.

Note que apesar de a figura representar apenas um passo `a frente, nada impede que usu´ario possa estimar mais de um passo `a frente pelo m´etodo do Cross Validation.

3.8

Filtragem SSA

Singular Spectrum Analysis (SSA) ´e uma t´ecnica n˜ao param´etrica que permite de-compor uma s´erie temporal em sinal e ru´ıdo. ´E uma t´ecnica ´util para filtrar dados de s´eries temporais. SSA ´e um m´etodo recente e poderoso em s´eries temporais que incor-pora elementos de an´alise cl´assica de s´eries temporais, estat´ıstica multivariada, geometria multivariada, sistemas dinˆamicos e processamentos de sinais (ELSNER, 1996). SSA tem sido aplicada com sucesso em diversas ´areas: na matem´atica e f´ısica a economia e ma-tem´atica financeira, na meteorologia e oceanografia a ciˆencias sociais (GOLYNANDINA et al., 2001).

O m´etodo SSA ´e um procedimento que pode ser utilizado, dentre outras aplica¸c˜oes, na remo¸c˜ao de ru´ıdo e de s´eries temporais (GOLYNANDINA et al., 2001; HASSANI et al., 2012). A vers˜ao b´asica do m´etodo SSA pode ser dividida em duas etapas: decomposi¸c˜ao e reconstru¸c˜ao.

3.8.1

Decomposi¸

ao

Segundo Menezes et al. (2014), a etapa de decomposi¸c˜ao pode ser subdividida em duas partes: Incorpora¸c˜ao e decomposi¸c˜ao em valores singulares (SVD – Singular Value Decomposition).

(23)

3.8 Filtragem SSA 22

que L ´e um parˆametro a ser estimado e ´e chamado de comprimento da janela (Golynandina et al., 2001). Entende-se por Incorpora¸c˜ao o procedimento no qual uma s´erie temporal ZT ´e levada a uma matriz X chamada “Matriz Trajet´oria” dada por (3.18).

X =        z1 z2 z3 . . . zk z2 z3 z4 . . . zk+1 .. . ... ... . .. ... zL zL+1 zL+2 . . . zT        (3.18)

A matriz X ´e uma matriz Hankel, ou seja, os elementos de xi,j tal que i+j = constante

s˜ao iguais.

Considere S = XX0. Os autovalores de S dispostos em ordem de significˆancia λ1 ≥ · · · ≥ λL ≥ 0 s˜ao obtidos e os respectivos autovetores U1, . . . , UL s˜ao encontrados.

Considere V0 = (X0UL)/

λ, como S ´e positivo semi-definido, ent˜ao a matriz trajet´oria X pode ser expressa pela decomposi¸c˜ao em valores singulares (SVD) apresentada em (3.19):

X = E1+ E2+ · · · + EL, (3.19)

onde El =

λUlVl0, para todo l = 1, . . . , L. A cole¸c˜ao (

λl, Ul, Vl) ´e conhecida como

auto-tripla da expans˜ao SVD de X. Os elementos da autotripla s˜ao definidos respectivamente por: valor singular, vetor singular `a esquerda e vetor singular `a direita de X (Menezes et al., 2014). A contribui¸c˜ao de cada componente em (3.19) pode ser mensurada pela raz˜ao de autovalores λl/PLl=1λl.

3.8.2

Reconstru¸

ao

Segundo Menezes et al. (2014), a etapa de reconstru¸c˜ao est´a subdividida em duas partes: agrupamento e m´edia diagonal. A etapa de agrupamento consiste no procedimento de agrupar algumas sequˆencias de matrizes elementares resultantes da decomposi¸c˜ao SVD em grupos disjuntos e, ap´os isso, som´a-las, gerando novas matrizes elementares.

Considere a sequencia PL

l=1El de matrizes elementares da expans˜ao de SVD. Agrupe

as mesmas em m grupos disjuntos utilizando algum m´etodo, por exemplo, por meio de an´alise de componentes principais, an´alise gr´afica de vetores singulares ou agrupamento hier´arquico e assumir que o conjunto de ´ındices gerado ´e dado por {I1, . . . , Im}, de modo

(24)

3.8 Filtragem SSA 23 Ppi j=1XIij (MENEZES et al., 2014). X = L X l=1 El = m X i=1 XIi (3.20)

O objetivo do agrupamento ´e diminuir o n´umero de componentes na expans˜ao da matriz trajet´oria X. A contribui¸c˜ao de cada componente ´e mensurada pela raz˜ao (3.21) (MENEZES et al., 2014). Ppi j=1λIij PL l=1λl . (3.21)

Considere a matriz trajet´oria X e assuma que L∗ = min(L, K) e K∗ = max(L, K). Considere x(i)l,k um elemento na linha l e coluna k na matriz XIi. O elemento y

(i)

t da

componente hyt(i)i

1×T

da s´erie temporal [yt]1×T ´e calculado por meio da m´edia diagonal

da matriz elementar XIi definida em (3.22), a partir da matriz elementar XIi.

yt(i)=                  t P l=1 x(i)l,t−l+1 t , se 1 ≤ t < L ∗ L∗ P l=1 x(i)l,t−l+1 L∗ , se L ∗ ≤ t < K∗ T −K∗+1 P l=t−K∗+1 x(i)l,t−l+1 T −K∗+1 , se K ∗ ≤ t ≤ T (3.22)

Cada componente hyt(i)i

1×T

concentra parte da energia da s´erie temporal original

[yt]1×T que pode ser mensurada pela raz˜ao de autovalores pi P j=1 λIij/ d P l=1 λl. De acordo com

Hassani et al. (2012), podemos classificar as componentes SSA hyt(i)i

1×T

de uma s´erie temporal arbitr´aria [yt]1×T em trˆes categorais: tendˆencia, componentes harmˆonicas (ciclo

e sazonalidade) e ru´ıdo (GOLYANDINA et al., 2001).

Um dos principais conceitos estudados em SSA ´e a propriedade de separabilidade (Hassani et al., 2012). Tal propriedade caracteriza qu˜ao bem separados est˜ao as diferen-tes, componendiferen-tes, umas das outras. Uma boa medida de separabilidade ´e a Correla¸c˜ao Ponderada. Por correla¸c˜ao ponderada weighted correlation ou w-correla¸c˜ao, podemos en-tender como uma fun¸c˜ao que quantifica a dependˆencia linear entre duas componentes SSA

(25)

3.9 Clusteriza¸c˜ao Hier´arquica 24

YT(1) e YT(2) definida em (3.23) (MENEZES et al., 2014).

ρ(w)ij = 

YT(i), YT(j)

w

||YT(i)||w||Y (j) T ||w

. (3.23)

onde ||YT(i)||w =

r  YT(i), YT(i) w ; ||YT(j)||w = r  YT(j), YT(j) w ;YT(i), YT(j) w = T P k=1 wky (i) k y (j) k e wk= min{k, L, T − k}.

Atrav´es da separabilidade, pode-se verificar estatisticamente se duas componentes SSA est˜ao bem separadas, em termos de dependˆencia linear. Segundo Hassani et al. (2012), o valor absoluto da w-correla¸c˜ao ´e pequeno, ent˜ao as componentes SSA corres-pondentes s˜ao classificadas como w-ortogonais (ou quase w-ortogonais); caso contr´ario, s˜ao ditas mal separadas. Salienta-se que comumente utiliza-se a correla¸c˜ao ponderada na fase de agrupamento SSA (GOLYANDINA et al., 2001).

3.9

Clusteriza¸

ao Hier´

arquica

A clusteriza¸c˜ao hier´arquica ´e uma t´ecnica da estat´ıstica que permite agrupar diferentes observa¸c˜oes do banco de dados em subgrupos de acordo com um conjunto de vari´avies. Essa t´ecnica ´e bastante explorada em cen´arios de Churn, isto ´e, cen´arios de cancelamentos de servi¸cos entre cliente e empresa (ANDRADE, 2004).

Existem diversas t´ecnicas de clusteriza¸c˜ao tais como: a Clusteriza¸c˜ao Hier´arquica, K-Means, Dynamic Time Warping. Todas essas t´ecnicas baseiam-se numa medida de similariedade ou dissimilariedade entre as observa¸c˜oes, tendo como as principais medidas: a Euclediana e a Mahalanobis.

Em s´eries temporais, o banco de dados ´e composto de apenas duas informa¸c˜oes: o tempo e a vari´avel de estudo. Dessa forma, n˜ao existe nenhum conjunto de vari´aveis que possam ser utilizadas para clusteriza¸c˜ao com o intuito de separar as s´eries temporais em grupos distintos. No entanto, quando utilizada junto `a filtragem SSA ´e poss´ıvel separar as componentes de tendˆencia, harmˆonica e ruidosa.

Em rela¸c˜ao `a clusteriza¸c˜ao hier´arquica, que foi aplicada no presente estudo, ´e realizada atrav´es da metodologia de agrupamento aglomerativo (MIRANDA et al., 2014), onde cada item ´e considerado como um grupo individual no primeiro momento e recursivamente v˜ao fundindo a outros grupos de menor distˆancia at´e que se obtenha a clusteriza¸c˜ao final. A

(26)

3.10 Resumo da Metodologia 25

outra abordagem considera um ´unico grupo no primeiro momento para, recursivamente, ocorrerem as divis˜oes at´e chegar a clusteriza¸c˜ao desejada. A distˆancia entre os grupos ser´a calculada pela distˆancia Euclidiana (OCHI et al., 2014), dado em (3.24):

d(Xi, Xj) = " p X l=1 (xil− xjl)2 #12 (3.24)

onde X representa a vari´avel e x as respectivas observa¸c˜oes da vari´avel e l representa a dimens˜ao dos dados de 1 `a l.

H´a diferentes formas de mensurar a distˆancia entre as observa¸c˜oes de um banco, podendo ser atrav´es da distˆancia m´ınima (single linkage) entre dois pontos ou atrav´es da distˆancia m´axima (complete linkage) e a distˆancia m´edia ((average linkage). A figura 4 representa essas distˆancias em um universo bi-dimensional.

Figura 4: Representa¸c˜ao das distˆancias medidas na Clusteriza¸c˜ao Hier´arquica

3.10

Resumo da Metodologia

Em linhas gerais, este trabalho investigou o melhor cen´ario de previs˜ao estat´ıstica para dados de velocidade do vento provenientes do site do INMET - Instituto Nacional de Meteorologia.

A primeira parte foi executada utilizando os dados brutos, isto ´e, sem filtragem SSA. Os dados foram subdivididos em amostra de treinamento e amostra de teste conforme o princ´ıpio do Cross Validation. Feito isso, foram utilizados os modelos de Holt-Winters

(27)

3.10 Resumo da Metodologia 26

e de Box & Jekins para previs˜ao com horizonte de doze meses `a frente. Como medidas de aderˆencia do modelo foram utilizadas as estat´ısticas MAPE, R2, RMSE e BIC que mediram a qualidade da modelagem estat´ıstica.

Uma segunda etapa levou em conta a filtragem da s´erie via SSA com uso de clus-teriza¸c˜ao hier´arquica antes de usar o Cross Validation e das modelagens propriamente ditas. Ap´os a defini¸c˜ao dos clusters, o processo se repete novamente pelas etapas descri-tas acima. A figura 5 apresenta o fluxograma da metodologia aplicada neste trabalho.

(28)

27

4

An´

alise dos Resultados

Com o objetivo de maximizar a acur´acia da previs˜ao out of sample, bem como test´a-la e valid´a-la pela divis˜ao treino/teste e pela divis˜ao do time series cross validation foram feitos quatro compara¸c˜oes distintas. Foram realizadas diversas modelagens com o objetivo de se obter a melhor configura¸c˜ao de parˆametros n˜ao apenas entre as fam´ılias de modelos, mas entre os pr´oprios modelos propostos anteriormente neste estudo tais como os modelos de Holt-Winters e de Box & Jenkins. Desta forma, este cap´ıtulo se divide em quatro subse¸c˜oes, sendo as duas primeiras tratando a divis˜ao treino/teste sem a filtragem SSA e as duas ´ultimas tratando esta mesma divis˜ao com a filtragem SSA.

4.1

An´

alise com a divis˜

ao treino/teste sem a

filtra-gem SSA

Come¸cando do mais simples para o mais complexo, isto ´e, sem a filtragem SSA e com a divis˜ao treino/teste. Este cen´ario ´e considerado mais simples uma vez que o modelo estat´ıstico ´e estimado uma ´unica vez e n˜ao h´a necessidade de pr´e-processamento dos dados.

Como j´a discutido no cap´ıtulo de Materiais e M´etodos na se¸c˜ao de Automatiza¸c˜ao das previs˜oes, os modelos estat´ısticos s˜ao estimados de maneira autom´atica, sem aux´ılio de correlogramas, atrav´es das fun¸c˜oes ets e auto.arima do pacote forecast do R. Essas fun¸c˜oes possuem uma sele¸c˜ao de modelos built-in que retorna o modelo com menor AIC. Ap´os rodar as fun¸c˜oes, o software R ret´em a configura¸c˜ao do melhor modelo para posteriormente ser realizada a previs˜ao estat´ıstica fora da amostra.

O modelo Holt-Winters escolhido teve a configura¸c˜ao de erro aditivo, sazonalidade adiditiva e ausˆencia da componente de tendˆencia. Por sua vez, o modelo da fam´ılia Box & Jenkins teve a configura¸c˜ao de um SARIM A(0, 0, 1) × (2, 0, 0) representado pela

(29)

4.1 An´alise com a divis˜ao treino/teste sem a filtragem SSA 28

equa¸c˜ao de previs˜ao em (4.1):

(1 − Φ1B12− Φ2B24)Zt = (1 + θ1B)at (4.1)

E os respectivos parˆametros do modelo Box & Jenkins com os p-valores apresentados na tabela 2.

Tabela 2: Coeficientes do modelo Box & Jenkins: treino/teste sem a filtragem SSA θ1 Φ1 Φ2

Coeficiente 0.391 0.617 0.171 Erro padr˜ao 0.060 0.083 0.084 P -valor 0.000 0.000 0.042

A figura 6 apresenta em preto a s´erie orginal e em vermelho os valores ajustados do treinamento dos modelos.

(30)

4.1 An´alise com a divis˜ao treino/teste sem a filtragem SSA 29

Foi poss´ıvel observar que ambos os modelos foram capazes de capturar a componente de sazonalidade da s´erie, por´em em alguns picos h´a ausˆencia de sobreposi¸c˜ao das duas curvas. Al´em do gr´afico, a tabela 3 apresenta as principais estat´ısticas de aderˆencia para o ajuste dos modelos.

Tabela 3: Estat´ısticas de aderˆencia in-sample: treino/teste sem SSA RM SE R2 M AP E BIC Holt-Winters 0.26 0.80 0.16 389 SARIM A(0, 0, 1) × (2, 0, 0) 0.29 0.75 0.18 59

Apesar de apresentar um BIC maior, o modelo de Holt-Winters obteve melhores resultados nas demais estat´ısticas de aderˆencia indicando ser o modelo mais prop´ıcio para esta abordagem.

Ap´os a an´alise in-sample, os 12 ´ultimos meses dos dados foram utilizados como amos-tra de teste, ou seja, previs˜ao out-of-sample. A figura 7 apresenta um zoom sobre este per´ıodo para cada modelo obtido. Na ocasi˜ao, a linha preta se refere aos dados originais e a linha vermelha, a previs˜ao estat´ıstica.

(31)

4.2 An´alise com Cross validation sem a filtragem SSA 30

Pode-se perceber na figura 7 que o modelo de suaviza¸c˜ao exponencial de Holt-Winters acompanhou mais proximamente os dados originais que o modelo de Box & Jenkins. A tabela 4 apresenta as estat´ısticas de aderˆencia desta abordagem.

Tabela 4: Estat´ısticas de aderˆencia (out-of-sample): treino/teste sem SSA RM SE R2 M AP E BIC Holt-Winters 0.32 0.48 0.36 479 SARIM A(0, 0, 1) × (2, 0, 0) 0.36 0.22 0.62 88

De acordo com os dados apresentados na tabela 4, o modelo de Holt-Winters, com exce¸c˜ao do BIC, apresentou melhores estat´ısticas de aderˆencia assim como na an´alise in-sample, confirmando ser este o poss´ıvel candidato a modelo para esta s´erie de velocidade do vento.

4.2

An´

alise com Cross validation sem a filtragem

SSA

O segundo cen´ario, por sua vez, utiliza o cross validation e sem filtragem SSA para previs˜ao estat´ıstica. A cada itera¸c˜ao o modelo ´e reestimado com a adi¸c˜ao de uma nova observa¸c˜ao. Logo, diversas configura¸c˜oes podem aparecer e, por conta disso, n˜ao ser´a poss´ıvel mencionar o modelo estat´ıstico.

A figura 8 apresenta as s´eries ajustadas pelas duas classes de modelos: Holt-Winters e Box & Jenkins. Na ocasi˜ao, as linhas pretas s˜ao da s´erie original e as linhas vermelhas, das s´eries ajustadas pelos modelos.

(32)

4.2 An´alise com Cross validation sem a filtragem SSA 31

Figura 8: Valores ajustados: cross validation sem SSA

Os valores ajustados ficaram pr´oximos daqueles vistos na se¸c˜ao anterior. Ou seja, ambos foram capazes de capturar a componente de sazonalidade da s´erie, por´em em alguns picos h´a ausˆencia de sobreposi¸c˜ao das duas curvas.

A tabela 5 apresenta as estat´ısticas de aderˆencia desta abordagem.

Tabela 5: Estat´ısticas de aderˆencia in-sample: cross validation sem SSA RM SE R2 M AP E BIC

Holt-Winters 0.26 0.78 0.16 400 ARIM A 0.29 0.76 0.18 55

Como foi visto anteriormente, o modelo de Holt-Winters sobressaiu novamente com as melhores estat´ısticas de aderˆencia com excess˜ao apenas do BIC.

A figura 9 apresenta as previs˜oes fora da amostra pelas duas classes de modelos: Holt-Winters e Box & Jenkins.

(33)

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA 32

Figura 9: Previs˜ao 12 meses a frente (out-of-sample): cross validation sem SSA

Pode-se perceber na figura 9 que os modelos tiveram desempenho similar na previs˜ao fora da amostra. A seguir foram apresentas as estat´ısticas de aderˆencia desta abordagem.

Tabela 6: Estat´ısticas de aderˆencia out-of-sample: cross validation sem SSA RM SE R2 M AP E BIC

Holt-Winters 0.32 0.42 0.37 488 ARIM A 0.30 0.28 0.35 74

De acordo com os resultados apresentados na tabela 6, pode-se perceber que a classe de modelos ARIM A se comportou melhor que a classe de modelos de suaviza¸c˜ao exponencial de Hol-Winters uma vez que as medidas RM SE, M AP E e BIC foram menores que as observadas nesta segunda classe.

4.3

An´

alise com a divis˜

ao treino/teste com a

filtra-gem SSA

A filtragem SSA foi realizada com o aux´ılio do pacote Rssa do CRAN R. Este pacote permite ao usu´ario a decomposi¸c˜ao e reconstru¸c˜ao da s´erie original, bem como auxilia

(34)

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA 33

por meio de diversos gr´aficos, a escolha dos autovetores necess´arios para reconstru¸c˜ao da s´erie. No entanto, o pacote Rssa do R tamb´em possui um mecanismo automatizado para escolha dos autovetores no momento da reconstru¸c˜ao da s´erie baseado na clusteriza¸c˜ao hier´arquica que foi utilizado neste trabalho.

A figura 10 apresenta o resultado da decomposi¸c˜ao do SSA nas componentes harmˆonica e de tendˆencia da s´erie orginal.

Figura 10: Componentes harmˆonica e de tendˆencia na filtragem SSA com clusteriza¸c˜ao hier´arquica

A figura 11 apresenta a componente ruidosa da s´erie orginal que posteriormente ser´a removida no momento da reconstru¸c˜ao do algoritmo de filtragem SSA.

(35)

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA 34

Figura 11: Componente ruidosa na filtragem SSA com clusteriza¸c˜ao hier´arquica

Por fim, a figura 12 apresenta o resultado da reconstru¸c˜ao da s´erie orginal com apenas as componentes de tendˆencia e harmˆonica identificadas pela filtragem SSA via cluste-riza¸c˜ao hier´arquica. Ainda na figura 12 h´a a s´erie original para comparativo, mostrando que os picos foram suavizados.

(36)

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA 35

Figura 12: S´erie filtrada via SSA com clusteriza¸c˜ao hier´arquica e s´erie original

O tamanho da janela escolhida pelo algoritmo SSA foi igual a metade das observa¸c˜oes da s´erie, enquanto a clusteriza¸c˜ao utilizada dos autovalores foi dado pela clusteriza¸c˜ao hier´arquica utilizando a matriz de correla¸c˜ao de pesos como input.

A tabela 7 apresenta a matriz de correla¸c˜ao das componentes da s´erie temporal pela fase de decomposi¸c˜ao do algoritmo SSA.

Tabela 7: Matriz de correla¸c˜ao das componentes via SSA Tendˆencia Harmˆonica Ruidosa Tendˆencia 1.00 -0.04 0.05 Harmˆonica -0.04 1.00 0.07 Ruidosa 0.05 0.07 1.00

De acordo com a tabela 7, o algoritmo clusterizou apropriadamente as componentes dado que as correla¸c˜oes entre elas foram pr´oximas de zero.

Ap´os o pr´e-processamento dos dados com o filtro SSA, mais uma vez foi dividido a amostra em treino/teste e verificado o ajuste dos modelos.

(37)

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA 36

A equa¸c˜ao do modelo de Box & Jenkins para este cen´ario foi apresentada em (4.2):

(1 − φ1B − φ2B2 − φ3B3− φ4B4− φ5B5)(1 − Φ1B12)Zt = (1 + θ1B + θ2B2)at (4.2)

E a tabela 8 mostra a significˆancia dos parˆametros do modelo Box & Jenkins com os respectivos p-valores.

Tabela 8: Coeficientes do modelo Box & Jenkins: treino/teste com a filtragem SSA φ1 φ2 φ3 φ4 φ5 θ1 θ2 Φ1

Coeficiente 0.852 -0.354 0.502 -0.452 0.322 0.714 1.000 0.779 Erro padro 0.079 0.098 0.093 0.102 0.080 0.021 0.039 0.051 P -valor 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

A figura 13 apresenta os valores ajustados in-sample dos modelos de Holt-Winters e de Box & Jenkins. Na ocasi˜ao, as linhas pretas s˜ao dos dados originais e as linhas vermelhas s˜ao dos valores ajustados pelos modelos com a s´erie filtrada via SSA.

(38)

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA 37

Figura 13: Valores ajustados: divis˜ao treino e teste com SSA

`

A partir dos dados apresentados na figura 13 pode-se perceber que os modelos ajusta-dos acompanham os daajusta-dos da s´erie filtrada SSA com maior precis˜ao se comparados com os dados originais. A tabela 9 apresenta as estat´ısticas de aderˆencia desta abordagem.

Tabela 9: Estat´ısticas de aderˆencia in-sample: treino/teste com SSA RM SE R2 M AP E BIC

Holt-Winters 0.12 0.95 0.09 192 SARIM A(5, 0, 2) × (1, 0, 0) 0.09 0.96 0.10 118

Pode-se perceber, nos resultados apresentados na tabela 9, que o modelo de Box & Jenkins teve melhor desempenho devido aos valores menores das estat´ısticas de aderˆencia e maior valor do R2.

(39)

4.3 An´alise com a divis˜ao treino/teste com a filtragem SSA 38

Para verificar se o ganho no desempenho do modelo ´e consequˆencia da filtragem SSA, a tabela 10 apresenta os resultados das estat´ısticas de aderˆencia in-sample treino/teste sem e com a filtragem SSA.

Tabela 10: Estat´ısticas de aderˆencia in-sample: treino/teste RM SE R2 M AP E BIC

Holt-Winters sem SSA 0.26 0.80 0.16 389 Holt-Winters com SSA 0.12 0.95 0.09 192 ARIM A sem SSA 0.29 0.75 0.18 59 ARIM A com SSA 0.09 0.96 0.10 118

A tabela 10 confirma o resultado melhor dos modelos estat´ısticos com a filtragem SSA, conforme j´a visto anteriormente na an´alise gr´afica.

A figura 14 apresenta a previs˜ao fora da amostra para divis˜ao treino/teste ap´os o pr´e-processamento dos dados via SSA.

Figura 14: Previs˜ao 12 meses a frente (out-of-sample): divis˜ao treino/teste com SSA

De acordo com os gr´aficos apresentados na figura 14, o modelo Box & Jenkins tem uma pequena vantagem para previs˜ao fora da amostra do que Holt-Winters, uma vez que

(40)

4.4 An´alise com Cross validation com a filtragem SSA 39

acompanha com mais precis˜ao a curva dos valores observados entre os meses de Mar¸co `a Outubro.

A tabela 11 apresenta as estat´ısticas de aderˆencia fora da amostra para os dois mo-delos.

Tabela 11: Estat´ısticas de aderˆencia out-of-sample: treino/teste com SSA RM SE R2 M AP E BIC

Holt-Winters 0.47 0.13 0.72 513 SARIM A(5, 0, 2) × (1, 0, 0) 0.40 0.06 0.62 290

As estat´ısticas de aderˆencia apresentadas na tabela 11 corroboram para a escolha do modelo Box & Jenkins frente ao Holt-Winters por ter obtido resultados menores de RM SE, M AP E e BIC.

A tabela 12 apresenta os resultados das estat´ısticas de aderˆencia out-of-sample treino/teste sem e com a filtragem SSA.

Tabela 12: Estat´ısticas de aderˆencia out-of-sample: treino/teste RM SE R2 M AP E BIC

Holt-Winters sem SSA 0.32 0.48 0.36 479 Holt-Winters com SSA 0.47 0.13 0.72 513 ARIM A sem SSA 0.36 0.22 0.62 88 ARIM A com SSA 0.40 0.06 0.62 290

A previs˜ao out-of-sample teve resultados melhores nas estat´ısticas de aderˆencia para s´erie original do que a filtrada pelo SSA.

4.4

An´

alise com Cross validation com a filtragem

SSA

Por ´ultimo, foi implementado o Cross validation com SSA. A cada itera¸c˜ao n˜ao so-mente adicionava uma nova observa¸c˜ao como filtrava s´erie de treinamento.

A figura 15 apresenta os valores ajustados in-sample dos modelos de Holt-Winters e de Box & Jenkins. Na ocasi˜ao, as linhas pretas s˜ao dos dados originais e as linhas vermelhas s˜ao dos valores ajustados pelos modelos.

(41)

4.4 An´alise com Cross validation com a filtragem SSA 40

Figura 15: Valores ajustados: cross validation com SSA

`

A partir dos dados apresentados na figura 15 pode-se perceber que os modelos mos-traram ser mais consistentes com a s´erie filtrada SSA, dando uma maior precis˜ao se comparados com um ajuste de modelos sem pr´e-processamento dos dados. A tabela 13 apresenta as estat´ısticas de aderˆencia desta abordagem.

Tabela 13: Estat´ısticas de aderˆencia in-sample: cross validation com SSA RM SE R2 M AP E BIC

Holt-Winters 0.12 0.96 0.1 212 ARIM A 0.11 0.96 0.1 142

Pela tabela 13 percebe-se que ambos os modelos apresentaram desempenhos satis-fat´orios dentro da amostra de treinamento com uma pequena vantagem ao modelo Box & Jenkins que teve a estat´ıstica RM SE menor, bem como o BIC.

Para verificar se o ganho no desempenho do modelo ´e consequˆencia da filtragem SSA, a tabela 14 apresenta os resultados das estat´ısticas de aderˆencia in-sample no cross validation sem e com a filtragem SSA.

(42)

4.4 An´alise com Cross validation com a filtragem SSA 41

Tabela 14: Estat´ısticas de aderˆencia in-sample: cross validation RM SE R2 M AP E BIC

Holt-Winters sem SSA 0.26 0.78 0.16 400 Holt-Winters com SSA 0.12 0.96 0.1 212 ARIM A sem SSA 0.29 0.76 0.18 55 ARIM A com SSA 0.11 0.96 0.1 142

Os resultados apresentados na tabela 14 indicam que os modelos estat´ısticos utilizando as s´eries ap´os a filtragem SSA apresentam melhor desempenho.

A figura 16 apresenta a previs˜ao fora da amostra para divis˜ao cross validation ap´os o pr´e-processamento dos dados via SSA.

Figura 16: Previs˜ao 12 meses a frente (out-of-sample): cross validation com SSA

De acordo com a figura 16, as previs˜oes fora da amostra conseguem descrever o com-portamento da s´erie original quando os modelos s˜ao feitos `a partir da metodologia cross validation com a filtragem SSA. A tabela 15 apresenta as estat´ısticas de aderˆencia out-of-sample.

(43)

4.4 An´alise com Cross validation com a filtragem SSA 42

Tabela 15: Estat´ısticas de aderˆencia out-of-sample: cross validation com SSA RM SE R2 M AP E BIC

Holt-Winters 0.16 0.49 0.22 282 ARIM A 0.17 0.57 0.24 203

De acordo com os resultados da tabela 15, percebe-se que os dois modelos tiveram comportamento similar se mostrando adequados na previs˜ao fora da amostra com o mo-delo Holt-Winters tendo resultados melhores em RM SE e M AP E, enquanto o ARIM A por sua vez foi melhor em R2 e BIC.

A tabela 16 apresenta as estat´ısticas de aderˆencia para os modelos de Holt-Winters e de Box & Jenkins na abordagem cross validation sem e com a filtragem SSA

Tabela 16: Estat´ısticas de aderˆencia out-of-sample: cross validation RM SE R2 M AP E BIC Holt-Winters sem SSA 0.32 0.42 0.37 488 Holt-Winters com SSA 0.16 0.49 0.22 282 ARIM A sem SSA 0.30 0.28 0.35 74 ARIM A com SSA 0.17 0.57 0.24 203

Os resultados apresentados na tabela 16 mostram que a filtragem SSA promove um ganho preditivo quando a abordagem cross validation ´e utilizada. Nesta ocasi˜ao, a grande maioria das estat´ısticas de aderˆencia apresentaram melhora, enquanto que na abordagem treino/teste esta caracter´ıstica n˜ao foi percebida.

(44)

43

5

Conclus˜

ao

A energia e´olica ´e uma importante alternativa a atual matriz energ´etica em com-bust´ıveis f´osseis. Primeiro, por ser uma fonte inesgot´avel de energia e segundo por ser limpa e sustent´avel para todo o planeta. No entanto, uma das maiores dificuldade de implementa¸c˜ao desse tipo de energia em larga escala est´a relacionada a sua dependˆencia com os fatores clim´aticos estarem favor´aveis a gera¸c˜ao da energia.

Por conta disso, foi proposto a previs˜ao da velocidade do vento atrav´es da modelagem estat´ıstica das s´eries temporais com o intuito de maximizar a acur´acia out-of-sample. Neste trabalho foram utilizados os modelos Holt-Winters e Box & Jenkins em divis˜oes de treinamento/teste e tamb´em em divis˜oes do cross validation com os dados realizados do munic´ıpio de Campos dos Goytacazes entre os anos 2002 `a 2016. Esses mesmos dados foram pr´e-processados atrav´es do filtro SSA, totalizando em quatro cen´arios distintos: 1) treino/teste e sem filtro; 2) cross validation e sem filtro; 3) treino/teste e com filtro; 4) cross validation e com filtro.

Ap´os as modelagens, os resultados mostraram que o cen´ario de treino/teste e sem filtragem SSA na amostra de treinamento (in-sample) conseguiu acompanhar a curva dos valores observados da s´erie, capturando o efeito sazonal. No entanto, foi visto que em alguns picos houve ausˆencia de sobreposi¸c˜ao das curvas em ambos os modelos estat´ısticos. J´a com respeito a previs˜ao fora da amostra (out-of-sample), o modelo Holt-Winters mos-trou ser superior, tendo mais proximidade com a curva dos valores reais.

Sobre o cen´ario 2, isto ´e, com divis˜ao do cross validation e sem filtro SSA, o modelo era reestimado a cada inclus˜ao de uma nova observa¸c˜ao. Este m´etodo mostrou um re-sultado similar ao ajuste dos modelos no treinamento do cen´ario 1, enquanto a previs˜ao fora da amostra (out-of-sample) resultou numa melhora frente ao cen´ario 1, tendo maior proximidade ainda com a curva dos valores reais.

Por fim, os cen´arios 3 e 4 utilizaram o filtro SSA como pr´e-processamento dos dados antes da modelagem estat´ıstica. Este filtro extraiu a componente ruidosa da s´erie e

(45)

5 Conclus˜ao 44

reconstru´ıu sem ela. Dessa maneira, a amostra foi dividida em treino/teste mais uma vez constituindo o terceiro cen´ario distinto do presente trabalho. Os resultados deste cen´ario apontaram uma melhora significante para os dois modelos estat´ısticos com rela¸c˜ao ao ajuste dos dados, tendo maior sobreposi¸c˜ao sobre as curvas do que os cen´arios 1 e 2. Ao comparar os resultados com e sem filtro in-sample na divis˜ao treino/teste, os modelos que utilizaram a s´erie filtrada tiveram ganhos consider´aveis de acur´acia. J´a o mesmo n˜ao pode concluir na previs˜ao out-of-sample, mostrando que a s´erie sem filtro teve a melhor acur´acia do que com filtro. O modelo Box & Jenkins sobressaiu como melhor modelo out-of-sample nesse cen´ario 3.

O ´ultimo cen´ario, levou em considera¸c˜ao o cross validation com filtro SSA. Os resulta-dos in-sample foram pareciresulta-dos para os dois modelos, com uma pequena vantagem para o modelo Box & Jenkins. Esse cen´ario teve as melhores estat´ısticas de aderˆencia in-sample, logo tamb´em foi verificada a eficiˆencia do filtro SSA quando comparado ao cen´ario 2: cross validation e sem filtro. A respeito da previs˜ao fora da amostra (out-of-sample), esse cen´ario mostrou ter consistˆencia em dados ou observa¸c˜oes que n˜ao foram utilizados para estima¸c˜ao dos parˆametros, mostrando a curva da previs˜ao estat´ıstica bem pr´oxima do real, garantindo ser o melhor cen´ario para previs˜ao out-of-sample dos 4 cen´arios apresentados nesse estudo.

Estes resultados colaboram com a ideia de que as metodologias SSA com clusteriza¸c˜ao hier´arquica e cross validation aplicadas na modelagem e previs˜ao de s´eries de velocidade do vento podem trazer resultados mais satisfat´orios na tentativa de incluir a fonte e´olica de energia no sistema el´etrico brasileiro.

(46)

45

Referˆ

encias

ANDRADE, L. P. (2004). Procedimento Interativo de Agrupamento de Dados. Tese de mestrado - Curso de Engenharia Civil, Universidade Federal do Rio de Janeiro , pp. 193

CARDOSO, M. M. e BALESTRASSI, P. P. (2005). Simula¸c˜ao de Modelos GARCH para S´eries Temporais Univariadas de Demanda de Energia El´etrica para Consumidores Livres em Regime de Curto Prazo. Tese (Mestrado) - Curso de Engenharia Produ¸c˜ao, Universidade Federal de Itajub´a , pp. 173

DALMAZ, A. (2007). Estudo do Potencial E´olico e Previs˜ao de Ventos para Gera¸c˜ao de Eletricidade em Santa Catarina. Tese (Mestrado) - Curso de Engenharia Mecˆanica, Universidade Federal Santa Catarina , pp. 193

ELSNER, J. B. and TSONIS, A. (1996). Singular Spectrum Analysis. A New Tool in Time Series Analysis. Plenum Press, New York.

GOLYADINA, N., NEKRUTKIN, V., and ZHIGLJAVSKY, A. (2001). Analysis of time series structure: SSA and reletade techniques. Chapman&Hall/CRC, New York.

HASSANI, H., HERAVI, S., and. ZHIGLJAVSKY, A. (2012). Forecasting UK Industrial Production with Multivariate Singular Spectrum Analysis, presentedat the 2012 Intrernational Conference on the Singular Spectrum Analysis and its Applicati-ons, Beijing, China.

HYNDMAN, R. J., KOEHLHER, A. B., ORD, J. K., Snyder, R. D. e GROSE, S. A. (2002). A State Space Framework for Automatic Forecasting Using Exponential Smoothing Methods. International Journal of Forecasting, vol.18, n. 3, p. 439–454

HYNDMAN, R. J. e ATHANASOPOULOS, G. (2013). Forecasting Principles and Practice. Otexts.

HYNDMAN, R. J., BERGMEIR, C e KOO, B. (2015). A Note on the Validity of Cross-Validation for Evaluating Time Series Prediction. Department of Econome-trics and Business Statistics, Monash University.

MALTA, C. S. e BORGES, C. L. T. (2009). Estudos de S´eries Temporais de Vento Utilizando An´alises Estat´ısticas e Agrupamento de Dados. Disserta¸c˜ao - Curso de Engenharia El´etrica, Universidade Federal do Rio de Janeiro , pp. 72

(47)

PESSA-Referˆencias 46

NHA, J. e SOUZA, R. C. (2014). Modelagem e Previs˜ao de Demanda de Energia com Filtragem SSA. Revista da Estat´ıstica da UFOP , 3 (2), pp. 170 - 187.

MIRANDA, P. A. V. (2014). M´etodos de Agrupamento (Clustering). Instituto de Matem´atica e Estat´ıstica, Universidade Federal de S˜ao Paulo.

OCHI, L. S., DIAS, C. R. e SOARES, S. S. F. (2014). Clusteriza¸c˜ao em Mi-nera¸c˜ao de Dados. Instituto de Computa¸c˜ao, Universidade Federal Fluminense.

TOLMASQUIM, M. T. (2012). Perspectiva e Planejamento do Setor Energ´etico no Brasil. Revista de Estudos Avan¸cados da USP , v. 26, n. 74.

Referências

Documentos relacionados

3.4 Recursos de Multimídia: suporte técnico na autoconstrução ... OBJETIVOS E QUESTÕES METODOLÓGICAS ... O DESIGN DO SISTEMA INFORMATIZADO .... CONSIDERAÇÕES FINAIS

The objective of this study was to evaluate the effect of low-level laser therapy (LLLT) on radiotherapy- induced morphological changes and caspase-3 immunodetection in parotids

Considerando o potencial da cidade de Palestina - SP como zona turística e o pouco investimento destinado a suas áreas verdes, a presente pesquisa tem como objetivo desenvolver um

libras ou pedagogia com especialização e proficiência em libras 40h 3 Imediato 0821FLET03 FLET Curso de Letras - Língua e Literatura Portuguesa. Estudos literários

O objetivo desse trabalho foi realizar o levantamento e identificação das ordens de cupins arborícolas que ocorrem no Parque Natural Municipal do Curió, colaborando assim

No capítulo em que trato da polícia, faço um recorte de gênero em aspectos do campo.. 26 Quanto ao primeiro aspecto, destaco alguns tópicos que considero importantes: Durante a

Santa Marta Fabril S/A, de Abilio Pereira de Almeida, foi nosso maior êxito de bilheteria, trazendo ao Teatro Brasileiro de Comédia de São Paulo um público de 45 mil pessoas,

Médias seguidas pela mesma letra maiúscula comparam as duas cultivares em cada safra e as minúsculas comparam a cultivar entre as duas safras e não diferem entre si a