• Nenhum resultado encontrado

Clustering de instalações, com (re)definição de segmentos em função do comportamento energético

N/A
N/A
Protected

Academic year: 2021

Share "Clustering de instalações, com (re)definição de segmentos em função do comportamento energético"

Copied!
98
0
0

Texto

(1)

Clustering de

instalações, com

(re)definição de

segmentos em função

do comportamento

energético

Joana Raquel Freitas Martins

Dissertação de Mestrado apresentada à

Faculdade de Ciências da Universidade do Porto em

Engenharia Matemática

2014

C lus teri ng de ins talaçõe s, co m (re )def ini ção de segm ent os em f unção do com port am ent o ener gét ico Joan a Raqu el F reitas M ar tins FCUP 2014 2.º CICLO

(2)

com (re)definição de

segmentos em função do

comportamento energético

Joana Raquel Freitas Martins

Mestrado em Engenharia Matemática

Departamento de Matemática da Faculdade de Ciências da Universidade do Porto 2014

Orientador

Prof Dr João Nuno Tavares, Professor Associado, FCUP Profª Dra Ana Paula Rocha, Professora Auxiliar, FCUP

Coorientador

(3)

O Presidente do Júri,

(4)

Gostaria de agradecer aos meus orientadores, Prof Dr Jo ˜ao Nuno Tavares, Profa Dra

Ana Paula Rocha, Profa Dra Margarida Brito, ProfaDra Maria Eduarda Silva, Dra Susana

Magalh ˜aes e Eng Duarte Duarte, n ˜ao s ´o pela disponibilidade e acompanhamento, mas tamb ´em pelas suas sugest ˜oes e cr´ıticas que tiveram um contributo fundamental para o desenvolvimento deste est ´agio.

A todos os elementos da DGE/EDP Distribuic¸ ˜ao - Energia, S.A. que me acolheram durante o per´ıodo de est ´agio, obrigado pelo carinho e boa disposic¸ ˜ao que todos os dias transmiti-ram.

Aos meus colegas de mestrado, em especial `a minha colega de est ´agio Elena Selaru, obrigado pelos momentos de entusiasmo e apoio partilhados em conjunto.

Agradec¸o ainda `as pessoas mais especiais da minha vida pelo incentivo, compreens ˜ao e encorajamento, durante todo este per´ıodo.

(5)

Resumo

Este relat ´orio relata todo o trabalho realizado ao longo do est ´agio curricular do Mestrado em Engenharia Matem ´atica, na empresa EDP Distribuic¸ ˜ao - Energia, SA.

A EDP Distribuic¸ ˜ao tem instalados contadores de leitura inteligente (telecontagem) em v ´arias empresas (instalac¸ ˜oes) situadas em territ ´orio nacional. O presente trabalho teve como objetivo o agrupamento de instalac¸ ˜oes atrav ´es do seu consumo energ ´etico di ´ario. Para alcanc¸ar o objetivo foi necess ´ario, inicialmente, perceber os consumos energ ´eticos, definindo vari ´aveis explicativas do consumo, como por exemplo o hor ´ario de funcionamento de cada instalac¸ ˜ao, dias de feriado e vari ´aveis clim ´aticas (temperatura, humidade, etc). De seguida realizou-se um estudo sobre os consumos numa perspetiva de s ´eries tem-porais, utilizando m ´etodos de decomposic¸ ˜ao, suavizac¸ ˜ao e an ´alise espectral singular, e regress ˜ao linear m ´ultipla.

Observou-se que apenas algumas vari ´aveis s ˜ao explicativas do consumo e por este motivo utilizaram-se os m ´etodos backward, random forest e correlac¸ ˜ao para encontrar as vari ´aveis mais significativas dos consumos energ ´eticos.

Ap ´os selecionar as instalac¸ ˜oes a utilizar no trabalho, procedeu-se `a pesquisa de m ´etodos de clustering de s ´eries temporais para dados de grande dimens ˜ao. Utilizaram-se os m ´etodos u-shapelets e fatores de similaridade.

(6)

Abstract

This report describes all the work realized throughout the Mathematical Engineering Master Degree’s internship at EDP Distribuic¸ ˜ao - Energia, S.A.

EDP Distribuic¸ ˜ao has installed smart meter reading (telemetry) in various companies loca-ted in the national territory. The present study’s aim was to cluster companies considering their daily energy consumption.

Initially, to achieve this goal, it was necessary to understand energy consumption by setting explanatory variables of consumption, such as the opening hours of each company, holidays and climatic variables (temperature, humidity, etc).

Then, a study on consumption in a time series perspective was conducted, using decom-position methods, smoothing and singular spectral analysis, and multiple linear regression. It was observed that only a few variables influence the consumption and, for this reason, backward, random forest and correlation methods were employed to find the most signifi-cant variables in energy consumption.

After selecting the companies for this work, methods of clustering time series for big data were researched and u-shapelets and similarity factors methods were used.

(7)

Conte ´

udo

Resumo i Abstract ii Lista de Tabelas vi Lista de Figuras ix Lista de Abreviaturas x 1 Introduc¸ ˜ao 1

2 An ´alise preliminar de uma instalac¸ ˜ao 3

2.1 Introduc¸ ˜ao . . . 3

2.2 An ´alise gr ´afica . . . 3

2.3 Conclus ˜ao . . . 10

3 Selec¸ ˜ao de medidas, vari ´aveis e caracter´ısticas 12

3.1 Introduc¸ ˜ao . . . 12

3.2 Medidas de agregac¸ ˜ao . . . 13

(8)

3.3.1 An ´alise dos dados . . . 14

3.3.2 Selec¸ ˜ao de regi ˜oes de Portugal Continental . . . 15

3.3.3 Selec¸ ˜ao de vari ´aveis . . . 18

3.3.3.1 Backward - Regress ˜ao Linear M ´ultipla . . . 19

3.3.3.2 Random Forests . . . 20

3.3.3.3 Correlac¸ ˜ao parcial e cruzada . . . 21

3.4 Detec¸ ˜ao de valores anormais . . . 23

3.5 Conclus ˜ao . . . 27

4 Selec¸ ˜ao de instalac¸ ˜oes 29 4.1 Introduc¸ ˜ao . . . 29

4.2 Crit ´erios de selec¸ ˜ao de instalac¸ ˜oes . . . 29

4.3 Resultados . . . 31

5 Agrupamento (Clustering) 34 5.1 Introduc¸ ˜ao . . . 34

5.2 M ´etodos de transformac¸ ˜ao dos dados . . . 35

5.2.1 Shapelets . . . 36

5.2.2 Fatores de similaridade . . . 41

5.3 M ´etodos de clustering . . . 46

5.3.1 M ´etodos de partic¸ ˜ao . . . 46

5.3.2 M ´etodos hier ´arquicos . . . 47

5.3.3 M ´etodos com base na densidade . . . 48

(9)

5.4.1 Determinar o n ´umero de clusters . . . 49

5.4.2 Medir a qualidade do clustering . . . 49

5.5 Resultados . . . 50

6 Conclus ˜ao e trabalho futuro 62 Bibliografia 64 A An ´alise Espectral Singular 68 A.1 Decomposic¸ ˜ao . . . 68

A.2 Reconstruc¸ ˜ao . . . 70

A.3 Informac¸ ˜oes Adicionais . . . 71

A.3.1 Separabilidade . . . 72

A.3.2 Comprimento da janela (L) . . . 72

A.3.3 Escolha dos triplos pr ´oprios . . . 73

B Vari ´aveis Clim ´aticas 79 B.1 Descric¸ ˜ao . . . 79

(10)

Lista de Tabelas

3.1 Coeficiente de determinac¸ ˜ao ajustado para o conjunto inicial de instalac¸ ˜oes

com diferentes observac¸ ˜oes clim ´aticas . . . 16

3.2 Frequ ˆencias relativas das vari ´aveis selecionadas atrav ´es do m ´etodo backward 20

3.3 Frequ ˆencias relativas das vari ´aveis selecionadas atrav ´es do m ´etodo random

forests . . . 21

3.4 Tempo de processamento dos dados das instalac¸ ˜oes do Lote 1 em SQL Server 28

3.5 Tempo de execuc¸ ˜ao de metodologias aplicadas aos dados das instalac¸ ˜oes

do Lote 1 em R . . . 28

4.1 Selec¸ ˜ao de instalac¸ ˜oes e registos por crit ´erio para os Lotes 1, 2 e 3 . . . 33

5.1 Coeficientes de silhueta obtidos utilizando o m ´etodo Shapelets aplicado a 14

instalac¸ ˜oes . . . 53

5.2 Resultado do agrupamento das 14 instalac¸ ˜oes atrav ´es do m ´etodo Shapelets 54

5.3 Resultado do agrupamento das 14 instalac¸ ˜oes atrav ´es do m ´etodo Fatores

de Similaridade . . . 56

5.4 Coeficientes de silhueta obtidos utilizando o m ´etodo Shapelets aplicado ao

(11)

Lista de Figuras

2.1 Diagrama de Carga no ano 2013 da instalac¸ ˜ao inicial . . . 4

2.2 Diagrama de Carga em Janeiro de 2013 da instalac¸ ˜ao inicial . . . 4

2.3 Energia total di ´aria consumida na instalac¸ ˜ao entre 1 de Janeiro de 2011 e

31 de Agosto de 2013 . . . 5

2.4 Energia m ´edia di ´aria consumida na instalac¸ ˜ao entre 1 de Janeiro de 2011 e

31 de Agosto de 2013 . . . 5

2.5 Gr ´afico de barras do consumo m ´edio energ ´etico da instalac¸ ˜ao inicial por ano 7

2.6 Energia m ´edia di ´aria consumida na instalac¸ ˜ao por ano . . . 7

2.7 Energia m ´edia mensal consumida na instalac¸ ˜ao por ano . . . 8

2.8 Gr ´afico de barras da energia m ´edia consumida na instalac¸ ˜ao inicial por estac¸ ˜oes

do ano . . . 8

2.9 Energia m ´edia hor ´aria por ano da instalac¸ ˜ao inicial . . . 9

2.10 Energia m ´edia hor ´aria por dia de semana (1 - Segunda-feira) da instalac¸ ˜ao

inicial . . . 9

3.1 Classificac¸ ˜ao de K ¨oppen-Geiger para Portugal continental [17] . . . 17

3.2 Consumo de energia m ´edia di ´aria de duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao

(12)

3.3 Limites de ser um valor de consumo energ ´etico normal usando a m ´edia, des-vio padr ˜ao e vari ˆancia em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica

do grupo com valores anormais . . . 24

3.4 Limites de ser um valor de consumo energ ´etico normal usando a m ´edia e 3.5 do desvio padr ˜ao em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica

do grupo com valores anormais . . . 25

3.5 Limites de ser um valor de consumo energ ´etico normal usando a tend ˆencia, m ´edia, desvio padr ˜ao e vari ˆancia da tend ˆencia em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais;

Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais . . . 26

5.1 Clustering usando a dist ˆancia Euclidiana entre s ´eries inteiras [38] . . . 36

5.2 Clustering usando a dist ˆancia Euclidiana ignorando parte das s ´eries [38] . . 37

5.3 Ilustrac¸ ˜ao da separac¸ ˜ao de D em DAe DB [38] . . . 38

5.4 Dist ˆancias das frases `a palavra Day [38] . . . 40

5.5 Consumos energ ´eticos m ´edios di ´arios de 14 instalac¸ ˜oes . . . 51

5.6 Agrupamento das 14 instalac¸ ˜oes de 5.5 pelo m ´etodo shapelets. Obt ˆem-se 2 grupos de forma: Grupo 1 - a azul e Grupo 2 - a vermelho. Dentro do Grupo 1 obt ˆem-se 3 grupos de escala: Grupo A - a rosa; Grupo B - a amarelo e Grupo C - a verde. Dentro do Grupo 2 obt ˆem-se 2 grupos de escala: Grupo

D - a laranja e Grupo E - a castanho . . . 55

5.7 Gr ´afico das m ´edias de dissimilaridade obtidas usando o m ´etodo fatores de similaridade, para os diferentes valores de k e de combinac¸ ˜oes, na amostra

(13)

5.8 Agrupamento das 14 instalac¸ ˜oes de 5.5 pelo m ´etodo fatores de similaridade. Obt ´em-se 3 grupos: Grupo A - a vermelho; Grupo B - a verde e Grupo C - a

azul . . . 57

5.9 A esquerda: Consumos energ ´eticos das instalac¸ ˜oes contidas no Grupo A e` perfil caracter´ıstico do Grupo A (a vermelho). `A direita: Consumos energ ´eticos das instalac¸ ˜oes contidas no Grupo D e perfil caracter´ıstico do Grupo D (a vermelho) . . . 58

5.10 Gr ´afico das m ´edias de dissimilaridade obtidas usando o m ´etodo fatores de similaridade, para os diferentes valores de k e de combinac¸ ˜oes, no Lote 1 . . 60

A.1 No mensal de concentrac¸ ˜oes atmosf ´ericas de CO2 no Hava´ı entre 1959 e 1997 . . . 74

A.2 Valores singulares da decomposic¸ ˜ao da s ´erie em 120 componentes . . . 75

A.3 A esquerda: Gr ´afico dos 10 primeiros vetores pr ´oprios de decomposic¸ ˜ao da` s ´erie temporal A.1. `A direita: scatterplot’s dos 10 primeiros pares de vetores singulares . . . 76

A.4 Matriz w-correlac¸ ˜ao das componentes SVD resultantes da etapa decomposic¸ ˜ao da t ´ecnica SSA aplicada aos dados de concentrac¸ ˜oes de CO2 no Hava´ı. `A esquerda: 50 componentes. `A direita: 20 componentes . . . 77

A.5 S ´erie original reconstru´ıda em 4 componentes usando os grupos (1,4), (2,3), (5,6), sendo a ´ultima o ru´ıdo . . . 78

B.1 Sum ´ario das vari ´aveis clim ´aticas . . . 80

B.2 Gr ´aficos de algumas vari ´aveis clim ´aticas . . . 81

(14)

Lista de Abreviaturas

ComprDia Vari ´avel explicativa que indica o Comprimento do Dia (node horas de luz solar)

DiaSemana Vari ´avel explicativa que indica o dia da semana (1 - Segunda, 2 - Terc¸a, ...)

HorTrab Vari ´avel explicativa que indica o hor ´ario de trabalho de uma instalac¸ ˜ao por dia da semana

HumMax Vari ´avel explicativa que indica a Humidade M ´axima por dia, medida em percen-tagem (%)

HumMedia Vari ´avel explicativa que indica a Humidade M ´edia por dia, medida em percen-tagem (%)

HumMin Vari ´avel explicativa que indica a Humidade M´ınima por dia, medida em percen-tagem (%)

PC Componentes Principais (do ingl ˆes Principal Components)

PCA An ´alise de Componentes Principais (do ingl ˆes Principal Components Analysis)

PresMax Vari ´avel explicativa que indica a Press ˜ao ao n´ıvel do Mar M ´axima por dia, medida em hetopascal (hPa)

PresMedia Vari ´avel explicativa que indica a Press ˜ao ao n´ıvel do Mar M ´edia por dia, me-dida em hetopascal (hPa)

PresMin Vari ´avel explicativa que indica a Press ˜ao ao n´ıvel do Mar M´ınima por dia, medida em hetopascal (hPa)

(15)

PtOrvMax Vari ´avel explicativa que indica o Ponto de Orvalho M ´aximo por dia, medida em

graus Celsius (oC)

PtOrvMedio Vari ´avel explicativa que indica o Ponto de Orvalho M ´edio por dia, medida em

graus Celsius (oC)

PtOrvMin Vari ´avel explicativa que indica o Ponto de Orvalho M´ınimo por dia, medida em

graus Celsius (oC)

SSA An ´alise Espectral Singular (do ingl ˆes Singular Spectrum Analysis)

STM S ´erie temporal multivariada

SVD Decomposic¸ ˜ao de Valor Singular (do ingl ˆes Singular Value Decomposition)

TempMax Vari ´avel explicativa que indica a Temperatura M ´axima por dia, medida em graus

Celsius (oC)

TempMedia Vari ´avel explicativa que indica a Temperatura M ´edia por dia, medida em graus

Celsius (oC)

TempMin Vari ´avel explicativa que indica a Temperatura M´ınima por dia, medida em graus

Celsius (oC)

VelRajVentoMax Vari ´avel explicativa que indica a Velocidade M ´axima de Rajada de Vento por dia, medida em quil ´ometros por hora (km/h)

VelVentoMax Vari ´avel explicativa que indica a Velocidade do Vento M ´axima por dia, me-dida em quilometros por hora (km/h)

VelVentoMedia Vari ´avel explicativa que indica a Velocidade do Vento M ´edia por dia, me-dida em quil ´ometros por hora (km/h)

(16)

Cap´ıtulo 1

Introduc¸ ˜ao

A EDP Distribuic¸ ˜ao tem instalados contadores de leitura inteligente (telecontagem) em v ´arias empresas (instalac¸ ˜oes) situadas em territ ´orio nacional. A implementac¸ ˜ao destas redes inteligentes permite automatizar a gest ˜ao da rede, melhorar a qualidade de servic¸o, fornecendo ao consumidor meios que permitem gerir e otimizar o seu consumo di ´ario, minimizando custos e impactos ambientais.

Os sistemas inteligentes registam o consumo de energia el ´etrica em intervalos de 15 minutos (96 leituras di ´arias). A estes registos d ´a-se o nome de diagrama de carga da instalac¸ ˜ao.

Estes equipamentos extraem uma quantidade enorme de dados que necessitam ser anali-sados. Surgem v ´arios desafios:

• Caracterizar tend ˆencias base de consumo; • Detetar e caracterizar padr ˜oes de consumo;

• Analisar associac¸ ˜oes com fatores externos (temperatura, humidade, iluminac¸ ˜ao, aque-cimento, etc.);

• Detetar comportamentos an ´omalos; • Analisar fraudes.

A prop ´osito destes problemas, a EDP Distribuic¸ ˜ao proporcionou dois est ´agios de 5 meses para alunos do Mestrado em Engenharia Matem ´atica, subordinados aos temas seguintes:

(17)

Est ´agio 1 Desagregac¸ ˜ao do consumo energ ´etico em sub-conjuntos;

Est ´agio 2 Clustering de instalac¸ ˜oes, com (re)definic¸ ˜ao de segmentos em func¸ ˜ao do com-portamento energ ´etico.

O est ´agio 1 foi desenvolvido pela aluna Elena Selaru e este relat ´orio descreve o desenvol-vimento do est ´agio 2. Ambos os est ´agios avanc¸aram em paralelo, tendo uma parte inicial comum.

Os objetivos comuns a ambos est ´agios foram:

1. Compreender os consumos energ ´eticos;

2. Extrair os fatores externos correlacionados com o consumo;

3. Selecionar as instalac¸ ˜oes a utilizar;

Os objetivos referentes ao tema Clustering de instalac¸ ˜oes foram:

4. Pesquisa e implementac¸ ˜ao de m ´etodos de clustering e medidas de semelhanc¸a; 5. Avaliac¸ ˜ao e validac¸ ˜ao dos m ´etodos.

Este relat ´orio de est ´agio est ´a organizado em sete cap´ıtulos, designadamente:

No primeiro cap´ıtulo, contextualiza-se e apresenta-se o est ´agio realizado. No segundo cap´ıtulo, descreve-se a an ´alise gr ´afica efetuada a um diagrama de carga e no terceiro cap´ıtulo, a an ´alise numa perspetiva de s ´eries temporais, construindo um conjunto de me-didas e vari ´aveis explicativas do consumo. No quarto cap´ıtulo, apresenta-se o estudo realizado aos conjuntos anteriores, concluindo quais as medidas a utilizar e quais as vari ´aveis que s ˜ao significativas. No quinto cap´ıtulo, enumera-se o conjunto de crit ´erios necess ´arios na selec¸ ˜ao de instalac¸ ˜oes a utilizar. Os primeiros 5 cap´ıtulos dizem respeito `a parte comum dos est ´agios.

No sexto cap´ıtulo exp ˜oe-se a metodologia utilizada para alcanc¸ar o objetivo final do est ´agio e apresentam-se os resultados obtidos. No s ´etimo cap´ıtulo, s ˜ao apresentadas as con-clus ˜oes do est ´agio e prop ˜oem-se algumas sugest ˜oes para futuros trabalhos no mesmo contexto. O trabalho termina com as refer ˆencias bibliogr ´aficas, seguidas dos anexos que incluem os instrumentos essenciais para o trabalho realizado.

(18)

Cap´ıtulo 2

An ´alise preliminar de uma instalac¸ ˜ao

2.1

Introduc¸ ˜ao

Como j ´a foi referido no cap´ıtulo 1, o objetivo principal do est ´agio foi agrupar um conjunto de instalac¸ ˜oes segundo o seu consumo energ ´etico. Para tal, foi necess ´ario perceber como

´e um consumo energ ´etico de uma instalac¸ ˜ao e compreender como se comporta.

Inicialmente foi disponibilizado o diagrama de carga de uma instalac¸ ˜ao. O diagrama de carga de uma instalac¸ ˜ao cont ´em a informac¸ ˜ao da pot ˆencia, energia consumida a cada intervalo de tempo (neste caso definido em per´ıodos de 15 minutos, ou seja, 96 leituras di ´arias). Neste caso, o per´ıodo temporal m ´aximo foi de 1 de Janeiro de 2011 a 31 de Agosto de 2013, o que corresponde a 93 504 observac¸ ˜oes.

Na pr ´oxima secc¸ ˜ao ser ´a apresentada a an ´alise gr ´afica realizada a este diagrama de carga. Esta an ´alise foi desenvolvida no Excel.

2.2

An ´alise gr ´afica

O objetivo desta an ´alise foi perceber o consumo energ ´etico da instalac¸ ˜ao disponibilizada, sendo assim foi necess ´ario converter a pot ˆencia em energia. Na figura 2.1 est ´a represen-tado o diagrama de carga no ano 2013. Observando a figura constatou-se uma enorme

(19)

dificuldade em perceber o comportamento da curva pois existia uma grande quantidade de observac¸ ˜oes, sendo apenas poss´ıvel concluir que o consumo energ ´etico varia entre 0 e 130 kWh.

Figura 2.1: Diagrama de Carga no ano 2013 da instalac¸ ˜ao inicial

Figura 2.2: Diagrama de Carga em Janeiro de 2013 da instalac¸ ˜ao inicial

Para uma melhor compreens ˜ao dos dados, na figura 2.2 est ´a representado o diagrama de carga no m ˆes de Janeiro de 2013, podendo observar-se que existe um ciclo di ´ario, ou seja, concluiu-se que nesta instalac¸ ˜ao o consumo energ ´etico n ˜ao ´e constante ao longo do dia e ´e semelhante em todos os dias do m ˆes de Janeiro com excec¸ ˜ao do primeiro dia.

(20)

Observou-se tamb ´em que o consumo energ ´etico baixo (entre 20 a 40 KWH) acontece durante a noite e o consumo energ ´etico alto (entre 80 a 100 KWH) durante o dia, o que sugere que o hor ´ario de trabalho desta instalac¸ ˜ao ´e durante o dia.

Figura 2.3: Energia total di ´aria consumida na instalac¸ ˜ao entre 1 de Janeiro de 2011 e 31 de Agosto de 2013

Figura 2.4: Energia m ´edia di ´aria consumida na instalac¸ ˜ao entre 1 de Janeiro de 2011 e 31 de Agosto de 2013

(21)

2.3 e 2.4 est ˜ao apresentados os consumos di ´arios desta instalac¸ ˜ao agregados por soma e m ´edia, respetivamente, no per´ıodo de 1 de Janeiro de 2011 a 31 de Agosto de 2013. Analisando ambos os gr ´aficos observou-se que as curvas de energia eram bastante se-melhantes, a menos da escala, e que existia alguns dias em que a energia consumida era bastante inferior aos restantes. Esses dias dizem respeito aos dias de Natal (25 de Dezembro) e Ano Novo (1 de Janeiro) e o consumo sugere que esta instalac¸ ˜ao esteve fechada nesses dias. Para esta instalac¸ ˜ao, os ´unicos feriados que se destacaram foram os de Natal e Ano Novo, mas foi necess ´ario ter em atenc¸ ˜ao que o consumo de outras instalac¸ ˜oes podia ser influenciado por outros feriados. Os feriados nacionais utilizados neste trabalho foram Ano Novo, Carnaval, Sexta-feira Santa, P ´ascoa, 25 de Abril, Dia do

Trabalhador, Corpo de Deus1, Dia de Portugal, Assunc¸ ˜ao de Nossa Senhora, Implantac¸ ˜ao

da Rep ´ublica1, Dia de Todos os Santos1, Restaurac¸ ˜ao da Independ ˆencia1, Imaculada

Conceic¸ ˜ao e Natal.

No gr ´afico 2.3, ao contr ´ario do gr ´afico 2.4, observou-se um dia (4 de Novembro de 2011) onde a energia era tamb ´em significativamente baixa em relac¸ ˜ao aos restantes dias. O dia 4 de Novembro n ˜ao ´e um feriado e apenas no ano 2011 se verificou este baixo consumo de energia. Assim, foi analisado as observac¸ ˜oes de 15 em 15 minutos do dia 4 de Novembro de 2011 e observou-se que existiam alguns per´ıodos em falta (20 per´ıodos consecutivos) e por este motivo, a energia agregada pela soma nesse dia era obviamente mais baixa que a energia agregada num dia em que n ˜ao existia falta de per´ıodos.

Esta situac¸ ˜ao alertou para o facto de ser necess ´ario verificar a incompletude dos dados, definindo crit ´erios para exclus ˜ao de dias que n ˜ao tivessem os dados completos e/ou para ajustar o consumo di ´ario para 96 per´ıodos (24h).

Variac¸ ˜ao Anual

Ap ´os analisar os dados em per´ıodos de 15 minutos e di ´arios foi analisada a variac¸ ˜ao do consumo energ ´etico m ´edio ao longo dos 3 anos. Nas figuras 2.5 e 2.6 est ˜ao apresentados 2 gr ´aficos referentes ao consumo energ ´etico m ´edio anual. O gr ´afico 2.5 ´e o gr ´afico de barras da energia m ´edia consumida nos diferentes anos e, uma vez que no ano 2013 apenas se tinha 8 meses de observac¸ ˜oes, foi calculada a m ´edia da energia. Em 2.6

tem-se a energia m ´edia di ´aria consumida para os diferentes anos. Observou-se que

existe uma diminuic¸ ˜ao de consumo energ ´etico de ano para ano. Esta observac¸ ˜ao pode 1feriado suspenso no ano de 2013

(22)

dever-se `a situac¸ ˜ao econ ´omica do pa´ıs, ao acesso aos diagramas de carga, condic¸ ˜oes meteorol ´ogicas, etc.

Figura 2.5: Gr ´afico de barras do consumo m ´edio energ ´etico da instalac¸ ˜ao inicial por ano

Figura 2.6: Energia m ´edia di ´aria consumida na instalac¸ ˜ao por ano

Resta salientar que, se no gr ´afico 2.6 fosse usado a medida de agregac¸ ˜ao soma, a con-clus ˜ao seria a mesma.

Variac¸ ˜ao Mensal

A an ´alise que surgiu imediatamente a seguir `a anual foi a an ´alise mensal, ou seja, observar o comportamento do consumo energ ´etico m ´edio mensal. Sendo assim, na figura 2.7 tem-se a energia m ´edia mensal consumida nos diferentes anos. Obtem-servou-tem-se que o consumo

(23)

mensal ´e diferente para os 3 anos, como j ´a foi visto, e que existe variac¸ ˜ao no consumo ao longo dos meses. Nos meses de Agosto e Setembro verificou-se um consumo maior que nos restantes e nos meses de Janeiro, Marc¸o, Abril, Maio e Dezembro (para os anos 2011 e 2012) observou-se um baixo consumo de energia. Estas observac¸ ˜oes sugeriram que as estac¸ ˜oes do ano podem influenciar o consumo de energia e, sendo assim, a pr ´oxima an ´alise gr ´afica foi ao consumo energ ´etico nas diferentes estac¸ ˜oes do ano.

Figura 2.7: Energia m ´edia mensal consumida na instalac¸ ˜ao por ano

Variac¸ ˜ao nas Estac¸ ˜oes do Ano

Para verificar se as estac¸ ˜oes do ano influenciavam o consumo energ ´etico desta instalac¸ ˜ao, foi constru´ıdo o gr ´afico de barras da energia m ´edia consumida nas 4 estac¸ ˜oes, podendo ser visualizado na figura 2.8. O ano foi dividido nas seguintes estac¸ ˜oes: Inverno - meses de Dezembro, Janeiro e Fevereiro; Primavera - meses de Marc¸o, Abril e Maio; Ver ˜ao - meses de Junho, Julho e Agosto; Outono - meses de Setembro, Outubro e Novembro.

(24)

Observou-se que existiam grandes diferenc¸as no consumo energ ´etico segundo as estac¸ ˜oes do ano - nas estac¸ ˜oes Outono e Ver ˜ao existia um maior consumo de energia do que no Inverno e Primavera. Nesta an ´alise foi utilizada a medida de agregac¸ ˜ao m ´edia uma vez que n ˜ao existia observac¸ ˜oes da estac¸ ˜ao Outono no ano 2013.

Variac¸ ˜ao Semanal e Di ´aria

Atrav ´es da figura 2.2 observou-se que, em Janeiro de 2013, o consumo de energia variava ao longo do dia, sendo mais baixo durante a noite, e que para os diferentes dias o consumo era semelhante. Para analisar a variac¸ ˜ao semanal e di ´aria, foi necess ´ario observar se o que foi dito anteriormente para o m ˆes de Janeiro de 2013 acontece nos 3 anos.

Figura 2.9: Energia m ´edia hor ´aria por ano da instalac¸ ˜ao inicial

Figura 2.10: Energia m ´edia hor ´aria por dia de semana (1 - Segunda-feira) da instalac¸ ˜ao inicial

Na figura 2.9 est ´a representado o consumo m ´edio de energia ao longo do dia, para os 3 anos, e observou-se que para todos a variac¸ ˜ao da energia era semelhante, ou seja, o

(25)

hor ´ario de trabalho da instalac¸ ˜ao era entre as 8h e as 23h (caso onde o consumo de energia era maior). Restava verificar se este hor ´ario era semelhante para os diferentes dias da semana. Na figura 2.10 est ´a apresentado o gr ´afico da energia m ´edia consumida ao longo do dia para os 7 dias da semana. Observou-se que, para todos os dias, o consumo de energia era muito semelhante, assim como o hor ´ario de trabalho da instalac¸ ˜ao. O mesmo se conclu´ıa se a medida de agregac¸ ˜ao fosse a soma.

Atrav ´es desta an ´alise foi poss´ıvel perceber o hor ´ario de funcionamento da instalac¸ ˜ao nos diferentes dias de trabalho e saber se o trabalho foi semelhante ou n ˜ao nos diferentes dias da semana. Sendo assim, na ferramenta R (http://cran.r-project.org/) criou-se uma func¸ ˜ao que devolve o hor ´ario da instalac¸ ˜ao para os 7 dias da semana e para os feriados. Para esta func¸ ˜ao os dados do consumo energ ´etico tinham que estar agregados por hora e por dia da semana (incluindo Feriado), ou seja, uma tabela de 8 linhas referentes aos 7 dias da semana mais feriados e 24 colunas referentes `as horas do dia, para cada instalac¸ ˜ao. O algoritmo consistia em calcular as diferenc¸as de consumo entre horas consecutivas de um mesmo dia da semana. Caso a diferenc¸a fosse significativamente grande (ap ´os v ´arios testes, o valor mais adequado foi 13% da amplitude do consumo) obtinha-se o hor ´ario da instalac¸ ˜ao do dia da semana correspondente. A primeira diferenc¸a positiva corresponderia `a hora inicial de trabalho e a ´ultima negativa corresponderia `a hora final de trabalho. Caso n ˜ao existisse diferenc¸as significativas ent ˜ao o hor ´ario de funcionamento da instalac¸ ˜ao seria o dia inteiro ou a instalac¸ ˜ao n ˜ao funcionava nesse dia, ou seja, a hora inicial de trabalho era igual `a hora final.

2.3

Conclus ˜ao

Na secc¸ ˜ao anterior analisou-se o consumo energ ´etico de uma instalac¸ ˜ao agregando o consumo atrav ´es de v ´arias medidas e vari ´aveis. A necessidade de agrupar o consumo surgiu pela quantidade elevada de observac¸ ˜oes, que tornou imposs´ıvel a an ´alise visual, e tamb ´em pela morosidade do processamento computacional dos dados.

As medidas de agregac¸ ˜ao mais utilizadas foram a m ´edia e a soma, uma vez que o m´ınimo e o m ´aximo s ˜ao medidas de extremos, n ˜ao sendo as mais adequadas para an ´alise do

(26)

comportamento do consumo energ ´etico. No entanto, ao longo desta an ´alise, observou-se que a soma n ˜ao era a melhor medida a utilizar quando existia falta de observac¸ ˜oes. Ao longo da an ´alise gr ´afica foram constru´ıdas v ´arias vari ´aveis que podiam influenciar o consumo de energia de uma instalac¸ ˜ao:

• Ser feriado ou n ˜ao (Feriado)

• Ano

• Estac¸ ˜oes do Ano (Estac¸ ˜ao)

• Dia da Semana (DiaSemana)

• Ser Fim-de-Semana ou n ˜ao (FimSemana)

• Hor ´ario de trabalho (HorTrab)

A an ´alise anterior foi realizada a mais 5 instalac¸ ˜oes e obtiveram-se as mesmas conclus ˜oes. Para algumas delas verificou-se que o hor ´ario de funcionamento era semelhante nos dias ´uteis, mas diferente no fim de semana e em feriados, o que aumentou a relev ˆancia das vari ´aveis anteriores.

(27)

Cap´ıtulo 3

Selec¸ ˜ao de medidas, vari ´aveis e

caracter´ısticas

3.1

Introduc¸ ˜ao

No cap´ıtulo 2 foi discutido que os dados teriam que ser agregados, uma vez que o problema foi constitu´ıdo por uma grande quantidade de instalac¸ ˜oes e, para cada uma delas, existia

uma grande quantidade de observac¸ ˜oes. `A medida que a an ´alise gr ´afica foi realizada, foi

considerado um conjunto de vari ´aveis explicativas do consumo energ ´etico e foi observada a exist ˆencia de valores de consumo energ ´etico anormais (os dias de Natal e Ano Novo). Na secc¸ ˜ao 3.4 foi decidido utilizar um conjunto de vari ´aveis clim ´aticas para explicar o consumo energ ´etico, mas observou-se que v ´arias n ˜ao foram estatisticamente significativas.

Deste modo, nas pr ´oximas secc¸ ˜oes apresentam-se as discuss ˜oes dos seguintes proble-mas: qual a medida de agregac¸ ˜ao a utilizar; quais as vari ´aveis explicativas mais importan-tes para este trabalho; como detetar os valores anormais de consumo energ ´etico.

A an ´alise realizada nos cap´ıtulos 2 e 3 incidiu apenas sobre uma amostra de 6 instalac¸ ˜oes. Nesta fase utilizou-se uma amostra de 97 instalac¸ ˜oes (chamada de Lote 1) onde a variabi-lidade dos consumos era garantida.

(28)

3.2

Medidas de agregac¸ ˜ao

A escolha da medida de agregac¸ ˜ao mais adequada foi uma das quest ˜oes mais importantes deste trabalho. Caso a escolha n ˜ao fosse a mais adequada, podia-se estar a fazer um estudo sobre dados enviesados. Sendo assim, foi necess ´ario ter atenc¸ ˜ao `as observac¸ ˜oes em falta e aos valores extremos, uma vez que podiam afetar o valor real da soma e da m ´edia dos dados, respetivamente.

As medidas de agregac¸ ˜ao testadas nos cap´ıtulos anteriores foram: m ´edia, soma, m ´aximo e m´ınimo.

Como foi referido em 2.3, os dados di ´arios deviam ser agregados pela soma ou m ´edia, uma vez que o objetivo foi analisar o comportamento tipico do consumo energ ´etico. Sendo assim, para toda a an ´alise que necessitou dos dados di ´arios utilizou-se a m ´edia ou a soma como medidas de agregac¸ ˜ao.

Para a construc¸ ˜ao da vari ´avel Hor ´ario de Trabalho foi necess ´ario agregar os dados por hora e dia da semana. Testando com as medidas enumeradas anteriormente chegou-se `a conclus ˜ao que os resultados obtidos pela m ´edia e soma foram bastante semelhantes e visualizou-se facilmente o hor ´ario de trabalho; agregando por m ´aximo n ˜ao se visualizaram variac¸ ˜oes significativas no consumo energ ´etico sendo mais dif´ıcil detetar o hor ´ario de trabalho; agregando por m´ınimo foi imposs´ıvel detetar o hor ´ario de trabalho uma vez que bastava haver um dia ou horas em que a instalac¸ ˜ao n ˜ao funcionou, ou houve falha de energia, ou falha nas comunicac¸ ˜oes para o hor ´ario da instalac¸ ˜ao ser admitido como constante (hora inicial igual `a hora final).

Por estas raz ˜oes, foram usadas as medidas de agregac¸ ˜ao soma e m ´edia, tendo em conta que a soma ´e sens´ıvel `as falhas de dados e a m ´edia `a exist ˆencia de outliers. Quando a medida soma foi utilizada, caso existissem falhas de per´ıodos de 15 minutos ao longo de algum dia, usou-se o crit ´erio de selec¸ ˜ao de dias, e caso o dia fosse selecionado, o consumo energ ´etico di ´ario era ajustado para 96 per´ıodos (24h).

(29)

3.3

Vari ´aveis Externas

3.3.1 An ´alise dos dados

O per´ıodo de tempo m ´aximo de observac¸ ˜oes foi de 1 de Janeiro de 2010 a 31 de Agosto de 2013. Numa an ´alise inicial `as observac¸ ˜oes clim ´aticas para a cidade de Lisboa, extra´ıdas do site Weather Underground, no per´ıodo temporal acima referido, deparou-se com a exist ˆencia de falhas (ou seja, valores desconhecidos) e algumas vari ´aveis incoerentes. A an ´alise descritiva de cada vari ´avel pode ser consultada no anexo B.

A vari ´avel Precipitac¸ ˜ao cont ´em informac¸ ˜ao da percentagem de precipitac¸ ˜ao di ´aria, en-quanto que a vari ´avel Eventos regista a ocorr ˆencia de Chuva, Trovoada, Nevoeiro, etc. No entanto, em alguns casos quando Eventos toma valor Chuva a Precipitac¸ ˜ao ´e 0. Como o valor da Precipitac¸ ˜ao n ˜ao foi compreens´ıvel, decidiu-se retirar esta vari ´avel e utilizar apenas a vari ´avel Eventos, uma vez que esta cont ´em informac¸ ˜ao sobre outras ocorr ˆencias clim ´aticas.

A vari ´avel Visibilidade M ´axima tem valor constante igual a 10 ( `a excec¸ ˜ao dos valores desconhecidos) e, deste modo, n ˜ao contribuiu com qualquer informac¸ ˜ao adicional, tendo sido retirada do conjunto de dados.

A exist ˆencia de valores desconhecidos no conjunto de vari ´aveis clim ´aticas ´e discutido a seguir:

Tratamento de falhas

Segundo [29], [28], [14] e [18] existem v ´arias estrat ´egias para lidar com os valores desco-nhecidos (NA), as mais comuns s ˜ao:

• Remover os casos ou vari ´aveis com valores desconhecidos;

• Preencher os valores desconhecidos com o valor mais frequente da vari ´avel em quest ˜ao;

• Preencher os valores desconhecidos explorando semelhanc¸as entre casos (vizinhos mais pr ´oximos).

Neste contexto, a primeira opc¸ ˜ao apenas foi aplicada a vari ´aveis com demasiados valores em falta. Em relac¸ ˜ao aos casos (dias) com algumas falhas, para n ˜ao perder informac¸ ˜oes

(30)

clim ´aticas desses dias, foi necess ´ario preencher as falhas. Segundo [14], preencher os valores desconhecidos pode enviesar os dados, mas, no entanto, esta ´ultima abordagem ´e uma estrat ´egia comum. Em comparac¸ ˜ao com outros m ´etodos, este usa o m ´aximo de informac¸ ˜ao a partir dos dados para prever valores em falta [29][14]. Uma vez que as vari ´aveis clim ´aticas dependem da estac¸ ˜ao do ano, a opc¸ ˜ao mais adequada foi preencher os valores desconhecidos explorando semelhanc¸as entre casos. Para detalhes sobre este m ´etodo, consultar anexo B.

Ao analisar os dados das vari ´aveis clim ´aticas observou-se que a vari ´avel Velocidade M ´a-xima de Rajada de Vento tem uma grande quantidade de NA’s (cerca de 88%). Sendo assim, usou-se a primeira abordagem eliminando esta vari ´avel do conjunto. As restantes vari ´aveis com NA’s foram tratadas no R atrav ´es da func¸ ˜ao knnImputation().

J ¨onsson e Wohlin [18] sugerem que um valor adequado para o n ´umero k de vizinhos mais pr ´oximos ´e, aproximadamente, a raiz quadrada do n ´umero de casos completos nos dados.

Neste caso existiam 1176 casos completos, logo k ≈√1176 ≈ 34.

Uma vez que existiam vari ´aveis clim ´aticas com valores inteiros, usou-se a mediana, medida mais robusta, com valor de k ´ımpar. Deste modo, foi usada a mediana dos 33 vizinhos mais pr ´oximos ao caso com NA, para lhe atribuir um valor.

3.3.2 Selec¸ ˜ao de regi ˜oes de Portugal Continental

No cap´ıtulo 3 foram usadas as vari ´aveis clim ´aticas para explicar o consumo de energia m ´edia di ´aria de um pequeno conjunto de instalac¸ ˜oes (em Regress ˜ao Linear M ´ultipla). Para todo o conjunto foram usadas as observac¸ ˜oes clim ´aticas de Lisboa, embora nem todas as instalac¸ ˜oes sejam de Lisboa ou arredores - existe uma instalac¸ ˜ao de Beja e outra do

Algarve. Surgiu ent ˜ao as quest ˜oes: ´E necess ´ario utilizar observac¸ ˜oes clim ´aticas de regi ˜oes

diferentes do Pa´ıs, de acordo com a localizac¸ ˜ao da instalac¸ ˜ao? Ou seja, a influ ˆencia das observac¸ ˜oes clim ´aticas sobre o consumo de energia diferem por regi ˜ao do Pa´ıs? Que regi ˜oes utilizar?

Na maior parte de Portugal continental o clima ´e temperado [17]. No entanto, verifica-se que no interior do Pa´ıs o clima ´e mais seco e quente que no litoral e que o norte e centro do Pa´ıs s ˜ao mais frios do que o sul. Deste modo, esperou-se que a influ ˆencia sobre o consumo energ ´etico, usando observac¸ ˜oes clim ´aticas de regi ˜oes distantes, fosse diferente.

(31)

Nesta fase apenas se tinha uma medida para quantificar a influ ˆencia de um conjunto de

vari ´aveis sobre a vari ´avel resposta, o coeficiente de determinac¸ ˜ao ajustado R2a (quanto

maior, melhor explica a variac¸ ˜ao da vari ´avel resposta). Utilizou-se o coeficiente de deter-minac¸ ˜ao ajustado com o objetivo de verificar influ ˆencias diferentes no consumo de ener-gia m ´edio di ´ario para observac¸ ˜oes clim ´aticas de regi ˜oes diferentes. Para o conjunto de instalac¸ ˜oes inicial, realizou-se a regress ˜ao linear m ´ultipla com diferentes observac¸ ˜oes

cli-m ´aticas para se obter o R2a (usaram-se observac¸ ˜oes clim ´aticas da localizac¸ ˜ao real da

instalac¸ ˜ao, de Lisboa e do Porto). Os resultados podem ser observados na tabela 3.1.

Instalac¸ ˜ao Localizac¸ ˜ao Local real Lisboa Porto

A Lisboa 0.60 0.60 0.57 B Lisboa 0.77 0.77 0.76 C Lisboa 0.33 0.33 0.38 D Lisboa 0.72 0.72 0.71 E Beja 0.87 0.85 0.83 F Algarve 0.92 0.93 0.91

Tabela 3.1: Coeficiente de determinac¸ ˜ao ajustado para o conjunto inicial de instalac¸ ˜oes com diferentes observac¸ ˜oes clim ´aticas

Para as 4 primeiras instalac¸ ˜oes na tabela 3.1 a localizac¸ ˜ao real coincidiu com Lisboa logo os valores do coeficiente de determinac¸ ˜ao ajustado foram comuns nas duas colunas (Local real e Lisboa). Comparando os valores obtidos utilizando observac¸ ˜oes clim ´aticas da Localizac¸ ˜ao real, Lisboa e Porto em todas as instalac¸ ˜oes, observou-se que s ˜ao bastante semelhantes, sendo superiores na Localizac¸ ˜ao real `a excec¸ ˜ao das instalac¸ ˜oes C e F. O facto de existirem instalac¸ ˜oes em que o melhor coeficiente de determinac¸ ˜ao ajustado n ˜ao se obteve usando as observac¸ ˜oes clim ´aticas da localizac¸ ˜ao real da instalac¸ ˜ao, indica que esta medida n ˜ao foi a mais adequada para esta an ´alise. Esperava-se, pelo senso comum, que as observac¸ ˜oes clim ´aticas da localizac¸ ˜ao real se ajustassem melhor ao con-sumo energ ´etico, que as observac¸ ˜oes de regi ˜oes bastante distantes da real. Esperava-se tamb ´em, pelo clima de Portugal continental, que existisse uma maior diferenc¸a entre os

valores do R2

a, quando usadas observac¸ ˜oes clim ´aticas de regi ˜oes bastante distantes no

(32)

Sendo assim, a an ´alise anterior n ˜ao foi a mais apropriada para analisar a influ ˆencia de observac¸ ˜oes clim ´aticas de regi ˜oes distantes.

Decidiu-se pesquisar a exist ˆencia de divis ˜oes climat ´ericas fundamentadas de Portugal continental para se poder utilizar neste contexto. Apenas se encontrou uma divis ˜ao, a Classificac¸ ˜ao de K ¨oppen-Geiger [17], figura 3.1, baseada na temperatura do ar e na pre-cipitac¸ ˜ao [36]. Segundo esta classificac¸ ˜ao, Portugal continental tem 2 regi ˜oes climat ´ericas

[17]. Como neste est ´agio se usaram mais vari ´aveis clim ´aticas, tentou-se confirmar a

classificac¸ ˜ao de K ¨oppen usando todas as vari ´aveis, testando se observac¸ ˜oes de locais distantes, mas na mesma regi ˜ao, s ˜ao semelhantes (atrav ´es do teste de hip ´oteses t [32]), no entanto obtiveram-se resultados inconclusivos, ou seja, para algumas vari ´aveis obteve-se que as curvas s ˜ao obteve-semelhantes podendo pertencer a uma mesma regi ˜ao e para outras obteve-se a conclus ˜ao contr ´aria.

Figura 3.1: Classificac¸ ˜ao de K ¨oppen-Geiger para Portugal continental [17]

Decidiu-se tamb ´em verificar para quais distritos de Portugal existem informac¸ ˜oes clim ´aticas no site de meteorologia Weather Underground, caso fosse necess ´ario utilizar os distritos de Portugal continental como divis ˜ao em regi ˜oes. Verificou-se que existem observac¸ ˜oes para Braganc¸a, Ovar/Aveiro, Faro, Monte Real/Leiria, Beja, Castelo Branco, Penhas Dou-radas/Guarda, Montijo/Set ´ubal, Lisboa, Sintra/Lisboa e Alverca/Lisboa.

(33)

Assim, com base numa an ´alise cr´ıtica subjetiva e existindo um conhecimento generalizado das diferenc¸as climat ´ericas entre as regi ˜oes Norte, Centro, Sul e as respetivas regi ˜oes litorais e interiores, num debate de grupo decidiu-se a divis ˜ao do pa´ıs em 6 regi ˜oes:

• Regi ˜ao do Porto, que cont ´em os distritos de Viana do Castelo, Porto e Aveiro;

• Regi ˜ao de Braganc¸a, que cont ´em os distritos de Vila Real, Braganc¸a e Guarda;

• Regi ˜ao de Lisboa, que cont ´em os distritos de Coimbra, Leiria e Lisboa;

• Regi ˜ao de Castelo Branco, que cont ´em os distritos de Castelo Branco, Santar ´em e Portalegre

• Regi ˜ao de Faro, que cont ´em os distritos de Set ´ubal, Algarve e Litoral de Beja (conce-lho Odemira);

• Regi ˜ao de Beja, que cont ´em os distritos de ´Evora e Interior de Beja (todos os

conce-lhos de Beja exceto Odemira).

Concluindo, foram constru´ıdas tabelas de vari ´aveis clim ´aticas para cada uma das regi ˜oes acima. A vari ´avel comprimento do dia foi extra´ıda do site Sun or Moon Rise/Set Table for One Year [27], sendo necess ´ario colocar as coordenadas geogr ´aficas das regi ˜oes, consultadas em [1].

3.3.3 Selec¸ ˜ao de vari ´aveis

Ap ´os a definic¸ ˜ao de regi ˜oes de Portugal continental a usar, foi necess ´ario proceder ao tratamento de falhas das tabelas, como em 4.3.1.

Para a vari ´avel Direc¸ ˜ao do Vento em graus, as observac¸ ˜oes de Braganc¸a e Castelo Branco s ˜ao constantes, ent ˜ao decidiu-se retirar esta vari ´avel do conjunto de dados por n ˜ao fornecer informac¸ ˜ao relevante. As observac¸ ˜oes da vari ´avel Cobertura de Nuvens na regi ˜ao de Braganc¸a cont ˆem 88% de falhas. Mais uma vez, devido `a grande quantidade de valores desconhecidos, foi decidido retirar esta vari ´avel do conjunto de dados.

Para as restantes falhas utilizaram-se os vizinhos mais pr ´oximos a um caso com falhas para preencher esse valor. Decidiu-se usar o mesmo n ´umero k de vizinhos mais pr ´oximos

(34)

ao caso com falha para todas as regi ˜oes, sendo necess ´ario verificar qual o n ´umero m´ınimo de casos completos. As observac¸ ˜oes clim ´aticas de Braganc¸a s ˜ao as que cont ˆem o menor

n ´umero de casos completos, 869, ou seja, k ≈ √869 ≈ 29. Deste modo, os valores

desconhecidos nas observac¸ ˜oes clim ´aticas das seis regi ˜oes foram preenchidos usando a mediana dos seus 29 vizinhos mais pr ´oximos.

Como referido, as vari ´aveis constru´ıdas no cap´ıtulo 2 e as vari ´aveis clim ´aticas explicavam parte do consumo energ ´etico. Contudo, tinha-se 23 vari ´aveis explicativas e viu-se no cap´ıtulo 3 que algumas das vari ´aveis clim ´aticas n ˜ao s ˜ao estatisticamente significativas para explicar o consumo energ ´etico. Uma vez que as vari ´aveis estatisticamente significativas obtidas pela regress ˜ao linear m ´ultipla variam consoante a instalac¸ ˜ao ´e necess ´ario realizar outras abordagens:

3.3.3.1 Backward - Regress ˜ao Linear M ´ultipla

No cap´ıtulo 3 usou-se a Regress ˜ao Linear M ´ultipla para analisar a influ ˆencia das vari ´aveis externas sobre o consumo energ ´etico. Observou-se que, para uma instalac¸ ˜ao, nem todas as vari ´aveis s ˜ao estatisticamente significativas (valor − p ≤ 0.05) para explicar o consumo energ ´etico. Foi pois necess ´ario restringir o conjunto de vari ´aveis externas `as vari ´aveis que mais explicam o consumo. No entanto, utilizando uma outra instalac¸ ˜ao, as vari ´aveis mais significativas foram diferentes das obtidas anteriormente.

Na regress ˜ao linear m ´ultipla existem m ´etodos de selec¸ ˜ao de vari ´aveis: Forward, Backward e Stepwise (ver [6]). Estes m ´etodos selecionam as vari ´aveis que evidenciam os efeitos mais fortes de diferentes formas. Neste trabalho usou-se o m ´etodo Backward, uma vez que lida com o problema da multicolinearidade de uma forma melhor [6].

Assim, decidiu-se utilizar o Lote 1 como amostra e obter as vari ´aveis selecionadas pelo backward para cada instalac¸ ˜ao. As vari ´aveis mais significativas para o conjunto de instala-c¸ ˜oes foram as que ocorrem mais vezes. Deste modo, na tabela 3.2 est ˜ao apresentadas as frequ ˆencias relativas para cada vari ´avel selecionada. Observando a tabela 3.2 concluiu-se que as vari ´aveis mais significativas (≥ 50%) foram: Estac¸ ˜ao, Ano, Feriado, Humidade M´ınima, Comprimento do Dia, Temperatura M ´axima, Visibilidade M ´edia Ponto de Orvalho M ´edio, Press ˜ao M ´axima, Press ˜ao M ´edia e Ponto de Orvalho M ´aximo. Por exemplo, a vari ´avel Ano ocorreu como significativa em 95% das instalac¸ ˜oes, ou seja, em 92 instalac¸ ˜oes

(35)

Vari ´avel Estac¸ ˜ao Ano Feriado HumMin DiaSemana

Frequ ˆencia 98% 95% 77% 77% 75%

Vari ´avel ComprDia TempMax VisibMedia PtOrvMedio PresMax

Frequ ˆencia 71% 67% 58% 56% 53%

Vari ´avel PresMedia PtOrvMax PresMin HumMedia TempMedia

Frequ ˆencia 52% 51% 40% 37% 37%

Vari ´avel PtOrvMin VelVentpMedia Eventos TempMin VisibMin

Frequ ˆencia 34% 34% 33% 32% 29%

Vari ´avel HumMax VelVentoMax FimSemana

Frequ ˆencia 14% 10% 4%

Tabela 3.2: Frequ ˆencias relativas das vari ´aveis selecionadas atrav ´es do m ´etodo backward

de 97.

3.3.3.2 Random Forests

Random forests ´e um algoritmo popular e bastante eficiente, baseado num conjunto de ´arvores de decis ˜ao, para ambos problemas de regress ˜ao e classificac¸ ˜ao [29][14][10]. O algoritmo random forests ´e poderoso em muitas aplicac¸ ˜oes diferentes [10], incluindo a selec¸ ˜ao de vari ´aveis importantes. A func¸ ˜ao randomForest() est ´a dispon´ıvel na package

randomForest do R e, caso se queira avaliar a import ˆancia das vari ´aveis, ´e necess ´ario

colo-car o par ˆametro importance=T (os restantes par ˆametros da func¸ ˜ao podem ser consultados e compreendidos em [3]). A medida de import ˆancia das vari ´aveis ´e dada por uma nova taxa de erro interno. A quantidade pela qual este erro excede o erro do conjunto original de teste ´e definida como a import ˆancia da vari ´avel [3].

Assim, decidiu-se utilizar o Lote 1 como amostra e obter as vari ´aveis mais importantes para cada instalac¸ ˜ao (o crit ´erio que mostrou ser o mais adequado foi considerar as 10 vari ´aveis com maior erro). As vari ´aveis mais significativas para o conjunto de instalac¸ ˜oes foram as que ocorrem mais vezes. Deste modo, na tabela 3.3 est ˜ao apresentadas as frequ ˆencias relativas para cada vari ´avel selecionada. Observando a tabela 3.3 concluiu-se que as vari ´aveis mais significativas (≥ 50%) foram: Comprimento do Dia, Estac¸ ˜ao, Temperatura

(36)

Vari ´avel ComprDia Estac¸ ˜ao TempMedia TempMax TempMin

Frequ ˆencia 99% 99% 96% 95% 91%

Vari ´avel Ano PtOrvMax DiaSemana HumMedia Feriado

Frequ ˆencia 84% 78% 64% 62% 52%

Vari ´avel HumMin PtOrvMedio PtOrvMin VisibMedia FimSemana

Frequ ˆencia 49% 39% 23% 14% 13%

Vari ´avel PresMin PresMax VelVentoMedia HumMax PresMedia

Frequ ˆencia 9% 8% 8% 5% 5%

Vari ´avel Eventos VelVentoMax VisibMin

Frequ ˆencia 4% 1% 1%

Tabela 3.3: Frequ ˆencias relativas das vari ´aveis selecionadas atrav ´es do m ´etodo random forests

M ´edia, Temperatura M ´axima, Temperatura M´ınima, Ano, Ponto de Orvalho M ´aximo, Dia da Semana, Humidade Media e Feriado.

O problema deste m ´etodo foi que selecionou vari ´aveis muito correlacionadas, como ´e o caso das Temperaturas. Mas, neste contexto, n ˜ao existia interesse em selecionar vari ´aveis correlacionadas uma vez que se queria diminuir o n ´umero de vari ´aveis. Testou-se a func¸ ˜ao

cforest() da package party onde o problema das vari ´aveis correlacionadas est ´a

re-solvido, contudo este demorou cerca de 12 minutos para uma instalac¸ ˜ao com 1 ano de observac¸ ˜oes, n ˜ao sendo vi ´avel utiliz ´a-la para o Lote 1 completo.

3.3.3.3 Correlac¸ ˜ao parcial e cruzada

Nas subsecc¸ ˜oes anteriores as vari ´aveis “significativas” selecionadas eram correlacionadas. No entanto, a exist ˆencia de vari ´aveis significativas correlacionadas significa que ambas fornecem a mesma informac¸ ˜ao e, portanto, pode-se eliminar uma delas.

No anexo B pode-se verificar que o m ´aximo, a m ´edia e o m´ınimo de uma vari ´avel (por exemplo a temperatura) s ˜ao bastante correlacionadas.

Assim, nesta subsecc¸ ˜ao foram selecionadas as vari ´aveis mais significativas n ˜ao correla-cionadas atrav ´es da correlac¸ ˜ao cruzada e parcial [16][13].

(37)

por isso consideraram-se como significativas as vari ´aveis categ ´oricas devolvidas pelos m ´etodos anteriores: Estac¸ ˜ao, Ano, Feriado e Dia da Semana.

Inicialmente, utilizou-se a correlac¸ ˜ao parcial entre as vari ´aveis explicativas e a vari ´avel resposta (consumo energ ´etico di ´ario) para determinar as vari ´aveis estatisticamente

cor-relacionadas com o consumo, excluindo o efeito das restantes. De seguida, usou-se

a correlac¸ ˜ao cruzada para eliminar das vari ´aveis anteriores as correlacionadas entre si, da´ı resultando as vari ´aveis mais correlacionadas com o consumo energ ´etico di ´ario e n ˜ao correlacionadas entre si. A correlac¸ ˜ao cruzada est ´a dispon´ıvel na func¸ ˜ao rcorr da package

Hmisc e a correlac¸ ˜ao parcial na func¸ ˜ao pcor da package ppcor do R.

O resultado foi Comprimento do Dia, Ponto de Orvalho M ´aximo e Humidade M´ınima. Segundo o meteorologista Jeff Haby [8] o conforto humano ´e definido usando o Ponto de Orvalho e a Humidade. Num contexto empresarial, o conforto humano ´e relevante nas horas de trabalho. Uma vez que a maior parte das instalac¸ ˜oes trabalham durante o dia, as observac¸ ˜oes das vari ´aveis Ponto de Orvalho e Humidade registadas nesse per´ıodo foram a m ´axima e o m´ınimo, respetivamente. Esta informac¸ ˜ao destacou este m ´etodo como o mais adequado para a escolha das vari ´aveis significativas do consumo energ ´etico.

Em suma:

• Os m ´etodos Backward e Random Forests retornaram como vari ´aveis significativas, vari ´aveis correlacionadas;

• O m ´etodo que utiliza as correlac¸ ˜oes cruzada e parcial n ˜ao selecionou vari ´aveis ca-teg ´oricas;

• A selec¸ ˜ao das vari ´aveis categ ´oricas mais significativas foi realizada atrav ´es dos dois primeiros m ´etodos, selecionando: Estac¸ ˜ao, Dia da Semana, Ano e Feriado;

• As vari ´aveis num ´ericas foram selecionadas atrav ´es do ´ultimo m ´etodo, selecionou-se: Comprimento do Dia, Ponto de Orvalho M ´aximo e Humidade M´ınima. Resta salientar que estas vari ´aveis tamb ´em foram significativas atrav ´es do m ´etodo Backward.

(38)

3.4

Detec¸ ˜ao de valores anormais

No cap´ıtulo 2 observou-se que a instalac¸ ˜ao inicial continha dois valores de consumo ener-g ´etico di ´ario bastante mais baixo que os restantes valores, por ano. Esses valores dizem respeito aos dias de Natal e Ano Novo e s ˜ao chamados valores anormais. Ao analisar o Lote 1 de instalac¸ ˜oes, verificou-se que existem outras instalac¸ ˜oes com esses valores (nos mesmos dias), enquanto que outras n ˜ao cont ˆem valores anormais vis´ıveis. A detec¸ ˜ao destes valores anormais ´e ´util para caracterizar uma instalac¸ ˜ao, servindo para identificar as instalac¸ ˜oes que s ˜ao sens´ıveis a feriados e as que n ˜ao s ˜ao. Deste modo, nesta secc¸ ˜ao mostra-se o desenvolvimento de um algoritmo para detetar valores anormais neste con-texto, utilizando o Lote 1 de instalac¸ ˜oes como amostra.

Figura 3.2: Consumo de energia m ´edia di ´aria de duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais

No Lote 1 foram distinguidos visualmente dois grupos de instalac¸ ˜oes. Na figura 3.2 est ˜ao representados os consumos de energia m ´edios di ´arios de duas instalac¸ ˜oes t´ıpicas de cada grupo. Observou-se que a instalac¸ ˜ao `a esquerda n ˜ao cont ´em nenhum valor anormal, enquanto que a instalac¸ ˜ao `a direita cont ´em 5 valores extremos.

Para detetar os valores anormais pensou-se em utilizar uma abordagem simples com a utilizac¸ ˜ao da m ´edia, desvio padr ˜ao ou vari ˆancia do consumo. Na figura 3.3 est ˜ao

(39)

no-vamente representados os consumos das instalac¸ ˜oes acima, mas com limites, que defi-nem valor normal ou n ˜ao, determinados usando a m ´edia mais/menos o desvio padr ˜ao ou vari ˆancia. Analisando a figura observou-se que os limites usando a m ´edia mais/menos o desvio padr ˜ao detetaram demasiados valores anormais em ambos os casos, ou seja, foi necess ´ario utilizar um fator de escala superior a 1 no desvio padr ˜ao. Os limites usando a m ´edia mais/menos a vari ˆancia detetaram valores anormais na instalac¸ ˜ao que n ˜ao os cont ´em e n ˜ao detetaram nenhum valor anormal na instalac¸ ˜ao que cont ´em 5 valores anor-mais. Consequentemente, estes limites n ˜ao puderam ser utilizados para detetar estes valores.

Figura 3.3: Limites de ser um valor de consumo energ ´etico normal usando a m ´edia, desvio padr ˜ao e vari ˆancia em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais

Testando v ´arios fatores de escala no desvio padr ˜ao, chegou-se `a conclus ˜ao que um fa-tor igual a 3.5 era suficiente para detetar corretamente os valores anormais de ambas instalac¸ ˜oes, como se pode verificar na figura 3.4. Contudo, testando esta abordagem para as restantes instalac¸ ˜oes do Lote 1 verificou-se que em 21 instalac¸ ˜oes de 97 n ˜ao se detetou corretamente os valores anormais de consumo energ ´etico.

(40)

Figura 3.4: Limites de ser um valor de consumo energ ´etico normal usando a m ´edia e 3.5 do desvio padr ˜ao em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais

Decidiu-se utilizar a abordagem anterior, mas usando a tend ˆencia do consumo em vez da m ´edia, com o objetivo de diminuir o n ´umero de instalac¸ ˜oes onde n ˜ao se detetaram corretamente os valores anormais. Na figura 3.5 pode-se observar os consumos das instalac¸ ˜oes com os limites, que definem valor normal ou n ˜ao, determinados usando a tend ˆencia mais/menos a m ´edia, tend ˆencia mais/menos o desvio de padr ˜ao e tend ˆencia mais/menos a vari ˆancia. Observou-se que para detetar corretamente os valores anormais na instalac¸ ˜ao `a esquerda foi necess ´ario aplicar um fator de escala superior a 1 `a m ´edia, ao desvio padr ˜ao ou `a vari ˆancia. Quanto `a instalac¸ ˜ao `a direita foi necess ´ario aplicar um fator de escala entre 0 e 1 `a m ´edia ou `a vari ˆancia ou um fator de escala superior a 1 ao desvio padr ˜ao. Sendo assim, a ´unica opc¸ ˜ao comum a ambos os casos foi aplicar um fator de escala superior a 1 ao desvio padr ˜ao.

Experimentaram-se v ´arios fatores de escala no desvio padr ˜ao do consumo e chegou-se `a conclus ˜ao que esta abordagem n ˜ao foi suficiente para detetar corretamente os valores anormais de todas as instalac¸ ˜oes do Lote 1.

(41)

Figura 3.5: Limites de ser um valor de consumo energ ´etico normal usando a tend ˆencia, m ´edia, desvio padr ˜ao e vari ˆancia da tend ˆencia em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita -Instalac¸ ˜ao t´ıpica do grupo com valores anormais

Decidiu-se utilizar a abordagem anterior em simult ˆaneo com outro m ´etodo. Utilizou-se um m ´etodo de clustering de Data Mining, DBSCAN, que agrupa as observac¸ ˜oes criando tamb ´em um grupo de outliers [14][28].

Este m ´etodo, DBSCAN, necessita de 2 par ˆametros e, ap ´os v ´arios testes, detetou-se cor-retamente os valores anormais em 82 de 97 instalac¸ ˜oes. Ao exigir que um valor anor-mal satisfac¸a ambos os m ´etodos, tend ˆencia do consumo mais/menos desvio padr ˜ao e DBSCAN, os resultados foram mais satisfat ´orios, detetando-se corretamente os valores anormais em 93 de 97 instalac¸ ˜oes.

Concluindo, para detetar os valores anormais neste contexto foram usados os m ´etodos tend ˆencia do consumo mais/menos desvio padr ˜ao, com fator de escala 2 sobre o desvio padr ˜ao, e DBSCAN com eps=1.9 e MinPts=5, em simult ˆaneo. As conclus ˜oes foram as mesmas para a medida de agregac¸ ˜ao soma.

Resta salientar que inicialmente foi testado o m ´etodo tradicional de detec¸ ˜ao de outliers atrav ´es do Box-Plot para o Lote 1 e um algoritmo de detec¸ ˜ao de consumos energ ´eticos anormais segundo [24]. Contudo, n ˜ao se obtiveram os resultados pretendidos para ambos.

(42)

Como referido anteriormente, a detec¸ ˜ao de valores anormais ´e uma forma de caraterizar uma instalac¸ ˜ao. Assim, decidiu-se construir uma s ´erie com valor zero em todos os instantes menos nos que cont ˆem valores anormais, sendo o valor desses instantes igual ao original, com o objetivo de construir uma nova vari ´avel explicativa do consumo energ ´etico. Uma outra vari ´avel importante para o clustering foi a Tend ˆencia. Foi visto no cap´ıtulo 3 que os valores anormais influenciam a tend ˆencia. Deste modo, a vari ´avel Tend ˆencia foi definida como sendo a tend ˆencia da s ´erie sem os valores anormais (colocando nesses instantes o valor da tend ˆencia inicial da s ´erie).

3.5

Conclus ˜ao

Este cap´ıtulo apresentou a escolha das medidas de agregac¸ ˜ao, das vari ´aveis significativas, das regi ˜oes de Portugal continental e de outras caracter´ısticas como os valores anormais de consumo energ ´etico.

• Medidas de agregac¸ ˜ao: soma e m ´edia;

• Regi ˜oes de Portugal continental: Regi ˜ao do Porto, Regi ˜ao de Braganc¸a, Regi ˜ao de Lisboa, Regi ˜ao de Castelo Branco, Regi ˜ao de Beja, Regi ˜ao de Faro;

• Vari ´aveis significativas: Ano, Estac¸ ˜ao, Dia da Semana, Feriado, Comprimento do dia, Ponto de Orvalho M ´aximo, Humidade M´ınima;

• Novas vari ´aveis: Valores Anormais e Tend ˆencia.

As ferramentas computacionais utilizadas foram o R e o SQL Server. Os dados de consu-mos energ ´eticos das instalac¸ ˜oes estavam registados em bases de dados no SQL Server. Contudo, foi necess ´ario processar os dados, agregar segundo as medidas de agregac¸ ˜ao que foram usadas, processar as observac¸ ˜oes das vari ´aveis externas, etc. Testou-se agre-gar os dados diariamente, utilizando a m ´edia, no R e demorou 12 segundos para apenas uma instalac¸ ˜ao, enquanto que no SQL Server apenas demora 1 segundo. Desta forma,

(43)

foi decidido processar todos os dados em SQL Server, incluindo a junc¸ ˜ao de vari ´aveis clim ´aticas segundo a regi ˜ao da instalac¸ ˜ao.

As restantes metodologias que necessitaram de comandos espec´ıficos do R foram execu-tadas em R.

Nas pr ´oximas tabelas, 3.4 e 3.5, podem-se visualizar os tempos de execuc¸ ˜ao de cada metodologia e ferramenta para o conjunto de instalac¸ ˜oes do Lote 1. Em SQL Server, agregaram-se os dados diariamente utilizando a soma e a m ´edia e agregaram-se os dados por dia da semana (incluindo Feriados) e hora utilizando a m ´edia para ser poss´ıvel calcular o hor ´ario de trabalho (ver cap´ıtulo 2). Em R, foi necess ´ario ler as tabelas constru´ıdas em SQL

Server (atrav ´es da package RODBC), construir o Hor ´ario de Trabalho para cada instalac¸ ˜ao,

tratar os valores desconhecidos existentes nas tabelas de vari ´aveis clim ´aticas, selecionar as vari ´aveis significativas atrav ´es dos m ´etodos Backward, Random Forests e Correlac¸ ˜ao e detetar os valores anormais e a tend ˆencia do consumo sem esses valores.

Tempos de Execuc¸ ˜ao para o Lote 1

SQL Server Tempos de Execuc¸ ˜ao

Agregar diariamente 2 min.

Agregar para Hor ´ario de trabalho 1.5 min.

Tabela 3.4: Tempo de processamento dos dados das instalac¸ ˜oes do Lote 1 em SQL Server

R Tempos de Execuc¸ ˜ao

Ler dados agregados diariamente 26 seg.

Ler dados agregados para Hor ´ario de trabalho 1.2 seg.

Calcular o Hor ´ario de Trabalho 3 seg.

Tratamento de falhas (6 regi ˜oes) 8 seg.

Backward 50 seg.

Random Forests 19 min.

Correlac¸ ˜ao 16 seg.

Valores anormais e tend ˆencia 30 seg.

(44)

Cap´ıtulo 4

Selec¸ ˜ao de instalac¸ ˜

oes

4.1

Introduc¸ ˜ao

Neste cap´ıtulo ser ˜ao expostos os crit ´erios usados para selecionar as instalac¸ ˜oes que foram utilizadas no estudo. Por exemplo, uma instalac¸ ˜ao que continha demasiadas observac¸ ˜oes em falta n ˜ao fornecia dados suficientes para ser poss´ıvel comparar com outras instalac¸ ˜oes. Salienta-se que, ao longo do trabalho, os crit ´erios foram ajustados consoante as necessi-dades.

4.2

Crit ´erios de selec¸ ˜ao de instalac¸ ˜

oes

Ao analisar os dados, constatou-se que, por vezes, existiam v ´arias observac¸ ˜oes para um mesmo instante de uma mesma instalac¸ ˜ao. Por vezes era necess ´ario substituir um contador, ou seja, este passa a estar inativo e o substituto ser ´a o contador ativo. Nestes casos, o nome do contador inativo passa a conter “!” no in´ıcio e o ativo n ˜ao cont ´em nenhum “!”.

Uma possibilidade para a exist ˆencia de mais do que um registo, ´e que o contador subs-titu´ıdo continue ativo, em simult ˆaneo com o substituto, devido a algum erro.

Uma outra justificac¸ ˜ao ´e a exist ˆencia de mais do que um contador. Por exemplo, uma empresa pode ter v ´arios contadores, um para a cantina, outro para o armaz ´em, outro

(45)

para a produc¸ ˜ao e o consumo total dessa empresa ´e a soma dos registos de todos os contadores. Neste caso, nenhum dos nomes dos contadores cont ´em “!”.

Consequentemente, foi necess ´ario criar crit ´erios de selec¸ ˜ao de registos para estes casos. As possibilidades foram:

1. Caso um dos nomes dos contadores contenha no in´ıcio “!” e exista um outro nome que n ˜ao contenha, ent ˜ao escolhe-se os contadores que n ˜ao cont ˆem “!” no in´ıcio do nome;

2. Caso n ˜ao exista um contador com “!”, somam-se os registos de um mesmo instante;

Ap ´os os crit ´erios anteriores, foram criados outros devido `as metodologias usadas.

N ˜ao existia qualquer interesse em analisar instalac¸ ˜oes que j ´a estivessem inativas ou indi-cassem que deixaram de produzir. Assim, definiu-se:

3. Para uma instalac¸ ˜ao ser selecionada ´e necess ´ario que contenha registos recentes, ou seja, se o ´ultimo registo for antes de Marc¸o de 2013 n ˜ao se seleciona a instalac¸ ˜ao;

4. Caso as observac¸ ˜oes recentes (1 Set 2012 a 31 Ago 2013) de consumo de uma instalac¸ ˜ao contenham demasiados zeros (80 %), considera-se que a instalac¸ ˜ao dei-xou de estar ativa e elimina-se do estudo.

Os pr ´oximos crit ´erios dizem respeito `a quantidade de falhas que pode existir ao longo dos registos.

Primeiro, uma vez que as observac¸ ˜oes foram agregadas diariamente, foi necess ´ario ga-rantir que o valor n ˜ao era enviesado do real. Por exemplo, se se considerar uma instalac¸ ˜ao que trabalhe durante o dia, e para um dia apenas existem observac¸ ˜oes durante a noite, ao agregar, o consumo di ´ario ser ´a muito baixo em relac¸ ˜ao aos restantes dias de trabalho. Segundo, para uma an ´alise vi ´avel aos dados foi necess ´ario que estes n ˜ao contivessem demasiados dias em falta. Assim foi necess ´ario um crit ´erio que elimine os casos em que tal acontece.

(46)

5. Para o primeiro caso dividiu-se o dia em 4 per´ıodos:

• Das 7h `as 13h; • Das 13h `as 19h; • Das 19h `a 1h; • Da 1h `as 7h;

e para cada um destes, pode ter-se no m ´aximo 1h de falhas (ou seja, 4 registos de 15 minutos). Consequentemente, no m ´aximo por dia podem-se ter 4h de falhas. Caso contr ´ario, o dia ´e eliminado;

6. Para o segundo caso, consideram-se as instalac¸ ˜oes que n ˜ao cont ˆem mais que 10% de dias em falha, no total;

Por fim, para o clustering foi necess ´ario que para cada instalac¸ ˜ao existissem observac¸ ˜oes suficientes para se comparar com outras. Sendo assim, foi decidido considerar as insta-lac¸ ˜oes que continham 9 meses de observac¸ ˜oes consecutivas (sem qualquer falha). Ao conter 9 meses de observac¸ ˜oes garantia-se que existem pelo menos tr ˆes estac¸ ˜oes do ano para comparar.

No entanto, no cap´ıtulo 6 ser ´a discutido que os dados deviam ser restringidos ao ano e meio mais recente. Assim, o m ´etodo anterior s ´o p ˆode ser aplicado ap ´os restringir os dados, uma vez que se queria ter os 9 meses de observac¸ ˜oes, sem falhas, nas observac¸ ˜oes que foram usadas no cap´ıtulo Clustering.

7. A instalac¸ ˜ao ´e selecionada caso contenha pelo menos 9 meses de observac¸ ˜oes con-secutivas (sem falhas) no ano e meio mais recente de observac¸ ˜oes. Caso contr ´ario, elimina-se do estudo.

4.3

Resultados

Como referido anteriormente, os dados dos consumos energ ´eticos estavam em bases de dados em SQL Server. O objetivo de definir crit ´erios de selec¸ ˜ao de instalac¸ ˜oes foi

(47)

eliminar da base de dados registos que n ˜ao eram adequados ao estudo. Assim, esta etapa foi realizada no SQL Server por ser mais simples e mais r ´apida a selec¸ ˜ao de

regis-tos. Em SQL Server existem comandos como SELECT ... FROM ..., DELETE ... FROM

..., que permitem a manipulac¸ ˜ao de registos de uma tabela.

Testaram-se os crit ´erios para o primeiro Lote de instalac¸ ˜oes que continham 98 empresas. Inicialmente testou-se a exist ˆencia de mais que um registo num mesmo per´ıodo mas, contudo, para este Lote tal n ˜ao acontece. A necessidade de criar esses crit ´erios surgiu quando se testaram metodologias nos Lotes 2 e 3.

Assim, nesta secc¸ ˜ao apresentam-se os resultados para os Lotes 1, 2 e 3. As observac¸ ˜oes das instalac¸ ˜oes dos Lotes 2 e 3 estavam na mesma tabela, deste modo foram tratadas como um s ´o Lote. Neste Lote, Lotes 2 e 3, existiam 199 instalac¸ ˜oes.

Os crit ´erios 3 e 4 foram executados ao mesmo tempo, depois eliminaram-se os dias que n ˜ao eram vi ´aveis (crit ´erio 5) e verificou-se se a quantidade de falhas era demasiada (crit ´erio 6). Uma vez que no crit ´erio 5 podiam ser eliminados registos recentes, aplicou-se nova-mente o crit ´erio 3. Por fim, selecionaram-se as instalac¸ ˜oes que continham 9 meses de observac¸ ˜oes consecutivas e recentes, crit ´erio 7.

Os resultados da aplicac¸ ˜ao destes crit ´erios nos Lotes 1, 2 e 3 podem ser visualizados na tabela 4.1. Os crit ´erios est ˜ao apresentados pela ordem que foram aplicados.

Observando os resultados para os Lotes 1, 2 e 3 verifica-se que, com estes crit ´erios, poucas instalac¸ ˜oes s ˜ao eliminadas.

No cap´ıtulo 4, como mencionado, o Lote 1 continha 97 instalac¸ ˜oes. Estas instalac¸ ˜oes foram sujeitas aos crit ´erios de 1 a 6, uma vez que o crit ´erio 7 apenas foi aplicado para a metodologia Clustering.

(48)

Crit ´erio Lote 1 Lotes 2 e 3

1 Sem alterac¸ ˜oes Elimina-se 0.6% dos registos

2 Sem alterac¸ ˜oes Soma-se 1.1% dos registos

obtendo 93 625 novos registos

3 e 4 Elimina-se 1 instalac¸ ˜ao Elimina-se 13 instalac¸ ˜oes

5 Eliminam-se 0.12% dos dias Eliminam-se 0.23% dos dias

6 Sem alterac¸ ˜oes Elimina-se 2 instalac¸ ˜oes

3 Sem alterac¸ ˜oes Sem alterac¸ ˜oes

7 Eliminam-se 11 instalac¸ ˜oes Eliminam-se 46 instalac¸ ˜oes

Total Selecionam-se 86

instalac¸ ˜oes de 98

Selecionam-se 138 instalac¸ ˜oes de 199

Tempo 4 minutos 20 minutos

(49)

Cap´ıtulo 5

Agrupamento (Clustering)

5.1

Introduc¸ ˜ao

Um problema que se coloca com alguma frequ ˆencia ´e o de, dado um conjunto de n objetos, agrup ´a-los em classes, ou subgrupos, de tal forma a que (i) cada subgrupo seja internamente homog ´eneo (isto ´e, constitu´ıdo por objetos “similares”), e a que (ii) os v ´arios subgrupos sejam heterog ´eneos entre si (isto ´e, os indiv´ıduos de subgrupos diferentes sejam “dissimilares”). A este processo d ´a-se o nome de Agrupamento (Clustering) (n ˜ao supervisionado).

Nos cap´ıtulos anteriores foi poss´ıvel perceber as vari ´aveis que explicavam parte do con-sumo energ ´etico de uma instalac¸ ˜ao. Claro que, para al ´em das vari ´aveis encontradas, foi necess ´ario acrescentar a vari ´avel Trabalho, que diz respeito `a energia consumida pela instalac¸ ˜ao para produzir.

O objetivo principal deste est ´agio foi agrupar as instalac¸ ˜oes segundo o seu trabalho, ou seja, colocar num mesmo grupo instalac¸ ˜oes que continham curvas de consumo energ ´etico semelhantes (os objetos foram as instalac¸ ˜oes). No entanto, foi necess ´ario ter atenc¸ ˜ao `as vari ´aveis externas, pois duas instalac¸ ˜oes podiam ter curvas semelhantes de energia gasta com a produc¸ ˜ao mas, devido `as condic¸ ˜oes externas, terem curvas do consumo energ ´etico diferentes. Por exemplo, uma instalac¸ ˜ao situada num local de clima quente e seco com certeza gastar ´a mais energia no ar condicionado do que uma instalac¸ ˜ao an ´aloga situada num local de clima temperado. Deste modo, foi necess ´ario comparar o consumo

Imagem

Figura 2.2: Diagrama de Carga em Janeiro de 2013 da instalac¸ ˜ao inicial
Figura 2.4: Energia m ´edia di ´aria consumida na instalac¸ ˜ao entre 1 de Janeiro de 2011 e 31 de Agosto de 2013
Figura 2.6: Energia m ´edia di ´aria consumida na instalac¸ ˜ao por ano
Figura 2.7: Energia m ´edia mensal consumida na instalac¸ ˜ao por ano
+7

Referências

Documentos relacionados

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

Os resultados obtidos nas experimentações são surpreendentemente semelhantes ao que se apresenta em cursos sobre o crescimento de espeleotemas em cavernas o que auxilia no

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

• The definition of the concept of the project’s area of indirect influence should consider the area affected by changes in economic, social and environmental dynamics induced

A participação foi observada durante todas as fases do roadmap (Alinhamento, Prova de Conceito, Piloto e Expansão), promovendo a utilização do sistema implementado e a

ITIL, biblioteca de infraestrutura de tecnologia da informação, é um framework que surgiu na década de mil novecentos e oitenta pela necessidade do governo

1 Instituto de Física, Universidade Federal de Alagoas 57072-900 Maceió-AL, Brazil Caminhadas quânticas (CQs) apresentam-se como uma ferramenta avançada para a construção de

grandiflora por estaquia, foram avaliados dois ambientes (viveiro e ambiente / condições de ocorrência natural), assim como o efeito do hormônio de enraizamento, o ácido