• Nenhum resultado encontrado

No cap´ıtulo 2 observou-se que a instalac¸ ˜ao inicial continha dois valores de consumo ener- g ´etico di ´ario bastante mais baixo que os restantes valores, por ano. Esses valores dizem respeito aos dias de Natal e Ano Novo e s ˜ao chamados valores anormais. Ao analisar o Lote 1 de instalac¸ ˜oes, verificou-se que existem outras instalac¸ ˜oes com esses valores (nos mesmos dias), enquanto que outras n ˜ao cont ˆem valores anormais vis´ıveis. A detec¸ ˜ao destes valores anormais ´e ´util para caracterizar uma instalac¸ ˜ao, servindo para identificar as instalac¸ ˜oes que s ˜ao sens´ıveis a feriados e as que n ˜ao s ˜ao. Deste modo, nesta secc¸ ˜ao mostra-se o desenvolvimento de um algoritmo para detetar valores anormais neste con- texto, utilizando o Lote 1 de instalac¸ ˜oes como amostra.

Figura 3.2: Consumo de energia m ´edia di ´aria de duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais

No Lote 1 foram distinguidos visualmente dois grupos de instalac¸ ˜oes. Na figura 3.2 est ˜ao representados os consumos de energia m ´edios di ´arios de duas instalac¸ ˜oes t´ıpicas de cada grupo. Observou-se que a instalac¸ ˜ao `a esquerda n ˜ao cont ´em nenhum valor anormal, enquanto que a instalac¸ ˜ao `a direita cont ´em 5 valores extremos.

Para detetar os valores anormais pensou-se em utilizar uma abordagem simples com a utilizac¸ ˜ao da m ´edia, desvio padr ˜ao ou vari ˆancia do consumo. Na figura 3.3 est ˜ao no-

vamente representados os consumos das instalac¸ ˜oes acima, mas com limites, que defi- nem valor normal ou n ˜ao, determinados usando a m ´edia mais/menos o desvio padr ˜ao ou vari ˆancia. Analisando a figura observou-se que os limites usando a m ´edia mais/menos o desvio padr ˜ao detetaram demasiados valores anormais em ambos os casos, ou seja, foi necess ´ario utilizar um fator de escala superior a 1 no desvio padr ˜ao. Os limites usando a m ´edia mais/menos a vari ˆancia detetaram valores anormais na instalac¸ ˜ao que n ˜ao os cont ´em e n ˜ao detetaram nenhum valor anormal na instalac¸ ˜ao que cont ´em 5 valores anor- mais. Consequentemente, estes limites n ˜ao puderam ser utilizados para detetar estes valores.

Figura 3.3: Limites de ser um valor de consumo energ ´etico normal usando a m ´edia, desvio padr ˜ao e vari ˆancia em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais

Testando v ´arios fatores de escala no desvio padr ˜ao, chegou-se `a conclus ˜ao que um fa- tor igual a 3.5 era suficiente para detetar corretamente os valores anormais de ambas instalac¸ ˜oes, como se pode verificar na figura 3.4. Contudo, testando esta abordagem para as restantes instalac¸ ˜oes do Lote 1 verificou-se que em 21 instalac¸ ˜oes de 97 n ˜ao se detetou corretamente os valores anormais de consumo energ ´etico.

Figura 3.4: Limites de ser um valor de consumo energ ´etico normal usando a m ´edia e 3.5 do desvio padr ˜ao em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais

Decidiu-se utilizar a abordagem anterior, mas usando a tend ˆencia do consumo em vez da m ´edia, com o objetivo de diminuir o n ´umero de instalac¸ ˜oes onde n ˜ao se detetaram corretamente os valores anormais. Na figura 3.5 pode-se observar os consumos das instalac¸ ˜oes com os limites, que definem valor normal ou n ˜ao, determinados usando a tend ˆencia mais/menos a m ´edia, tend ˆencia mais/menos o desvio de padr ˜ao e tend ˆencia mais/menos a vari ˆancia. Observou-se que para detetar corretamente os valores anormais na instalac¸ ˜ao `a esquerda foi necess ´ario aplicar um fator de escala superior a 1 `a m ´edia, ao desvio padr ˜ao ou `a vari ˆancia. Quanto `a instalac¸ ˜ao `a direita foi necess ´ario aplicar um fator de escala entre 0 e 1 `a m ´edia ou `a vari ˆancia ou um fator de escala superior a 1 ao desvio padr ˜ao. Sendo assim, a ´unica opc¸ ˜ao comum a ambos os casos foi aplicar um fator de escala superior a 1 ao desvio padr ˜ao.

Experimentaram-se v ´arios fatores de escala no desvio padr ˜ao do consumo e chegou-se `a conclus ˜ao que esta abordagem n ˜ao foi suficiente para detetar corretamente os valores anormais de todas as instalac¸ ˜oes do Lote 1.

Figura 3.5: Limites de ser um valor de consumo energ ´etico normal usando a tend ˆencia, m ´edia, desvio padr ˜ao e vari ˆancia da tend ˆencia em duas instalac¸ ˜oes t´ıpicas de cada grupo: Esquerda - Instalac¸ ˜ao t´ıpica do grupo sem valores anormais; Direita - Instalac¸ ˜ao t´ıpica do grupo com valores anormais

Decidiu-se utilizar a abordagem anterior em simult ˆaneo com outro m ´etodo. Utilizou-se um m ´etodo de clustering de Data Mining, DBSCAN, que agrupa as observac¸ ˜oes criando tamb ´em um grupo de outliers [14][28].

Este m ´etodo, DBSCAN, necessita de 2 par ˆametros e, ap ´os v ´arios testes, detetou-se cor- retamente os valores anormais em 82 de 97 instalac¸ ˜oes. Ao exigir que um valor anor- mal satisfac¸a ambos os m ´etodos, tend ˆencia do consumo mais/menos desvio padr ˜ao e DBSCAN, os resultados foram mais satisfat ´orios, detetando-se corretamente os valores anormais em 93 de 97 instalac¸ ˜oes.

Concluindo, para detetar os valores anormais neste contexto foram usados os m ´etodos tend ˆencia do consumo mais/menos desvio padr ˜ao, com fator de escala 2 sobre o desvio padr ˜ao, e DBSCAN com eps=1.9 e MinPts=5, em simult ˆaneo. As conclus ˜oes foram as mesmas para a medida de agregac¸ ˜ao soma.

Resta salientar que inicialmente foi testado o m ´etodo tradicional de detec¸ ˜ao de outliers atrav ´es do Box-Plot para o Lote 1 e um algoritmo de detec¸ ˜ao de consumos energ ´eticos anormais segundo [24]. Contudo, n ˜ao se obtiveram os resultados pretendidos para ambos.

Como referido anteriormente, a detec¸ ˜ao de valores anormais ´e uma forma de caraterizar uma instalac¸ ˜ao. Assim, decidiu-se construir uma s ´erie com valor zero em todos os instantes menos nos que cont ˆem valores anormais, sendo o valor desses instantes igual ao original, com o objetivo de construir uma nova vari ´avel explicativa do consumo energ ´etico. Uma outra vari ´avel importante para o clustering foi a Tend ˆencia. Foi visto no cap´ıtulo 3 que os valores anormais influenciam a tend ˆencia. Deste modo, a vari ´avel Tend ˆencia foi definida como sendo a tend ˆencia da s ´erie sem os valores anormais (colocando nesses instantes o valor da tend ˆencia inicial da s ´erie).

Documentos relacionados