• Nenhum resultado encontrado

Ap ´os a definic¸ ˜ao de regi ˜oes de Portugal continental a usar, foi necess ´ario proceder ao tratamento de falhas das tabelas, como em 4.3.1.

Para a vari ´avel Direc¸ ˜ao do Vento em graus, as observac¸ ˜oes de Braganc¸a e Castelo Branco s ˜ao constantes, ent ˜ao decidiu-se retirar esta vari ´avel do conjunto de dados por n ˜ao fornecer informac¸ ˜ao relevante. As observac¸ ˜oes da vari ´avel Cobertura de Nuvens na regi ˜ao de Braganc¸a cont ˆem 88% de falhas. Mais uma vez, devido `a grande quantidade de valores desconhecidos, foi decidido retirar esta vari ´avel do conjunto de dados.

Para as restantes falhas utilizaram-se os vizinhos mais pr ´oximos a um caso com falhas para preencher esse valor. Decidiu-se usar o mesmo n ´umero k de vizinhos mais pr ´oximos

ao caso com falha para todas as regi ˜oes, sendo necess ´ario verificar qual o n ´umero m´ınimo de casos completos. As observac¸ ˜oes clim ´aticas de Braganc¸a s ˜ao as que cont ˆem o menor

n ´umero de casos completos, 869, ou seja, k ≈ √869 ≈ 29. Deste modo, os valores

desconhecidos nas observac¸ ˜oes clim ´aticas das seis regi ˜oes foram preenchidos usando a mediana dos seus 29 vizinhos mais pr ´oximos.

Como referido, as vari ´aveis constru´ıdas no cap´ıtulo 2 e as vari ´aveis clim ´aticas explicavam parte do consumo energ ´etico. Contudo, tinha-se 23 vari ´aveis explicativas e viu-se no cap´ıtulo 3 que algumas das vari ´aveis clim ´aticas n ˜ao s ˜ao estatisticamente significativas para explicar o consumo energ ´etico. Uma vez que as vari ´aveis estatisticamente significativas obtidas pela regress ˜ao linear m ´ultipla variam consoante a instalac¸ ˜ao ´e necess ´ario realizar outras abordagens:

3.3.3.1 Backward - Regress ˜ao Linear M ´ultipla

No cap´ıtulo 3 usou-se a Regress ˜ao Linear M ´ultipla para analisar a influ ˆencia das vari ´aveis externas sobre o consumo energ ´etico. Observou-se que, para uma instalac¸ ˜ao, nem todas as vari ´aveis s ˜ao estatisticamente significativas (valor − p ≤ 0.05) para explicar o consumo energ ´etico. Foi pois necess ´ario restringir o conjunto de vari ´aveis externas `as vari ´aveis que mais explicam o consumo. No entanto, utilizando uma outra instalac¸ ˜ao, as vari ´aveis mais significativas foram diferentes das obtidas anteriormente.

Na regress ˜ao linear m ´ultipla existem m ´etodos de selec¸ ˜ao de vari ´aveis: Forward, Backward e Stepwise (ver [6]). Estes m ´etodos selecionam as vari ´aveis que evidenciam os efeitos mais fortes de diferentes formas. Neste trabalho usou-se o m ´etodo Backward, uma vez que lida com o problema da multicolinearidade de uma forma melhor [6].

Assim, decidiu-se utilizar o Lote 1 como amostra e obter as vari ´aveis selecionadas pelo backward para cada instalac¸ ˜ao. As vari ´aveis mais significativas para o conjunto de instala- c¸ ˜oes foram as que ocorrem mais vezes. Deste modo, na tabela 3.2 est ˜ao apresentadas as frequ ˆencias relativas para cada vari ´avel selecionada. Observando a tabela 3.2 concluiu- se que as vari ´aveis mais significativas (≥ 50%) foram: Estac¸ ˜ao, Ano, Feriado, Humidade M´ınima, Comprimento do Dia, Temperatura M ´axima, Visibilidade M ´edia Ponto de Orvalho M ´edio, Press ˜ao M ´axima, Press ˜ao M ´edia e Ponto de Orvalho M ´aximo. Por exemplo, a vari ´avel Ano ocorreu como significativa em 95% das instalac¸ ˜oes, ou seja, em 92 instalac¸ ˜oes

Vari ´avel Estac¸ ˜ao Ano Feriado HumMin DiaSemana

Frequ ˆencia 98% 95% 77% 77% 75%

Vari ´avel ComprDia TempMax VisibMedia PtOrvMedio PresMax

Frequ ˆencia 71% 67% 58% 56% 53%

Vari ´avel PresMedia PtOrvMax PresMin HumMedia TempMedia

Frequ ˆencia 52% 51% 40% 37% 37%

Vari ´avel PtOrvMin VelVentpMedia Eventos TempMin VisibMin

Frequ ˆencia 34% 34% 33% 32% 29%

Vari ´avel HumMax VelVentoMax FimSemana

Frequ ˆencia 14% 10% 4%

Tabela 3.2: Frequ ˆencias relativas das vari ´aveis selecionadas atrav ´es do m ´etodo backward

de 97.

3.3.3.2 Random Forests

Random forests ´e um algoritmo popular e bastante eficiente, baseado num conjunto de ´arvores de decis ˜ao, para ambos problemas de regress ˜ao e classificac¸ ˜ao [29][14][10]. O algoritmo random forests ´e poderoso em muitas aplicac¸ ˜oes diferentes [10], incluindo a selec¸ ˜ao de vari ´aveis importantes. A func¸ ˜ao randomForest() est ´a dispon´ıvel na package

randomForest do R e, caso se queira avaliar a import ˆancia das vari ´aveis, ´e necess ´ario colo-

car o par ˆametro importance=T (os restantes par ˆametros da func¸ ˜ao podem ser consultados e compreendidos em [3]). A medida de import ˆancia das vari ´aveis ´e dada por uma nova taxa de erro interno. A quantidade pela qual este erro excede o erro do conjunto original de teste ´e definida como a import ˆancia da vari ´avel [3].

Assim, decidiu-se utilizar o Lote 1 como amostra e obter as vari ´aveis mais importantes para cada instalac¸ ˜ao (o crit ´erio que mostrou ser o mais adequado foi considerar as 10 vari ´aveis com maior erro). As vari ´aveis mais significativas para o conjunto de instalac¸ ˜oes foram as que ocorrem mais vezes. Deste modo, na tabela 3.3 est ˜ao apresentadas as frequ ˆencias relativas para cada vari ´avel selecionada. Observando a tabela 3.3 concluiu-se que as vari ´aveis mais significativas (≥ 50%) foram: Comprimento do Dia, Estac¸ ˜ao, Temperatura

Vari ´avel ComprDia Estac¸ ˜ao TempMedia TempMax TempMin

Frequ ˆencia 99% 99% 96% 95% 91%

Vari ´avel Ano PtOrvMax DiaSemana HumMedia Feriado

Frequ ˆencia 84% 78% 64% 62% 52%

Vari ´avel HumMin PtOrvMedio PtOrvMin VisibMedia FimSemana

Frequ ˆencia 49% 39% 23% 14% 13%

Vari ´avel PresMin PresMax VelVentoMedia HumMax PresMedia

Frequ ˆencia 9% 8% 8% 5% 5%

Vari ´avel Eventos VelVentoMax VisibMin

Frequ ˆencia 4% 1% 1%

Tabela 3.3: Frequ ˆencias relativas das vari ´aveis selecionadas atrav ´es do m ´etodo random forests

M ´edia, Temperatura M ´axima, Temperatura M´ınima, Ano, Ponto de Orvalho M ´aximo, Dia da Semana, Humidade Media e Feriado.

O problema deste m ´etodo foi que selecionou vari ´aveis muito correlacionadas, como ´e o caso das Temperaturas. Mas, neste contexto, n ˜ao existia interesse em selecionar vari ´aveis correlacionadas uma vez que se queria diminuir o n ´umero de vari ´aveis. Testou-se a func¸ ˜ao

cforest() da package party onde o problema das vari ´aveis correlacionadas est ´a re-

solvido, contudo este demorou cerca de 12 minutos para uma instalac¸ ˜ao com 1 ano de observac¸ ˜oes, n ˜ao sendo vi ´avel utiliz ´a-la para o Lote 1 completo.

3.3.3.3 Correlac¸ ˜ao parcial e cruzada

Nas subsecc¸ ˜oes anteriores as vari ´aveis “significativas” selecionadas eram correlacionadas. No entanto, a exist ˆencia de vari ´aveis significativas correlacionadas significa que ambas fornecem a mesma informac¸ ˜ao e, portanto, pode-se eliminar uma delas.

No anexo B pode-se verificar que o m ´aximo, a m ´edia e o m´ınimo de uma vari ´avel (por exemplo a temperatura) s ˜ao bastante correlacionadas.

Assim, nesta subsecc¸ ˜ao foram selecionadas as vari ´aveis mais significativas n ˜ao correla- cionadas atrav ´es da correlac¸ ˜ao cruzada e parcial [16][13].

por isso consideraram-se como significativas as vari ´aveis categ ´oricas devolvidas pelos m ´etodos anteriores: Estac¸ ˜ao, Ano, Feriado e Dia da Semana.

Inicialmente, utilizou-se a correlac¸ ˜ao parcial entre as vari ´aveis explicativas e a vari ´avel resposta (consumo energ ´etico di ´ario) para determinar as vari ´aveis estatisticamente cor-

relacionadas com o consumo, excluindo o efeito das restantes. De seguida, usou-se

a correlac¸ ˜ao cruzada para eliminar das vari ´aveis anteriores as correlacionadas entre si, da´ı resultando as vari ´aveis mais correlacionadas com o consumo energ ´etico di ´ario e n ˜ao correlacionadas entre si. A correlac¸ ˜ao cruzada est ´a dispon´ıvel na func¸ ˜ao rcorr da package

Hmisc e a correlac¸ ˜ao parcial na func¸ ˜ao pcor da package ppcor do R.

O resultado foi Comprimento do Dia, Ponto de Orvalho M ´aximo e Humidade M´ınima. Segundo o meteorologista Jeff Haby [8] o conforto humano ´e definido usando o Ponto de Orvalho e a Humidade. Num contexto empresarial, o conforto humano ´e relevante nas horas de trabalho. Uma vez que a maior parte das instalac¸ ˜oes trabalham durante o dia, as observac¸ ˜oes das vari ´aveis Ponto de Orvalho e Humidade registadas nesse per´ıodo foram a m ´axima e o m´ınimo, respetivamente. Esta informac¸ ˜ao destacou este m ´etodo como o mais adequado para a escolha das vari ´aveis significativas do consumo energ ´etico.

Em suma:

• Os m ´etodos Backward e Random Forests retornaram como vari ´aveis significativas, vari ´aveis correlacionadas;

• O m ´etodo que utiliza as correlac¸ ˜oes cruzada e parcial n ˜ao selecionou vari ´aveis ca- teg ´oricas;

• A selec¸ ˜ao das vari ´aveis categ ´oricas mais significativas foi realizada atrav ´es dos dois primeiros m ´etodos, selecionando: Estac¸ ˜ao, Dia da Semana, Ano e Feriado;

• As vari ´aveis num ´ericas foram selecionadas atrav ´es do ´ultimo m ´etodo, selecionou-se: Comprimento do Dia, Ponto de Orvalho M ´aximo e Humidade M´ınima. Resta salientar que estas vari ´aveis tamb ´em foram significativas atrav ´es do m ´etodo Backward.

Documentos relacionados