4.1 ABORDAGENS DE PREVISÃO
4.1.2 Método Smooth Spline
Neste trabalho aplicam-se Smooth Splinescom o mesmo objetivo que aplica-se o SOM, ou seja, para prever os valores dos sétimos elementos de uma amostra cons-tituída por valores de vazão, a fim de detectar anomalias nos dados das estações hidrológicas de Porto Amazonas e União da Vitória.
No projeto de aplicação desenvolvido para a utilização do Smooth Spline, a téc-nica foi aplicada diretamente sobre dados originais (não consistidos) de vazão (não sobre degraus de vazão consistidos). Esta é uma vantagem deste modelo em relação aos demais, pois enquanto o SOM, apresentado anteriormente, e a RBF, que será explanada a seguir, necessitam de um período de dados consistidos, ou seja, dados que passaram por uma análise prévia que eliminou todas as anomalias da sequência, para fazer o treinamento das redes, oSmooth Splineclassifica os dados diretamente a
partir dos dados originais, não consistidos, e não transformados em degraus, apesar de que os valores dos dados de vazão consistidos ainda serão necessários para a avaliação do projeto de aplicação construído, como será apresentado adiante.
Para prever os dados de vazão dos postos hidrológicos de Porto Amazonas (PA) e União da Vitória (UV) no estado do Paraná, e classificá-los como corretos ou ano-malias, utiliza-se oSmooth Splinede maneira semelhante ao SOM, no sentido de que faz-se a previsão de valores horários de vazão considerando-se um horizonte de 6h passadas e6h futuras com relação ao dado a ser analisado, e a partir desta previsão o dado intermediário de uma amostra de13elementos será classificado como correto, ou anômalo.
Sendo assim, para que os resultados dos métodos possam ser comparados no Ca-pítulo 5, selecionou-se os dados a partir dos valores de vazão originais (q1,q2, ...,qn) dos postos hidrológicos de PA e UV dispostos em intervalos de uma hora, pertencen-tes aos anos de1998até2007, totalizando87.648dados pertencentes a um período de 10anos, representando um período de “treinamento”, e os dados dos próximos3anos de2008até2010representando o período de “teste”, apesar desta separação não ser necessária. Estes dados são considerados brutos obtidos através do banco de dados do SIMEPAR, ou seja, que devem conter anomalias.
De maneira análoga ao SOM, constrói-se uma matriz Aspline (EQUAÇÃO 25) de 13 colunas de valores de vazão em que cada uma de suas linhas representam uma amostra a ser estudada, e para cada amostra faz-se a previsão de seu sétimo ele-mento considerando-se o comportaele-mento dos6 elementos passados e dos6futuros.
Porém neste método não foram considerados degraus de vazão e sim, a diferença de todos os valores de vazão de uma amostra com o primeiro valor desta amostra, ou seja, no lugar de degraus de vazão utiliza-se uma normalização destes valores através
destas diferenças com relação aos primeiros elementos de cada amostra.
Novamente, para este método, fez-se uso da linguagem e ambiente para computa-ção estatística R Core Team (2012), por meio da funcomputa-çãosmooth.splineque ajusta uma função Smooth Spline cúbica aos dados fornecidos através da matriz de 13 colunas (visando a predição da sétima coluna) construída com os dados de vazão normaliza-dos normaliza-dos períonormaliza-dos de “treinamento” e de “teste”, que seguem a mesma metodologia, porém foram considerados separadamente para simplificação da apresentação dos resultados no Capítulo 5, e como auxílio na escolha do parâmetro de suavização.
Na funçãosmooth.splinedeve-se definir o valor do parâmetro de suavização previ-amente, para estefim realizou-se testes empíricos: no período de treinamento variou-se o valor do parâmetro como aprevariou-sentado na Tabela 3 do Anexo A, e para cada um dos resultados obtidos construiu-se uma curva ROC e calculou-se o valor de sua área (descritos no Capítulo 3, e complementados no Capítulo 5), realizou-se uma com-paração entre os valores de AUC obtidos a fim de encontrar o melhor valor para o parâmetro de suavidade de cada posto hidrológico estudado.
Para a construção da curva ROC, também foi necessário utilizar a série consis-tida equivalente ao período de treinamento. Porém, se a escolha do parâmetro de suavização não fosse necessária então a construção de uma série consistida também não seria. Isto pode acontecer, por exemplo, com as próximas aplicações doSmooth Splinepara as estações de PA e UV (que, a partir de agora, possuem parâmetro defi-nido) ou também, para estações com comportamentos parecidos aos delas.
Novamente recorrendo à Tabela 3 do Anexo A conclui-se que os melhores valores para estes parâmetros são0.50 e0.75 para as estações de Porto Amazonas e União da Vitória respectivamente.
Posteriormente à aplicação da função smooth.spline aos dados de treinamento das duas estações estudadas, e da definição dos coeficientes de suavidade, aplicou-se a função smooth.spline aos dados de teste, transformados em matriz da mesma maneira que os dados de treinamento (Aspline), e retirando-se os sétimos elementos de cada amostra afim de realizar a previsão de seus valores.
Como consequência obteve-se uma matriz, de mesma dimensão da matriz de entrada, com os resultados da interpolação e previsão resultantes desta aplicação, inclusive para os sétimos elementos de cada amostra. A partir disso calculou-se, novamente, o quadrado da diferença entre o sétimo valor das amostras originais (va-lores observados) e o sétimo valor das amostras obtidas através da interpolação por Smooth Spline(valores previstos), e a partir destas diferenças obteve-se um indicador da presença de anomalias em dados de vazão, de forma que, novamente, quanto mais significativa a diferença entre a previsão e o dado de vazão original, maior a chance do dado considerado ser uma anomalia, ou seja, o valor desta diferença indica quão anômalo o dado pode ser.
Os resultados da aplicação desta metodologia, criada para a aplicação dosSmooth Splines, aos dados de vazão das estações hidrológicas de União da Vitória e Porto Amazonas serão apresentados no Capítulo 5 juntamente com os demais resultados obtidos através das aplicações dos métodos de Redes Neurais SOM e RBF.
4.2 ABORDAGEM DE CLASSIFICAÇÃO