• Nenhum resultado encontrado

Regressão dos atributos morfológicos e dos parâmetros do modelo chuva-

4.3 Regionalização

4.3.2 Regressão dos atributos morfológicos e dos parâmetros do modelo chuva-

Para a regionalização, existem vários métodos que podem ser empregados. Principalmente métodos estatísticos, como modelos lineares/não lineares, regressão múltipla, análise de grupo, análise de correlação, análise de variância e análise de componentes principais, podem ser usados para prever dados através de dados observados.

4.3.2.1 Redes neurais artificiais

Para relacionar os atributos morfológicos de uma bacia hidrográfica com os parâmetros do modelo hidrológico, foram empregadas redes neurais artificiais (RNA’s). Uma rede neural artificial (RNA) é um modelo matemático ou um modelo computacional inspirado na estrutura ou aspectos funcionais de redes neurais biológicas. A função de uma rede neural é produzir um padrão de saída quando se apresenta um padrão de entrada. Este conceito é bastante abstrato, uma das operações que uma rede neural pode fazer é a classificação ou a regressão de padrões (PICTON, 2000).

As RNA’s são particularmente úteis para resolver problemas que não podem ser expressos como uma série de processos, tais como reconhecimento de padrões, classificação, previsão de série e mineração de dados (HEATON, 2008).

Figura 18 - Arquitetura de uma Rede Neural Artificial tipo MLP (Perceptron Multi-Camadas) Como a maioria dos modelos estatísticos, as redes neurais são capazes de executar três tarefas principais, incluindo a classificação e a regressão. Tarefas de regressão estão preocupadas em relacionar uma série de variáveis de entrada com um conjunto de variáveis

Entradas

Camada/Neurônios escondida

Saída

contínuas de saída. Por outro lado, tarefas de classificação estão preocupadas como atribuir associações para uma variável categórica de saída e um conjunto de valores de entrada (STATSOFT, 2011).

Um exemplo simplificado de como a regressão com redes neurais funciona: a abordagem mais simples em termos estatísticos é assumir que os dados podem ser modelados através de uma fórmula fechada que pode conter um número de parâmetros ajustáveis (pesos) que podem ser estimados assim que o modelo pode fornecer a melhor explicação dos dados existentes. Por exemplo, um problema de regressão em que se pretende aproximar o modelo ou uma única variável (t) como uma função linear de uma variável de entrada (x). A função matemática usada para modelar tais relações é simplesmente dada por uma transformação linear (f) com dois parâmetros,

A tarefa é encontrar os valores adequados para a e b que se relacionam com uma variável de entrada x para a variável t. Este problema é conhecido como a regressão linear (STATSOFT, 2011).

As redes neurais são construídas de neurônios que formam camadas. Os dados de entrada são apresentados como uma camada de neurônios (Figura 18). Se a entrada de um neurônio está dentro do intervalo para que o neurônio tenha sido treinado, em seguida, o neurônio é acionado. Quando um neurônio é acionado, um sinal é enviado para a camada de neurônios com qual o neurônio é conectado. As conexões entre os neurônios são chamados de sinapses ou conexões (HEATON, 2008).

As RNA’s devem ser treinadas e validadas. Uma amostra de dados é normalmente dividida para fornecer dados para o treinamento e para a verificação. Treinar a RNA consiste na execução da RNA com a amostra de treinamento até a RNA aprender a reconhecer a amostra de treinamento com uma taxa de erro suficientemente baixo. A verificação ocorre quando os resultados da RNA treinada são verificados em outro período ou conjunto de dados. Só porque uma RNA pode processar os dados de treinamento com uma baixa taxa de erro, não significa que a RNA treinada é pronto para o uso. Antes que a RNA possa ser usada, ela deve ser validada. A validação envolve a apresentação da amostra de validação para a RNA e comparação dos resultados produzidos pela RNA com os resultados reais. A RNA estará pronta para ser usada, se, no final do processo de validação, os resultados de validação atendem um nível de erro satisfatório (HEATON, 2008)

O treinamento sempre segue o conceito de generalização das redes neurais ou o ponto de parada ideal (early stopping) para evitar o treinamento em excesso (over training). Esta questão da generalização é uma das grandes preocupações no treinamento de redes neurais. É conhecida como a tendência de a rede ficar superajustada (overfitting) - os dados de treinamento têm dificuldade em prever novos dados, por que eles são treinados demais e representam melhor apenas a si mesmo. Há uma relação entre o treinamento de uma rede superajustada (overfitting) e uma generalização fraca. Por isso, é importante construir uma rede que seja capaz de prever bem novos dados. A Figura 19 mostra o treinamento das redes neurais com o critério de parada ‘early stopping’ (STATSOFT, 2011; VALENÇA, 2007).

Figura 19 - Conceito treinamento das RNA’s (STATSOFT, 2011; VALENÇA, 2007) O número de variáveis de entrada e de saída é definido pelo problema. As variáveis de saída dependem das entradas e por isso sua escolha é clara, mas não é assim quando se trata de escolher as variáveis de entrada. Pode existir alguma incerteza sobre quais variáveis de entrada devem ser usadas. Nota-se que o uso de um número suficiente de variáveis de entrada é uma questão de grande importância na modelagem e de fato também para todas análises estatísticas. Assim, incluir entradas irrelevantes, por exemplo, pode inadvertidamente danificar o desempenho da rede neural. Pelo contrário, um conjunto de dados com um número insuficiente de entradas nunca pode ser modelado com precisão por uma rede neural. Uma sub-seleção de atributos (ou os neurônios de entrada) foi realizada com o programa WEKA (Waikato Environment for Knowledge Analysis) utilizando o algoritmo CFS - Correlation-

based Feature Selection (HALL, 1999). Assim são selecionados os atributos que exercem

somente influência positiva para o conjunto de dados e os respectivos resultados (neurônios de saída).

4.3.2.2 Bacia-Meta

Uma realidade na hidrologia no Brasil é a existência de poucos dados hidrológicos, principalmente observações de vazões e níveis. No entanto, a maioria dos métodos estatísticos precisa de uma grande quantidade de dados para obter resultados confiáveis e com precisão. A reamostragem é um método para substituir dados com amostragens diferentes, que podem ser mais exatos. Técnicas comuns de reamostragem são, por exemplo, bootstrapping8,

jackknifing9 e testes de permutação.

Um conceito apresentado por Diniz (2008) para o processo da regionalização é o da ‘Bacia-Meta’. Segundo Diniz (2008) a bacia-meta é a bacia retirada do conjunto de dados com o objetivo de orientar o treinamento da RNA. Desta forma, a RNA é treinada para reproduzir o valor do parâmetro do modelo hidrológico para a bacia omitida a partir de suas características físico-climáticas, sendo esta RNA capaz de reproduzir o parâmetro do modelo hidrológico para a bacia-meta, o mesmo pode-se esperar para outra bacia que lhe seja similar. Com o uso desta técnica o desempenho do treinamento da RNA melhorou consideravelmente. O organograma (Figura 20) mostra o método da bacia meta.

8 Inglês - traduzido “cintas das botas“ - é um método de reamostragem proposto por Bradley Efron 9 Inglês – traduzido “dobrar-se ao meio” - é um método de reamostragem semelhante ao bootstrapping

5 RESULTADOS

Os resultados desta dissertação são apresentados em três seções, a saber: resultados da caracterização automática, que é a ferramenta propriamente dita; resultados da calibração dos três modelos hidrológicos; resultados da regionalização com as redes neurais artificiais.

Documentos relacionados