• Nenhum resultado encontrado

SUMÁRIO 1 INTRODUÇÃO

4. MATERIAL E MÉTODOS

4.3 Técnicas utilizadas

4.3.3 Extrapolação de parâmetros de qualidade da água e regionalização de sub-bacias hidrográficas

4.3.3.1 Extrapolação de parâmetros de qualidade da água

Nesta etapa foi realizada a extrapolação de valores de doze parâmetros físicos, químicos e microbiológicos de qualidade da água, a partir da correlação entre variáveis explicativas, contabilizadas para uma população de 44 sub-bacias da Bacia PJ e variáveis respostas, contabilizada para uma amostra de 12 sub-bacias.

4.3.3.1.1 Modelos de extrapolação

Esta seção aborda os métodos de extrapolação utilizados para extrapolar valores de qualidade da água de sub-bacias amostradas para sub-bacias não amostradas. Neste estudo foram empregadas as técnicas Support Vector Regression (SVR) e K Nearest Neighbors Regression (K-NNR). Antes de se abordar as técnicas de extrapolação, é apresentada uma descrição do conjunto de dados utilizado nos modelos.

4.3.3.1.2 Conjunto de dados

O conjunto de dados utilizado nos modelos de extrapolação é composto por dados referentes às variáveis explicativas e às variáveis resposta. O conjunto das variáveis explicativas é composto por dados de 27 variáveis, sendo 18 correspondentes a características geomorfológicas e 9 a características de uso da terra e cobertura vegetal (Tabela 4.4), contabilizadas para uma população de 44 sub-bacias da Bacia PJ. Já o conjunto referente às variáveis resposta é composto por dados de 12 parâmetros de qualidade da água, sendo 5 sobre propriedades físicas, 5 referentes a propriedades químicas e dois sobre propriedades microbiológicas (Tabela 4.5). Os valores destes parâmetros foram obtidos em 12 das 44 sub- bacias, nas quatro estações do ano, e em triplicatas, totalizando 144 amostras para cada parâmetro de qualidade de água. Exceções foram os parâmetros nitrato e cloreto. O nitrato não foi aferido no outono devido a falha no sensor ISE Nitrato, totalizando assim 108 amostras deste parâmetro. O cloreto não foi aferido nos períodos intermediários (primavera e outono) devido a falha no sensor ISE Cloreto, totalizando assim 72 amostras deste parâmetro.

Tabela 4.4 - Variáveis explicativas utilizadas nos modelos de regressão e respectivos parâmetros e unidades de

medida.

Parâmetro Unidade

Morfometria

Densidade de Drenagem (Dd) Km/km² Densidade Hidrográfica (Dh) Canais/km² Coeficiente de Manutenção (Cm) m² para um 1m de canal Extensão do Percurso Superficial (Eps) m

Textura Topográfica (Tt) Adimensional Índice de rugosidade (Ir) Adimensional

Relevo Plano (0 a 3%) Suave ondulado (3 a 8%) Moderadamente ondulado (8 a 13%) Ondulado (13 a 20%) Forte ondulado (20 a 45) Montanhoso ou escarpado (>45%) % Vertente retilínea Vertente côncava Vertente convexa Vertente plana Vertente convergente Vertente divergente

Uso e cobertura vegetal da terra Agricultura Pastagem Silvicultura Remanescente florestal Capoeira % Área urbana Água Afloramento de rocha

Tabela 4.5. Variáveis resposta utilizadas nos modelos de regressão e respectivos parâmetros de qualidade da água. Parâmetro Unidade Propriedades físicas Temperatura °C Condutividade elétrica (µS/cm) Resistividade (Ω.cm) Turbidez (UNT) Total de sólidos dissolvidos (mg/L)

Propriedades químicas pH - Oxigênio dissolvido (mg/L) Nitrato (mg/L) Cloreto (mg/L) Salinidade PSU Propriedades microbiológicas Coliformes totais (NMP) E. coli (NMP)

4.3.3.1.3 Variáveis resposta – tratamento de dados ausentes

Em virtude da falha do sensor ISE Nitrato no período seco e falha do sensor ISE Cloreto nos períodos intermediários (primavera e outono), foram realizadas estimativas das concentrações de nitrato e cloreto para os períodos correspondentes. A partir do coeficiente de correlação (r), constatou-se que a variável nitrato apresentou correlação com os parâmetros condutividade elétrica (0,88), TSD (0,88) e Resistividade (-0,89); e a variável cloreto apresentou correlação com os parâmetros condutividade elétrica (0,8) e TSD (0,8).

Posteriormente, foi realizada uma análise da proporção dos períodos que continham dados de ambas variáveis, com o intuito de ver o quanto os valores de CE, TSD e Resistividade variava em relação à concentração nitrato e o quanto os valores de CE e TSD variava em relação à concentração de cloreto. Após esta etapa, realizou-se o cálculo de média ponderada da soma de cada uma para compor os dados ausentes.

4.3.3.1.4 Variáveis resposta – subdivisão para treinamento e teste

Etapa precedente à aplicação dos modelos de extrapolação constitui-se na subdivisão do conjunto de dados das variáveis resposta, de modo a reservar uma parte dos dados para treinamento e a outra parte para validação e teste. Em um primeiro momento, das doze sub- bacias amostradas, duas delas, localizadas em diferentes tipos de unidades de paisagem da Bacia PJ foram reservadas para teste. Do total de 144 análises realizadas para cada um dos parâmetros de qualidade da água, 120 (83,33%) foram reservadas para treinamento e 24 (16,67%) para teste e validação.

4.3.3.1.5 Modelo de extrapolação - K-Nearest Neighbor Regressor (K-NNR)

O algoritmo dos vizinhos mais próximos apresenta variações determinadas pelo número de vizinhos analisados. Cada objeto representa um ponto em um espaço definido pelos atributos, chamado espaço de entrada, onde ao se definir uma métrica nesse espaço, é possível se computar as longinquidades entre dois pontos utilizando-se a distância euclidiana (FACELI, 2011).

Com a aplicação do K-NNR cada objeto é extrapolado pela interpolação local dos objetos associados a vizinhos mais próximos, no conjunto de treinamento. O valor de k é definido pelo usuário, sendo recomendado um valor pequeno e ímpar (por exemplo, k=3, 5, 7, ...) (FACELI, 2011). Neste contexto, a extrapolação dos parâmetros de qualidade com base em variáveis biofisiográficas foi realizada a partir da técnica K-NNR, com aplicação da métrica distância euclidiana. Foi utilizada toda a base, sendo empregada a média ponderada pela distância dos valores obtidos para os 3 vizinhos mais próximos (k=3). Esta etapa foi realizada em linguagem python (ROSSUM; BOER, 1991), utilizando pacote Scikit-learn, o qual já fornece o algoritmo implementado.

4.3.3.1.6 Modelo de extrapolação - Support Vector Regression (SVR)

A Regressão por Vetores de Suporte (Support Vector Regression - SVR) é uma adaptação da Máquina de Vetores de Suporte (Support Vector Machines – SVM), introduzida por Cortes e Vapnik (1995) (BARRETO, 2017). O algoritmo SVM foi desenvolvido com o objetivo de resolver problemas de reconhecimento de padrões, sendo o SVR uma extensão do SVM para problemas de aproximação de funções – estimação, predição e extrapolação (VAPNIK, 1995).

O algoritmo de vetores de suporte mapeia os dados de entrada em um espaço multidimensional, onde são classificados a partir de kernels não lineares, com a utilização de vetores de suporte, sendo aplicado no final o mapeamento inverso para se fornecer as saídas (BARRETO, 2017). Os vetores de suporte são calculados na etapa de treinamento, com o objetivo de encontrar o limiar equidistante mais próximo que divide as classes geradas conjuntamente com os dados de entrada (BARRETO, 2017).

Diante da lógica dos vetores de suporte, a extrapolação dos parâmetros de qualidade da água com base em variáveis biofisiográfica foi realizada a partir da técnica SVR com emprego do kernel de função de base radial (radial basis function – RBF). Esta etapa foi realizada em linguagem python (ROSSUM; BOER, 1991), utilizando pacote Scikit-learn, o qual já fornece o algoritmo implementado.

4.3.3.1.7 Análise do desempenho dos modelos

O desempenho dos modelos foi avaliado com a finalidade de calcular o erro apresentado por cada método estimador e selecionar aquele que apresentou a maior acurácia na extrapolação dos valores dos parâmetros de qualidade da água. Foram calculados dois tipos de erro: erro médio absoluto e erro médio percentual absoluto; além do coeficiente de determinação (R²). O erro médio absoluto (MAE) mede a diferença média entre os dados valores extrapolados e os valores observados nas medições, constituindo na média dos erros da extrapolação; O erro médio percentual absoluto (MAPE) mede a magnitude do erro em termos percentuais; O coeficiente de determinação (R²) apresenta amplitude entre 0 e 1, indicando, em percentagem, o desempenho do modelo em explicar os valores observados. Para o cálculo destes erros foram utilizados os dados das sub-bacias 2 e 29, reservadas para validação, e os dados extrapolados para estas duas sub-bacias, por meio dos modelos K-NNR e SVR.

Por fim, comparou-se o erro médio absoluto de cada parâmetro de qualidade da água, por período sazonal, com a diferença entre o maior e o menor valor das triplicatas destes mesmos parâmetros. Estes dados são apresentados no apêndice 1.

4.3.3.1.8 Modelo composto

Após a análise dos erros apresentados pelos modelos K-NNR e SVR, selecionou-se o modelo com melhor desempenho para cada parâmetro de qualidade da água. Assim, foi realizada uma nova extrapolação, com aplicação do modelo de melhor precisão para cada parâmetro de qualidade de água, sendo incluído aos dados de treinamento os dados utilizados para teste e validação na etapa anterior. Desta forma, nesta etapa as extrapolações dos parâmetros de qualidade de água foram realizadas com base nos dados de treinamento das 12 sub-bacias analisadas nos quatro períodos sazonais, aumentando a capacidade da extrapolação em alcançar valores mais fidedignos do que os alcançados pela extrapolação com 10 sub- bacias de treinamento.

Por fim, foi gerada uma coleção de mapas temáticos para cada período sazonal, composta pelos mapas de concentração dos parâmetros de qualidade de água das sub-bacias da Bacia PJ. Os valores das concentrações foram divididos em quatro classes, e os intervalos de classes foram obtidos com o emprego da técnica de classificação quebras naturais.

Para avaliar o desempenho do modelo composto, foram coletadas amostras da água do rio principal de seis sub-bacias não amostradas e de duas sub-bacias já amostradas (sub-bacias

para controle). As métricas de erro aplicadas na etapa anterior foram utilizadas nesta etapa, comparando-se os valores do modelo composto aos valores das médias para os quatro períodos sazonais.