4 RESULTADOS E DISCUSSÃO
4.3 PRÉ PROCESSAMENTO DOS DADOS
4.3.1 Calibração Multivariada PLS
As Tabelas 4 e 5 apresentam as estatísticas dos modelos feitos por regressão mínimos quadrados parciais e validação para os teores de COT e NT, respectivamente. Para modelagem de dados de espectroscopia NIR de amostras de solo ocorre maiores valores de componentes principais, raiz quadrada do erro médio, devido a grande diferença e complexidade deste tipo de amostra (SOUZA, 2014). O número de componentes principais utilizado no modelo é determinado pela porcentagem de variância explicada. Assim, seleciona-se um número de componentes de tal maneira que a maior porcentagem da variação presente no conjunto de dados originais seja capturada. Este tipo de comportamento se mostrou apenas para análise do teor de COT, já que para NT, os valores foram baixos devido a unidade e magnitude dos mesmos nas amostras. Avaliando os valores da raiz quadrada do erro médio entre os dados de calibração e entre os dados validação, percebe-se que são estatisticamente semelhantes para os dois atributos em análise, porém os erros quadráticos médios de validação foram menores que os erros quadráticos médios de calibração para todas as características analisadas, exceto para variação normal padrão em NT. Por tratar-se de erros relativos médios, a avaliação dentro de cada intervalo fez-se necessária para observar erros muito discrepantes aos valores médios encontrados e até identificar possíveis tendências de erros em determinadas faixas de concentração dos analitos.
Tabela 4: Avaliação dos modelos de calibração e validação obtidos por mínimos quadrados parciais na determinação de COT.
Legenda: ST – Sem tratamento; MSC – correção multiplicativa de sinal; D1 – 1ª derivada; D2 – 2ª derivada; CR – remoção contínua; SNV – variação normal padrão; SG – Savitzky-Golay; CP – componentes principais; RMSE – raiz quadrada do erro médio; RPIQ – relação entre o desempenho e a distância interquartil.
Pré- Trat.
CP CV (%) RMSE RPIQ Linearidade
Resíduos - bias
Cal Val Cal Val Cal Val Cal Val
ST 22 38,35 37,85 3,56 2,77 1,92 2,49 -0,13 0,43 MSC 20 34,57 36,64 3,79 2,87 1,67 2,10 -0,41 0,13 D1 10 37,76 35,49 3,85 3,20 1,75 1,90 -0,10 0,36 D2 4 37,46 33,61 3,80 3,24 1,88 2,13 -0,01 0,13 CR 14 37,00 34,93 3,94 3,01 1,70 2,08 -0,17 0,51 SNV 21 38,06 35,52 3,41 2,76 2,02 2,25 -0,12 0,47 SG 22 37,93 37,19 3,69 2,83 1,82 2,43 -0,13 0,39 SG+ D1 11 37,12 35,36 3,93 3,10 1,60 1,97 -0,09 0,38
Tabela 5: Avaliação dos modelos de calibração e validação obtidos por mínimos quadrados parciais na determinação de NT.
Legenda: ST – Sem tratamento; MSC – correção multiplicativa de sinal; D1 – 1ª derivada; D2 – 2ª derivada; CR – remoção contínua; SNV – variação normal padrão; SG – Savitzky-Golay; CP – componentes principais; RMSE – raiz quadrada do erro médio; RPIQ – relação entre o desempenho e a distância interquartil.
Para avaliar a qualidade dos modelos sem tratamentos para validação, e a variação normal padrão para calibração, é recomendado a utilização da relação entre o desempenho e a distância interquartil, devido a disposição dos teores de COT nas amostras de solo utilizadas neste trabalho. Para NT, o modelo primeira derivada e remoção contínua apresentou maior valor para calibração e o Savitzky-Golay para validação. Sendo assim, estes apresentaram melhor a capacidade preditiva dos modelos de COT e NT. A aplicação do teste bias, foi aplicado para erros sistemáticos que afetam a exatidão das medidas, sendo associados a todas as componentes do erro que não são aleatórias. Este valor pode ser positivo ou negativo. Para calibração do COT os resultados foram negativos e indicam que as previsões do NIR variam significativamente a partir dos valores experimentais seguindo valores maiores, o que percebe-se no processamento com correção multiplicativa de sinal. Em contrapartida, para validação os resultados foram positivos, indicando que o modelo estava superestimado, o que mais se aplica para o processamento com remoção contínua, enquanto que o modelo com correção multiplicativa de sinal e segunda derivada foram os menos estimados em relação ao bias. Ao atributo NT, ambos (calibração e validação) apresentaram valores negativos, variando assim as previsões do NIR a este.
Na etapa de pré-processamento dos dados espectrais foram também avaliados os 8 métodos empregados em espectroscopia NIR, e outra forma de apresentar os resultados é em forma de gráficos com os valores obtidos em laboratórios e o previsto
Pré- Trat.
CP CV (%) RMSE RPIQ Linearidade
Resíduos - bias Cal Val Cal Val Cal Val Cal Val
ST 19 35,72 32,16 0,24 0,20 1,73 2,43 -0,01 -0,002 MSC 18 31,21 27,99 0,25 0,22 1,62 1,71 0,00 0,001 D1 9 27,02 25,12 0,24 0,21 1,75 1,96 -0,02 0,017 D2 10 31,43 26,87 0,23 0,21 1,73 1,90 -0,01 -0,020 CR 14 31,57 27,07 0,24 0,20 1,75 2,36 -0,01 0,001 SNV 19 30,89 27,91 0,32 0,33 1,04 0,73 0,00 -0,017 SG 18 23,71 22,88 0,24 0,20 1,66 2,61 -0,01 0,025 SG+ D1 11 31,04 28,06 0,25 0,22 1,60 2,21 -0,01 -0,011
pelo NIR, conforme observado nas Figuras 12, 13, 14 e 15. Essas figuras mostram a distribuição dos pontos de calibração e validação dos melhores modelos para análise de COT e NT. Para o atributo COT existe menor dispersão, o que confirma melhor predição dos modelos e o que significa que para um mesmo valor de teor de COT medido pelo método de referência adotado, a metodologia NIR prevê valores próximos, o que causa um menor espalhamento dos pontos em torno da linha de tendência. O modelo para os dados processados com segunda derivada proporcionou maior coeficiente de determinação tanto para calibração (0,866) quanto para validação (0,889), sendo assim o modelo está mais correlacionado. Em contrapartida, o modelo aplicado com remoção contínua apresentou o menor valor para calibração (0,643).
Para NT, percebeu-se comportamento contrário ao COT, pois a dispersão dos pontos mostraram-se maiores, afirmando uma menor linearidade dos modelos e o que significa que para um mesmo valor de teor de NT medido pelo método de referência adotado, a metodologia NIR prevê valores mais afastados, o que causa maior espalhamento dos pontos em torno da linha de tendência. O modelo para os dados processados com segunda derivada proporcionou pior coeficiente de determinação tanto para calibração quanto para validação, sendo assim o modelo não é linear. Em contrapartida, o modelo aplicado com variação normal padrão apresentou o melhor valor para calibração (0,677) e para validação o maior valor apresentado foi o Savitzky-Golay (0,656).
Desta forma, os modelos construídos podem ser considerados lineares, e classificados para calibrar e validar em melhor posição para o teor COT o modelo aplicado segunda derivada. O modelo com melhor desempenho para o teor de NT para calibração foi o variação normal padrão e para validar o modelo, o tratamento com Savitzky-Golay. Ambos que apresentaram o melhor coeficiente de determinação, uma vez que seus resíduos apresentaram comportamento aleatório, e a magnitude dos erros foi da mesma ordem (Tabelas 5 e 6). Devido a forte associação entre os valores mensurados e preditos pelo modelo, indica-se a possibilidade de uso da técnica NIRS para estimar o teor de COT. Enquanto às bandas de teores de NT, deve- se melhor verificar os erros e aplicação de outros tratamentos na análise, enquanto que seu resultado pode ter sido menos acurado devido a sobreposição às bandas de C.
Figura 14 – Desempenho do modelo para validação dos dados de COT.
Figura 15 – Desempenho do modelo para validação dos dados de NT.
Neste trabalho, o método com melhor desempenho para calibração e validação das amostras em análise de COT foi o aplicação com segunda derivada (R2 = 0,866 e R2 = 0,889, respectivamente). Já para análise de NT, o melhor desempenho para calibração foi o método com variação normal padrão (R2 = 0,677), e para validação foi o aplicação com Savitzky-Golay (R2 = 0,656). As figuras 16 e 17 mostram os gráficos dos coeficientes da equação em cada número de onda. Percebe-se na figura 16, para aplicação com segunda derivada, que o melhor desempenho do coeficiente da equação para análise de COT, foi no número de onda entre 5000 cm-1 e 5500 cm-1. A análise de NT, com aplicação variação normal padrão, teve comportamento com melhor desempenho próximo aos 4500cm-1, como apresenta a figura 17. Ou seja, para análise de COT e NT corrobora-se o melhor comportamento na faixa espectral entre 4000 e 5000 cm-1.
Figura 16 - Coeficientes da equação em cada número de onda para análise de COT.
Figura 17 - Coeficientes da equação em cada número de onda para análise de NT.
De acordo com a tabela 1, que diz respeito ao trabalhos relacionados a técnica NIR e análise de solos, em CO: SOUZA, 2014 obteve R2 de 0,83, SATO, 2013 obteve R2 entre 0,80 e 0,88, FELIX, et al 2016, R2 = 0,86, SEGNINI, et al. 2014, foi o que melhor apresentou R2 = 0,99, KUSUMO, SUKARTONO, BUSTAN, 2018, obtiveram R2 = 0,76. Para o teor de NT, FELIX, et al. 2016 obteve R2 = 0,97, valor alto pois utilizou um único tipo de solo, o basalto, sendo assim sua homogeneidade foi maior fazendo com que como consequência obtenha um coeficiente alto e MARCHÃO, R. L., BECQUER, T., BRUNET, D, 2011, R2 = 0,11 para calibração e 0,58 para validação.
Em comparativo aos trabalhos referenciados, este trabalho obteve valores satisfatórios e com bons ajustes para calibração e validação tanto para análise de COT, quanto para análise de NT.
-400 -300 -200 -100 0 100 200 300 400 4000 5000 6000 7000 8000 9000 10000 C o ef ic ie n te s d a eq u aç ão Número de onda -0,40 -0,30 -0,20 -0,10 0,00 0,10 0,20 4000 5000 6000 7000 8000 9000 10000 C o ef ic ie n te s d a eq u aç ão Número de onda