• Nenhum resultado encontrado

A Tabela 1 contém os resultados da modelagem MLR para diferentes combina- ções de conjuntos de dados e transformações de X.

Tabela 1 – Valores médios de RMSEP [g l-1] para diferentes combinações de conjuntos de dados e transformações de X na modelagem MLR

Analito

N total 2,5243 4,1876 5,4839

2,2986 4,1015 7,3151

8,4705 14,6701 15,2156

“n” é o número de amostras do conjunto;

SavGol é a suavização Savitzky-Golay, de ordem “O” e número de pontos “W”;

Todas as variáveis foram centradas na média e escaladas pela variância.

Combinações das soluções nos datasets calibração (n) – predição (n) mistas (67) –

mistas (16) compostas (33)simples (50) – compostas (33) –simples (50)

P2O5

K2O

Foram utilizadas as transformações SavGol O:1 W:3, SavGol O:1 W:5, SavGol O:1 W:11, SavGol O:3 W:5 e SavGol O:4 W:7;

Figura 19 – Gráficos de predição de N Total de modelos MLR selecionados

A Figura 19 acima contém os resultados de predição de N Total dos modelos MLR com melhor desempenho registrado na avaliação da modelagem com os diferentes

conjuntos de calibração e predição, indicados nos gráficos. As predições foram feitas para ambos os conjuntos de calibração e predição.

Nos resultados da Tabela 1, os modelos com melhor desempenho de predição foram aqueles treinados com os conjuntos de calibração de soluções mistas (contento amos- tras de soluções simples e compostas), seguidos dos modelos treinados com o conjunto de soluções simples e por fim, daqueles treinados com o conjunto de soluções compostas. É possível observar que as diferenças entre as colunas de RMSEP da Tabela 1 são mais signifi- cantes na comparação da primeira coluna com as demais.

Na Figura 19, o modelo gerado exclusivamente com soluções simples (gráfico da segunda linha) obteve um ajuste preciso das amostras de soluções simples, mas com desvios expressivos para as amostras de soluções compostas. O resultado oposto pode ser observado para o modelo gerado exclusivamente com soluções compostas (gráfico da última linha). Nesta análise, pode-se concluir que a capacidade dos modelos de explicar a variância dos dados é influenciada pelo tipo de informação contida nas amostras.

Estes resultados demonstram o efeito de interferência nos espectros de resposta do analito causado pela presença de espécies químicas não correlacionadas, e a necessidade da aplicação de técnicas de modelagem multivariada para a solução do presente problema.

A partir desta etapa do trabalho, os modelos apresentados foram gerados com os conjuntos de soluções mistas de cada analito.

A Tabela 2 contém os resultados de predição dos modelos MLR e PLS de melhor desempenho, acompanhados dos valores médios de RMSEP e RMSE obtidos com a modela- gem para diferentes transformações de X. Para os modelos PLS é indicado o número de variá- veis latentes (VL) selecionadas. Foram apresentados os resultados dos modelos PLS para K2O com 6, 5 e 3 VL, que serão comparados posteriormente na análise das figuras de mérito.

Ao se observar a coluna de RMSEP pode-se constatar o melhor desempenho dos modelos PLS na capacidade de modelagem da variância dos dados químicos, já que estes modelos puderam predizer com maior precisão as concentrações dos analitos nas amostras do conjunto de predição.

Na comparação entre as colunas de RMSEP e RMSE, as diferenças observadas são maiores para os modelos MLR, enquanto que para os modelos PLS as diferenças são menos expressivas. Estes resultados apontam para um possível sobreajuste dos modelos MLR às amostras do conjunto de calibração, o que explica os valores consideravelmente menores

de RMSE na comparação com os modelos PLS para N Total e P2O5. As diferenças dos ajustes às amostras entre os modelos MLR e PLS podem ser melhor observadas nos gráficos da Figu- ra 20 – os gráficos dos modelos com os menores valores de RMSEP, exibidos na Tabela 2.

Outra importante observação, é que o número de variáveis latentes selecionadas reflete os resultados da análise de espectroscopia vibracional. Nas regiões indicadas na Figura 17, três delas contêm picos de absorção das espécies químicas de N e três de P, sendo uma região comum entre estas espécies. Não por coincidência, três é o número de variáveis laten- tes determinado para os modelos PLS para N e P.

Tabela 2 – Desempenho de predição dos modelos MLR e PLS obtidos com os conjuntos de dados de soluções mistas, para diferentes transformações de X

Analito Modelo MLR 2,289 1,005 PLS 1,388 1,391 MLR 2,157 0,947 PLS 1,714 1,320 MLR 6,756 2,966 PLS 3,674 2,885 PLS 4,669 5,553 PLS 15,555 14,875

“VL” ou variáveis latentes, utilizadas nos modelos PLS;

SavGol é a suavização Savitzky-Golay, de ordem “O” e número de pontos “W”;

Para N e P foram utilizadas as transformações SavGol O:1 W:5, SavGol O:1 W:11 e SavGol O:3 W:5; Todas as variáveis foram centradas na média e escaladas pela variância.

Menor valor de RMSEP [g l-1]

(transformação de X) RMSEP médio[g l-1]

RMSE médio [g l-1] N total (3 VL) 1,781 (SavGol O:1 W:11) 1,370 (SavGol O:1 W:11) P2O5 (3 VL) 1,764 (SavGol O:1 W:11) 1,697 (SavGol O:1 W:5) K2O (6 VL) 5,107 (SavGol O:1 W:3) 3,608 (SavGol O:1 W:11) K2O (5 VL) 4,637 (SavGol O:4 W:7) K2O (3 VL) 15,451 (SavGol O:4 W:7)

Figura 20 – Gráficos de predição dos modelos MLR e PLS selecionados

No processo de modelagem não foram identificados outliers nos dados. Na coluna da direita da Figura 20 (modelos PLS), nenhuma das amostras apresentou desvio expressivo.

As Figuras 21 e 22 contém os coeficientes dos vetores de regressão dos modelos MLR e PLS com os menores valores de RMSEP, exibidos na Tabela 2.

Figura 21 – Gráfico dos vetores de regressão dos modelos MLR selecionados

Na Figura 22 foi selecionado o modelo PLS para K2O com 3 VL para viabilizar a apresentação gráfica dos vetores de regressão. O vetor de regressão obtido no modelo com 6 VL apresentou coeficientes com ordem de grandeza superior, similar às dos coeficientes dos modelos MLR. Na mesma Figura, os marcadores em azul foram utilizados para indicar a posi- ção das variáveis de X selecionadas, para cada analito, e utilizadas na construção dos modelos apurados no final do trabalho (modelos apresentados na Tabela 3).

Comparando-se os vetores de regressão nas Figuras 21 e 22, fica evidente o efeito da compressão de dados aplicada na modelagem PLS – os valores dos coeficientes passam a ter maior significado químico. Os vetores de regressão dos modelos PLS também foram utili- zados como dados de suporte à seleção de variáveis.

Os próximos resultados apresentam os desempenhos de predição e de validação dos modelos apurados, sendo estes os modelos com os menores valores de RMSEP, obtidos sem seleção de variáveis (aqueles exibidos na Tabela 2) e com seleção de variáveis.

As Figuras 23 e 24 contém os dados das amostras do branco utilizados no cálculo das figuras de mérito apresentadas na Tabela 3.

Figura 24 – Desvios padrão de absorbância das amostras do branco nas variáveis de X

Na Figura 23 pode-se observar os desvios nos espectros de resposta das amostras do branco, registrados em diferentes sessões de análise espectrofotométrica. Considerando que as amostras do branco foram coletadas da mesma porção de água destilada e que são quimicamente idênticas, estes desvios podem ser atribuídos à variações de temperatura do equipamento e/ou das amostras, à presença de impurezas na superfície do cristal ATR e no meio óptico, ou mesmo à variações nas cargas elétricas do circuito transdutor do equipamen- to, entre outras possibilidades.

A distribuição dos desvios do branco ao longo das variáveis do espectro podem ser vistos na Figura 24. Na mesma Figura, os pontos em azul indicam os valores correspon- dentes às variáveis selecionadas. Pode-se perceber que a distribuição dos desvios traça um perfil que parece estar correlacionado com os espectros de intensidade registrados para o branco (ver Apêndice 2), possivelmente por consequência da razão sinal ruído do espectrofo- tômetro.

A ordem de grandeza dos desvios pode ser considerada uma medida da precisão do método de análise espectrofotométrica, impactando diretamente as figuras de mérito de cada modelo. Quanto mais os desvios do branco se aproximam numericamente dos valores de absorbância dos compostos, menor é a capacidade do modelo de diferenciar com precisão pequenos incrementos da variável química – a concentração dos analitos.

A Tabela 3 contém os resultados finais de desempenho de predição e de validação com as figuras de mérito dos modelos apurados, onde são comparados os valores obtidos sem a aplicação da seleção de variáveis e com a aplicação da seleção de variáveis. Na Tabela, os conjuntos de variáveis selecionadas são indicados por letras maiúsculas, de “A” a “D”, sendo “A” o conjunto total das 128 variáveis de X (sem seleção).

As figuras de mérito foram geradas com a média dos desvios padrão do branco, calculada com os desvios correspondentes às variáveis selecionadas.

Tabela 3 – Desempenho de predição e figuras de mérito dos modelos apurados, sem e com seleção de variáveis Analito Modelo MLR A (128) 1,781 0,782 0,0001 0,0194 169,534 515,300 B (4) 1,188 1,450 0,0036 1,0178 3,232 9,825 PLS A (128) 1,370 1,500 0,0111 3,0180 1,090 3,313 B (4) 1,234 1,465 0,0037 1,0328 3,186 9,683 MLR A (128) 1,764 0,774 0,0001 0,0380 86,660 263,404 C (3) 1,665 1,446 0,0036 1,1059 2,975 9,042 PLS A (128) 1,697 1,316 0,0162 4,4098 0,746 2,268 C (3) 1,667 1,453 0,0036 1,1157 2,949 8,963 MLR A (128) 5,107 2,242 0,0001 0,0225 146,301 444,685 D (6) 5,084 4,122 0,0002 0,0672 48,961 148,817 PLS A (128) 3,608 2,956 0,0007 0,1998 16,463 50,040 D (6) 4,925 4,086 0,0002 0,0578 56,876 172,875 PLS A (128) 4,637 5,423 0,0008 0,2239 14,691 44,655 D (6) 5,135 4,666 0,0003 0,0803 40,949 124,465 PLS A (128) 15,451 14,793 0,0069 1,8693 1,760 5,350 D (6) 10,652 10,720 0,0005 0,1677 19,620 59,635

“n” é o número total de variáveis que formam o conjunto de seleção; “I” é a Intensidade de absorbância [u.a.] do sinal medido;

SEN (sensibilidade) e SENa (sensibilidade analítica);

LD (limite de detecção) e LQ (limite de quantificação) para o nível de confiança de 95%; “VL” ou variáveis latentes, utilizadas nos modelos PLS;

Foram apurados os modelos com menores valores de RMSEP, para os datasets de soluções mistas. Seleção (n) RMSEP[g l-1] RMSE [g l-1] SEN [I (g l-1)-1] SENa [(g l-1)-1] LD [g l-1] LQ [g l-1] N total (3 VL) P2O5 (3 VL) K2O (6 VL) K2O (5 VL) K2O (3 VL)

O impacto da seleção de variáveis pode ser observado no desempenho de predição dos modelos MLR. Os valores de RMSEP foram reduzidos e os valores de RMSE ficaram mais próximos de RMSEP, o que indica a redução do sobreajuste observado nos modelos MLR antes da seleção. Deve-se considerar que com a eliminação de variáveis o método MLR pôde ser aplicado naturalmente. Agora, o número de amostras supera o número de variáveis preditoras, condição que possibilita a resolução do problema inverso, sem a necessidade de se utilizar qualquer recurso de regularização – o problema é proposto de maneira apropriada.

Para os modelos PLS, a seleção não resultou em uma tendência de melhoria do desempenho de predição. Registrou-se uma pequena melhora no modelo para N Total e uma piora considerável no modelo para K2O com 6 variáveis latentes.

Os resultados da seleção tornam-se mais evidentes para as figuras de mérito. Os limites de detecção (LD) e de quantificação (LQ) foram drasticamente reduzidos para os modelos MLR, ficando próximos dos valores registrados para os modelos PLS com seleção. Para os modelos PLS, a seleção provocou novamente uma queda do desempenho, elevando os limites para valores entre três a cinco vezes maiores do que os registrados sem a seleção.

A redução do número de variáveis trouxe melhorias expressivas para os modelos MLR apurados, o que não pode ser afirmado para os modelos PLS. A adição de variáveis alta- mente correlacionadas ao modelo pode ser interpretada como a incorporação de novas medi- ções. Cada sinal medido carrega uma componente de erro com sinais positivos ou negativos que se cancelam quando adicionados, produzindo um efeito médio que pode reduzir a quanti- dade de erro no modelo de calibração – designado como vantagem multicanal (FERREIRA, 2015). Nos modelos PLS, a redução do efeito multicanal é a provável causa para a perda expressiva de sensibilidade, resultando na elevação de LD e LQ. A redução do número de variáveis torna-se mais crítica para os modelos nos casos onde a variação da intensidade do sinal promovida pelo composto de interesse é poucas vezes maior que a intensidade do sinal de fundo (o ruído). Esta condição pode explicar o aumento de RMSEP nos modelos PLS de K2O com 6 e 5 variáveis latentes, o que não foi observado para o modelo com 3 variáveis latentes, uma vez que a redução da variância modelada pode ter ocultado esta diferença.

Embora os resultados de predição para os modelos de K2O com 6 variáveis laten- tes tenham sido satisfatórios, os valores de LD e LQ indicam que as predições são suscetíveis à precisão da metodologia instrumental. Comparando-se os modelos PLS de K2O com 6 e 3 variáveis latentes e sem seleção de variáveis, é possível constatar que a redução do número de

variáveis latentes gerou valores quase dez vezes menores para LD e LQ. Contudo, essa dife- rença teve seu custo, reduzindo consideravelmente o desempenho de predição e tornando o modelo com 3 variáveis latentes inconsistente para os resultados de LD e LQ.

Calculando-se a razão entre RMSE e o valor aproximado de amplitude da faixa de concentração de cada analito, observado no conjunto de amostras, os melhores resultados obtidos são:

a) 3,0 % da faixa de N Total, para o modelo PLS com 3 variáveis latentes; b) 1,9 % da faixa de P2O5, para o modelo PLS com 3 variáveis latentes, e; c) 4,2 % da faixa de K2O, para o modelo PLS com 6 variáveis latentes.

Considerando os resultados finais dos índices de predição e das figuras de mérito para a validação dos modelos apurados, as seguintes conclusões podem ser estabelecidas:

i. a seleção de variáveis contribuiu para a melhora do desempenho de predição e para a redução expressiva de LD e LQ nos modelos MLR;

ii. a seleção de variáveis reduziu substancialmente a sensibilidade dos modelos PLS, contribuindo para o aumento de LD e LQ;

iii. os modelos apurados obtiveram resultados de predição satisfatórios quando compara- dos à faixa de concentração dos analitos;

iv. os resultados de validação comprovam a aplicabilidade do método para a predição das concentrações de N Total e de P2O5, sendo possível diferenciar precisamente valores com diferenças de ~3,3 g l-1 e ~2,3 g l-1, respectivamente, e;

v. os resultados de predição e de validação para os modelos de K2O indicam que o méto- do pode ser aplicado para medições pouco precisas, sendo necessário realizar a cali- bração do modelo a cada sessão de análise para se obter resultados mais precisos, como aqueles observados na Figura 20.

Finalmente, deve-se considerar que os resultados de predição e de validação obti- dos com os modelos apurados são válidos para soluções concentradas, contendo os mesmos compostos fertilizantes utilizados nesta pesquisa, e para concentrações dentro da faixa obser- vada de cada analito.

5 CONCLUSÕES

Nesta pesquisa, técnicas de espectroscopia vibracional e de quimiometria foram aplicadas na investigação para a identificação e quantificação de macronutrientes em soluções concentradas de fertilizantes, utilizadas em sistemas de fertirrigação.

Um total de 83 amostras de soluções foram produzidas a partir da combinação de 5 variedades de sais fertilizantes amplamente utilizados. Os espectros de absorbância no infra- vermelho médio de cada amostra foram obtidos por meio da análise com um espectrofotôme- tro ATR portátil. Os resultados foram utilizados na composição de um dataset com 129 variá- veis e mais de 10700 dados. Avaliando-se os espectros, foi possível identificar as espécies químicas dos compostos e correlacioná-las com os picos e sinais de amplitude de absorbância. Os dados foram utilizados para o treinamento e validação de modelos de regressão MLR e PLS, para a predição da concentração dos analitos nas amostras. Os resultados dos modelos foram registrados a partir de testes com diferentes conjuntos de dados, pré-tratamentos, núme- ro de fatores e com a seleção de variáveis. O desempenho de predição dos modelos foi medi- do por meio dos índices de erro, e a validação foi realizada com as figuras de mérito geradas. Os resultados finais foram avaliados para se determinar a eficácia da aplicação dos modelos apurados para a predição da concentração dos analitos de N, P e K.

Documentos relacionados