• Nenhum resultado encontrado

4.4. Conclusões parciais

5.3.1. Espectros NIR

Os espectros dos seis conjuntos de dados antes e depois do pré-processamento podem ser encontrados nas figuras apresentadas no Anexo 1. A seção 5.2.3.2 trata sobre a organização do conjunto de dados, pré-processamento e divisão entre conjuntos de treinamento e validação.

As Figura 22 (a) e (b) apresentam os espectros NIR das amostras comerciais de chá dentro dos sachês, apenas da erva e apenas dos sachês, que foram analisadas nos equipamentos de bancada e portátil, respectivamente. Comparando os três modos de aquisição dos espectros, a razão sinal-ruído aumenta conforme a erva fica mais exposta à radiação infravermelha, indicando que é possível obter informações sobre o chá sem removê- lo do sachê, pois os sinais do sachê são pouco intensos em comparação à erva e à erva dentro do sachê. Os espectros são muito semelhantes a outros relatados na literatura e as bandas já foram descritas em vários estudos sobre chá verde.115,119,120

Figura 22–Espectros NIR das amostras comerciais do chá verde tradicional, comparando os três modos de análise usando o espectrômetro (a) de bancada e o (b) portátil.

A banda das regiões 1, nas Figura 22 (a) e (b), pode ser atribuída ao segundo sobretom do estiramento C–H de CH2e CH3, associada aos polifenóis do chá verde.115,119,120A banda

da região 2 é do segundo sobretom dos estiramentos N–H e O–H, provavelmente associada a aminoácidos livres, proteínas e água.115,119As bandas na região 3 são devidas ao primeiro

sobretom do estiramento C–H, correspondente a grupos aromáticos, polifenóis, catequinas e alcaloides.115,120 A região 4 corresponde à combinação de estiramentos OH e deformação

angular O–H na molécula de água.119A região 5 pode ser atribuída ao estiramento CH em

grupos aromáticos, provavelmente relacionados a polifenóis.115 A região 6 designa

Os espectros NIR referentes às quatro classes de tipos de chá verde analisados estão disponíveis nas Figura 23 (a) e (b), onde podem ser comparados. Os espectros possuem alta similaridade, o que dificulta uma identificação visual de sinais que podem diferenciar as classes.

Figura 23– Espectros NIR de amostras comerciais das quatro classes analisadas usando o espectrômetro (a) de bancada e o (b) portátil.

5.3.2. Classificação por PLS-DA

A escolha do número de variáveis latentes (LV) é um problema recorrente nos modelos de PLS-DA, uma vez que ao escolher poucas variáveis latentes, a variância contida nos blocos (espectros) e (classes) pode não ser adequada para descrever o modelo com todo o potencial das informações sobre os conjuntos de dados. No entanto, ao escolher muitas variáveis latentes, pode ocorrer um sobreajuste do modelo, levando a erros de classificação. Nesse caso, muitas amostras podem ser consideradas anômalas, ou outliers, por apresentarem altos valores dos resíduos Q e do T2, relacionados à diferença entre o valor real e previsto e

a distância da amostra ao centro do conjunto de dados, respectivamente. Dessa forma, o número de LV para o treinamento dos modelos foi escolhido de acordo com o erro médio de classificação pelo conjunto de treinamento e pela validação cruzada, além de observar a variância explicada nos blocos e . Os valores da variância explicada em cada bloco estão disponíveis na Tabela 4. Os comportamentos dos erros médios de classificação de cada conjunto de dados podem ser observados nas figuras disponíveis no Anexo 2.

Tabela 4 – Valores da variância explicada nos blocos e de acordo com o número de variáveis latentes escolhido para todos os conjuntos de dados avaliados.

Conjunto de dados nLV Variância explicada

(%) (%)

Apenas erva 7 95,11 93,20

Erva dentro do sachê 6 94,56 83,52

Apenas sachê 7 98,72 77,12

Apenas erva 8 95,53 78,73

Erva dentro do sachê 7 93,07 78,52

Apenas sachê 6 79,32 50,57

nLV: número de variáveis latentes, é o bloco dos espectros e é o bloco das classes. A Figura 24 exibe os valores de exatidão na previsão do conjunto de validação dos modelos PLS-DA para cada conjunto de dados. A exatidão dos modelos considerando apenas o sachê é muito baixa, indicando que ele não possui informação química que auxilie na discriminação das classes. De outra forma, o sachê é um interferente, uma vez que a exatidão tende a diminuir quando o chá está contido no sachê em relação ao chá fora do sachê. As

afirmações acima podem ser inferidas sobre as análises usando os dois equipamentos. No entanto, o espectrômetro de bancada foi menos afetado, uma vez que a sua fonte de radiação é mais potente que a do espectrômetro portátil.

Figura 24–Valores de exatidão para os conjuntos de validação e o número de LV escolhidas para os modelos PLS-DA analisando a erva dentro e fora do sache e o sachê vazio, comparando os resultados dos equipamentos de bancada e portátil.

A escolha do número de variáveis latentes foi, de fato, um problema. Um exemplo do que ocorreu é na validação das amostras de chá dentro do sachê que foram analisadas equipamento de bancada. Nesse conjunto, mais de 25% de amostras de chá verde misto foram acusadas como outliers, prejudicando a conclusão sobre a classe das amostras. A Tabela 5 indica os outliers no conjunto citado acima. Na mesma tabela é possível identificar que o problema também ocorreu no conjunto de treinamento, onde uma amostra teve que ser retirada para o treinamento do modelo. Esse problema se repetiu com muita frequência, ocorrendo em mais de 80% dos conjuntos de dados avaliados. Neste mesmo modelo, algumas amostras das classes de chá verde tradicional e de limão foram classificadas incorretamente, sendo mais difíceis de discriminá-las. O modelo acima apresentou valores de exatidão de 98% e 83% nos conjuntos de treinamento e validação, respectivamente. Resultados similares podem ser encontrados acerca dos outros conjuntos de dados, onde as respectivas tabelas de confusão dos modelos PLS-DA encontram-se no Anexo 3.

Tabela 5–Tabela de confusão do modelo PLS-DA para classificação das quatro classes de amostras de chá verde analisadas dentro do sachê pelo equipamento de bancada.

Conjunto de treinamento Conjunto de validação

Classe Classe 1 2 3 4 1 2 3 4 1 29 0 0 0 1 14 0 5 0 2 0 29 0 0 2 0 15 0 0 3 1 0 30 0 3 1 0 10 0 4 0 0 0 30 4 0 0 0 11 Out. 0 1 0 0 Out. 0 0 0 4

1: chá verde tradicional, 2: chá verde com menta, 3: chá verde com limão, 4: chá misto e Out.: outliers ou amostras anômalas.

Diversos estudos podem ser encontrados na literatura onde utilizam o PLS-DA e espectroscopia NIR para resolução de problemas de classificação, além da comparação com outras ferramentas de análise multivariada. Um exemplo disso foi uma pesquisa de Kosmowski e Worku, que classificou diferentes espécies de cevada, grão de bico e sorgo usando um espectrômetro NIR portátil.134Este estudo também avaliou os conjuntos de dados

usando o SVM-DA, que superou o PLS-DA, aumentando em 7 (87% contra 80%), 6 (95% contra 89%) e 2 (86% contra 84%) pontos percentuais de exatidão na avaliação dos dados de cevada, grão de bico e sorgo, respectivamente.134Um outro estudo por Lü e colaboradores

focado na classificação de dois diferentes cultivos de milho doce e, novamente o SVM-DA se mostrou superior ao PLS-DA com uma taxa de exatidão na previsão das amostras do conjunto de validação foi de 99,19% para o primeiro contra 97,97% para o último.135 Um

terceiro estudo por Chao e colaboradores visou identificar a origem geográfica de Trichosanthis Fructus, um fruto medicinal chinês, e mais uma vez o SVM-DA mostrou-se mais eficiente que o PLS-DA, fornecendo 100% de exatidão contra 98%.136Diante desses e

de muitos outros estudos, é possível acreditar que o SVM-DA pode ter uma performance melhor que o PLS-DA na classificação de amostras utilizando espectroscopia NIR.

5.3.3. Classificação por SVM-DA

Os valores de exatidão para a previsão das amostras do conjunto de validação podem ser encontrados na Figura 25. Um aumento nos valores de exatidão pode ser observado nos modelos SVM-DA em relação aos modelos PLS-DA, principalmente nos conjuntos de dados do chá contido no sachê, que apresentou um aumento de 10 pontos percentuais de exatidão, tanto no equipamento de bancada, quanto no portátil. Ao avaliar os conjuntos de dados onde a erva foi analisada diretamente, sem a presença do sachê, observou-se um aumento de 3 e 5 pontos percentuais de exatidão nos equipamentos de bancada e portátil, respectivamente.

Outras conclusões que foram inferidas ao analisar os modelos PLS-DA puderam ser confirmadas pelo SVM-DA, como o fato do sachê não possuir informação química que auxilie a discriminação das classes e as dificuldades de analisar o chá dentro do sachê no equipamento portátil devido a uma menor potência da fonte de radiação e à faixa espectral reduzida, quando comparado ao espectrômetro de bancada.

Figura 25 – Valores de exatidão para os conjuntos de validação dos modelos SVM-DA analisando a erva dentro e fora do sache e o sachê vazio, comparando os resultados dos equipamentos de bancada e portátil.

Comparando os resultados do modelo SVM-DA do mesmo conjunto discutido na seção anterior, no qual analisou as amostras de chá dentro do sachê pelo equipamento de bancada, podem ser obtidas algumas conclusões. Através dos resultados da tabela de

confusão (Tabela 6), o modelo SVM-DA forneceu uma resolução do problema das amostras indicadas como outliers pelo modelo PLS-DA, uma vez que esse método visa classificar e prever as classes de todas as amostras. Portanto, todas as amostras identificadas como anômalas nos modelos PLS-DA foram corretamente classificadas nos modelos SVM-DA. Além disso, as classes de chá verde tradicional e chá verde com limão, que apresentaram muitos erros de classificação no modelo PLS-DA, foram mais bem discriminadas no modelo SVM-DA, aumentando os valores de exatidão dos conjuntos de validação. Neste mesmo modelo, 40% das amostras classificadas incorretamente da classe de chá verde com limão no modelo PLS-DA foram corretamente classificadas no SVM-DA. Os valores exatidão de treinamento e validação do modelo SVM-DA no conjunto de dados descritos acima foram de 100% e 93%, respectivamente, contra 98% e 83% no PLS-DA. Conclusões similares podem ser inferidas acerca dos outros conjuntos de dados, onde as respectivas tabelas de confusão dos modelos SVM-DA encontram-se no Anexo 4.

Tabela 6–Tabela de confusão do modelo SVM-DA para classificação das quatro classes de amostras de chá verde analisadas dentro do sachê pelo equipamento de bancada.

Conjunto de treinamento Conjunto de validação

Classe Classe 1 2 3 4 1 2 3 4 1 30 0 0 0 1 14 0 3 0 2 0 30 0 0 2 0 15 0 0 3 0 0 30 0 3 1 0 12 0 4 0 0 0 30 4 0 0 0 15 Out. - - - - Out. - - - -

1: chá verde tradicional, 2: chá verde com menta, 3: chá verde com limão, 4: chá misto e Out.: outliers ou amostras anômalas.

A utilização de espectroscopia NIR e SVM-DA na análise de chás vem sendo reportado na literatura em diversos estudos para a resolução de diversos problemas em química analítica. Um estudo desenvolvido por Li e o seu grupo de pesquisa visava a identificação de origens de amostras de chá verde através da análise das folhas frescas. O modelo treinado conseguiu discriminar as amostras com cerca de 98% de exatidão para o conjunto de validação.137Chen, Zhao e colaboradores desenvolveram uma metodologia que

buscava identificar o tipo de chá, sendo chá verde, chá preto ou chá oolong, no qual foram obtidas folhas dos chás que, posteriormente, foram pulverizadas. O modelo treinado pôde discriminar as amostras do conjunto de validação com 95% de exatidão.138 Sun e

colaboradores propuseram um método para identificar variedades de chá verde usando o SVM-DA com alguns métodos de seleção e otimização de variáveis e imagens hiperespectrais que foram obtidas em uma câmera com faixas entre partes do visível e NIR. Este método pôde discriminar as variedades com 96% de precisão na previsão do conjunto de validação.111Todos esses trabalhos citados apresentam uma performance excepcional do

SVM, apresentando resultados similares aos obtidos nesta metodologia, confirmando que estes resultados são compatíveis com o que vêm sendo publicado até agora.

5.3.4. Comparação dos espectrômetros

Nesta dissertação também foi proposta uma comparação entre os espectrômetros de bancada e portátil, que foram parcialmente discutidos nas seções anteriores. Brevemente, ambos os instrumentos têm um excelente desempenho nas análises do chá fora do sachê. No entanto, as análises do chá dentro do sachê são prejudicadas no equipamento portátil. Isso acontece porque a potência da fonte de radiação é menor no equipamento portátil, além dele apresentar uma menor faixa espectral.139Na Figura 26 são apresentados os espectros da erva

do chá verde tradicional nos espectrômetros de bancada e portátil para fins comparativos.

Figura 26–Espectros NIR da erva de uma amostra de chá verde tradicional analisada nos espectrômetros de bancada e portátil.

Para endossar as afirmações, o teste de McNemar (explicado no Apêndice 2) foi realizado a fim de comparar se os conjuntos de dados usando os dois instrumentos são estatisticamente equivalentes de acordo com a taxa de erros. Se os modelos tiverem a mesma taxa de erros, a hipótese nula é aceita, para maiores que o p-valor (0,05). Em contrapartida, a hipótese alternativa será aceita, significando que as taxas de erros são diferentes e, portanto, os modelos são estatisticamente diferentes.133,140 Os resultados do teste de McNemar estão

disponíveis na Tabela 7, que confirma que as análises diretas da erva são estatisticamente iguais nos dois equipamentos. No entanto, as análises do chá dentro do sachê são melhores no instrumento de bancada. As análises do sachê não foram avaliadas pelo teste de McNemar, uma vez que ele não possui informações químicas para a discriminação das classes.

Tabela 7 – p-valores obtidos pelo teste de McNemar na comparação dos resultados de previsão pelos modelos SVM-DA dos dados conjuntos de validação na classificação dos chás verde adquiridos nos equipamentos portátil e de bancada.

Conjunto de dados p-valor Hipótese nula

Apenas erva 0,6171 Aceita

Sachê contendo a erva 0,02334 Rejeitada

Diversos estudos reportados na literatura têm utilizado os espectrômetros portáteis para análises químicas e fornecendo resultados significativos, muito similares aos resultados de equipamentos de bancada. Um exemplo disso, é o trabalho de Alamprese e colaboradores que comparou a eficiência de dois espectrômetros NIR, sendo um portátil e outro de bancada, na discriminação de filés e hamburgueres de peixes de duas espécies diferentes. Os dados foram analisados por análise discriminante linear (LDA), onde foram obtidos valores de exatidão de 100% na previsão dos conjuntos de treinamento e validação para as análises nos dois equipamentos e para os dois tipos de amostras (filé e hambúrguer). Isso indicou que os dois equipamentos forneceram resultados equivalentes, o que foi comprovado pelo teste de McNemar.139 Este estudo corrobora os resultados obtidos na análise direta da erva nos

espectrômetros de bancada e portátil, uma vez que foram comparados estatisticamente, fornecendo resultados equivalentes.

Sacré e colaboradores desenvolveram um estudo que visou a comparação das performances de dois espectrômetros NIR e dois espectrômetros Raman na identificação de falsificações em produtos farmacêuticos. O SIMCA foi utilizado para o tratamento de dados. Quando o ibuprofeno foi analisado, os dois espectrômetros NIR apresentaram excelentes performances, com valores de exatidão de 100%. Os espectrômetros Raman também apresentaram resultados similares, com valores de exatidão de 99 e 95% para os equipamentos de bancada e portátil, respectivamente. No entanto, para a identificação do paracetamol os resultados não foram tão similares quando os espectrômetros Raman foram avaliados, com valores de exatidão de 97 e 59% para os equipamentos de bancada e portátil, respectivamente. Essa diferença entre os valores de exatidão foi atribuída à menor resolução do espectrômetro portátil quando comparado do equipamento de bancada.141 Este estudo

indica que, de fato, os espectrômetros portáteis apresentam certas limitações que prejudicam as análises, como foi observado na análise do chá ensacado.

5.3.5. Avaliação da otimização Bayesiana

A otimização Bayesiana foi utilizada para escolha dos parâmetros e hiperparâmetros para treinar os modelos SVM. A não reprodutibilidade dos resultados é uma desvantagem da otimização Bayesiana. Por exemplo, se um conjunto de dados é avaliado duas vezes para a escolha dos parâmetros do modelo SVM, provavelmente esses dois modelos não serão os mesmos. Portanto, como uma forma de avaliar a consistência dos resultados, os seis conjuntos de dados usados neste estudo foram treinados 50 vezes cada um, a fim de serem obtidos 50 modelos SVM-DA para cada conjunto de dados. Uma vez treinados, os modelos foram avaliados pelos seus respectivos conjuntos de validação, a fim de serem obtidos os valores de exatidão dos modelos. Os valores de exatidão médios, máximos e mínimos e o desvio padrão estão disponíveis na Tabela 8.

Tabela 8–Valores da exatidão média, máxima, mínima e o desvio padrão na previsão dos 50 modelos SVM-DA treinados para os conjuntos de dados estudados.

Conjunto de dados Exatidão

Máx. (%) Min. (%) Méd. (%) (%)

Apenas erva 90 82 89 1

Erva dentro do sachê 93 85 88 2

Apenas sachê 47 40 42 2

Apenas erva 93 77 87 3

Erva dentro do sachê 82 65 77 3

Apenas sachê 45 27 39 4

Máx.: Exatidão máxima, Min.: Exatidão mínima, Méd.: Exatidão média e : Desvio padrão. De acordo com a Tabela 8, pode ser observado que os conjuntos de dados obtidos no espectrômetro portátil apresentam menores desvios padrão dos valores de exatidão quando comparado aos conjuntos de dados obtidos pelo equipamento portátil. As figuras apresentadas no Anexo 5 são complementares a esta informação, pois são os histogramas da frequência dos valores de exatidão na previsão dos conjuntos de validação por cada um dos 50 modelos SVM-DA treinados para cada conjunto de dados. Esses histogramas mostram que os modelos treinados usando os conjuntos de dados obtidos no equipamento de bancada apresentam menor dispersão (relacionada ao desvio padrão) quando comparados aos

conjuntos obtidos no espectrômetro portátil. Como discutido na seção anterior, uma menor razão sinal-ruído e a menor resolução do equipamento podem ter comprometido a qualidade dos espectros, impedindo uma escolha certeira dos parâmetros avaliados para o treinamento dos modelos para discriminação das classes.

Comparando as médias dos valores de exatidão dos modelos SVM-DA e os valores de exatidão dos modelos PLS-DA, SVM-DA forneceu resultados melhores para quase todos os conjuntos de dados, exceto para dois conjuntos de dados que foram obtidos no equipamento portátil: o dos sachês vazios (que não possuem informação química para discriminação dos chás) e o do chá fora do sachê (apenas 1 ponto percentual menor que o PLS-DA). Dessa forma, a probabilidade de treinar um bom modelo SVM-DA usando otimização Bayesiana é alta. No entanto, esses modelos devem ser avaliados através de conjuntos de validação para identificar a capacidade de discriminar as amostras com uma boa performance e fornecer altos valores de exatidão e, talvez, sendo necessário treinar o modelo novamente para obtenção de resultados melhores.

A Tabela 9 contém os parâmetros escolhidos pela otimização Bayesiana para os melhores modelos SVM-DA. Apesar de três opções de funções kernel terem sido avaliadas, apenas a função kernel RBF foi escolhida. Diversas pesquisas indicam que a função RBF consegue fornecer resultados melhores do que outras funções kernel.142,143 Além disso, os

modelos SVM-DA utilizaram mais vetores de suporte para discriminar o chá verde tradicional e o chá verde com limão em comparação com outras classes. Dessa forma, o SVM-DA utilizou mais vetores de suporte para conseguir definir melhor a classe e forneceu uma melhor discriminação, tanto que houve uma menor taxa de erros quando comparado ao PLS-DA. O chá verde misto foi a classe mais diferente e fácil de separar até mesmo utilizando o PLS-DA. Dessa forma, essa foi a classe que menos utilizou vetores de suporte para ser discriminada.

Tabela 9 – Parâmetros de treinamento dos modelos SVM-DA que foram escolhidos pela otimização Bayesiana e o número de vetores de suporte de cada modelo.

Bancada Portátil Apenas chá Apenas chá Cl. Função nSV Cl. Função nSV 1 925,5633 RBF 0,0240 49 1 835,1043 RBF 0,0290 41 2 960,6039 RBF 0,1188 21 2 103,9189 RBF 0,0031 67 3 479,6509 RBF 0,0070 50 3 927,3857 RBF 0,0316 37 4 0,3947 RBF 0,0064 18 4 112,3928 RBF 0,0421 15

Sachê contendo a erva Sachê contendo a erva

Cl. Função nSV Cl. Função nSV

1 41,6830 RBF 0,0022 65 1 932,4989 RBF 0,0332 47

2 925,8027 RBF 0,0271 27 2 988,6176 RBF 0,0604 42

3 36,4824 RBF 0,0046 53 3 334,5702 RBF 0,0077 34

4 0,6869 RBF 0,0037 24 4 6,4728 RBF 0,0064 17

Apenas sachê Apenas sachê

Cl. Função nSV Cl. Função nSV

1 16,1170 RBF 0,0040 51 1 708,2401 RBF 0,0132 61

2 706,0958 RBF 0,0096 33 2 15,0953 RBF 0,0019 68

3 259,1744 RBF 0,0042 49 3 26,1430 RBF 0,0010 81

4 419,2888 RBF 0,0104 41 4 10,0200 RBF 0,0026 67

Cl.: Classe, : parâmetro de compensação, : parâmetro kernel e nSV: Número de vetores suporte.

5.4.Conclusões parciais

O método foi proposto mostrou-se rápido, barato e não invasivo para discriminar diferentes tipos de chá verde usando espectroscopia NIR e SVM-DA. Os modelos construídos foram capazes de fornecer uma discriminação das classes com exatidão de 93% contra 83% no PLS-DA ao avaliar o chá dentro do sachê pelo equipamento de bancada.

Documentos relacionados