• Nenhum resultado encontrado

Máquinas de vetores de suporte e espectroscopia vibracional para autenticação e classificação de alimentos

N/A
N/A
Protected

Academic year: 2021

Share "Máquinas de vetores de suporte e espectroscopia vibracional para autenticação e classificação de alimentos"

Copied!
146
0
0

Texto

(1)

CAMPINAS 2020

UNIVERSIDADE ESTADUAL DE CAMPINAS INSTITUTO DE QUÍMICA

VICTOR GUSTAVO KELIS CARDOSO

MÁQUINAS DE VETORES DE SUPORTE E ESPECTROSCOPIA VIBRACIONAL PARA AUTENTICAÇÃO E CLASSIFICAÇÃO DE ALIMENTOS

(2)

CAMPINAS 2020

VICTOR GUSTAVO KELIS CARDOSO

MÁQUINAS DE VETORES DE SUPORTE E ESPECTROSCOPIA VIBRACIONAL PARA AUTENTICAÇÃO E CLASSIFICAÇÃO DE ALIMENTOS

Dissertação de Mestrado apresentada ao Instituto de Química da Universidade Estadual de Campinas como parte dos requisitos exigidos para obtenção do título de Mestre em Química na área de Química Analítica.

Orientador: Prof. Dr. Ronei Jesus Poppi

O arquivo digital corresponde à versão final da Dissertação defendida pelo aluno Victor Gustavo Kelis Cardoso e orientada pelo Prof. Dr. Ronei Jesus Poppi.

(3)

Cardoso, Victor Gustavo Kelis,

C179m CarMáquinas de vetores de suporte e espectroscopia vibracional para autenticação e classificação de alimentos / Victor Gustavo Kelis Cardoso. – Campinas, SP : [s.n.], 2020.

CarOrientador: Ronei Jesus Poppi.

CarDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Química.

Car1. Máquina de vetores de suporte. 2. Alimentos - Análise. 3. Espectroscopia Raman. 4. Espectroscopia de infravermelho. 5. Aprendizado de máquina. 6. Quimiometria. 7. Química analítica. I. Poppi, Ronei Jesus, 1961-. II.

Universidade Estadual de Campinas. Instituto de Química. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Support vector machines and vibrational spectroscopy for food authentication and classification

Palavras-chave em inglês: Support vector machines Food - Analysis Raman spectroscopy Infrared spectroscopy Machine learning Chemometrics Chemistry, Analytic

Área de concentração: Química Analítica

Titulação: Mestre em Química na área de Química Analítica Banca examinadora:

Ronei Jesus Poppi [Orientador] Marcia Cristina Breitkreitz Paulo Roberto Filgueiras Data de defesa: 19-02-2020

Programa de Pós-Graduação: Química

Identificação e informações acadêmicas do(a) aluno(a)

- ORCID do autor: https://orcid.org/0000-0002-7894-9748 - Currículo Lattes do autor: http://lattes.cnpq.br/5078758912168511

(4)

Prof. Dr. Ronei Jesus Poppi (Orientador)

Profa. Dra. Marcia Cristina Breitkreitz (Unicamp) Prof. Dr. Paulo Roberto Filgueiras (UFES)

A Ata da defesa assinada pelos membros da Comissão Examinadora consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa de Unidade.

Este exemplar corresponde à redação final da Dissertação de Mestrado defendida pelo aluno Victor Gustavo Kelis Cardoso, aprovada pela Comissão Julgadora em 19 de fevereiro de 2020.

(5)
(6)

Primeiramente, gostaria de agradecer à minha família, que sempre esteve comigo. Ao meu pai Emenegildo, à minha mãe Cláudia e à minha irmã Bruna. Não tenho palavras para dizer o quão grato sou por todo o incentivo, suporte e compreensão que tiveram comigo ao longo desses anos. Aos demais membros da minha família, que sempre me apoiaram e acreditaram no meu potencial.

Ao meu orientador Prof. Dr. Ronei Jesus Poppi, pela acolhida em seu grupo de pesquisa, por todo o suporte, pela confiança depositada e pelos conhecimentos transmitidos.

Aos amigos do Laboratório de Quimiometria em Química Analítica (LAQQA) Dra. Aline Guadalupe, Me. Carlos Rios, Me. Carlos Teixeira (Bezerro), Me. Caroline Ravazzi, Dr. Felipe Bachion, Dra. Hery Mitsutake, Humberto Machado, Dr. Javier Lobatón, Karen Slis, Luana Aoki, Ma. Marina Neves (Maminha), Rassius Lima, Sandro Otani, Me. Victor Hugo Ferreira e Dr. Willian Dantas (Doce), pelos momentos de aprendizado, colaboração e descontração proporcionados.

Àqueles amigos de Campinas que são a minha família em São Paulo e tenho certeza que vou levar para sempre, Ma. Camilla Maia, Dra. Elisa Ferreira, Me. Eupídio Scopel, Ma. Larissa Caminhas, Me. Murilo Izidoro (PT) e Thiago Azevedo.

Aos amigos que fiz em Campinas, pois estes dois últimos anos seriam mais difíceis sem vocês, especialmente Ana Clara Fernandes, Me. Arthur Hermano, Ma. Brenda Costa, Charbel Fontes, Dra. Géssica Silveira, Ma. Glenda Santos, Me. Guilherme Costa (Sumido), Me. Igor Miranda (Cajú), Ma. Jéssyca Medeiros, Jordy Larco, Me. Lucas Neumann, Luís Meira, Mariana Monteiro (Off), Me. Patrick Conti, Me. Reverson Quero, Me. Robson Tramontina, Sarah Dourado e Taciano Santos.

Aos meus amigos da Universidade Federal do Espírito Santo (UFES), que estão comigo na Unicamp, trocando ajudas e vivências, especialmente Alan Amaral, João Vitor Soares, Me. Laiza Bruzadelle, Samara Banhos e Me. Vinicius Piccoli. Aos que seguiram outros caminhos, mas mantiveram contato e sempre torcendo pelo sucesso, Cristiano Nascimento, Gabriel Ferreira, Ma. Gabriely Folli, Júlia Perry, Layla Santos, Letícia Camilato, Luisa Coser, Mara Trarbach, Ma. Mayara Silva, Me. Natã Madeira, Stepherson Renner, Taynara Campos e Vitor Moreira. Aos amigos de Vitória e que carrego sempre no meu coração, Arthur Morellato, Márcio Oliveira Júnior e Me. Mizael Andrade.

(7)

(Keu), Eloisa Baldo, Gabriel Ramos, Heloisa Lima (Ramona), Isaac Silva, Joellyson Borba, Juliana Lobo, Luan Guedes, Luiz Macêdo (Luizinho), Paola Oliveira, Rafael Gondim, Me. Ruan Henriques, entre diversos outros que marcaram a minha vida.

Aos queridos amigos da República Floresta, pelos momentos de convivência, descontração e lazer, especialmente Alan Caballero, Augusto Duarte, Breno Cecchi, Danilo Guimarães, Felipe Santos (Cabelo), Gabriel Destro, Leonardo Schimidt, Me. Jaime Landazuri (Jaume), João Vitor Zeviani (Xusp) e Me. Vinicius Almeida (Gaúcho).

Ao Programa de Estágio à Docência pelo aprendizado adquirido nos dois semestres dos quais pude participar na turma de QA 213 nos semestres 2019/1 e 2019/2. Agradeço aos docentes Profa. Dra. Ana Valéria Colnaghi Simionato, Prof. Dra. Cassiana Carolina Montagner e Prof. Dr. Lauro Tatsuo Kubota, que lecionaram as disciplinas e supervisionaram o meu trabalho. À Ma. Bianca Goulart, pela amizade e trabalho desenvolvido em conjunto. Aos técnicos Dr. Eraldo Lehmann e Stephania Slis preparo do material para os experimentos. Finalmente, à toda equipe envolvida nos trabalhos realizados.

Aos professores Prof. Dr. Leandro Wang Hantao, que participou da banca do exame de qualificação, Prof. Dr. Paulo Roberto Filgueiras, que participou da banca de defesa e Profa. Dra. Márcia Cristina Breitkreitz, que participou das duas bancas, por toda a discussão e ideias que me ajudaram no meu crescimento científico.

Aos docentes e funcionários da Unicamp e do IQ que contribuíram de forma direta e indireta na realização destes trabalhos.

À Universidade Estadual de Campinas (Unicamp) e ao Instituto de Química da Unicamp (IQ) pela infraestrutura e apoio oferecido.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001.

Finalmente, agradeço a todos que marcaram a minha vida de alguma forma e que torceram por mim.

(8)

done”

“Nós só podemos ver um pouco do futuro, mas o suficiente para perceber que há muito a fazer”

Alan Mathison Turing

Computing Machinery and Intelligence, 1950, p. 460.

(9)

Essa Dissertação de Mestrado possuiu como foco o tratamento de dados de análise de alimentos por espectroscopia vibracional utilizando máquina de vetores de suporte (SVM). Foram realizadas duas aplicações, sendo que na primeira foi proposto um método para identificar a presença de farinha de trigo, que contém glúten em sua constituição, em tapioca usando espectroscopia Raman e classe única por SVM (OC-SVM). O modelo de classe única por SVM pode discriminar as amostras com adulteração maior que 2% (m/m). Já o modelo SIMCA, a ferramenta mais aplicada para este tipo de análise, pode discriminar amostras com adulterações maiores que 5% (m/m) de farinha de trigo. Alguns outros adulterantes também foram avaliados para verificar a eficiência do modelo de classe única na identificação de substâncias desconhecidas, onde foram facilmente discriminados. A segunda aplicação visou propor um método não-invasivo para identificação de quatro blends comerciais de chá verde utilizando espectroscopia no infravermelho próximo (NIR), análise discriminante por SVM (SVM-DA) e otimização Bayesiana. As amostras foram analisadas por espectrômetros portátil e de bancada, analisando a erva dentro e fora do sachê e o sachê vazio. Foi observado que o sachê vazio não apresenta sinais que auxiliem na discriminação das classes, mas atua como interferente, especialmente para o equipamento portátil, devido às limitações instrumentais. Os modelos SVM-DA apresentaram 90 e 93% de exatidão na discriminação dos chás dentro e fora dos sachês, respectivamente. Já os modelos PLS-DA, a ferramenta mais aplicada para este tipo de análise, puderam discriminar os mesmos conjuntos com 87 e 83% de exatidão respectivamente. Portanto, foi constatado que a máquina de vetores de suporte possui uma excelente performance no tratamento de dados de análise de alimentos por espectroscopia vibracional, inclusive superando os algoritmos que são normalmente empregados em quimiometria.

(10)

ThisMaster’sDissertation focuses on data treatment of food analysis by vibrational spectroscopy using support vector machines (SVM). Two studies were performed. The first one aimed at developing a method to identify wheat flour content, which is a high-in-gluten food, in cassava starch by Raman spectroscopy and one-class SVM (OC-SVM). OC- SVM could discriminate adulterated samples with wheat flour content over 2% (w/w). On the other hand, SIMCA, the most applied tool in this type of analysis, could discriminate adulterated samples with wheat flour content over 5% (w/w). Other adulterants were also used to evaluate the one-class classifier performance in identifying non-target samples with unknown substances, which were easily identified. The second study aimed at proposing a non-invasive method to identify four commercial blends of green tea using near infrared (NIR) spectroscopy, SVM discriminant analysis (SVM-DA) and Bayesian optimization. Handheld and benchtop spectrometers were used to analyze green tea samples inside and outside teabag and empty teabag. Teabag did not provide bands that helped in class discrimination, but acted as interfering, especially in analyses performed in handheld instrument due to its instrumental limitations. SVM-DA provided 90 and 93% of accuracy in tea discrimination analyzed inside and outside teabags, respectively. PLS-DA, the most used tool in this type of analysis, could discriminate the classes of the same dataset with 87 and 83% of accuracy. Therefore, support vector machine may provide exceptional performances in data treatment of food analysis by vibrational spectroscopy, outperforming several algorithms largely used in chemometric analyses.

(11)

Figura 1–Diagrama de energia referente aos diferentes tipos de espalhamento. ... 34 Figura 2–Representação dos modelos de energia potencial dos osciladores (a) harmônico e (b) anarmônico de acordo com a distância interatômica da ligação. Adaptado de Pasquini, 2003.28...38

Figura 3–(a) Ilustração do problema de separação binária. (b) Diversos planos que podem separar as duas classes. (c) Classes separadas pelo hiperplano ótimo de separação. ... 46 Figura 4–(a) O hiperplano de separação ótima com a margem e os vetores de suporte. (b) Ilustração da função das variáveis de folga no modelo SVM. ... 47 Figura 5 – (a) Ilustração de um problema de classificação não separável linearmente no espaço original. (b) A projeção dos dados iniciais no espaço de características de alta dimensão. (c) A projeção do hiperplano de separação no espaço original...50 Figura 6 – (a) Ilustração de um problema de multiclasses não separável linearmente no espaço original. (b) A projeção dos dados iniciais no espaço de características de alta dimensão, onde a classe vermelha é separada das outras classes. (c) A projeção do hiperplano de separação no espaço original, onde é possível separar a classe vermelha. (d) A continuação processo para as classes azul e verde, onde é possível obter o modelo multiclasses. ...52 Figura 7–(a) Ilustração de um problema de classe única no espaço original. (b) A projeção dos dados iniciais no espaço de características de alta dimensão, onde a única classe é projetada na parte positiva dos eixos e a origem do centro de coordenadas (indicada pelo marcador vermelho) é definida como a única amostra da segunda classe. (c) A projeção do hiperplano de separação no espaço original, onde é possível separar a classe de interesse de todas as outras classes possíveis... 54 Figura 8 –Combinações de parâmetros pelo método de otimização de pesquisa em grade e seu mapa de calor de um exemplo...55 Figura 9– Estimativa dos valores da função f na otimização de parâmetros de um modelo SVM-DA para classificação de amostras de chá verde...57 Figura 10–Espectrômetro RamanStation™400 da PerkinElmer®, utilizado para realização

das análises. ...66 Figura 11–Espectrofotômetro TP-Reader da ThermoPlate®, utilizado para leitura das placas

(12)

Figura 13–Espectros Raman das amostras de tapioca pura e adulterada com farinha de trigo depois dos pré-processamentos. ... 69 Figura 14–PCA das amostras puras antes e depois da remoção dos outliers pela distância das amostras à origem dos eixos de scores da primeira e segunda PC. ...70 Figura 15 – Amostras de tapioca e os padrões de gliadina sob análise da quantificação de glúten pelo teste ELISA... 71 Figura 16–Espectros Raman das amostras comerciais de tapioca e farinha de trigo. ...72 Figura 17– Valores de RMSECV de acordo com o número de componentes principais no treinamento do modelo SIMCA dos espectros Raman de tapioca pura. ... 73 Figura 18–Valores da taxa de acerto das amostras adulteradas com farinha de trigo ao serem previstas no modelo SIMCA de acordo com as diferentes concentrações de adulteração...74 Figura 19 – Mapas de calor dos modelos OC-SVM de acordo com cada combinação de parâmetros ν e γ para (a) o conjunto de treinamento e (b) conjunto de validação...76 Figura 20–Valores da taxa de acerto das amostras adulteradas com farinha de trigo ao serem previstas no modelo OC-SVM de acordo com as diferentes concentrações de adulteração.77 Figura 21 – Espectrômetros de infravermelho próximo (a) de bancada e (b) portátil que foram utilizados nas análises do chá verde...84 Figura 22–Espectros NIR das amostras comerciais do chá verde tradicional, comparando os três modos de análise usando o espectrômetro (a) de bancada e o (b) portátil. ...88 Figura 23– Espectros NIR de amostras comerciais das quatro classes analisadas usando o espectrômetro (a) de bancada e o (b) portátil. ... 89 Figura 24–Valores de exatidão para os conjuntos de validação e o número de LV escolhidas para os modelos PLS-DA analisando a erva dentro e fora do sache e o sachê vazio, comparando os resultados dos equipamentos de bancada e portátil...91 Figura 25 – Valores de exatidão para os conjuntos de validação dos modelos SVM-DA analisando a erva dentro e fora do sache e o sachê vazio, comparando os resultados dos equipamentos de bancada e portátil...93 Figura 26–Espectros NIR da erva de uma amostra de chá verde tradicional analisada nos espectrômetros de bancada e portátil...96 Figura 27 – Representações esquemáticas dos processos dos testes (a) ELISA direto, (b) ELISA indireto e (c) ELISA sanduíche. Adaptado de Jiménez-Martínez e colaboradores, 2017.147...122

(13)

Figura 29 – Espectros NIR das amostras de chá verde analisadas fora do sachê no equipamento portátil (a) antes e (b) depois do pré-processamento. ...128 Figura 30 – Espectros NIR das amostras de chá verde analisadas dentro do sachê no equipamento de bancada (a) antes e (b) depois do pré-processamento...129 Figura 31 – Espectros NIR das amostras de chá verde analisadas dentro do sachê no equipamento portátil (a) antes e (b) depois do pré-processamento. ...130 Figura 32 –Espectros NIR dos sachês obtidos no equipamento de bancada (a) antes e (b) depois do pré-processamento...131 Figura 33–Espectros NIR dos sachês obtidos no equipamento portátil (a) antes e (b) depois do pré-processamento. ...132 Figura 34– Valores de erro médio de classificação de treinamento e validação cruzada de acordo com o número de variáveis latentes no treinamento do modelo PLS-DA dos espectros do chá verde fora do sachê obtidos no equipamento de bancada. ...134 Figura 35– Valores de erro médio de classificação de treinamento e validação cruzada de acordo com o número de variáveis latentes no treinamento do modelo PLS-DA dos espectros do chá verde fora do sachê obtidos no equipamento portátil. ...134 Figura 36– Valores de erro médio de classificação de treinamento e validação cruzada de acordo com o número de variáveis latentes no treinamento do modelo PLS-DA dos espectros do chá verde dentro do sachê obtidos no equipamento de bancada. ...135 Figura 37– Valores de erro médio de classificação de treinamento e validação cruzada de acordo com o número de variáveis latentes no treinamento do modelo PLS-DA dos espectros do chá verde dentro do sachê obtidos no equipamento portátil...135 Figura 38– Valores de erro médio de classificação de treinamento e validação cruzada de acordo com o número de variáveis latentes no treinamento do modelo PLS-DA dos espectros do sachê vazio obtidos no equipamento de bancada. ...136 Figura 39– Valores de erro médio de classificação de treinamento e validação cruzada de acordo com o número de variáveis latentes no treinamento do modelo PLS-DA dos espectros do sachê vazio obtidos no equipamento portátil...136 Figura 40–Histograma da frequência dos valores de exatidão na previsão dos conjuntos de validação por cada um dos 50 modelos SVM-DA treinados ao analisar o chá fora do sachê pelo equipamento de bancada. A escala de exatidão varia entre 80 e 90%...144

(14)

pelo equipamento portátil. A escala de exatidão varia entre 76 e 94%. ...144 Figura 42–Histograma da frequência dos valores de exatidão na previsão dos conjuntos de validação por cada um dos 50 modelos SVM-DA treinados ao analisar o chá dentro do sachê pelo equipamento de bancada. A escala de exatidão varia entre 84 e 94%...145 Figura 43–Histograma da frequência dos valores de exatidão na previsão dos conjuntos de validação por cada um dos 50 modelos SVM-DA treinados ao analisar o chá dentro do sachê pelo equipamento portátil. A escala de exatidão varia entre 64 e 82%. ...145 Figura 44–Histograma da frequência dos valores de exatidão na previsão dos conjuntos de validação por cada um dos 50 modelos SVM-DA treinados ao analisar o sachê vazio pelo equipamento de bancada. A escala de exatidão varia entre 40 e 48%...146 Figura 45–Histograma da frequência dos valores de exatidão na previsão dos conjuntos de validação por cada um dos 50 modelos SVM-DA treinados ao analisar o sachê vazio pelo equipamento portátil. A escala de exatidão varia entre 26 e 46%. ...146

(15)

Tabela 1 – Faixas de comprimento de onda, número de onda e frequência das diferentes regiões do infravermelho. ...37 Tabela 2–Tabela de confusão e figuras de mérito do modelo SIMCA na análise das amostras de tapioca...74 Tabela 3 – Tabela de confusão e figuras de mérito do modelo OC-SVM na análise das amostras de tapioca...77 Tabela 4 – Valores da variância explicada nos blocos e de acordo com o número de variáveis latentes escolhido para todos os conjuntos de dados avaliados. ... 90 Tabela 5–Tabela de confusão do modelo PLS-DA para classificação das quatro classes de amostras de chá verde analisadas dentro do sachê pelo equipamento de bancada... 92 Tabela 6–Tabela de confusão do modelo SVM-DA para classificação das quatro classes de amostras de chá verde analisadas dentro do sachê pelo equipamento de bancada...94 Tabela 7 – p-valores obtidos pelo teste de McNemar na comparação dos resultados de previsão pelos modelos SVM-DA dos dados conjuntos de validação na classificação dos chás verde adquiridos nos equipamentos portátil e de bancada. ...97 Tabela 8–Valores da exatidão média, máxima, mínima e o desvio padrão na previsão dos 50 modelos SVM-DA treinados para os conjuntos de dados estudados. ... 98 Tabela 9 – Parâmetros de treinamento dos modelos SVM-DA que foram escolhidos pela otimização Bayesiana e o número de vetores de suporte de cada modelo. ...100 Tabela 10– Tabela de confusão 2 × 2, no qual são apresentados os dados para o teste de McNemar. ...124 Tabela 11–Tabela de confusão do modelo PLS-DA para classificação das quatro classes de amostras de chá verde analisadas fora do sachê pelo equipamento de bancada...138 Tabela 12–Tabela de confusão do modelo PLS-DA para classificação das quatro classes de amostras de chá verde analisadas fora do sachê pelo equipamento portátil. ...138 Tabela 13–Tabela de confusão do modelo PLS-DA para classificação das quatro classes de amostras de chá verde analisadas dentro do sachê pelo equipamento portátil. ...139 Tabela 14–Tabela de confusão do modelo PLS-DA das quatro classes de sachês analisados pelo equipamento de bancada...139 Tabela 15–Tabela de confusão do modelo PLS-DA das quatro classes de sachês analisados pelo equipamento portátil. ...139

(16)

Tabela 17–Tabela de confusão do modelo SVM-DA para classificação das quatro classes de amostras de chá verde analisadas fora do sachê pelo equipamento portátil. ...141 Tabela 18–Tabela de confusão do modelo SVM-DA para classificação das quatro classes de amostras de chá verde analisadas dentro do sachê pelo equipamento portátil. ...142 Tabela 19 – Tabela de confusão do modelo SVM-DA dos sachês analisados pelo equipamento de bancada...142 Tabela 20 – Tabela de confusão do modelo SVM-DA dos sachês analisados pelo equipamento portátil. ...142

(17)

Abreviatura/Sigla Português Inglês ALS Mínimos quadrados assimétricos Asymmetric least squares Anvisa Agência Nacional de Vigilância

Sanitária

Brazilian Health Regulatory Agency

AOAC – Association of Official Analytical

Chemists

BO Otimização Bayesiana Bayesian optimization CCD Dispositivo de carga acoplada Charge coupled device EFSA Autoridade Europeia para a

Segurança Alimentar

European Food Safety Authority

ELISA Ensaio de imunoabsorção enzimática

Enzyme-linked immunosorbent assay

EMC Erro médio de classificação

-FDA Administração Federal de Alimentos e Medicamentos

Food and Drug Administration

FIR Espectroscopia no infravermelho distante

Far infrared spectroscopy

ICS Sociedade Internacional de Quimiometria

International Chemometric Society

IUPAC União Internacional de Química Pura e Aplicada

International Union of Pure and Applied Chemistry

LDA Análise discriminante linear Linear discriminant analysis

LV Variável latente Latent variable

KKT Condições Karush-Kuhn-Tucker Karush-Kuhn-Tucker conditions MCR-ALS

Resolução multivariada de curvas por mínimos quadrados alternantes

Multivariate curve resolution using alternating least squares

MIR Espectroscopia no infravermelho médio

Mid infrared spectroscopy ML Aprendizado de máquina Machine learning

(18)

OCC Classificadores de classe única One-class classifiers OC-PLS Classe única por mínimos

quadrados parciais

One-class partial least squares

OC-SVM Classe única por máquina de vetores de suporte

One-class support vector machines

OSH Hiperplano ótimo de separação Optimal separation hyperplane

OVO Um contra um One-versus-one

OVA Um contra todos One-versus-all

PC Componente principal Principal component PCA Análise de componentes

principais

Principal component analysis PCR Reação em cadeia da polimerase Polymerase chain reaction

PC1 Primeira componente principal First principal component PC2 Segunda componente principal Second principal component PLS Mínimos quadrados parciais Partial least squares

PLS-DA Análise discriminante por mínimos quadrados parciais

Partial least square discriminant analysis

RBF Função de base radial Radial basis function RMSE Raiz quadrada dos erros médios Root mean square error RMSEC Raiz quadrada dos erros médios

de calibração/treinamento

Root mean square error of calibration

RMSECV Raiz quadrada dos erros médios de validação cruzada

Root mean square error of cross validation

SIMCA Modelagem independente e flexível por analogia de classe

Soft independent modeling of class analogy

SVDD Descrição de dados por vetores de suporte

Support vector data description SVM Máquinas de vetores de suporte Support vector machines SVM-DA Análise discriminante por

máquinas de vetores de suporte

Support vector machine discriminant analysis

(19)
(20)

Primeiro Capítulo: Introdução ...23

Segundo Capítulo: Objetivos ... 26

2.1. Objetivos gerais ... 27

2.2. Objetivos específicos...27

Terceiro Capítulo: Fundamentos teóricos ... 29

3.1. Ciência dos alimentos...30

3.2. Espectroscopia vibracional ... 33 3.2.1. Espectroscopia Raman... 34 3.2.2. Espectroscopia no Infravermelho ... 37 3.3. Quimiometria...40 3.3.1. Métodos Quimiométricos ...42 3.3.1.1. PCA ...42 3.3.1.2. SIMCA...43 3.3.1.3. PLS-DA ...44

3.3.1.4. Métodos de classificação por classe única...45

3.3.2. Máquinas de vetores de suporte...46

3.3.2.1. Aplicações da máquina de vetores de suporte ...52

3.3.2.1.1. Análise discriminante por máquinas de vetores de suporte ...52

3.3.2.1.2. Classe única por máquina de vetores de suporte ... 54

3.3.2.2. Métodos de otimização para máquinas de vetores de suporte...55

3.3.2.2.1. Pesquisa em grade ... 55

3.3.2.2.2. Otimização Bayesiana ... 56

Quarto Capítulo: Detecção de adulteração em tapioca usando espectroscopia Raman e classe única por máquina de vetores de suporte ... 59

4.1.Introdução e motivação ...60

(21)

4.2.1.2. Teste ELISA ... 65

4.2.2. Preparação das amostras ...65

4.2.3. Instrumentação... 66

4.2.3.1. Espectroscopia Raman...66

4.2.3.2. Leitor do teste ELISA...67

4.2.4. Processamento de dados ...67

4.2.4.1. Configurações de hardware e software...67

4.2.4.2. Modelagem dos dados ...68

4.3. Resultados e discussão...71

4.3.1. Conteúdo de glúten pelo teste ELISA...71

4.3.2. Espectros Raman...72

4.3.3. Classe única por SIMCA ...73

4.3.4. Classe única por SVM ...76

4.4. Conclusões parciais ...79

Quinto Capítulo: Análise não-invasiva na identificação de diferentes blends comerciais de chá verde usando espectroscopia no infravermelho próximo, análise discriminante por máquinas de vetores de suporte e otimização Bayesiana ... 80

5.1. Introdução e motivação ...81

5.2. Metodologia...84

5.2.1. Amostras de chá verde...84

5.2.2. Instrumentação...84

5.2.3. Processamento de dados ...85

5.2.3.1. Configurações de hardware e software ...85

5.2.3.2. Modelagem de dados ...85

5.3. Resultados e discussão...87

(22)

5.3.4. Comparação dos espectrômetros ...96 5.3.5. Avaliação da otimização Bayesiana ...98 5.4. Conclusões parciais ...101 Sexto Capítulo: Conclusões e perspectivas futuras ... 102 Sétimo Capítulo: Referências bibliográficas ... 104 Apêndice 1–Teste ELISA ... 120 Apêndice 2–Teste de McNemar ... 123 Anexo 1 ... 126 Anexo 2 ... 133 Anexo 3 ... 137 Anexo 4 ... 140 Anexo 5 ... 143

(23)
(24)

1. Introdução

Nos últimos 50 anos, os avanços tecnológicos modificaram completamente toda a relação entre o homem e o meio, tornando possível o desenvolvimento de computadores cada vez mais potentes e compactos e a sua aplicação no cotidiano. Este avanço tecnológico impactou diversas áreas da sociedade, inclusive a química.1

Durante muito tempo, as análises químicas utilizaram métodos de via úmida, utilizando diversos reagentes, demandando um elevado tempo de análise, entre outros problemas. Ao longo dos anos foi possível desenvolver a instrumentação analítica, onde foram obtidos equipamentos mais precisos, compactos, rápidos, de maior resolução e de menor custo.2 Os equipamentos com tecnologia de ponta só se tornaram usuais com a

popularização de computadores com capacidade para tratamento da grande quantidade de dados gerados nessas análises. Dessa forma, os computadores entraram nos laboratórios químicos como instrumentos indispensáveis para o trabalho.1,2

A tecnologia afetou diretamente a sociedade, pois o padrão de consumo ficou mais exigente, demandando uma grande quantidade de produtos de altíssima qualidade. Dessa forma, todo o processo industrial também sofreu mudanças drásticas no processo de manufatura para acompanhar toda a exigência do mercado.3 Esse fenômeno é chamado de

Quarta Revolução Industrial ou Indústria 4.0, que visa automatizar e otimizar processos, a fim de aumentar a produtividade e reduzir os custos.3–5Além disso, os processos podem ser

monitorados em tempo real através de sensores, gerando grandes bancos de dados, o que permite tomadas de decisões em grande escala e de forma integrada.3

A todo momento, uma grande quantidade de dados é gerada, seja por análises químicas, por sensores em processos industriais ou por quaisquer outras fontes. Diante disso, um tratamento de dados adequado é essencial para a extração de informações de interesse. A partir dos anos 70, diversas ferramentas de estatística multivariada foram aplicadas na análise dados de química analítica.2No entanto, com o crescimento dos conjuntos de dados e da sua

complexidade, algumas dessas ferramentas não apresentam uma capacidade de modelagem satisfatória em algumas situações, fazendo com que novas estratégias fossem necessárias. Dessa forma, tem surgido uma série de ferramentas para tratamento de dados que não são baseados estritamente na estatística, que são os métodos de aprendizado de máquina (ML – do inglês machine learning), permitindo a modelagem de sistemas não-lineares, de alta complexidade ou com conjuntos de dados muito heterogêneos.6

(25)

Assim sendo, diversos métodos de aprendizado de máquina vêm surgindo e sendo implementados em diversos campos da ciência como a ciência de computação, engenharia, medicina, inclusive na química. Entre as mais diversas ferramentas, pode ser destacada a máquina de vetores de suporte (SVM – do inglês support vector machine), que é uma excelente alternativa aos métodos baseados na estatística e vem mostrando resultados significativos em análise multivariada.6

Diante disso, a pesquisa desenvolvida e apresentada nesta Dissertação de Mestrado visou aplicar o SVM a dados de espectroscopia vibracional para resolução de problemas em química analítica, especificamente na análise de alimentos. Esta Dissertação de Mestrado está organizada em capítulos, de modo que neste primeiro capítulo foi apresentada uma introdução sobre o desenvolvimento tecnológico, o impacto que isso tem causado na sociedade e o atual desafio, que é o tratamento de dados. No capítulo 2 são apresentados os objetivos gerais e específicos de cada aplicação da pesquisa desenvolvida.

O capítulo 3 é dividido em três partes e são apresentados os fundamentos teóricos acerca da pesquisa realizada. Na seção 3.1 é apresentada uma discussão sobre a ciência dos alimentos e algumas de suas atuações e atuais desafios. Na seção 3.2 são apresentados os aspectos teóricos da espectroscopia vibracional e das espectroscopias Raman e no infravermelho. A seção 3.3 aborda a quimiometria, desde os aspectos históricos até a atualidade. Dentro dessa seção existe a subseção 3.3.1 onde são apresentados os métodos quimiométricos mais utilizados até hoje e a subseção 3.3.2 que apresenta os aspectos teóricos do SVM, além de apresentar algumas variações do método e algumas técnicas de otimização de modelos.

No capítulo 4 é apresentada a primeira aplicação, onde foi desenvolvida uma metodologia de análise adulteração ou contaminação por farinha de trigo, que contém glúten na sua constituição, em tapioca, utilizando espectroscopia Raman e classe única por SVM.

No capítulo 5 é apresentada a segunda aplicação, onde foi desenvolvida uma metodologia para discriminação de diferentes blends de chá verde sem removê-los de dentro do sachê. Para isso, foi utilizada a espectroscopia no infravermelho próximo e análise discriminante por SVM, que foi treinado utilizando otimização Bayesiana.

No capítulo 6 são apresentadas as conclusões gerais da pesquisa desenvolvida e as perspectivas futuras. Finalmente, no capítulo 7 estão as referências bibliográficas da literatura utilizada no desenvolvimento da pesquisa e da escrita desta Dissertação de Mestrado.

(26)
(27)

2. Objetivos

2.1.Objetivos gerais

O objetivo geral desta Dissertação de Mestrado é desenvolver metodologias de análise de alimentos utilizando espectroscopia vibracional e ferramentas de aprendizado de máquina, especificamente máquinas de vetores de suporte.

2.2.Objetivos específicos

A primeira aplicação, que está descrita no capítulo 4, teve os seguintes tópicos como objetivos específicos:

● Desenvolver um método para identificação de glúten em alimentos livres de glúten, especificamente a tapioca;

● Aplicar espectroscopia Raman na análise de tapioca para identificação de glúten; ● Utilizar o método de classe única por máquinas de vetores de suporte (OC-SVM) no tratamento de dados de espectroscopia Raman para identificação de adulteração em tapioca;

● Comparar o OC-SVM com o método de análise multivariada mais empregado neste tipo de análise, especificamente o método de modelagem independente e flexível por analogia de classe (SIMCA).

A segunda aplicação, que está descrita no capítulo 5, teve os seguintes tópicos como objetivos específicos:

● Desenvolver um método não-invasivo para análise de chá verde comercial, permitindo a identificação do tipo de chá sem remoção de dentro do sachê; ● Identificar a influência do sachê na análise do chá verde ensacado;

● Aplicar espectroscopia no infravermelho próximo (NIR) na identificação de diferentes tipos de chá verde;

● Comparar a performance das análises realizadas por espectrômetros de bancada e portátil;

(28)

● Utilizar a análise discriminante por máquinas de vetores de suporte (SVM-DA) no tratamento de dados de espectroscopia NIR para a classificação de diferentes blends de chá verde;

● Aplicar otimização Bayesiana na seleção de parâmetros dos modelos SVM-DA; ● Comparar o SVM-DA com o método de análise multivariada mais empregado

neste tipo de análise, especificamente o método de análise discriminante por mínimos quadrados parciais (PLS-DA).

(29)
(30)

3. Fundamentos teóricos

3.1.Ciência dos alimentos

A alimentação é a base da sobrevivência para qualquer animal, uma vez que é a fonte energética para todos os organismos vivos. A Declaração Universal dos Direitos Humanos define que todos os humanos têm o direito de viver adequadamente com alimentação, vestimenta, abrigo, serviços médicos e sociais.7 Além disso, sabe-se do papel que

alimentação teve na evolução humana, uma vez que o hominídeos tinham uma dieta rica em frutas e, devido a mudanças climáticas que causaram secas, começaram a caçar animais e consumir raízes e tubérculos.8 Essa disponibilidade de novos alimentos possibilitou o

aumento considerável no consumo de proteínas, gorduras e minerais. Simultaneamente, o tamanho do cérebro quase dobrou de tamanho, devido a disponibilidade energética.8,9

Diante do crescimento populacional no último século, surgiu a necessidade de um aumento da produção de alimentos. Dessa forma, a ciência dos alimentos nasceu com o objetivo de otimizar a produção de alimentos, cultivando uma maior quantidade de produtos em um mesmo espaço e desenvolvendo técnicas para retardar a perecibilidade.10 Com o

passar do tempo, a ciência dos alimentos começou a se preocupar com o desenvolvimento de novos tipos de produtos atrativos, apetitosos e com alto valor nutricional, como o desenvolvimento de macarrões instantâneos, de refrescos em pó e de bolos com um tempo de prateleira prolongado, por exemplo.10Atualmente, a ciência dos alimentos abrange todo

o processo alimentar como o cultivo e seleção da matéria prima, o preparo, o processamento, o controle do processo, o empacotamento, a preservação, a distribuição, a utilização e a satisfação do consumidor.10,11

A grande disponibilidade de alimentos tornou o mercado ainda mais rigoroso, requerendo produtos de alta qualidade e de alto valor nutricional. Aliado a isso, existe a preocupação com a segurança alimentar, onde deve ser observada a presença de substâncias e micro-organismos nocivos à saúde.12 Diante de tudo isso, surge o controle de qualidade

com o objetivo de assegurar a qualidade e a segurança dos alimentos produzidos.13Diversas

organizações promovem a regulamentação de produtos alimentares, como a Agência Nacional de Vigilância Sanitária (Anvisa), que atua no Brasil, Administração Federal de Alimentos e Medicamentos (FDA –do inglês Food and Drug Administration), que atua nos Estados Unidos e a Autoridade Europeia para a Segurança Alimentar (EFSA – do inglês

(31)

European Food Safety Authority), que atua na União Europeia. Essas agências definem parâmetros que devem ser observados pela indústria, onde diversas vezes a realização de análises químicas é imprescindível para o controle de qualidade.13

Uma das formas mais comuns do controle de qualidade é através da quantificação de parâmetros em alimentos, uma vez que os rótulos de qualquer alimento devem trazer informações nutricionais sobre os mesmos, apresentando teores de açúcares, gorduras e proteínas, por exemplo.14 Além dos parâmetros nutricionais, alguns outros teores são de

grande interesse da indústria e dos consumidores, como a quantidade de álcool na cerveja e de cacau no chocolate, por exemplo.

Nos últimos anos vem ocorrendo uma grande mudança no padrão de consumo alimentar, com a ascensão de produtos sem ingredientes de origem animal, livres de algum alergênico específico e livres de açúcar, por exemplo.13Devido a essas mudanças do padrão

de consumo, análises qualitativas vêm apresentando grande potencial na resolução de problemas na análise de alimentos. Entre as análises qualitativas de maior interesse na ciência dos alimentos destaca-se a classificação e a autenticação.

A classificação de alimentos é de grande interesse para a indústria, uma vez que é possível diferenciar algumas variedades diferentes do mesmo produto em questão de segundos. Exemplos disso é a pesquisa desenvolvida por Jeffery e seus colaboradores para a discriminação de uvas Chardonnay de seis diferentes vinícolas do sul da Austrália15, ou por

Zhu e Tan que visou discriminar cogumelos cultivados e selvagens16, ou por Kan e

colaboradores que visou identificar óleos de camélia provenientes de flores transgênicas e não transgênicas17. Este tipo de trabalho é de grande interesse da indústria, uma vez que a

qualidade do produto está diretamente relacionada com a qualidade da matéria prima, neste caso da uva, dos cogumelos e das flores de camélia. Além disso, a classificação por origem geográfica vem sendo muito aplicado na análise de alimentos, como é o caso da pesquisa desenvolvida por Fernandes, Almeida e colaboradores para a classificar diferentes vinhos portugueses de diferentes regiões com indicação geográfica protegida.18 Através de todos

esses exemplos, pode ser observado que os problemas de classificação em alimentos são muito recorrentes e possuem grande campo de aplicação.

A autenticação de alimentos é um outro problema muito recorrente na ciência dos alimentos e suas aplicações vêm sendo muito exploradas ao longo dos últimos anos. O principal papel desse tipo de análise é a identificação de fraudes, adulteração, contaminação e problemas relacionados em alimentos.19,20As estratégias para identificar contaminação em

(32)

avaliam se o produto está dentro dos padrões de consumo. A principal diferença entre adulteração e contaminação é a intenção, onde a primeira é intencional e a segunda é acidental. Além disso, a contaminação é constantemente associada a baixas concentrações e a substâncias que podem causar danos à saúde. Por sua vez, a adulteração está associada ao ganho econômico do produtor, com a intenção de aumentar o rendimento do produto através de aditivos de menor valor econômico.

Os problemas de adulteração e contaminação recebem um grande apelo da mídia e não apenas da comunidade acadêmica e industrial, como frequentemente diversas notícias vêm sendo publicadas nos meios de comunicação. No campo de adulteração, um dos casos mais famosos no Brasil é a operação “Carne Fraca”, organizada pela Polícia Federal. Essa operação visou combater a venda ilegal de carnes, autuando frigoríficos que vendiam produtos vencidos e adulterados, seja por produtos químicos para alterar o aspecto físico, seja por inserir de papelão em lotes de frango e carne de cabeça de porco em linguiças.21

Recentemente, o Ministério da Agricultura proibiu a comercialização de mais de 30 marcas de azeite por conter adulteração com óleo de soja e outros óleos de origem desconhecida.22

Um outro exemplo é de uma fábrica clandestina de bebidas que foi fechada pela polícia no interior de São Paulo. Essa fábrica alterava o rótulo de bebidas baratas para rótulos de bebidas caras.23 Já no campo de contaminação, existem diversos casos na mídia. Um exemplo é a

contaminação por metais tóxicos em chocolates e bactérias infecciosas em água mineral e em queijos. Esses produtos foram recolhidos dos mercados pela Anvisa em 2018.24 Além

desses exemplos, existem uma diversidade desses problemas e, provavelmente, muitos ainda desconhecidos pelas autoridades.

(33)

3.2.Espectroscopia vibracional

A espectroscopia estuda a interação da radiação eletromagnética com a matéria, que pode ocorrer através da absorção, transmissão ou espalhamento. Essas interações são observadas através de transições de níveis energéticos, que podem ser do tipo eletrônico, vibracional ou rotacional, onde cada uma delas é observada em uma região diferente do espectro eletromagnético. As transições eletrônicas são observadas na região do ultravioleta e do visível, as transições vibracionais são observadas na região do infravermelho e as transições rotacionais são observadas na região do infravermelho distante e das micro-ondas.25

Em problemas de química analítica, a espectroscopia está voltada para obtenção de informações sobre uma amostra ou um grupo de amostras que podem ter características similares para determinação de informações qualitativas e quantitativas.26

A interação da radiação eletromagnética na faixa do infravermelho com os núcleos dos átomos de uma ligação faz com que ocorram alterações das energias das vibrações. O modelo matemático que descreve o movimento vibracional pode ser simplificado através da equação do movimento do oscilador harmônico do tipo massa-mola, onde os núcleos atômicos são as massas e a ligação química é mola. Através da Lei de Hooke e da Segunda Lei de Newton, é obtida a equação da frequência de oscilação da partícula, dada pela Equação (1).25,27

1

2 √ (1)

onde é a frequência da vibração molecular (Hz ou s-1), é uma constante relacionada à

força da ligação e é a massa reduzida da molécula.

As técnicas mais comuns de espectroscopia vibracional são a espectroscopia Raman e a espectroscopia no infravermelho, que serão apresentadas nas seções 3.2.1 e 3.2.2, respectivamente.

(34)

3.2.1. Espectroscopia Raman

O efeito Raman foi descoberto em 1928 por Chandrashekhara Venkata Raman e baseia-se na medição do espalhamento inelástico da radiação monocromática por moléculas de uma amostra. Este efeito ocorre devido a variação do momento de dipolo induzido da ligação de uma molécula pelo campo elétrico da radiação incidente, ocorrendo apenas em ligações passíveis de polarização.25,26

A fonte de radiação monocromática geralmente possui um comprimento de onda longe da região de absorção para que a amostra estudada possa ser irradiada sem absorver a radiação. Dessa forma, as moléculas serão excitadas para um estado virtual de energia e reemitirão os fótons através do espalhamento, que pode ser elástico ou inelástico. O espalhamento elástico ocorre quando não existe variação entre a energia incidida e a espalhada. Esse espalhamento é o mais frequente nas moléculas, porém não apresenta sinal Raman. Em contrapartida, quando existe uma variação energética, esse espalhamento é definido como inelástico, como ilustrado pela Figura 1.26,27

O espalhamento inelástico pode ocorrer devido uma variação energética positiva ou negativa. Caso a variação seja negativa, a energia espalhada é menor que a energia incidida e é denominada espalhamento Stokes. O espalhamento anti-Stokes ocorre quando a variação é positiva, onde a molécula está inicialmente em um estado vibracional excitado, sofre excitação para o estado virtual e espalha a energia retornando para o estado fundamental. Devido à maior intensidade, apenas o espalhamento Stokes costuma ser utilizado nos equipamentos de espectroscopia Raman.25–27

(35)

A radiação eletromagnética possuiu campos elétrico e magnético, onde o campo elétrico pode ser descrito pela Equação (2).26

2 (2)

onde é o campo elétrico, é a amplitude da onda, é a frequência da radiação de excitação e é o tempo.

A interação da radiação com eletromagnética com a nuvem eletrônica das ligações de um analito gera um momento dipolo definido pela Equação (3).26

cos 2 (3)

onde é a polarizabilidade da ligação, que varia de acordo com a deformação da ligação em um campo elétrico.

A polarizabilidade da ligação varia de acordo com a distância dos núcleos dos átomos de uma ligação, conforme a Equação (4).26

(4)

onde é a polarizabilidade na posição de equilíbrio, é a separação internuclear e é a separação internuclear no equilíbrio.

A separação internuclear é uma oscilação harmônica que pode ser descrita pela Equação (5).26

á 2 (5)

onde á é a separação internuclear máxima e é a frequência da vibração. Ao substituir (5) em (4), pode ser obtida a Equação (6).26

á 2 (6)

Ao substituir (6) em (3), pode ser obtida a Equação (7), que descreve o momento de dipolo induzido.26

(36)

2 á 2 2 (7)

Ao utilizar uma identidade trigonométrica de produto de cossenos, pode ser obtida a Equação (8).26

2

2 á [2 ]

2 á [2 ]

(8)

A Equação (8) sintetiza o efeito Raman, uma vez que cada termo está relacionado a um tipo de espalhamento. O primeiro termo está relacionado ao espalhamento Rayleigh, com frequência , que é a frequência de excitação. O segundo termo está relacionado ao espalhamento Stokes, com frequência . Finalmente, o terceiro termo está relacionado ao espalhamento anti-Stokes, com frequência , pois a ligação já estava em um estado vibracional excitado.26

(37)

3.2.2. Espectroscopia no Infravermelho

A radiação infravermelha foi descoberta em 1800 por William Herschel e encontra-se entre o vermelho, na luz visível, e o micro-ondas. Essa radiação é dividida em três regiões: o infravermelho próximo (NIR– do inglês near infrared), infravermelho médio (MIR–do inglês mid infrared) e infravermelho distante (FIR – do inglês far infrared), onde os seus respectivos comprimentos de onda, números de onda e frequências encontram-se na Tabela 1.26

Tabela 1 – Faixas de comprimento de onda, número de onda e frequência das diferentes regiões do infravermelho.

Região Comprimento de onda (µm) Número de onda (cm-1) Frequências (Hz)

NIR 0,78a 2,5 12800a 4000 3,8.10 a 1,2.10

MIR 2,5a 50 4000a 200 1,2.10 a 6,0.10

FIR 50a 1000 200a 10 6,0.10 a 3,0.10

A absorção de radiação por uma molécula ocorre devido à variação periódica do momento de dipolo elétrico. Para que ocorra a absorção, a frequência da radiação absorvida deve ser a mesma da oscilação do momento dipolo, que se encontra na região do infravermelho. Dessa forma, apenas as moléculas com um dipolo elétrico permanente, ou seja, ligações polares, podem sofrer transições vibracionais pela radiação infravermelha.26,27

Considerando que a vibração é definida por um oscilador harmônico, a energia potencial ( ) da ligação é definida pela Equação (9) e apresentam uma curva de energia potencial ilustrada pela Figura 2 (a).25,27

(38)

Figura 2–Representação dos modelos de energia potencial dos osciladores (a) harmônico e (b) anarmônico de acordo com a distância interatômica da ligação. Adaptado de Pasquini, 2003.28

Sabe-se que a energia vibracional de uma molécula é quantizada, apresentando níveis discretos de energia vibracional, como indicado pela Equação (10).25,27

ℎ 1

2 (10)

onde é o número quântico vibracional 0, 1, 2, 3, ….

Dessa forma, substituindo (1) em (10), pode ser definida a energia vibracional como dado na Equação (11).25,27

1 2

2 √ (11)

Através das regras de seleção, apenas as transições vibracionais entre os níveis energéticos vizinhos são permitidas, onde ∆ ±1. A frequência dessas transições vibracionais está na região do infravermelho médio.26

(39)

Os osciladores harmônicos consideram apenas condições ideais, uma vez que a aproximação dos núcleos dos átomos gera uma intensa repulsão coulombiana que aumenta a energia e o seu afastamento também faz aumentar a energia de forma gradual até o rompimento da ligação, onde a energia torna-se constante. Além disso, átomos ligados com massas muito diferentes devem possuir uma oscilação não harmônica Dessa forma, a verdadeira curva de energia potencial se assemelha mais à Figura 2 (b) do que a Figura 2 (a).26

Devido a anarmonicidade do oscilador, os níveis energéticos apresentam um decréscimo nas diferenças de energia, que não era prevista variação no oscilador harmônico. Como as diferenças de energia tendem a diminuir de um nível para o outro, transições até então proibidas podem começar a ocorrer, como ∆ ±2, ±3, … . Essas transições são denominadas sobretons, que apresentam menor intensidade do que as transições permitidas e uma frequência cerca de duas ou três vezes maior do que da transição fundamental, permitindo a visualização das bandas na região do infravermelho próximo. Vale destacar que as ligações contendo hidrogênio (C–H, N–H, O–H e S–H) apresentam as maiores transições de sobretom.26 Também podem ocorrer combinações entre dois ou mais transições de

sobretom, que acabam aparecendo em regiões mais energéticas do infravermelho próximo. Os espectros NIR apresentam grande complexidade, dificultando a interpretação por si só, uma vez que essa região apresenta muitos sobretons e bandas de combinação. No entanto, estes espectros carregam uma rica informação de impressão digital, permitindo análises qualitativas e quantitativas utilizando ferramentas multivariadas, que serão apresentadas na seção 3.3.26

(40)

3.3.Quimiometria

As análises químicas, por muito tempo, eram realizadas por métodos de volumetria, gravimetria e outros métodos via úmida. O avanço da tecnologia permitiu que equipamentos fossem desenvolvidos para utilização em análises químicas, permitindo que espectrômetros e cromatógrafos fossem implementados para análises de rotina.1,2 A utilização de

equipamentos modernos gera um grande volume de dados químicos em questão de segundos, como um simples espectro NIR ou Raman, como os usados nesta dissertação, que pode conter milhares de variáveis. Neste sentido, surge uma grande necessidade para o tratamento e interpretação desse grande volume de dados, que é suprido pelo desenvolvimento computacional e por ferramentas de análise multivariada.2

A quimiometria foi definida pela União Internacional de Química Pura e Aplicada (IUPAC) em 1997 como a área que aplica estatística para análise de dados químicos (provenientes da química orgânica, analítica ou medicinal), planejamento de experimentos e simulações.29 Já a Sociedade Internacional de Quimiometria (ICS) utiliza a definição de

Massart e seus colaboradores, que em 1988 definiram quimiometria como a área que usa matemática, estatística e outros métodos de lógica formal para planejamento e seleção de procedimentos experimentais ótimos e para fornecer o máximo de informações químicas relevantes a partir da análise de dados químicos.30,31 Ao longo dos últimos anos, diversas

ferramentas multivariadas foram surgindo e, muitas vezes, acabaram perdendo os fundamentos estritamente estatísticos. Dessa forma, Richard Brereton afirmou em 2015 que não existe uma definição universal para o reconhecimento de padrões (um grupo de ferramentas multivariadas), sendo essa definição poderia variar ligeiramente de acordo com a área do conhecimento.32 Brereton afirmou também que o reconhecimento de padrões (e

consequentemente a quimiometria) possui uma forte relação com aprendizado de máquinas, mineração de dados e classificação de amostras.32Portanto, de acordo com diversos trabalhos

que vêm sendo publicados nos últimos anos, a quimiometria é o ramo da química que utiliza ferramentas multivariadas para o tratamento de dados químicos.

Diversas ferramentas multivariadas foram surgindo ao longo do século XX, mas apenas na década de 70 é que, de fato, surgiu o termo quimiometria, que foi proposto por Wold.33Ao longo dos anos, a quimiometria veio ganhando popularidade até chegar à presente

data. Nos últimos anos, tem aumentado o interesse em quimiometria na aplicação de métodos que não apresentam fundamentos estritamente estatísticos, como os métodos de aprendizado

(41)

de máquina. Esses métodos apresentam grande potencial devido a uma série de vantagens, como o poder de tratar dados heterogêneos, não lineares e de difícil generalização. Além disso, esses algoritmos podem ser aplicados na resolução de problemas em domínios complicados e capacidade de modelagem de uma grande quantidade de dados.

(42)

3.3.1. Métodos Quimiométricos

3.3.1.1. PCA

A análise de componentes principais (PCA – do inglês Principal Component Analysis) foi desenvolvida em 1901 por Karl Pearson e revisto por Hotelling na década de

30.34,35 A PCA é um método que permite a projeção de dados multivariados em um espaço

de dimensões menores, de forma que sejam extraídas as informações mais relevantes e sejam desconsideradas informações correlacionadas. Os novos eixos do sistema são denominados componentes principais (PC–do inglês Principal Component), que permitem a visualização das informações relevantes em uma quantidade reduzida de eixos.2Matematicamente, a PCA

realiza a decomposição de uma matriz de dados em um produto de duas matrizes denominadas scores ( ) e loadings ( ), que está somada a uma matriz de resíduos ( ), como indicado pela Equação (12).36

  (12)

A matriz de scores está relacionada às amostras, que indica a posição nas amostras no novo sistema de eixos das PC. Por sua vez, a matriz de loadings está relacionada às variáveis, mostrando o quanto cada variável contribui para uma PC. A primeira componente principal (PC1) é traçada de forma que descreva a maior variância no conjunto de dados, a segunda PC (PC2) é traçada de forma ortogonal à primeira, no sentido da maior variância não explicada pela PC1 e assim sucessivamente.2,36 Portanto, em muitas situações, poucas

componentes principais, como duas ou três, são o suficiente para descrever características relevantes para o conjunto de dados.2Os gráficos de scores e loadings devem ser analisados

(43)

3.3.1.2. SIMCA

O método de modelagem independente e flexível por analogia de classe (SIMCA – do inglês Soft Independent Modeling of Class Analogy) foi desenvolvido por Svante Wold na década de 70 para modelagem de classes.37Esse método é baseado na PCA, que deve ser

realizada para cada classe, escolhendo um número adequado de PC. Ao escolher duas PCs, por exemplo, as amostras estão projetadas em um plano. Com isso, é observada a matriz de resíduos  , que é utilizada para o cálculo de uma distância crítica baseada na distribuição F, permitindo a construção de caixas que delimitam a classe. Este processo deve ser realizado para cada classe de amostras estudadas.2

Uma amostra desconhecida é avaliada através da projeção das amostras no espaço das PCs e observada a distância crítica calculada. O processo deve ser repetido para todas as classes do modelo. Caso as classes não estejam bem separadas, bem definidas ou apresentem alta similaridade, algumas amostras podem pertencer a mais de uma classe. Também existe a possibilidade de que uma amostra não seja pertencente a nenhuma classe.2

(44)

3.3.1.3. PLS-DA

O método de análise discriminante por mínimos quadrados parciais (PLS-DA – do inglês partial least squares discriminant analysis) foi oficializado por Rayens e Barker em 2003, apesar de vários pesquisadores já terem implementado anteriormente.38Este método é

uma adaptação do algoritmo mínimos quadrados parciais (PLS – do inglês partial least squares) para análise discriminante.2

O algoritmo utilizado visa decompor as matrizes (espectros) e (classes), sendo através das Equações (13) e (14), onde e são scores, e são loadings e e são resíduos.39

(13)

(14) A matriz torna-se apenas um vetor quando existem apenas duas classes (para as quais são atribuídos os valores de 0e 1), onde é utilizado o algoritmo do PLS1-DA. Quando existem várias classes, pode ser utilizado o PLS2-DA, onde a matriz correlaciona-se com a matriz . O algoritmo PLS1-DA também pode ser utilizado para modelos multiclasses, mas o número de variáveis latentes deve ser escolhido para cada uma das classes modeladas. No PLS2-DA, o número de variáveis latentes (LV) é escolhido de forma global. Nesta dissertação o algoritmo utilizado foi o PLS2-DA e que deverá ser considerando sempre quando o PLS-DA for citado.39,40

Nos modelos PLS-DA, os valores de scores nas matrizes e são calculados de forma que seja o obtido o melhor modelo linear, obtendo a maior covariância entre os blocos

(45)

3.3.1.4. Métodos de classificação por classe única

O termo classificação por classe única (OCC – do inglês one-class classifiers) foi proposto por Tax em 2001 e seu principal objetivo é identificar se determinada amostra pertence ou não à classe alvo.41Para o treinamento de modelos de classe única, apenas uma

classe bem definida é necessária, uma vez que o principal objetivo é a distinção de uma classe específica frente a qualquer outra. Esse tipo de análise multivariada torna-se especialmente útil na aplicação em problemas de adulteração, contaminação, controle de qualidade e conformidade legislativa, onde apenas existe uma classe de interesse, permitindo inferir se a amostra analisada está dentro ou fora de padrões pré-estabelecidos.42,43

Os métodos de classe única surgiram como uma alterativa aos métodos de discriminação, como o PLS-DA, que apresentam certas limitações em problemas de autenticação e tornam-se inadequados.44,45 A principal limitação é que os métodos

discriminantes requerem duas classes e é impossível obter um conjunto amostral representativo contendo todos os possíveis tipos de fraude para compor as amostras da contraclasse, quando são avaliados os problemas de adulteração, por exemplo.45Uma outra

limitação dos métodos discriminantes é a impossibilidade de classificar uma amostra que não pertence às classes modeladas inicialmente, como um novo tipo de fraude, por exemplo.45

Dessa forma, os métodos de classe única permitem que seja possível modelar os dados de forma confiável e resolver esses problemas enfrentados pelos métodos discriminantes.44

Existem diversos métodos que podem ser aplicados na resolução de problemas de classe única, como o SIMCA, classe única por mínimos quadrados parciais (OC-PLS –do inglês one-class partial least squares), o método espaços de classes desiguais (UNEQ –do inglês unequal class spaces), entre outros.46Apesar de diversos métodos terem surgido nos

(46)

3.3.2. Máquinas de vetores de suporte

A máquina de vetores de suporte (SVM –do inglês support vector machine) é um método de aprendizado de máquina que foi proposto por Vapnik e colaboradores em 1992.47,48 O principal objetivo deste método é resolver problemas de classificação binária,

como ilustrado pela Figura 3 (a). Dessa forma, o SVM visa separar as duas classes utilizando um hiperplano que as separe sem erros e utilizando a maior margem possível entre elas.47

Um conjunto de dados é definido como , y , onde são os espectros de entrada e y são as classes correspondente de cada amostra. Se as duas classes forem linearmente separáveis, o hiperplano de separação pode ser dado pela Equação (15).49

∙ b 0 (15)

onde ∈ ℝ é um vetor de pesos, é um vetor de amostras e b é uma constante de deslocamento.

Figura 3–(a) Ilustração do problema de separação binária. (b) Diversos planos que podem separar as duas classes. (c) Classes separadas pelo hiperplano ótimo de separação.

Diversos hiperplanos podem ser traçados entre as duas classes, como ilustrado pela Figura 3 (b). Dessa forma, é necessário obter o hiperplano de separação ótima (OSH, do inglês optimum separation hyperplane) que forneça a maior margem entre as classes, ilustrado pela Figura 3 (c). Para a obtenção do OSH, é necessário resolver um problema de otimização convexa dado pela Equação (16).50

min1

(47)

Tal que:

{ ∙ b ≥ 1 ∀ y ∈ 1}

∙ b ≤ 1 ∀ y ∈ 1} (17)

onde yé o vetor de classes.

Quando um satisfaz a igualdade nas condições denotadas pela Equação (17), essa é a amostra mais próxima do OSH, definindo a fronteira da classe. Todas as amostras que definem essa fronteira são chamadas vetores de suporte, ilustrado pela Figura 4 (a).50

Figura 4–(a) O hiperplano de separação ótima com a margem e os vetores de suporte. (b) Ilustração da função das variáveis de folga no modelo SVM.

Como os problemas podem exigir certa complexidade, o conceito de variável de folga ou variável solta, definido por ξ, foi inserido para que seja admitido erros de classificação para algumas amostras, violando a margem, como ilustrado pela Figura 4 (b). Essa variável mede a distância de uma amostra classificada incorretamente da sua condição ideal. A quantidade de amostras que podem ser classificadas incorretamente é ponderada pelo parâmetro C, chamado parâmetro de compensação ou parâmetro de regularização. Caso o valor desse parâmetro seja baixo, muitos erros de classificação são admitidos para valor. Já para valores altos, poucas violações são permitidas, tornando a margem menos suave, podendo gerar muitos vetores de suporte. Este parâmetro é um limite inferior para os erros de classificação e um limite superior para o número de vetores de suporte. O parâmetro C deve ser definido pelo usuário no treinamento do modelo. Essas duas variáveis são adicionadas ao problema de otimização como dado pela Equação (18).50

(48)

min w, , 1 2‖ ‖ C ∑ ξ = (18) Tal que: ∙ b ≥ 1 ξ ∀ y ∈ 1} ∙ b ≤ 1 ξ ∀ y ∈ 1} ξ ≥ 0

O problema da Equação (18) é uma otimização convexa, que pode ser determinada pelo ponto de sela utilizando o método dos multiplicadores de Lagrange. Dessa forma, as variáveis , ξ e b devem ser minimizadas e os multiplicadores de Lagrange devem ser maximizados. A função de Lagrange é definida pela Equação (19).48–50

L , b, ξ, α, β 1 2‖ ‖ C ∑ ξ = ∑ β ξ = ∑ α [y ⟨ ∙ ⟩ b 1 ξ ] = (19)

onde α ≥ 0e β ≥ 0são multiplicadores de Lagrange.

Para a minimização, deve-se diferenciar a Equação (19) em relação às variáveis , ξ e be igualando a zero, obtendo-se as Equações (20), (21) e (22), respectivamente.49

∂L , b, ξ, α, β ∂ ∑ y α = 0 (20) ∂L , b, ξ, α, β ∂ξ C α β 0 (21) ∂L , b, ξ, α, β ∂b ∑ y α = 0 (22)

(49)

W α ∑ α = 1 2∑ ∑ α αjy yj〈 ∙ 〉 j= = (23)

Dessa forma, pode ser definido um problema dual dado pela Equação (24), para maximizar a função W α . Essa maximização depende apenas dos dados de entrada na forma de um produto interno e do multiplicador de Lagrange α.

max ∑ α = 1 2∑ ∑ α αjy yj〈 ∙ 〉 j= = (24) Tal que ∑ α y = 0 α ≥ 0, i 1, … , n.

Supondo que α∗ resolve o problema de otimização, pode ser obtida a Equação (25) que ao aplicar a função sinal, é obtida a função de decisão na previsão das amostras.

∑ y α∗〈 ∙ 〉 b∗ =

(25)

onde b∗ é o valor ótimo que pode ser calculado a partir das condições de Karush-Kuhn-Tucker (KKT), implicando que C > α∗ > 0, ξ∗ 0 e y 〈 ∙ ∗ b1 ξ0,

considerando que ∗e ξsão os valores encontrados pelo problema de otimização.

Como os problemas reais podem ser ainda mais complexos, muitos conjuntos de dados podem não ser linearmente separáveis. A solução este problema pode ser dado pelo Teorema de Cover, que afirma que um espaço multidimensional que contém conjunto de dados não linearmente separável pode sofrer uma transformação não-linear, mapeando estes dados em um espaço de características de alta dimensão, onde possam ser linearmente separáveis, como ilustrado pela Figura 5.51

(50)

Figura 5 – (a) Ilustração de um problema de classificação não separável linearmente no espaço original. (b) A projeção dos dados iniciais no espaço de características de alta dimensão. (c) A projeção do hiperplano de separação no espaço original.

Ao aplicar uma transformada no vetor de entrada e mapeá-lo no espaço de características de alta dimensão através da função φ , o hiperplano de separação pode ser definido pela Equação (26).49,50

∑ φj b

j=

0 (26)

onde m é a dimensão do espaço de características e φ [φ , φ , … , φ ]. Portanto, a Equação (25), pode ser reescrita após as mesmas otimizações considerando as funções de alta dimensão, obtendo a Equação (27).

∑ y α∗〈φ ∙ φ 〉 b∗ =

(27)

As funções φ possuem uma dimensão muito alta, demandando um gasto computacional extremamente elevado. No entanto, o produto interno de duas funções pode ser calculado facilmente através de uma função kernel, permitindo que a projeção das

Referências

Documentos relacionados

O mapa demonstrando as regiões favoráveis e desfavoráveis para o desenvolvimento da aquicultura no reservatório em estudo levando em consideração os valores de Nitrato na

2º BATALHÃO DE AVIAÇÃO DO EXÉRCITO.. O COMANDANTE DO EXÉRCITO, no uso da atribuição que lhe confere o art. 4º da Lei Complementar nº 97, de 9 de junho de 1999, alterada pela

Os resultados dos estudos acima discutidos, como mencionado, indicam que a consciência metatextual é uma habilidade que emerge de forma mais efetiva por volta dos 8-9 anos.

O presente estudo teve como objetivo avaliar os níveis pressóricos de adultos jovens masculinos, integrantes de um serviço militar obrigatório na cidade de

Gottardo e Cestari Junior (2008) efetuaram análise de viabilidade econômica na implantação de silo de armazenagem de grãos utilizando os seguintes modelos VPL,

1) Representação do ponto de vista do cliente: a técnica deve ser capaz de ilustrar o processo de serviço sobre a ótica do cliente, permitindo a identificação dos momentos

Para identificar quais treinamentos serão necessários para cada trabalhador ou equipe dentro de uma organização desenvolver um programa eficaz de T&D, pode-se buscar

A proposta aqui apresentada prevê uma metodologia de determinação da capacidade de carga de visitação turística para as cavernas da região de Bulhas D’Água