• Nenhum resultado encontrado

A quimiometria é a ciência que pode ser brevemente descrita como a interação de certos métodos matemáticos e estatísticos em processos de medição química (KUMAR et al., 2014; GRANATO et al., 2018b), com o objetivo de analisar dados de natureza multivariada como forma de extrair o máximo de informações química relevantes com as análises dos dados (NUNES et al., 2015; BROWN, 2017).

Segundo Bona, Março e Valderrama (2018) para a escolha do método quimiométrico mais apropriado com a intenção de extrair informações de um conjunto de dados, é necessário saber a dimensionalidade dos dados para classificar suas ordens como: ordem zero (dados univariados) primeira ordem (dados multivariados), segunda (quando uma matriz de resultado experimental é obtida para cada amostra) ou ordem superior (quando um tensor de resultado experimental é obtido para cada amostra). A partir disso, os métodos quimiométricos, quando utilizados em dados de

primeira ordem (multivariados), dependendo do interesse de estudo, podem ser classificados em métodos qualitativos (análise exploratória e reconhecimento de padrões) e quantitativos (calibração) (KUMAR et al., 2014; SZYMANSKA et al., 2015; BECERRA-MARTÍNEZ et al., 2017).

Desta forma, os métodos estatísticos de natureza multivariada podem ser divididos em métodos de calibração (regressão por mínimos quadrados parciais - PLSR), classificação (mínimos quadrados parciais com análise discriminante -PLS- DA) e exploração (análise por componentes principais -PCA) (GRANATO et al., 2018b; BONA, MARÇO e VALDERRAMA, 2018).

Na ciência e tecnologia de alimentos, a quimiometria pode ser empregada, como forma de avaliar semelhanças/diferenças entre múltiplos objetos (amostras) ou projetar os objetos em um plano de fator bi/tridimensional baseado em várias características (GRANATO et al., 2018a). Ainda mais, a aplicação das técnicas multivariadas pode ser usada para analisar a autenticidade de alimentos, rastrear sua origem geográfica, verificar o sistema de produção empregado por uma empresa, verificar se está de acordo com as informações declaradas no rótulo e verificar adulterações (intencionais ou não) (VAN DER VEER, VAN RUTH e AKKERMANS, 2011; GRANATO, KOOT e VAN RUTH, 2015; CHIESA et al., 2016; MÜLLER- MAATSCH, SCHWEIGGERT e CARLE, 2016; TAVARES et al., 2016; ZHU, WANG e CHEN, 2017). Entretanto, para a realização das aplicações dos métodos quimiométricos, os dados obtidos em um experimento devem ser organizados antes de serem submetidos à análise.

De acordo com Bona, Março e Valderrama (2018) para aplicar os métodos quimiométricos, os resultados experimentais devem ser definidos em um formato matricial, X (i, j), distribuídos em dimensões i × j, onde cada linha (i) contém uma medida diferente (por exemplo, espectro) e cada coluna (j) traz a informação variável (absorbância em diferentes comprimentos de onda). A partir disso, faz-se necessário um pré-processamento de dados que dependerá da natureza dos dados, essa etapa de pré-processamento dos dados é necessária quando os dados experimentais não têm uma distribuição adequada para a análise (diferentes unidades e variáveis com diferentes variâncias). O pré-processamento pode incluir operações simples como centralização da média ou o auto escalonamento. Assim, a partir da organização dos dados, as ferramentas multivariadas para exploração, classificação e calibração são utilizadas de acordo com a dimensão dos dados analisados.

3.6.1 Métodos Lineares

3.6.1.1 Análise Exploratória (Análise por componente principal- PCA)

A análise por componentes principais -PCA (do inglês- Principal Component

Analysis), é uma técnica da estatística multivariada que consiste em representar a

variação presente em um conjunto de dados usando um pequeno número de fatores (GRANATO et al., 2018b). Essa técnica analisa a covariância entre variáveis em um conjunto de dados e identifica uma representação linear do sistema através de vetores ortogonais cada um tendo um significado proporcional ao seu autovalor (MALIK et al., 2018).

Segundo Nunes et al. (2015) a PCA é um dos métodos quimiométricos mais utilizados na análise de alimentos, pois é capaz de reduzir grandes matrizes de dados em uma projeção bidimensional de fácil interpretação (BOWER, 2009). Isto é, os

gráficos de pontuações gerados a partir do PCA (Figura 11), são comumente utilizados para agrupar amostras com base em suas similaridades ou dissimilaridades (NUNES et al., 2015).

Figura 11- Conjunto bidimensional após a aplicação da PCA

Fonte: Autor (2018).

Segundo Malik et al. (2018), para ser realizada, a análise por componentes principais necessita de uma matriz X (n × Q) consistindo de n observações com Q variáveis independentes, sendo que seus dados devem ser centralizados e redimensionados (Equação 1). ORG ORG ORG ORGORG ORG ORG ORGORG ORGORG CONV CONV CONV CONVCONV CONV CONVCONV CONV CONV CONV -1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 F2 (4 ,1 0 % ) F1 (95,90 %)

Xcr = (X − 𝑋̅)𝐷−1 (1)

A 𝑋̅ representa a matriz (1 × Q) contendo a média de cada variável na coluna

e D é uma matriz (1 × Q) contendo o fator de escala de cada variável. Então, pode-se calcular a matriz de covariância S como mostra a Equação 2.

𝑆 = 1

𝑛−1𝑋𝑐𝑟

𝑇𝑋𝑐𝑟 (2)

Os elementos diagonais de S representam a variância de cada variável, enquanto os valores fora da diagonal mostram a covariância entre duas variáveis (Malik et al., 2018). Como S é uma matriz quadrada (de tamanho [Q × Q]), uma decomposição de autovalor pode ser realizada produzindo os autovetores e autovalores do sistema: 𝑆 = 𝐴𝐿𝐴𝑇, no qual A (Q × Q) e L (Q × Q) são respectivamente os autovetores de S, (também chamados de componentes principais, PCs) e os autovalores de S, em ordem decrescente. A matriz de autovetores A, também chamada de matriz de base, é usada para obter os escores da componente principal,

Z (n × Q), projetando o conjunto de dados X originais nessa base:

𝑍 = 𝑋𝐴 (3)

A Equação 3 indica que o conjunto de dados originais pode ser recuperado exclusivamente usando os PCs e seus escores: 𝑋 = 𝑍𝐴−1 em que 𝐴−1= 𝐴𝑇. Desta forma, usando um subconjunto de A mantendo apenas q dos componentes principais (q < Q), observamos Aq, e uma aproximação de X baseada nos primeiros autovetores

q (Xq) é obtida por: 𝑋 ≅ 𝑋𝑞 = 𝑍𝑞𝐴𝑞𝑇, onde Zq é a matriz (n × q) das pontuações dos componentes principais. Na análise por componentes principais, os maiores valores próprios correspondem às primeiras colunas de A. Desse modo, Malik et al. (2018) afirmam que a maior quantidade de variação nas variáveis originais é descrita pelos primeiros PCs. Assim, o truncamento é feito nos últimos autovetores (correspondentes aos menores autovalores). Ao remover os últimos PCs, a dimensão do sistema é reduzida, mantendo a maior parte da variação no sistema.

3.6.1.2 Método de classificação (Análise discriminante por mínimos quadrados parciais - PLS-DA)

Os métodos de classificação multivariada são técnicas quimiométricas que visam obter modelos matemáticos capazes de reconhecer a participação de cada amostra em sua classe apropriada, com base em um conjunto de medidas (BALLABIO e CONSONNI, 2013). O PLS-DA (do inglês partial least squares discriminant analysis) é um método de classificação discriminante baseado no algoritmo de regressão PLS (PLS1 ao lidar com uma Y variável dependente e PLS2 na presença de várias Y variáveis dependentes) (GROMSKI et al., 2015).

O método busca uma relação linear da resposta instrumental “X” (variáveis independentes), com propriedades de interesse “Y” (variáveis dependentes) (BONA, MARÇO e VALDERRAMA, 2018). No contexto da classificação de amostras, a matriz Y representa valores qualitativos, codificada com números binários 0 ou 1 (MARINI, 2016; ALVES e VALDERRAMA, 2015). Os dados empregados no PLS-DA são modelados por meio da análise de componentes principais, ou seja, os PCs aqui são chamados de variáveis latentes (ou fatores) (GROOMSKI et al., 2015). Na discriminação das classes, um limiar é selecionado no ponto em que o número de falsos positivos e falsos negativos seja minimizado.

4 MATERIAL E MÉTODOS

Documentos relacionados