• Nenhum resultado encontrado

1. INTRODUÇÃO DO CAPÍTULO I: ESTUDOS METABOLÔMICOS POR RMN DE ¹H NA

1.3. Análises quimiométricas

Quimiometria é uma área da Química que usa métodos matemáticos e estatísticos no planejamento de experimentos, processamento de dados, reconhecimento de padrões, calibração, controle de qualidade entre outras aplicações. Quimiometria emergiu na década de 1970 com o aumento da utilização de computadores na investigação científica, e o termo "quimiometria" foi cunhado por Svante Wold em 1974. O rápido desenvolvimento da quimiometria deve-se a crescente automação dos laboratórios e utilização de instrumentos multicanais, instrumentos os quais fornecem respostas multivariadas (várias respostas para cada amostra).35,36 A primeira aplicação de quimiometria em RMN foi descrita em 1983, por Johnels et al.,37 que utilizou análise de componente principal (PCA) na classificação de substituintes em 82 derivados do benzeno a partir dos deslocamentos químicos de RMN de ¹³C.

Em metabolômica, a aplicação de métodos quimiométricos foi um marco decisivo no seu desenvolvimento. Métodos quimiométricos maximizam a recuperação de informações a partir de dados espectrais complexos e permitem o desenvolvimento e a progressão do campo desde então.36 Dados metabolômicos contém informações sobre centenas de metabólitos, dos quais apenas uma pequena fração, está diretamente relacionada ao problema de interesse. Métodos de reconhecimento de padrões são frequentemente empregados em metabolômica, a qual busca por padrões nas alterações observadas no metabolismo.

35

Beebe, K.R.; Pell, R.J.; Seasholtz, M.B. Chemometrics: A practical guide. Wiley, New York. Biophys. Acta.

1998, 161-169.

36

Lavine, B. K.; Workman, J. Chemometrics: past, present, and future. Chemometrics and Chemoinformatics.

Chapter 1, 2005, pp. 1-13.

37

Johnels, D.; Edlund, U.; Grahn, H.; Hellberg, S.; Sjostrom, M.; Wold, S.; Clementi, S.; Dunn, W.J. Clustering of aryl C-13 nuclear magneticresonance substituent chemical-shifts—a multivariate data-analysis using principal components. J. Chem. Soc. Perkin Trans. 2, 1983, 105: 863–871.

Métodos de reconhecimento de padrões podem ser classificados em supervisionados ou não supervisionados. Os primeiros, também conhecidos como análise exploratória de dados, são utilizados para reconhecer padrões inerentes nos dados sem considerar informações sobre as classes na etapa de construção do modelo. Desta forma, o modelo foca na direção de máxima variabilidade dos dados, que pode não ser exatamente a direção mais efetiva na discriminação das classes. Exemplos de métodos de reconhecimento de padrões não supervisionados incluem a análise de componentes principais (PCA) e análise de agrupamentos hierárquicos (HCA do inglês “hierarchical cluster analysis”).

Métodos de reconhecimento de padrões supervisionados, diferenciam-se da análise exploratória dos dados por considerarem na construção do modelo informações relativas às classes das amostras. Desta forma, os modelos obtidos focam na direção em que há melhor separação das classes. Métodos supervisionados podem ser contínuos (usados em regressão) ou categóricos (usados em classificação), sendo os últimos mais aplicados em metabolômica. Exemplos de métodos de classificação supervisionados são: PLS-DA, SIMCA e KNN.38 Métodos supervisionados de classificação, normalmente, possuem performances bastante superiores aos métodos não supervisionados. Porém, a principal desvantagem dos métodos supervisionados é a possibilidade de encontrar correlações aleatórias nos dados, validas somente para as amostras do conjunto de treinamento (usadas na construção do modelo), fenômeno conhecido como "overfitting". Desta forma, faz-se necessário a validação dos modelos obtidos, idealmente empregando-se um segundo conjunto independente de dados (conjunto de validação) para confirmar a validade do modelo construído a partir do conjunto de treinamento. Isto introduz etapas adicionais na construção do modelo e aumenta o número de amostras necessárias, quando comparado aos métodos não supervisionados.

1.3.1. Análise de componentes principais (PCA)

Análises de componentes principais (PCA) é o método quimiométrico mais difundido e empregado em química. PCA visa decompor dados multidimensionais em um número menor de componentes, facilitando o

38

reconhecimento de padrões. Esta simplificação é feita pela construção de um novo espaço com menor dimensionalidade, no qual os eixos das variáveis originais são substituídos por novos eixos chamados de componentes principais. As amostras são então representadas neste novo espaço formado por um dado número de componentes principais, tipicamente duas ou três, facilitando o reconhecimento de padrões.39

Cada componente principal obtida é uma combinação linear das variáveis originais de forma a descrever a máxima variância dos dados. Cada componente sucessiva explica o máximo de variância não incluída nas componentes anteriores. Desta forma, as componentes principais são ortogonais entre si e, portanto, independentes. A quantidade de informação dos dados originais descrita por cada componente principal pode ser calculada, e se uma quantidade significativa da informação dos dados originais é incluída no modelo, o mesmo pode ser usado na interpretação dos dados.35,40

A análise de PCA fornece como resultados gráficos de escores (do inglês “scores”) e pesos (do inglês “loadings”). Os gráficos de escores refletem a distribuição das amostras no espaço das componentes principais. Enquanto os gráficos de pesos indicam o quanto uma dada variável contribui para formação de uma dada componente principal. Em outras palavras, os pesos representam a magnitude da correlação entre as variáveis medidas e uma dada componente principal. Desta forma, é possível examinar as relações entre os gráficos de escores e pesos, e estimar a influência de cada variável no agrupamento observado para as amostras. 35,40

1.3.2. Análise discriminante por mínimos quadrados parciais (PLS-DA)

PLS é um dos métodos de escolha para predição quando há um grande número de preditores correlacionados. O objeto de PLS é providenciar uma redução da dimensionalidade dos dados onde se quer relacionar um conjunto de respostas Y com um conjunto de preditores X.

O modelo de PLS é dado por:

X = TP' + E ; Y = UQ' + F

39

Ferreira, M.M.C. Quimiometria I: calibração multivariada, um tutorial. J. Braz. Chem. Soc. 2002, 13: 742-753. 40

onde X é a matriz de dados; Y é a matriz de respostas/classes; T e U são as projeções das amostras (escores) nos blocos X e Y, respectivamente; P e Q são as matrizes que representam as contribuições das variáveis (pesos) nos blocos X e Y, respectivamente. Por fim as matrizes E e F são os resíduos, que são assumidos serem independentes. As decomposições de X e Y são realizadas de forma a se maximizar a covariância entre T e U.

Apesar de PLS não ser inerentemente designada para problemas de classificação e discriminação, ela pode ser utilizada com esta proposta.41 Neste processo uma matriz categórica (contendo zeros e uns, bloco Y) representa a classe das amostras, esta matriz é então pareada com o conjunto de treinamento (bloco X) e PLS é implementado da maneira usual. Análise discriminante por mínimos quadrados parciais (PLS-DA do inglês “partial least squares discriminant analysis”) é usada para estabelecer a posição ideal da superfície de separação entre as classes. PLS-DA fornece variáveis latentes as quais focam na máxima separação (discriminação) entre as classes em preferência ao modelamento ótimo das mesmas, como ocorre em PCA.42 A máxima separação das classes é conseguida ao se considerar as informações de classe durante a construção do modelo.

1.3.3. Análise discriminante hierárquica por mínimos quadrados parciais (PLS- DA)

Metabolômica emprega ferramentas analíticas de alto desempenho, capazes de fornecer respostas contendo um grande número de variáveis (dados multivariados). Com a possibilidade de conjugar várias plataformas analíticas ou diferentes experimentos de uma mesma plataforma, a quantidade de dados obtidos para cada amostra se torna absurdamente grande, e os dados tornam-se então "megavariados".43 Nestes casos, a abordagem multivariada tradicional fornece escores e pesos numerosos, os quais tendem a se tornar confusos, dificultando a interpretação dos resultados.

41

Barker, M.; Rayens, W. Partial least squares for discrimination. J. Chem. 2003; 17: 166-173. 42

Eriksson, L.; Antti, H.; Gottfries, J.; Holmes, E.; Johansson, E.; Lindgren, F.; Long, I.; Lundstedt, T.; Trygg, J.; Wold, S. Using chemometrics for navigating in the large data sets of genomics, proteomics, and metabonomics. Anal. Bioanal. Chem. 2004, 380: 419-429.

43

Eriksson, L.; Johansson, E.; Lindgren, F.; Sjöström, M.; Wold, S. Megavariate analysis of hierarchical QSAR data. J. Comput. Aided. Mol. Des. 2002, 16: 711-726.

Felizmente algumas abordagens podem ser utilizadas para facilitar o tratamento de dados megavariados. Uma opção é empregar seleção de variáveis para simplificar o modelo, outra é dividir as muitas variáveis em blocos menores e empregar métodos hierárquicos de análise de dados. Métodos quimiométricos hierárquicos permitem a comparação de vários blocos independentes, facilitando a análise de dados com muitas variáveis. A ideia de modelagem hierárquica é aumentar a interpretação dos resultados dividindo a análise em dois níveis: nível

superior, revela como os diferentes blocos estão relacionados entre si e nível inferior, identifica as variáveis relevantes para discriminação em cada bloco.

1.3.4. Mínimos quadrados parciais multilineares (NPLS)

NPLS (do inglês "N-way Partial Least Squares") é uma expansão do algoritmo PLS para dados de ordens superiores. O método preserva a estrutura trilinear dos dados e produz vetores de escores os quais possuem máxima covariância com a variável dependente.44 Embora NPLS, geralmente, forneça modelos com menores ajustes comparados aos obtidos por PLS para dados desdobrados ("unfolding data"), a perda de ajuste, frequentemente, não é um problema. Pois, NPLS fornece modelos mais parcimoniosos (menor número de parâmetros), mais fáceis de interpretar (não há confusão entre os modos), menos propensos ao ruído (pois a informação de todas as ordens é utilizada na decomposição) e com maior poder preditivo. Quando comparado ao método multímodo PARAFAC, NPLS possui a vantagem de maior velocidade de construção do modelo, além de utilizar as variáveis dependentes (respostas) na decomposição dos dados, melhorando o modelo preditivo.

Os dados trilineares são decompostos por NPLS num conjunto de pesos, representados pelos vetores wj e wk, e em escores (t). Os pesos e escores

são obtidos por um processo interativo, no qual a soma dos erros quadrados é minimizada. Os escores são determinados sucessivamente de forma a obter-se máxima covariância com a variável dependente (Y) após a decomposição. A análise discriminante por mínimos quadrados parciais multilineares (NPLS-DA) é um método de classificação supervisionado multímodo, o qual usa a decomposição por NPLS na classificação das amostras (Figura 5).

44

Figura 5. Decomposição de dados trilineares numa análise discriminante por NPLS-DA aplicada a

dados de RMN de ¹H. Adaptado de Bro, R.45

Documentos relacionados