Métodos de Alinhamento - F ERRAMENTAS Q UIMIOMÉTRICAS

CAPÍTULO 1. INTRODUÇÃO E OBJETIVOS

1.3 F ERRAMENTAS Q UIMIOMÉTRICAS

1.3.2 Métodos de Alinhamento

O pré-processamento dos dados reduz variações quimicamente irrelevantes com o objetivo de aumentar a precisão e exatidão de análises qualitativas e quantitativas. Embora não seja a etapa mais importante em todo processo de análise de dados, é parte fundamental e pode significar a diferença entre o sucesso ou o fracasso em muitas aplicações.

Em medidas cromatográficas podem ocorrer problemas de desvios do tempo de retenção devido a fatores como pequenas alterações na coluna, mudança na composição da fase móvel (no caso de HPLC), interações entre os analitos, entre outras. Muitas vezes, dependendo do objetivo a ser atingido, pode-se detectar os picos de compostos de interesse e integrá-los. Porém, em análises de matrizes complexas esta estratégia pode se tornar subjetiva e laboriosa[77].

Com o intuito de evitar esse problema, algoritmos que permitem o alinhamento do cromatograma inteiro foram desenvolvidos e são amplamente utilizados. Dentre os diversos algoritmos podem ser citados: DTW (dinamic time

warping) [78], COW (correlation optimized warping) [77], icoshift [79], Fuzzy warping

[80], PAGA (peak alignment by means of genetic algorithm) [81], entre outros [82]. O algoritimo COW[77] é um dos mais utilizados e o mecanismo de funcionamento deste está descrito na Figura 1.9. Considerando-se um cromatograma alvo T, o cromatograma desalinhado P pode ser alinhado obtendo-se o perfil P’. O perfil desalinhado possui LP+1 pontos no eixo do tempo e então um

comprimento de intervalos LP é dividido em seções de comprimento m e o número

de seções N é dado por:

𝑁 =𝐿𝑃

𝑚 (Equação 9)

Geralmente interpolação linear é usada para o ajuste. Uma seção tendo um ponto inicial em xs e um ponto final em xe é ajustada para a posição inicial x’s e

posição final x’e. No caso do algoritmo COW os parâmetros a serem otimizados são

o tamanho do comprimento do segmento m e o parâmetro t, que consiste no número de pontos de cada seguimento que pode ser comprimido ou alongado [77,83].

Figura 1.8 Mecanismo de funcionamento do algoritmo COW (adaptado de [77]).

Uma estratégia que pode ser utilizada em dados de GC×GC é o uso do algoritmo COW desdobrando-se os cromatogramas para vetores como se fosse 1D- GC. Porém, cabe ressaltar que no caso de medidas realizadas em GC×GC os desvios nos tempos de retenção podem ocorrer em ambas as colunas e na literatura estão descritos alguns algoritmos desenvolvidos especificamente para GC×GC.

Em 2005, Pierce et al.[84] desenvolveram o algoritmo chamado

comprehensive 2D retention time aligment, que permite o alinhamento em ambas as

dimensões preservando todas as informações do conjunto de dados. Este algoritmo é uma adaptação do algoritmo desenvolvido pelos autores para separações em 1D (piecewise retention time alignment).

Zhang et al [85] desenvolveram o algoritmo conhecido como 2D COW baseado no princípio de funcionamento do 1D COW. Os perfis de cromatogramas são primeiramente divididos e então o ajuste dos pontos em uma grade é realizado com 1-D COW simultaneamente ao longo da primeira e segunda dimensão. Neste caso, dois pares de parâmetros (tamanho da janela e máximo warping) para a primeira e segunda dimensão devem ser otimizados.

Mais recentemente, Gros et al. [86] apresentaram um novo algoritmo para alinhamento simultâneo nas duas dimensões de GC×GC baseado em interpolação e deconvulação bicúbica e com a utilização de pontos indicados pelo usuário em um cromatograma alvo e em um cromatograma referência. Os resultados obtidos foram comparados com aqueles utilizando 2D-COW e pisewise alignment e os autores apresentaram algumas vantagens do método como, por exemplo; evitar distorções irreais dos cromatogramas alinhados, o que pode ser um desafio para outras técnicas que usam etapas de interpolação.

Perfil alvo T

Perfil desalinhado P

Perfil alinhado P’

0 L

x

L

x

_N-1

x

₁

x

t

m

Δ

Entretanto, o que há de comum em todos os métodos descritos é que estes não foram desenvolvidos para utilizar a informação de espectro de massas disponíveis quando se usa detectores como TOF-MS ou q-MS. Devido a esta limitação e o grau dos desvios, certa homogeneidade entre as amostras é frequentemente requerida, caso contrário esses métodos podem introduzir alinhamentos falsos especialmente se diferentes compostos apresentarem tempos de retenções similares em GC×GC.

Para corrigir esse problema algoritmos que utilizam toda a informação disponível foram desenvolvidos[87,88]. O algoritmo DISCO (Distance and Spectrum

Correlation Optimization)[89], e mais recentemente DISCO2[90], são ferramentas de

alinhamento em dois estágios que usam a informação do espectro de massas. Resumidamente, o primeiro passo do algoritmo DISCO2 é a redução dos dados para lista de picos, encontrando picos dos mesmos compostos em todas as listas de picos e alinhando-os. E em seguida os picos remanescentes são alinhados com base nos parâmetros encontrados na primeira etapa.

Os métodos para alinhamento de cromatogramas são normalmente baseados em dois tipos de modelos: inserção/exclusão (I/D) ou compressão/expansão (C/E). O primeiro assume que as larguras dos picos podem estar correlacionadas com a intensidade do sinal. Já o último, ao contrário, assume que a largura do pico é invariante dentro de uma determinada faixa e permanece inalterada em caso de deslocamento [79]. Embora métodos baseados em C/E, que é utilizado no algoritimo COW, sejam normalmente aplicados para correção dos tempos de retenção em sinais cromatográficos, I/D métodos podem ser superiores em alguns casos [91].

Em GC×GC as bandas cromatográficas enviadas para a segunda coluna são frações da primeira dimensão e são muito estreitas, usualmente 10 -150ms [92]. Desta forma, detectores com altas taxas de aquisição (50 – 100 Hz) como tempo-de- vôo (TOFMS) são os mais efetivos para serem utilizados. Porém espectrômetros de massa quadrupolares (QMS) também tem sido utilizados, por apresentam um menor custo e geralmente estarem disponíveis em cromatógrafos [57]. Desta forma, é importante salientar que quando se alinha desvios nos tempos de retenção com um baixo número de pontos, usando modelos C/E, os passos de interpolação podem causar mudanças nas formas e nas áreas dos picos [83].

Neste sentido, o algoritmo icoshift (interval correlation optimized

shifting)[79,93] que é baseado em modelos I/D e foi primeiramente descrito para

dados de RMN pode produzir ótimos resultados em GC×GC-QMS. O algoritmo

icoshift otimiza a correlação cruzada por partes usando transformada de Fourier

rápida (Fast Fourier Transform FFT) e é adequado para utilização em cromatografia bidimensional abrangente uma vez que é muito rápido, não muda a forma dos picos e trabalha bem em alvos com formas não perfeitas[91]. Uma importante característica do algoritmo icoshift é que a definição dos intervalos deve ser realizada sempre na linha de base para evitar a introdução de artefatos nos cromatogramas.

A Tabela 1.1 resume alguns métodos de alinhamento utilizados em GC×GC e suas características principais.

Tabela 1.1 Métodos para correção de desvios nos tempos de retenção em GC×GC. Método Integração Passos de

interpolação

Espectro de

massa velocidade

DISCO2 Sim - sim -

2D-COW - sim - -

comprehensive 2D

- sim - -

DTW - sim - lento

COW - sim - lento

Icoshift - - - rápido

Icoshift/modified - - sim rápido

Em geral, o alinhamento de dados cromatográficos tem se tornado uma importante ferramenta como etapa de pré-processamento. Na literatura há um vasto número de trabalhos com diversas aplicações. Desta forma, critérios de seleção da melhor alternativa para o conjunto de dados em questão devem ser considerados para que esta etapa ocorra da melhor maneira e promova resultados satisfatórios nas subsequentes.

1.3.3 Métodos para seleção de variáveis

1.3.3.1 Razão de Fisher

A razão de Fisher é utilizada para inspecionar um conjunto de dados e selecionar variáveis que contém diferenças significativas entre duas classes definidas. A razão de Fisher é definida como a variação classe-a-classe da variável independente dividido pela soma das variações dentro da classe, que pode ser definida pelas equações a seguir [94,95]. Para se calcular a variação entre as classes:

𝜎_𝑐𝑙2 = ∑(𝑥̅ −𝑥̅)𝑖 2𝑛𝑖

(𝑘−1) (Equação 10)

onde, ni é o número de amostras na enésima classe, 𝑥̅ é a média da _𝑖

enésima classe, 𝑥̅ é a média global e k o número de classes. A variação intra classe é dada por: 𝜎_𝑒𝑟𝑟2 ₌∑(∑(𝑥𝑖𝑗–𝑥̅) 2 )−(∑(𝑥̅ −𝑥̅)_𝑖 2_𝑛 𝑖) 𝑁−𝑘 (Equação 11)

onde 𝑥_𝑖𝑗 é a enésima medida da enésima classe e N é o número total de amostras. Por fim pode-se calcular a F-razão:

𝐹 = 𝜎𝑐𝑙2

𝜎_𝑒𝑟𝑟2 (Equação 12)

Da Equação 12 pode-se concluir que se uma variável possui um valor pequeno da razão F significa que a variação dentro da classe para aquela variável é maior que a variação entre as diferentes classes e essa variável não será importante para discriminar as classes. Por outro lado, se a variável em questão apresentar um alto valor de razão de Fisher significa que a variação dentro da classe é pequena em comparação com a variação calculada entre as duas classes e essa variável é importante para diferenciação entre as classes.

No documento Emprego de métodos quimiométricos em análises por cromatografia gasosa bidimensional abrangente para avaliação de cacau, seus derivados e alfarroba (páginas 37-41)