CAPÍTULO 1. INTRODUÇÃO E OBJETIVOS
1.3 F ERRAMENTAS Q UIMIOMÉTRICAS
1.3.2 Métodos de Alinhamento
O pré-processamento dos dados reduz variações quimicamente irrelevantes com o objetivo de aumentar a precisão e exatidão de análises qualitativas e quantitativas. Embora não seja a etapa mais importante em todo processo de análise de dados, é parte fundamental e pode significar a diferença entre o sucesso ou o fracasso em muitas aplicações.
Em medidas cromatográficas podem ocorrer problemas de desvios do tempo de retenção devido a fatores como pequenas alterações na coluna, mudança na composição da fase móvel (no caso de HPLC), interações entre os analitos, entre outras. Muitas vezes, dependendo do objetivo a ser atingido, pode-se detectar os picos de compostos de interesse e integrá-los. Porém, em análises de matrizes complexas esta estratégia pode se tornar subjetiva e laboriosa[77].
Com o intuito de evitar esse problema, algoritmos que permitem o alinhamento do cromatograma inteiro foram desenvolvidos e são amplamente utilizados. Dentre os diversos algoritmos podem ser citados: DTW (dinamic time
warping) [78], COW (correlation optimized warping) [77], icoshift [79], Fuzzy warping
[80], PAGA (peak alignment by means of genetic algorithm) [81], entre outros [82]. O algoritimo COW[77] é um dos mais utilizados e o mecanismo de funcionamento deste está descrito na Figura 1.9. Considerando-se um cromatograma alvo T, o cromatograma desalinhado P pode ser alinhado obtendo-se o perfil P’. O perfil desalinhado possui LP+1 pontos no eixo do tempo e então um
comprimento de intervalos LP é dividido em seções de comprimento m e o número
de seções N é dado por:
𝑁 =𝐿𝑃
𝑚 (Equação 9)
Geralmente interpolação linear é usada para o ajuste. Uma seção tendo um ponto inicial em xs e um ponto final em xe é ajustada para a posição inicial x’s e
posição final x’e. No caso do algoritmo COW os parâmetros a serem otimizados são
o tamanho do comprimento do segmento m e o parâmetro t, que consiste no número de pontos de cada seguimento que pode ser comprimido ou alongado [77,83].
Figura 1.8 Mecanismo de funcionamento do algoritmo COW (adaptado de [77]).
Uma estratégia que pode ser utilizada em dados de GC×GC é o uso do algoritmo COW desdobrando-se os cromatogramas para vetores como se fosse 1D- GC. Porém, cabe ressaltar que no caso de medidas realizadas em GC×GC os desvios nos tempos de retenção podem ocorrer em ambas as colunas e na literatura estão descritos alguns algoritmos desenvolvidos especificamente para GC×GC.
Em 2005, Pierce et al.[84] desenvolveram o algoritmo chamado
comprehensive 2D retention time aligment, que permite o alinhamento em ambas as
dimensões preservando todas as informações do conjunto de dados. Este algoritmo é uma adaptação do algoritmo desenvolvido pelos autores para separações em 1D (piecewise retention time alignment).
Zhang et al [85] desenvolveram o algoritmo conhecido como 2D COW baseado no princípio de funcionamento do 1D COW. Os perfis de cromatogramas são primeiramente divididos e então o ajuste dos pontos em uma grade é realizado com 1-D COW simultaneamente ao longo da primeira e segunda dimensão. Neste caso, dois pares de parâmetros (tamanho da janela e máximo warping) para a primeira e segunda dimensão devem ser otimizados.
Mais recentemente, Gros et al. [86] apresentaram um novo algoritmo para alinhamento simultâneo nas duas dimensões de GC×GC baseado em interpolação e deconvulação bicúbica e com a utilização de pontos indicados pelo usuário em um cromatograma alvo e em um cromatograma referência. Os resultados obtidos foram comparados com aqueles utilizando 2D-COW e pisewise alignment e os autores apresentaram algumas vantagens do método como, por exemplo; evitar distorções irreais dos cromatogramas alinhados, o que pode ser um desafio para outras técnicas que usam etapas de interpolação.
Perfil alvo T
Perfil desalinhado P
Perfil alinhado P’
0
0
L
Tx
NL
Px
N-1x
1x
0t
t
m
Δ
Entretanto, o que há de comum em todos os métodos descritos é que estes não foram desenvolvidos para utilizar a informação de espectro de massas disponíveis quando se usa detectores como TOF-MS ou q-MS. Devido a esta limitação e o grau dos desvios, certa homogeneidade entre as amostras é frequentemente requerida, caso contrário esses métodos podem introduzir alinhamentos falsos especialmente se diferentes compostos apresentarem tempos de retenções similares em GC×GC.
Para corrigir esse problema algoritmos que utilizam toda a informação disponível foram desenvolvidos[87,88]. O algoritmo DISCO (Distance and Spectrum
Correlation Optimization)[89], e mais recentemente DISCO2[90], são ferramentas de
alinhamento em dois estágios que usam a informação do espectro de massas. Resumidamente, o primeiro passo do algoritmo DISCO2 é a redução dos dados para lista de picos, encontrando picos dos mesmos compostos em todas as listas de picos e alinhando-os. E em seguida os picos remanescentes são alinhados com base nos parâmetros encontrados na primeira etapa.
Os métodos para alinhamento de cromatogramas são normalmente baseados em dois tipos de modelos: inserção/exclusão (I/D) ou compressão/expansão (C/E). O primeiro assume que as larguras dos picos podem estar correlacionadas com a intensidade do sinal. Já o último, ao contrário, assume que a largura do pico é invariante dentro de uma determinada faixa e permanece inalterada em caso de deslocamento [79]. Embora métodos baseados em C/E, que é utilizado no algoritimo COW, sejam normalmente aplicados para correção dos tempos de retenção em sinais cromatográficos, I/D métodos podem ser superiores em alguns casos [91].
Em GC×GC as bandas cromatográficas enviadas para a segunda coluna são frações da primeira dimensão e são muito estreitas, usualmente 10 -150ms [92]. Desta forma, detectores com altas taxas de aquisição (50 – 100 Hz) como tempo-de- vôo (TOFMS) são os mais efetivos para serem utilizados. Porém espectrômetros de massa quadrupolares (QMS) também tem sido utilizados, por apresentam um menor custo e geralmente estarem disponíveis em cromatógrafos [57]. Desta forma, é importante salientar que quando se alinha desvios nos tempos de retenção com um baixo número de pontos, usando modelos C/E, os passos de interpolação podem causar mudanças nas formas e nas áreas dos picos [83].
Neste sentido, o algoritmo icoshift (interval correlation optimized
shifting)[79,93] que é baseado em modelos I/D e foi primeiramente descrito para
dados de RMN pode produzir ótimos resultados em GC×GC-QMS. O algoritmo
icoshift otimiza a correlação cruzada por partes usando transformada de Fourier
rápida (Fast Fourier Transform FFT) e é adequado para utilização em cromatografia bidimensional abrangente uma vez que é muito rápido, não muda a forma dos picos e trabalha bem em alvos com formas não perfeitas[91]. Uma importante característica do algoritmo icoshift é que a definição dos intervalos deve ser realizada sempre na linha de base para evitar a introdução de artefatos nos cromatogramas.
A Tabela 1.1 resume alguns métodos de alinhamento utilizados em GC×GC e suas características principais.
Tabela 1.1 Métodos para correção de desvios nos tempos de retenção em GC×GC. Método Integração Passos de
interpolação
Espectro de
massa velocidade
DISCO2 Sim - sim -
2D-COW - sim - -
comprehensive 2D
- sim - -
DTW - sim - lento
COW - sim - lento
Icoshift - - - rápido
Icoshift/modified - - sim rápido
Em geral, o alinhamento de dados cromatográficos tem se tornado uma importante ferramenta como etapa de pré-processamento. Na literatura há um vasto número de trabalhos com diversas aplicações. Desta forma, critérios de seleção da melhor alternativa para o conjunto de dados em questão devem ser considerados para que esta etapa ocorra da melhor maneira e promova resultados satisfatórios nas subsequentes.
1.3.3 Métodos para seleção de variáveis
1.3.3.1 Razão de Fisher
A razão de Fisher é utilizada para inspecionar um conjunto de dados e selecionar variáveis que contém diferenças significativas entre duas classes definidas. A razão de Fisher é definida como a variação classe-a-classe da variável independente dividido pela soma das variações dentro da classe, que pode ser definida pelas equações a seguir [94,95]. Para se calcular a variação entre as classes:
𝜎𝑐𝑙2 = ∑(𝑥̅ −𝑥̅)𝑖 2𝑛𝑖
(𝑘−1) (Equação 10)
onde, ni é o número de amostras na enésima classe, 𝑥̅ é a média da 𝑖
enésima classe, 𝑥̅ é a média global e k o número de classes. A variação intra classe é dada por: 𝜎𝑒𝑟𝑟2 = ∑(∑(𝑥𝑖𝑗–𝑥̅) 2 )−(∑(𝑥̅ −𝑥̅)𝑖 2𝑛 𝑖) 𝑁−𝑘 (Equação 11)
onde 𝑥𝑖𝑗 é a enésima medida da enésima classe e N é o número total de amostras. Por fim pode-se calcular a F-razão:
𝐹 = 𝜎𝑐𝑙2
𝜎𝑒𝑟𝑟2 (Equação 12)
Da Equação 12 pode-se concluir que se uma variável possui um valor pequeno da razão F significa que a variação dentro da classe para aquela variável é maior que a variação entre as diferentes classes e essa variável não será importante para discriminar as classes. Por outro lado, se a variável em questão apresentar um alto valor de razão de Fisher significa que a variação dentro da classe é pequena em comparação com a variação calculada entre as duas classes e essa variável é importante para diferenciação entre as classes.