• Nenhum resultado encontrado

A representação gráfica dos dados obtidos por GC×GC/TOFMS é diferente daquela gerada para dados na GC/MS, sendo a quantidade de dados produzida pela técnica bidimensional muito maior em relação à monodimensional. Nestes casos, o uso de ferramentas estatísticas para verificar os compostos que diferenciam um grupo de amostras das demais, assim como para selecionar os compostos que mais discriminam as amostras se faz necessário.

Para a aplicação dessas ferramentas estatísticas os dados devem ser organizados na forma de uma matriz, onde as linhas representam as amostras e as colunas as variáveis. No caso de uma análise cromatográfica, os dados brutos podem apresentar variabilidade oriunda de várias fontes, havendo a necessidade de remoção dessas variações.119 Sendo assim, antes da aplicação da ferramenta estatística é necessário um pré-processamento dos dados, que serve para ajustar as grandezas em valores equivalentes. Três tipos de pré-processamento podem ser aplicados às variáveis: (i) centralização nas médias, que consiste da subtração dos elementos de cada linha pela média de sua respectiva coluna, (ii) escalonamento, em que cada elemento de uma linha é dividido pelo desvio padrão de sua respectiva variável, fazendo com que cada variável fique com o mesmo peso e (iii) auto escalonamento, que consiste em centralizar os dados na média e efetuar o escalonamento.120

Dentre as ferramentas utilizadas pode-se citar a análise de variância (ANOVA) usada para avaliar se existe diferença significativa entre as classes de amostras. No entanto, na análise da composição volátil dos vinhos pode existir uma grande variabilidade em relação aos voláteis de cada classe de amostras. Com o uso da ANOVA, as diferenças existentes dentro de uma

35 mesma classe e aquelas entre as diferentes classes são consideradas de uma mesma maneira, tornando essa abordagem problemática quando o objetivo é diferenciar grupos de amostras.121

A razão de Fisher também pode ser empregada para selecionar as variáveis mais discriminantes que diferenciam grupos de amostras.122,123 A razão de Fisher é definida como a variação de um parâmetro relacionado a um determinado composto entre as diversas amostras analisadas dividida pela soma da variação deste mesmo parâmetro relacionado a este composto, dentro de uma mesma classe de compostos. Com a utilização deste critério é possível maximizar a variância entre as classes e ao mesmo tempo minimizar a variância entre os compostos das amostras pertencentes a mesma classe, o que não ocorre com o uso da ANOVA.124

A PCA é uma ferramenta estatística que visa evidenciar similaridades ou diferenças entre amostras em um determinado conjunto de dados. O conjunto de dados é organizado na forma de uma matriz, onde as linhas podem ser as amostras e as colunas são as variáveis.120 Dessa forma, a PCA resulta da construção de um conjunto de novos vetores, ortogonais entre si, chamados de componentes principais (PC). Esses novos componentes são combinações lineares das variáveis originais, construídos em ordem decrescente de variância, resultantes do agrupamento das variáveis altamente correlacionadas. Sendo assim, a PCA reduz a dimensionalidade do conjunto de dados original de forma que as informações mais relevantes ficam concentradas nas primeiras componentes.119 Em uma análise de componentes principais o agrupamento das amostras define a estrutura dos dados através de gráficos de escores (do inglês “scores”) que fornecem a composição das PC em relação às amostras e pesos (do inglês “loadings”) que fornecem essa mesma composição em relação às variáveis.120

Mapas de calor são representações visuais de dados quantitativos em dois eixos; o eixo x geralmente reflete amostras individuais e o eixo y consiste em grupos de parâmetros medidos. O campo entre os eixos é composto por uma matriz de caixas adjacentes codificadas por cores para refletir a quantificação. Como tal, mapas de calor são uma ferramenta de visualização flexível para agrupar dados e explorar padrões. A estrutura básica de dados subjacente a um mapa de calor é composta por uma variável independente e um conjunto de variáveis dependentes. Os parâmetros dependentes são geralmente variáveis contínuas codificadas por cor para refletir seu valor quantitativo.125

A ANOVA - PCA combina as vantagens estatísticas da ANOVA com as vantagens da PCA para estudar a covariação entre variáveis. A abordagem pode ser considerada uma implementação multivariada da ANOVA, mas difere da MANOVA na medida em que a divisão pelo erro dentro do grupo é evitada. Em vez disso, uma matriz de dados é decomposta em

36 matrizes aditivas que caracterizam fatores individuais do planejamento experimental e do erro residual. Todas essas matrizes têm a mesma dimensionalidade e seguem o modelo linear geral. Esse método não possui vínculo com o procedimento amplamente utilizado para seleção de variáveis, ANOVA, que detecta variáveis que não variam significativamente em função dos fatores em estudo, a fim de eliminá-las antes de prosseguir com a análise multivariada do conjunto de dados reduzido resultante, usando a PCA. De maneira semelhante à ANOVA, o método ANOVA - PCA procura as variações nas variáveis associadas a cada fator de um planejamento experimental e depois usa uma análise de componentes principais para avaliar a significância de cada fator, comparando as variações correspondentes ao erro residual.126

Os classificadores de uma classe, (do inglês “one-class classifiers – OCC”) constituem um conjunto especial de métodos dentro do grupo de ferramentas de reconhecimento de padrões. Um recurso típico do OCC é que esses métodos tentam distinguir objetos de uma classe específica, também chamada de classe de destino, de todos os outros objetos e classes. O modelo OCC é estabelecido usando um conjunto de treinamento que contém apenas objetos de destino. A modelagem suave e independente por analogia de classe (do inglês “Soft Independent Modeling by Class Analogy – SIMCA”) é um OCC que foi inicialmente proposto em sua versão mais simples, sofrendo posteriormente, algumas modificações e tornando-se mais robusto. Atualmente, o SIMCA é projetado como uma abordagem que consiste em um desenvolvimento de modelo de análise de componentes principais (robusto), seguido pelo cálculo das distâncias ortogonais e de escores com a subsequente determinação de seus níveis de corte, sendo denominado DD-SIMCA. Uma das características únicas do SIMCA é a capacidade de calcular teoricamente os erros de classificação incorreta.127

37