Técnicas espectrométricas multielementares e a Quimiometria
6.1. Técnicas espectroanalíticas multielementares
6.2.1. Análise multivariada
A área da química analítica vem utilizando cada vez mais os métodos quimiométricos para desenvolver e avaliar métodos analíticos, assim como os seus resultados. Entre os mais utilizados, está a análise multivariada, por sua versatilidade de permitir análises não destrutivas dos dados e estimar parâmetros para classificá-los.
Os dados multivariados são, em geral, organizados em matrizes através de vetores em linhas e colunas, para facilitar a sua manipulação. Logo, as técnicas de processamento procedem para o processo propriamente dito dos dados, possibilitando sua aplicação, melhorando os resultados ou evitando conclusões incorretas e absurdas. Assim, a primeira etapa do tratamento multivariado é a padronização dos dados, ou seja, após a ela as variáveis terá igual grau de relevância [151, 154].
A análise desses dados pode empregar técnicas multivariadas de dados divididas como método supervisionado e métodos não supervisionados [146, 147].
O método supervisionado pode ser definido como aquele no qual uma variável ou conjunto de variáveis são modelados como a variável dependente a ser predita ou explicada por outras variáveis conhecidas como independentes. A análise de regressão múltipla, análise de correspondência múltipla e análise discriminante são exemplos da técnica supracitada.
Em contrapartida, o método não supervisionado é aquele no qual nenhuma variável ou grupo de variáveis é definida como independente ou dependente, sendo que a análise pode ser feita simultaneamente entre todas as variáveis do conjunto. Técnicas multivariadas como a análise fatorial, análise de agrupamento, análise de correlação canônica e análise de componentes principais são exemplos de técnicas interdependentes.
6.2.1.1. Análise de agrupamento
A técnica de análise de agrupamento hierárquico (do inglês cluster
analysis hierarchical – HCA) é um procedimento de modelagem da
independência das variáveis que consiste em reconhecer entre elas um grau de similaridade suficiente para reuni-las num mesmo conjunto. Dependendo dos requisitos como os dados são formados, os resultados podem ordenar conjuntos hierárquicos e não hierárquicos. Muitos exemplos utilizam a medida da similaridade, que, entre esses dados é baseada na distância euclidiana quadrada.
As etapas de uma análise por agrupamento são as seguintes:
1 – coleta dos dados, que serão reunidos numa tabela com p colunas (descritores) e n linhas (amostras);
2 – escolha do modo de análise: modo Q (agrupamento de amostras) ou modo R (agrupamentos de descritores), de acordo com o objetivo do trabalho;
3 – escolha do coeficiente de associação (similaridade, distância, dependência);
4 – escolha do método de agrupamento: (1) ligação simples (single link), (2) ligação completa (complete link), (3) ligação média (average link), e ligação centróide (centroid linkage) (4) método Ward (Ward’s method) (5);
5 – elaboração e interpretação do dendrograma.
Das etapas, a escolha do método de agrupamento é a mais crítica em relação à escolha do coeficiente de associação. A inserção de uma amostra dentro de um ou outro grupo já formado dependerá da classificação conforme o método de agrupamento escolhido [148, 151, 154].
6.2.1.2. Análise de componentes principais
Entre os métodos quimiométricos mais utilizados para classificação exploratória de dados multivariados, está a análise de componentes principais (Principal Component Analysis - PCA). Esta, por sua vez, é uma técnica de
em um sub-espaço de k dimensões (k < m), sendo possível serem representadas em gráficos de baixa dimensionalidade, normalmente bi ou tridimensionais [147, 149, 150].
Assim, a correlação entre as variáveis originais agrupa aquelas que são mais correlacionadas dão uma nova variável denominada de componente principal (principal component - PC). As novas variáveis representadas agora pelas PC’s são mais informativas e em menor número do que os descritores originais.
Através da combinação das propriedades lineares dos descritores originais e por estarem mutuamente ortogonais, as componentes principais são definidas em ordem decrescente a partir da quantidade de variância que são capazes de explicar. Ou seja, a informação contida numa componente principal não está presente em outra, e a variância que elas descrevem é uma medida da quantidade de informação que as mesmas contêm [149, 150]. As relações entre os compostos não são alteradas nessa transformação. Como os novos eixos são ordenados por sua importância - a ordem de variância citada acima - pode-se visualizar a estrutura do conjunto de dados em gráficos de baixa dimensionalidade, como por exemplo, PC1 versus PC2, PC1 versus PC3, etc.
6.2.1.2.1. Descrição matemática das componentes principais
Matematicamente, a matriz de dados X, produto de duas matrizes menores - uma de escores (score) T e a outra de pesos (loading), LT conforme a
Equação 1:
X = T
.L
TEquação 1
representada pela Figura 6.1, em que X é a matriz de dados originais constituídos por n linhas (objetos) e p colunas (variáveis); T é a matriz de escores com n linhas e d colunas (número de PC’s); LT
é a matriz de pesos (loading) com
original contribui está contida nos pesos. Os escores T expressam as relações entre os objetos, enquanto os pesos LT mostram as relações entre as variáveis. As colunas em T são vetores de escores e as linhas em p são chamados de vetores de pesos. Ambos vetores são ortogonais, i. e., piTpj = 0 e tiTtj = 0, para i j [144, 142, 151, 152].
Figura 6.1. A matriz original (X) de tamanho np é decomposta em duas matrizes reduzidas de tamanho nde d p, sendo mais fácil de interpretar, compreender e conter toda informação relevante. Fonte [143]
No processo de seleção de variáveis, a PCA identifica agrupamentos de descritores, proporcionando um entendimento de como eles estão correlacionados e o quanto de informação eles contêm. Este é o fundamento de seu uso na seleção das variáveis. No entanto, freqüentemente o número de descritores originais selecionados é maior que o desejado. Embora isso não constitua problema do ponto de vista matemático, corre-se o risco de tornar a interpretação difícil ou mesmo impossível para o problema ao qual o PCA esteja sendo aplicado. Portanto, deve haver equilíbrio entre o aspecto matemático e a possibilidade das correlações encontradas poderem ser explicadas através de hipóteses. Os resultados da análise de componentes principais costumam ser visualizado em gráfico bi ou tridimensional, facilitando a identificação de agrupamentos.
Com isso, os pesos de um gráfico contêm informações referentes às variáveis e são usados para determinar quais delas são mais importantes para descrever a variação dos dados originais. Já os escores de um mesmo gráfico
utilizadas. Portanto, é importante a análise em conjunto, tanto dos pesos como dos escores [150, 153, 154].