• Nenhum resultado encontrado

3.6 QUIMIOMETRIA

3.6.2 Análise exploratória de dados

A extração de informações dos resultados de um experimento químico envolve, na maioria das vezes, a análise de grande número de dados. Para conseguir encontrar padrões relevantes e fontes de variação desse conjunto de dados se faz necessário o uso de aproximações quimiométricas.

A análise exploratória é usada para se tentar detectar padrões de associação no conjunto de dados, a partir dos quais se pode estabelecer relações entre a amostras e variáveis, descobrir amostras anômalas ou agrupar as amostras. Os dois métodos de análise exploratória mais usados são a análise das componentes principais (principal component analysis PCA) e a análise de agrupamentos hierárquica (hierarchical clustering analysis HCA) (BARROS NETO, SCARMINIO e BRUNS, 2006; MOITA NETO e MOITA, 1998).

Análise de grupamentos hierárquica

A técnica de agrupamento hierárquico interliga as amostras por suas associações, produzindo um dendrograma onde as amostras semelhantes, segundo as variáveis escolhidas, são agrupadas entre si. A suposição básica de sua interpretação é: quanto menor a distância entre os pontos, maior a semelhança entre as amostras. Assim, segundo Moita Neto e Moita (1998, p.468):

“Os dendrogramas são especialmente úteis na visualização de semelhanças entre amostras ou objetos representados por pontos em espaço com dimensão maior do que três, onde a representação de gráficos convencionais não é possível. Existem muitas maneiras de procurar agrupamentos no espaço n dimensional. A maneira matematicamente mais simples consiste em agrupar os pares de pontos que estão mais próximos, usando a distância euclidiana, e substituí los por um novo ponto localizado na metade da distância entre eles. Este procedimento, quando repetido até que todos os pontos sejam agrupados em um só ponto, leva a construção do dendrograma, onde, no eixo horizontal são colocadas as amostras e, no eixo vertical, o índice de similaridade”.

Os dendogramas são construídos diretamente por todos os programas estatísticos que fazem a classificação dos dados por meio da análise de agrupamentos hierárquica.

Análise das componentes principais

A análise das componentes principais é um método de análise multivariada utilizado para projetar dados n dimensionais em um espaço de dimensão reduzida. Isso é feito por meio do cálculo dos novos eixos (componentes principais PC), fazendo se combinações lineares das variáveis originais.

A PCA é umas das mais importantes ferramentas da análise multivariada, inclusive por constituir a base onde se fundamenta a maioria dos outros métodos multivariados de análise de dados. Ela permite revelar a existência ou não de amostras anômalas, de relações entre as variáveis medidas e de relações ou agrupamentos entre amostras (LYRA et al., 2010). Na PCA, as n variáveis originais geram, por meio de suas combinações lineares, n componentes principais, cuja principal característica, além da ortogonalidade, é que são obtidas em ordem decrescente de máxima variância, ou seja, a componente principal 1 detém mais informação estatística que a componente principal 2, que por sua vez tem mais informação estatística que a componente principal 3, e assim por diante. Este método permite

a redução da dimensionalidade dos pontos representativos das amostras, pois, em muitos casos, é comum obter em apenas 2 ou 3 das primeiras componentes principais mais que 90% da informação (MOITA NETO E MOITA, 1998).

Para a utilização dessa ferramenta quimiométrica é de extrema importância que se entenda que o agrupamento das amostras define a estrutura dos dados por meio de gráficos de scores e loadings, cujos eixos são as componentes principais nos quais os dados são projetados. Os scores fornecem a composição das PC em relação às amostras, enquanto os loadings fornecem essa mesma composição em relação às variáveis. Como as PC são ortogonais é possível examinar as relações entre amostras e variáveis por meio dos gráficos dos scores e dos loadings, e ainda estimar a influência de cada variável em cada amostra (OLIVEIRA, GOMES NETO e FERREIRA, 2006; SENA et al., 2000).

No entanto, em muitas situações, a variabilidade dos resultados encontrados é muito grande, tornando a interpretação da PCA onerosa. Nestes casos são necessárias várias PC para ser possível explorar uma maior percentagem das informações relevantes dos dados, gerando um espaço multidimensional. Para resolver as limitações de métodos baseados na PCA, outras abordagens foram desenvolvidas como, por exemplo, a rede neural artificial de Kohonen.

Rede neural artificial de Kohonen

A rede neural artificial de Kohonen, ou simplesmente rede de Kohonen, é formada por um conjunto de elementos simples organizados em estruturas mais complexas, que funcionam em conjunto. Cada neurônio é uma unidade de processamento que recebe estímulos e produz uma resposta (para outros neurônios ou para fora do sistema). Os neurônios das redes neurais artificiais estão interligados entre si por ramificações através das quais os estímulos são propagados (LEMES e PINO JÚNIOR, 2008). Ela constitui um sistema de auto organização capaz de resolver problemas não supervisionados. O processo de aprendizado não supervisionado consiste em reforçar as ligações que levem o sistema a produzir respostas mais eficientes, não sendo necessária a apresentação dos valores de saída da rede (LEMES e PINO JÚNIOR, 2008; DA SILVA, 2007).

Esse tipo de rede apresenta a habilidade de projetar dados de maior dimensão em um espaço de menor dimensão, especialmente o espaço bidimensional, sem perda da informação original. A visualização e interpretação da rede de Kohonen vêm principalmente do fato de que o usuário pode assumir que todas as amostras posicionadas em um mesmo neurônio são consideradas semelhantes entre si, de acordo com o aspecto avaliado. Outro ponto é a

possibilidade de formação de conjuntos de amostras que são consideradas possuírem as mesmas características avaliadas, devido à localização em neurônios próximos (neurônios vizinhos) (DA SILVA, 2007).

Desse modo, a rede de Kohonen usualmente consiste de uma única camada de neurônios tipicamente arranjados em um espaço bidimensional, o que a torna muito mais amigável na visualização e interpretação dos dados, quando comparada à PCA. Outros arranjos com maiores dimensões são possíveis, entretanto são menos comuns (DA SILVA, 2007).