• Nenhum resultado encontrado

3 REVISÃO BIBLIOGRÁFICA

3.7 Análise estatística multivariada

A estatística é uma importante ferramenta matemática utilizada em diversas ciências com a finalidade de compreender e correlacionar mais facilmente dados e variáveis. Se em uma amostragem mede-se somente uma variável, a análise dos dados estatisticamente é dita univariada, se, ao contrário, existem dados de diversas variáveis para as amostras, a análise estatística é multivariada ou multidimensional. Os métodos multivariados mais utilizados em Geociências são análise de agrupamento, análise de componentes principais, análise fatorial e análise discriminante (LAMDIM, 2001).

Os subcapítulos posteriores são uma breve explicação sobre a análise de agrupamento e análise dos componentes principais.

3.7.1 Análise de agrupamento

A análise de agrupamento mede a similaridade entre indivíduos, neste caso, é chamada de modo Q, ou entre variáveis modo R, com a finalidade de classificar os valores de uma matriz de dados em grupos discretos. Considerando no modo Q a

similaridade ou correspondência dos indivíduos em relação a todas as variáveis estudadas e no modo R a similaridade das variáveis baseados em todos os indivíduos. De acordo com Davis (1986) apud Landim (2001) os métodos para análise de agrupamento podem ser métodos de partição, métodos com origem arbitrária, métodos por similaridade mútua e métodos por agrupamentos hierárquicos.

O último método é mais usado em geologia (LAMDIM, 2001) e seu procedimento consiste nas seguintes etapas (KOVACH COMPUTING SERVICES, 1999):

a) Primeiramente, é feita uma matriz de similaridade entre cada par de casos. Há vários tipos de medidas de similaridade e distâncias que podem ser usados. b) Procura-se, então, na matriz o par com alto grau de similaridade ou menor

distância. Estes serão os casos mais similares e devem ser agrupados lado a lado.

c) O agrupamento formado por estes dois casos considera-se como um único objeto, sendo, então, a matriz de similaridade recalculada, de modo que todos os outros casos sejam comparados com este novo grupo.

d) A matriz modificada é varrida (como na etapa b) para encontrar o par de casos ou grupos que apresentam agora a mais alta similaridade ou menor distância. As etapas b e c são repetidas até que todos os objetos sejam combinados dentro de um único grupo.

Dentre as várias medidas de similaridade, as mais usadas são o coeficiente de correlação de Pearson e a medida da distância Euclidiana. Já, entre as diversas técnicas de agrupamentos propostas, as mais usadas são: ligação simples, ligação completa, agrupamento pareado proporcionalmente pareado, agrupamento pareado igualmente ponderado e variância mínima. Testes são aplicados em agrupamentos a fim de testar a validade da análise estatística. Os dois primeiros métodos citados acima, ligação simples e ligação completa, são mais simples, porém são os que apresentam maiores distorções nos resultados. O método pareado igualmente ponderado, “unweighted pair-group method” (UPGM), é mais confiável e o coeficiente de distância geralmente agrupa melhor amostras ou espécimes e o coeficiente de correlação, as variáveis, no sentido geológico (LAMDIM, 2001).

A representação gráfica final da similaridade entre pares é chamada de dendograma, onde pares de objetos com mais alto grau de similaridade são ligados entre si, ocorrendo, então, outra ligação com próximo objeto de maior similaridade, e assim, sucessivamente, formando uma árvore hierárquica.

3.7.2 Análise de componentes principais

A análise de componentes principais “é o mais antigo método de ordenação, o mais conhecido e com mais exemplos de aplicação em Geologia”. Consiste no cálculo de autovalores e correspondentes autovetores de uma matriz de variância- covariância ou de uma matriz de coeficientes de correlação entre variáveis, procedimento denominado de modo R. Para não ocorrer diferença de peso das variáveis devido a diferenças dimensionais entre estas, os dados geralmente são padronizados, de modo que a média dos valores seja zero e sua variância seja 1, tornando as matrizes de variância-covariância e a do coeficiente de correlação idênticas. Esta padronização influi muito nos resultados da análise, portanto, sua utilização deve ser criteriosa, levando-se em conta a natureza dos dados e o enfoque do estudo (LANDIM, 2001, p. 40).

Esta análise transforma “m” variáveis originais em “m” novas variáveis, sendo a primeira nova variável computada (componente 1) responsável pela maior variação possível existente no conjunto de dados, a segunda nova variável (componente 2) pela segunda maior variação, e assim, sucessivamente, até que toda variação do conjunto tenha sido explicada. Geralmente os dois ou três primeiros autovetores calculados explicarão a maior parte da variabilidade presente na amostragem. Porém, se o primeiro autovetor explica 90-95% da variabilidade, deve-se atentar se, originalmente, não há variáveis com magnitudes muito maiores do que as demais (LANDIM, 2001; KOVACH COMPUTING SERVICES, 1999).

Os autovetores equivalem às componentes principais e são os resultados do carregamento das variáveis originais em cada um deles. Esses carregamentos são considerados como uma medida da relativa importância de cada variável em relação às componentes principais e os respectivos sinais, positivos ou negativos, indicam se as relações são diretamente ou inversamente proporcionais (LANDIM, 2001). O primeiro autovetor representa o eixo principal de maior comprimento, o segundo

representa um segundo eixo em comprimento ortogonal ao primeiro eixo, e assim sucessivamente.

Ao multiplicar a matriz de carregamento de cada variável nas componentes principais pela matriz original de dados, obtém-se uma matriz de contagens de cada caso em relação às componentes principais. Pode-se ainda dispor estes valores em um gráfico de dispersão, cujos eixos são as duas principais componentes, expondo a relação dos casos condicionados com as variáveis medidas (LANDIM, 2001; KOVACH COMPUTING SERVICES, 1999).

Apesar da possibilidade do cálculo dessa segunda matriz e de uma representação gráfica de como as amostras ou espécimes são influenciadas pelas componentes principais, esta usualmente não é empregada no meio geológico. Sendo, o principal resultado dessa análise obtido pela decomposição dos vetores das variáveis nos eixos x e y, componente 1 e 2, respectivamente, no gráfico de dispersão com objetivo de determinar qual variável original tem maior influência sob a componente. A variável que apresenta maior valor absoluto da decomposição de seu vetor no eixo x é a variável que mais influi na componente 1 e a variável que apresenta maior valor no eixo y influi na componente 2.

Outro resultado importante é o índice de explicação pelas componentes que indicam a variabilidade da amostragem.