• Nenhum resultado encontrado

5 METODOLOGIAS UTILIZADAS NESTE TRABALHO

5.6 A NÁLISE ESTATÍSTICA

5.6.3 Análise de agrupamento (Cluster Analysis)

Analise de agrupamentos (cluster analysis) é um termo usado para descrever diversas técnicas numéricas cujo propósito fundamental é classificar os valores de uma matriz de dados sob estudos em grupos discretos. A técnica classificatória multivariada da analise de agrupamentos pode ser usadas quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis medidas em cada indivíduos e , no segundo, todos os indivíduos nos quais foram feito as mesmas mensurações. Segundo esse método, desenvolvido inicialmente em zoologia por taxonomistas numéricos, procura-se por agrupamentos

homogêneos de itens representado por pontos num espaço n-dimencional em número conveniente de grupos relacionando-os através de coeficientes de similaridades ou de correspondência.

5.6.3.1 Métodos de classificação

Segundo Davis, 1986 apud Landim, (2000) os diversos métodos para análise de agrupamento podem ser enquadrados em quatro tipos gerais. No entanto, nesse estudo será detalhado apenas o método por agrupamentos hierárquicos

a) Métodos de partição

b) Métodos com origem arbitrária c) Métodos por similaridade mútua

d) Métodos por agrupamento hierárquicos

O Método por agrupamentos hierárquicos, são técnicas mais comumente usadas em estudos de geologia, em que, a partir da matriz inicial de dados obtém-se uma matriz simétrica de similaridades e inicia-se a detecção de pares de casos com a mais alta similaridade, ou a mais baixa distancia; para essa combinação, segundo níveis hierárquico de similaridades, escolhe-se entre os diversos procedimentos aglomerativo de tal modo que cada ciclo de agrupamento obedeça a uma ordem sucessiva no sentido do decréscimo de similaridade.

5.6.3.2 Metodologia para agrupamento hierárquico

Partindo de uma matriz inicial de dados [n*p] onde “n” linhas representam casos, espécies ou amostras, no sentido geológico ou geoquímico, e as “p” colunas as variáveis, feitas as comparações,usando um coeficiente de similaridade qualquer entre linhas, obtém-se uma matriz inicial de coeficientes de similaridade de tamanho [ n*n], que será utilizada no modo Q. Se a comparação for entre colunas, obtém-se uma matriz inicial de coeficientes de similaridade de tamanho [p*p] que será utilizada no modo R. Embora diversas medidas de similaridades tenham sido propostas, somente duas são geralmente usadas: o coeficiente de correlação de pearson e a medida de distancia euclideana. Se as variáveis forem padronizadas a partir da

matriz inicial de dados, dando o mesmo peso a cada uma delas, qualquer um desses coeficientes poderá ser diretamente transformado no outro.

Varias técnicas de agrupamentos tem sido proposta, e os métodos mais usados são: ligação simples (single linkage method ou nearest neighbor); ligação

completa (complet linkage method); agrupamento pareado proporcionalmente

ponderado (weighted pair-group method, WPGM); agrupamento pareado igualmente

ponderado (unweighted pair-group method, UPGM); variança mínima (minimum

variance clustering ou ward ´s method of sum-of-squares method).

Os métodos de ligação simples e ligação completa serão suprimidos nesse trabalho e discutiremos em seguida os métodos de agrupamento pareado proporcionalmente ponderado, agrupamento pareado igualmente ponderado e o método de agrupamento pela variança mínima (Landim, 2000).

5.6.3.3 Métodos de agrupamento pareado

No método de agrupamento pareado procura-se inicialmente pelos altos índices de associação mútua. Em seguida esses pares de casos fornecerão valores médios originando um novo valor singular. No método de agrupamento pareado igualmente ponderado para o calculo dos valores médios atribui-se sempre o mesmo peso aos dois elementos que estão sendo integrados. No método de agrupamento

pareado proporcionalmente ponderado para cada agrupamento é dado um peso

proporcional ao número de objeto que o constitui, de tal modo que a incorporação de novo elemento baseia-se no nível médio de similaridade desse elemento com todos que fazem parte do grupo. A partir desses dois métodos, em vez de obter valores médios entre os casos podem ser utilizados centróides e verificado a distancia entre os mesmos.

No método de agrupamento pela variança mínima o enfoque é sobre a variabilidade que existe dentro de cada caso e os agrupamentos são efetuados ao se determinar que pares de casos, quando tomados em conjunto, apresentam o menor acréscimo de variabilidade.

A aplicação desta metodologia tem mostrado que os métodos pareados igualmente ponderados são superiores aos demais e que o coeficiente distancia usualmente agrupa melhor espécimes ou amostras no sentido geológico-

geoquímico, enquanto o coeficiente de correlação é recomendado para o agrupamento entre variáveis. Essas afirmações são baseadas na correlação cofonética que ao apresentar valores abaixo de 0,8 indicam distorções significativas no denograma obtido.

O método hierárquico tem sido preferido em relação aos que utilizam centróides. Estes porem mostram-se, em termos computacionais, mais úteis quando se tem que manipular grandes matrizes de dados, por exemplo, com mais de 1000 casos (Landim, 2000).

5.6.3.4 Dendrograma

A forma gráfica mais usada para representar o resultado final dos diversos agrupamentos é o dendrograma Figura 5.3. Nele estão dispostos linhas ligadas segundo os níveis de similaridade que agrupam pares de espécimes ou de variáveis. Como este gráfico é uma simplificação em duas dimensões de uma relação n- dimencional é inevitável que algumas distorções quanto à similaridade apareçam. A medida de distorção pode ser obtida por um coeficiente de correlação, dito cofonético, entre os valores da matriz inicial de similaridade e aqueles derivados do dendrograma. Dendrograma E28 E15 E31 E19 E18 E14 E11 E7 E6 E3 E23 E10 E2 E27 E26 E32 E25 E24 E30 E5 E17 E16 E9 E8 E1 0 50 100 150 200 D ist ânci a de l igaç ã o

Visualmente isso pode ser também verificado por meio da construção de sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade originais estarão na abscissa e os coeficientes de similaridades a partir do denograma em ordenada. Se ambas as matrizes forem idênticas os pontos cairão sobre uma linha reta que passará pela origem do sistema. Desvio dos pontos em relação a essa reta indicarão as distorções (Landim, 2000).

5.6.3.5 Coeficientes de similaridade

Os coeficientes de similaridade mais usuais, obtidos num espaço multidimensional, podem ser subdivididos em três categorias:

a) os que medem a distância , ou separação angular, entre os pares de pontos; b) os que medem a correlação entre pares de valores;

c) os que medem associação entre pares de caracteres qualitativos. Nesse estudo discutiremos a seguir os itens (a e b).

5.6.3.6 Medidas de distancias

São medidas que expressam o grau de similaridade como distancia em espaço multidimensional. Quanto menor a distância maior, maior o grau de similaridade e vice-versa. A distância (D) entre dois pontos cuja localização é especificada num sistema de coordenadas cartesianas é fornecida segundo o teorema de Pitágoras:

D1.2 = ( X1-X2)2 + (Y1-Y2)2

Onde; X1-X2 e Y1-Y2, são os valores das coordenadas dos dois pontos.

Tendo todas as variáveis o mesmo peso, conseqüentemente a função distancia será limitada a valores entre 0 (maior similaridade) e 1 (menor similaridade). Pode também ser usado o coeficiente cosseno-teta que é uma medida de proporcionalidade expressando o grau de similaridade em termos de separação angular segundo a expressão abaixo, (Landim, 2000).

(

)

Cos

x x

x

x

pq ip iq ip iq

θ

=

2

2 1 2/

,

Onde P e Q = Valores comparados

5.6.3.7 Coeficientes de correlação

Mede o grau de associação entre valores pela representação de pontos num sistema de coordenadas e suas respectivas posições em relação uma linha reta. Podem ser considerado, o coeficiente de correlação paramétrico (pearson), como o não paramétrico (spearman). Será apresentado a seguir o coeficiente de correlação paramétrico (pearson).

O coeficiente de correlação paramétrico (pearson) é o coeficiente de correlação da amostra r (ou ρ*) o qual é uma estimativa do coeficiente de correlação populacional ρ*, é obtido pela seguinte expressão:

r

x y

x

y

xi x

yi y

n

xi x

n

yi y

n

=

=

−−

cov( , )

[var( ) var( )] /

(

) (

)

[

(

)

.

(

)

] /

1 2

1

2

1

2

1

1 2

Σ

Σ

Σ

Onde n é número de pares de valores para (xj,yj), variáveis com distribuição normal e (x,y) são os valores médios para (xj,yj). Os valores de r são medidas adimensionais, podem variar entre -1 e + 1, expressando desde comportamento totalmente inverso até comportamento totalmente direto entre duas variáveis. Quando r = 0 significa que não há relação linear entre (X e Y).

Documentos relacionados