• Nenhum resultado encontrado

2. REVISÃO BIBLIOGRÁFICA

2.6. ANÁLISE MULTIVARIADA

O termo análise multivariada refere-se à análise conjunta de diversas características, simultaneamente. A análise multivariada envolve diversas técnicas analíticas, como métodos de agrupamento, componentes principais e variáveis canônicas, entre outras. As análises rudimentares e exploratórias de dados, como os procedimentos gráficos, auxiliam, em geral, o entendimento da complexa natureza da análise multivariada. Encontrar nos dados uma estrutura natural de agrupamento é uma importante técnica exploratória.

A análise de agrupamento deve ser distinguida da análise discriminante, pelo fato de esta última ser aplicada a um número de grupos já conhecidos, tendo por objetivo a discriminação de um novo indivíduo em um desses grupos. A análise de agrupamento, por sua vez, não considera o número de grupos e é realizada com base na similaridade ou dissimilaridade (distâncias). O objetivo desta análise é agrupar objetos semelhantes segundo suas características (variáveis). Todavia, não existem impedimentos para realizar o agrupamento de variáveis semelhantes segundo as realizações obtidas pelos objetos amostrados.

indivíduos ou itens a serem agrupados. A segunda envolve a adoção de uma técnica de agrupamento para a formação dos grupos.

Para avaliar se há divergência ou não, em relação a cor, entre os açúcares mascavos provenientes dos produtores da ARPRAM e concorrentes, foram utilizadas análises multivariadas.

2.6.1. Medidas de dissimilaridade ou similaridade

A distância euclidiana entre dois objetos quaisquer é obtida por analogia ao teorema de Pitágoras, para um espaço multidimensional, sendo equivalente ao comprimento da hipotenusa do triângulo retângulo projetado.

Sejam ´ [ 11 12.... 1 ]

1 X X X p

X = e ´ [ 21 22.... 2 ]

2 X X X p

X = observações entre dois

objetos (indivíduos). Então, a distância euclidiana entre eles é dada por:

) ( ) ( ) ( ... ) ( ) ( ) ( 2 1 2 2 1 2 2 1 2 22 12 2 21 11 2 1 X X X X X X X X X X X X d − = − + − + + pp = − −

A distância euclidiana média é o somatório das distâncias entre dois objetos, dividido pelo número de objetos ou indivíduos. Nesse caso, é fornecida por:

p X X d y p h 2 ] ) ( − =

∫= λ ι 2.6.2. Técnicas de agrupamentos 2.6.2.1. Dispersão gráfica

Este procedimento permite a dispersão dos dados em sistema de eixos cartesianos, representados por duas variáveis selecionadas pelo usuário. Tem sido de grande utilidade para avaliação visual da similaridade e dissimilaridade de acessos em relação a duas variáveis ou a duas funções lineares de variáveis.

2.6.2.2. Métodos hierárquicos

Os agrupamentos hierárquicos são realizados por sucessivas fusões ou por sucessivas divisões.

Os métodos hierárquicos aglomerativos iniciam-se com o mesmo número de grupos e objetos, ou seja, cada objeto forma um agrupamento. Inicialmente, os objetos mais similares são agrupados e fundidos, formando um único grupo. Eventualmente, o processo é repetido, e, com o decréscimo da similaridade, todos os subgrupos são fundidos, formando um único grupo com todos os objetos. Os métodos hierárquicos divisíveis trabalham na direção oposta. Um único subgrupo inicial existe com todos os objetos, e estes são subdivididos em dois subgrupos, de forma que haja o máximo de semelhança entre os objetos dos mesmos subgrupos e a máxima dissimilaridade entre elementos de subgrupos distintos. Estes subgrupos são posteriormente subdivididos em outros subgrupos dissimilares. O processo é repetido até que haja tantos subgrupos quanto objetos.

Com exemplo, têm-se os métodos hierárquicos aglomerativos (Linkage Methods) como os métodos de ligação simples (mínima distância ou vizinho mais próximo), ligação completa (máxima distância ou vizinho mais distante) e ligação média (distância média). As idéias para esses três processos estão, esquematicamente, apresentadas na Figura 2.5.

Figura 2.5. Distâncias entre os grupos para os métodos de (a) ligação simples, (b) ligação completa e (c) ligação média.

No método hierárquico da variância mínima de Ward, para formação do grupo inicial, são considerados os indivíduos que proporcionam a menor soma de

. 2 . 1 . 3 . 4 5 .2 .1 . 3 . 4 5 . 3 . 4 5 .2 .1 d24 (a) (b) d15 (c) (d13 + d14 + d15 + d23 + d24 + d25) / 6

soma de quadrados dos desvios dentro do grupo em formação e a soma de quadrado total dos desvios. Enquanto se calcula a soma de quadrados total dos desvios dentro do grupo, considerando apenas os indivíduos dentro do grupo em formação, a soma de quadrados dos desvios totais considera todos os indivíduos disponíveis para análise de agrupamento (CRUZ; CARNEIRO, 2003). O agrupamento é feito a partir das somas de quadrados dos desvios entre indivíduos ou, alternativamente, a partir do quadrado da distância entre os indivíduos.

Os resultados finais desses agrupamentos podem ser apresentados por gráficos denominados dendrogramas, também conhecidos como diagramas de árvore. Os dendrogramas apresentam os elementos e os respectivos pontos de fusão ou divisão dos grupos formados em cada estágio. O agrupamento e o comprimento das arestas (alturas) representam a distância ou o percentual de distância máxima com que os grupos são reunidos.

2.6.2.3. Método de Otimização de Tocher

Segundo Tocher, citado por Rao (1952), este método deve ser estabelecido pelo critério de que valores das distâncias intragrupos sejam inferiores a qualquer distância intergrupos. Por este método, identificado o par de itens que apresenta o menor valor de distância (D2ii’) na matriz de dissimilaridade, os quais formarão o grupo inicial. Em seguida, é avaliada a possibilidade de inclusão de outros itens nesse grupo inicial. A entrada de um item num grupo aumenta o valor médio da distância intragrupo. A inclusão ou não deste item no grupo será permitida se o acréscimo no valor da distância média intragrupo não ultrapassar um valor máximo permitido (CARVALHO, 1993), que pode ser arbitrariamente estabelecido ou corresponder ao valor máximo da medida de dissimilaridade (D2ii), obtido no conjunto de menores distâncias envolvendo cada par de indivíduos, sendo esta a medida adotada no presente trabalho.

Na análise de agrupamentos utilizou-se como medida de dissimilaridade a distância euclidiana média e, para delimitação dos grupos, foram usados a dispersão Gráfica, utilizando as variáveis de maior importância para as divergências assinaladas por Singh (1981), métodos de otimização de Tocher e o hierárquico de Ward.

Documentos relacionados