• Nenhum resultado encontrado

5.3 Análise de cluster

5.3.1 Análise e escolha do número de clusters

Para determinar o número de clusters a ser utilizado na sua análise é necessário verificar as variáveis que serão utilizadas, a existência de outliers, padronizar as variáveis, selecionar a medida de distância ou semelhança, selecionar o algoritmo de agrupamento e realizar a interpretação dos clusters. (FÁVERO et al., 2009)

As variáveis utilizadas foram os fatores resultantes da análise fatorial, assim as empresas foram agrupadas de acordo com estes fatores.

Não foram encontrados fatores com comportamento atípico, além disso, eles são padronizados em escalas semelhantes, o que não inviabiliza a análise de clusters.

Seleção de medida de distância ou semelhança

Nesta pesquisa é feita a escolha da medida de similaridade ou de distância a fim de obter clusters com objetos semelhantes.

De maneira geral, as medidas de similaridade ou distância podem ser classificadas em medidas de distância, correlacionais e de associação. As medidas de associação são utilizadas para o tratamento de variáveis nominais, sendo os coeficientes de emparelhamento simples, como método mais comum de cálculo. A medida correlacional busca correlacionar os perfis dos objetos analisados, através da similaridade de suas características e são adequadas para dados métricos. A medida correlacional mais comum utilizada é a correlação de Pearson a qual pode variar entre -1 e 1, com 0 representando a inexistência de associação entre os objetos. (FÁVERO et al., 2009)

Segundo Fávero et al. (2005) as medidas de distâncias são consideradas medidas de dissimilaridade, pois, valores maiores de distância representam menor semelhança entre os objetos, e vice-versa.

As principais medidas de distância utilizadas são a Euclidiana, Quadrática Euclidiana, Minskowski, Abosluta, Mahalanobis e Chebychev. (FÁVERO et al., 2009)

Nesta dissertação será utilizada a Distância Quadrática Euclidiana. De acordo com Fávero et al. (2005) o pacote estatístico SPSS a usa como padrão e quando se aplica métodos como o de Ward, como nesta pesquisa, a Distância Quadrática Euclidiana é a

mais recomendada. Ela representa a distância de Pitágoras ao quadrado e é calculada conforme a equação 5.6.

𝑑𝑖𝑗2 = ∑𝑝𝑘=1(𝑥𝑖𝑘+ 𝑥𝑗𝑘)2 (5.6) Onde:

dij - Distância Euclidiana Quadrática entre o elemento i e j ∀ 1 ≤ i ≤ k e 1 ≤ j ≤ k

Xik - Valor da variável k referente a observação i ∀ 1 ≤ i ≤ k e 1 ≤ k ≤ p Xjk - Valor da variável k referente a observação j ∀ 1 ≤ j ≤ k e 1 ≤ k ≤ p p - Número de variáveis

Seleção do algoritmo de agrupamento e determinação do número de clusters

Neste estágio é definido o algoritmo que fará o processo de agrupamento que determinará o número de clusters, os diferentes algoritmos são classificados em técnicas hierárquicas e não hierárquicas.

Nas técnicas hierárquicas são combinadas duas observações mais próximas em um cluster e posteriormente, agrupamentos diferentes também são combinados até formarem um único cluster. (HAIR et al, 2005)

O método hierárquico estabelece uma relação de hierárquica entre os sujeitos e grupos, ou seja, os resultados de um estágio anterior são estabelecidos com os resultados de um estágio posterior, criando uma estrutura tipo “árvore”. (HAIR et al, 2005; FÁVERO et al., 2009)

Dentre as técnicas hierárquicas se destacam o método aglomerativo onde cada sujeito (observação) é combinado com outros, formando novos agrupamentos por similaridade. E o método por divisão, o qual inicia com um grande agrupamento que é separado por distâncias maiores até cada observação tornar – se um grupo isolado. Um dos principais algoritmos utilizados para o agrupamento de clusters, no método hierárquico é o método de Ward que é utilizado para minimizar as diferenças internas dos grupos evitando assim o encadeamento das ponderações. Este método tende a proporcionar agregados com aproximadamente o mesmo número de observações. Nas técnicas não hierárquicas o número de clusters é definido a priori, assim, o algoritmo

identifica a melhor solução para atender esta demanda estabelecida. Esta técnica é adequada para agrupar indivíduos (que não são variáveis) em um banco de dados. O método não hierárquico não estabelece vínculos de hierarquia como os métodos hierárquicos, isto é, após escolher o número de clusters são identificadas as melhores soluções de agrupamento em um processo mais dinâmico. Além disso, a possibilidade de ocorreram erros nas classificações nos clusters é menor nos métodos não hierárquicos. (FÁVERO et al., 2009)

Segundo Hair et al. (2005) dentre os métodos não hierárquicos se destaca o algoritmo do K - means, onde é fornecida apenas uma solução para o número de clusters definidos utilizando para tanto a distância euclidiana. Conforme Gouvêa e La Plata (2006), através do método K-means, busca-se a minimização da variância interna aos grupos e maximização da variância entre os grupos.

O uso deste método não hierárquico possui três etapas básicas, a partição inicial dos indivíduos em K - clusters, cálculo dos centroides para cada um dos K - clusters e agrupamento dos sujeitos aos clusters, cujos centroides se encontram mais próximos. O fornecimento dos centroides é opcional e caso isto não ocorra, como no caso deste trabalho, a estimação do mesmo é feita de forma aleatória com base nas observações. (FÁVERO et al., 2009)

Esta etapa de seleção do algoritmo de agrupamento pode ser exemplificada pela, pela figura 5.1, onde os elementos da análise são combinados pelo algoritmo escolhido. As distâncias dentro dos clusters se diferenciam das distâncias entre cada cluster.

FIGURA 5.1 - Diagrama de variação intra e inter cluster

Neste trabalho, para a realização da análise de cluster foi utilizado o método hierárquico de forma exploratória, para se determinar o número inicial de clusters, pois, de acordo com Fávero et al (2009, p.225) “(...) recomenda-se que se utilize o número de clusters indicado a priori pelo método hierárquico “.

Segundo Hair et al. (2005) para a escolha do número de clusters através do método hierárquico, é necessário utilizar a análise dos coeficientes de aglomeração. Isto se deve, pois pequenos coeficientes, resultam em clusters homogêneos sendo formados, já coeficientes maiores ou com grande variação, indicam clusters distintos.

Dentro do método hierárquico foi escolhido o método aglomerativo e o algoritmo utilizado foi o de Ward devido a minimização de diferenças dentro dos clusters.

Assim, é necessário calcular a diferença entre os valores dos coeficientes de aglomeração, o estágio anterior ao valor de maior diferença, é o ponto de parada e vai indicar o número de clusters a ser utilizado. (HAIR et al, 2005)

Com esse fim, foi analisada a variação dos coeficientes de conglomeração, os quais são apresentados no gráfico 5.3 e na tabela 5.5. Verifica-se que ao se excluir a solução para dois clusters, pois não haveria distinção significativa entre as empresas de cada cluster formado, os maiores valores para a variação dos coeficientes de aglomeração são para o cluster 3, assim, o ponto de parada é o cluster 4, pois, este é ponto anterior ao que possui maior variação, por isso, foram escolhidos 4 clusters para análise.

GRÁFICO 5.3 - Distribuição da variação por cluster

Fonte: Elaborado pelo autor ,000 200,000 400,000 600,000 800,000 1000,000 1200,000 1400,000 1600,000 1 2 3 4 5 6 7 8 9 10 11 12 C oef icien te de ag lo m er aç ão Clusters

TABELA 5.5 – Análise do coeficiente de aglomeração Número de clusters Coeficiente de aglomeração Variação Variação percentual do coeficiente em relação ao cluster anterior 1 1452,000 2 1310,287 141,713 9,76% 3 1180,268 130,018 9,92% 4 1073,088 107,180 9,08% 5 987,507 85,581 7,98% 6 915,075 72,433 7,33% 7 860,153 54,921 6,00% 8 811,620 48,533 5,64% 9 767,901 43,718 5,39% 10 729,000 38,902 5,07% 11 692,125 36,874 5,06% 12 659,456 32,670 4,72%

Fonte: Elaborado pelo autor.

Além da análise do método de variação dos coeficientes de aglomeração, utilizou- se o Dendograma da figura 5.2, para a confirmação do número de clusters a serem formados. É observado a existência de 4 clusters destacados.

FIGURA 5.2 - Dendograma obtido pelo método hierárquico