• Nenhum resultado encontrado

A análise de agrupamentos por clusterização compreende um conjunto de técnicas multivariadas, cuja principal finalidade é agregar objetos ou conjunto de variáveis em grupos denominados clusters, com base em suas dissimilaridades (Hair et al., 2009).

Os métodos de clusterização de dados são divididos em hierárquicos e não hierárquicos. Nos hierárquicos, os elementos de um grupo tornam-se elementos do grupo superior a partir de uma série de decisões de agrupamento, que combinam as observações em uma estrutura hierárquica. Nos métodos não hierárquicos, em geral, define-se k

grupos iniciais e, então, aloca-se as n observáveis aos k grupos. Nestes métodos, a

alocação inicial é arbitrária e iterativamente busca-se a alocação ótima (Hair et al., 2009). A Figura 2.2 ilustra por meio de diferentes cores a segmentação de dados em clusters.

Figura 2.2 – Processo de clusterização de um conjunto de dados.

Fonte: Autora (2018).

Neste trabalho será considerado o método não hierárquico de clusterização de dados usando o algoritmo k means , que aloca cada um dos n elementos existentes em um dos -

k grupos previamente estabelecidos. Objetiva-se com este método minimizar a soma dos

quadrados residuais dentro de cada grupo com a finalidade de aumentar a homogeneidade do mesmo, ao mesmo tempo em que se busca maximizar essa soma entre os grupos, aumentando a diferença entre eles (Johnson e Wichern, 2002). Ao final da distribuição dos n elementos nos k grupos, é calculada a Somatório dos Quadrados Residuais

(SQRe )s de cada grupo, conforme indicado na equação (15): 2 1 Re ( ) ng ( ) , i g i SQ s g

xx (15)

onde, g=  e 1, ,k ng corresponde ao número de elementos do g ésimo grupo. Após o cálculo de todas as SQRes dos k agrupamentos efetua-se o somatório de todos eles,

conforme indicado na equação (16):

1

Re ki Re ( ).

SQ s

SQ s i (16) Neste caso, quanto menor o valor de SQ Re mais homogêneos serão os grupos. A s

cada iteração são recalculadas a média do grupo e a soma dos quadrados correspondentes. Caso a SQ Re diminua, isto significa que a movimentação de um objeto de um grupo s

para outro é mantida, caso contrário, o objeto retorna ao grupo original ou se move para outro grupo, iniciando-se uma nova iteração. Quando a SQ Re não mais diminui ou o s

máximo de iterações predefinidas for ultrapassado, o processo termina e os grupos formados são apresentados.

Dentre as desvantagens do método destaca-se a liberdade de escolha do número de clusters feita pelo usuário. Caso o algoritmo selecione um número muito pequeno de clusters, isso pode acarretar na junção de dois clusters naturais e, por sua vez, um número exacerbado de clusters pode acarretar que um cluster natural seja dividido erroneamente em dois grupos distintos.

Na prática, a análise de clustering é utilizada na redução da heterogeneidade do conjunto de dados, o que possibilita simplificar ou reduzir o número de variáveis necessárias para a modelagem de um determinado problema. Nesta pesquisa, a técnica de clustering foi utilizada de forma complementar a técnica de PCA, visando identificar relacionamentos até então subjetivos entre as variáveis pertencentes à base de dados.

2.2.1 Medida de desempenho da clusterização dos dados

Para avaliar o desempenho a posteriori de um algoritmo de clusterização como o

k means , podem ser utilizadas medidas internas que avaliam a qualidade das partições ou clusters, em função do nível de compactação ou separabilidade dos mesmos. Dentre estas medidas se destaca o coeficiente da Silhueta, que quantifica o grau de dissimilaridade entre as variáveis que compõem cada cluster, auxiliando na seleção do melhor número de agrupamentos (Newman, 2004a; Kaufman e Rousseeuw, 1991).

O coeficiente da Silhueta permite avaliar para cada variável (observação) a sua coesão em relação a cada cluster. Além disso, possibilita verificar se os clusters apresentam uma

estrutura natural de agrupamento, ou seja, se as variáveis se encontram bem agrupadas ou posicionadas dentro de cada cluster e o quão forte é esta estrutura de agrupamento.

Esta medida é calculada para cada variável considerada na formação dos agrupamentos com base na seguinte formulação (Clauset et al., 2004):

- ( ) = max( , ) i i i i b a S i a b , (17)

onde, S é o coeficiente da Silhueta calculado para uma determinada variável i; ai é a dissimilaridade média existente entre a variável i em relação as demais variáveis pertencentes ao mesmo cluster, e; bi é a dissimilaridade média da variável i em relação as demais variáveis pertencentes ao cluster vizinho mais próximo.

A média do coeficiente da Silhueta para todas as variáveis i em relação aos dados analisados é obtida por:

= = N ( ) WC i 1 1 S Σ S i N , (18)

onde, SWC corresponde ao coeficiente médio obtido após o cálculo da Silhueta para cada variável analisada e N ao número total de variáveis analisadas.

Os coeficientes ( )S i e SWC variam de -1 a 1, fornecendo uma interpretação da solução individual para a variável ou para o conjunto de variáveis, respectivamente. Valores negativos não são desejáveis pois indicam que a distância média das variáveis pertencentes ao mesmo cluster é maior que a distância média em relação aos outros clusters.

Quanto mais próximo a 1 for o valor do ( )S i para uma determinada variável, mais

próximo a variável analisada está das demais variáveis do seu agrupamento e vice-versa. E, em relação ao SWC,valores próximos a 1 indicam uma forte estrutura de agrupamento, ou seja, as variáveis pertencentes a um agrupamento estão bem próximas.

Na literatura, a interpretação deste coeficiente é sugerida por Kaufman e Rousseeuw (1991). De acordo com os autores, valores entre 0,71S i( ) 1,00 sugerem que os clusters encontrados apresentam estrutura robusta de agrupamento; valores de 0,51S i( ) 0,70 que os clusters apresentam uma razoável estrutura de grupos; valores entre 0, 26S i( ) 0,50 que os clusters obtidos apresentam fraca estrutura de agrupamentos e valores de ( ) 0, 25S i  que os clusters não apresentam estrutura de agrupamento. Em geral, quanto maior o número de clusters menor será o valor médio da

Silhueta, ou seja, mais distante um ponto pertencente a um cluster estará em relação aos clusters vizinhos.