Visualizador de Cluster - IBM SPSS Statistics Base 25 IBM

O Visualizador de Cluster é composto de dois painéis, a visualização principal à esquerda e a visualização vinculada ou auxiliar à direita. Existem duas visualizações principais:

v Sumarização do Modelo (o padrão). Consulte o tópico “Visualização de Sumarização do Modelo” para obter mais informações

v Clusters. Consulte o tópico “Visualização de Clusters” para obter mais informações Existem quatro visualizações vinculadas/auxiliares:

v Importância do Preditor. Consulte o tópico “Visualização de Importância do Preditor de Cluster” na página 91 para obter mais informações

v Tamanhos do Cluster (o padrão). Consulte o tópico “Visualização de Tamanhos de Cluster” na página 91 para obter mais informações

v Distribuição da Célula. Consulte o tópico “Visualização de Distribuição de Célula” na página 91 para obter mais informações

v Comparação do Cluster. Consulte o tópico “Visualização de Comparação do Cluster” na página 91 para obter mais informações

Visualização de Sumarização do Modelo: A visualização de Sumarização do Modelo mostra uma captura instantânea ou uma sumarização do modelo de cluster, incluindo uma medida de Silhueta de coesão e separação do cluster que é sombreada para indicar resultados insatisfatórios, justos ou bons.

Essa captura instantânea lhe permite verificar rapidamente se a qualidade é insatisfatória e, nesse caso, você pode decidir retornar para o nó de modelagem para corrigir as configurações de modelo de cluster para produzir um melhor resultado.

Os resultados insatisfatórios, justos e bons são baseados no trabalho de Kaufman e Rousseeuw (1990) relativos à interpretação de estruturas de cluster. Na visualização de Sumarização do Modelo, um bom resultado equivale a dados que refletem a classificação de Kaufman e Rousseeuw como evidência razoável ou forte de estrutura de cluster, resultado justo reflete a sua classificação de evidência fraca e insatisfatório reflete a sua classificação de evidência insignificante.

As médias de medida de silhueta, sobre todos os registros, (B−A) / máx(A,B), em que A é a distância do registro para o seu centro do cluster e B é a distância do registro para o centro do cluster mais próximo ao qual ele não pertence. Um coeficiente de silhueta 1 significaria que todos os casos estão localizados diretamente em seus centros do cluster. Um valor 1 significaria que todos os casos estão localizados nos centros do cluster de algum outro cluster. Um valor 0 significa, em média, que os casos estão

equidistantes entre o seu próprio centro do cluster e o outro cluster mais próximo.

A sumarização inclui uma tabela que contém as informações a seguir:

v Algoritmo.O algoritmo de clusterização usado, por exemplo, "TwoStep".

v Variáveis de Entrada.O número de campos, também conhecido como entradas ou preditores.

v Clusters.O número de clusters na solução.

Visualização de Clusters: A visualização de Clusters contém uma grade de cluster por variáveis que inclui nomes, tamanhos e perfis de cluster para cada cluster.

As colunas na grade contêm as informações a seguir:

v Cluster.Os números do cluster criados pelo algoritmo.

v Rótulo.Qualquer rótulo aplicado a cada cluster (em branco por padrão). Clique duas vezes na célula para inserir um rótulo que descreve os conteúdos do cluster; por exemplo, "Compradores de carros de luxo".

v Descrição.Qualquer descrição dos conteúdos do cluster (em branco por padrão). Clique duas vezes na célula para inserir uma descrição do cluster; por exemplo, "+ de 55 anos de idade, profissionais, que ganham acima de $100.000 por ano".

v Tamanho.O tamanho de cada cluster como uma porcentagem da amostra geral de cluster. Cada tamanho de célula dentro da grade exibe uma barra vertical que mostra a porcentagem de tamanho dentro do cluster, uma porcentagem de tamanho em formato numérico e as contagens de caixa do cluster.

v Variáveis.As entradas individuais ou preditores, ordenados por importância geral por padrão. Se quaisquer colunas tiverem tamanhos iguais elas serão mostradas em ordenação ascendente dos números do cluster.

A importância geral da variável é indicada pela cor do sombreamento de segundo plano da célula; a variável mais importante é mais escura; a variável menos importante é sem sombreamento. Um guia acima da tabela indica a importância conectada a cada cor da célula da variável.

Quando você passa o mouse sobre uma célula, o nome/rótulo completo da variável e o valor de importância para a célula é exibido. Informações adicionais podem ser exibidas, dependendo da visualização e do tipo de variável. Na visualização de Centros do Cluster, isso inclui a estatística de célula e o valor da célula; por exemplo: “Média: 4,32”. Para variáveis categóricas a célula mostra o nome da categoria mais frequente (modal) e a sua porcentagem.

Dentro da visualização de Clusters, é possível selecionar várias maneiras para exibir as informações do cluster:

v Transpor clusters e variáveis. Consulte o tópico “Transpor Clusters e Variáveis” para obter mais informações

v Ordenar variáveis. Consulte o tópico “Ordenar Variáveis” para obter mais informações v Ordenar clusters. Consulte o tópico “Ordenar Clusters” para obter mais informações

v Selecionar conteúdos da célula. Consulte o tópico “Conteúdos da Célula” na página 91 para obter mais informações

Transpor Clusters e Variáveis: Por padrão, clusters são exibidos como colunas e variáveis são exibidas como linhas. Para inverter essa exibição, clique no botão Transpor Clusters e Variáveis à esquerda dos botões Ordenar Variáveis Por. Por exemplo, talvez você queira fazer isso quando tiver muitos clusters exibidos, para reduzir a quantia de rolagem horizontal necessária para ver os dados.

Ordenar Variáveis: Os botões Ordenar Variáveis Por lhe permitem selecionar como as células da variável são exibidas:

v Importância Geral.Esse é o padrão de ordenação. Variáveis são ordenadas em ordem decrescente de importância geral e a ordenação é a mesma ao longo de clusters. Se qualquer variável tiver valores de importância ligados, as variáveis ligadas são listadas em ordenação ascendente dos nomes de variáveis.

v Importância Dentro do Cluster.Variáveis são ordenadas em relação à sua importância para cada cluster. Se qualquer variável tiver valores de importância ligados, as variáveis ligadas são listadas em ordenação ascendente dos nomes de variáveis. Quando essa opção é escolhida, a ordenação geralmente varia ao longo de clusters.

v Nome.Variáveis são ordenadas por nome em ordem alfabética.

v Ordem de dados.Variáveis são ordenadas por sua ordem no conjunto de dados.

Ordenar Clusters: Por padrão, clusters são ordenados em ordem decrescente de tamanho. Os botões Ordenar Clusters Porpermitem que você os ordene por nome em ordem alfabética ou, se você criou rótulos exclusivos, em ordem alfanumérica de rótulo em vez disso.

Variáveis que têm o mesmo rótulo são ordenadas por nome do cluster. Se clusters forem ordenados por rótulo e você editar o rótulo de um cluster, a ordenação será atualizada automaticamente.

Conteúdos da Célula: Os botões de Células lhe permitem mudar a exibição dos conteúdos da célula para variáveis e campos de avaliação.

v Centros do Cluster.Por padrão, células exibem nomes/rótulos de variável e a tendência central para cada combinação de cluster/variável. A média é mostrada para campos contínuos e o modo (categoria que ocorre mais frequentemente) com porcentagem de categoria para campos categóricos.

v Distribuições Absolutas.Mostra nomes/rótulos de variável e distribuições absolutas das variáveis dentro de cada cluster. Para variáveis categóricas, a exibição mostra gráficos de barras sobrepostos com categorias ordenadas em ordem crescente dos valores dos dados. Para variáveis contínuas, a exibição mostra um gráfico de densidade suave que usa os mesmos terminais e intervalos para cada cluster.

A exibição de cor vermelha sólida mostra a distribuição de cluster, enquanto a exibição mais pálida representa os dados gerais.

v Distribuições Relativas.Mostra nomes/rótulos de variável e distribuições relativas nas células. Em geral, as exibições são semelhantes àquelas mostradas para distribuições absolutas, exceto que distribuições relativas são exibidas em vez disso.

A exibição de cor vermelha sólida mostra a distribuição de cluster, enquanto a exibição mais pálida representa os dados gerais.

v Visualização Básica.Onde houver muitos clusters, pode ser difícil ver todos os detalhes sem rolagem.

Para reduzir a quantia de rolagem, selecione essa visualização para mudar a exibição para uma versão mais compacta da tabela.

Visualização de Importância do Preditor de Cluster: A visualização de Importância do Preditor mostra a importância relativa de cada campo na estimativa do modelo.

Visualização de Tamanhos de Cluster: A visualização de Tamanhos de Cluster mostra um gráfico de pizza que contém cada cluster. O tamanho da porcentagem de cada cluster é mostrado em cada fatia;

passe o mouse sobre cada fatia para exibir a contagem dessa fatia.

Abaixo do gráfico, uma tabela lista as informações de tamanho a seguir:

v O tamanho do menor cluster (ambas: uma contagem e uma porcentagem do todo).

v O tamanho do maior cluster (ambas: uma contagem e uma porcentagem do todo).

v A razão de tamanho do maior cluster para o menor cluster.

Visualização de Distribuição de Célula: A visualização de Distribuição de Célula mostra um gráfico expandido, mais detalhado, da distribuição dos dados para qualquer célula de variável que você selecionar na tabela no painel principal de Clusters.

Visualização de Comparação do Cluster: A visualização de Comparação do Cluster consiste em um layout de estilo em grade, com variáveis nas linhas e clusters selecionados nas colunas. Essa visualização o ajuda a entender melhor os fatores que compõem os clusters; ela também lhe permite ver diferenças entre clusters não apenas conforme comparados com os dados gerais, mas uns com os outros.

Para selecionar clusters para exibição, clique na parte superior da coluna de cluster no painel principal de Clusters. Use Ctrl-clique ou pressione Shift e clique para selecionar ou cancelar a seleção de mais de um cluster para comparação.

Nota: É possível selecionar até cinco clusters para exibição.

Clusters são mostrados na ordem em que eles foram selecionados, enquanto a ordem de campos é determinada pela opção Ordenar Variáveis Por. Quando você seleciona Importância Dentro do Cluster, os campos são sempre ordenados por importância geral.

Os gráficos de segundo plano mostram as distribuições gerais de cada variável:

v Variáveis categóricas são mostradas como gráficos de pontos, em que o tamanho do ponto indica a categoria mais frequente/modal para cada cluster (por variável).

v Variáveis contínuas são exibidas como diagramas de caixa, que mostram medianas gerais e as amplitudes interquartis.

Sobrepostos nessas visualizações de segundo plano estão diagramas de caixa para clusters selecionados:

v Para variáveis contínuas, marcadores de ponto quadrado e linhas horizontais indicam a amplitude mediana e interquartil para cada cluster.

v Cada cluster é representado por uma cor diferente, mostrada na parte superior da visualização.

No documento IBM SPSS Statistics Base 25 IBM (páginas 93-96)