EXECUTIVE MASTER EM
APPLIED BUSINESS ANALYTICS
UNIDADE CURRICULAR:
Elisabeth Fernandes
Nuno Pinho da Silva
Ano letivo 2015/2016
MÉTODOS DE SEGMENTAÇÃO
Relatório da Aplicação do Algoritmo SOM – Mapa
Auto-organizado
Aplicação do Algoritmo SOM – Mapa Auto-organizado
Este relatório descreve e sumariza os resultados do agrupamento dos países constantes na base de dados BLI.sav com base da aplicação do algoritmo SOM (Self Organizing Maps) – Mapas Auto-organizados.
Os dados BLI são parte do estudo da OCDE e caracterizam a qualidade de vida em 36 Países com base em 24 indicadores, nomeadamente, 3 referem-se à habitação, 2 variáveis relativas aos rendimentos do agregado familiar, 4 referem-se ao emprego, 1 indicador refere-se ao suporte comunitário, 3 referem-refere-se à educação, 2 variáveis relativas ao ambiente, 2 relativas ao comportamento cívico, 2 indicadores relativos à saúde, 1 refere-se à satisfação global com a vida, 2 variáveis referem-se à segurança e 2 ao equilíbrio entre a vida profissional e a vida pessoal. Uma análise descritiva das variáveis pode ser encontrada em (Fernandes & Pinho da Silva, 2016)
Aplicação do algoritmo SOM
Os mapas auto-organizados são uma rede neuronal bidimensional, que preserva as relações topológicas do espaço de entrada, i.e. proximidade na entrada implica proximidade no espaço de saída. A rede é constituída por duas camadas: na camada de entrada, cada unidade representa uma variável, e na camada de saída, cada neurónio representa um grupo de casos.
O algoritmo SOM não fornece segmentos mas apenas micro-segmentos, que são caracterizados por cada uma das unidades de saída da rede. A implementação utilizada no SPSS Modeler 17 inicializa a rede com pesos aleatórios e, portanto, os resultados em experiências diferentes com os mesmos dados podem variar. No entanto, teoricamente, é possível inicializar o algoritmo de forma determinística, distribuindo uniformemente os pesos pela rede.
A : o maior segmento tem 5 indivíduos (2 grupos) e o menor tem 1 indivíduo (3 grupos).
Figura 1 e Figura 2 sumarizam os resultados da aplicação do algoritmo SOM e confirmam a fragmentação do agrupamento obtido, i.e. a obtenção de micro-segmentos: o maior segmento tem 5 indivíduos (2 grupos) e o menor tem 1 indivíduo (3 grupos).
Figura 1. Sumário do modelo e avaliação do (pseudo) agrupamento SOM. A medida de qualidade do agrupamento utilizada é uma aproximação ao critério silhueta (Kaufman & Rousseeuw, 1990).
Análise do agrupamento SOM com base no algoritmo hierárquico de
Ward
Para obter uma partição mais homogénea, os micro-segmentos obtidos pelo algoritmo SOM são caracterizados pelas suas médias em cada variável e agrupados pelo método de Ward. As Figura 3 – Figura 5 apresentam os resultados deste processo. Da análise do dendograma e do gráfico d variação percentual da distância de ligação conclui-se a existência de 3 grupos.
Figura 3. Dendograma resultante da aglomeração dos micro-segmentos SOM com o método de Ward.
Figura 4. Variação da distância de ligação dos agrupamentos com o método de Ward.
0.31 0.79 1.31 2.19 3.07 3.96 4.96 6.09 8.04 10.39 13.82 18.63 28.03 0 2 4 6 8 10 12 14
Distância de ligação
Figura 5. Variação percentual da distância de ligação da partição com o método de Ward.
Na Figura 5 verifica-se que a variação percentual da distância de ligação estabiliza nos 3 segmentos, pelo que este é o número de grupos da partição. Este resultado é suportado pelo Dendograma, que mostra distâncias de ligação entre 5 e 10 para um agrupamento com 3 segmentos, a menor diferença que excluí grupos com apenas um elemento.
Caracterização dos grupos
A Tabela 1 mostra as 18 variáveis que têm uma associação forte ou muito forte com a agrupamento. Este resultado contrasta com a aplicação direta do algoritmo hierárquico de Ward, onde se verifica que apenas 7 variáveis comprem este requisito. A explicação reside na utilização da média dos micro-segmentos resultantes da aplicação das redes de SOM, que filtram os valores extremos, promovendo que um maior número de variáveis vão contribuir para o decréscimo da distância de ligação total.
Measures of Association
Eta
HOU_Wbf_p_mean * Ward Method .891
HOU_rpp_r_mean * Ward Method .883
INC_Hni_mu_mean * Ward Method .919
INC_Hfw_mu_mean * Ward Method .821
JOB_Er_p_mean * Ward Method .741
JOB_Pe_mu_mean * Ward Method .956
COM_p_mean * Ward Method .742
EDU_Ski_s_mean * Ward Method .856
EDU_Yea_y_mean * Ward Method .775
ENV_Ap_m_mean * Ward Method .800
ENV_Wq_p_mean * Ward Method .910
CIV_Vote_p_mean * Ward Method .701
HEA_Le_y_mean * Ward Method .781
HEA_Srh_p_mean * Ward Method .786
LIF_Sat_as_mean * Ward Method .898
SAF_Ass_p_mean * Ward Method .849
SAF_Hom_r_mean * Ward Method .908
WLB_Hour_p_mean * Ward Method .890
151% 66% 67% 40% 29% 25% 23% 32% 29% 33% 35% 50% 0 2 4 6 8 10 12 14
Tabela 1. Variáveis com associação forte ou muito forte com o agrupamento, de acordo com o critério
𝑬𝒕𝒂 ≥ 𝟎. 𝟕.
Dado o elevado número de variáveis cuja associação com o agrupamento é forte ou muito forte, optou-se por descrever os grupos com base nas variáveis cuja associação com o agrupamento é muito forte, de acordo com o critério 𝐸𝑡𝑎 ≥ 0.9 (Laureano & Botelho, 2012). Estas variáveis encontram-se na Tabela 2.
Measures of Association
Eta
INC_Hni_mu_mean * Ward Method .919
JOB_Pe_mu_mean * Ward Method .956
ENV_Wq_p_mean * Ward Method .910
SAF_Hom_r_mean * Ward Method .908
Tabela 2. Variáveis descritivas com associação muito forte com o agrupamento com 3 segmentos.
A Tabela 3 caracteriza os grupos com base na média e no desvio padrão das variáveis dentro de cada segmento. O grupo 3 agrega os países com melhor nível de vida, enquanto que o grupo 1 agrega os países com valores mais baixos nos indicadores. O grupo 2 agrega os países com valores intermédios nos indicadores.
Em contraste com a aplicação direta do método de Ward, o esquema estudado neste relatório, que consiste em realização uma micro-segmentação com o SOM e, posteriormente, agrupar com o método de Ward, permite definir claramente as fronteiras de separação entre os clusters.
Ward Method INC_Hni_mu_mean JOB_Pe_mu_mean ENV_Wq_p_mean SAF_Hom_r_mean
1 Mean 15795.5000 20348.6667 66.3333 11.6000 Std. Deviation 3090.52121 4148.61913 .81650 4.55605 2 Mean 19634.9167 27130.3333 79.0833 1.2333 Std. Deviation 2595.15988 4597.01430 5.02494 .86533 3 Mean 29888.3333 47237.8889 90.5556 .9722 Std. Deviation 2551.26762 2731.61851 4.32148 .59366 Total Mean 24121.7222 36053.8333 82.6944 2.8306 Std. Deviation 6521.59896 12109.40400 9.96208 4.38246
Referências
Fernandes, E., & Pinho da Silva, N. (2016). Métodos de Segmentação - Relatório da Aplicação do Algoritmo Hierárquico de Ward.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. New York: Wiley.