EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS

(1)

EXECUTIVE MASTER EM

APPLIED BUSINESS ANALYTICS

UNIDADE CURRICULAR:

Elisabeth Fernandes

Nuno Pinho da Silva

Ano letivo 2015/2016

MÉTODOS DE SEGMENTAÇÃO

Relatório da Aplicação do Algoritmo SOM – Mapa

Auto-organizado

(2)

Aplicação do Algoritmo SOM – Mapa Auto-organizado

Este relatório descreve e sumariza os resultados do agrupamento dos países constantes na base de dados BLI.sav com base da aplicação do algoritmo SOM (Self Organizing Maps) – Mapas Auto-organizados.

Os dados BLI são parte do estudo da OCDE e caracterizam a qualidade de vida em 36 Países com base em 24 indicadores, nomeadamente, 3 referem-se à habitação, 2 variáveis relativas aos rendimentos do agregado familiar, 4 referem-se ao emprego, 1 indicador refere-se ao suporte comunitário, 3 referem-refere-se à educação, 2 variáveis relativas ao ambiente, 2 relativas ao comportamento cívico, 2 indicadores relativos à saúde, 1 refere-se à satisfação global com a vida, 2 variáveis referem-se à segurança e 2 ao equilíbrio entre a vida profissional e a vida pessoal. Uma análise descritiva das variáveis pode ser encontrada em (Fernandes & Pinho da Silva, 2016)

Aplicação do algoritmo SOM

Os mapas auto-organizados são uma rede neuronal bidimensional, que preserva as relações topológicas do espaço de entrada, i.e. proximidade na entrada implica proximidade no espaço de saída. A rede é constituída por duas camadas: na camada de entrada, cada unidade representa uma variável, e na camada de saída, cada neurónio representa um grupo de casos.

O algoritmo SOM não fornece segmentos mas apenas micro-segmentos, que são caracterizados por cada uma das unidades de saída da rede. A implementação utilizada no SPSS Modeler 17 inicializa a rede com pesos aleatórios e, portanto, os resultados em experiências diferentes com os mesmos dados podem variar. No entanto, teoricamente, é possível inicializar o algoritmo de forma determinística, distribuindo uniformemente os pesos pela rede.

A : o maior segmento tem 5 indivíduos (2 grupos) e o menor tem 1 indivíduo (3 grupos).

Figura 1 e Figura 2 sumarizam os resultados da aplicação do algoritmo SOM e confirmam a fragmentação do agrupamento obtido, i.e. a obtenção de micro-segmentos: o maior segmento tem 5 indivíduos (2 grupos) e o menor tem 1 indivíduo (3 grupos).

(3)

Figura 1. Sumário do modelo e avaliação do (pseudo) agrupamento SOM. A medida de qualidade do agrupamento utilizada é uma aproximação ao critério silhueta (Kaufman & Rousseeuw, 1990).

(4)

Análise do agrupamento SOM com base no algoritmo hierárquico de

Ward

Para obter uma partição mais homogénea, os micro-segmentos obtidos pelo algoritmo SOM são caracterizados pelas suas médias em cada variável e agrupados pelo método de Ward. As Figura 3 – Figura 5 apresentam os resultados deste processo. Da análise do dendograma e do gráfico d variação percentual da distância de ligação conclui-se a existência de 3 grupos.

Figura 3. Dendograma resultante da aglomeração dos micro-segmentos SOM com o método de Ward.

Figura 4. Variação da distância de ligação dos agrupamentos com o método de Ward.

0.31 0.79 1.31 2.19 3.07 3.96 4.96 6.09 8.04 10.39 13.82 18.63 28.03 0 2 4 6 8 10 12 14

Distância de ligação

(5)

Figura 5. Variação percentual da distância de ligação da partição com o método de Ward.

Na Figura 5 verifica-se que a variação percentual da distância de ligação estabiliza nos 3 segmentos, pelo que este é o número de grupos da partição. Este resultado é suportado pelo Dendograma, que mostra distâncias de ligação entre 5 e 10 para um agrupamento com 3 segmentos, a menor diferença que excluí grupos com apenas um elemento.

Caracterização dos grupos

A Tabela 1 mostra as 18 variáveis que têm uma associação forte ou muito forte com a agrupamento. Este resultado contrasta com a aplicação direta do algoritmo hierárquico de Ward, onde se verifica que apenas 7 variáveis comprem este requisito. A explicação reside na utilização da média dos micro-segmentos resultantes da aplicação das redes de SOM, que filtram os valores extremos, promovendo que um maior número de variáveis vão contribuir para o decréscimo da distância de ligação total.

Measures of Association

Eta

HOU_Wbf_p_mean * Ward Method .891

HOU_rpp_r_mean * Ward Method .883

INC_Hni_mu_mean * Ward Method .919

INC_Hfw_mu_mean * Ward Method .821

JOB_Er_p_mean * Ward Method .741

JOB_Pe_mu_mean * Ward Method .956

COM_p_mean * Ward Method .742

EDU_Ski_s_mean * Ward Method .856

EDU_Yea_y_mean * Ward Method .775

ENV_Ap_m_mean * Ward Method .800

ENV_Wq_p_mean * Ward Method .910

CIV_Vote_p_mean * Ward Method .701

HEA_Le_y_mean * Ward Method .781

HEA_Srh_p_mean * Ward Method .786

LIF_Sat_as_mean * Ward Method .898

SAF_Ass_p_mean * Ward Method .849

SAF_Hom_r_mean * Ward Method .908

WLB_Hour_p_mean * Ward Method .890

151% 66% 67% 40% 29% 25% 23% 32% 29% 33% 35% 50% 0 2 4 6 8 10 12 14

(6)

Tabela 1. Variáveis com associação forte ou muito forte com o agrupamento, de acordo com o critério

𝑬𝒕𝒂 ≥ 𝟎. 𝟕.

Dado o elevado número de variáveis cuja associação com o agrupamento é forte ou muito forte, optou-se por descrever os grupos com base nas variáveis cuja associação com o agrupamento é muito forte, de acordo com o critério 𝐸𝑡𝑎 ≥ 0.9 (Laureano & Botelho, 2012). Estas variáveis encontram-se na Tabela 2.

Measures of Association

Eta

INC_Hni_mu_mean * Ward Method .919

JOB_Pe_mu_mean * Ward Method .956

ENV_Wq_p_mean * Ward Method .910

SAF_Hom_r_mean * Ward Method .908

Tabela 2. Variáveis descritivas com associação muito forte com o agrupamento com 3 segmentos.

A Tabela 3 caracteriza os grupos com base na média e no desvio padrão das variáveis dentro de cada segmento. O grupo 3 agrega os países com melhor nível de vida, enquanto que o grupo 1 agrega os países com valores mais baixos nos indicadores. O grupo 2 agrega os países com valores intermédios nos indicadores.

Em contraste com a aplicação direta do método de Ward, o esquema estudado neste relatório, que consiste em realização uma micro-segmentação com o SOM e, posteriormente, agrupar com o método de Ward, permite definir claramente as fronteiras de separação entre os clusters.

Ward Method INC_Hni_mu_mean JOB_Pe_mu_mean ENV_Wq_p_mean SAF_Hom_r_mean

1 Mean 15795.5000 20348.6667 66.3333 11.6000 Std. Deviation 3090.52121 4148.61913 .81650 4.55605 2 Mean 19634.9167 27130.3333 79.0833 1.2333 Std. Deviation 2595.15988 4597.01430 5.02494 .86533 3 Mean 29888.3333 47237.8889 90.5556 .9722 Std. Deviation 2551.26762 2731.61851 4.32148 .59366 Total Mean 24121.7222 36053.8333 82.6944 2.8306 Std. Deviation 6521.59896 12109.40400 9.96208 4.38246

(7)

Referências

Fernandes, E., & Pinho da Silva, N. (2016). Métodos de Segmentação - Relatório da Aplicação do Algoritmo Hierárquico de Ward.

Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. New York: Wiley.