• Nenhum resultado encontrado

3. Segmentação

3.2 Metodologia

3.2.2 Modelo Utilizado

Neste projeto, o objetivo da segmentação é conseguir segmentar a população ao nível das freguesias de acordo com as suas características internas e não comparar a nível nacional. Para esse efeito, o método adotado foi converter as suas características em percentagem. O objetivo seria, por exemplo, responder a esta questão “Nesta freguesia existe maior percentagem de pessoas

comparação aos outros nessa mesma categoria. No caso dos dados provenientes da ESRI, esta medida apenas foi adotada nos atributos referentes a “Famílias por nível de rendimento”, no qual se criou um atributo que fosse a soma do número de todas as famílias em todos os quintis e em seguida dividir os atributos por esse total.

Para este efeito foi necessário criar uma camada de informação que contivesse todos estes atributos. A resolução espacial escolhida foi ao nível da freguesia. O primeiro passo foi efetuar a ferramenta de geoprocessamento Dissolve, na camada de informação “BGRI”, pois a sua resolução espacial é a subsecção estatística, sendo que o Dissolve Field é o campo que contém o código DICOFRE, e apenas foram escolhidos 20 atributos, relativos ao indivíduo, pertencentes às seguintes categorias: Género, Faixa Etária, Empregabilidade, Ensino. A estatística aplicada aos campos foi a soma. Este processo gerou uma camada de informação denominada “BGRI_Freguesias”, sendo que esta era uma camada de polígonos com todos os atributos desejados a nível de freguesias provenientes do ficheiro “BGRI”.

Para enriquecer esta camada de informação com dados provenientes da base de dados da ESRI recorreu-se à ferramenta de geoprocessamento Enrich Layer. Como referido no subcapítulo 3.1, esta é uma ferramenta que enriquece camadas de informação com dados sociodemográficos sobre a população que se encontra inserida nessa mesma camada. Neste caso, uma vez que a camada de informação contém todas as freguesias de Portugal continental, esta ferramenta irá criar uma nova camada de informação a nível de freguesias com a adição das variáveis selecionadas sobre a população das freguesias. Como

Input Features foi selecionada a camada de informação “BGRI_Freguesias”, sendo esta a camada que

foi enriquecida, e como Variables foram escolhidos os seguintes 7 atributos: Número de famílias no 1º Quintil, 2º Quintil, 3ºQuintil, 4º Quintil e 5º Quintil de Rendimentos, Gasto em Tabaco e Gasto em Álcool.

Concluído este processo, a camada de informação “Informação_Freguesias” foi gerada, sendo esta uma camada de informação de polígonos com todos os dados necessários para efetuar a segmentação e a respetiva análise espacial de clusters. O mapa com a distribuição espacial de cada atributo encontra-se no Anexo I.

Para a criação da segmentação, o passo seguinte foi utilizar a ferramenta Multivariate

Clustering. Esta é uma ferramenta que encontra clusters baseados apenas no valor dos atributos. Esta

após introduzido o número de clusters desejado, irá procurar por uma solução na qual todas as features inseridas num cluster são as mais similares entre si e todos os clusters são o mais diferentes entre si possível. Como parâmetro de escolha é utilizado o Calinski-Harabasz pseudo F-statistic. A similaridade de atributos é baseada no conjunto de atributos que é especificado, sendo que os clusters são criados através do algoritmo K-means. Neste caso, para a ferramenta assegurar que a solução escolhida é aquela que maximiza a similaridade intra-cluster e a diferença entre clusters esta vai tentar todas as combinações possíveis da combinação dos atributos. Neste caso a ferramenta apenas avalia as soluções de 2 a 30 clusters.

Como Input Features foi selecionada a camada de informação “Informação_Freguesias”, como

Clustering Method foi selecionado o “K means”, como Initialization Method foi utilizado o “Optimized

seed locations”, pois este é o método que vai otimizar os resultados e o desempenho da análise. Este método primeiramente escolhe a seed, ou seja, o centroide inicial, de forma aleatória, mas assegura que os centróides subsequentes selecionados representam features que se encontram distantes entre si no espaço de dados. O Number of Clusters primeiramente foi deixado vazio, o que fez com que a ferramenta avaliasse o número ideal de clusters ao computar um Pseudo F-Statistic para soluções de 2 a 30 clusters.

Rafael Santos

Nesta avaliação o número sugerido de clusters foi de 2, como se pode ver no gráfico 3.1, pois o critério utilizado neste caso é aquele que apresenta um valor maior de estatística pseudo-F. Este valor indica as soluções que têm um melhor desempenho a maximizar a similaridade dentro do cluster e diferenças entre clusters.

Gráfico 3.1 - Estatística Pseudo-F do número de Clusters

Este é o critério utilizado quando não existe preferência na quantidade de clusters que deva existir [28]. Neste projeto testou-se três soluções: apenas dois clusters, três clusters e quatro clusters, presentes na figura 3.1. 0 500 1000 1500 0 2 4 6 8 Tes te P seu d o -F Número de Clusters

PSEUDO_F

Figura 3.1 - Trés soluções de segmentação geradas com 2, 3 e 4 clusters

A solução de 2 clusters não acrescenta grande informação e impossibilitaria de fazer algo para além de uma análise superficial, uma vez que apenas existem dois grupos diferentes, um no qual a população teria um nível mais alto de escolaridade, melhores rendimentos e uma faixa etária mais baixa.

Rafael Santos

A solução com 3 clusters segmenta a população por freguesias com maior percentagem de pessoas adultas com rendimentos altos, nível de estudos superior, freguesias com valores de percentagem com valores médios nos atributos, e freguesias com valores mais elevados na população idosa e pensionistas e reformados. O importante neste caso é que se consiga diferenciar os grupos tendo sido adotada a solução com 4 clusters. No final deste processo foi originada a camada de informação “Segmentação”, sendo esta uma camada de polígonos com toda a informação referente à segmentação, onde cada polígono tem associado o número do cluster que lhe foi atribuído.