• Nenhum resultado encontrado

Parte I Análise Multivariada de Dados Qualitativos

2. Análise de Homogeneidade (HOMALS)

2.2. Principais conceitos

2.2.5. Soluções gráficas

A análise de homogeneidade permite projetar os indivíduos e as categorias em várias dimensões, levando à sua interpretação e à exploração da estrutura multidimensional inicial, outrora complexa. A HOMALS produz as seguintes soluções gráficas (Hair et al., 2005): os

scores dos objetos (a), a quantificação das categorias (b) e as medidas de discriminação das

variáveis (c). Existe ainda a possibilidade de representar os scores dos objetos e as categorias no mesmo gráfico, denominados de Biplot, descrito em b).

a) Scores dos objetos

Os 𝑛 objetos, caraterizados por 𝑚 variáveis, são representados num espaço de menor dimensão, que se distinguem mediante a sua distância. Graficamente os pontos-objeto próximos partilham as mesmas categorias, inferindo-se uma maior homogeneidade. Os que apresentam diferentes categorias de resposta ficam mais afastados (Hair et al., 2005). Quanto mais semelhantes são os scores, maior é a semelhança entre objetos (Carvalho, 2004), ou seja, maior é a sua proximidade geométrica.

Exemplo 2.8.

Retomando os dados sobre a caraterização socioeconómica dos visitantes do ADV, a representação gráfica dos scores definitivos, deixa antever a formação de três grupos, dois mais pequenos (grupo 2 e 3) e um maior (grupo 1). A proximidade dos pontos-objeto nomeia a homogeneidade entre os visitantes, por exemplo os visitantes 134, 220 e 221 (ou 144 e 238) graficamente apresentam pontos-objetos sobrepostos, logo partilham em todas as variáveis as mesmas categorias, ou seja, têm um perfil socioeconómico idêntico (Figura 2.5).

35

Figura 2.5: Scores dos visitantes, nas duas primeiras dimensões (rotulados de 1 a 249).

A representação dos scores dos objetos permite ver como os visitantes se dispõem nas duas dimensões, mas não permite identificar, por si só, as caraterísticas dos grupos, sendo necessário conhecer a distribuição das categorias no espaço gráfico.

b) Quantificação das categorias

A caraterização do perfil dos objetos está aliada às categorias que lhe pertencem. A representação gráfica das quantificações das categorias permite-nos descrever os grupos formados pela sua proximidade aos objetos.

36

A projeção das categorias, ponto-categoria, relaciona-se com o valor das medidas de discriminação de uma variável, numa dada dimensão. Se a medida de discriminação é elevada (próximo de 1) então as categorias da respetiva variável têm projeções distantes entre si, garantindo a existência de grupos de objetos distintos. Se, pelo contrário, a medida de discriminação tem um valor baixo, então os pontos-categoria dessa variável estão juntos e próximos da origem e, consequentemente, a variável não discrimina na formação de grupos.

Exemplo 2.9.

A Figura 2.6 representa a dispersão das categorias das variáveis envolvidas no estudo do perfil do visitante do ADV. A variável emprego apresenta as suas categorias distantes, devido ao valor mais elevado da medida de discriminação na dimensão 1, já para a variável género tem- se as suas duas categorias muito próximas, revelando a inexistência de diferenças entre a caraterização socioeconómica do visitante do ADV por Género.

Esta distribuição gráfica das categorias no plano antecipa a formação de três grupos com perfis distintos. Um grupo de visitantes situa-se no 3.º quadrante, com rendimentos e habilitações mais baixas e desempregados, outros estão no 1.º e 4.º quadrante, com rendimentos intermédios, habilitações mais elevadas (secundário e superior) e no ativo profissional (empregados). Os reformados de idade mais elevada (mais de 48 anos) e com rendimentos superiores formam um outro grupo, localizado no 2.º quadrante. Os estudantes aparecem afastados das restantes categorias, mas com uma contribuição semelhante nas duas dimensões.

37

Figura 2.6: Representação gráfica das diversas categorias nas duas primeiras dimensões. Distância da residência

ao ADV (D1 a D4), Emprego (E1 empregado, E2 desempregado, E3 estudante e E4 reformado), Dimensão familiar (F1 a F4), Género (G1 feminino e G2 masculino), Habilitações (H1 a H4), Idade (I1 a I4) e Rendimento (R1 a R4).

O Biplot apresentado na Figura 2.7 traduz uma representação simultânea dos centróides das categorias das variáveis em estudo, e dos scores dos objetos, que poderá viabilizar a descrição dos três grupos feita anteriormente.

38

Figura 2.7: Biplot, representação conjunta dos centróides das categorias e dos scores dos visitantes (objetos).

Distância da residência ao ADV (D1 a D4), Emprego (E1 empregado, E2 desempregado, E3 estudante e E4 reformado), Dimensão familiar (F1 a F4), Género (G1 feminino e G2 masculino), Habilitações (H1 a H4), Idade (I1 a I4) e Rendimento (R1 a R4)

Salienta-se que o elevado número de observações dificulta a interpretação e a adequação à problemática em estudo, sendo necessário entender que com um elevado número de observações este tipo de gráfico é muitas vezes evitado. No entanto, a informação quantitativa dos scores é usada com uma posterior articulação a outra técnica multivariada, específica para dados quantitativos. Neste exemplo, a classificação formal dos grupos de visitantes descritos, poderia ser viabilizada com a aplicação da Análise de Clusters (ou Classificatória).

39

c) Interpretação geométrica das medidas de discriminação das variáveis

A representação gráfica das medidas de discriminação permite, visualmente, perceber quais as variáveis que melhor definem as dimensões em causa. Na literatura é usual considerarem-se três critérios de avaliação gráfica: variáveis próximas de um dos eixos (dimensões) e distantes da origem são mais diferenciadoras nas dimensões; variáveis próximas da origem indicam variáveis pouco presentes na separação das dimensões; variáveis dispostas, ou próximas, na diagonal indicam que a variável é relevante em mais que uma dimensão.

Outra forma equivalente (geométrica) de identificar as variáveis mais discriminantes numa dada dimensão é conseguida recorrendo ao ângulo 𝛽, formado por essa dimensão e o segmento de

reta que une a origem à posição da medida de discriminação (𝛽 ∈ ]0°, 90°[ ). Quanto maior é

𝛽, menor é a discriminação nessa dimensão e se 𝛽 > 450, significa que a variável tem um peso

maior na outra dimensão. Note-se ainda que, quando 𝛽 = 45° a variável discrimina igualmente nas duas dimensões.

Exemplo 2.10.

Retomando ao exemplo anterior, a representação gráfica das medidas de discriminação nas duas primeiras dimensões confirma as conclusões retiradas anteriormente. O Emprego e a Idade discriminam na primeira dimensão. O Rendimento discrimina, em grande parte, na dimensão 2, visto que o ângulo formado pelo segmento de reta que une a origem ao ponto (0,263; 0,529) e a dimensão 2 é menor, relativamente ao criado com a dimensão 1. A Família apresenta a

mesma relevância (moderada) nas duas dimensões, logo 𝛽̂ ≈ 450.

As variáveis Género, Distância e Habilitações, apesar de estarem próximas do eixo relativo à dimensão 2, com um ângulo próximo de zero, revelam-se (pouco) importantes na discriminação desta dimensão, dada a sua proximidade da origem (Figura 2.8).

40

Figura 2.8: Discriminação das variáveis nas duas primeiras dimensões

Em suma, na HOMALS, recorrendo a todas as suas medidas de qualidade, é possível entender como o perfil socioeconómico do visitante do ADV se define. Formam-se perfis semelhantes, distinguidos principalmente pela Idade, Emprego (na dimensão 1), Rendimento (na dimensão 2) e Habilitações: um grupo de visitantes mais velhos, reformados e com rendimentos mais elevados (grupo 2); outro com visitantes desempregados, rendimentos mais baixos e habilitações inferiores (grupo 3); e o grupo de visitantes empregados e com habilitações mais elevadas (grupo 1).