• Nenhum resultado encontrado

Parte I Análise Multivariada de Dados Qualitativos

2. Análise de Homogeneidade (HOMALS)

2.2. Principais conceitos

2.2.4. Indicadores de qualidade das dimensões

A aplicação da HOMALS requer uma indicação prévia do número de dimensões a reter. Para auxiliar nesta tarefa, determinam-se indicadores de qualidade das dimensões: medidas de

discriminação, valores próprios associados à matriz 𝐃𝑗 e às quantificações das categorias da j-

ésima variável, e o coeficiente de consistência interna Alfa de Cronbach.

28

2.2.4.1. Medidas de discriminação

As variáveis iniciais, especificamente as suas categorias, são submetidas a um processo de quantificação ótima, tornando-se assim exequível o cálculo da sua variância. Assim sendo surge a seguinte proposição (Lavado, 2004):

Proposição: A variância de cada variável, 𝐆𝑗𝐲𝑗𝑠,é igual ao quadrado do comprimento do seu vetor.

𝑣𝑎𝑟(𝐆𝑗𝐲𝑗𝑠)=‖𝐆𝑗𝐲𝑗𝑠‖2 = (𝐆𝑗𝐲𝑗𝑠)𝑇(𝐆𝑗𝐲𝑗𝑠) = 𝐲𝑗𝑠𝑇𝐆𝑗𝑇𝐆𝑗𝐲𝑗𝑠 = 𝐲𝑗𝑠𝑇𝐃𝑗𝐲𝑗𝑠

As variâncias das variáveis transformadas (𝐆𝑗𝐲𝑗𝑠) designam-se por medidas de discriminação.

Como a formação das dimensões advém das variáveis transformadas, as medidas de discriminação indicam-nos as variáveis mais importantes. Salientando-se que a contribuição destas variáveis não é sempre igual, e que existem variáveis que discriminam mais numa dimensão do que noutra, e é graças a esta diversidade que é possível interpretar e definir as dimensões. O comprimento (quantificação) de cada dimensão é diretamente proporcional ao comprimento das variáveis quantificadas nessa dimensão (Lavado, 2004).

O cálculo da proporção de variância da variável 𝑋𝑗 (𝑗𝜖{1,2, … , 𝑚}) na dimensão 𝑠

(𝑠𝜖{1,2, … , 𝑟}), ou seja, a medida de discriminação da variável 𝑋𝑗 na dimensão 𝑠, é igual à

média do quadrado das quantificações associadas a cada uma das categorias dessa variável,

ponderada pelo respetivo peso (𝐃𝑗):

𝜂𝑗𝑠 =

1 𝑛×𝐲𝑗𝑠

𝑇𝐃 𝑗𝐲𝑗𝑠.

O valor de 𝜂𝑗𝑠 varia entre 0 e 1, e quanto mais próximo da unidade, maior é o poder de

discriminação da j-ésima variável, na dimensão 𝑠. Não obstante, variáveis com 𝜂𝑗𝑠 elevado não

têm necessariamente todas as categorias diferenciadoras na caraterização dos objetos nas dimensões, recomendando-se uma análise secundária aos resultados pelas suas categorias e respetivas projeções nas dimensões.

29

Exemplo 2.5.

Para o exemplo em estudo é possível obter a medida discriminante de cada variável em cada dimensão. Por exemplo, para calcular as medidas de discriminação da variável emprego, dispõe-se da quantificação das suas 4 categorias na Tabela 2.2, nas duas primeiras dimensões. As restantes encontram-se em anexo (2.3 da parte I).

Tabela 2.2: Quantificação das categorias da variável emprego

Aplicando a fórmula descrita anteriormente, calculam-se as medidas de discriminação da

variável Emprego, na dimensão 1 (𝜂𝐸1) e na dimensão 2 (𝜂𝐸2):

𝜂𝐸1= 1 249(201 × 0,177 2+ 14 × 0,0052+ 13 × 1,2312+ 21 × (−2,456)2) ≈ 0,613 𝜂𝐸2= 1 249(201 × (−0,016) 2+ 14 × (−1,346)2+ 13 × 1,3262+ 21 × (0,241)2) ≈ 0,199

Pelo resultado, compreende-se que uma medida de descriminação não é mais do que a média ponderada dos pesos quadráticos da quantificação das categorias da variável em causa, numa dada dimensão. Dependendo assim, a medida de discriminação da frequência absoluta associada a cada categoria e da quantificação das categorias da variável em causa.

Seguindo o mesmo raciocínio obtém-se as medidas de discriminação de todas variáveis envolvidas no perfil do visitante, nas duas primeiras dimensões, apresentado na Tabela 2.3, onde a cor cinza se intensifica nas variáveis com maior valor discriminante. As variáveis que mais discriminam na primeira dimensão são o Emprego e a Idade, com um peso de 31% (0,613

1,995 = 0,31) e 32% ( 0,637

1,995= 0,32) respetivamente. Na segunda o rendimento é o que mais

contribui para a sua formação, com 31% (0,529

1,733= 0,31).

Situação perante o emprego

Frequência marginal

Quantificação das categorias Dimensão 1 Dimensão 2

Empregado 201 0,177 -0,016

Desempregado 14 0,005 -1,346 Estudante 13 1,231 1,326 Reformado 21 -2,456 0,241

30

Tabela 2.3: Medidas de discriminação de todas as variáveis

Variáveis Dimensão 1 2 Distância 0,04 0,245 Emprego 0,613 0,199 Família 0,359 0,234 Género 0,004 0,099 Habilitações 0,079 0,276 Idade 0,637 0,151 Rendimento 0,263 0,529 Total 1,995 1,733 2.2.4.2.Valores próprios

A retenção de novos eixos, as dimensões da HOMALS, requer que seja preservada a máxima

variabilidade. O valor próprio associado a cada dimensão, 𝜆𝑠, 𝑠𝜖{1,2, … , 𝑟}, quantifica a

“qualidade” das novas variáveis.

Lavado (2004) demonstra a relação entre as medidas de discriminação e o valor próprio: o somatório das medidas de discriminação de todas as variáveis (𝑚), para a dimensão 𝑠, é igual ao valor próprio associado a essa dimensão. Então o cálculo do valor próprio associado à dimensão 𝑠 é dado por:

𝜆𝑠 = ∑ 𝜂𝑗𝑠

𝑚

𝑗=1

A percentagem de variância explicada na dimensão s, designada por inércia pode ser calculada pela expressão, 𝜆𝑠 𝑚 = 1 𝑚∑ 𝜂𝑗𝑠 𝑚 𝑗=1

Que também pode ser entendida como o valor médio das medidas de discriminação das 𝑚

31

A inércia varia entre 0 e 1 e é decrescente. A dimensão 1 é a que apresenta um maior valor próprio, consequência que advém da definição das várias dimensões e da sua importância na retenção da informação inicial. Serve ainda de medida de referência para destacar as variáveis mais importantes na formação das dimensões, geralmente medidas de discriminação superiores à inércia são discriminantes na dimensão em estudo.

A soma dos valores próprios26 quantifica a variância explicada pelas dimensões estipuladas a

priori para a análise. Se se retêm o máximo de dimensões 𝑟𝑚𝑎𝑥 então, a soma de todos os valores

próprios é igual a 𝑝 − 𝑚, Lavado (2004, 2012):

∑ 𝜆𝑠

𝑟𝑚𝑎𝑥

𝑠=1

= 𝑝 − 𝑚

A qualidade das primeiras dimensões traduz-se pelo valor próprio em que, valores elevados indicam uma boa qualidade nas primeiras dimensões. Valores baixos indicam que os perfis se afastam do seu valor médio, podendo ser igualmente interpretáveis (Benzécri,1982; Carvalho, 2004).

Exemplo 2.6.

Regressando ao exemplo, a Tabela 2.4 apresenta os valores próprios decorrentes da aplicação da HOMALS, nas duas primeiras dimensões, calculados segundo a fórmula:

𝜆1= ∑ 𝜂𝑗1= 1,995 7 𝑗=1 𝜆2= ∑ 𝜂𝑗2= 1,733 7 𝑗=1

Tabela 2.4: Valores próprios e variância explicada (ou inércia) nas duas primeiras dimensões

Dimensão Valor próprio Variância explicada

(Inércia) 1 1,995 0,285 2 1,733 0,243 Total 3,728 0,533 Média 1,864 0,266

26 No output do SPSS a soma total dos valores próprios (denominada por fit) obtem-se quando é pedido o número máximo de dimensões (𝑟

32

Pela tabela, a percentagem de variância explicada na dimensão 1 é de 29% e na dimensão 2 é de 24%:

As duas primeiras dimensões explicam 29% e 24% respetivamente, totalizando 53% da variabilidade inicial.

As medidas de qualidade referidas (medidas de discriminação e valores próprios) auxiliam na descrição do perfil do visitante do ADV. Estes distinguem-se principalmente, pela Idade, Emprego (dimensão 1), Rendimento (dimensão 2) e Habilitações.

2.2.4.3. Alfa de Cronbach

Alfa de Cronbach27 define-se como uma medida de fiabilidade de cada dimensão e do modelo,

que é tanto melhor quanto maior for o seu valor (Marôco, 2011) e complementa28 as medidas

de qualidade descritas anteriormente. Relaciona-se com o valor próprio para avaliar a consistência interna de cada dimensão (Meulman et al., 2004).

O valor de 𝛼𝑠, alfa de Cronbach, numa dada dimensão 𝑠, é escrito em função do número de

variáveis originais (𝑚) e o valor próprio associado à dimensão 𝑠 (𝜆𝑠):

𝛼𝑠 =𝑚(𝜆𝑠− 1)

(𝑚 − 1)𝜆𝑠

Valores positivos e próximos de 1 representam dimensões fiáveis. No entanto, quando 𝜆𝑠 < 1,

o alfa de Cronbach assume um valor negativo, revelando dimensões que não são fidedignas. A Tabela 2.5 mostra uma relação entre o valor de alfa de Cronbach e o tipo de consistência da(s) dimensão(ões).

27Medida de fiabilidade em escala, desenvolvida por Cronbach em 1951, que formalizou o seu cálculo através da consistência interna da

variância de um item e do total, sendo uma generalização do coeficiente apresentado por Kuder e Richardson em 1937, para itens dicotómicos.

28 Alfa de Cronbach deve ser encarado como um, de um conjunto de indicadores de qualidade, necessários para avaliar a aplicação do algoritmo

(Marôco e Garcia-Marques, 2006).

Dimensão 1: 0,285 𝟏, 𝟗𝟗𝟓

𝟕 = 𝟎, 𝟐𝟖𝟓 → 𝟐𝟗%

Dimensão 2: 0,243 1,733

33

Tabela 2.5: Critérios de recomendação de fiabilidade estimada pelo alfa de Cronbach (𝛼)

Consistência α

Muito baixa (ou inaceitável) <0,5

Baixa 0,5-0,6

Moderado 0,6-0,75

Elevada 0,75-0,9

Muito elevada >0,9

Fonte: adaptado de Marôco e Garcia-Marques (2006)

Exemplo 2.7.

Voltando ao exemplo, obtém-se os valores de 𝛼𝑠, nas duas primeiras dimensões:

𝛼1= 7 × (1,995 − 1) 6 × 1,995 = 0,582 𝛼2= 7 × (1,733 − 1) 6 × 1,733 = 0,493

O valor 𝛼 nas duas primeiras dimensões é baixo, em virtude da variabilidade explicada e do

reduzido número de variáveis discriminantes em cada dimensão, Tabela 2.6. Tabela 2.6: Resumo do modelo

Uma interpretação isolada do fraco valor de 𝛼, em cada dimensão, não empobrece o

desempenho do algoritmo, pois esta medida de qualidade só é viabilizada se os restantes indicadores de qualidade, medidas de discriminação e valores próprios, seguirem o mesmo preceito. Mediante o descrito anteriormente, da retenção das duas dimensões obtém-se um resultado interpretável, a formação de grupos homogéneos.

Dimensão Alfa de Cronbach Valor próprio Variância explicada 1 0,582 1,995 0,285 2 0,493 1,733 0,248

34