Parte I Análise Multivariada de Dados Qualitativos
2. Análise de Homogeneidade (HOMALS)
2.2. Principais conceitos
2.2.3. Quantificação
a) Quantificação das categorias e dos scores dos objetos
A transformação das categorias e dos objetos expõe uma relação: as categorias representam os objetos às quais estão associadas e os objetos são caraterizados pelas categorias que possuem.
Esta relação traduz-se pelo Princípio das Médias Recíprocas19.
18 Com a estandardização, qualquer coluna da matriz 𝑋 é simultaneamente centrada em torno da sua média e dividida pelo seu desvio padrão.
As colunas de 𝑋 têm média nula e variância unitária.
19 As primeiras referências que existem sobre este princípio são de 1930 por Richardson e Horst, sendo reutilizadas a partir de 1940 por Fisher
e, posteriormente, por Benzécri (1973) que lhe acrescentou a componente geométrica, dando-lhe uma formulação diferente. Princípio das Médias Recíprocas
A solução ótima é obtida através do cálculo de médias. A quantificação de uma categoria (𝐲) é proporcional à média dos scores dos objetos (𝐱) nela inserida e o score de um objeto é proporcional à média das quantificações de todas as categorias às quais está associado.
a) 𝐱 ∝𝐆𝐲
𝑚 b) 𝐲 ∝ 𝐃
24
Como 𝐱𝐓𝐱 = 1, devido à minimização da função perda, a constante de proporcionalidade para
a quantificação das 𝑝 categorias (𝐲) é unitária, sendo igual à média dos scores dos objetos que
nelas se inserem (𝐆T𝐱), moderada pela frequência de ocorrência das categorias (D), ou seja,
pela expressão:
𝐲 = 𝐃−1𝐆T𝐱.
A estimação das quantificações inicia-se com uma estimativa dos scores dos 𝑛 objetos, parte- se da matriz inicial que é normalizada e centrada. Destas estimativas provisórias, procede-se à primeira quantificação das categorias.
Recorrendo ao Princípio das Médias Recíprocas, estima-se a quantificação dos scores nos 𝑛
objetos (𝐱∗), através proporcionalidade, onde m é o número de variáveis envolvidas:
𝐱∗ ∝ 𝐆𝐲𝑚−1.
O acréscimo de uma constante de proporcionalidade, o inverso do valor próprio20 (𝜆),
proveniente da minimização da função perda, permite obter os scores através da igualdade:
𝐱 =𝐆𝐲
𝑚 1 𝜆.
A relação que existe entre os pontos-objeto e pontos-categoria pode ser traduzida geometricamente através da distância euclidiana, tornando possível a criação de perfis semelhantes.
Graficamente, podem-se representar os scores (pontos-objeto), onde valores idênticos, ou próximos, traduzem objetos (indivíduos) que partilham respostas semelhantes, ou quase semelhantes, respetivamente. Por outro lado, a proximidade entre categorias (pontos-categoria), de distintas variáveis, reflete a presença, na generalidade, de subconjuntos de indivíduos (objetos) com um perfil semelhante, isto é, partilham a mesma informação nos distintos
atributos. A representação gráfica simultânea (Biplot21), das quantificações dos objetos e das
categorias, permitem visualizar e identificar subgrupos de objetos próximos das categorias que
20 Trata-se de uma medida de qualidade para as dimensões (soluções) da HOMALS, definida na secção 2.2.4.
21 Biplot é uma representação simultânea da informação dos pontos objetos e de variáveis, e que foi introduzida por Gabriel a partir de 1971
25
os definem, tornando possível o delineamento de grupos homogéneos, com auxílio de outras técnicas multivariadas apropriadas para a construção de agrupamentos.
Exemplo 2.3.
Utilizando a matriz 𝐇, descrita anteriormente para o perfil socioeconómico dos visitantes do
ADV, é possível perceber como é feita a quantificação das categorias a partir dos scores dos objetos que lhe estão associados. Usou-se a matriz dos scores definitivos, obtidos pela aplicação
da HOMALS, com a retenção da primeira dimensão22, ilustrada na Figura 2.3 com a
representação de alguns valores. Os resultados encontram-se em anexo (2.2. da Parte I).
Figura 2.3: Ilustração da matriz inicial dos 249 visitantes (H) e matriz final dos scores dos objetos (𝐱∗)
𝐇249×7= [ 4 1 2 2 2 4 2 4 4 2 2 2 4 3 𝟏 1 4 1 2 3 2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 𝟏 2 2 1 3 2 3] → 𝐱∗ 249×1= [ −0,779 −2,592 𝟎, 𝟖𝟕𝟏 ⋮ −𝟎, 𝟑𝟐𝟔]
Exemplifica-se o cálculo da quantificação da primeira categoria da variável Distância (distância inferior ou igual a 77 km entre a residência e o ADV). A primeira categoria está assinalada em 62 visitantes, no terceiro indivíduo, que corresponde a uma quantificação ótima de 0,871, no décimo (0,931), no décimo segundo (0,682),…e no último que tem uma quantificação ótima de -0,326. Assim a sua quantificação é obtida pela média dos scores dos objetos que nela se
inserem: 0,871+0,931+0,682+⋯+(−0,326)
62 = 0,340.
Repetindo o processo para todas as categorias, de todas as variáveis, obtém-se o vetor 𝐲, com
25 linhas (total de quantificações existentes nas 7 variáveis) na primeira dimensão. Verifica-se
que no vetor 𝐲25×1 (com a quantificação das categorias ou pontos-categoria) a segunda e a
terceira categoria têm quantificações próximas, nesta dimensão (Figura 3.4). Figura 2.4: Ilustração da matriz com as quantificações das categorias
𝐲25×1 = [ 0,340 −0,090 −0,129 ⋮ −1,150]
26
b) Quantificação ótima
A HOMALS integra os métodos de “optimal scaling” que, na prática consistem numa intervenção sobre as categorias com o objetivo de proceder à sua quantificação (GIFI, 1996). Utiliza um método algébrico do tipo Alternating Least Squares (ALS) que estima, alternada e iterativamente, através dos dados iniciais, a quantificação das categorias (Y) e os scores dos objetos (X), nas dimensões retidas, com o objetivo de alcançar uma quantificação ótima, pressupondo a minimização da função perda.
A solução ótima traduz-se pela minimização da soma dos quadrados das distâncias entre os
ponto-objeto (X) e os ponto-categoria (𝐆j𝐘j), encontrados através da função perda, como
descrito na secção anterior.
A criação de subgrupos de indivíduos homogéneos, que partilham categorias semelhantes, é denominada por Carvalho (1998) como análise estrutural, uma das funcionalidades da HOMALS. No entanto, da sua aplicação resultam outros outputs, essenciais na exploração de dados multivariados, a redução da dimensionalidade.
A construção das novas variáveis, designadas dimensões (ou soluções da HOMALS), possuem o máximo de variabilidade. Por isso, torna-se viável uma análise geométrica, com a projeção dos scores, preferencialmente no plano, em relação às duas primeiras dimensões retidas.
Cada objeto 𝑖, inicialmente caracterizado com 𝑚 resultados na variáveis originais, passa a ser
definido por 𝑟 caraterísticas (dimensões), devido à redução de dimensionalidade, onde 𝑟 < 𝑚.
O número máximo de dimensões23 (𝑟𝑚𝑎𝑥), a reter na HOMALS, pode ser calculado mediante
o seguinte critério24, descrito por Carvalho (2004):
𝑟𝑚𝑎𝑥 = 𝑚𝑖𝑛{(𝑛 − 1); (𝑞 − max (𝑚1, 1))},
𝑚1 representa o número de variáveis sem não resposta.
Como a dimensão da amostra (𝑛), frequentemente, é superior ao número de categorias (𝑞) das 𝑚 variáveis:
23 O algoritmo exige que o número de dimensões seja fixado inicialmente, mas o número de soluções não influencia os resultados. 24 Segundo este critério o número máximo de dimensões pode ser superior ao número de variáveis iniciais.
27 𝑟𝑚𝑎𝑥= 𝑞 − max(𝑚1, 1) = {
𝑞 − 𝑚1, 𝑠𝑒 𝑚1> 1 𝑞 − 1, 𝑠𝑒 𝑚1∈ {0,1}
Carvalho (2004) menciona ainda que não existe um critério que permita, de forma objetiva e
inequívoca, determinar 𝑟𝑚𝑎𝑥. O SPSS, por defeito, fixa o número de dimensões em duas
dimensões, quando se pretende analisar os dados graficamente.
Após a definição e quantificação do número de dimensões, reforçam-se as seguintes propriedades:
i) As dimensões são ortogonais entre si, isto é correlação entre as dimensões é
nula25;
ii) A estimação ótima das quantificações (objetos e categorias) não é condicionada
pelas 𝑟 dimensões (r ≤ rmax). A solução das s primeiras dimensões está contida
na solução obtida com s + 1, sϵ{1,2, … , (r − 1)};
iii) As soluções da HOMALS são ordenadas e a função perda apresenta uma perda
associada à solução de dimensão s superior à associada à s + 1, sϵ{1,2, … , r}.
Exemplo 2.4.
Voltando aos dados utilizados anteriormente, é possível calcular o número máximo de
dimensões recorrendo ao critério, 𝑟𝑚𝑎𝑥 = 𝑞 − max(𝑚1, 1). A dimensão da amostra é superior
ao total de categorias, 𝑛 > 𝑞 (249 > 25) e existem 3 variáveis sem valores omissos. Assim,
𝑟𝑚𝑎𝑥 = 25 − max(3,1) = 22.
O valor obtido, 𝑟𝑚𝑎𝑥 = 22 > 7(𝑚) contraria um dos objetivos da HOMALS, a redução da
dimensionalidade. Portanto é necessário recorrer aos indicadores de qualidade das dimensões, disponíveis na HOMALS, para estabelecer o número “ideal” de dimensões a reter.