Quantificação - Principais conceitos - Análise de Homogeneidade (HOMALS)

Parte I Análise Multivariada de Dados Qualitativos

2. Análise de Homogeneidade (HOMALS)

2.2. Principais conceitos

2.2.3. Quantificação

a) Quantificação das categorias e dos scores dos objetos

A transformação das categorias e dos objetos expõe uma relação: as categorias representam os objetos às quais estão associadas e os objetos são caraterizados pelas categorias que possuem.

Esta relação traduz-se pelo Princípio das Médias Recíprocas19_.

18_{Com a estandardização, qualquer coluna da matriz 𝑋 é simultaneamente centrada em torno da sua média e dividida pelo seu desvio padrão.}

As colunas de 𝑋 têm média nula e variância unitária.

19_{As primeiras referências que existem sobre este princípio são de 1930 por Richardson e Horst, sendo reutilizadas a partir de 1940 por Fisher}

e, posteriormente, por Benzécri (1973) que lhe acrescentou a componente geométrica, dando-lhe uma formulação diferente. Princípio das Médias Recíprocas

A solução ótima é obtida através do cálculo de médias. A quantificação de uma categoria (𝐲) é proporcional à média dos scores dos objetos (𝐱) nela inserida e o score de um objeto é proporcional à média das quantificações de todas as categorias às quais está associado.

a) 𝐱 ∝𝐆𝐲

𝑚 b) 𝐲 ∝ 𝐃

Como 𝐱𝐓𝐱 = 1, devido à minimização da função perda, a constante de proporcionalidade para

a quantificação das 𝑝 categorias (𝐲) é unitária, sendo igual à média dos scores dos objetos que

nelas se inserem (𝐆T𝐱), moderada pela frequência de ocorrência das categorias (D), ou seja,

pela expressão:

𝐲 = 𝐃−1_𝐆T_𝐱.

A estimação das quantificações inicia-se com uma estimativa dos scores dos 𝑛 objetos, parte- se da matriz inicial que é normalizada e centrada. Destas estimativas provisórias, procede-se à primeira quantificação das categorias.

Recorrendo ao Princípio das Médias Recíprocas, estima-se a quantificação dos scores nos 𝑛

objetos (𝐱∗_{), através proporcionalidade, onde m é o número de variáveis envolvidas:}

𝐱∗ ∝ 𝐆𝐲𝑚−1.

O acréscimo de uma constante de proporcionalidade, o inverso do valor próprio20 (𝜆),

proveniente da minimização da função perda, permite obter os scores através da igualdade:

𝐱 =𝐆𝐲

𝑚 1 𝜆.

A relação que existe entre os pontos-objeto e pontos-categoria pode ser traduzida geometricamente através da distância euclidiana, tornando possível a criação de perfis semelhantes.

Graficamente, podem-se representar os scores (pontos-objeto), onde valores idênticos, ou próximos, traduzem objetos (indivíduos) que partilham respostas semelhantes, ou quase semelhantes, respetivamente. Por outro lado, a proximidade entre categorias (pontos-categoria), de distintas variáveis, reflete a presença, na generalidade, de subconjuntos de indivíduos (objetos) com um perfil semelhante, isto é, partilham a mesma informação nos distintos

atributos. A representação gráfica simultânea (Biplot21), das quantificações dos objetos e das

categorias, permitem visualizar e identificar subgrupos de objetos próximos das categorias que

20_{Trata-se de uma medida de qualidade para as dimensões (soluções) da HOMALS, definida na secção 2.2.4.}

21_{Biplot é uma representação simultânea da informação dos pontos objetos e de variáveis, e que foi introduzida por Gabriel a partir de 1971}

os definem, tornando possível o delineamento de grupos homogéneos, com auxílio de outras técnicas multivariadas apropriadas para a construção de agrupamentos.

Exemplo 2.3.

Utilizando a matriz 𝐇, descrita anteriormente para o perfil socioeconómico dos visitantes do

ADV, é possível perceber como é feita a quantificação das categorias a partir dos scores dos objetos que lhe estão associados. Usou-se a matriz dos scores definitivos, obtidos pela aplicação

da HOMALS, com a retenção da primeira dimensão22, ilustrada na Figura 2.3 com a

representação de alguns valores. Os resultados encontram-se em anexo (2.2. da Parte I).

Figura 2.3: Ilustração da matriz inicial dos 249 visitantes (H) e matriz final dos scores dos objetos (𝐱∗₎

𝐇249×7= [ 4 1 2 2 2 4 2 4 4 2 2 2 4 3 𝟏 1 4 1 2 3 2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ 𝟏 2 2 1 3 2 3] → 𝐱∗ 249×1= [ −0,779 −2,592 𝟎, 𝟖𝟕𝟏 ⋮ −𝟎, 𝟑𝟐𝟔]

Exemplifica-se o cálculo da quantificação da primeira categoria da variável Distância (distância inferior ou igual a 77 km entre a residência e o ADV). A primeira categoria está assinalada em 62 visitantes, no terceiro indivíduo, que corresponde a uma quantificação ótima de 0,871, no décimo (0,931), no décimo segundo (0,682),…e no último que tem uma quantificação ótima de -0,326. Assim a sua quantificação é obtida pela média dos scores dos objetos que nela se

inserem: 0,871+0,931+0,682+⋯+(−0,326)

62 = 0,340.

Repetindo o processo para todas as categorias, de todas as variáveis, obtém-se o vetor 𝐲, com

25 linhas (total de quantificações existentes nas 7 variáveis) na primeira dimensão. Verifica-se

que no vetor 𝐲25×1 (com a quantificação das categorias ou pontos-categoria) a segunda e a

terceira categoria têm quantificações próximas, nesta dimensão (Figura 3.4). Figura 2.4: Ilustração da matriz com as quantificações das categorias

𝐲25×1 = [ 0,340 −0,090 −0,129 ⋮ −1,150]

b) Quantificação ótima

A HOMALS integra os métodos de “optimal scaling” que, na prática consistem numa intervenção sobre as categorias com o objetivo de proceder à sua quantificação (GIFI, 1996). Utiliza um método algébrico do tipo Alternating Least Squares (ALS) que estima, alternada e iterativamente, através dos dados iniciais, a quantificação das categorias (Y) e os scores dos objetos (X), nas dimensões retidas, com o objetivo de alcançar uma quantificação ótima, pressupondo a minimização da função perda.

A solução ótima traduz-se pela minimização da soma dos quadrados das distâncias entre os

ponto-objeto (X) e os ponto-categoria (𝐆_j𝐘_j), encontrados através da função perda, como

descrito na secção anterior.

A criação de subgrupos de indivíduos homogéneos, que partilham categorias semelhantes, é denominada por Carvalho (1998) como análise estrutural, uma das funcionalidades da HOMALS. No entanto, da sua aplicação resultam outros outputs, essenciais na exploração de dados multivariados, a redução da dimensionalidade.

A construção das novas variáveis, designadas dimensões (ou soluções da HOMALS), possuem o máximo de variabilidade. Por isso, torna-se viável uma análise geométrica, com a projeção dos scores, preferencialmente no plano, em relação às duas primeiras dimensões retidas.

Cada objeto 𝑖, inicialmente caracterizado com 𝑚 resultados na variáveis originais, passa a ser

definido por 𝑟 caraterísticas (dimensões), devido à redução de dimensionalidade, onde 𝑟 < 𝑚.

O número máximo de dimensões23 (𝑟_𝑚𝑎𝑥), a reter na HOMALS, pode ser calculado mediante

o seguinte critério24_{, descrito por Carvalho (2004):}

𝑟_𝑚𝑎𝑥 = 𝑚𝑖𝑛{(𝑛 − 1); (𝑞 − max (𝑚₁, 1))},

𝑚1 representa o número de variáveis sem não resposta.

Como a dimensão da amostra (𝑛), frequentemente, é superior ao número de categorias (𝑞) das 𝑚 variáveis:

23_{O algoritmo exige que o número de dimensões seja fixado inicialmente, mas o número de soluções não influencia os resultados.} 24_{Segundo este critério o número máximo de dimensões pode ser superior ao número de variáveis iniciais.}

27 𝑟𝑚𝑎𝑥= 𝑞 − max(𝑚1, 1) = {

𝑞 − 𝑚1, 𝑠𝑒 𝑚1> 1 𝑞 − 1, 𝑠𝑒 𝑚1∈ {0,1}

Carvalho (2004) menciona ainda que não existe um critério que permita, de forma objetiva e

inequívoca, determinar 𝑟𝑚𝑎𝑥. O SPSS, por defeito, fixa o número de dimensões em duas

dimensões, quando se pretende analisar os dados graficamente.

Após a definição e quantificação do número de dimensões, reforçam-se as seguintes propriedades:

i) As dimensões são ortogonais entre si, isto é correlação entre as dimensões é

nula25_;

ii) A estimação ótima das quantificações (objetos e categorias) não é condicionada

pelas 𝑟 dimensões (r ≤ r_max). A solução das s primeiras dimensões está contida

na solução obtida com s + 1, sϵ{1,2, … , (r − 1)};

iii) As soluções da HOMALS são ordenadas e a função perda apresenta uma perda

associada à solução de dimensão s superior à associada à s + 1, sϵ{1,2, … , r}.

Exemplo 2.4.

Voltando aos dados utilizados anteriormente, é possível calcular o número máximo de

dimensões recorrendo ao critério, 𝑟_𝑚𝑎𝑥 = 𝑞 − max(𝑚₁, 1). A dimensão da amostra é superior

ao total de categorias, 𝑛 > 𝑞 (249 > 25) e existem 3 variáveis sem valores omissos. Assim,

𝑟𝑚𝑎𝑥 = 25 − max(3,1) = 22.

O valor obtido, 𝑟_𝑚𝑎𝑥 = 22 > 7(𝑚) contraria um dos objetivos da HOMALS, a redução da

dimensionalidade. Portanto é necessário recorrer aos indicadores de qualidade das dimensões, disponíveis na HOMALS, para estabelecer o número “ideal” de dimensões a reter.

No documento Estudo de estratégias de valorização económica do Alto Douro Vinhateiro: aplicação de técnicas multivariadas qualitativas (páginas 36-40)