• Nenhum resultado encontrado

Parte I Análise Multivariada de Dados Qualitativos

3. Análise de Componentes Principais Categórica (CATPCA)

3.2.1. Quantificação ótima por níveis

A transformação das variáveis na CATPCA é feita associando a cada categoria, de cada

variável, um valor numérico, obtendo uma quantificação ótima (optimal scaling) através da

minimização da função perda, tal como na HOMALS. Mas para respeitar as suas propriedades métricas são introduzidas restrições, a transformação é feita de variável em variável (levels). A quantificação por categoria deve resultar da dialética entre a qualidade de ajustamento e o respeito pela natureza das variáveis (Lavado, 2012) e a visão do investigador é que determina o tipo de transformação (Linting et al., 2007). Esta quantificação das categorias na CATPCA denomina-se de quantificação ótima por níveis (optimal scaling levels).

O investigador tem a liberdade de escolher, em cada caso, o nível de quantificação mais adequado, independentemente da natureza da variável subjacente, (Lavado, 2012). Assim

46

sendo, existem vários tipos de optimal scaling que podem ser utilizados para quantificar as

variáveis. Para tal considere-se a matriz de dados 𝐇𝑛×𝑚, definida no capítulo 2 (secção 2.1.1.),

mas as 𝑋𝑗 (𝑗 ∈ {1,2, . . , 𝑚}) variáveis apresentam naturezas distintas, qualitativas (nominais ou

ordinais) ou quantitativas.

A transformação 𝜙(𝑗) de cada variável 𝑋𝑗, de forma a otimizar a soluções da CATPCA, pode

basear-se em dois processos diferentes, nas categorias ou nos coeficientes das funções splines32.

Na transformação apoiada nas categorias, cada variável 𝑋𝑗 tem valores numéricos associados

às suas categorias (𝑞𝑗). Estão disponíveis quatro transformações diferentes, múltipla nominal

(nominal multiple), nominal, ordinal (ordinal) e numérica (numerical). A opção múltipla nominal permite atribuir diferentes quantificações nas diversas dimensões de modo a otimizar a solução. Tem apenas em consideração a manutenção dos mesmos objetos nas mesmas categorias, ou seja, as variáveis são tratadas como nominais, tal como acontece na HOMALS.

Sendo a quantificação da variável 𝑋𝑗, associada às 𝑠 componentes principais33 (ou dimensões)

𝑠 ∈ {1,2, … , 𝑚} tem-se que:

𝜙𝑗𝑠(𝑋𝑗) = 𝐆𝑗𝐘𝑗𝑠

𝐘𝐣 = [𝐲𝑗1… 𝐲𝑗𝑠] é uma matriz do tipo 𝑞𝑗× 𝑠 que representa as categorias (𝑞𝑗) da variável 𝑋𝑗 e

𝐆𝑗 é a matriz de ausências de presenças, definida na secção 2.2.1.

O respeito pela natureza das variáveis abarca a inclusão de algumas restrições. Quando as quantificações das categorias de uma variável são proporcionais nas 𝑠 colunas (estão numa reta que passa na origem do espaço de dimensão 𝑠) tem-se:

𝐘𝑗 = 𝐲𝑗× 𝐚𝑗𝑇,

onde 𝐲𝑗 é a quantificação das categorias da variável 𝑋𝑗 e 𝐚𝑗𝑇 é o vetor linha de dimensão 𝑠 que

traduz as constantes de proporcionalidade na variável 𝑋𝑗. E corresponde ao tratamento nominal

de quantificação singular (optimal scaling levels nominal). Adicionalmente, se as quantificações das categorias de uma variável são não decrescentes (restrição monótona) tem-

32 Funções spline definem-se como funções sequencialmente polinomiais com certas regularidades, são expostas em Lavado (2004, p. 47-57) 33 O número máximo de dimensões a reter na CATPCA é igual ao número de variáveis em análise, mas existem regras que ajudam a decidir

47

se a quantificação ótima por níveis ordinal (optimal scaling levels ordinal). Por fim, se as quantificações das categorias são não decrescentes, cuja distância é proporcional à distância inicial entre a codificação das categorias (restrição linear) associa-se o optimal scaling levels

numerical, tal como acontece na ACP linear (Figura 3.1).

Figura 3.1: Transformações sob as categorias

Fonte: Elaboração própria, segundo Lavado (2012), Marôco (2011), Linting et al. (2007) e Meulman et al. (2004).

O aumento das restrições na quantificação das categorias pode influenciar os resultados na análise multivariada (Linting et al., 2007). A CATPCA tem mais liberdade quando o tratamento é nominal e é mais restrito no numérico. Portanto com o método obtém-se uma maior variância total explicada (VAF) quando todas as variáveis têm um tratamento nominal e menor quando todas têm um tratamento numérico (Linting et al., 2007).

As transformações spline suavizam as quantificações dentro de cada intervalo, através de várias funções spline, unidas por nós (pontos que unem as funções). Linting et al. (2007) afirma que a quantificação das categorias, utilizando as funções spline, suaviza a sua transformação e o seu impacto na VAF é menor. Por exemplo, spline do primeiro grau sem nós é uma transformação linear, mas se o número de nós é igual ao número de categorias tem-se uma transformação ordinal. Permitem introduzir variáveis com muitas categorias, sem provocar a instabilidade das

soluções (Lavado, 2004). No processo de transformação da variável 𝑋𝑗 deve ter-se em conta a

definição dos seus parâmetros: grau do spline (𝑡𝑗); número e localização dos nós (𝑢𝑗); as

restrições sobre os coeficientes (𝐛𝑗) das funções spline. Geralmente, segundo Lavado (2004 e

Quantificação ótima por níveis

(Optimal scaling levels) 𝐘𝐣com 𝑠 colunas proporcionais Restrição monótona Ordinal

Restrição linear Numérico (ACP) Nominal

Nominal Múltiplo (HOMALS)

48

2012), não é necessário utilizar mais que dois nós e o grau do spline não precisa ser superior a dois.

Formalmente, respeitando a restrição definida anteriormente, 𝐘𝑗 = 𝐲𝑗× 𝐚𝑗𝑇, e considerando a

matriz 𝐒𝐣, do tipo 𝑞𝑗× (𝑡𝑗+ 𝑢𝑗), que contém as imagens das 𝑞𝑗 categorias da variável 𝑋𝑗 ,

segundo cada uma das funções da base I-splines, tem-se que: 𝐲𝑗 = 𝐒𝑗𝐛𝑗 .

Se para além da restrição imposta (𝐘𝑗 = 𝐲𝑗× 𝐚𝑗𝑇 com 𝐲𝑗 = 𝐒𝑗𝐛𝑗) são colocadas outras

condições, sob 𝐲𝑗, tem-se: Spline nominal, se 𝐲𝑗está no contradomínio de um spline, ou seja,

preserva apenas informação das variáveis originais, tem-se um vetor polinomial de ordem 1

(reta que passa na origem); Spline ordinal, se 𝐲𝑗está no contradomínio de um spline monótono

não decrescente, a ordem das categorias é preservada nas novas categorias, tem-se um vetor

polinomial que passa pela origem; Spline numérico, se 𝐲𝑗está no contradomínio de um spline

monótono não decrescente, cuja distância é proporcional à distância inicial entre a codificação das categorias. As categorias são ordenadas em intervalos equidistantes (variáveis intervalares) e são dispostas numa reta que passa pela origem do referencial, preservando a ordem e a distância entre as categorias das variáveis originais (Figura 3.2).

Figura 3.2: Transformações segundo as funções spline

Fonte: Elaboração própria, segundo Lavado (2012), Marôco (2011), Linting et al. (2007)e Meulman et al. (2004).

A CATPCA exige várias experimentações, é necessário aplicar os diversos métodos de optimal

scaling levels até se encontrar os melhores resultados. O que importa, para avaliar a robustez

Optimal scaling levels

Spline nominal 𝑦𝑗está no contradomínio de um spline

Spline ordinal

𝑦𝑗está no contradomínio de um spline monótono não decrescente

Spline numeric

𝑦𝑗está no contradomínio de um spline monótono não decrescente, cuja distância é proporcional à

distância inicial entre a codificação das categorias

49

dos resultados, é a percentagem de VAF e a interpretação das componentes principais (as novas variáveis retidas). Ainda que, a interpretação se sobrepõe à percentagem de VAF (Linting et

al., 2007). Exemplo 3.1.

No exemplo das variáveis que caraterizam socioeconomicamente os visitantes do ADV analisou-se o impacto das transformações sob as variáveis, nos resultados da CATPCA (com a retenção de duas componentes), nomeadamente nos pesos das componentes (component

loadings,correlação entre as variáveis transformadas e as componentes principais, descrito na secção 4.3.) e na Variância Total Explicada (VAF, variabilidade que a CATPCA consegue captar com a redução da dimensionalidade resulta da soma dos quadrados dos pesos de cada componente, pormenorizada na secção 4.3.). Consideraram-se 5 transformações diferentes

(optimal scaling levels), sob as variáveis quantitativas: Idade e Distância da Residência ao

ADV. Nas restantes (Emprego, Dimensão familiar, Género, Habilitações e Rendimento), manteve-se sempre a transformação nominal, expressas em anexo (3.1 da Parte I).

A Tabela 3.1. apresenta os pesos (loadings) nas duas componentes para duas variáveis, Idade e Distância, onde foram impostas diferentes quantificações ótimas por níveis (optimal scaling

levels), e a Variância Total Explicada. Verifica-se assim que as transformações aplicadas

influenciam os resultados da CATPCA, contata-se que o aumento de restrições que se impõem na quantificação das categorias reduz a VAF, e altera o peso das variáveis nas componentes retidas (loadings). Na quantificação ótima por níveis spline ordinal (optimal scaling levels

spline ordinal) a VAF é superior ao Ordinal, uma vez que a quantificação das categorias é mais

suave, Tabela 3.1.

Tabela 3.1: Impacto da transformação aplicada nas variáveis nos resultados da CATPCA Tipo de

transformação

Idade Distância da Residência ao ADV

VAF

Peso 1 Peso 2 Peso 1 Peso 2

Nominal 0,837 0,002 0,309 -0,210 0,483

Ordinal 0,834 -0,009 0,254 -0,309 0,481

Numérico 0,811 0,049 0,224 -0,293 0,475

Spline nominal 0,837 0,003 -0,312 0,194 0,483

50

Comparativamente na HOMALS, onde se aplica a transformação nominal múltipla, o peso das

variáveis34 analisadas altera-se e a Variância Total Explicada é maior. Em relação à CATPCA

com diferentes transformações, a Idade, apresenta um menor peso na dimensão 1 e maior na dimensão 2 e a Distância contribui mais para a formação da dimensão 2, Tabela 3.2.

Tabela 3.2: Impacto da transformação nominal múltipla nos resultados da HOMALS Tipo de

transformação

Idade Distância da Residência ao ADV VAF

Medida discriminação 1 Medida discriminação 2 Medida discriminação 1 Medida discriminação 2 Nominal múltiplo (HOMALS) 0,637 0,151 0,040 0,245 0,533 3.2.1.1. Discretização

A CATPCA opera sobre as categorias das variáveis presentes na matriz 𝐇𝑛×𝑚. As variáveis

contínuas também podem ser incluídas na análise, o número de categorias é sensivelmente igual ao número de objetos (Linting et al., 2007). Mas variáveis com muitas categorias podem provocar soluções instáveis se forem tratadas como Nominal, Ordinal ou Nominal Múltipla (Lavado 2004). A discretização é então utlizada para salvaguardar a robustez das soluções, onde as variáveis iniciais são transformadas em categóricas.

A CATPCA no software SPSS Statistics permite discretizar as variáveis através de quatro

métodos: Não especificado (Unspecified), Agrupamento (Grouping), Ordenação (Ranking) e

Multiplicando (Multiplying), Tabela 3.3.

Tabela 3.3: Métodos de discretização das variáveis numéricas disponíveis no SPSS Statistics

Método Descrição

Não especificado As variáveis numéricas são convertidas em sete categorias pelo método de agrupamento, segundo uma distribuição aproximadamente normal. (Opção por omissão)

Agrupamento Envolve duas modalidades:- número de categorias, o utilizador determina o número de categorias e escolhe entre a distribuição Normal ou Uniforme (por defeito, assumem-se 7 categorias e a distribuição Normal); - intervalos iguais têm a mesma amplitude, e é necessário escolher a sua amplitude.

Ordenação Atribui a ordem 1 ao menor valor observado e assim sucessivamente (número de categorias é igual ao número de valores distintos observados)

Multiplicando Constroem-se as categorias seguindo um processo hierarquizado (estandardiza a variável→multiplica por 10→ arredonda os valores para o inteiro mais próximo→ adiciona uma constante, de forma a que o mínimo seja 1)

51

Exemplo 3.2.

Na quantificação das categorias foram ensaiadas várias possibilidades, as quais não se apresentam, tendo-se optado pelo spline ordinal para as variáveis qualitativas ordinais (Rendimento e Habilitações), spline nominal para as variáveis qualitativas nominais (Género e Emprego) e o Numérico para as variáveis quantitativas (Idade, Distância da residência ao ADV e Dimensão familiar). Nestas últimas, Idade e Distância, procedeu-se à sua discretização segundo o método agrupamento (6 classes, seguindo a distribuição Normal).

Nas Figura 3.3 apresentam-se as quantificações das categorias de algumas variáveis. Comparativamente às quantificações da HOMALS referidas no exemplo 2.4 e em anexo 2.3 (da Parte I), verifica-se uma diferença mais vincada entre as quantificações das categorias nas duas componentes na CATPCA, especialmente na variável Habilitações, o tratamento diferenciado das categorias permitiu esta distinção, tornando a sua interpretação mais clara. Figura 3.3: Quantificações das categorias de variáveis socioeconómicas na CATPCA na componente 1 (azul) e

componente 2 (cinzento): Distância da residência ao ADV (0-31, 53-135, 160-231, 254-360 e 386-1556 km), Emprego (E1 empregado, E2 desempregado, E3 estudante e E4 reformado), Dimensão familiar (1 a 5 elementos), Género (F feminino e M masculino), Habilitações (H1 a H4) e Idade (18-22, 23-32, 33-40, 41-48, 49-58 e 59-70 anos) e Rendimento (R1 a R4)

52

3.2.2. Função Perda

A peça central no sistema Gifi é a função perda, portanto também na CATPCA esta assume um papel preponderante, a quantificação ótima atinge-se no mínimo da função, é um ponto estacionário, a quantificação das categorias estabiliza (Linting et al., 2007). A sua estrutura é igual à da HOMALS (descrita na secção 2.2.2.), a menos de uma constante parcial e das restrições, (Lavado, 2012).

A igualdade surge uma proposição demostrada em Lavado35 (2004), onde soma dos quadrados

de todos os elementos de (𝐗 − 𝐆𝑗𝐘𝐣) é igual ao traço da matriz 𝑡𝑟 [(𝐗 − 𝐆𝑗𝐘𝑗)

𝑇

(𝐗 − 𝐆𝑗𝐘𝑗)].

Proposição: A função perda pode ser reformulada como

𝜎(𝐗, 𝐘) = 𝑚−1∑ 𝑡𝑟 [(𝐗 − 𝐆𝑗𝐘𝑗)

𝑇

(𝐗 − 𝐆𝑗𝐘𝑗)]

𝑗 .

Adicionalmente se variável 𝑋𝑗 é tratada como na HOMALS, com o nível Nominal Múltiplo,

𝑐𝑗 = 𝑠, caso contrário, 𝑐𝑗 = 1.

35 Considere-se (𝐗 − 𝐆

𝐣𝐘𝐣) 𝑇

(𝐗 − 𝐆𝐣𝐘𝐣) uma matriz de ordem 𝑝, em que os elementos da diagonal resultam do produto interno das colunas de

(𝐗 − 𝐆𝐣𝐘𝐣) sobre si mesmo, o equivalente à soma dos quadrados dos elementos da i-ésima coluna de (𝐗 − 𝐆𝐣𝐘𝐣). E também o traço de

[(𝐗 − 𝐆𝐣𝐘𝐣) 𝑇

(𝐗 − 𝐆𝐣𝐘𝐣)] é a soma de todos os elementos da diagonal, ou seja, a soma dos quadrados de todos os elementos de (𝐗 − 𝐆𝐣𝐘𝐣).

Define-se como:

𝜎(𝐗, 𝐘) = 𝑚−1∑ 𝑐𝑗−1𝑆𝑆𝑄 (𝐗 − 𝐆𝑗𝐘𝑗) = 𝑚−1∑ 𝑐𝑗−1𝑡𝑟 [(𝐗 − 𝐆𝑗𝐘𝑗)𝑇(𝐗 − 𝐆𝑗𝐘𝑗)]

𝑗 𝑗

𝐗 matriz que contém as quantificações dos scores dos objetos, com n linhas(número total de objetos) e s colunas (número de dimensões retidas);

𝐘 = [𝐘𝟏, … , 𝐘𝐦] 𝑇

, com 𝑝 linhas (número total de categorias de todas as variáveis) e s coluna e 𝐘𝐣 a matriz com o número de linhas igual ao número de categorias da variável 𝑋𝑗, 𝑗 ∈ {1,2, … , 𝑚} e s colunas. O sublinhado indica a presença de restrições mediante o Optimal Scaling Levels (Multiple Nominal 𝐘𝑗 = 𝐘𝑗; caso contrário

𝐘𝑗 = 𝐲𝑗× 𝐚𝑗𝑇);

𝐆𝑗matriz indicatriz associada à variável 𝑋𝑗 associada aos dados, 𝑗 ∈ {1,2, … , 𝑚};

53

A minimização da função perda da CATPCA exige a inclusão de algumas restrições, mediante os níveis de transformação estipulados (optimal scaling levels), levando à decomposição da função em diversas componentes de perda. Tendo no máximo quatro componentes, a perda habitual, a correspondente aos desvios dos centróides (mediante uma reta que passa na origem), a relativa à manutenção da ordem e a perda inerente à deslocação dos pontos – categoria (têm de ficar igualmente espaçados para respeitar a distância entre as categorias).

As variáveis a tratar com o Nominal Múltiplo têm apenas uma componente, a perda habitual que advém da substituição das variáveis, originais pelas componentes (ou dimensões no caso da HOMALS). No caso Nominal, acresce à perda a componente correspondente aos desvios dos centróides. No Ordinal contemplam-se três componentes, as referidas anteriormente e que contempla a manutenção da ordem inicial e na Numérico são contempladas as quatro componentes.

Para as variáveis spline nominal ou ordinal a perda quantifica-se com três componentes de perda: a habitual; a que advém da passagem para a reta; a que está relacionada com disposição dos pontos – categoria na reta, relativamente ao contradomínio dos splines.

Rescreve-se assim a função perda da CATPCA, essencialmente em duas componentes de perda, provenientes das restrições estipuladas: a habitual (prevista também HOMALS) designada de

Multiple Loss e a Single Loss, definidas em Michailidis et al. (1998) e Lavado (2012).

𝜎(𝐗, 𝐘) = 𝑚−1{∑ 𝑐−1𝑡𝑟[(𝐗 − 𝐆𝑗𝐘𝐣)𝑇(𝐗 − 𝐆𝑗𝐘𝐣)] 𝑗

+ ∑ 𝑐−1𝑡𝑟 [(𝐘𝑗− 𝐘𝑗)𝑇𝐃𝑗(𝐘𝑗− 𝐘𝑗)𝑇] 𝑗

}

𝐃𝑗 a matriz de frequência marginal das categorias da variável 𝑋𝑗, 𝑗 ∈ {1,2, … , 𝑚};

𝐘𝐣= 𝐘𝑗 (quando não existe contribuição da parcela Single Loss) ou 𝐘𝑗= 𝐲𝑗× 𝐚𝑗𝑇 (somatório dos quadrados dos centróides para a reta, ponderados pela frequência marginal de cada categoria).

A função perda permite quantificar a perda inerente à transformação das variáveis, tendo em vista a redução da dimensionalidade. Então minimizar a função perda equivale a minimizar cada uma das suas componentes (Lavado, 2012).

54