• Nenhum resultado encontrado

3.4 PROCEDIMENTOS DE ANÁLISE DOS QUESTIONÁRIOS

3.4.2 Análise de Componentes Principais

A Análise de Componentes Principais (ACP) é uma técnica que transforma um conjunto de variáveis correlacionadas em um conjunto menor de variáveis independentes, formando combinações lineares das variáveis originais, designadas por “componentes principais”. (MAROCO, 2010). Os objetivos do método, conforme Abdi e Williams (2010), são: a) extrair as informações mais importantes de um conjunto de dados; b) comprimir o tamanho do conjunto de dados, mantendo somente essas informações mais importantes; c) simplificar a descrição dos dados; e d) analisar a estrutura de observações e variáveis.

Para cumprir tais objetivos, o método calcula novas variáveis chamadas de componentes principais. Johnson e Wichern (2007) introduzem o método explicando

que, mesmo que a variância total de um sistema de variáveis seja reproduzida por um número p de itens, com frequência grande parte dessa variabilidade pode ser explicada por uma pequena quantidade k daqueles componentes que sejam os principais do sistema. Nesse caso, pode-se afirmar que os componentes k compreendem quase a mesma quantidade de informação que o total de componentes p, e, portanto, os componentes principais k podem substituir as variáveis iniciais p. Assim, o grupo de dados originais que consistia de n medidas em um número p de variáveis é reduzido a um grupo de dados consistindo de n medidas em k componentes principais.

Desta forma, a análise de componentes principais resume a maior parte da informação original (variância) a um número mínimo de componentes, com o objetivo de explicar a estrutura de variância-covariância de um grupo de variáveis. Para tal, o processo analisa as combinações lineares entre as variáveis e procura a combinação que explique o máximo da variância dos dados. (HAIR JR. et al, 2014; BEZERRA, 2007).

Tais combinações lineares de p variáveis aleatórias (X1, X2, …, Xp), representam a formação de um novo sistema de coordenadas obtido através da rotação do sistema original, considerando X1, X2, …, Xp como os eixos de coordenadas. Os novos eixos representam as direções com máxima variabilidade, e fornecem uma descrição mais simples e parcimônia da estrutura de covariância dos dados (JOHNSON; WICHERN, 2007). Tal método frequentemente revela relações que não seriam originalmente esperadas, possibilitando realizar interpretações que não seriam encontradas normalmente. (JOHNSON; WICHERN, 2007).

O modelo de componentes principais é apresentado seguindo Johnson e Wichern (2007) e Maroco (2010). Como mencionado anteriormente, o objetivo da ACP é formar p combinações lineares independentes, sendo elas do tipo:

ξ = < = + + ⋯ + " " ξ = < = + + ⋯ + " " ⋮ ξ"= "< = " + " + ⋯ + "" " (5)

Onde , , … , = são as p variáveis originais, ξ" são os p componentes principais e #$ é o peso da variável j no componente principal i. Os pesos #$ são estimados de modo a que:

1) O primeiro componente principal explique a maior parte da variância total das variáveis originais;

2) O componente seguinte explique a maior proporção da variância não explicada pelo primeiro componente e esta é independente da primeira. Matematicamente, tal condição é formalizada por # $ + # $ + ⋯ +

#" $" = 0 (+ ≠ ?; + = 1, … , -; ? = 1, … , -);

3) A escala dos novos componentes é fixa de modo a manter constante a variância total. Matematicamente, essa condição é expressa por ²# +

²# + ⋯ + #" = 1 (+ = 1, … , -).

Considerando o modelo em forma matricial, identifica-se que a matriz de variância-covariância de é denotada por Σ = ( <), ou seja, o valor esperado do produto do vetor x pelo transposto do vetor x. Se < = C , , … , "D for o vetor transposto do vetor dos pesos das variáveis, e ξ< = Cξ , ξ , … , ξ"D for o vetor transposto dos componentes principais, então cada um dos componentes principais podem ser representados por ξ = ′ . A variância de ξ é dada por FG(ξ) = (ξξ<) = E( < < ), logo, pelas propriedades do valor esperado, temos que FG(ξ) = <E( <) e, portanto, FG(ξ) = <Σ e IJK(ξ#, ξ ) = #<Σ . (JOHNSON; WICHERN, 2007; MAROCO, 2010).

Os componentes principais são, assim, as combinações lineares ξ ,ξ ,… , ξ= não correlacionadas, para as quais as variâncias em FG(ξ) = <Σ sejam as mais altas possíveis. Sendo assim, o primeiro componente principal é a combinação linear com a maior variância da amostra. Ou seja, procura-se o vetor dos pesos em que FG(ξ ) = <Σ seja maximizada. Johnson e Wichern (2007) frisam que fica claro que FG(ξ ) = <Σ pode ser aumentada multiplicando qualquer por uma constante. Para eliminar tal indeterminação, é imposta sobre o problema de maximização a restrição de que < = 1. Define-se assim, seguindo Johnson e Wichern (2007) e Maroco (2010):

a) Primeiro componente principal: formado pela combinação linear L< que maximize FG(L< ) sujeito a < = 1;

b) Segundo componente principal: depois de encontrado o primeiro componente, parte-se para o segundo por um processo iterativo e semelhante, mas com a restrição adicional de independência entre os componentes (ortogonalidade). Portanto, o segundo componente é formado pela combinação linear L< que maximize FG(L< ), sujeito a < = 1 e, adicionalmente, sujeito a IJK(L< , L< ) = 0 (ou, também, IJK(ξ , ξ ) = 0);

c) “I-ésimo” componente principal: esse processo iterativo continua até que a quantidade de componentes extraídas seja definida. Sendo assim, o i- ésimo componente principal será formado pela combinação linear L#< que maximize FG(L#< ) sujeito a #< # = 1 e, adicionalmente, sujeito a IJK(L#< , L< ) = 0 (ou, também, IJK(ξ

#, ξ ) = 0) para todo M < +.

Dessa forma, percebe-se que a ACP é realizada somente com base na matriz de variância-covariância Σ das variáveis originais , ,… , ", não requerendo a hipótese de que essas apresentem uma distribuição multivariada normal. (JOHNSON; WICHERN, 2007).

Uma decisão importante a ser tomada ao longo do processo de análise de componentes principais (assim como na análise fatorial), é o de quantos componentes (ou fatores) extrair. Neste trabalho, na tentativa de ambos os métodos, os critérios utilizados para essa definição foram o critério de raiz latente (também chamado de critério do autovalor), em conjunto com o critério de percentagem da variância explicada.

Sobre o critério de raiz latente, Hair Jr. et al. (2014) esclarecem que cada fator ou componente individual, se mantido na interpretação da análise, deve explicar a variância de ao menos uma variável. Por sua vez, cada variável contribui com um valor de 1,0 para o autovalor total do componente. Sendo assim, somente componentes contendo autovalores acima de 1,0 são considerados significantes e mantidos na análise, já que aqueles com autovalores abaixo de 1,0 são menos significativos do que uma variável original. (BEZERRA, 2007; HAIR JR et al., 2014).

Quanto ao critério de percentagem da variância, o que é levado em consideração é o percentual da variância total explicada pelos fatores extraídos, sendo que o número de fatores mantidos na análise é aquele que explica um percentual de variância que o pesquisador considera adequado. (BEZERRA, 2007). Hair Jr. et al. (2014) indicam que para pesquisas da área de ciências sociais, uma solução que explica acima de 60% da variância total seja adequada.

3.4.2.1 Análise de Componentes Principais Categórica (CATPCA)

A ACP é um dos métodos de estatística multivariada mais populares em existência, sendo utilizado em praticamente todas as disciplinas científicas. (ABDI, WILLIAMS, 2010). O seu desenvolvimento se deu com o objetivo de analisar variáveis puramente quantitativas, porém, como observa Maroco (2010), em grade parte dos estudos de ciências sociais, algumas variáveis são qualitativas (medidas em uma escala nominal ou ordinal), como é o caso do presente trabalho.

Com o objetivo de resolver a dificuldade de utilização de variáveis qualitativas em estudos que se utilizariam da ACP, um grupo de pesquisadores da Faculty of Social and Behavioral Sciences da Universidade de Leiden na Holanda, desenvolveu um método chamado de optimal scaling (escala ótima ou ideal), o qual atribui quantificações numéricas às categorias de cada uma das variáveis qualitativas, possibilitando o posterior uso em métodos standard de análise numérica. (MAROCO, 2010; MEULMAN, 1992; MEULMAN; VAN DER KOOIJ; HEISER, 2004).

O processo de optimal scaling, portanto, atribui valores numéricos a cada uma das classes das variáveis originais, utilizando-se de um procedimento iterativo chamado de método dos mínimos quadrados alternantes, de tal modo que as quantificações numéricas possuam propriedades métricas, algo que não era visto nas variáveis originais. (IBM, 2013; MAROCO, 2010).

Finalizado o processo de optimal scaling, os valores resultantes e estandardizados são utilizados em uma análise de componentes principais, que recebe o nome de Análise de Componentes Principais Categórica (CATPCA, na sigla em inglês para Categorical Principal Components Analysis). Assim, a CATPCA é apropriada quando se pretende reduzir a dimensionalidade de variáveis medidas em diferentes escalas categóricas, em um ou mais componentes transformados em uma

escala numérica, e que expliquem uma proporção considerável da informação presente. (MAROCO, 2010).

O software SPSS realizada estes procedimentos, atribuindo valores de optimal scaling a cada uma das categorias das variáveis do estudo, de modo que esses valores sejam ótimos com relação à solução dos componentes principais obtidos. (IBM, 2013; MAROCO, 2010). Finalizado o procedimento, as observações na análise recebem escores baseados nos dados quantificados. A solução da CATPCA maximiza as correlações entre esses escores e cada uma das variáveis quantificadas para o número de componentes extraídos. (IBM, 2013).