• Nenhum resultado encontrado

Análise fatorial e análise de componentes principais

3 PROCEDIMENTOS METODOLÓGICOS

3.3 TRATAMENTO DOS DADOS

3.3.3 Análise fatorial e análise de componentes principais

A análise fatorial, que inclui a análise de componentes principais e a análise dos fatores comuns, é uma abordagem estatística que pode ser usada para analisar inter-relações entre um grande número de variáveis e explicar essas variáveis em termos de suas dimensões inerentes comuns, denominadas fatores (HAIR et al., 2009). O objetivo consiste em encontrar um meio de condensar a informação contida em várias variáveis originais em um conjunto menor de variáveis estatísticas (fatores), com uma perda mínima de informação.

A análise de componentes principais é um modelo fatorial no qual os fatores são baseados na variância total33. Nesse modelo, unidades (valores de 1,0) são usadas na diagonal da matriz correlação, de modo que a variância completa é trazida à matriz fatorial. A análise de fatores comuns, em contraste, é um modelo fatorial no qual os fatores são baseados em uma matriz de correlação reduzida, ou seja, comunalidades são inseridas na diagonal da matriz de correlação e os fatores são baseados apenas na variância comum, com as variâncias específicas e de erro excluídas (HAIR et al., 2009).

A análise de componentes principais (ACP) encontra-se entre as mais importantes ferramentas da análise multivariada, inclusive por constituir a base onde se fundamenta a maioria dos outros métodos multivariados de análise de dados (LYRA et al., 2010). Como uma ferramenta de análise exploratória, Lyra et al. (2010) apontam que a ACP permite revelar a existência ou não de amostras anômalas, de relações entre as variáveis medidas e de relações ou agrupamentos entre amostras, destacando, ainda, que métodos eficientes de classificação são derivados da ACP.

A ACP é uma técnica matemática de análise multivariada, que consiste em transformar um conjunto de variáveis originais em outro conjunto de variáveis de mesma dimensão denominadas de componentes. Os componentes apresentam propriedades importantes: cada componente é uma combinação linear de todas as variáveis originais, são independentes entre si e estimados com o propósito de reter, em ordem de estimação, o máximo de informação, em termos da variação total contida nos dados. Nesse sentido, a ACP está associada à ideia de redução de massa de dados, com menor perda possível da informação, redistribuindo a variação observada nos eixos originais de forma a se obter um conjunto de eixos ortogonais não correlacionados.

Em geral, espera-se que os primeiros componentes chamados componentes principais (em número menor do que o de variáveis originais) compreendam a maior parte da variação total no conjunto de dados original tal que a dimensionalidade efetiva dos dados pode ser reduzida (JOHNSON; WICHERN, 2007).

33

A variância total de qualquer variável pode ser dividida em três tipos de variância (HAIR et al., 2009): Variância comum: definida como aquela variância, em uma determinada variável, que é compartilhada com

todas as outras variáveis na análise. É explicada (compartilhada) com base nas correlações de uma variável com as demais na análise. Assim, a comunalidade de uma variável é a quantia total de variância que uma variável original compartilha com todas as outras variáveis incluídas na análise.

Variância específica: variância de cada variável, única à determinada variável. Essa variância não pode ser explicada pelas correlações com as outras variáveis, mas é associada unicamente com uma variável.

Variância de erro: é também variância que não pode ser explicada por correlações com outras variáveis, mas resulta da não confiabilidade no processo de coleta de dados, de erro de medida ou de componente aleatório no fenômeno medido.

A análise fatorial tem um propósito similar, mas é baseada num modelo estatístico próprio que especifica um dado número de variáveis subjacentes chamadas fatores. É considerada uma técnica estatística, pois ela pressupõe a existência de um modelo, permite que se façam inferências e cumpre com algumas pressuposições básicas sobre as variáveis em análise, como a multinormalidade dos dados (VICINI; SOUZA, 2005). É uma técnica voltada para a “explicação” da estrutura de covariâncias das variáveis, em vez de olhar apenas as variâncias. Devido às similaridades da análise fatorial com a análise de componentes principais, os dois métodos são algumas vezes confundidos, especialmente porque um dos modos de extração de fatores na análise fatorial é o de componentes principais.

A ACP é considerada um método fatorial, uma vez que a redução do número de variáveis não se faz por uma simples seleção de algumas variáveis, mas pela construção de novas variáveis sintéticas, obtidas pela combinação linear das variáveis iniciais.

De forma a estudar as relações entre um conjunto de p variáveis correlacionadas, pode se útil transformar o conjunto de dados em um novo conjunto de variáveis não correlacionadas chamadas componentes principais, que expressam combinações lineares das variáveis originais e são obtidas em ordem decrescente de importância, tal que, por exemplo, o primeiro componente principal conta com a maior parte possível da variação total nos dados originais.

O objetivo usual da análise é verificar se os primeiros componentes principais (CP) compreendem a maior parte da variação dos dados originais. Se for este o caso, então coloca- se a questão de que a dimensionalidade efetiva dos dados é menor do que p, ou seja, se algumas variáveis originais são altamente correlacionadas, elas estão efetivamente dizendo a mesma coisa e podem, portanto, existir restrições lineares sobre estas variáveis. Neste caso, é esperado que os primeiros componentes sejam significativos, que ajudem a compreender melhor os dados e sejam úteis nas análises subsequentes.

Para melhor compreender a ACP, supõe-se a situação em que se observa „p‟ características de „n‟ indivíduos de uma população π. As características observadas são representadas pelas variáveis X1, X2, ..., Xn. A matriz de dados é de ordem „n x p‟ e

normalmente denominada de matriz „X‟.

Dessa forma, os dados X1, X2, ..., Xn representam n observações independentes de

alguma população p-dimensional com vetor de média µ e matriz de covariância Σ. Esses dados produzem um vetor de média amostral ̅, a matriz de covariância amostral C e a matriz de correlação amostral R.

A realização da ACP consiste em fatorar a matriz de dados X, de modo que X=TLT+E, onde L é a matriz dos pesos, T a matriz dos escores e E a matriz dos resíduos. O símbolo T (T sobrescrito) é o operador de transposição de matriz. A primeira componente principal é CP1=t1l1T, que é a melhor aproximação de posto 1 para X e corresponde à direção de maior

variância no espaço multivariado. E1=X - t1l1T é o resíduo de X, descontado CP1. A segunda

componente principal é CP2=t2l2T, que é a melhor aproximação de posto 1 para E1e

corresponde à direção de maior variância no espaço multivariado não modelada por CP1, ou

seja, ortogonal a ela. E2= E1 – t2l2T é o resíduo deixado por CP1 e CP2. As componentes

subsequentes modelam sempre a direção de maior variância no espaço multidimensional não modelado pelas CP anteriores e são sempre ortogonais a todas elas. É possível realizar uma truncagem na sequência das componentes principais mantendo apenas um número pequeno de CP que já respondem por uma parcela significativa da informação total contida na estrutura de dados.

Na prática, para fazer uma análise de componentes principais, calcula-se, inicialmente, a matriz de covariância, C, para dados centrados na média, ou a matriz de correlação, R, para dados autoescalonados.

C (ou R) = E0TE0/(n-1) (9)

onde E0 é a matriz pré-processada e n é o número de linhas da matriz. Em seguida, calculam-

se os autovalores e autovetores normalizados de C ou R.

CL=ΛL (10)

onde Λ é a matriz diagonal dos autovalores. Cada autovetor l é um vetor de pesos de uma componente principal. Cada autovalor λ fornece a quantidade de variância explicada pela respectiva componente, de modo que CP1 tem o maior autovalor, CP2 o segundo maior, e assim por diante.

Algebricamente, componentes principais são combinações lineares particulares das variáveis X1, X2,... , Xp. Geometricamente, estas combinações lineares representam a seleção

de um novo sistema de coordenadas rotacionando-se o sistema original. Os novos eixos representam as direções com variabilidade máxima e fornecem descrição mais simples e parcimoniosa da estrutura de covariância. Os componentes principais dependem somente da estrutura de covariância Σ (ou da matriz de correlação ρ). Seu desenvolvimento não exige que

os dados sejam normais multivariados. Por outro lado, componentes principais obtidos de populações normais multivariadas têm interpretações úteis em função dos elipsóides de densidade constante. Além disso, inferências podem ser feitas a partir dos componentes amostrais, quando a população é normal multivariada.

Suponha X um vetor aleatório p-dimensional, XT = (X1, ..., Xp), com média µ e matriz

de covariância Σ. O objetivo é encontrar um novo conjunto de variáveis, a saber CT

= (C1, ...,

Cp), tal que C1, C2,...,Cp são não correlacionadas e cujas variâncias decrescem da primeira

para a última. Cada Cj é tomada como uma combinação linear dos componentes do vetor X tal

que:

Cj = aj1 X1 + aj2 X2 + ... + ajp Xp = a‟jX (11)

Sendo que a‟j = (aj1, aj2..., ajp) é um vetor de constantes. A equação 11 contém um

fator de escala arbitrário. Portanto, impõe-se a condição a‟jaj = ∑ . Esse

procedimento particular de normalização assegura que a transformação global é ortogonal. Em outras palavras, assegura que distâncias e ângulos no novo espaço são preservados.

O primeiro componente principal, C1, é encontrado escolhendo-se a1 tal que C1 tenha a

maior variância possível. Em outras palavras, escolhemos a1 de forma a:

Maximizar Var(a‟1X)

Sujeito a: a‟1a1 =1 (12)

O segundo componente principal é encontrado escolhendo-se a2 tal que C2 tenha a

maior variância possível para todos os compostos definidos pela equação 11 que são não correlacionados com C1. Similarmente, são derivados os componentes C3, C4,..., Cp de forma

que eles sejam não correlacionados com os anteriores e tenham variâncias decrescentes.