Análise de Fatores Principais (PFA) - Métodos de análise multivariada

3 Metodologia

3.5 Métodos de análise multivariada

3.5.1 Análise de Fatores Principais (PFA)

A Análise de Fatores Principais ou Principal Factor Analysis (PFA) é um método de análise multivariada que foi desenvolvido por psicólogos para extrair o fator mental de inteligência a partir dos resultados de testes de QI. Posteriormente, foi empregado em áreas de geologia, economia e na determinação da estrutura de fontes de aerossóis atmosféricos (Artaxo, 1985). A partir da variabilidade temporal das concentrações elementares, a PFA reduz o número de variáveis necessárias para explicar as concentrações medidas. As novas variáveis, ortogonais entre si, serão combinação linear das variáveis originais e são escolhidas de modo a representar o máximo possível da inicial das medidas. Espécies que possuam variabilidade temporal semelhante são consideradas de uma mesma fonte, transporte ou processo de formação. Nessa análise não é necessária nenhuma premissa sobre o número de fontes ou a composição das mesmas (Arana, 2014; Artaxo, 1985). A PFA foi aplicada ao estudo de aerossóis pela primeira vez por grupos das universidades de Illinois, EUA (Hopke et al., 1976) e, a partir de então têm

sido empregada sistematicamente no estudo da composição de aerossóis urbanos e remotos, mostrando-se uma análise eficiente na quantificação de fontes de material particulado (Andrade et al., 2012).

A base de dados inicial pode ser representada por uma matriz , onde m é o número total de filtros coletados e n é o número total de elementos medidos. Essa matriz inicial possui certa redundância de informações, pois alguns elementos são emitidos/formados pela mesma fonte e, portanto, não são ortogonais entre si. O objetivo da PFA é determinar uma matriz reduzida (de ordem ) e de mais fácil interpretação, onde p representa o número de fontes de aerossóis capazes de explicar a maior parte da variabilidade das espécies medidas ( ). Esta redução de dimensão é obtida matematicamente através da análise de autovalores e autovetores. Os elementos dos p vetores, chamados fatores principais, são as novas variáveis construídas a partir das variáveis originais, agrupando aquelas que possuem maior correlação (Arana, 2014).

Henry et. al (2002) sugerem que, para resultados estatisticamente significativos, a base de dados deva satisfazer a seguinte relação:

( )

Onde n é o número de casos e m o número de variáveis. As aplicações da PFA empregadas neste trabalho, com um número de variáveis entre 30 e 40, exigem n > 52. Uma vez que foi coletada uma centena de filtros em cada estação amostradora, a PFA é adequada para este trabalho.

A PFA baseia-se na seguinte equação:

∑

( ) onde:

C (m x n) é a matriz dos dados originais. Neste caso representando a concentração das n espécies para m amostras.

α é a matriz (n x p) representando a associação entre cada variável com os fatores selecionados.

m é o número total de filtros medidos n é o número total de elementos medidos p é o número total de fatores principais.

i – variáveis (PM2.5, BC, OC, Na, ..., espécie n)

j – amostras (filtro 1, filtro2, filtro3, ..., filtro m)

k – fatores principais (fonte1, fonte2, fonte3, ..., fonte p)

A PFA utiliza-se apenas das concentrações Cij para prever o número de fontes e estimar

simultaneamente os .

Para eliminar os problemas decorrentes das diferentes métricas de cada variável, a distribuição das concentrações Cij é normalizada para média zero e variância igual a 1,

procedimento que torna comparáveis os valores absolutos de concentração das variáveis, uma vez que estes podem diferir por ordens de magnitude (Artaxo, 1985; Gerab, 1996). A matriz das concentrações normalizadas é dada por:

( ̅ )

( ) Onde:

̅ ∑ , é o valor médio da concentração da variável j.

∑ ( ̅) , é o desvio padrão da variável j.

Uma vez que as variáveis são correlacionadas entre si, é possível truncar o modelo em p fatores principais (p<n), explicando uma fração significativa da variabilidade dos dados.

Na PFA assume-se que a concentração observada para cada variável é combinação linear da contribuição de cada uma das p fatores principais (eventualmente, fontes de material particulado) às quais se atribui a composição do sistema. O número p de fatores principais é determinado empregando-se uma análise de autovetores e autovalores, técnica que tenta simplificar a descrição de um sistema determinando o número mínimo de novas variáveis necessárias para reproduzi-lo.

O primeiro passo na análise de autovetores e autovalores é calcular uma matriz de dispersão, que mede o grau de relação entre as variáveis. Os dois tipos básicos de matrizes de dispersão são a matriz de covariância e a matriz de dispersão. Numa matriz de correlação, os dados estão em escalas tais que cada variável têm o mesmo peso, enquanto a matriz de covariância é calculada sem que os dados tenham sido padronizados (Hopke, 1991). Na PFA calcula-se a matriz de correlação, uma vez que a matriz de dados está normalizada.

A decomposição da matriz de dados Z no produto das duas matrizes é feita a partir da diagonalização da matriz de correlação (D) pela solução de um problema de autovalores e autovetores. Encontram-se os n autovalores (λ) da matriz de correlação de dados a partir da equação abaixo:

( ) ( ) Onde I é a matriz identidade.

Cada autovalor representa a variância de um fator principal. A variância obtida para um fator indica o número de variáveis que este fator explica. A soma das variâncias de todos os fatores principais deve resultar no número total de variáveis, isto é:

∑

( )

Determinou-se uma matriz de n amostras por n fatores principais, que representa a solução exata do problema onde 100% da variabilidade original dos dados é explicada. Todavia, o objetivo central da PFA é determinar uma matriz m x p reduzida e de mais fácil interpretação. Assim, o próximo passo é truncar o espaço dimensional das n variáveis em p fatores ( ) que expliquem uma fração significativa da variância total dos dados, bem como da variância de cada uma das variáveis iniciais individualmente.

Como critério para a escolha do número p de fatores principais, em consistência com outros trabalhos focados na quantificação de fontes através do uso de modelos receptores (Arana, 2014; Castanho, 1999; Gerab, 1996), optou-se por reter os fatores cujos autovalores λ sejam

maiores do que um após a rotação VARIMAX (discutida a seguir). Tal escolha baseia-se no fato de que fatores com autovalor menor que uma unidade carregam, em princípio, menos informação sobre a base de dados do que uma única variável, uma vez que o autovalor mostra o número de espécies que aquele fator explica. Contudo, autovalores imediatamente abaixo de um foram analisados com maior cautela, podendo vir a ser considerados, tendo em vista a comunalidade explicada para as variáveis.

Cada amostra pode ser vista como um ponto no espaço n-dimensional, onde n é o número de variáveis que compõe a base de dados. A PFA consiste na redução dimensional deste espaço. Cada amostra passa a ser representada como combinação linear de uma base ortogonal com dimensão p, onde p<n é o número de fatores principais. O significado físico desses fatores principais, contudo, não é de interpretação direta.

Para melhor interpretação dos fatores principais efetua-se uma rotação dos autovetores, preservando sua ortogonalidade, mas maximizando a variância dos quadrados dos loadings para cada fator, de modo que estes assumam valores mais próximos de um. O método utilizado neste trabalho, chamado estrutura simples ou VARIMAX, baseia-se na maximização da seguinte função (Castanho, 1999): ∑ [∑ (∑ ) ] ( )

Onde V é a matriz de rotação varimax; l são os autovetores; e p é o número de fatores principais retidos.

No documento UNIVERSIDADE DE SÃO PAULO INSTITUTO DE FÍSICA (páginas 58-62)