3 Metodologia
3.5 Métodos de análise multivariada
3.5.1 Análise de Fatores Principais (PFA)
A Análise de Fatores Principais ou Principal Factor Analysis (PFA) é um método de análise multivariada que foi desenvolvido por psicólogos para extrair o fator mental de inteligência a partir dos resultados de testes de QI. Posteriormente, foi empregado em áreas de geologia, economia e na determinação da estrutura de fontes de aerossóis atmosféricos (Artaxo, 1985). A partir da variabilidade temporal das concentrações elementares, a PFA reduz o número de variáveis necessárias para explicar as concentrações medidas. As novas variáveis, ortogonais entre si, serão combinação linear das variáveis originais e são escolhidas de modo a representar o máximo possível da inicial das medidas. Espécies que possuam variabilidade temporal semelhante são consideradas de uma mesma fonte, transporte ou processo de formação. Nessa análise não é necessária nenhuma premissa sobre o número de fontes ou a composição das mesmas (Arana, 2014; Artaxo, 1985). A PFA foi aplicada ao estudo de aerossóis pela primeira vez por grupos das universidades de Illinois, EUA (Hopke et al., 1976) e, a partir de então têm
sido empregada sistematicamente no estudo da composição de aerossóis urbanos e remotos, mostrando-se uma análise eficiente na quantificação de fontes de material particulado (Andrade et al., 2012).
A base de dados inicial pode ser representada por uma matriz , onde m é o número total de filtros coletados e n é o número total de elementos medidos. Essa matriz inicial possui certa redundância de informações, pois alguns elementos são emitidos/formados pela mesma fonte e, portanto, não são ortogonais entre si. O objetivo da PFA é determinar uma matriz reduzida (de ordem ) e de mais fácil interpretação, onde p representa o número de fontes de aerossóis capazes de explicar a maior parte da variabilidade das espécies medidas ( ). Esta redução de dimensão é obtida matematicamente através da análise de autovalores e autovetores. Os elementos dos p vetores, chamados fatores principais, são as novas variáveis construídas a partir das variáveis originais, agrupando aquelas que possuem maior correlação (Arana, 2014).
Henry et. al (2002) sugerem que, para resultados estatisticamente significativos, a base de dados deva satisfazer a seguinte relação:
( )
Onde n é o número de casos e m o número de variáveis. As aplicações da PFA empregadas neste trabalho, com um número de variáveis entre 30 e 40, exigem n > 52. Uma vez que foi coletada uma centena de filtros em cada estação amostradora, a PFA é adequada para este trabalho.
A PFA baseia-se na seguinte equação:
∑
( ) onde:
C (m x n) é a matriz dos dados originais. Neste caso representando a concentração das n espécies para m amostras.
α é a matriz (n x p) representando a associação entre cada variável com os fatores selecionados.
m é o número total de filtros medidos n é o número total de elementos medidos p é o número total de fatores principais.
i – variáveis (PM2.5, BC, OC, Na, ..., espécie n)
j – amostras (filtro 1, filtro2, filtro3, ..., filtro m)
k – fatores principais (fonte1, fonte2, fonte3, ..., fonte p)
A PFA utiliza-se apenas das concentrações Cij para prever o número de fontes e estimar
simultaneamente os .
Para eliminar os problemas decorrentes das diferentes métricas de cada variável, a distribuição das concentrações Cij é normalizada para média zero e variância igual a 1,
procedimento que torna comparáveis os valores absolutos de concentração das variáveis, uma vez que estes podem diferir por ordens de magnitude (Artaxo, 1985; Gerab, 1996). A matriz das concentrações normalizadas é dada por:
( ̅ )
( ) Onde:
̅ ∑ , é o valor médio da concentração da variável j.
∑ ( ̅) , é o desvio padrão da variável j.
Uma vez que as variáveis são correlacionadas entre si, é possível truncar o modelo em p fatores principais (p<n), explicando uma fração significativa da variabilidade dos dados.
Na PFA assume-se que a concentração observada para cada variável é combinação linear da contribuição de cada uma das p fatores principais (eventualmente, fontes de material particulado) às quais se atribui a composição do sistema. O número p de fatores principais é determinado empregando-se uma análise de autovetores e autovalores, técnica que tenta simplificar a descrição de um sistema determinando o número mínimo de novas variáveis necessárias para reproduzi-lo.
O primeiro passo na análise de autovetores e autovalores é calcular uma matriz de dispersão, que mede o grau de relação entre as variáveis. Os dois tipos básicos de matrizes de dispersão são a matriz de covariância e a matriz de dispersão. Numa matriz de correlação, os dados estão em escalas tais que cada variável têm o mesmo peso, enquanto a matriz de covariância é calculada sem que os dados tenham sido padronizados (Hopke, 1991). Na PFA calcula-se a matriz de correlação, uma vez que a matriz de dados está normalizada.
A decomposição da matriz de dados Z no produto das duas matrizes é feita a partir da diagonalização da matriz de correlação (D) pela solução de um problema de autovalores e autovetores. Encontram-se os n autovalores (λ) da matriz de correlação de dados a partir da equação abaixo:
( ) ( ) Onde I é a matriz identidade.
Cada autovalor representa a variância de um fator principal. A variância obtida para um fator indica o número de variáveis que este fator explica. A soma das variâncias de todos os fatores principais deve resultar no número total de variáveis, isto é:
∑
( )
Determinou-se uma matriz de n amostras por n fatores principais, que representa a solução exata do problema onde 100% da variabilidade original dos dados é explicada. Todavia, o objetivo central da PFA é determinar uma matriz m x p reduzida e de mais fácil interpretação. Assim, o próximo passo é truncar o espaço dimensional das n variáveis em p fatores ( ) que expliquem uma fração significativa da variância total dos dados, bem como da variância de cada uma das variáveis iniciais individualmente.
Como critério para a escolha do número p de fatores principais, em consistência com outros trabalhos focados na quantificação de fontes através do uso de modelos receptores (Arana, 2014; Castanho, 1999; Gerab, 1996), optou-se por reter os fatores cujos autovalores λ sejam
maiores do que um após a rotação VARIMAX (discutida a seguir). Tal escolha baseia-se no fato de que fatores com autovalor menor que uma unidade carregam, em princípio, menos informação sobre a base de dados do que uma única variável, uma vez que o autovalor mostra o número de espécies que aquele fator explica. Contudo, autovalores imediatamente abaixo de um foram analisados com maior cautela, podendo vir a ser considerados, tendo em vista a comunalidade explicada para as variáveis.
Cada amostra pode ser vista como um ponto no espaço n-dimensional, onde n é o número de variáveis que compõe a base de dados. A PFA consiste na redução dimensional deste espaço. Cada amostra passa a ser representada como combinação linear de uma base ortogonal com dimensão p, onde p<n é o número de fatores principais. O significado físico desses fatores principais, contudo, não é de interpretação direta.
Para melhor interpretação dos fatores principais efetua-se uma rotação dos autovetores, preservando sua ortogonalidade, mas maximizando a variância dos quadrados dos loadings para cada fator, de modo que estes assumam valores mais próximos de um. O método utilizado neste trabalho, chamado estrutura simples ou VARIMAX, baseia-se na maximização da seguinte função (Castanho, 1999): ∑ [∑ (∑ ) ] ( )
Onde V é a matriz de rotação varimax; l são os autovetores; e p é o número de fatores principais retidos.