Fatoração de Matriz Positiva (Positive Matrix Factorization)

3. Metodologia

3.4 Fatoração de Matriz Positiva (Positive Matrix Factorization)

A Fatoração de Matriz Positiva ou Positive Matrix Factorization (PMF) é um aprimoramento da aplicação de Modelos Multivariados, como a Análise de Componentes Principais e Análise de Fatores, à identificação de fontes de poluição atmosférica. Os princípios básicos são os mesmos da Análise de Fatores mas há a imposição de vínculos físicos ao problema estatístico, como a não ocorrência de fontes negativas e a ponderação do peso das variáveis de acordo com seu desvio-padrão. Isto é, algumas variáveis, em função de incertezas nas medidas irão pesar menos na caracterização de uma fonte de poluição (REFF et al., 2007).

O PMF se baseia no ajuste de mínimos quadrados entre as variáveis e os fatores identificados, com o vínculo dos fatores serem positivos, o que poderia não acontecer na ACP, onde os valores negativos não tinham significado físico (PAATERO e TAPPER, 1994 e HUANG et al., 1999).

A PMF tem como objetivo identificar o número de fatores (fontes) e a variabilidade destas para cada evento amostrado. Assim, o PMF utiliza um modelo bilinear:

ij p k ik kj ij g f e x 



_  1 (3.13)

Onde: xij = concentração da espécie j na amostra medida i;

p = número de fatores que contribuem para as amostras; fkj = concentração da espécie j no fator perfil k;

gik = contribuição relativa do fator k na amostra i;

ei j = erro do modelo PMF para espécie j medida na amostra i (REEF et al.,

2007).

Pode-se observar da expressão acima que o PMF pondera cada medida pelo seu erro, sendo que dessa forma o usuário pode ajustar a influência de cada variável para a sua análise (NORRIS et al., 2008).

3.4.1 Ajuste das fontes e das variáveis no PMF

Para ajustar os valores de gik e fkj é obtida uma função Q que é minimizada, com a

condição de que todos os elementos da matriz sejam positivos (isto é gik  0 e fkj 0). Q é a

chamada Função Perda, definida como (PAATERO, 1997, HOPKE, 2000, REFF et al., 2007 e NORRIS et al., 2008):

 

           n i m j ij ij e Q 1 1 2  (3.14)

Onde:  i j = incerteza da concentração j na espécie i;

eij = resíduo igual a kj p k ik ij g f x 



_ 1 .

Houve um desenvolvimento ao longo dos últimos anos para a obtenção de fkj e gik

com o vínculo de que a função Q seja minimizada, em Oyama (2010), são apresentadas algumas dessas metodologias.

A versão utilizada neste trabalho está disponibilizada pela EPA, que criou uma interface gráfica para o PMF o Multilinear Engine, ME (REFF el al., 2007) para o ajuste de

O ME possibilita a imposição de vínculos de não negatividade (com a especificação de pesos ótimos para cada ponto de dados) baseados nas medidas das incertezas e possibilita a capacidade opcional de tratar dados incompletos ou sem significância (por exemplo dados faltantes e dados abaixo do limite de detecção) incluindo uma análise robusta para o tratamento de valores empíricos (Oyama, 2010).

A significância da ponderação dos dados e especificação das estimativas de erro no ME foram descritas em detalhe em Paatero (1994). Como em Oyama (2010), a primeira etapa é a determinação de um peso realista para cada dado no ajuste, sendo que esses pesos dependem das incertezas das medidas e também da potencial variabilidade nas composições das fontes. O objetivo é minimizar a soma dos quadrados dos resíduos ponderados inversamente com as estimativas dos erros dos dados.

Uma das vantagens do uso do PMF reside no fato dos pesos das medidas para a análise serem influenciados pelas suas incertezas, ou seja, valores abaixo do limite de detecção,

outliers e valores perdidos têm incertezas maiores que os demais dados de concentração

(HERMANN et al., 2009) e portanto influenciam menos na classificação dos fatores.

Os valores de Q são parâmetros utilizados para avaliar a qualidade do ajuste do modelo em representar os dados de entrada,ou seja, se a incerteza calculado pelo modelo PMF reflete a incerteza medida dos dados (isto é comparando-se eij e σij), então Q pode ser

assintoticamente uma distribuição 2. Dessa forma, o valor esperado do2 é o seu grau de liberdade, definido como:

Qteórico = nm – p (n + m) (3.15)

Esse Qteórico, que é o valor esperado de um 2, é utilizado como referência na

resultado do PMF, Qverdadeiro – que considera todo o conjunto de dados – e também o Qrobusto –

que é calculado excluindo os outliers.

3.4.2 Preparação dos dados

Para a preparação da base de dados é necessário tomar cuidados como: verificação de número de amostras válidas, quais espécies serão consideradas, duplicação de medidas e dados perdidos.

Um dos critérios utilizados na preparação dos dados é a análise da razão sinal/ruído (“Signal-to-Noise, S/N)”:







          n i ij n i ij ij j x N S 1 2 1 2   (3.16)

Onde: xij = concentração da espécie j na amostra medida i;

ij = incerteza da espécie j medida na amostra i (REEF et al., 2007).

Quando maior essa razão, menos as incertezas afetam as medidas, e o contrário para estudos em que essa razão é pequena.

Concentrações abaixo do limite de detecção mínimo (LDM), podem ser substituídas pela metade do valor do limite de detecção, como em Polissar et al.(1998) e Lee et al. (1999), ou pela média, como em Huang et al. (1999). Segundo Reef et al. (2007), se houver outliers nas séries temporais das espécies, substituí-los pela mediana está menos sujeito a super/subestimativa das medições, como o que ocorre com a média. Desta forma, como em Lee et al. (1999) e Oyama (2010), neste trabalho os dados perdidos ou removidos, considerados outliers, foram substituídos pela mediana.

Neste trabalho as incertezas nas concentrações foram calculadas com base no método analítico e suas limitações na acurácia e limite de detecção. Nem sempre as incertezas estão

disponíveis e por isso podem ser estimadas como descrito por NORRIS et al.(2008). Reff et al. (2007) sugeriram alguns métodos para o cálculo dessas incertezas, considerando, em sua maioria, erro analítico e limite de detecção mínimo.

3.4.3 Número de Fatores

Para definir o número de fatores a serem utilizados deve-se analisar os valores de Q. Considera-se que houve um bom ajuste quando os valores de Q são próximos do Q teórico (HEDBERG et al., 2005, REEF et al., 2007, NORRIS et al., 2008). Além da função erro devem ser analisados também os resíduos dos elementos utilizados na PMF.

3.4.4 Rotação dos Fatores

Para definir o há a existência de muitas soluções possíveis em termos de número de fatores, a rotação é empregada no processo de ajuste e não após a extração dos fatores como na ACP e AF. O método mais comum de rotação é chamado FPEAK, que força as linhas e colunas das matrizes G e F a serem adicionadas e/ou subtraídas entre si (PAATERO, 1997) até a minimização da função erro. O grau de liberdade de rotação é reduzido se há valores reais zerados nas matrizes G e F. A escolha é empírica para um particular valor de FPEAK, entretanto é importante analisar o valor de Q (OYAMA, 2010 apud HOPKE, 2000, REEF et al., 2007 e PAATERO 1997).

3.4.5 Incerteza do modelo

As incertezas do modelo incorporam a variação temporal das fontes, erros de medidas, variabilidade das amostras (REEF et al., 2007). Para tratar essas incertezas, foi introduzido em 1979 o bootstrap, que estima o erro padrão de um conjunto de dados, mais precisamente, a estabilidade e a incerteza da solução (NORRIS et al., 2008, EFRON e TIBSHIRANI, 1993).

No documento Identificação das fontes de Material Particulado Fino (MP 2,5 ) de Porto Alegre (páginas 42-47)