• Nenhum resultado encontrado

2.11 ESTATÍSTICA MULTIVARIADA

2.11.1 Análise de Componentes Principais (ACP)

A análise de componentes principais (do inglês Principal Component Analysis - PCA) é um método exploratório de análise de dados que utiliza a estrutura de correlação entre múltiplos constituintes, produzindo um pequeno número de novas variáveis, denominadas componentes principais (CPs), que contêm a maior parte das informações no conjunto de dados original (Olsen et al., 2012).

Segundo Vialle et al. (2011) a análise de componentes principais é uma das abordagens mais aplicadas na área de meio ambiente para estudar as estruturas de dados.

Esta técnica busca imprimir um tratamento estatístico a um número relativamente alto de variáveis heterogêneas, que possuam um grau considerável de aspectos comuns, isto e, com um elevado grau de correlação entre si. Desta forma, o que se busca é condensar o conjunto inicial de muitas variáveis (Yj , j = 1; 2; : : : ; p) em um número bem menor de novas variáveis (Ck, k = 1; 2; : : : ; k, sendo k < p), as componentes principais, com uma pequena perda de informações (Silva et al., 2005).

A principal característica dessas componentes, além da ortogonalidade, é que são obtidas em ordem decrescente de máxima variância. Portanto, são calculadas de forma que a primeira componente principal explique o máximo da variabilidade total dos dados; a

88 segunda explique o máximo da variabilidade restante dos dados, sendo não correlacionada com a primeira; a terceira explique o máximo da variabilidade total restante dos dados, sendo não correlacionada com a primeira e a segunda componentes e, assim, sucessivamente, até que o número de componentes principais seja no máximo igual ao número de variáveis (Guedes et al., 2012).

Almeja-se que este número de componentes principais seja o menor possível, ou seja, parte-se de p variáveis originais para k componentes principais, com k muito inferior a p, de modo que a perda de informação seja a menor possível. Assim sendo, se as variáveis originais estiverem muito correlacionadas, o número de componentes principais que expliquem a variabilidade é reduzido. Caso as variáveis originais estejam pouco correlacionadas essa redução é pouco significativa (Gomes, 2013).

Pelo agrupamento das variáveis que estão relacionadas entre si, os componentes principais obtidos podem ser definidos, ou seja, podem receber uma identificação (rotulação), de acordo com o que as variáveis de seus respectivos grupos representam (ex: sedimentos, agricultura, esgoto). Cada um desses componentes explica uma porcentagem da variância encontrada no conjunto de dados total e, quanto maior esse valor, mais informações dos dados originais estará contida nesse único componente (Gamble & Babbar-Sebens, 2012).

As contribuições de cada variável nas componentes principais correspondem aos pesos ("loadings"). Estes fornecem a indicação de como as variáveis originais são importantes para a formação das componentes principais (Gomes, 2013).

As variáveis com pesos mais altos são consideradas mais importantes e têm maior influência sobre o nome ou rótulo selecionado para representar o componente principal.

Para a realização da ACP, também, é necessário decidir o número de componentes a reter, ou seja, quantas componentes são necessárias para explicar a variabilidade dos dados, de modo que estas expliquem a variabilidade dos dados e que a perda de informação seja a menor possível (Gomes, 2013).

Segundo Vialle et al. (2011) a ACP, matematicamente, envolve três etapas principais: i) a padronização das medições para assegurar que eles têm pesos iguais na análise (normatização); ii) cálculo da matriz de covariância identificando os autovalores e seus autovetores correspondentes; e iii) a eliminação de componentes que representam apenas uma pequena proporção da variação nos conjuntos de dados.

Para França (2009) os principais objetivos da análise de componentes principais são: reduzir o número de variáveis, melhorar a interpretação e analisar quais variáveis ou

89 conjuntos de variáveis explicam a maior parte da variabilidade total, revelando o tipo de relacionamento que existe entre elas.

De acordo com Reid & Spencer (2009), a ACP frequentemente é utilizada em análises ambientais, por conter um numeroso conjunto de dados, de complexa interpretação e que as inter-relações entre as variáveis são difíceis de identificar e visualizar.

Olsen et al. (2012) afirmaram que a ACP é o método multivariado mais comumente aplicado na análise dos fenômenos que ocorrem nas bacias hidrográficas, pois utiliza a correlação entre as múltiplas variáveis de qualidade da água, reduzindo efetivamente o número de variáveis, dessa forma auxiliam na identificação e descrição dos padrões espaciais na qualidade da água que resultam de processos hidrológicos e geoquímicos e de fontes de contaminação.

Em relação ao uso da ACP para reduzir a quantidade de variáveis disponível, França (2009), por exemplo, constatou que o primeiro componente obtido em seu trabalho explicou cerca de 80% da variância da amostra, indicando que as variáveis agrupadas nesse fator podem ser consideradas as mais relevantes para a qualidade da água na bacia do Alto Iguaçu, Paraná.

Para Bertossi et al. (2013) e Magyara et al. (2013) a ACP vêm sendo empregada com grande frequência na redução dos dados de monitoramento de água, sendo possível selecionar aquelas características de maior participação em cada componente e definir as características físico-químicas da água que deverão ser monitoradas, reduzindo-se, assim, os custos com análises de características de menor importância na qualidade das águas.

Guedes et al. (2012) avaliaram a qualidade da água no médio Rio Pomba, por meio da análise de componentes principais e identificaram que o melhor comportamento das 15 variáveis de qualidade das águas do médio Rio Pomba foi aquele composto por três fatores (por um grupo de nutrientes, por um grupo orgânico e por um grupo de sólidos em suspensão) explicando 74,30% da variância total.

Işçen et al. (2009) utilizaram a ACP para entender a correlação entre variáveis de qualidade da água e combiná-las em grupos para reduzir a dimensão das variáveis e facilitar a interpretação e as tomadas de decisão. Foram encontrados dois fatores que explicam 86% da variância total na qualidade da água. Os resultados da ACP mostraram que águas residuárias urbanas e drenagem agrícola são as principais fontes de contaminação no rio Eufrates (Turquia). Esse resultado serviu como base para realização de ações preventivas para reduzir essas fontes de poluição.

90 A ACP também pode ser utilizada para identificar e quantificar a variação do solo associada a diferentes processos pedogenéticos. Sobre esta questão, Kummer et al. (2010) aplicaram a ACP para verificar a similaridade de amostras de solos em uma área, com base na granulometria e em seus atributos químicos e mineralógicos, e concluíram que a técnica foi eficiente para verificar as similaridades (agrupamento) ou as diferenças, com base na granulometria e características químicas e mineralógicas, de amostras de solos de ambientes próximos e formados de diferentes materiais de origem e submetidos a variados graus de interferência antrópica.