Análise Estatística Multivariada

2 ENQUADRAMENTO GERAL

3.3 Análise Estatística Multivariada

A análise estatística multivariada refere-se, de uma forma geral, a todos os métodos estatísticos que analisam simultaneamente múltiplas medidas em cada indivíduo ou objecto sob investigação (Hair et al, 1992). O seu interesse está associado a variáveis aleatórias e interrelacionadas de tal forma que seus diferentes efeitos não podem ser interpretados de maneira significativa separadamente. É um meio de traduzir numa única análise o resultado de múltiplas análises univariadas ou bivariadas (Reis, 1997).

A estatística multivariada entendida como um elemento teórico diferenciado surge no início do século XX associado à escola anglo-saxónica. O seu desenvolvimento está associado ao avanço da tecnologia computacional e à vulgarização da utilização do

computador e de ferramentas informáticas de análise que actualmente permitem a aplicação generalizada dos métodos a qualquer conjunto de dados independentemente da origem, complexidade e tamanho (Reis, 1997).

O índice de vulnerabilidade obtido pelo método DRASTIC resulta da adição ponderada dos vários fatores hidrogeológicos, aos quais se reconhece algum tipo de inter-relação. Esta aparente dependência das variáveis condiciona o tratamento estatístico de qualquer amostra, impossibilitando a elaboração de modelos explicativos com validade estatística. Embora a independência de uma ou várias variáveis possa ser controlada através da aplicação de testes de independência, em modelos mais complexos (caso do DRASTIC), com muitas variáveis e com algum grau de inter-relação preferencial, este tipo de testes tornam-se ineficazes. A análise estatística multivariada é, nestes casos, um dos métodos eficazes para a neutralização da dependência estatística das variáveis, possibilitando a interpretação da variação simultânea da totalidade das variáveis do sistema, preservando toda a informação inicial.

A análise estatística multivariada é uma metodologia que comporta vários métodos estatísticos, quer descritivos quer de inferência, escrutinados em função da natureza das variáveis em causa e da verificação de pressupostos de normalidade multivariada (métodos de inferência) da população de onde provêm as amostras (Reis, 1997). No caso de estudo (DRASTIC), perante variáveis de natureza descritiva (categóricas), será utilizado o método denominado análise de correspondências para o tratamento estatístico.

3.3.1 Análise de correspondências

Como nota histórica, as primeiras considerações matemáticas a respeito da análise de correspondências foram feitas pelo alemão Magnus Hirschfeld no início do Séc. XX na sua abordagem a teorias sobre identidade sexual (Greenacre e Hastie, 1987). O método ganhou expressão na década de 60, a partir dos contributos de Benzécri (escola francesa), definindo um método de análise multivariada baseado nas propriedades algébricas e geométricas das variáveis (Benzécri, 1973).

A Análise de Correspondências é um método exploratório de análise multivariada, que pode ser considerado como um caso especial da análise de componentes principais, delineado todavia para o estudo de dados categóricos e não para dados contínuos. Parte do pressuposto de que existem relações preferenciais entre variáveis, procurando aquelas que melhor traduzam a variação do sistema em estudo (Pacheco, 1998).

O procedimento pode ser aplicado tanto a tabelas de contingência como a tabelas multidimensionais, organizadas em grandes matrizes de dados, permitindo que os resultados das relações entre as demais variáveis ou elementos possam ser analisados pela projecção das nuvens de pontos em gráficos bi-tridimensionais (Naito, 2007). Está substanciado na conversão de uma matriz de observações num espaço vetorial de dimensão menor que o original, de maneira que as relações entre as linhas, entre as colunas e entrelinhas e colunas possam ser interpretadas (Greenacre e Hastie, 1987). O conjunto inicial de variáveis é transformado num novo, constituído apenas por variáveis independentes (fatores), em volta dos quais estará contida a maior responsabilidade da variação do modelo em estudo.

3.3.2 Interpretação de resultados

A análise de correspondências é na sua essência um método estatístico de representação gráfica das variáveis. Todavia, em casos de estudo com elevado número de variáveis e observações, a interpretação dos resultados em espaços geométricos bidimensionais poderá ser uma tarefa complicada. Nestes casos, recorre-se à estatística descritiva para exploração das correlações e significância das variáveis no modelo, baseadas na análise da proporção de inércia das nuvens de pontos relativamente a sistemas de eixos (eixos factoriais) formados pelos fatores gerados na análise de correspondências. Estes procedimentos analíticos traduzem- se na análise dos valores próprios dos eixos factoriais, que em termos geométricos representam a inércia da nuvem de pontos ao longo desses eixos (Jackson, 1991). Desta forma, em análise de correspondências utilizam-se duas técnicas analíticas para interpretação dos resultados, baseadas no cálculo da proporção de inércia total explicada pelos eixos, através da análise dos valores próprios.

- Contribuições absolutas – índice de contribuição dos pontos para a inércia das dimensões. Os coeficientes das contribuições absolutas dão-nos informação sobre quais os elementos ou variáveis que devem ser considerados na interpretação de cada eixo factorial. Os valores mais elevados terão maior expressão, uma vez que representam a contribuição principal pela definição e direcção dos eixos.

- Contribuições relativas - índice de contribuição das dimensões para a inércia dos pontos. Os coeficientes das contribuições relativas traduzem a quantidade de inércia de um determinado ponto, que é explicada pelos fatores, isto é, a contribuição relativa de um factor na dispersão de um qualquer elemento.

As contribuições absolutas e relativas podem ser expressas em percentagem para melhor entendimento dos resultados.

O peso específico das variáveis no modelo e correlações entre elas resultam assim da análise do valor próprio dos vetores e das posições geométricas relativas das variáveis antes e após a transformação (rotação ortogonal ou obliqua dos eixos). A posição geométrica revela a correlação linear entre as variáveis, enquanto o valor próprio do vetor traduz a dispersão dos dados segundo a sua direcção, (Pestana e Gageiro, 2008).

A independência das variáveis é também anulada ou minimizada, uma vez que a variáveis linearmente dependentes correspondem valores próprios nulos, ou próximos de zero, exceto em casos de elevada redundância. Nestas condições, os valores próprios indicam uma contribuição diminuta dos fatores na explicação da variância do modelo, por oposição a outros com valores próprios mais elevados. Esta estratégia analítica permite fazer emergir combinações das variáveis num pequeno número de vetores (fatores comuns), tradutores das relações fundamentais entre variáveis. Estes são determinados por ordem decrescente de importância, isto é o primeiro explica o máximo possível da variância dos dados originais, o segundo explica o máximo possível da variância ainda não explicada, e assim por diante. O último factor comum será o que menor contribuição dá para a explicação da variância do modelo.

3.3.3 Critério de análise factorial

Da aplicação do método resultam vários eixos fatoriais (fatores comuns) com diferentes graus de interesse na explicação do estudo. A escolha do número de fatores a incluir na análise depende essencialmente do propósito do estudo e do número de elementos que compõem a matriz de dados. Interessa assim escrutinar o melhor compromisso de rigor/precisão entre o número de fatores e a preservação de percentagens de inércia elevadas.

O critério de inclusão/exclusão dos fatores comuns na análise baseia-se na aplicação de técnicas de selecção, gráficas ou analíticas, também designadas de critérios de paragem, que garantem fiabilidade estatística pela análise do menor número de fatores, sem que ocorram perdas de informação. Indicam-se de seguida, alguns critérios possíveis de aplicar em análise de correspondências vulgarmente utilizados e que garantem os pressupostos do método (Reis, 1997):

Critérios analíticos:

• Selecção dos fatores cujos valores próprios representem 80 a 90% da variância total; • Exclusão dos fatores cujos valores próprios são inferiores à média.

Critérios Gráficos;

• Teste da montanha (scree test) - A partir da representação gráfica da percentagem de variância explicada por cada factor, excluir aqueles que representem a curva quando esta tiver uma posição quase paralela ao eixo das abcissas.

Os resultados da análise traduzem a descodificação da estrutura de dados, através da hierarquização e agregação da informação, por ordem decrescente do peso específico, na explicação do acontecimento. Por outro lado, garante coerência estatística ao tratamento global dos resultados, designadamente pela eliminação das redundâncias causadas pela inter-relação ou dependência das variáveis. É assim possível observar o relacionamento entre diferentes variáveis, ou a significância estatística de uma variável na explicação ou variação do sistema.

No documento Vulnerabilidade aquífera na orla ocidental portuguesa: otimização do DRASTIC por um método de análise multivariada (páginas 31-36)