• Nenhum resultado encontrado

Normalidade dos dados: estatística paramétrica e não paramétrica

No documento antoinephilippecasquin (páginas 58-61)

CAPÍTULO 1: REVISÃO DE LITERATURA

1.2. F ATORES ANTRÓPICOS , FATORES FÍSICOS E QUALIDADE DA ÁGUA

1.2.7. Metodologias Estatísticas

1.2.7.1. Normalidade dos dados: estatística paramétrica e não paramétrica

distribuição normal. Uma variável seguindo uma lei normal (Figura 6) possui algumas propriedades importantes:

- Sua distribuição é simétrica, o que significa que a ela é distribuía de maneira similar dos dois lados da média, o que implica também que a média e a mediana estejam próximas ou iguais.

- O desvio-padrão é representativo da amplitude da variável. Para uma variável seguindo uma lei normal 95% dos seus valores estão num intervalo de ± 2 desvios-padrões da média e 99,7% num intervalo de ± 3 desvios-padrões.

59 Para avaliar se uma variável segue ou não uma lei normal, existem vários testes estatísticos. Um dois mais usados historicamente é o teste de Kolmogorov-Smirnov, por ser antigo e ensinado nas escolas e universidades até hoje. Testes mais poderosos foram, portanto, desenvolvidos, e o teste de Shapiro-Wilk é um dos melhores (RAZALI & WAH, 2011). Os testes de normalidade, porém não são eficientes abaixo de 30 amostras (RAZALI & WAH, 2011), o que pode dificultar a análise estatística dos resultados. Para determinar a normalidade de pequenas amostras, recomenda-se fazer uso do bom senso, do conhecimento sobre o assunto e de representações gráficas dos dados como o gráfico Quantil-Quantil (Q-Q Plot).

Quando as variáveis seguem uma distribuição normal, o R de Pearson é utilizado para medir se há ou não uma correlação. O R é chamado de coeficiente de correlação linear, quando há uma correlação linear evidenciada entre duas variáveis (X a porcentagem de uso urbano e Y a condutividade por exemplo), significa que a relação entre as duas pode se escrever da seguinte forma: Y=aX + b (a e b constantes, a≠0). Para uma correlação negativa perfeita o R= -1; para uma correlação nula, ou seja, a independência perfeita das duas variáveis, R=0 e para uma correlação positiva perfeita, R=1. Na realidade o R quase sempre está diferente desses valores.

Como saber se as duas variáveis estudadas estão correlacionadas? R=0,5 indica uma correlação ou uma independência? Para resolver essa questão um teste estatístico é aplicado sobre o próprio coeficiente de correlação, e depende do tamanho da amostra. O resultado desse teste é o valor-p ou p-value (p), e é em geral interpretado da seguinte maneira:

 p < 0,05: há uma correlação significativa entre as duas variáveis (nível de confiança de 95%)

 p < 0,01: há uma correlação muito significativa entre as duas variáveis (nível de confiança de 99%)

Como mencionado previamente, o cálculo do valor-p é sensível ao tamanho da amostra. Por exemplo um R de 0,6 para 5 amostras (X e Y são dois vetores com 5 valores) tem um valor- p associado de 0.285, o que não é significante. Nesse caso, conclui-se que a hipótese nula (não há correlação) não é rejeitada, significando que para 5 amostras não foi evidenciado uma correlação significativa entre as variáveis X e Y. Não denota que não há correlação entre essas variáveis, mais significa que, conforme os dados apresentados, a hipóteses nula não pode ser descartada com uma margem de confiança razoável. Para poder evidenciar um resultado com correlação estatisticamente significativa, o pesquisador precisa ampliar o número de amostras.

60 Para o mesmo R de 0,6 e 50 amostras, o valor-p associado é inferior a 0,0001, o que significa que há uma correlação muito significativa. Conclui-se que pode rejeitar a hipótese nula com mais de 99.9% de confiança.

Entende-se, então, que para evidenciar correlações entre o uso e cobertura da terra e variáveis de qualidade da água, o número de pontos de amostragem é um parâmetro chave. Uma pesquisa baseada em poucos pontos tem poucas chances de evidenciar correlações significativas. Para poucos pontos, existe a possibilidade de fazer várias medições, aumentando assim o número de amostras.

Quando os dados não são normalmente distribuídos, é possível aplicar uma transformação aos dados para “normalizar-lhes”. A transformação em geral aplicada é a função logaritmo ou exponencial (SLIVA & WILLIAMS, 2011; PRATT & CHANG, 2012). A remoção de um ou vários valores extremos da série de dados é uma outra opção. Ao estudar a distribuição dos valores de uso e cobertura da terra, Tu & Xia (2008) mostram que eles também não seguem uma distribuição normal. Para permitir o uso da estatística paramétrica multivariada (regressão linear múltipla) foi aplicado uma transformação logarítmica ou “raiz quadrada” nesses dados.

A outra possibilidade é de aplicar testes estatísticos não paramétricos. Esses testes, ao invés de se basear nos valores da série de dados, se baseiam na ordem relativa deles. Dois testes equivalentes ao R de Pearson são bastante usados: o Tau (τ) de Kendall e o ρ de Spearman. O teste de Kendall e o teste de Spearman tem um poder similar e a escolha de um ou outro não influirá sobre os resultados encontrados (YUE et al., 2002). Esses dois testes também podem ser aplicados a dados normalmente distribuídos, mas cuja correlação não é linear, mas monótona. Por exemplo Y=aX2 + b (a e b constantes; a e X >0) é uma relação monótona, mas não linear entre as variáveis X e Y.

De maneira geral, as estatísticas descritivas são diferentes para dados seguindo uma distribuição normal ou não. Para uma variável não normalmente distribuída, a mediana indica o valor central dela (ao invés da média) e a distância interquartil é um melhor indicador de variabilidade do que o desvio-padrão.

Os métodos estatísticos também são diferentes e os testes de correlação foram evocados. Para avaliar se um conjunto de dados é significamente diferente de um outro conjunto de dados, utiliza-se o Teste T baseado na média e o desvio-padrão em estatística paramétrica. Na estatística não paramétrica pode-se usar o Teste de Mann-Whitney. No caso de uma regressão, o método “clássico” para dados normalmente distribuídos é o método dos menores quadrados.

61 Um estimador linear não paramétrico é o estimador de declive de Theil-Sen. Uma grande vantagem dos métodos não paramétricos reside nas suas relativas insensibilidades à valores extremos (HEISEL, 1987). A Figura 7 ilustra por exemplo a diferença de resultado entre uma regressão linear pelo método “clássico” e de uma regressão utilizando o estimador de declive de Theil-Sen numa série de dados na qual valores errados foram voluntariamente adicionados.

Figura 7: O estimador de declive de Theil-Sen é menos sensível à valores extremos

Essa sensibilidade limitada para outliers justifica a apelação de “regressão robusta” as vezes encontrada para o estimador de Theil-Sen.

No documento antoinephilippecasquin (páginas 58-61)

Documentos relacionados