Testes estatísticos - VERIFICAÇÃO DA HOMOGENEIDADE DAS SÉRIES

1.3 ANÁLISE DE CONSISTÊNCIA DE DADOS DE PRECIPITAÇÃO

1.3.2 VERIFICAÇÃO DA HOMOGENEIDADE DAS SÉRIES

1.3.2.1 Testes estatísticos

Os procedimentos básicos de estatística dependem fortemente da suposição de que os dados da amostra estejam distribuídos de acordo com uma distribuição específica. Os testes estatísticos podem se dividir em paramétricos e não-paramétricos. Os paramétricos assumem que a distribuição de probabilidade da população onde os dados são retirados é conhecida e que somente os valores de certos parâmetros, tais como a média e o desvio padrão são desconhecidos.

No entanto, se os dados não satisfazem as suposições assumidas pelas técnicas tradicionais, são usados métodos alternativos a que se chamam de testes não-paramétricos.

As técnicas não paramétricas assumem pouca ou nenhuma hipótese sobre a distribuição de probabilidade da população no qual se retiram os dados, isto é, não estão condicionados por qualquer distribuição de probabilidades dos dados em análise. Portanto, torna-se boa opção para situações em que ocorrem violações dos pressupostos básicos necessários para a aplicação de um teste paramétrico, como por exemplo, para testar a diferença de dois grupos quando a distribuição subjacente é assimétrica ou possuem dados coletados em uma escala ordinal, ou ainda, se a distribuição da variável de interesse não é conhecida ou tem comportamento não gaussiano (NAGHETTINI e PINTO, 2007).

A partir dos anos de 1940, a ideia de testes de postos (ranks) ganhou força na

literatura estatística, graças aos pesquisadores Hotelling e Pabst (1936), responsáveis pelos primeiros artigos sobre o assunto e sobre correlações de ordem. A chave para avaliar os dados em uma estrutura não paramétrica é comparar observações com base em seus postos no interior da amostra.

Em geral, os métodos não-paramétricos são de aplicação mais ampla e têm a vantagem de serem aplicados em problemas que a distribuição da população envolvida não precisa pertencer a uma família específica de distribuição de probabilidade tal como Normal, Uniforme, Exponencial e outras. Contudo, são desvantajosos por se baseiarem na substituição do valor real medido, pela posição ocupada na ordenação de valores obtidos, adiante designada por posto, o que pode resultar na perda de alguma informação relativa à variabilidade da série de dados.

1.3.2.1.1 Teste U de Mann-Whitney ou Wilcoxon

É um teste de hipótese, conhecido como o teste de somas das ordens, e consiste na seleção de dois grupos de amostras em cada estação para decidir se as duas amostras tem a mesma origem, contendo cada uma, um período da série histórica de chuvas anuais (WILCOXON, 1945). Estes por sua vez são ordenados de modo crescente e atribuídos um número de posição a cada amostra. Se dois valores amostrais forem idênticos, faz-se a média e atribui-se a posição ao resultado obtido.

De seguida determina-se a soma dos postos para cada amostra, sendo que cada

soma é representada por R1 e R2, onde N1 e N2 são os respectivos tamanhos

amostrais. Por conveniência se as amostras forem de tamanhos diferentes, escolhe-se

N1 como o de menor tamanho de modo que . Uma diferença significativa entre

as somas R1 e R2 implica uma diferença significativa entre as amostras.

O passo seguinte é testar a diferença entre as somas dos postos pelas equações (16) e (17), abaixo apresentadas e obter-se o resultado observado na tabela de distribuição normal, que é comparado com o valor calculado da distribuição estatística de Mann-Whitney (SPIEGEL, 1993).

A média e variância são dadas pelas equações (18) e (19) respetivamente:

Observa-se que a distribuição U é aproximadamente normal, de modo que a

variável reduzida é dada pela equação (20);

Como se pretende testar a hipótese nula H0 supondo que não há diferença entre

as amostras, faz-se um teste bilateral e de preferência para o nível de significância 0,05, onde se tem a seguinte regra de decisão:

o Aceitar H0 se

o Caso contrário, rejeitar H0.

Os resultados obtidos podem ser verificados pelas expressões de (21) a (23):

onde,

1.3.2.1.2 Teste H de Kruskal-Wallis

O teste de Kruskal-Wallis é uma extensão do teste de Wilcoxon-Mann-Whitney. É um teste não-paramétrico utilizado para comparar três ou mais amostras. Ele é usado para testar a hipótese nula de que todas as populações possuem funções de distribuição iguais contra a hipótese alternativa de que ao menos duas das populações possuem funções de distribuição diferentes.

No caso de k amostra pode ser descrito do seguinte modo: Supondo que existam

k amostras de tamanhos N1, N2, ..., Nk, com o tamanho total referente ao conjunto de

todas as amostras dada pela equação (24):

Atribuindo postos aos dados do conjunto de todas as amostras e a soma dos

postos para as k amostras, R1, R2, .., Rk, respectivamente, define-se a estatística,

^∑

Sendo a distribuição amostral de H muito próxima de uma distribuição

qui-quadrado com graus de liberdade, pode-se dizer que para graus de

liberdade ao nível de significância 0,05, têm-se . Se não se pode

rejeitar a hipótese da não existência de diferença entre as amostras ao nível 0,05, isto

é, se aceita a hipótese H0 de que não existe diferença entre as amostras (SPIEGEL,

1993).

Se no momento em que são ordenados de modo crescente e atribuídos um número de posição a cada amostra, existirem valores idênticos entre as observações

dos dados amostrais, o valor de H dado pela estatística acima referida (equação 25)

deve ser corrigido e esta correção de H, representada por Hc é obtida dividindo-se o

valor da estatística H pelo fator de correção fc dado pela equação (26):

∑

O que implica que o novo valor de H será dado pela equação (27):

^∑

∑

onde, T é o número de empates correspondentes a cada observação (SPIEGEL,

1993).

1.3.2.1.3 Teste t de Student

A distribuição t Student, é uma distribuição simétrica em relação à origem e se

aproxima da distribuição Normal padrão, para valores elevados de N. A distribuição t de

Student é usada como distribuição de amostragem da média de uma população normal,

com variância desconhecida (NAGHETTINI e PINTO, 2007). A variável t é expressa

^̅√ ^̅√

onde, N é o tamanho da amostra; ̅ é a média da amostra; é a média da população

e s a variância.

Este teste paramétrico baseia-se na hipótese de igualdade ou diferença das

médias de duas amostras de tamanhos N1 e N2 extraídas de populações normais. Para

testar a hipótese nula H0 de que as amostras provêm da mesma população, isto é,

ou alternativa H1 de que há uma diferença entre elas , adota-se a

equação (29): ^̅ ^̅ √ onde: √ sendo,

Assim sendo, com base em um teste bilateral, aceita-se H0 se o t calculado

estiver dentro do intervalo do valor de t tabela a graus de liberdade. Caso contrário,

No documento Estação de Curitiba (páginas 43-49)