• Nenhum resultado encontrado

2) O QUE (NÃO) É A SIGNIFICÂNCIA ESTATÍSTICA

2.1. Fisher, Neyman-Pearson, Jeffreys e o Ritual Nulo

2.1.3. Contrastando e p-valor

Uma vez que, ao se definir a região crítica em Neyman-Pearson, divide-se o espaço amostral em duas regiões exaustivas, uma de aceitação e outra de rejeição da hipótese nula, obviamente que é possível realizar o teste com qualquer função dos dados, isto é, com qualquer estatística, inclusive o p-valor. Desta forma, com base nas considerações acerca das circunstâncias em que o teste será aplicado – isto é, levando em conta o poder que o teste alcançará, os pesos de cada um dos erros envolvidos, entre outros fatores – uma vez definido a priori, a regra de decisão para a rejeição de será, em geral, 37. Note, contudo, que o nível de significância é uma propriedade do

35 Supondo uma distribuição

a priori para os parâmetros, o risco de bayes é o valor esperado da função risco, isto é, [ ]. A solução de bayes é a regra de decisão que minimiza o risco de bayes. 36 Uma solução minimax é aquela regra de decisão que minimiza o maior risco possível.

37 Desta forma, não é incomum encontrar a definição de p-valor, no contexto de Neyman-Pearson, como “o menor nível de significância em que a hipótese nula teria sido rejeitada” ou { | . Entretanto, esta definição não tem uma interpretação de limite de erro de longo prazo, pois, como visto, o tamanho do teste é definido a priori e o p-valor é uma variável aleatória dependente da amostra. Fisher rejeitou este tipo de interpretação do p-valor (FISHER, 1971, p. 25; 1973b, p. 42-48;79-81; e FISHER 1955).

teste, ou seja, é fixo, e que o valor de não importa a não ser pelo fato de pertencer à região crítica. Por conseguinte, o p-valor não é a probabilidade de erro tipo I e, ao se observar um resultado como , não é válida a interpretação frequentista a

posteriori de que é rejeitada com 38.

Talvez a forma mais fácil de perceber esta diferença entre o p-valor e a probabilidade de erro tipo I seja com testes randomizados. Para se alcançar um arbitrário quando a distribuição de probabilidade não é contínua, é necessário o auxílio de fatores aleatórios que estão além do espaço amostral. Considere o exemplo baseado em Christensen (2005), representado na Tabela 1, abaixo:

Tabela 1 – Distribuição f(x|

x 1 2 3 4

f(x|0) 0,980 0,005 0,005 0,010

f(x|2) 0,098 0,001 0,001 0,900

Para se conseguir um nível de significância arbitrário ao se testar contra é preciso realizar testes randomizados, que consistem em se construir áreas de rejeição randômicas. Para , por exemplo, três conjuntos possíveis que poderiam ser construídos seriam: (i) rejeitar quando , jogar uma moeda e, se der cara, rejeitar quando (assim teríamos ; (ii) rejeitar quando , jogar uma moeda e, se der cara, rejeitar quando (assim teríamos ; e, (iii) rejeitar quando ou jogar uma moeda duas vezes, e se der cara duas vezes, rejeitar quando (assim teríamos . Suponha que, por algum motivo, o pesquisador tenha escolhido a regra de rejeição em (iii). Observe que quando , a mesma “evidência”, isto é, o mesmo p-valor, , uma em cada quatro vezes será considerado “significante” (probabilidade de se ter duas caras) e três em cada quatro vezes não será. Frise-se que neste caso , inclusive, é menor do que a probabilidade de erro tipo I da regra de

38 Entretanto, desde que corretamente calculado, o p-valor pode ter a intepretação contra-factual de severidade do teste (MAYO, SPANOS, 2006).

decisão (iii) que é , independentemente de rejeitarmos ou não em um teste específico39.

Assim, como dito, decerto é possível definir a mesma área de rejeição em termos de uma estatística ou em termos da estatística específica do p-valor. Todavia, como ilustrado pelo exemplo, percebe-se que os testes de hipóteses não tem apelo ao simulacro da prova por contradição e, deste modo, o p-valor é apenas uma estatística que está ou não na área de rejeição definida a priori, O objetivo do teste é controlar um tipo de erro enquanto se minimiza o outro. Ocorre que muitas vezes, dentro do arcabouço de Neyman-Pearson, o nível de significância é tomado pelo pesquisador como o único fato de importância, sem qualquer reflexão quanto ao poder do teste. Isso é claramente incoerente e talvez o exemplo de Kadane (2011, p.439), apesar de irônico, ilustre de forma mais categórica o motivo:

[...] considere, por exemplo, o seguinte teste trivial. Jogue uma moeda viciada que dê cara com probabilidade 0,95 e que dê coroa com probabilidade 0,05. Se a moeda der coroa, rejeite a hipótese nula. Uma vez que a probabilidade de rejeitar a hipótese nula quando ela é verdade é de 0,05, este é um teste com 5% de nível de significância válido. É também bastante robusto a erros nos dados; de fato, sequer depende dos dados.

Obviamente que este teste seria considerado absurdo. Mas tem um nível de significância de 5%; e, se a preocupação do pesquisador fosse de apenas controlar , este é um teste que lhe dará absoluta certeza de que, caso seja verdadeira, ela apenas será rejeitada em 5% das vezes. Isto chama atenção à inferência realizada sem qualquer outra preocupação a não ser o nível de significância: ela é tão boa quanto permitir que uma moeda viciada realize automaticamente o julgamento científico no lugar do pesquisador. É neste sentido que Ziliak e McCloskey (2008a, p. 8-9) atentam ao fato de que ajustar os níveis de erro tipo I e erro tipo II é necessário para se lidar com diferentes atitudes frente ao risco e que, sem se atentar às perdas relativas e aos riscos envolvidos, um teste deste tipo não é “nem um pouco melhor do que uma tabela de números aleatórios” (ZILIAK, MCCLOSKEY, 2008a p. 8-9).

Em resumo, os testes de Neyman-Pearson e os testes de Fisher não são procedimentos,

por si só, comparáveis40. Enquanto o primeiro é projetado para otimizar a detecção de

39 Para não entrar em contradição com a definição de p-valor como “menor nível de significância em que a hipótese nula teria sido rejeitada”, é comum generalizá-la, no caso de testes randomizados, como “menor nível de significância em que a hipótese nula teria sido rejeitada com probabilidade 1”.

alguma hipótese alternativa, o teste de significância não faz nenhuma referência a qualquer outra hipótese além da nula, inexistindo os conceitos de erro tipo II , aceitação da hipótese nula e poder do teste. Enquanto os testes de hipótese partem da premissa de amostras repetidas de uma população definida para a validade da interpretação de erros de longo prazo, definidos em e , o p-valor é uma variável aleatória, propriedade da amostra e da distribuição amostral, e refere-se à probabilidade de observar dados tão extremos, ou mais extremos, sob a hipótese nula, desempenhando um papel epistêmico como uma medida de “evidência indutiva” em experiências individuais. Essas questões, bem como o que fora exposto também anteriormente, são resumidas na Tabela 2.

Tabela 2 – Contraste entre p-valor e

p-valor

Teste de significância Teste de hipótese (regra de decisão “ótima”) Evidência contra Limite de rejeição errônea de

Filosofia indutiva Filosofia dedutiva

Inferência indutiva Comportamento indutivo

Evidencial Não evidencial

Variável aleatória Pré-fixado antes do experimento

Aplicado a um estudo particular Interpretação de longo-prazo em várias amostras População hipotética infinita Amostras aleatórias de uma população definida Fonte: tabela baseada em Hubbard e Bayarri (2003).