P-valor não é uma medida “coerente” de evidência

2) O QUE (NÃO) É A SIGNIFICÂNCIA ESTATÍSTICA

2.2. P-valor como evidência, erro real e diferença substantiva

2.2.2. P-valor não é uma medida “coerente” de evidência

Schervish (1996), em breve artigo, apresentou como a interpretação do p-valor como medida de evidência pode levar a inconsistências lógicas. Suponha que uma hipótese implique na hipótese , isto é, Uma medida de evidência coerente para teria de ser tão grande ou maior do que uma medida de evidência para pois a rejeição de implica logicamente na rejeição de ( O p-valor não

satisfaz a este critério de coerência. Schervish traz um exemplo simples, um teste de

média para a distribuição normal. Ao se observar , o p-valor para a hipótese [ ] é igual a 0.0502 e para a hipótese [ ] é igual a 0.0498. Note que, neste caso, rejeitar implica logicamente em rejeitar . Pois se a média populacional não está no intervalo [ ], então ela também não poderia estar no intervalo[ ] , já que trivialmente [ ] [ ] . Não obstante, se o limiar de 5% fosse adotado, seria rejeitada enquanto não o seria, o que é uma contradição lógica.

Patriota (2012, p.04-05) fornece outro exemplo interessante. Suponha uma amostra aleatória, i.i.d, de uma distribuição normal bivariada, com médias e , com uma matriz identidade de variância-covariância, cujas médias amostrais tenham resultado em ̅̅̅ e ̅̅̅ Ao se calcular o p-valor da estatística de Wald da hipótese nula , obtém-se – valor usualmente considerado

evidência bastante forte. Já se o pesquisador resolvesse testar se , obteria Note que logo, não seria possível rejeitar sem que também se rejeitasse . Deste modo, um nível arbitrário de significância para a decisão levaria a uma contradição lógica. Perceba que, teoricamente, não há contradição no cálculo do p-valor, pois, como bem ressalta Patriota (2012, p.05, grifo nosso) “[...] p- valores são apenas probabilidades de encontrar estatísticas não observadas tão grandes quanto as observadas, a conclusão conflitante apresentada no exemplo acima

não é uma contradição lógica do método frequentista”. A contradição decorre da interpretação do p-valor como uma medida absoluta de evidência51.

A conclusão de Schervish é a de que o único modo coerente de interpretar o p-valor como evidência seria em casos em que não há nenhuma comparação entre hipóteses e,

mesmo assim, este valor deveria ser relativizado de acordo com a hipótese formulada.

Vale aqui trazer outro exemplo simples dado pelo autor. Ainda no contexto da distribuição normal, suponha que se tenha observado . O p-valor para é enquanto que para teríamos . Evidentemente que o dado observado dá mais suporte à hipótese , muito embora seu p-valor seja menor.

***

Como vimos, há um desconhecimento a respeito dos métodos de inferência para testes de hipóteses e suas respectivas medidas de erro e de evidência. Particularmente, é comum se ignorar o peso que o p-valor ou a rejeição de uma hipótese nula têm diante de diferentes circunstâncias, o que leva à incompreensão acerca do real significado de um resultado “estatisticamente (in)significante”. No fim, isso acaba por levar à ideia de que um resultado para ser importante teria de ser, primeiramente, estatisticamente significante (aos níveis usuais) ou, ainda, à ideia de que um resultado estatisticamente significante (aos níveis usuais) é, por conseguinte, importante. Entretanto, a significância estatística (aos níveis usuais) não é condição necessária, tampouco condição suficiente para a importância científica de um resultado.

Como isso se manifesta nos trabalhos empíricos? Vejamos um exemplo retirado do AER por Ziliak e McCloskey (2008a, p. 34), que é bem característico52:

[...] o coeficiente é significante ao nível de confiança de 99 por cento. Nem o choque monetário nem todos os 12 coeficientes como um grupo são estatisticamente diferentes de zero. O coeficiente de _{é negativo e} significante e a defasagem distribuída de também é significante. Na coluna (2) nós mostramos uma regressão que omite as defasagens insignificantes do choque monetário. Agora, a defasagem distribuída de é significante a 1 por cento [...] nós interpretamos isso como indicando que o fator primário determinando variações cíclicas na probabilidade de deixar o desemprego é provavelmente a heterogeneidade [...] entretanto, choques monetários não têm impacto significativo.

Note que as palavras significante e significativo são utilizadas com sentidos ambíguos. O que quer dizer “choques monetários não têm impacto significativo”? Que o efeito dos choques monetários inexiste? Que o efeito é negligenciável? Stricto sensu,

“estatisticamente significante” quer dizer que: dado que a única fonte de erro fosse a

variação amostral53, então, caso o verdadeiro coeficiente fosse zero, a probabilidade de

se obter um coeficiente estimado tão grande ou maior do que o efetivamente estimado

seria menor do que 5%. É evidente que isso não responde se o coeficiente tem impacto significativo ou não no sentido usual do termo. Analogamente, “não ser estatisticamente diferente de zero” quer dizer que, dado que a única fonte de erro fosse a variação amostral, então, caso o verdadeiro coeficiente fosse zero, a probabilidade de

se obter um coeficiente estimado tão grande ou maior do que o efetivamente estimado

seria maior do que 5%. É ainda mais evidente que isso não nos diz se o impacto do choque monetário é relevante ou importante. Perceba que não há qualquer menção ao

tamanho do efeito bem como sua relação com os riscos da inferência que se realiza54.

52_{Talvez a forma mais simples de descrever o fenômeno como aparece nos textos seja a seguinte: o} pesquisador observa se o pacote econométrico coloca os asteriscos nos coeficientes da regressão. Aqueles que não têm asterisco são considerados zero. Aqueles que têm asterisco são importantes e o valor considerado para análise é apenas o próprio valor estimado, sem qualquer preocupação com o próprio erro amostral.

53_{Ou seja, o modelo está corretamente especificado, estatisticamente adequado, não há erros de} mensuração, a amostra é aleatória etc.

54_{Interessante notar o que}_{Tversky e Kahneman (1971, 1974) denotaram por “lei dos pequenos números”.} Os pesquisadores têm a expectativa de que “[...] uma hipótese válida sobre uma população será representada por um resultado estatisticamente significante na amostra – sem qualquer preocupação com seu tamanho. Como consequência, os pesquisadores depositam muita fé em resultados de amostra pequena e superestimam grosseiramente a replicabilidade de tais resultados” (TVERSKY, KAHNEMAN, 1974, p. 1126).

Nesta seção iremos discutir brevemente a confusão entre um resultado estatisticamente significante e um resultado importante (ou significante no sentido cotidiano do termo). Trabalharemos dois pontos: (i) as diversas outras fontes de erro que podem existir e que acabam sendo ignoradas pela busca por resultados significantes; e, (ii) o sentido de se testar hipóteses exatas quando sabemos que modelos não são cópias perfeitas da realidade, bem como a consequente confusão entre diferença estatística e diferença “substantiva” stricto sensu. Por fim, exporemos brevemente alguns métodos que possam indicar como amenizar os problemas de inferência tratados.

No documento UNIVERSIDADE DE BRASÍLIA FACULDADE DE ECONOMIA, ADMINISTRAÇÃO, CONTABILIDADE E CIÊNCIA DA INFORMAÇÃO E DOCUMENTAÇÃO - FACE DEPARTAMENTO DE ECONOMIA (páginas 47-50)